数据采集方法、装置、计算机设备和计算机可读存储介质制造方法及图纸

技术编号:28429553 阅读:23 留言:0更新日期:2021-05-11 18:39
本发明专利技术提供了一种数据采集方法、装置、计算机设备和计算机可读存储介质。该方法应用于数据接收服务端,包括:接收数据上报请求,数据上报请求包括数据体,数据体包括多条数据记录,数据记录包括主体数据和主体数据的描述信息,主体数据的描述信息包括数据标识、第一标识和主体数据的长度,其中,当第一标识表征主体数据包括元数据时,主体数据包括有效数据和与元数据中字段对应的字段信息,字段信息包括字段名称的长度、字段名称、第二标识、字段值的长度和字段值;当第一标识表征主体数据中不存在元数据时,主体数据包括有效数据;提取数据上报请求中的数据体;解析数据体,得到多条数据记录。通过本发明专利技术,能够减小数据接收服务端响应压力。

【技术实现步骤摘要】
数据采集方法、装置、计算机设备和计算机可读存储介质
本专利技术涉及数据采集
,尤其涉及一种数据采集方法、装置、计算机设备和计算机可读存储介质。
技术介绍
随着显示屏技术、处理芯片技术以及通信技术的发展,越来越多的工作和生活均离不开互联网上。现有技术中,通过对互联网上操作行为和用户信息等大数据进行研究,以不断提升通过互联网提供服务的舒适度和便利性,其中,数据接收服务端如何采集数据,成为该类研究的基础。专利技术人研究发现,目前数据接收服务端在收集上述相关数据时,收集到的数据通常是以文本形式进行传输,例如txt格式、json格式以及xml格式等,而以文本形式进行数据传输时,数据的聚合能力较差,多条数据需要分别接收和解析,导致数据接收服务端与发送端之间需要多次交互,服务端的响应压力较大。
技术实现思路
本专利技术的目的是提供一种数据采集方法、装置、计算机设备和计算机可读存储介质,用于解决现有技术中数据接收服务端响应压力大的技术问题。一方面,为实现上述目的,本专利技术提供了一种数据采集方法。该数据采集方法应用于数据接收服务端,包括:接收数据上报请求,其中,数据上报请求包括数据体,数据体包括多条数据记录,数据记录包括主体数据和主体数据的描述信息,主体数据的描述信息包括数据标识、表征主体数据是否包括元数据的第一标识和主体数据的长度;提取数据上报请求中的数据体;解析数据体,以得到数据体中各条数据记录中的主体数据。进一步地,当第一标识表征主体数据包括元数据时,主体数据包括有效数据和与元数据中字段对应的字段信息;当第一标识表征主体数据中不存在元数据时,主体数据包括有效数据。进一步地,字段信息包括字段名称的长度、字段名称、表征当前字段信息后是否还存在其他字段信息的第二标识、字段值的长度和字段值。进一步地,接收数据上报请求的步骤包括:接收应用程序客户端发送的数据上报请求,其中,多条数据记录对应应用程序客户端接收到的多种操作行为。进一步地,接收数据上报请求的步骤包括:接收应用程序服务端发送的数据上报请求,其中,多条数据记录对应应用程序服务端接收到的多个应用程序客户端发送的资源请求。进一步地,解析数据体,以得到数据体中各条数据记录中的主体数据的步骤包括:解析所述数据体得到所述多条数据记录;对数据记录中的数据进行反序列化;提取反序列化后的数据记录中的主体数据。进一步地,主体数据的描述信息还包括主体数据长度的校验码,解析数据体得到多条数据记录的步骤包括:根据预定算法计算当前解析出的数据记录中主体数据的长度的校验码;提取当前解析出的数据记录中的主体数据长度的校验码;判断计算得到的校验码和提取得到的校验码是否相同;若计算得到的校验码和提取得到的校验码不同,则丢弃当前解析出的数据记录。进一步地,解析数据体得到多条数据记录的步骤包括:当解析到字段名称的长度时,判断当前解析出的字段名称的长度是否在预设范围内;若当前解析出的字段名称的长度不在预设范围内,则丢弃当前解析的数据记录。进一步地,解析数据体得到多条数据记录的步骤包括:当解析到字段名称时,判断当前解析出的字段名称与当前解析的数据记录中已解析出的字段名称是否相同;若当前解析出的字段名称与当前解析的数据记录中已解析出的字段名称相同,则丢弃当前解析的数据记录。进一步地,字段名称的长度占用字段信息的前x1个字节,字段名称位于前x1个字节后且与前x1个字节相邻,第二标识位于字段名称后且占用与字段名称相邻的x2个字节的前y1位,字段值的长度占用x2个字节的后y2位,字段值位于x2个字节后且与x2个字节相邻;元数据中各个字段对应的字段信息依次排列,有效数据位于所有的字段信息之后;主体数据位于主体数据的描述信息之后;解析数据体得到多条数据记录的步骤包括:当解析出一个字段信息后,判断以下不等式是否成立:parsed_bytes+x1+x2+name_size+meta_size<=size其中,parsed_bytes为当前解析的数据记录中已解析出的字段信息的字节数,name_size为当前解析出的字段信息中字段名称的字节数,meta_size为当前解析出的字段信息中字段值的字节数,size为当前解析的数据记录中主体数据的长度;若不等式不成立,则丢弃当前解析的数据记录。另一方面,为实现上述目的,本专利技术提供了一种数据采集装置。该数据采集装置应用于数据接收服务端,包括:接收模块,用于接收数据上报请求,其中,数据上报请求包括数据体,数据体包括多条数据记录,数据记录包括主体数据和主体数据的描述信息,主体数据的描述信息包括数据标识、表征主体数据是否包括元数据的第一标识和主体数据的长度;提取模块,用于提取数据上报请求中的数据体;解析模块,用于解析数据体,以得到数据体中各条数据记录中的主体数据。为实现上述目的,本专利技术还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。为实现上述目的,本专利技术还提供计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。本专利技术提供的数据采集方法、装置、计算机设备和计算机可读存储介质,数据发送端对待传输的数据进行处理,形成特定数据结构的数据记录,再拼接多条数据记录形成数据体,封装至数据上报请求发送至数据接收服务端,数据接收服务端接收到该数据上报请求后,提取数据上报请求中的数据体,然后基于该数据记录的特定结构,能够解析出各条数据记录,进一步解析出数据记录中数据发送端传输数据,因此,该数据采集方法能够在响应一次数据上报请求时得到多条数据记录,在上报相同数据的前提下,能够减少数据发送端与数据接收服务端之前的通信带宽,同时减少数据接收服务端在采集数据时响应数据上报请求的压力。附图说明图1为本专利技术实施例一提供的数据采集方法的流程图;图2为本专利技术实施例二提供的数据采集装置的框图;图3为本专利技术实施例三提供的计算机设备的硬件结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供了一种数据采集方法、装置、计算机设备和计算机可读存储介质,在本专利技术提供的数据采集方法中,数据接收服务端接收数据上报请求,该数据上报请求包括数据体,数据体包括多条数据记录,该数据记录包括主体数据和主体数据的描述信息,主体数据的描述信息包括数据标识、表征主体数据是否包括元数据的第一标识和主体数据的长度。数据发送端基于上述数据记录的结构,将需要传输的数据形成数据记录,并拼接多条数据记录构成数据体,数据接收服务端提取数据上报请求中的数据体,能够基于上述数据记录的结构,从数据体中解析本文档来自技高网...

【技术保护点】
1.一种数据采集方法,其特征在于,应用于数据接收服务端,所述数据采集方法包括:/n接收数据上报请求,其中,所述数据上报请求包括数据体,所述数据体包括多条数据记录,所述数据记录包括主体数据和所述主体数据的描述信息,所述主体数据的描述信息包括数据标识、表征所述主体数据是否包括元数据的第一标识和所述主体数据的长度;/n提取所述数据上报请求中的所述数据体;/n解析所述数据体,以得到所述数据体中各条所述数据记录中的主体数据。/n

【技术特征摘要】
1.一种数据采集方法,其特征在于,应用于数据接收服务端,所述数据采集方法包括:
接收数据上报请求,其中,所述数据上报请求包括数据体,所述数据体包括多条数据记录,所述数据记录包括主体数据和所述主体数据的描述信息,所述主体数据的描述信息包括数据标识、表征所述主体数据是否包括元数据的第一标识和所述主体数据的长度;
提取所述数据上报请求中的所述数据体;
解析所述数据体,以得到所述数据体中各条所述数据记录中的主体数据。


2.根据权利要求1所述的数据采集方法,其特征在于,
当所述第一标识表征所述主体数据包括元数据时,所述主体数据包括有效数据和与所述元数据中字段对应的字段信息;当所述第一标识表征所述主体数据中不存在元数据时,所述主体数据包括所述有效数据。


3.根据权利要求2所述的数据采集方法,其特征在于,
所述字段信息包括字段名称的长度、所述字段名称、表征当前字段信息后是否还存在其他字段信息的第二标识、字段值的长度和所述字段值。


4.根据权利要求1所述的数据采集方法,其特征在于,接收数据上报请求的步骤包括:
接收应用程序客户端发送的数据上报请求,其中,所述多条数据记录对应所述应用程序客户端接收到的多种操作行为。


5.根据权利要求1所述的数据采集方法,其特征在于,接收数据上报请求的步骤包括:
接收应用程序服务端发送的数据上报请求,其中,所述多条数据记录对应所述应用程序服务端接收到的多个应用程序客户端发送的资源请求。


6.根据权利要求1所述的数据采集方法,其特征在于,解析所述数据体,以得到所述数据体中各条所述数据记录中的主体数据的步骤包括:
解析所述数据体得到所述多条数据记录;
对所述数据记录中的数据进行反序列化;
提取反序列化后的所述数据记录中的所述主体数据。


7.根据权利要求6所述的数据采集方法,其特征在于,所述主体数据的描述信息还包括所述主体数据长度的校验码,解析所述数据体得到所述多条数据记录的步骤包括:
根据预定算法计算当前解析出的所述数据记录中主体数据的长度的校验码;
提取当前解析出的所述数据记录中的所述主体数据长度的校验码;
判断计算得到的校验码和提取得到的校验码是否相同;
若计算得到的校验码和提取得到的校验码不同,则丢弃当前解析出的所述数据记录。


8.根据权利要求6所述的数据采集方法,其特征在于,解析所述数据体得到所述多条数据记录的步骤包括:
当解析到所述字段名称的长度时,判断当前解析出的所述字段名称的长度是否在预设范围内;
若当前解析出的所述字段名称...

【专利技术属性】
技术研发人员:许鑫
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1