数据统计方法及装置制造方法及图纸

技术编号:24756228 阅读:30 留言:0更新日期:2020-07-04 09:11
本申请提供一种数据统计方法及装置,方法包括:依据源数据构建倒排索引和正排索引;在接收到数据统计条件时,从数据统计条件中获取查询条件;从倒排索引中查询符合查询条件的字段值,依据查询到各字段值所属的数据ID确定数据ID集合;从数据统计条件中获取聚合条件;从正排索引中查询数据ID集合中每一数据ID包含的待聚合字段的字段值并进行聚合统计得到统计结果。通过对大数据平台中已存储的源数据构建倒排索引和正排索引,当需要统计分析时,向大数据平台输入数据统计条件,通过查询倒排索引和正排索引得到统计结果,可解决数据量大且需实时统计的应用需求问题,同时无需将统计结果写入缓存,可避免系统负载大的问题和统计结果丢失的问题。

Data statistics method and device

【技术实现步骤摘要】
数据统计方法及装置
本申请涉及数据处理
,尤其涉及一种数据统计方法及装置。
技术介绍
随着云计算和人工智能的快速发展,各领域都会产生海量的数据,即大数据,这些大数据的价值正在被深入挖掘并利用到各行各业中。目前,对于数据量比较大或统计流程复杂且耗时的统计需求常采用定时统计方式;对于简单耗时短的统计需求常采用基于流计算的实时统计方式。然而定时统计和实时统计,并不能满足数据量大且需要实时统计的应用需求。
技术实现思路
有鉴于此,本申请提供一种数据统计方法及装置,以解决相关技术无法满足数据量大且需要实时统计的应用需求的问题。根据本申请实施例的第一方面,提供一种数据统计方法,所述方法包括:依据已存储的源数据构建倒排索引和正排索引,所述倒排索引记录有每个字段值所属的数据ID,所述正排索引记录有每个数据ID包含的各个字段的字段值;在接收到数据统计条件时,从所述数据统计条件中获取查询条件,所述查询条件包含至少一个字段值条件;从所述倒排索引中查询符合所述查询条件的字段值,并依据查询到各字段值所属的本文档来自技高网...

【技术保护点】
1.一种数据统计方法,其特征在于,所述方法包括:/n依据已存储的源数据构建倒排索引和正排索引,所述倒排索引记录有每个字段值所属的数据ID,所述正排索引记录有每个数据ID包含的各个字段的字段值;/n在接收到数据统计条件时,从所述数据统计条件中获取查询条件,所述查询条件包含至少一个字段值条件;/n从所述倒排索引中查询符合所述查询条件的字段值,并依据查询到各字段值所属的数据ID确定数据ID集合;/n从所述数据统计条件中获取聚合条件,所述聚合条件至少包含待聚合字段;/n从所述正排索引中查询所述数据ID集合中每一数据ID包含的所述待聚合字段的字段值并进行聚合统计,得到统计结果。/n

【技术特征摘要】
1.一种数据统计方法,其特征在于,所述方法包括:
依据已存储的源数据构建倒排索引和正排索引,所述倒排索引记录有每个字段值所属的数据ID,所述正排索引记录有每个数据ID包含的各个字段的字段值;
在接收到数据统计条件时,从所述数据统计条件中获取查询条件,所述查询条件包含至少一个字段值条件;
从所述倒排索引中查询符合所述查询条件的字段值,并依据查询到各字段值所属的数据ID确定数据ID集合;
从所述数据统计条件中获取聚合条件,所述聚合条件至少包含待聚合字段;
从所述正排索引中查询所述数据ID集合中每一数据ID包含的所述待聚合字段的字段值并进行聚合统计,得到统计结果。


2.根据权利要求1所述的方法,其特征在于,依据已存储的源数据构建倒排索引,包括:
从已存储的源数据中获取指定字段包含的字段值;
针对获取的每一字段值,从已有的倒排索引中查找是否存在该字段值;
若不存在,则将该字段值与该字段值对应的数据ID作为一条倒排索引存储;
若存在,则将该字段值对应的数据ID添加至该字段值所在的倒排索引中。


3.根据权利要求1所述的方法,其特征在于,依据已存储的源数据构建正排索引,包括:
针对已存储的源数据包含的每一数据ID,获取该数据ID包含的指定字段的字段值;
将该数据ID与获取的字段值作为一条正排索引存储。


4.根据权利要求2或3所述的方法,其特征在于,通过如下方式收集所述源数据:
接收采集设备上报的采集设备ID、芯片ID、采集时间和芯片数据;所述芯片数据指的是所述采集设备接收所述芯片ID对应的芯片发送的数据;
从已存储的备案登记信息中,获取所述芯片ID对应的时间类别标签,所述时间类别标签用于指示所述芯片所在的载体的备案登记时间和所述载体的类别;
将所述采集设备ID、所述芯片ID、所述采集时间、所述时间类别标签以及所述芯片数据作为一条源数据存储,并为该条源数据设置用于唯一标识该条源数据的数据ID。


5.根据权利要求1所述的方法,其特征在于,从所述正排索引中查询所述数据ID集合中每一数据ID包含的所述待聚合字段的字段值并进行聚合统计,包括:
从所述正排索引中查询所述数据ID集合中每一数据ID的正排索引项,并将每一数据ID的正排索引项确定为子集合;
从所述子集合中选取一个正排索引项,并选取的正排索引项中查找到所述待聚合字段的字段值,并为该字段值设置统计值,所述统计值初始值置为预设数值,从所述子集合中删除选取的正排索引项;
针对子集合中剩余的每个正排索引项,从该正排索引项中查找到所述待聚合字段的字段值,并将查找到的字段值与设置有统计值的字段值进行比较;若一致,则将所述统计值加1,并从所述子集合中删除该正排索引项;
判断所述子集合是否为空;
若否,则继续执行从所述子集合中选取一个正排索引项的步骤。


6.一种数据统计装置,其特征在于,所述装置包括:
构建单元,用于依据已存储的源数据构建倒排索...

【专利技术属性】
技术研发人员:李聪
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1