一种事件统计方法及装置制造方法及图纸

技术编号:25044886 阅读:20 留言:0更新日期:2020-07-29 05:34
本说明书公开了一种事件统计方法及装置,所述方法包括:从数据流中提取事件;确定提取出的各事件的执行主体;计算提取出的各事件的热度指标;在滑动的时间区间内,对各执行主体执行的事件的热度指标进行汇总统计,得到与各执行主体对应的热度指标,并输出与各执行主体对应的汇总统计结果。应用本方法,可以令输出的统计结果更细致地反映事件的演变过程,且相对于传统的批次处理具有更高的计算效率。

【技术实现步骤摘要】
一种事件统计方法及装置
本申请涉及计算机应用领域,尤其涉及一种事件统计方法及装置。
技术介绍
在金融监管领域,为了对企业乃至整个行业进行规范与监管,人们常常需要对与金融活动相关且包含金融活动参与主体的事件进行统计与分析;例如,某段时间以来多家媒体撰文爆料某企业的现金流紧张、亏损严重,则监管者就可以通过对此类事件的统计与分析,获知该企业的运营风险,并采取必要措施。
技术实现思路
有鉴于此,本说明书公开了一种事件统计方法及装置。根据本申请实施例的第一方面,公开了一种事件统计方法,所述方法包括:从数据流中提取事件;确定提取出的各事件的执行主体;计算提取出的各事件的热度指标;在滑动的时间区间内,对各执行主体执行的事件的热度指标进行汇总统计,得到与各执行主体对应的热度指标,并输出与各执行主体对应的汇总统计结果。根据本申请实施例的第二方面,公开了一种事件统计装置,所述装置包括:事件提取模块,从数据流中提取事件;执行主体确定模块,确定提取出的事件的执行主体;热度指标计算模块,计算提取出的各事件的热度指标;汇总统计模块,在滑动的时间区间内,对各执行主体执行的事件的热度指标进行汇总统计,得到与各执行主体对应的热度指标,并输出与各执行主体对应的汇总统计结果。以上技术方案中,一方面,由于采用了动态时间区间统计、实时计算输出的方式,事件热度的变化会即时地体现在统计结果中;因此,一段时间内输出的事件统计结果能够更好地反映事件的演变过程,方便用户把握当前热点以及变化规律。另一方面,由于采用了流计算的设计,首先从数据流中提取事件,再针对事件统计热度,并按执行主体进行汇总统计的方式,相对于传统的按批次异步处理设计,无需反复取出、回溯整批数据,因此能够更充分地利用计算资源,提高程序执行性能。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书文本一同用于解释原理。图1是本说明书所述事件统计方法的一流程示例图;图2是本说明书所述从数据流中提取事件的一示意图;图3是本说明书所述事件流去重的一示例图;图4是本说明书所述滑动时间区间统计的一示例图;图5是本说明书所述多个输出结果综合展示的一示例图;图6是本说明书所述事件统计装置的一结构示例图;图7是本说明书所述用于事件统计的电子设备的一结构示例图。具体实施方式为了使本
的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的系统和方法的例子。在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。在金融监管领域,为了对企业乃至整个行业进行规范与监管,人们常常需要对与金融活动相关且包含金融活动的参与主体的事件进行统计与分析;例如,某段时间以来多家媒体撰文爆料某企业的现金流紧张、亏损严重,则监管者就可以通过对此类事件的统计与分析,获知该企业的运营风险,并采取必要措施。在相关技术中,通常采用固定窗口统计、异步更新的方式完成事件统计;具体而言,可以通过在线采集的方式将原始数据沉淀于数仓(数据仓库)环境,再以批量计算的方式按照数据中的时间信息进行聚合,最后异步更新、产出统计数据。固定窗口统计,指统计的时间区间之间没有重叠的统计方式,例如统计每天的商品销售额,特点是逻辑清晰、性能压力低;与之对应的是滑动窗口统计,又称动态时间区间统计,在动态时间区间统计中,用于统计的时间区间之间存在重叠,很多数据会被划到大于一个区间中统计,例如统计最近一个小时的浏览量等,特点是即时性好、性能压力大。采用上述统计方式,由于采用了批量计算、异步更新的设计,相对滑动窗口统计可以减少对计算资源的耗用,提升性能;但是,该方案由于采用数仓批量计算,异步更新的频率不高,会导致统计数据的产出严重滞后,无法满足对热点统计的使用需求。基于此,本说明书提出一种基于流式计算的、从数据流中提取事件流,进一步生成事件的执行主体的热度统计流,并实时输出的技术方案。其中,数据流一般是指,在时间分布和数量上无限的一系列动态数据集合体,通常,此类数据的价值随着时间的流逝而降低,因此对其处理具有较高的时效性要求;相对应的,流式计算是指对数据流进行的、持续性的计算;相对于传统的批量计算,前者强调实时性和持续性,可以用于互联网、金融等领域的事件监控、趋势分析等。在实现时,从持续的数据流中提取需要进行统计分析的事件,并确定事件的执行主体,以便在计算得到上述事件的热度指标后,可以根据事件的执行主体,对上述热度指标进行汇总统计;如此,原始的数据流便完成了向事件流、执行主体热度流的转化。在以上技术方案中,一方面,由于采用了动态时间区间统计、实时计算输出的方式,事件热度的变化会即时地体现在统计结果中;因此,一段时间内输出的事件统计结果能够更好地反映事件的演变过程,方便用户把握当前热点以及变化规律。另一方面,由于采用了流计算的设计,首先从数据流中提取事件,再针对事件统计热度,并按执行主体进行汇总统计的方式,相对于传统的按批次异步处理设计,无需反复调取、回溯整个批次的数据,能够更充分地利用计算资源,提高程序执行性能。下面通过具体实施例并结合具体的应用场景对本申请进行描述。请参考图1,图1是本申请一实施例提供的一种事件统计方法的一流程示意图,该方法执行以下步骤:S101,从数据流中提取事件;S102,确定提取出的各事件的执行主体;S103,计算提取出的各事件的热度指标;S104,在滑动的时间区间内,对各执行主体执行的事件的热度指标进行汇总统计,得到与各执行主本文档来自技高网
...

【技术保护点】
1.一种事件统计方法,包括:/n从数据流中提取事件;/n确定提取出的各事件的执行主体;/n计算提取出的各事件的热度指标;/n在滑动的时间区间内,对各执行主体执行的事件的热度指标进行汇总统计,得到与各执行主体对应的热度指标,并输出与各执行主体对应的汇总统计结果。/n

【技术特征摘要】
1.一种事件统计方法,包括:
从数据流中提取事件;
确定提取出的各事件的执行主体;
计算提取出的各事件的热度指标;
在滑动的时间区间内,对各执行主体执行的事件的热度指标进行汇总统计,得到与各执行主体对应的热度指标,并输出与各执行主体对应的汇总统计结果。


2.根据权利要求1所述的方法,所述数据流包括舆情文章;
所述计算提取出的各事件的热度指标,包括:
获取所述事件所对应的舆情文章的影响力指标;其中,所述影响力指标表征所述舆情文章在公众舆论中的影响力;
基于获取到的影响力指标,计算提取出的各事件的热度指标;其中,所述热度指标与所述影响力指标正相关。


3.根据权利要求2所述的方法,所述影响力指标包括舆情文章来源的可信度评分;其中,所述可信度评分表征舆情文章的来源的可信度。


4.根据权利要求2所述的方法,所述方法还包括:
在提取出的各事件中,将源自同一舆情文章,且执行主体相同的事件归入同一个待去重事件组;
保留各待去重事件组中,发生时间最晚的事件,舍弃事件组中的其他事件。


5.根据权利要求1所述的方法,所述在滑动的时间区间内,对各执行主体执行的事件的热度指标进行汇总统计,得到与各执行主体对应的热度指标,包括:
在滑动的时间区间内,对各执行主体执行的事件的热度指标进行求和计算,得到与各执行主体对应的热度指标。


6.根据权利要求1所述的方法,所述输出与各执行主体对应的汇总统计结果,包括:
依据与各执行主体对应的热度指标,对各执行主体进行排序;
输出与所述排序中的前N个执行主体对应的汇总统计结果;其中,N为预设自然数。


7.一种事件统计装置,包括:
事件提取模块,从...

【专利技术属性】
技术研发人员:张旭
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1