System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息处理,尤其是一种实现多源相似事件实时去重的方法、系统和存储介质。
技术介绍
1、事件类数据(eventdata)是指在特定时间范围内,关于某个特定主题或对象的信息集合。这些数据通常包括事件的描述、发生时间、地点、参与者等信息,以及其他与事件相关的属性。随着信息技术的发展,数据收集手段不断丰富,人们可以更便捷地获取事件相关信息。事件数据通常需要经过整理、清洗和处理,以满足研究需求。例如,在金融领域,事件数据可以通过对公司公告、新闻报道等来源的信息进行搜集和整理而得到。事件数据在多个领域具有广泛应用价值。例如,在金融市场,事件数据可以用于研究信息不对称、市场有效性等问题;在公共政策领域,事件数据可以用于评估政策效果,为政策制定提供参考;在企业管理领域,事件数据可以用于分析企业战略、市场竞争力等。
2、然而,事件类数据中可能存在重复、错误或矛盾的信息,这些数据如果未被识别和处理,将严重影响数据分析的结果。去重能够确保数据质量,提高数据分析的准确性,消除重复影响,使得分析结果更加准确、有效。另外,计算资源是有限的。去除重复事件可以减少计算量,提高数据分析的效率。一方面,事件数据呈现出来源多渠道、数据量庞大的特点,由于不同来源表述上的区别,对同一事件可能会出现不同的描述,文本样式多种多样,如何去除其中的重复数据,并且将最有价值的数据挑选出来是我们亟需解决的问题。另一方面,事件数据通常是实时产生的,需要实时进行数据处理和分析,这对数据处理系统的实时性、性能等方面提出了挑战。
3、常见的文本去重方法主
技术实现思路
1、为了克服上述现有技术中事件去重精确度低的缺陷,本专利技术提出了一种实现多源相似事件实时去重的方法,实现了针对目标事件的高效、精确分类,对相似事件进行聚合,并根据需要对相似事件择一显示,相似事件中其余事件标注为“需要去重”事件,以方便需要时进行去重或者折叠操作。
2、本专利技术提出的一种实现多源相似事件实时去重的方法,包括以下步骤:
3、s1、创建m个队列;
4、s2、获取待分类事件,将待分类事件分配到各个队列进行存储;针对每个队列中的各个待分类事件,执行以下步骤s3-s6;
5、s3、提取待分类事件的属性信息作为目标属性;从数据库中搜索所有符合目标属性的事件作为待匹配事件;属性信息包括:当事人、文件识别信息、相关单位和发生日期中的一项或者多项;
6、s4、将待分类事件逐一与各待匹配事件进行相似度计算,直至从待匹配事件中获取待分类事件的相似事件,将相似事件所在的相似集合作为目标集合,将待分类事件添加到目标集合中,然后执行s5;如果没有与待分类事件相似的待匹配事件,则将待分类事件单独成为一个相似集合作为目标集合,然后执行s6;
7、s5、针对目标集合中的所有事件根据设定排序规则计算排序目标值,将排序目标值最大的事件作为目标集合的第一条数据,目标集合中其余数据标注“需要去重”;
8、s6、在数据库中对目标集合的事件进行更新。
9、优选的,数据库中设置es集群和redis集群;redis集群存储设定的缓存时间内处理过的事件,es集群存储所有事件;缓存时间小于或者等于10分钟。
10、优选的,相似事件的判断条件为:核心属性完全相等&{实体相等或者包含}&文本相似度大于设定阈值&语义相似;
11、核心属性包括当事人和文件识别信息中的至少一项,实体包括时间和客体数量中的至少一项。
12、优选的,s2中,将待分类事件的指定标志信息通过哈希算法转换为哈希值hashcode,令余数m=hashcode%m,将待分类事件存储到第m+1队列中;指定标志信息包括至少一项核心属性。
13、优选的,设定阈值大于或者等于0.6。
14、优选的,s3中,针对行政事件,文件识别信息设置为文件批号,相关单位设置为文件出具机关;针对企业事件,当事人设置为企业,文件识别号设置为文件名称,相关单位设置为第一个发文单位。
15、本专利技术提出的一种实现多源相似事件实时去重的系统,对相似事件进行聚合,并根据聚合结果对相似事件进行折叠显示或者去重处理,提高了相似时间去重效率与准确度,该系统包括:数据存储模块和事件实时去重模块;
16、数据存储模块,用于承载数据库,数据库用于存储历史事件及提取的事件属性、事件类型信息;
17、事件实时去重模块包括:输入单元、数据分流单元、相似事件检索单元、事件相似判定单元和输出单元;
18、输入单元用于输入待分类事件,并对待分类事件进行数据清洗;
19、数据分流单元连接输入单元,用于将待分类事件分配给不同的队列进行多队列并行处理;
20、相似事件检索单元与队列一一对应;相似事件检索单元分别连接数据存储单元和数据分流单元,用于对对应的队列中预处理后的事件进行历史相似事件检索;
21、事件相似判定单元分别与相似事件检索单元和数据存储模块连接;当相似事件检索单元检索到相似事件,则事件相似判定单元通知数据库在相似事件所在相似集合中添加待分类事件,然后对该相似集合中的事件重新进行排序;当相似事件检索单元未检索到相似事件,则事件相似判定单元通知数据库新增待分类事件,并将待分类事件独立形成一个相似集合;
22、输出单元根据相似集合更新情况输出数据去重结果。
23、本专利技术还提出了一种实现多源相似事件实时去重的系统,包括存储器和处理器,存储器中存储有计算机程序,处理器连接存储器,处理器用于执行所述计算机程序,以实现所述的实现多源相似事件实时去重的方法。
24、本专利技术还提出了本专利技术提出的一种存储介质,存储有计算机程序,所述计算机程序被执行时用于实现所述的实现多源相似事件实时去重的方法。
25、本专利技术的优点在于:
26、(1)本专利技术在事件处理上引入去重机制,大大提高了事件处理效率,可支持千万级海量数据实时去重。
27、(2)本专利技术提出的一种实现多源相似事件实时去重的方法,通过计算每个事件的hashcode,将其智能地分派到多个队列中。这种分散并行处理不仅确保了高并发情况下的稳定性,而且明显提高了程序的处理效率和响应速度,实现了高效的数据去重操作。
28、(3)本专利技术采用了一种结合实体相似、语义相似以及文本相似的综合判定机制。这种多维度的综合分析使得相似性判断更为严密准确,极大地提高了事件相似性判断的精度和细致度,大大减少了误判和遗漏的可能性,确保了对于重复或相似事件的高准确本文档来自技高网...
【技术保护点】
1.一种实现多源相似事件实时去重的方法,其特征在于,包括以下步骤:
2.如权利要求1所述的实现多源相似事件实时去重的方法,其特征在于,数据库中设置ES集群和Redis集群;Redis集群存储设定的缓存时间内处理过的事件,ES集群存储所有事件;缓存时间小于或者等于10分钟。
3.如权利要求1所述的实现多源相似事件实时去重的方法,其特征在于,相似事件的判断条件为:核心属性完全相等&{实体相等或者包含}&文本相似度大于设定阈值&语义相似;
4.如权利要求3所述的实现多源相似事件实时去重的方法,其特征在于,S2中,将待分类事件的指定标志信息通过哈希算法转换为哈希值HashCode,令余数m=HashCode%M,将待分类事件存储到第m+1队列中;指定标志信息包括至少一项核心属性。
5.如权利要求3所述的实现多源相似事件实时去重的方法,其特征在于,设定阈值大于或者等于0.6。
6.如权利要求1所述的实现多源相似事件实时去重的方法,其特征在于,S3中,针对行政事件,文件识别信息设置为文件批号,相关单位设置为文
7.一种实现多源相似事件实时去重的系统,其特征在于,包括:数据存储模块和事件实时去重模块;
8.一种实现多源相似事件实时去重的系统,其特征在于,包括存储器和处理器,存储器中存储有计算机程序,处理器连接存储器,处理器用于执行所述计算机程序,以实现如权利要求1-6任一项所述的实现多源相似事件实时去重的方法。
9.一种存储介质,其特征在于,存储有计算机程序,所述计算机程序被执行时用于实现如权利要求1-6任一项所述的实现多源相似事件实时去重的方法。
...【技术特征摘要】
1.一种实现多源相似事件实时去重的方法,其特征在于,包括以下步骤:
2.如权利要求1所述的实现多源相似事件实时去重的方法,其特征在于,数据库中设置es集群和redis集群;redis集群存储设定的缓存时间内处理过的事件,es集群存储所有事件;缓存时间小于或者等于10分钟。
3.如权利要求1所述的实现多源相似事件实时去重的方法,其特征在于,相似事件的判断条件为:核心属性完全相等&{实体相等或者包含}&文本相似度大于设定阈值&语义相似;
4.如权利要求3所述的实现多源相似事件实时去重的方法,其特征在于,s2中,将待分类事件的指定标志信息通过哈希算法转换为哈希值hashcode,令余数m=hashcode%m,将待分类事件存储到第m+1队列中;指定标志信息包括至少一项核心属性。
5.如权利要求3所述的实现多源相似...
【专利技术属性】
技术研发人员:冯卫强,张友豪,吴彦儒,邵李慧,
申请(专利权)人:合肥大智慧财汇数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。