一种多维度信息合并方法、装置、设备及存储介质制造方法及图纸

技术编号:26762639 阅读:19 留言:0更新日期:2020-12-18 23:14
一种多维度信息合并方法、装置、设备及存储介质,方法包括:提取文本的特征主题词;对特征主题词分别进行哈希计算,从而得到包含多个哈希值的集合,对集合中的所有哈希值取和作为主指纹;对所述集合中的各哈希值进行组合取和作为从指纹集合;将从指纹集合与主指纹合并为并集,将并集作为Key、主指纹作为Value构成键值对作为指纹特征子库;以指纹特征子库到指纹特征总库中匹配,若匹配成功,则将指纹特征子库舍弃,若匹配失败,则将特征主题词的哈希值进行

【技术实现步骤摘要】
一种多维度信息合并方法、装置、设备及存储介质
本专利技术涉及文本分析领域下,海量文本相似合并方面。对网络舆情信息进行相似合并,从而达到去重效果。具体地说,涉及一种多维度信息合并方法、装置、设备及存储介质。
技术介绍
随着互联网的普及,互联网日渐成为人们发布信息、获取信息和传递信息的主要载体。伴随自媒体时代的到来,每个个体都可以成为报道着和传话人,舆情数据对及时了解民意、反映社会信息、控制引导舆论正确的发展、社会稳定和国家发展至关重要。对舆情进行分析有助于了解事件的发展态势,避免事件的恶性蔓延,为舆情事件应急管理提供重要的决策支持。然而,互联网舆情信息具有海量数据和高重复性的特性,并且信息的数量以前所未有的速度膨胀着,因此舆情的发展会在很短的时间内爆发和消失,若不进行高效去重,将对用户的及时查看造成压力,在人力的浪费。目前常用的文本去重方法simhash,是将所有文本都分别变换为二进制以后进行两两比较,存在数据量大的时候指数级的计算增量,在海量的数据中会造成无法使用。
技术实现思路
本专利技术将simhash的两两比较相似度的方式转变为对于信息指纹的查表法,信息指纹融合了TF-IDF提取的特征主题词,特征主题词变形计算、重点特征top三句、原贴url等互联网数据多维特征,结合时间衰减和防偏移方法,形成信息合并的一种综合方法。本申请所采用的技术方案如下:一种多维度信息合并方法,包括:提取文本的特征主题词;对所述特征主题词分别进行哈希计算,从而得到包含多个哈希值的集合Set-H,对所述集合Set-H中的所有哈希值取和作为主指纹Hash_M;对所述集合Set-H中的各哈希值进行组合取和作为从指纹集合Set_S,其中,n和m为正整数,m<n;将所述从指纹集合Set_S与主指纹Hash_M合并为并集,将所述并集作为Key、所述主指纹Hash_M作为Value构成键值对作为指纹特征子库;以所述指纹特征子库到所述指纹特征总库中匹配,若匹配成功,则将所述指纹特征子库舍弃,若匹配失败,则将所述特征主题词的哈希值进行组合取和作为所述指纹特征子库的Value,并将所述文本的指纹特征子库添加到指纹特征总库中,其中,在所述指纹特征总库中包含有对应多篇文本的指纹特征子库。可选地,所述以所述指纹特征子库到所述指纹特征总库中匹配是指:以所述指纹特征子库中的Key与所述指纹特征总库中的各指纹特征子库的Key进行匹配。可选地,所述从指纹集合Set_S还包括所述文本中字符数超过设定的长度阈值的k句话连接起来计算的哈希值。可选地,所述从指纹集合Set_S还包括所述文本的原贴url计算的哈希值。可选地,所述指纹特征总库中的各指纹特征子库在设定时间段内有效,且在有效期内,若有指纹特征子库匹配上指纹特征总库中的任一指纹特征子库,并且所述任一指纹特征子库的有效期小于设定的到期阈值,则将所述任一指纹特征子库延长一段时间。可选地,所述延长一段时间是指延长不少于一小时,且最多延长至有效期不超过72小时。可选地,所述到期阈值是不超过一小时。可选地,所述提取文本的特征主题词包括:采用TF-IDF进行特征主题词提取。可选地,所述指纹特征总库和指纹特征子库是redis数据库。本专利技术还提供一种多维度信息合并装置,包括:主题词提取模块,用于提取文本的特征主题词;指纹特征子库构建模块,用于对所述特征主题词分别进行哈希计算,从而得到包含多个哈希值的集合Set-H,对所述集合Set-H中的所有哈希值取和作为主指纹Hash_M;对所述集合Set-H中的各哈希值进行组合取和作为从指纹集合Set_S,其中,n和m为正整数,m<n;将所述从指纹集合Set_S与主指纹Hash_M合并为并集,将所述并集作为Key、所述主指纹Hash_M作为Value构成键值对作为指纹特征子库;特征匹配模块,用于以所述指纹特征子库到所述指纹特征总库中匹配,若匹配成功,则将所述指纹特征子库舍弃,若匹配失败,则将所述特征主题词的哈希值进行组合取和作为所述指纹特征子库的Value,并将所述文本的指纹特征子库添加到指纹特征总库中,其中,在所述指纹特征总库中包含有对应多篇文本的指纹特征子库。本专利技术还提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的多维度信息合并方法。本专利技术还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的多维度信息合并方法。本专利技术利用文本的特征主题词、文本重点内容top三句、原贴url等互联网数据的多维特征,构成指纹特征子库,并在将指纹特征子库并入到指纹特征总库中时引入时间衰减控制和防偏移控制。将simhash计算两两比对的时间复杂度O(log(n!)),优化成了O(1)。其中O()是指复杂度。因为simhash计算的文本去重是取当前信息的特征集合,与多个历史信息的特征集合轮循,所以其时间复杂度是O(1)~O(n),n=历史信息的数量。而本专利技术是建立主从指纹的hash映射构成哈希链表,对于从指纹特征,每个从指纹特征去哈希链表中查找的复杂度是O(1),因为一个信息通常最多有8个从特征,所以时间复杂度O(1)~O(8)。这显著提高了信息初步合并的准确率、召回率。解决了传统simhash计算速度慢、指数级增长的问题。整体互联网信息的合并率(召回),从传统simhash41%提升到了60%。保证信息的最终高效去重,提高推送给用户的数据质量。本专利技术大幅提高了信息一次合并的准确率、召回率,大幅降低了二次合并空间和时间上处理的复杂度,显著提高了低热度舆情合并效果。可以提供高质量的去重数据,大幅减少推送数据的重报,漏报现象。附图说明通过结合下面附图对其实施例进行描述,本专利技术的上述特征和技术优点将会变得更加清楚和容易理解。图1为本专利技术提供的多维度信息合并方法一实施例的流程示意图;图2为本专利技术提供的多维度信息合并装置一实施例的模块示意图;图3为本专利技术提供的实现多维度信息合并方法的电子设备一实施例的结构示意图。具体实施方式下面将参考附图来描述本专利技术的实施例。本领域的普通技术人员可以认识到,在不偏离本专利技术的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。多维度信息合并方法包括:S1,通过TF-IDF(一种用于信息检索与数据挖掘的常用加权技术)提取每篇本文档来自技高网...

【技术保护点】
1.一种多维度信息合并方法,其特征在于,包括:/n提取文本的特征主题词;/n对所述特征主题词分别进行哈希计算,从而得到包含多个哈希值的集合Set-H,对所述集合Set-H中的所有哈希值取和作为主指纹Hash_M;/n对所述集合Set-H中的各哈希值进行

【技术特征摘要】
1.一种多维度信息合并方法,其特征在于,包括:
提取文本的特征主题词;
对所述特征主题词分别进行哈希计算,从而得到包含多个哈希值的集合Set-H,对所述集合Set-H中的所有哈希值取和作为主指纹Hash_M;
对所述集合Set-H中的各哈希值进行组合取和作为从指纹集合Set_S,其中,n和m为
正整数,m<n;
将所述从指纹集合Set_S与主指纹Hash_M合并为并集,将所述并集作为Key、所述主指纹Hash_M作为Value构成键值对作为指纹特征子库;
以所述指纹特征子库到所述指纹特征总库中匹配,若匹配成功,则将所述指纹特征子
库舍弃,若匹配失败,则将所述特征主题词的哈希值进行组合取和作为所述指纹特征子
库的Value,并将所述文本的指纹特征子库添加到指纹特征总库中,其中,在所述指纹特征
总库中包含有对应多篇文本的指纹特征子库。


2.根据权利要求1所述的多维度信息合并方法,其特征在于,所述以所述指纹特征子库到所述指纹特征总库中匹配是指:
以所述指纹特征子库中的Key与所述指纹特征总库中的各指纹特征子库的Key进行匹配。


3.根据权利要求2所述的多维度信息合并方法,其特征在于,
所述从指纹集合Set_S还包括所述文本中字符数超过设定的长度阈值的k句话连接起来计算的哈希值;
所述从指纹集合Set_S还包括所述文本的原贴url计算的哈希值。


4.根据权利要求1所述的多维度信息合并方法,其特征在于,
所述指纹特征总库中的各指纹特征子库在设定时间段内有效,且在有效期内,若有指纹特征子库匹配上指纹特征总库中的任一指纹特征子库,并且所述任一指纹特征子库的有效期小于设定的到期阈值,则将所述任一指纹特征子库延长一段时间。


5.根据权利要求4所述的多维度信息合并方法,其特征在于,
所述延长一段时间是指延长不少于一小时,且最多延长至有效期不...

【专利技术属性】
技术研发人员:赵自波李青龙骆飞赵冲
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1