一种多维度信息合并方法、装置、设备及存储介质制造方法及图纸

技术编号:26762639 阅读:28 留言:0更新日期:2020-12-18 23:14
一种多维度信息合并方法、装置、设备及存储介质,方法包括:提取文本的特征主题词;对特征主题词分别进行哈希计算,从而得到包含多个哈希值的集合,对集合中的所有哈希值取和作为主指纹;对所述集合中的各哈希值进行组合取和作为从指纹集合;将从指纹集合与主指纹合并为并集,将并集作为Key、主指纹作为Value构成键值对作为指纹特征子库;以指纹特征子库到指纹特征总库中匹配,若匹配成功,则将指纹特征子库舍弃,若匹配失败,则将特征主题词的哈希值进行

【技术实现步骤摘要】
一种多维度信息合并方法、装置、设备及存储介质
本专利技术涉及文本分析领域下,海量文本相似合并方面。对网络舆情信息进行相似合并,从而达到去重效果。具体地说,涉及一种多维度信息合并方法、装置、设备及存储介质。
技术介绍
随着互联网的普及,互联网日渐成为人们发布信息、获取信息和传递信息的主要载体。伴随自媒体时代的到来,每个个体都可以成为报道着和传话人,舆情数据对及时了解民意、反映社会信息、控制引导舆论正确的发展、社会稳定和国家发展至关重要。对舆情进行分析有助于了解事件的发展态势,避免事件的恶性蔓延,为舆情事件应急管理提供重要的决策支持。然而,互联网舆情信息具有海量数据和高重复性的特性,并且信息的数量以前所未有的速度膨胀着,因此舆情的发展会在很短的时间内爆发和消失,若不进行高效去重,将对用户的及时查看造成压力,在人力的浪费。目前常用的文本去重方法simhash,是将所有文本都分别变换为二进制以后进行两两比较,存在数据量大的时候指数级的计算增量,在海量的数据中会造成无法使用。
技术实现思路
本专利技术将simhash的两两比较本文档来自技高网...

【技术保护点】
1.一种多维度信息合并方法,其特征在于,包括:/n提取文本的特征主题词;/n对所述特征主题词分别进行哈希计算,从而得到包含多个哈希值的集合Set-H,对所述集合Set-H中的所有哈希值取和作为主指纹Hash_M;/n对所述集合Set-H中的各哈希值进行

【技术特征摘要】
1.一种多维度信息合并方法,其特征在于,包括:
提取文本的特征主题词;
对所述特征主题词分别进行哈希计算,从而得到包含多个哈希值的集合Set-H,对所述集合Set-H中的所有哈希值取和作为主指纹Hash_M;
对所述集合Set-H中的各哈希值进行组合取和作为从指纹集合Set_S,其中,n和m为
正整数,m<n;
将所述从指纹集合Set_S与主指纹Hash_M合并为并集,将所述并集作为Key、所述主指纹Hash_M作为Value构成键值对作为指纹特征子库;
以所述指纹特征子库到所述指纹特征总库中匹配,若匹配成功,则将所述指纹特征子
库舍弃,若匹配失败,则将所述特征主题词的哈希值进行组合取和作为所述指纹特征子
库的Value,并将所述文本的指纹特征子库添加到指纹特征总库中,其中,在所述指纹特征
总库中包含有对应多篇文本的指纹特征子库。


2.根据权利要求1所述的多维度信息合并方法,其特征在于,所述以所述指纹特征子库到所述指纹特征总库中匹配是指:
以所述指纹特征子库中的Key与所述指纹特征总库中的各指纹特征子库的Key进行匹配。


3.根据权利要求2所述的多维度信息合并方法,其特征在于,
所述从指纹集合Set_S还包括所述文本中字符数超过设定的长度阈值的k句话连接起来计算的哈希值;
所述从指纹集合Set_S还包括所述文本的原贴url计算的哈希值。


4.根据权利要求1所述的多维度信息合并方法,其特征在于,
所述指纹特征总库中的各指纹特征子库在设定时间段内有效,且在有效期内,若有指纹特征子库匹配上指纹特征总库中的任一指纹特征子库,并且所述任一指纹特征子库的有效期小于设定的到期阈值,则将所述任一指纹特征子库延长一段时间。


5.根据权利要求4所述的多维度信息合并方法,其特征在于,
所述延长一段时间是指延长不少于一小时,且最多延长至有效期不...

【专利技术属性】
技术研发人员:赵自波李青龙骆飞赵冲
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1