相似信息处理方法以及装置制造方法及图纸

技术编号:26730796 阅读:15 留言:0更新日期:2020-12-15 14:31
本公开是关于一种相似信息处理方法、装置、电子设备以及存储介质。其中,该方法包括:获取待检测信息的关键数据,对所述关键数据按照预设算法进行计算得到关键数据特征;将所述关键数据特征与信息数据库中的所有数据特征进行匹配,若匹配,则确定存在相似信息,并将所述待检测信息作为相似信息存入对应的相似信息集合;按照预设筛选策略从所述相似信息集合中选取待展示的代表信息。本公开可以有效地完成对海量的新闻舆情的分析过滤,减少干扰信息。

【技术实现步骤摘要】
相似信息处理方法以及装置
本公开涉及互联网领域,具体而言,涉及一种相似信息处理方法、装置、电子设备以及计算机可读存储介质。
技术介绍
随着互联网的蓬勃发展,新闻舆情也逐渐转移到互联网上,对新闻舆情的转载、复制、引用等操作使舆情信息重复量庞大,对用户阅读造成一定干扰。特别是当用户希望通过近期或者某一天的热点新闻对某些事件进行分析时,例如根据与某企业相关的舆情信息分析该企业有无重要事件发生以及重要事件的概要内容,比如高管变动,投融资等,而由于信息持续性的大量涌入,且对于同一事件的报道在媒体来源和发布时间上有较高的离散性,导致用户无法进行直观的判别和理解。因此,如何对于海量的新闻舆情进行分析过滤,减少干扰信息是目前亟待解决的问题。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种相似信息处理方法、装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。根据本公开的一个方面,提供一种相似信息处理方法,包括:获取待检测信息的关键数据,对所述关键数据按照预设算法进行计算得到关键数据特征;将所述关键数据特征与信息数据库中数据特征进行匹配,若存在匹配,则确定存在相似信息,并将所述待检测信息作为相似信息存入对应的相似信息集合;按照预设筛选策略从所述相似信息集合中选取待展示的代表信息。在本公开的一种示例性实施例中,所述预设算法包括:第一预设算法;所述获取待检测信息的关键数据,对所述关键数据按照预设算法进行计算得到关键数据特征,包括:获取所述待检测信息的标题信息;将所述标题信息按照所述第一预设算法进行计算,得到所述关键数据特征。在本公开的一种示例性实施例中,将所述标题信息按照所述第一预设算法进行计算,得到所述关键数据特征,包括:对所述标题信息进行MD5计算,得到所述标题信息的MD5值,所述关键数据特征为所述标题信息的MD5值。在本公开的一种示例性实施例中,获取待检测信息的关键数据,包括:获取所述待检测信息的文章信息;对所述文章信息进行分词处理;获取分词处理后的出现频次大于预设频次的高频分词;对所述高频分词设置对应的权重值;将所述高频分词以及对应的权重值作为所述关键数据。在本公开的一种示例性实施例中,所述信息数据库包括标题信息数据库,所述标题信息数据库中存储有标题特征;将所述关键数据特征与信息数据库中的数据特征进行匹配,包括:将对所述标题信息进行计算得到的所述关键数据特征与所述标题信息数据库中的标题特征信息数据库进行匹配;当确定关键数据特征与标题信息数据库中的标题特征不匹配时,所述方法还包括:获取所述待检测信息的文章信息,对所述文章信息进行分词处理;获取分词处理后的出现频次大于预设频次的高频分词,对所述高频分词设置对应的权重值;将所述高频分词以及对应的权重值生成文章指纹;根据待检测信息的文章指纹遍历文章信息数据库中的文章指纹特征,并计算生成的文章指纹与文章信息数据库中各文章指纹特征的相似值;若相似值小于或等于预设相似阈值,确定存在所述待检测信息的相似信息。在本公开的一种示例性实施例中,所述预设算法包括:第二预设算法,对所述关键数据按照预设算法进行计算得到关键数据特征,包括:将所述高频分词以及对应的权重值按照第二预设算法进行计算,生成文章指纹,所述文章指纹为所述关键数据特征。在本公开的一种示例性实施例中,将所述关键数据特征与信息数据库中的所有数据特征进行匹配,包括:根据待检测信息的文章指纹遍历文章信息数据库中的文章指纹特征,并计算生成的文章指纹与文章信息数据库中各文章指纹特征的相似值;若相似值小于或等于预设相似阈值,则确定存在所述待检测信息的相似信息;否则,确定不存在相似信息。在本公开的一种示例性实施例中,生成文章指纹后,所述方法还包括:将所述文章指纹分为预设数量段子文章指纹;所述将所述关键数据特征与文章信息数据库中的所有数据特征进行匹配,包括:根据所述预设数量段子文章指纹依次遍历预设的文章信息数据库中的所有文章指纹特征,计算当前段信息指纹与所述信息数据库中指纹特征的相似值;若所述预设数量段子文章指纹中的任意一段与信息数据库中的指纹特征的相似值小于或等于预设相似阈值,则确定所述关键数据特征与信息数据库中的数据特征匹配,存在所述待检测信息的相似信息。在本公开的一种示例性实施例中,对所述待检测信息进行分词处理,包括:获取预设的企业名称数据库;根据所述预设的企业名称数据库中存储的企业名称对所述文章信息进行分词处理。在本公开的一种示例性实施例中,根据所述预设的企业名称数据库中存储的企业名称对所述文章信息进行分词处理,包括:将文章信息中任意相邻的至少两个字符作为匹配信息在预设的企业名称数据库中进行遍历;若所述匹配信息中包含企业名称数据库中存储的企业名称,则提取所述匹配信息中的企业名称作为分词结果。在本公开的一种示例性实施例中,按照预设筛选策略从所述相似信息集合中选取待展示的代表信息,包括:获取所述待检测信息的发布来源;判断所述发布来源是否为满足预设级别条件的来源;若是,将所述待检测信息作为待展示的代表信息。在本公开的一种示例性实施例中,将所述关键数据特征与信息数据库中的所有数据特征进行匹配后,所述方法还包括:若所述关键数据特征与信息数据库中的数据特征不匹配,确定不存在所述待检测信息的相似信息,则新建相似信息集合;将所述关键数据特征存入所述相似信息集合中,并将所述待检测信息作为代表信息。在本公开的一种示例性实施例中,按照预设筛选策略从所述相似信息集合中选取待展示的代表信息后,所述方法还包括:获取所述代表信息的标题,将所述代表信息的标题以及对应的索引标识进行关联后展示。在本公开的一个方面,提供一种相似信息处理装置,包括:数据获取模块,用于获取待检测信息的关键数据,对所述关键数据按照预设算法进行计算得到关键数据特征;数据匹配模块,用于将所述关键数据特征与信息数据库中的所有数据特征进行匹配,若匹配,则确定存在相似信息,并将所述待检测信息作为相似信息存入对应的相似信息集合;信息筛选模块,用于按照预设筛选策略从所述相似信息集合中选取待展示的代表信息。在本公开的一种示例性实施例中,所述预设算法包括第一预设算法,所述数据获取模块,具体用于:获取所述待检测信息的标题信息;将所述标题信息按照所述第一预设算法进行计算,得到所述关键数据特征。在本公开的一种示例性实施例中,所述数据获取模块,还用于:对所述标题信息进行MD5计算,得到所述标题信息的MD5值,所本文档来自技高网...

【技术保护点】
1.一种相似信息处理方法,其特征在于,所述方法包括:/n获取待检测信息的关键数据,对所述关键数据按照预设算法进行计算得到关键数据特征;/n将所述关键数据特征与信息数据库中数据特征进行匹配,若存在匹配,则确定存在相似信息,并将所述待检测信息作为相似信息存入对应的相似信息集合;/n按照预设筛选策略从所述相似信息集合中选取待展示的代表信息。/n

【技术特征摘要】
1.一种相似信息处理方法,其特征在于,所述方法包括:
获取待检测信息的关键数据,对所述关键数据按照预设算法进行计算得到关键数据特征;
将所述关键数据特征与信息数据库中数据特征进行匹配,若存在匹配,则确定存在相似信息,并将所述待检测信息作为相似信息存入对应的相似信息集合;
按照预设筛选策略从所述相似信息集合中选取待展示的代表信息。


2.如权利要求1所述的方法,其特征在于,所述预设算法包括:第一预设算法;
所述获取待检测信息的关键数据,对所述关键数据按照预设算法进行计算得到关键数据特征,包括:
获取所述待检测信息的标题信息;
将所述标题信息按照所述第一预设算法进行计算,得到所述关键数据特征。


3.如权利要求2所述的方法,其特征在于,将所述标题信息按照所述第一预设算法进行计算,得到所述关键数据特征,包括:
对所述标题信息进行MD5计算,得到所述标题信息的MD5值,所述关键数据特征为所述标题信息的MD5值。


4.如权利要求1所述的方法,其特征在于,获取待检测信息的关键数据,包括:
获取所述待检测信息的文章信息;
对所述文章信息进行分词处理;
获取分词处理后的出现频次大于预设频次的高频分词;
对所述高频分词设置对应的权重值;
将所述高频分词以及对应的权重值作为所述关键数据。


5.如权利要求2或3所述的方法,其特征在于,所述信息数据库包括标题信息数据库,所述标题信息数据库中存储有标题特征;
将所述关键数据特征与信息数据库中的数据特征进行匹配,包括:
将对所述标题信息进行计算得到的所述关键数据特征与所述标题信息数据库中的标题特征信息数据库进行匹配;
当确定关键数据特征与标题信息数据库中的标题特征不匹配时,所述方法还包括:
获取所述待检测信息的文章信息,对所述文章信息进行分词处理;
获取分词处理后的出现频次大于预设频次的高频分词,对所述高频分词设置对应的权重值;
将所述高频分词以及对应的权重值生成文章指纹;
根据待检测信息的文章指纹遍历文章信息数据库中的文章指纹特征,并计算生成的文章指纹与文章信息数据库中各文章指纹特征的相似值;
若相似值小于或等于预设相似阈值,确定存在所述待检测信息的相似信息。


6.如权利要求4或5所述的方法,其特征在于,所述预设算法包括:第二预设算法,对所述关键数据按照预设算法进行计算得到关键数据特征,包括:
将所述高频分词以及对应的权重值按照第二预设算法进行计算,生成文章指纹,所述文章指纹为所述关键数据特征。


7.如权利要求6所述的方法,其特征在于,
将所述关键数据特征与信息数据库中的所有数据特征进行匹配,包括:
根据待检测信息的文章指纹遍历文章信息数据库中的文章指纹特征,并计算生成的文章指纹与文章信息数据库中各文章指纹特征的相似值;
若相似值小于或等于预设相似阈值,则确定存在所述待检测信息的相似信息;否则,确定不存在相似信息。


8.如权利要求6所述的方法,其特征在于,生成文章指...

【专利技术属性】
技术研发人员:蓝春倩柳超
申请(专利权)人:北京金堤征信服务有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1