【技术实现步骤摘要】
相似信息处理方法以及装置
本公开涉及互联网领域,具体而言,涉及一种相似信息处理方法、装置、电子设备以及计算机可读存储介质。
技术介绍
随着互联网的蓬勃发展,新闻舆情也逐渐转移到互联网上,对新闻舆情的转载、复制、引用等操作使舆情信息重复量庞大,对用户阅读造成一定干扰。特别是当用户希望通过近期或者某一天的热点新闻对某些事件进行分析时,例如根据与某企业相关的舆情信息分析该企业有无重要事件发生以及重要事件的概要内容,比如高管变动,投融资等,而由于信息持续性的大量涌入,且对于同一事件的报道在媒体来源和发布时间上有较高的离散性,导致用户无法进行直观的判别和理解。因此,如何对于海量的新闻舆情进行分析过滤,减少干扰信息是目前亟待解决的问题。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种相似信息处理方法、装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。根据本公开的一个方面,提供一种相似信息处理方法,包括:获取待检测信息的关键数据,对所述关键数据按照预设算法进行计算得到关键数据特征;将所述关键数据特征与信息数据库中数据特征进行匹配,若存在匹配,则确定存在相似信息,并将所述待检测信息作为相似信息存入对应的相似信息集合;按照预设筛选策略从所述相似信息集合中选取待展示的代表信息。在本公开的一种示例性实施 ...
【技术保护点】
1.一种相似信息处理方法,其特征在于,所述方法包括:/n获取待检测信息的关键数据,对所述关键数据按照预设算法进行计算得到关键数据特征;/n将所述关键数据特征与信息数据库中数据特征进行匹配,若存在匹配,则确定存在相似信息,并将所述待检测信息作为相似信息存入对应的相似信息集合;/n按照预设筛选策略从所述相似信息集合中选取待展示的代表信息。/n
【技术特征摘要】
1.一种相似信息处理方法,其特征在于,所述方法包括:
获取待检测信息的关键数据,对所述关键数据按照预设算法进行计算得到关键数据特征;
将所述关键数据特征与信息数据库中数据特征进行匹配,若存在匹配,则确定存在相似信息,并将所述待检测信息作为相似信息存入对应的相似信息集合;
按照预设筛选策略从所述相似信息集合中选取待展示的代表信息。
2.如权利要求1所述的方法,其特征在于,所述预设算法包括:第一预设算法;
所述获取待检测信息的关键数据,对所述关键数据按照预设算法进行计算得到关键数据特征,包括:
获取所述待检测信息的标题信息;
将所述标题信息按照所述第一预设算法进行计算,得到所述关键数据特征。
3.如权利要求2所述的方法,其特征在于,将所述标题信息按照所述第一预设算法进行计算,得到所述关键数据特征,包括:
对所述标题信息进行MD5计算,得到所述标题信息的MD5值,所述关键数据特征为所述标题信息的MD5值。
4.如权利要求1所述的方法,其特征在于,获取待检测信息的关键数据,包括:
获取所述待检测信息的文章信息;
对所述文章信息进行分词处理;
获取分词处理后的出现频次大于预设频次的高频分词;
对所述高频分词设置对应的权重值;
将所述高频分词以及对应的权重值作为所述关键数据。
5.如权利要求2或3所述的方法,其特征在于,所述信息数据库包括标题信息数据库,所述标题信息数据库中存储有标题特征;
将所述关键数据特征与信息数据库中的数据特征进行匹配,包括:
将对所述标题信息进行计算得到的所述关键数据特征与所述标题信息数据库中的标题特征信息数据库进行匹配;
当确定关键数据特征与标题信息数据库中的标题特征不匹配时,所述方法还包括:
获取所述待检测信息的文章信息,对所述文章信息进行分词处理;
获取分词处理后的出现频次大于预设频次的高频分词,对所述高频分词设置对应的权重值;
将所述高频分词以及对应的权重值生成文章指纹;
根据待检测信息的文章指纹遍历文章信息数据库中的文章指纹特征,并计算生成的文章指纹与文章信息数据库中各文章指纹特征的相似值;
若相似值小于或等于预设相似阈值,确定存在所述待检测信息的相似信息。
6.如权利要求4或5所述的方法,其特征在于,所述预设算法包括:第二预设算法,对所述关键数据按照预设算法进行计算得到关键数据特征,包括:
将所述高频分词以及对应的权重值按照第二预设算法进行计算,生成文章指纹,所述文章指纹为所述关键数据特征。
7.如权利要求6所述的方法,其特征在于,
将所述关键数据特征与信息数据库中的所有数据特征进行匹配,包括:
根据待检测信息的文章指纹遍历文章信息数据库中的文章指纹特征,并计算生成的文章指纹与文章信息数据库中各文章指纹特征的相似值;
若相似值小于或等于预设相似阈值,则确定存在所述待检测信息的相似信息;否则,确定不存在相似信息。
8.如权利要求6所述的方法,其特征在于,生成文章指...
【专利技术属性】
技术研发人员:蓝春倩,柳超,
申请(专利权)人:北京金堤征信服务有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。