一种文本信息的重复检测方法及装置制造方法及图纸

技术编号:32223223 阅读:25 留言:0更新日期:2022-02-09 17:28
本发明专利技术实施例提供了一种文本信息的重复检测方法及装置,涉及数据处理技术领域。该方法包括:分别基于预设标点符号将第一、第二文本信息拆分为多个语句;获取第一、第二文本信息对应的语句集合;分别拼接第一、第二文本信息对应的语句集合中的语句,获取第一、第二文本信息对应的语句字符串;分别根据第一、第二文本信息对应的语句字符串,计算第一、第二文本信息的语句哈希值;根据第一、第二文本信息的语句哈希值,确定第一、第二文本信息是否为重复的文本信息。本发明专利技术实施例可以在保证效率的情况下提升文本信息的重复检测的准确率,并可以在不同场景中通过不同的容忍度确定文本信息是否重复。信息是否重复。信息是否重复。

【技术实现步骤摘要】
一种文本信息的重复检测方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种文本信息的重复检测方法及装置。

技术介绍

[0002]由于互联网上的信息常常被相互转载,因此互联网中存在大量重复信息,这些重复信息不但浪费了大量存储资源,而且还加重了用户检索和阅读的负担,而且给信息存储、检索、处理带来了诸多不便,因此发现并去除重复信息的研究工作具有非常重要的意义。
[0003]现有技术中的一种文本信息的重复检测方式为:计算文本信息对应的哈希值,并基于文本信息对应的哈希值判断文本信息之间是否属于重复信息。例如:对文本形式的新闻进行重复检测时,计算新闻的标题或正文的哈希值,并基于计算得到的哈希值判断新闻之间是否属于重复新闻。然而,这种重复检测方式只有文本信息的内容完全一致时才能得到相同的哈希值,即使两个文本信息之间只有细微的差异,也会计算出不同的哈希值,因此现有技术中这种重复检测方式的准确率较低。为了提高重复检测的准确率,现有技术中提出的另一种文本信息的重复检测方式为:提取文本信息的特征向量,并根据文本信息的特征向量之间的距离或夹角余本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本信息的重复检测方法,其特征在于,包括:分别基于预设标点符号将第一文本信息和第二文本信息拆分为多个语句;获取所述第一文本信息对应的语句集合和所述第二文本信息对应的语句集合,任一文本信息对应的语句集合为拆分该文本信息得到的多个语句中包括字符数量最多的预设数量个语句组成的集合;分别拼接所述第一文本信息对应的语句集合中的语句和所述第二文本信息对应的语句集合中的语句,获取所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串;分别根据所述第一文本信息对应的语句字符串和所述第二文本信息对应的语句字符串,计算所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值;根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值,确定所述第一文本信息和所述第二文本信息是否为重复的文本信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在获取所述第一文本信息对应的语句集合之前,删除拆分所述第一文本信息得到的各个语句中的特殊字符;在获取所述第二文本信息对应的语句集合之前,删除拆分所述第二文本信息得到的各个语句中的特殊字符。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值,确定所述第一文本信息和所述第二文本信息是否为重复的文本信息,包括:判断所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值是否相同;若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值相同,则确定所述第一文本信息与所述第二文本信息为重复的文本信息;若所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值不同,则确定所述第一文本信息与所述第二文本信息不为重复的文本信息。4.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本信息的语句哈希值和所述第二文本信息的语句哈希值,确定所述第一文本信息和所述第二文本信息是否为重复的文本信息,包括:判断所述第一文本信息的语句哈希值与所述第二文本信息的语句哈希值是否相同;若第一文本信息的语句哈希值与第二文本信息的语句哈希值不同,则获取所述第一文本信息的标题和所述第二文本信息的标题;分别根据所述第一文本信息的标题和所述第一文本信息的标题计算所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值;根据所述第一文本信息的标题哈希值和所述第二文本信息的标题哈希值,确定所述第一文本信息与所述第二文本信息是否为重复的文本信息。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:在根据所述第一文本信息的标题计算所述第一文本信息的标题哈希值之前,删除所述第一文本信息的标题中的特殊字符;在根据所述第二文本信息的标题计算所述第二文本信息的标题哈希值之前,删除所述
第二文本信息的标题中的特殊字符。6.根据权利要求4所述的方法,其特征在于,所述方法还包括:在根据所述第一文本信息的标题计算所述第一文本信息的标题哈希值之前,获取所述第一文本信息的标题中的各个字符的字符数据库UCD分类,删除所述第一文本信息的标题中UCD分类为不属于构成消息主体的UCD分类的字符;在根据所述第二文本信息的标题计算所述第二文本信息的标题哈希值之前,获取所述...

【专利技术属性】
技术研发人员:王德鑫郑伟陈永飞
申请(专利权)人:山东库睿科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1