文本相似度检测方法、电子设备及计算机可读存储介质技术

技术编号:21952713 阅读:23 留言:0更新日期:2019-08-24 17:49
本申请实施例提供了一种文本相似度检测方法、电子设备及计算机可读存储介质,涉及计算机技术领域。该方法包括:基于预设文本相似度召回算法以及目标文本信息,从多个文本信息中召回至少一个待检测文本信息,然后基于自然语言处理NLP技术的文本相似度检测算法,分别确定目标文本信息与各个待检测文本信息之间的相似度,然后基于确定结果,分别确定目标文本信息与各个待检测文本信息是否相似。本申请实施例提供的文本相似度检测方法、电子设备及计算机可读存储介质可以提升文本相似度检测的准确度,进而可以提升用户体验。

Text Similarity Detection Method, Electronic Equipment and Computer Readable Storage Media

【技术实现步骤摘要】
文本相似度检测方法、电子设备及计算机可读存储介质
本申请涉及计算机
,具体而言,本申请涉及一种文本相似度检测方法、电子设备及计算机可读存储介质。
技术介绍
随着信息技术的发展,互联网技术随之发展,互联网上充斥着大量的信息,例如,新闻、资讯等信息,但是这些信息中存在一些内容极其相近甚至完全相同的内容。互联网中发布这些极其相近甚至完全相同的内容,从而导致用户在浏览互联网信息时可能看见大量重复的信息,导致用户体验很差,因此对信息进行相似度检测成为一个关键问题。目前,通过Simhash算法对海量的文档、资讯、网页等文本信息进行相似度检测。在通过Simhash算法对两个文本信息进行相似度检测时,包括:对各个文本信息进行分词处理;将各个文本信息分别对应的分词信息进行哈希hash计算;将各个文本信息分别对应的hash值进行加权并合并;将各个合并后的hash值分别进行降维处理;基于各个降维处理后的数据确定这两个文本信息之间的汉明距离,并基于计算出的汉明距离,确定两个文本信息的相似度。然而,当通过Simhash算法计算文本信息的相似度时,由于在合并处理以及降维处理的步骤中导致信息损失较大,可能导致完全不相关的文本信息的汉明距离较小甚至为0,从而导致文本相似度检测的准确度较低,进而导致用户体验较差。
技术实现思路
本申请提供了一种文本相似度检测方法、电子设备及计算机可读存储介质,可以解决文本相似度检测准确度较低以及用户体验较差的问题。技术方案如下:第一方面,提供了一种文本相似度检测方法,该方法包括:基于预设文本相似度召回算法以及目标文本信息,从多个文本信息中召回至少一个待检测文本信息;基于自然语言处理NLP技术的文本相似度检测算法,分别确定目标文本信息与各个待检测文本信息之间的相似度;基于确定结果,分别确定目标文本信息与各个待检测文本信息是否相似。在一种可能的实现方式中,当从多个文本信息中召回多个待检测文本信息时,基于自然语言处理NLP技术的文本相似度检测算法,分别确定目标文本信息与各个待检测文本信息之间的相似度,之前还包括:基于各个待检测文本信息与目标文本信息之间的距离,从多个待检测文本信息中筛选出第一预设个数的待检测文本信息;基于自然语言处理NLP技术的文本相似度检测算法,分别确定目标文本信息与各个待检测文本信息之间的相似度,包括:基于NLP技术的文本相似度检测算法,分别确定目标文本信息与第一预设个数的待检测文本信息中各个待检测文本信息之间的相似度。在一种可能的实现方式中,基于各个待检测文本信息与目标文本信息之间的距离,从多个待检测文本信息中筛选出第一预设个数的待检测文本信息,包括以下至少一项:基于各个待检测文本信息与目标文本信息之间的距离,对各个待检测文本信息进行排序,并基于排序结果按照由小到大的顺序筛选出第一预设个数的待检测文本信息;将多个待检测文本信息划分为多个部分,按照任一部分中各个待检测文本信息与目标文本信息之间的距离,依据预设筛选规则从任一部分中筛选待检测文本信息,以使得从多个部分中筛选出的待检测文本信息的数量满足第一预设个数。在一种可能的实现方式中,按照任一部分中各个待检测文本信息与目标文本信息之间的距离,依据预设筛选规则从任一部分中筛选待检测文本信息,包括:按照任一部分中各个待检测文本信息与目标文本信息之间的距离,筛选与目标文本信息之间的距离最小的待检测文本信息作为符合预设获取规则的待检测文本信息。在一种可能的实现方式中,目标文本信息与任一待检测文本信息之间的相似度包括:目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度以及目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度;基于自然语言处理NLP技术的文本相似度检测算法,确定目标文本信息与任一待检测文本信息之间的相似度,包括:基于NLP技术的文本相似度检测算法,确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度,以及基于NLP技术的文本相似度检测算法,确定目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度。在一种可能的实现方式中,基于确定结果,基于确定结果,确定目标文本信息与任一待检测文本信息是否相似,包括:若目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度满足相似条件,且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度满足相似条件,则确定目标文本信息与任一待检测文本信息相似;若目标文本的标题信息与任一待检测文本信息的标题信息之间的相似度不满足相似条件,且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度满足相似条件,则确定目标文本信息与任一待检测文本信息相似;若目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度不满足相似条件,且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度不满足相似,则确定目标文本信息与任一待检测文本信息不相似;若目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度满足相似条件,且目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度不满足相似条件,则基于目标文本信息的标题信息与任一待检测文本信息的标题信息,并通过实体识别算法以及依存句法分析算法,确定目标文本信息的标题信息与任一待检测文本信息的标题信息是否相似,并基于确定结果,确定目标文本信息与任一待检测文本信息是否相似。在一种可能的实现方式中,确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度,包括:计算目标文本信息的标题信息与任一待检测文本信息的标题信息的字面相似度以及语义相似度;根据计算结果,确定目标文本信息的标题信息与任一待检测文本信息的标题信息之间的相似度。在一种可能的实现方式中,确定目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度,包括:获取第一关键词集合以及第二关键词集合,第一关键词集合中包含目标文本信息的正文信息对应的至少一个关键词,第二关键词集合中包含任一待检测文本信息的正文信息对应的至少一个关键词;确定第一关键词集合以及第二关键词集合的相似度为目标文本信息的正文信息与任一待检测文本信息的正文信息之间的相似度。在一种可能的实现方式中,基于预设文本相似度召回算法以及目标文本信息,从多个文本信息中召回至少一个待检测文本信息,包括:基于预设文本相似度召回算法,按照预设索引格式分别确定各个文本信息以及目标文本信息的索引;依据各个文本信息以及目标文本信息分别对应的索引,从多个文本信息中召回至少一个待检测文本信息;符合预设索引格式的索引由多个组以及每组中的比特数组成。在一种可能的实现方式中,该方法还包括:通过等比例的增加组数并相应的降低每组中的比特数,来修改预设索引格式;按照预设索引格式分别确定各个文本信息以及目标文本信息的索引,包括:通过修改后的预设索引格式,分别确定各个文本信息以及目标文本信息的索引。在一种可能的实现方式中,预设文本相似度召回算法包括以下至少一项:局部敏感哈希LSH算法;最小哈希minHash算法;Simhash算法。第二方面,提供了一种文本相似度检测的装置,该装置包括:召回模块,用于基于预设文本相似度召回算法以及目标文本信息,从多个文本信息中召回本文档来自技高网...

【技术保护点】
1.一种文本相似度检测的方法,其特征在于,包括:基于预设文本相似度召回算法以及目标文本信息,从多个文本信息中召回至少一个待检测文本信息;基于自然语言处理NLP技术的文本相似度检测算法,分别确定所述目标文本信息与各个待检测文本信息之间的相似度;基于确定结果,分别确定所述目标文本信息与各个待检测文本信息是否相似。

【技术特征摘要】
1.一种文本相似度检测的方法,其特征在于,包括:基于预设文本相似度召回算法以及目标文本信息,从多个文本信息中召回至少一个待检测文本信息;基于自然语言处理NLP技术的文本相似度检测算法,分别确定所述目标文本信息与各个待检测文本信息之间的相似度;基于确定结果,分别确定所述目标文本信息与各个待检测文本信息是否相似。2.根据权利要求1所述的方法,其特征在于,当从多个文本信息中召回多个待检测文本信息时,所述基于自然语言处理NLP技术的文本相似度检测算法,分别确定所述目标文本信息与各个待检测文本信息之间的相似度,之前还包括:基于各个待检测文本信息与所述目标文本信息之间的距离,从所述多个待检测文本信息中筛选出第一预设个数的待检测文本信息;所述基于自然语言处理NLP技术的文本相似度检测算法,分别确定所述目标文本信息与各个待检测文本信息之间的相似度,包括:基于NLP技术的文本相似度检测算法,分别确定所述目标文本信息与所述第一预设个数的待检测文本信息中各个待检测文本信息之间的相似度。3.根据权利要求2所述的方法,其特征在于,所述基于各个待检测文本信息与所述目标文本信息之间的距离,从所述多个待检测文本信息中筛选出第一预设个数的待检测文本信息,包括以下至少一项:基于所述各个待检测文本信息与所述目标文本信息之间的距离,对各个待检测文本信息进行排序,并基于排序结果按照由小到大的顺序筛选出第一预设个数的待检测文本信息;将所述多个待检测文本信息划分为多个部分,按照任一部分中各个待检测文本信息与目标文本信息之间的距离,依据预设筛选规则从所述任一部分中筛选待检测文本信息,以使得从所述多个部分中筛选出的待检测文本信息的数量满足第一预设个数。4.根据权利要求3所述的方法,其特征在于,所述按照任一部分中各个待检测文本信息与目标文本信息之间的距离,依据预设筛选规则从所述任一部分中筛选待检测文本信息,包括:按照任一部分中各个待检测文本信息与目标文本信息之间的距离,筛选与目标文本信息之间的距离最小的待检测文本信息作为符合预设获取规则的待检测文本信息。5.根据权利要求1-4任一项所述的方法,其特征在于,所述目标文本信息与任一待检测文本信息之间的相似度包括:所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度以及所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度;基于自然语言处理NLP技术的文本相似度检测算法,确定所述目标文本信息与任一待检测文本信息之间的相似度,包括:基于NLP技术的文本相似度检测算法,确定所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度,以及基于NLP技术的文本相似度检测算法,确定所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度。6.根据权利要求5所述的方法,其特征在于,基于确定结果,确定所述目标文本信息与所述任一待检测文本信息是否相似,包括:若所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度满足相似条件,且所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度满足相似条件,则确定所述目标文本信息与所述任一待检测文本信息相似;若所述目标文本的标题信息与所述任一待检测文本信息的标题信息之间的相似度不满足相似条件,且所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度满足相似条件,则确定所述目标文本信息与所述任一待检测文本信息相似;若所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度不满足相似条件,且所述目标文本信息的...

【专利技术属性】
技术研发人员:陈诚王军伟陈亮
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1