文本相似度检测方法、电子设备及计算机可读存储介质技术

技术编号：21952713 阅读：23 留言：0更新日期：2019-08-24 17:49

本申请实施例提供了一种文本相似度检测方法、电子设备及计算机可读存储介质，涉及计算机技术领域。该方法包括：基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息，然后基于自然语言处理NLP技术的文本相似度检测算法，分别确定目标文本信息与各个待检测文本信息之间的相似度，然后基于确定结果，分别确定目标文本信息与各个待检测文本信息是否相似。本申请实施例提供的文本相似度检测方法、电子设备及计算机可读存储介质可以提升文本相似度检测的准确度，进而可以提升用户体验。

Text Similarity Detection Method, Electronic Equipment and Computer Readable Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
文本相似度检测方法、电子设备及计算机可读存储介质
本申请涉及计算机
，具体而言，本申请涉及一种文本相似度检测方法、电子设备及计算机可读存储介质。
技术介绍
随着信息技术的发展，互联网技术随之发展，互联网上充斥着大量的信息，例如，新闻、资讯等信息，但是这些信息中存在一些内容极其相近甚至完全相同的内容。互联网中发布这些极其相近甚至完全相同的内容，从而导致用户在浏览互联网信息时可能看见大量重复的信息，导致用户体验很差，因此对信息进行相似度检测成为一个关键问题。目前，通过Simhash算法对海量的文档、资讯、网页等文本信息进行相似度检测。在通过Simhash算法对两个文本信息进行相似度检测时，包括：对各个文本信息进行分词处理；将各个文本信息分别对应的分词信息进行哈希hash计算；将各个文本信息分别对应的hash值进行加权并合并；将各个合并后的hash值分别进行降维处理；基于各个降维处理后的数据确定这两个文本信息之间的汉明距离，并基于计算出的汉明距离，确定两个文本信息的相似度。然而，当通过Simhash算法计算文本信息的相似度时，由于在合并处理以及降维处理的步骤中导致信息损失较大，可能导致完全不相关的文本信息的汉明距离较小甚至为0，从而导致文本相似度检测的准确度较低，进而导致用户体验较差。
技术实现思路
本申请提供了一种文本相似度检测方法、电子设备及计算机可读存储介质，可以解决文本相似度检测准确度较低以及用户体验较差的问题。技术方案如下：第一方面，提供了一种文本相似度检测方法，该方法包括：基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检...

【技术保护点】
1.一种文本相似度检测的方法，其特征在于，包括：基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息；基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与各个待检测文本信息之间的相似度；基于确定结果，分别确定所述目标文本信息与各个待检测文本信息是否相似。

【技术特征摘要】
1.一种文本相似度检测的方法，其特征在于，包括：基于预设文本相似度召回算法以及目标文本信息，从多个文本信息中召回至少一个待检测文本信息；基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与各个待检测文本信息之间的相似度；基于确定结果，分别确定所述目标文本信息与各个待检测文本信息是否相似。2.根据权利要求1所述的方法，其特征在于，当从多个文本信息中召回多个待检测文本信息时，所述基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与各个待检测文本信息之间的相似度，之前还包括：基于各个待检测文本信息与所述目标文本信息之间的距离，从所述多个待检测文本信息中筛选出第一预设个数的待检测文本信息；所述基于自然语言处理NLP技术的文本相似度检测算法，分别确定所述目标文本信息与各个待检测文本信息之间的相似度，包括：基于NLP技术的文本相似度检测算法，分别确定所述目标文本信息与所述第一预设个数的待检测文本信息中各个待检测文本信息之间的相似度。3.根据权利要求2所述的方法，其特征在于，所述基于各个待检测文本信息与所述目标文本信息之间的距离，从所述多个待检测文本信息中筛选出第一预设个数的待检测文本信息，包括以下至少一项：基于所述各个待检测文本信息与所述目标文本信息之间的距离，对各个待检测文本信息进行排序，并基于排序结果按照由小到大的顺序筛选出第一预设个数的待检测文本信息；将所述多个待检测文本信息划分为多个部分，按照任一部分中各个待检测文本信息与目标文本信息之间的距离，依据预设筛选规则从所述任一部分中筛选待检测文本信息，以使得从所述多个部分中筛选出的待检测文本信息的数量满足第一预设个数。4.根据权利要求3所述的方法，其特征在于，所述按照任一部分中各个待检测文本信息与目标文本信息之间的距离，依据预设筛选规则从所述任一部分中筛选待检测文本信息，包括：按照任一部分中各个待检测文本信息与目标文本信息之间的距离，筛选与目标文本信息之间的距离最小的待检测文本信息作为符合预设获取规则的待检测文本信息。5.根据权利要求1-4任一项所述的方法，其特征在于，所述目标文本信息与任一待检测文本信息之间的相似度包括：所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度以及所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度；基于自然语言处理NLP技术的文本相似度检测算法，确定所述目标文本信息与任一待检测文本信息之间的相似度，包括：基于NLP技术的文本相似度检测算法，确定所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度，以及基于NLP技术的文本相似度检测算法，确定所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度。6.根据权利要求5所述的方法，其特征在于，基于确定结果，确定所述目标文本信息与所述任一待检测文本信息是否相似，包括：若所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度满足相似条件，且所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度满足相似条件，则确定所述目标文本信息与所述任一待检测文本信息相似；若所述目标文本的标题信息与所述任一待检测文本信息的标题信息之间的相似度不满足相似条件，且所述目标文本信息的正文信息与所述任一待检测文本信息的正文信息之间的相似度满足相似条件，则确定所述目标文本信息与所述任一待检测文本信息相似；若所述目标文本信息的标题信息与所述任一待检测文本信息的标题信息之间的相似度不满足相似条件，且所述目标文本信息的...

【专利技术属性】
技术研发人员：陈诚，王军伟，陈亮，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人