一种文本相似度度量方法、装置和介质制造方法及图纸

技术编号：41842395 阅读：26 留言：0更新日期：2024-06-27 18:22

本发明专利技术提供了一种文本相似度度量方法、装置和介质，属于自然语言处理技术领域。通过以下技术方案实现：构建是否分类模型，采集数据集训练是否分类模型；将待测文本输入是训练好的否分类模型，获取是否分类结果和；通过余弦相似度算法计算待测文本的相似度；基于是否分类结果和文本的相似度判断文本相似度结果。本发明专利技术基础相似度度量方法，综合考虑其存在的优缺点，使用文本相似度中的余弦相似度和是否分类模型的有机结合进行综合度量文本相似度，该方法使得传统的余弦相似度在度量文本相似度时存在不足得到一定程度的缓解，使得度量结果能更加稳定更加准确，更符合实际的应用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种文本相似度度量方法、装置和介质，属于自然语言处理。

技术介绍

1、机器学习在自然语言处理（nlp）中也起着至关重要的作用。nlp是人工智能领域的一个重要分支，其目的是使计算机能够理解、解释和生成自然语言的方式。机器学习算法在nlp中的应用主要包括以下几个方面：文本分类、实体识别、信息抽取、机器翻译、语言建模。机器学习在nlp中的作用是通过训练模型来处理和理解大规模的自然语言数据，从而使计算机能够更好地理解、处理和生成自然语言。其中分类任务一直都是机器学习的基础任务，已经被广泛应用在新闻分类、情感分类、主题分类、图片分类、视频分类、广告过滤，内容审核，评论分析，问题对答等nlp、数据挖掘、推荐系统、广告系统等领域。

2、当前的方法存在一定的不足之处。在实际的应用中针对是否的一些文本相似度的度量不是很准确，例如文本“请问你喜欢什么体育运动”和“请问你不喜欢什么体育运动”，针对与这两个文本无论是余弦相似度还是编辑距离等现有方法都不能准度量其相似度，比如通过余弦相似度其度量结果是相似度极高，但是从语义理解上来说应该...

【技术保护点】

1.一种文本相似度度量方法，其特征在于，包括：

2.根据权利要求1所述的文本相似度度量方法，其特征在于，所述是否分类模型基于决策树算法。

3.根据权利要求1所述的文本相似度度量方法，其特征在于，所述数据集数量大于等于10000个样本。

4.根据权利要求1所述的文本相似度度量方法，其特征在于，所述判断文本相似度结果公式如下：

5.一种文本相似度度量装置，包括处理器和存储有程序指令的存储器，其特征在于，所述处理器被配置为在运行所述程序指令时，执行如权利要求1-4任一所述的文本相似度度量方法。

6.一种计算机可读存储介质，其特征在于，...

【技术特征摘要】

1.一种文本相似度度量方法，其特征在于，包括：

2.根据权利要求1所述的文本相似度度量方法，其特征在于，所述是否分类模型基于决策树算法。

3.根据权利要求1所述的文本相似度度量方法，其特征在于，所述数据集数量大于等于10000个样本。

4.根据权利要求1所述的文本相似度度量方法，其特征在于，所述判断文...

【专利技术属性】
技术研发人员：秦西运，
申请(专利权)人：浪潮智能终端有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人