一种文本相似度确定方法、系统、存储介质以及设备技术方案

技术编号:28373944 阅读:49 留言:0更新日期:2021-05-08 00:01
本发明专利技术公开了一种文本相似度确定方法、系统、存储介质以及设备,通过获取第一文本和第二文本中每个词的词嵌入向量,通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量,基于第一语义特征向量和第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。该方法通过神经网络模型结合Tanimoto系数模型确定第一文本和所述第二文本的相似度,有效提高了确定文本相似度的效率。

【技术实现步骤摘要】
一种文本相似度确定方法、系统、存储介质以及设备
本专利技术涉及自然语言处理
,尤其涉及一种文本相似度确定方法、系统、存储介质以及设备。
技术介绍
文本语义相似度在不同的自然语言处理任务中扮演着重要角色。在信息爆炸时代,通常有大量的文本信息需要人们去阅读与理解,所以计算文本相似度对后续的文本处理起着非常关键的作用。文本相似度一般指文本在语义上的相似程度,被广泛应用于自然语言处理任务的各个领域。比如机器翻译领域、搜索引擎领域、自动问答领域、关键词抽取领域、文本聚类领域等,文本相似度计算主要可以帮助我们理解短文本间的语义相似程度。文本语义相似度一般是给定两个句子作为输入,判断两个句子的语义是否相同,换句话说就是提出一个模型来学习和计算两个句子的相似程度。传统的方法一般是基于词袋模型的方法,比如有LSA和VSM等,这些方法虽然也可以进行相似度计算,当特征项较多时,产生的高维稀疏矩阵导致计算效率不高,而且不适用于大规模的文本。近年来基于深度学习的方法已经成为了主流,用深度学习做文本相似度计算,首先要对文本进行向量表征,然后计算两个文本的相似本文档来自技高网...

【技术保护点】
1.一种文本相似度确定方法,其特征在于,包括:/n获取第一文本和第二文本中每个词的词嵌入向量;/n通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入神经网络模型,获取所述第一文本的第一语义特征向量以及所述第二文本的第二语义特征向量;/n基于所述第一语义特征向量和所述第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。/n

【技术特征摘要】
1.一种文本相似度确定方法,其特征在于,包括:
获取第一文本和第二文本中每个词的词嵌入向量;
通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入神经网络模型,获取所述第一文本的第一语义特征向量以及所述第二文本的第二语义特征向量;
基于所述第一语义特征向量和所述第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。


2.根据权利要求1所述的方法,其特征在于,所述Tanimoto系数模型包括:

其中,Ej代表相似度值,S1代表第一语义特征向量,S2代表第二语义特征向量。


3.根据权利要求1所述的方法,其特征在于,在所述获取第一文本和第二文本中每个词的词嵌入向量之前,所述方法还包括:
对所述第一文本和所述第二文本分别进行预处理,以获取长度相等的所述第一文本和所述第二文本。


4.根据权利要求3所述的方法,其特征在于,对所述第一文本和所述第二文本分别进行预处理,以获取长度相等的所述第一文本和所述第二文本,包括:针对每个文本,去除文本中的停用词、标点符号和标签中的至少一种。


5.根据权利要求1所述的方法,其特征在于,所述获取第一文本和第二文本中每个词的词嵌入向量,包括:
利用ELMo模型获取所述第一文本和所述第二文本中每个词的词嵌入向量。


6.根据权利要求1所述的方法,其特征在于,所述通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入神经网络模型,获取所述第一文本的第一语义特征向量以及所述第二文本的第二语义特征向量,包括:
通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入ALBERT模型,获取所述第一文本的所述第一语义特征向量以及所述第二文本的所述第二语义特征向量。


7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入神经网络模型,获取所述第一文本的第一语义特征向量以及所述第二文本的第二语义特征向量之后,还包括:
利用自注意机制模型对所述第一语义特征向量和所述第二语义特征向量进行...

【专利技术属性】
技术研发人员:唐光远陈海波李润静罗琴张俊杰熊琼
申请(专利权)人:珠海格力电器股份有限公司珠海联云科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1