一种文本相似度确定方法及设备技术

技术编号：36897572 阅读：15 留言：0更新日期：2023-03-18 09:18

本申请涉及自然语言处理技术领域，公开了一种文本相似度确定方法及设备，包括：在对第一文本、第二文本进行分词处理后，确定每个分词的词嵌入向量，其中词嵌入向量为确定分词的词全局信息后，利用分词以及分词的词全局信息确定分词的词局部信息过程中得到的，然后利用第一分词集合中每个分词对应的词嵌入向量和每个分词的第一权重确定第一文本的句子向量，并利用第二分词集合中每个分词对应的词嵌入向量和每个分词的第二权重确定第二文本的句子向量，最后通过第一文本的句子向量和第二文本的句子向量，确定第一文本和第二文本的相似度，进而提高确定文本相似度的准确率。进而提高确定文本相似度的准确率。进而提高确定文本相似度的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本相似度确定方法及设备

[0001]本申请涉及自然语言处理
，尤其涉及一种文本相似度确定方法及设备。

技术介绍

[0002]随着电子产品智能化程度的不断提高，在智能问答、信息检索等应用场景中，对文本进行自动识别和相似度比对的要求越来越高。相关技术中，通过比对两个文本中关键词词语重合度确定两个文本的相似度，但是针对语义丰富的词语来说，在不同的文本中可能具有不同的含义，进而导致确定两个文本相似度的准确率较低。

技术实现思路

[0003]本申请实施例提供一种文本相似度确定方法及设备，从而可以提高确定文本相似度的准确率。
[0004]第一方面，本申请一实施例提供了一种文本相似度确定方法，包括：
[0005]对第一文本、第二文本进行分词处理，得到第一分词集合、第二分词集合；
[0006]针对所述第一分词集合和所述第二分词集合中的每个分词，确定所述分词对应的词嵌入向量；其中，所述词嵌入向量为确定所述分词的词全局信息后，利用所述分词以及所述分词的词全局信息确定所述分词的词局部信息过程中得到的；
[0007]利用所述第一分词集合中每个分词对应的词嵌入向量和每个分词的第一权重确定所述第一文本的句子向量；并利用所述第二分词集合中每个分词对应的词嵌入向量和每个分词的第二权重确定所述第二文本的句子向量；
[0008]通过所述第一文本的句子向量和所述第二文本的句子向量，确定所述第一文本和所述第二文本的相似度。
[0009]相对于现有技术中，仅根据文本中关键词词语确定文

【技术保护点】

【技术特征摘要】
1.一种文本相似度确定方法，其特征在于，所述方法包括：对第一文本、第二文本进行分词处理，得到第一分词集合、第二分词集合；针对所述第一分词集合和所述第二分词集合中的每个分词，确定所述分词对应的词嵌入向量；其中，所述词嵌入向量为确定所述分词的词全局信息后，利用所述分词以及所述分词的词全局信息确定所述分词的词局部信息过程中得到的；利用所述第一分词集合中每个分词对应的词嵌入向量和每个分词的第一权重确定所述第一文本的句子向量；并利用所述第二分词集合中每个分词对应的词嵌入向量和每个分词的第二权重确定所述第二文本的句子向量；通过所述第一文本的句子向量和所述第二文本的句子向量，确定所述第一文本和所述第二文本的相似度。2.根据权利要求1所述的方法，其特征在于，在对第一文本、第二文本进行分词处理，得到第一分词集合、第二分词集合后，所述方法还包括：针对所述第一分词集合和所述第二分词集合中的每个分词，根据预设规则确定所述分词的向量特征；所述预设规则为对所述分词所在的分句进行指定次数的向量特征提取；利用所述分词的向量特征，确定所述分词对应的实体类别；所述通过所述第一文本的句子向量和所述第二文本的句子向量确定所述第一文本和所述第二文本的相似度，包括：确定所述第一文本的句子向量和所述第二文本的句子向量之间的余弦距离；通过所述余弦距离和每个分词对应的实体类别，确定所述第一文本和所述第二文本的相似度。3.根据权利要求2所述的方法，其特征在于，所述通过所述余弦距离和每个分词对应的实体类别，确定所述第一文本和所述第二文本的相似度，包括：确定所述第一分词集合和所述第二分词集合中每个相同实体类别的分词的关联度值；将多个所述关联度值相乘后再乘以所述余弦距离的乘积结果确定为所述第一文本和所述第二文本的相似度。4.根据权利要求3所述的方法，其特征在于，所述确定所述第一分词集合和所述第二分词集合中任意一个相同实体类别的分词的关联度值，包括：确定所述第一分词集合和所述第二分词集合中属于所述任意一个相同实体类别的相同分词的个数以及不同分词的个数；将相同分词个数与不同分词个数之间的商确定为分词的关联度值。5.根据权利要求1所述的方法，其特征在于，所述第一权重和所述第二权重为逆文本频率指数值时，所述方法还包括：根据所述第一文本的文本信息确定所述第一分词集合中每个分词的逆文本频率指数值；并根据所述第二文本的文本信息确定所述第二分词集合中每个分词的逆文本频率指数值。6.一种文本相似度确定设备，其特征在于，包括：处理器和显示器；所述显示器，用于显示用户操作界面；所述处理器，被配...

【专利技术属性】
技术研发人员：李浩，李建伟，孙永良，陈维强，
申请(专利权)人：青岛国创智慧云脑科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人