文本相似度确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38193995 阅读：8 留言：0更新日期：2023-07-20 21:13

本申请实施例涉及一种文本相似度确定方法、装置、电子设备及存储介质，通过对获取的第一文本和第二文本分别进行预处理，获得第一分词序列及第二分词序列；提取第一分词序列和第二分词序列的共现词和非共现词，并基于共现词和非共现词的数量确定第一权重系数和第二权重系数；确定第一分词序列和第二分词序列的共现词对应的词序相似度，确定第一分词序列和所述第二分词序列的非共现词对应的语义相似度；根据第一权重系数和词序相似度，及第二权重系数和语义相似度，确定文本相似度；即通过将文本词划分为共现词和非共现词，通过计算共现词词序对相似度的影响程度以及非共现词的语义相似度，两者加权融合获得文本相似度，提高了计算准确度。计算准确度。计算准确度。

全部详细技术资料下载

【技术实现步骤摘要】
文本相似度确定方法、装置、电子设备及存储介质

[0001]本申请涉及自然语言处理
，尤其涉及一种文本相似度确定方法、装置、电子设备及存储介质。

技术介绍

[0002]文本相似度主要用来研究两条文本相似程度，是自然语言处理中的一项基础性的工作，在信息检索、文档摘要等有着广泛的应用。
[0003]相关技术中，余弦相似度是一种常用的计算文本相似度方法，通过计算两个向量夹角的余弦值来衡量文本的相似度，然而它没有考虑词序对文本之间相似度计算的影响，导致所计算的文本相似度准确度不高。

技术实现思路

[0004]本申请的实施例提供了一种文本相似度确定方法、装置、电子设备及存储介质，以解决相关技术在计算文本相似度时不考虑词序而导致的计算准确度不高的技术问题。
[0005]第一方面，本申请的实施例提供了一种文本相似度确定方法，包括：获取第一文本和第二文本；分别对所述第一文本和所述第二文本进行预处理，获得所述第一文本对应的第一分词序列及所述第二文本对应的第二分词序列；提取所述第一分词序列和所述第二分词序列的共现词和非共现词，并基于共现词和非共现词的数量确定第一权重系数和第二权重系数；确定所述第一分词序列和所述第二分词序列的共现词对应的词序相似度，确定所述第一分词序列和所述第二分词序列的非共现词对应的语义相似度；根据所述第一权重系数和所述词序相似度，及所述第二权重系数和所述语义相似度，确定所述第一文本和所述第二文本的文本相似度。
[0006]在一些实施例中，所述确定所述第一分词序列和所述第二分...

【技术保护点】

【技术特征摘要】
1.一种文本相似度确定方法，其特征在于，包括：获取第一文本和第二文本；分别对所述第一文本和所述第二文本进行预处理，获得所述第一文本对应的第一分词序列及所述第二文本对应的第二分词序列；提取所述第一分词序列和所述第二分词序列的共现词和非共现词，并基于共现词和非共现词的数量确定第一权重系数和第二权重系数；确定所述第一分词序列和所述第二分词序列的共现词对应的词序相似度，确定所述第一分词序列和所述第二分词序列的非共现词对应的语义相似度；根据所述第一权重系数和所述词序相似度，及所述第二权重系数和所述语义相似度，确定所述第一文本和所述第二文本的文本相似度。2.根据权利要求1所述的方法，其特征在于，所述确定所述第一分词序列和所述第二分词序列的共现词对应的词序相似度，包括：根据所述共现词在第一分词序列中的词序，确定所述共现词在第二分词序列中映射的位置向量，获得共现词位置向量序列；确定所述共现词位置向量序列对应的第一逆序数，并确定所述共现词位置向量序列在完全逆序情况下的第二逆序数；根据所述第一逆序数和所述第二逆序数的比值，确定所述词序相似度。3.根据权利要求2所述的方法，其特征在于，所述共现词对应的词序相似度的计算公式如下：其中，M表示所述第一文本，S表示所述第二文本，sim
inverse
(M，S)表示所述共现词对应的词序相似度，v
p
表示所述共现词位置向量序列，inverseNumber表示所述第一逆序数，maxInverseNumber表示所述第二逆序数，n表示所述共现词位置向量序列的长度。4.根据权利要求1所述的方法，其特征在于，所述确定所述第一分词序列和所述第二分词序列的非共现词对应的语义相似度，包括：确定所述第一分词序列对应的第一非共现词序列，确定所述第二分词序列对应的第二非共现词序列；针对所述第一非共现词序列中的每个第一非共现词的词向量，计算与所述第二非共现词序列中各第二非共现词的词向量之间的最大相似度值，构成最大相似度值集合；确定所述最大相似度值集合中大于预设阈值的目标相似度值，并将所述目标相似度值之和与所述最大相似度值集合中的所有相似度值之和的比值，确定为所述语义相似度。5.根据权利要求4所述的方法，其特征在于，所述非共现词对应的语义相似度的计算公式如下：
其中，M
′
表示所述第一非共现词序列，S
′
表示所述第二非共现词序列，表示M
′
中第i个第一非共现词的词向量对应的最大相似度值，α表示...

【专利技术属性】
技术研发人员：张鹏，张复生，
申请(专利权)人：陕西优百信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人