一种文本相似度计算方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:29156622 阅读:42 留言:0更新日期:2021-07-06 22:55
本发明专利技术公开了一种文本相似度计算方法、装置、计算机设备和存储介质,方法包括:计算第一待匹配语句和第二待匹配语句间的基础相似度;对第一待匹配语句和第二待匹配语句进行分词,并对分词后的所有单词进行词性标注;分别对第一待匹配语句和第二待匹配语句分词后的所有单词进行向量化以获得词向量;计算相似度惩罚系数;基于基础相似度和相似度惩罚系数,获得第一待匹配语句和第二待匹配语句间的最终相似度。本发明专利技术在计算文本间相似度时引入了与单个词向量及词性种类相关的相似度惩罚系数,能够有效降低相似度识别错误的概率。

【技术实现步骤摘要】
一种文本相似度计算方法、装置、计算机设备和存储介质
本专利技术涉及互联网
,具体涉及一种文本相似度计算方法、装置、计算机设备和存储介质。
技术介绍
自然语言处理的过程中,文本相似度计算是一个重要的步骤。现有的文本相似度计算方法有几种:1、余弦相似度(性)法,通过计算两个向量的夹角余弦值来评估他们的相似度;2、简单共有词,通过计算两个文本共有的词的总字符数除以最长文档字符数来评估他们的相似度;3、编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大;4、欧几里得距离法,以两个文本所以的不重复词构成0-1向量,并计算两个向量之间的欧式距离来判断相似度。现有的相似度计算方法中,只考虑了句子之间的文本相似度,即仅通过字面上有多少重复的分词来判断句子的相似度,这样容易导致很多内涵相差甚远的文本被错误匹配成相似句。
技术实现思路
本专利技术的主要目的在于克服现有技术中的本文档来自技高网...

【技术保护点】
1.一种文本相似度计算方法,其特征在于,包括:/n计算第一待匹配语句和第二待匹配语句间的基础相似度;/n对第一待匹配语句和第二待匹配语句进行分词,并对分词后的每个单词进行词性标注;/n分别对所述第一待匹配语句和所述第二待匹配语句分词后的每个单词进行向量化以获得对应的词向量;/n基于所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数,以及所述第一待匹配语句的单个词向量和所述第二待匹配语句的对应词性的单个词向量间的相似度,计算出相似度惩罚系数;/n基于所述基础相似度和所述相似度惩罚系数,获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度。/n

【技术特征摘要】
1.一种文本相似度计算方法,其特征在于,包括:
计算第一待匹配语句和第二待匹配语句间的基础相似度;
对第一待匹配语句和第二待匹配语句进行分词,并对分词后的每个单词进行词性标注;
分别对所述第一待匹配语句和所述第二待匹配语句分词后的每个单词进行向量化以获得对应的词向量;
基于所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数,以及所述第一待匹配语句的单个词向量和所述第二待匹配语句的对应词性的单个词向量间的相似度,计算出相似度惩罚系数;
基于所述基础相似度和所述相似度惩罚系数,获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度。


2.根据权利要求1所述的文本相似度计算方法,其特征在于,所述对第一待匹配语句和第二待匹配语句进行分词,并对分词后的每个单词进行词性标注,具体包括:
利用结巴分词对第一待匹配语句和第二待匹配语句进行分词,并对分词后的每个单词进行词性标注。


3.根据权利要求1所述的文本相似度计算方法,其特征在于,所述第一待匹配语句和所述第二待匹配语句间的基础相似度的计算方法,包括:
余弦相似度法、简单共有词法、编辑距离法或欧几里得距离法。


4.根据权利要求3所述的文本相似度计算方法,其特征在于,当使用余弦相似度法计算所述基础相似度时,所述计算第一待匹配语句和第二待匹配语句间的基础相似度之前,还包括:
使用word2vec分别计算所述第一待匹配语句的句向量和所述第二待匹配语句的句向量。


5.根据权利要求1所述的文本相似度计算方法,其特征在于,所述分别对所述第一待匹配语句和所述第二待匹配语句分词后的每个单词进行向量化以获得对应的词向量,具体包括:
使用word2vec分别对所述第一待匹配语句和所述第二待匹配语句分词后的每个单词进行向量化以获得对应的词向量。


6.根据权利要求1...

【专利技术属性】
技术研发人员:黄友福肖龙源李稀敏
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1