一种短句相似度的计算方法及系统技术方案

技术编号：28872642 阅读：47 留言：0更新日期：2021-06-15 23:05

本发明专利技术公开了一种短句相似度的计算方法及系统，方法包括：通过对待计算相似度的第一短句、第二短句进行分词处理，根据每个分词所包含的每个字的字向量，及通过近同义词库获得该分词的所有近同义词所包含的每个字的字向量，分别计算第一短句、第二短句中每个分词的TFIDF值及词向量，分别对第一短句、第二短句的各个词向量及其TFIDF值对应的动态权重进行加权求和，得到第一短句、第二短句对应的句向量，利用余弦相似度计算第一短句、第二短句的相似度。本发明专利技术提出基于字向量和分词的TFIDF值动态权重的句向量，提高了关键词的突出能力，采用字向量避免了没有对应词向量的问题，使用近义词弥补了字向量的缺陷，提高相似度的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种短句相似度的计算方法及系统
本专利技术涉及计算机
，具体涉及一种短句相似度的计算方法及系统。
技术介绍
汉语属于弱语法语言，其语言表达的丰富性往往为语义匹配带来挑战，比如词序的颠倒、近同义词等问题；为了让匹配算法适应这种丰富性，借助上下文是一个可行的思路，比如在判断词的语义一致性时，认为同样上下文的情况下，不同的词所表达的语义是一致的，这个判别标准同样可以扩展到句子级别，即上下文一致的情况下，不同句子表达的语义是一致，因此，在处理中长句子时，句子的长度让语义得以表达的更加浅显，语义匹配的难度更小。相对的，在短句的语义匹配中，语义的表达受到了限制，句子层面的语义表达性减弱，而单个词或者字对语义表达的贡献度也变大，可能一个虚词都会导致语义的偏差，因此，我们所要解决的关键问题就是如何对短句进行语义匹配。目前，常用的方法有：常用的基于字面距离的语义匹配，虽然能够简单直观的进行计算，但同义、近义、多义词、等效语义短语无法体现；基于机器学习的语义匹配，表示相关的任务，不同任务会出现不同的表示，然后以标注数据为模型设定一...

【技术保护点】
1.一种短句相似度的计算方法，其特征在于，包括：/n获取待计算相似度的第一短句、第二短句，并分别对第一短句、第二短句进行分词处理；/n根据第一短句、第二短句中的每个分词所包含的每个字的字向量，及通过预设近同义词库获得该分词的所有近同义词所包含的每个字的字向量，分别计算第一短句、第二短句中每个分词的TFIDF值及词向量；/n分别对第一短句、第二短句的各个词向量及其TFIDF值对应的动态权重进行加权求和，得到第一短句、第二短句对应的句向量；/n基于第一短句、第二短句的句向量，利用余弦相似度计算第一短句、第二短句的相似度。/n

【技术特征摘要】
1.一种短句相似度的计算方法，其特征在于，包括：
获取待计算相似度的第一短句、第二短句，并分别对第一短句、第二短句进行分词处理；
根据第一短句、第二短句中的每个分词所包含的每个字的字向量，及通过预设近同义词库获得该分词的所有近同义词所包含的每个字的字向量，分别计算第一短句、第二短句中每个分词的TFIDF值及词向量；
分别对第一短句、第二短句的各个词向量及其TFIDF值对应的动态权重进行加权求和，得到第一短句、第二短句对应的句向量；
基于第一短句、第二短句的句向量，利用余弦相似度计算第一短句、第二短句的相似度。

2.根据权利要求1所述的短句相似度的计算方法，其特征在于，TFIDF值根据每个分词对语义的贡献比例进行计算；通过第一短句、第二短句中的每个分词所包含的每个字的字向量计算短句中每个分词的词向量；通过预设近同义词库获得该分词的所有近同义词所包含的每个字的字向量计算每个分词的词向量。

3.根据权利要求2所述的短句相似度的计算方法，其特征在于，通过以下公式计算TFIDF值对应的动态权重：

TFIDFw＝TFw*IDFw
其中，TFw表示分词w在语料库中的出现频率，IDFw表示分词w的区分能力。

4.根据权利要求3所述的短句相似度的计算方法，其特征在于，计算第一短句或第二短句的词向量的步骤，包括：
根据第一短句或第二短句中的每个分词所包含的每个字的字向量，通过预设近同义词库，构造第i个分词wi的近同义词词组{wi1,wi2..}，将每个分词所包含的每个字的字向量进行平均后，得到分词wi以及其近同义词词组{wi1,wi2...}的词向量，然后将所有近同义词词组词向量的平均结果与分词wi的词向量按照预设比例的权重相加，得到...

【专利技术属性】
技术研发人员：孙譞，韩宗达，詹舒波，黄宇，
申请(专利权)人：北京新方通信技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人