The invention discloses a sentence semantic similarity calculation method comprises the following steps: first, the second sentence of sentence feature extraction through deep learning model, the first sentence global semantic vector and second sentence global semantic vector; by feature engineering respectively for the first sentence words, second sentences words for feature extraction, get the first sentence local semantic vector and second sentences local semantic vector respectively; the global first sentence, second sentence semantic vector and local semantic vector stitching, a one-dimensional feature vector obtained one-dimensional feature vector and second sentences the first sentence; vector distance between one-dimensional feature vector computing one dimensional feature vector and the first sentence of the second sentence. Then get the similarity between the first sentence and the second sentence. The sentence features extracted by the method of the invention are more comprehensive and thorough, and have certain pertinence, and the accuracy of the similarity calculated is higher.
【技术实现步骤摘要】
一种句子语义相似度计算方法
本专利技术涉及自然语言处理领域,特别涉及一种句子语义相似度计算方法。
技术介绍
语义相似度计算是文本处理中最基础使用最广泛的技术。从单词层面来看,存在一词多义、歧义等问题;从句子层面来看,句子的句式灵活多变,并不是单词堆积这么简单。因此,研究语义相似度计算有助于更好地进行语义理解。语义理解历来是自然语言处理领域的一个难题,在很多的研究中都发挥着至关重要的作用。比如,信息检索、文本聚类、转述识别、机器翻译、自动问答、用户意图理解等等。在搜索领域(Google、Baidu等搜索引擎),社区问答领域(Yahoo!Answer、Quora、百度知道、知乎等),语义理解的准确性直接关乎答案质量和用户体验。因此,对于自然语言处理领域,研究语义相似度计算十分重要。句子的语义相似度计算就是要根据句子的构成和语义信息来计算两个句子的相似程度。它在信息检索、问答系统、文本分类、文本查重等自然语言处理的任务中都发挥着重要作用。例如,在搜索引擎和问答系统中,计算机需要在海量的互联网数据中搜寻到符合用户意图的答案,单纯的依靠关键字查询返回与之相关的网页往往会存在 ...
【技术保护点】
一种句子语义相似度计算方法,其特征在于,包括以下过程:步骤1:通过深度学习模型分别对第一句子、第二句子进行特征提取,得到第一句子全局语义向量和第二句子全局语义向量;通过特征工程分别对第一句子的单词、第二句子的单词进行特征提取,得到第一句子局部语义向量和第二句子局部语义向量;步骤2:将第一句子全局语义向量与第一句子局部语义向量进行拼接,得到第一句子的一维特征向量;将第二句子全局语义向量与第二句子局部语义向量进行拼接,得到第二句子的一维特征向量;步骤3:计算第一句子的一维特征向量与第二句子的一维特征向量之间的向量距离,根据向量距离得到第一句子与第二句子之间的相似度。
【技术特征摘要】
1.一种句子语义相似度计算方法,其特征在于,包括以下过程:步骤1:通过深度学习模型分别对第一句子、第二句子进行特征提取,得到第一句子全局语义向量和第二句子全局语义向量;通过特征工程分别对第一句子的单词、第二句子的单词进行特征提取,得到第一句子局部语义向量和第二句子局部语义向量;步骤2:将第一句子全局语义向量与第一句子局部语义向量进行拼接,得到第一句子的一维特征向量;将第二句子全局语义向量与第二句子局部语义向量进行拼接,得到第二句子的一维特征向量;步骤3:计算第一句子的一维特征向量与第二句子的一维特征向量之间的向量距离,根据向量距离得到第一句子与第二句子之间的相似度。2.根据权利要求1所述的句子语义相似度计算方法,其特征在于,所述通过深度学习模型分别对第一句子、第二句子进行特征提取,得到第一句子全局语义向量和第二句子全局语义向量,包括以下过程:将句子进行词向量化表示,得到句子的词向量;所述句子为第一句子或第二句子;将句子的词向量输入到BiLSTM中,得到BiLSTM隐藏层的m维向量,公式为:Hm(t)=[h(t),h(t+1),...,h(t+m-1)]其中,Hm(t)表示m维向量,h表示隐藏层的函数,t表示t时刻,m表示向量维度;m维向量通过CNN卷积层的过滤器进行过滤,得到过滤结果,公式为:F=[F(0)...F(m-1)]其中,F表示过滤器,m表示过滤器的个数,OF(t)表示过滤结果,tanh表示激活函数,表示对后面的项进行求和,h表示隐藏层的函数,t表示t时刻,T表示表示矩阵的转置,i表示求和参数,F、b表示两个不同的卷积层参数;将过滤结果进行池化操作,分别得到第一句子全局语义向量和第二句子全局语义向量。3.根据权利要求1所述的句子语义相似度计算方法,其特征在于,通过特征工程分别对第一句子的单词、第二句子的单词进行特征提取,得到第一句子局部语义向量和第二句子局部语义向量,包括以下过程:将第一句子每个单词与第二句子每个单词分别进行相似度计算,得到相似度矩阵;基于相似度矩阵计算第一句子每个单词与第二句子每个单词的对齐参数;利用对齐参数与单词的特征参数计算第一句子和第二句子的对齐特征,公式为:FS1=∑ialigni*feai/∑ifeaiFT1=∑jalignj*feaj/∑jfeaj其中,FS1表示第一句子的对齐特征,∑i表示对含有参数i的项进行求和,aligni表示第一句子中单词i的对齐参数,feai表示第一句子任一单词si的特征;FT1表示第二句子的对齐特征,∑j表示对含有参数j的项进行求和,alignj表示第二句子中单词j的对齐分数,feaj表示第二句子任一单词tj的特征;利用第一句子中没有对齐的单词和第二句子中没有对齐的单词,分别计算第一句子的不对齐特征和第二句子的不对齐特征,公式为:其中,FS2表示第一句子的不对齐特征,unaligni表示将第一句子中没有对齐的单词,feai表示第一句子任一单词si的特征,∑i表示对含有参数i的项进行求和;FT2表示第二句子的不对齐特征,unalignj表示将第二句子中没有对齐的单词,feaj表示第二句子任一单词tj的特征,∑j表示对含有参数j的项进行求和;将第一句子的对齐特征和不对齐特征进行拼接,得到第一句子局部语义向量;将第二句子的对齐特征和不对齐特征进行拼接,得到第二句子局部语义向量。4.根据权利要求3所述的句子语义相似度计算方法,其特征在于,所述将第一句子每个单词与第二句子每个单词分别进行相似度计算,得到相似度矩阵,包括以下过程:构建句子单词的共生矩阵,根据矩阵窗口大小在语料库中遍历对应单词的共现次数,并将共现次数转换成相应的log形式放到矩阵的相应...
【专利技术属性】
技术研发人员:周忠诚,段炼,郭建京,张圣栋,
申请(专利权)人:湖南星汉数智科技有限公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。