The invention relates to a method and device for calculating semantic similarity, in which the methods include: preprocessing the first sentence and the second sentence in the sentence pair, extracting the first sentence, the second syntax, and the statistical characteristics between the first sentence and the second sentence, and the words in the first sentence and the second sentence respectively. The word character is transformed into a vector, and the corresponding first feature matrix and the second characteristic matrix are obtained; the initial expression of the first sentence and the initial representation of the second sentence are determined according to the preset first depth neural network model; the similarity between the first and the second sentences is determined according to the preset second depth neural network model; According to the similarity between the first sentence and the second sentence, determine whether the first sentence and the second sentence are similar. Through this scheme, the statistical features of word features, word order features, phrase features and sentence levels are fused, and the similarity between sentences can be more accurately determined.
【技术实现步骤摘要】
语义相似度计算方法及装置
本专利技术涉及语义识别
,尤其涉及一种语义相似度计算方法及装置。
技术介绍
语义相似度计算主要是判断两个句子语义是否相似,比如判断“北极有什么动物”和“有哪些动物生活在北极”是否相似。现在语义相似度主要是基于字面上的句法特征,通过特征选择,将句子表示成向量,然后对两个句子计算余弦相似度,大于设定相似度则相似,否则不相似。现有相似度计算主要存在以下问题:1)缺少对句子的语序及语义的刻画;2)依赖大量高精准的同义词或对齐短语资源。
技术实现思路
本专利技术实施例提供一种语义相似度计算方法及装置,用以实现更准确的确定句子之间的相似度。根据本专利技术实施例的第一方面,提供一种语义相似度计算方法,包括:分别对句子对中的第一句子和第二句子进行预处理,提取第一句子对应的第一句法、第二句子对应的第二句法以及所述第一句子和所述第二句子之间的统计特征;分别将所述第一句子和第二句子中的词语和词性转化成向量,得到对应的第一特征矩阵和第二特征矩阵;根据所述第一特征矩阵、第二特征矩阵和预设的第一深度神经网络模型确定对应的第一句子初步表示和第二句子初步表示;根据所述第一句子初步表示、第二句子初步表示、所述统计特征对应的统计特征向量和预设的第二深度神经网络模型确定所述第一句子和所述第二句子之间的相似度;根据所述第一句子和所述第二句子之间的相似度确定所述第一句子和所述第二句子是否相似。在一个实施例中,所述分别将所述第一句子和第二句子中的词语和词性转化成向量,确定对应的第一特征矩阵和第二特征矩阵,包括:利用word2vec分别将所述第一句子和所述第二句子中的词语转 ...
【技术保护点】
1.一种语义相似度计算方法,其特征在于,包括:分别对句子对中的第一句子和第二句子进行预处理,提取第一句子对应的第一句法、第二句子对应的第二句法以及所述第一句子和所述第二句子之间的统计特征;分别将所述第一句子和第二句子中的词语和词性转化成向量,得到对应的第一特征矩阵和第二特征矩阵;根据所述第一特征矩阵、第二特征矩阵和预设的第一深度神经网络模型确定对应的第一句子初步表示和第二句子初步表示;根据所述第一句子初步表示、第二句子初步表示、所述统计特征对应的统计特征向量和预设的第二深度神经网络模型确定所述第一句子和所述第二句子之间的相似度;根据所述第一句子和所述第二句子之间的相似度确定所述第一句子和所述第二句子是否相似。
【技术特征摘要】
1.一种语义相似度计算方法,其特征在于,包括:分别对句子对中的第一句子和第二句子进行预处理,提取第一句子对应的第一句法、第二句子对应的第二句法以及所述第一句子和所述第二句子之间的统计特征;分别将所述第一句子和第二句子中的词语和词性转化成向量,得到对应的第一特征矩阵和第二特征矩阵;根据所述第一特征矩阵、第二特征矩阵和预设的第一深度神经网络模型确定对应的第一句子初步表示和第二句子初步表示;根据所述第一句子初步表示、第二句子初步表示、所述统计特征对应的统计特征向量和预设的第二深度神经网络模型确定所述第一句子和所述第二句子之间的相似度;根据所述第一句子和所述第二句子之间的相似度确定所述第一句子和所述第二句子是否相似。2.根据权利要求1所述的语义相似度计算方法,其特征在于,所述分别将所述第一句子和第二句子中的词语和词性转化成向量,确定对应的第一特征矩阵和第二特征矩阵,包括:利用word2vec分别将所述第一句子和所述第二句子中的词语转化成词向量,得到第一句子对应的第一词语特征矩阵和第二句子对应的第二词语特征矩阵;利用pos2vec分别将所述第一句子和所述第二句子中的词性转化成词性向量,得到第一句子对应的第一词性特征矩阵和第二句子对应的第二词性特征矩阵;将所述第一词语特征矩阵和所述第一词性特征矩阵拼接得到所述第一特征矩阵,将所述第二词语特征矩阵和所述第二词特征矩阵拼接得到所述第二特征矩阵。3.根据权利要求1所述的语义相似度计算方法,其特征在于,所述根据所述第一特征矩阵、第二特征矩阵和预设的第一深度神经网络模型得到对应的第一句子初步表示和第二句子初步表示,包括:分别将所述第一特征矩阵和所述第二特征矩阵作为所述第一深度神经网络模型的输入,得到对应的第一句子初步表示和第二句子初步表示。4.根据权利要求1所述的语义相似度计算方法,其特征在于,所述根据所述第一句子初步表示、第二句子初步表示、所述统计特征对应的特征向量和预设的第二深度神经网络模型确定所述第一句子和所述第二句子之间的相似度,包括:分别对所述第一句子初步表示和所述第二句子初步表示做逐点相减和逐点相乘运算,得到对应的几何距离特征矩阵和角度距离特征矩阵;将所述统计特征编码成向量,得到对应的统计特征向量;将所述统计特征向量、所述几何距离特征矩阵和所述角度距离特征矩阵进行拼接,得到拼接结果;将所述拼接结果作为所述第二深度神经网络模型的输入,计算得到所述第一句子和所述第二句子的相似度。5.根据权利要求1至4中任一项所述的语义相似度计算方法,其特征在于,所述根据所述第一句子和所述第二句子之间的相似度确定所述第一句子和所述第二句子是否相似,包括:当所述第一句子和所述第二句子之间的相似度大于预设相似度时,确定所述第一句子和所述第二句子相似;当所述第一句子和所述第二句子之间的相似度小于或者等于预设相似度时,确定所述第二句子和所述第二句子不相似。6.一种语义相似度计算装置,其特征...
【专利技术属性】
技术研发人员:李勤,
申请(专利权)人:北京云知声信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。