语义相似度计算方法及装置制造方法及图纸

技术编号:18458691 阅读:22 留言:0更新日期:2018-07-18 12:39
本发明专利技术是关于一种语义相似度计算方法及装置,其中,方法包括:分别对句子对中的第一句子和第二句子进行预处理,提取第一句法、第二句法以及第一句子和第二句子之间的统计特征;分别将第一句子和第二句子中的词语和词性转化成向量,得到对应的第一特征矩阵和第二特征矩阵;根据预设的第一深度神经网络模型确定对应的第一句子初步表示和第二句子初步表示;根据预设的第二深度神经网络模型确定第一句子和第二句子之间的相似度;根据第一句子和第二句子之间的相似度确定第一句子和第二句子是否相似。通过该方案,融合了词特征、词序特征、短语特征和句子级别上的统计特征,可以更加准确的确定句子之间的相似度。

Method and device for semantic similarity calculation

The invention relates to a method and device for calculating semantic similarity, in which the methods include: preprocessing the first sentence and the second sentence in the sentence pair, extracting the first sentence, the second syntax, and the statistical characteristics between the first sentence and the second sentence, and the words in the first sentence and the second sentence respectively. The word character is transformed into a vector, and the corresponding first feature matrix and the second characteristic matrix are obtained; the initial expression of the first sentence and the initial representation of the second sentence are determined according to the preset first depth neural network model; the similarity between the first and the second sentences is determined according to the preset second depth neural network model; According to the similarity between the first sentence and the second sentence, determine whether the first sentence and the second sentence are similar. Through this scheme, the statistical features of word features, word order features, phrase features and sentence levels are fused, and the similarity between sentences can be more accurately determined.

【技术实现步骤摘要】
语义相似度计算方法及装置
本专利技术涉及语义识别
,尤其涉及一种语义相似度计算方法及装置。
技术介绍
语义相似度计算主要是判断两个句子语义是否相似,比如判断“北极有什么动物”和“有哪些动物生活在北极”是否相似。现在语义相似度主要是基于字面上的句法特征,通过特征选择,将句子表示成向量,然后对两个句子计算余弦相似度,大于设定相似度则相似,否则不相似。现有相似度计算主要存在以下问题:1)缺少对句子的语序及语义的刻画;2)依赖大量高精准的同义词或对齐短语资源。
技术实现思路
本专利技术实施例提供一种语义相似度计算方法及装置,用以实现更准确的确定句子之间的相似度。根据本专利技术实施例的第一方面,提供一种语义相似度计算方法,包括:分别对句子对中的第一句子和第二句子进行预处理,提取第一句子对应的第一句法、第二句子对应的第二句法以及所述第一句子和所述第二句子之间的统计特征;分别将所述第一句子和第二句子中的词语和词性转化成向量,得到对应的第一特征矩阵和第二特征矩阵;根据所述第一特征矩阵、第二特征矩阵和预设的第一深度神经网络模型确定对应的第一句子初步表示和第二句子初步表示;根据所述第一句子初步表示、第二句子初步表示、所述统计特征对应的统计特征向量和预设的第二深度神经网络模型确定所述第一句子和所述第二句子之间的相似度;根据所述第一句子和所述第二句子之间的相似度确定所述第一句子和所述第二句子是否相似。在一个实施例中,所述分别将所述第一句子和第二句子中的词语和词性转化成向量,确定对应的第一特征矩阵和第二特征矩阵,包括:利用word2vec分别将所述第一句子和所述第二句子中的词语转化成词向量,得到第一句子对应的第一词语特征矩阵和第二句子对应的第二词语特征矩阵;利用pos2vec分别将所述第一句子和所述第二句子中的词性转化成词性向量,得到第一句子对应的第一词性特征矩阵和第二句子对应的第二词性特征矩阵;将所述第一词语特征矩阵和所述第一词性特征矩阵拼接得到所述第一特征矩阵,将所述第二词语特征矩阵和所述第二词特征矩阵拼接得到所述第二特征矩阵。在一个实施例中,所述根据所述第一特征矩阵、第二特征矩阵和预设的第一深度神经网络模型得到对应的第一句子初步表示和第二句子初步表示,包括:分别将所述第一特征矩阵和所述第二特征矩阵作为所述第一深度神经网络模型的输入,得到对应的第一句子初步表示和第二句子初步表示。在一个实施例中,所述根据所述第一句子初步表示、第二句子初步表示、所述统计特征对应的特征向量和预设的第二深度神经网络模型确定所述第一句子和所述第二句子之间的相似度,包括:分别对所述第一句子初步表示和所述第二句子初步表示做逐点相减和逐点相乘运算,得到对应的几何距离特征矩阵和角度距离特征矩阵;将所述统计特征编码成向量,得到对应的统计特征向量;将所述统计特征向量、所述几何距离特征矩阵和所述角度距离特征矩阵进行拼接,得到拼接结果;将所述拼接结果作为所述第二深度神经网络模型的输入,计算得到所述第一句子和所述第二句子的相似度。在一个实施例中,所述根据所述第一句子和所述第二句子之间的相似度确定所述第一句子和所述第二句子是否相似,包括:当所述第一句子和所述第二句子之间的相似度大于预设相似度时,确定所述第一句子和所述第二句子相似;当所述第一句子和所述第二句子之间的相似度小于或者等于预设相似度时,确定所述第二句子和所述第二句子不相似。根据本专利技术实施例的第二方面,提供一种语义相似度计算装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:分别对句子对中的第一句子和第二句子进行预处理,提取第一句子对应的第一句法、第二句子对应的第二句法以及所述第一句子和所述第二句子之间的统计特征;分别将所述第一句子和第二句子中的词语和词性转化成向量,得到对应的第一特征矩阵和第二特征矩阵;根据所述第一特征矩阵、第二特征矩阵和预设的第一深度神经网络模型确定对应的第一句子初步表示和第二句子初步表示;根据所述第一句子初步表示、第二句子初步表示、所述统计特征对应的统计特征向量和预设的第二深度神经网络模型确定所述第一句子和所述第二句子之间的相似度;根据所述第一句子和所述第二句子之间的相似度确定所述第一句子和所述第二句子是否相似。在一个实施例中,所述分别将所述第一句子和第二句子中的词语和词性转化成向量,确定对应的第一特征矩阵和第二特征矩阵,包括:利用word2vec分别将所述第一句子和所述第二句子中的词语转化成词向量,得到第一句子对应的第一词语特征矩阵和第二句子对应的第二词语特征矩阵;利用pos2vec分别将所述第一句子和所述第二句子中的词性转化成词性向量,得到第一句子对应的第一词性特征矩阵和第二句子对应的第二词性特征矩阵;将所述第一词语特征矩阵和所述第一词性特征矩阵拼接得到所述第一特征矩阵,将所述第二词语特征矩阵和所述第二词特征矩阵拼接得到所述第二特征矩阵。在一个实施例中,所述根据所述第一特征矩阵、第二特征矩阵和预设的第一深度神经网络模型得到对应的第一句子初步表示和第二句子初步表示,包括:分别将所述第一特征矩阵和所述第二特征矩阵作为所述第一深度神经网络模型的输入,得到对应的第一句子初步表示和第二句子初步表示。在一个实施例中,所述根据所述第一句子初步表示、第二句子初步表示、所述统计特征对应的特征向量和预设的第二深度神经网络模型确定所述第一句子和所述第二句子之间的相似度,包括:分别对所述第一句子初步表示和所述第二句子初步表示做逐点相减和逐点相乘运算,得到对应的几何距离特征矩阵和角度距离特征矩阵;将所述统计特征编码成向量,得到对应的统计特征向量;将所述统计特征向量、所述几何距离特征矩阵和所述角度距离特征矩阵进行拼接,得到拼接结果;将所述拼接结果作为所述第二深度神经网络模型的输入,计算得到所述第一句子和所述第二句子的相似度。在一个实施例中,所述根据所述第一句子和所述第二句子之间的相似度确定所述第一句子和所述第二句子是否相似,包括:当所述第一句子和所述第二句子之间的相似度大于预设相似度时,确定所述第一句子和所述第二句子相似;当所述第一句子和所述第二句子之间的相似度小于或者等于预设相似度时,确定所述第二句子和所述第二句子不相似。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种语义相似度计算方法的流程图。图2是根据一示例性实施例示出的一种语义相似度计算方法中步骤S102的流程图。图3是根据一示例性实施例示出的另一种语义相似度计算方法的流程图。图4是根据一示例性实施例示出的一种语义相似度计算方法中步骤S104的流程图。图5是根据一示例性实施例示出的一种语义相似度计算方法中步骤S105的流程图。具体实施方式这里将详细地对示例性实施例进行说明,其示例本文档来自技高网...

【技术保护点】
1.一种语义相似度计算方法,其特征在于,包括:分别对句子对中的第一句子和第二句子进行预处理,提取第一句子对应的第一句法、第二句子对应的第二句法以及所述第一句子和所述第二句子之间的统计特征;分别将所述第一句子和第二句子中的词语和词性转化成向量,得到对应的第一特征矩阵和第二特征矩阵;根据所述第一特征矩阵、第二特征矩阵和预设的第一深度神经网络模型确定对应的第一句子初步表示和第二句子初步表示;根据所述第一句子初步表示、第二句子初步表示、所述统计特征对应的统计特征向量和预设的第二深度神经网络模型确定所述第一句子和所述第二句子之间的相似度;根据所述第一句子和所述第二句子之间的相似度确定所述第一句子和所述第二句子是否相似。

【技术特征摘要】
1.一种语义相似度计算方法,其特征在于,包括:分别对句子对中的第一句子和第二句子进行预处理,提取第一句子对应的第一句法、第二句子对应的第二句法以及所述第一句子和所述第二句子之间的统计特征;分别将所述第一句子和第二句子中的词语和词性转化成向量,得到对应的第一特征矩阵和第二特征矩阵;根据所述第一特征矩阵、第二特征矩阵和预设的第一深度神经网络模型确定对应的第一句子初步表示和第二句子初步表示;根据所述第一句子初步表示、第二句子初步表示、所述统计特征对应的统计特征向量和预设的第二深度神经网络模型确定所述第一句子和所述第二句子之间的相似度;根据所述第一句子和所述第二句子之间的相似度确定所述第一句子和所述第二句子是否相似。2.根据权利要求1所述的语义相似度计算方法,其特征在于,所述分别将所述第一句子和第二句子中的词语和词性转化成向量,确定对应的第一特征矩阵和第二特征矩阵,包括:利用word2vec分别将所述第一句子和所述第二句子中的词语转化成词向量,得到第一句子对应的第一词语特征矩阵和第二句子对应的第二词语特征矩阵;利用pos2vec分别将所述第一句子和所述第二句子中的词性转化成词性向量,得到第一句子对应的第一词性特征矩阵和第二句子对应的第二词性特征矩阵;将所述第一词语特征矩阵和所述第一词性特征矩阵拼接得到所述第一特征矩阵,将所述第二词语特征矩阵和所述第二词特征矩阵拼接得到所述第二特征矩阵。3.根据权利要求1所述的语义相似度计算方法,其特征在于,所述根据所述第一特征矩阵、第二特征矩阵和预设的第一深度神经网络模型得到对应的第一句子初步表示和第二句子初步表示,包括:分别将所述第一特征矩阵和所述第二特征矩阵作为所述第一深度神经网络模型的输入,得到对应的第一句子初步表示和第二句子初步表示。4.根据权利要求1所述的语义相似度计算方法,其特征在于,所述根据所述第一句子初步表示、第二句子初步表示、所述统计特征对应的特征向量和预设的第二深度神经网络模型确定所述第一句子和所述第二句子之间的相似度,包括:分别对所述第一句子初步表示和所述第二句子初步表示做逐点相减和逐点相乘运算,得到对应的几何距离特征矩阵和角度距离特征矩阵;将所述统计特征编码成向量,得到对应的统计特征向量;将所述统计特征向量、所述几何距离特征矩阵和所述角度距离特征矩阵进行拼接,得到拼接结果;将所述拼接结果作为所述第二深度神经网络模型的输入,计算得到所述第一句子和所述第二句子的相似度。5.根据权利要求1至4中任一项所述的语义相似度计算方法,其特征在于,所述根据所述第一句子和所述第二句子之间的相似度确定所述第一句子和所述第二句子是否相似,包括:当所述第一句子和所述第二句子之间的相似度大于预设相似度时,确定所述第一句子和所述第二句子相似;当所述第一句子和所述第二句子之间的相似度小于或者等于预设相似度时,确定所述第二句子和所述第二句子不相似。6.一种语义相似度计算装置,其特征...

【专利技术属性】
技术研发人员:李勤
申请(专利权)人:北京云知声信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1