一种语句相似度判断方法及判断系统技术方案

技术编号：25599871 阅读：81 留言：0更新日期：2020-09-11 23:57

本发明专利技术公开了一种语句相似度判断方法及判断系统，涉及自然语言语义相似度计算技术领域，通过在建模层、多语义嵌入层、语义重要性计算曾层、语义对齐层和输出层上进行改进；利用多语义矩阵计算多粒度级别的相似性矩阵，并根据该矩阵发现两个句子真正的语义对齐。考虑到不同的语义有不同的重要性，我们提出了语义重要性计算。提出的模型不需要稀疏特征以及WordNet等外部资源，在较短的时间内成功训练并在相似度计算任务上取得了有竞争力的结果。可视化分析表明了模型的良好性能及可解释性。

全部详细技术资料下载

【技术实现步骤摘要】
一种语句相似度判断方法及判断系统
本专利技术涉及自然语言语义相似度计算
，更具体地说，它涉及一种语句相似度判断方法及判断系统。
技术介绍
生活中的许多场景需要比较文本的相似性，比如论文剽窃检测、对话系统和信息检索等领域。因此如何快速、形象的检测句子予以相似度是一项基本且非常重要的任务。句子对的语义匹配(SPSM)是NLP中最基本的问题，比如文本相似度检测、自然语言推理、释义识别、答案选择等。随着神经网络在NLP等领域的复兴，研究者开始致力于使用神经网络解决SPSM任务。卷积神经网络(CNN)和循环神经网络(RNN)已经被熟练地应用在了SPSM任务。以往的很多工作是基于句子编码或单词粒度的交互来处理语义匹配问题。基于句子编码的方法将两个句子分别表示成一个单一的分布式句子嵌入，然后再根据句子向量来计算句子对的相似度。该方式缺少句子对交互，并且单一句子向量可能无法完全涵盖句子的所有语义信息。为了增加句子对的交互性，研究者使用单词粒度的相似度矩阵获取细粒度语义信息并提高模型性能。仅仅基于细粒度的单词交互有可能丢失粗粒度信息，例如短语信息或者句子的长期依赖信息。YinandSchütze、Yinetal、Tienetal等人利用CNN学习到的单词、短语和n元信息学习多种粒度级别的交互信息。单词粒度和多粒度交互都是人为规定交互的粒度大小，这有可能导致模型无法学习到真正的不同粒度交互信息。目前的优秀模型大多均基于神经网络。CNN和RNN模型通常也采用基于句子编码和句子交互的策略。CNN擅长提取输入的抽...

【技术保护点】
1.一种语句相似度判断方法，其特征在于，包括以下步骤，/n步骤1：上下文信息建模；/n采用BiLSTM作为句子编码层；BiLSTM使用词嵌入作为输入，假定预训练的词嵌入的维度是d，输入的句子对S和T的长度分别为ls和lt，则S和T分别对应了一个输入矩阵S＝[S

【技术特征摘要】
1.一种语句相似度判断方法，其特征在于，包括以下步骤，
步骤1：上下文信息建模；
采用BiLSTM作为句子编码层；BiLSTM使用词嵌入作为输入，假定预训练的词嵌入的维度是d，输入的句子对S和T的长度分别为ls和lt，则S和T分别对应了一个输入矩阵S＝[S1,S2,…,Sls]，T＝[T1,T2,…,Tlt]，Si和Tj分别代表S中第i个单词和T中第j个单词的d维词嵌入,假定LSTM隐藏层的维度是u，给定第t个时间步的词嵌入xt，上一个时间步的隐藏层输出ht-1以及细胞状态ct-1，LSTM按照如下方式得到第t个时间步的输出：
it＝σ(wxixt+Whiht-1+bi)
ft＝σ(wxfxt+Whfht-1+bf)
ot＝σ(Wxoxt+whoht-1+bo)
ct＝ftct-1+ittanh(wxcxt+whcht-1+bc)
ht＝ottanh(ct)
i,f,o分别代表输入门、遗忘门和输出门，它们控制LSTM中的信息流动；对于输入序列S，BiLSTM将正向和反向的隐层单元级联在一起后得到输出Sh是ls×2u的输出矩阵；
步骤2：多语义嵌入层；
使用2层MLP自注意机制来学习输入句子的语义矩阵；将BiLSTM的整个隐藏层输出Sh或Th作为输入，计算它们的线性组合：

Es＝WsSh
权重矩阵W1∈RS×2u，将输入映射到大小为s的隐藏层；W2是一个r×s的权重矩阵，r是语义嵌入个数；softmax将输出的r×l矩阵的每一行归一化，得到多语义嵌入权重矩阵Ws；Ws的每一行对应的是Sh的每个单元的权重，其与Sh的加权和就得到句子的一个语义向量；ES∈Rr×2u是s的多语义嵌入矩阵，每一行代表了s的某个语义，且该语义仅由句子的部分单词、短语或长距离信息组成，自动具备了多粒度信息；汇总语义权重Ws并归一化，得到句子的总体语义向量：

总体语义向量汇总了各个分语义，体现了句子的整体关注点
步骤3：语义重要性计算层；
使用单个语义...

【专利技术属性】
技术研发人员：朱晓红，陈俊宇，何胜冬，
申请(专利权)人：重庆大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人