基于Bi-LSTM算法的检测咨询语句重复性评价方法及系统技术方案

技术编号:28979911 阅读:36 留言:0更新日期:2021-06-23 09:26
本发明专利技术公开了一种基于Bi‑LSTM算法的检测咨询语句重复性评价方法及系统,包括输入咨询语句;使用DM模型将所输入的咨询语句转化为对应的词向量表示,使用Embedding的方式将离散的词向量转化为连续的一维句向量;在编码层中将所生成的句向量输入到Bi‑LSTM模型的神经网络;使用互注意力机制将其模型输出结果生成对应互注意力表示;通过距离加权函数来测算出特征向量之间的相似程度;通过多层感知网络进行分类筛选,判断问题语句存在重复值或者不存在重复值。本发明专利技术使用对应语句的句向量而非词向量来进行语义相似度的检测,利用语句的语序信息增加检测的准确率;使用互注意力机制帮助模型从过去和未来来获取语句的语义信息。

【技术实现步骤摘要】
基于Bi-LSTM算法的检测咨询语句重复性评价方法及系统
本专利技术涉及语义重复性评价领域,具体涉及到一种基于Bi-LSTM算法的检测咨询语句重复性评价方法及系统。
技术介绍
已有现有技术将注意力机制(Attention)引入双向长短时记忆网络(Bi-LSTM),从而用于智能问答系统的研究,如图1所示,在此系统中,句向量层将所输入的语句通过CBOW模型生成相对应的句向量,然后将其输入双向长短时记忆网络中;紧接着,此记忆网络通过对于语句进行训练并结合模型前向和后向的结果进行输出;然后将模型Bi-LSTM模型的输出结果输入到融合了注意力模型Encoder-Decoder框架,从而得到语句相对应的回答。也已有现有技术运用GloVe模型将咨询语句转化为词向量,并使用基于互注意力机制(Co-Attention)孪生长短期记忆模型(SiameseBi-LSTM)将其进行语义重复性的检测,所设计系统的检测流程如图2所示,在此系统中,其通过GloVe模型将所输入的问句转化为对应的词向量,并对所得的词向量进行拼接、求均值等操作。然后将所获得的问句特征向量本文档来自技高网...

【技术保护点】
1.一种基于Bi-LSTM算法的检测咨询语句重复性评价方法,其特征在于,包括如下步骤:/n步骤S1:输入咨询语句到神经网络中;/n步骤S2:使用DM模型将所输入的咨询语句转化为对应的词向量表示,使用Embedding的方式将离散的词向量转化为连续的一维句向量;/n步骤S3:在编码层中将所生成的句向量输入到Bi-LSTM模型的神经网络中;/n步骤S4:使用互注意力机制将Bi-LSTM模型的输出结果生成对应的互注意力表示;/n步骤S5:通过距离加权函数来测算出特征向量之间的相似程度;/n步骤S6:通过多层感知网络进行分类筛选,从而判断问题语句存在重复值或者不存在重复值。/n

【技术特征摘要】
1.一种基于Bi-LSTM算法的检测咨询语句重复性评价方法,其特征在于,包括如下步骤:
步骤S1:输入咨询语句到神经网络中;
步骤S2:使用DM模型将所输入的咨询语句转化为对应的词向量表示,使用Embedding的方式将离散的词向量转化为连续的一维句向量;
步骤S3:在编码层中将所生成的句向量输入到Bi-LSTM模型的神经网络中;
步骤S4:使用互注意力机制将Bi-LSTM模型的输出结果生成对应的互注意力表示;
步骤S5:通过距离加权函数来测算出特征向量之间的相似程度;
步骤S6:通过多层感知网络进行分类筛选,从而判断问题语句存在重复值或者不存在重复值。


2.根据权利要求1所述的评价方法,其特征在于,步骤S1中设定咨询语句包括W1和W2,记为:S(W1,W2),其中,
当S(W1,W2)→1时,表示两个咨询语句的语义相似或相同,即此组语句存在重复值;
当S(W1,W2)→0时,表示两个咨询语句的语义不相同,即此组语句不存在重复值。


3.根据权利要求2所述的评价方法,其特征在于,步骤S1进一步包括不同的咨询语句分别输入到神经网络的子网络中。


4.根据权利要求3所述的评价方法,其特征在于,步骤S2还包括对DM模型进行训练,训练步骤包括:
DM模型生成一个与词向量拥有相同维数的语句识别向量;
将所有的咨询语句的向量和词向量进行累加处理,得到对应的语句向量;
将对应的语句向量传递到下一层的编码层中。


5.根据权利要求4所述的评价方法,其特征在于,...

【专利技术属性】
技术研发人员:黄伟波刘江辉谢柏儒
申请(专利权)人:广东外语外贸大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1