一种半监督学习结合集成学习的问题等价性判别的方法技术

技术编号：21605618 阅读：22 留言：0更新日期：2019-07-13 18:15

本发明专利技术公开了一种半监督学习结合集成学习的问题等价性判别的方法，包括S1、同义词归一化：1)词向量嵌入；2)词语相似度判断；3)人工判断；S2、语义等价性识别：基于LSTM的对偶网络的计算；基于CNN的对偶网络模型的计算；基于Match Pyramid模型的计算；人工提取特征。本发明专利技术通过半监督的方式生成并引入同义词，从而使得整个系统可以根据具体领域进行灵活调整，并通过集合学习四种不同模型对问题的语义等价性进行判断，从而发挥不同模型的优势。

A Semi-supervised Learning Combined with ensemble Learning Method for Question Equivalence Discrimination

全部详细技术资料下载

【技术实现步骤摘要】
一种半监督学习结合集成学习的问题等价性判别的方法
本专利技术涉及数据挖掘
，具体涉及一种半监督学习结合集成学习的问题等价性判别的方法。
技术介绍
智能问答系统以一问一答形式，精确的定位用户所需要的提问知识，并为用户提供个性化的信息服务。随着人工智能技术的发展，智能问答系统在银行、保险、服务、政府等行业也获得了越来越多的应用。智能问答系统一般可以分为针对特定领域(domainspecific)或一般性(generaldomain)两类。对于前者，由于准确的回答必须建立在该领域的专业知识基础上，智能问答系统一般依赖于“问题—回答”知识库。因此，如果能将等价问题通过有效的识别等价问题对等价问题进行归一，则可以大量地节省构建此类问答库所需要的投入，并可以提高对未入库问题的准确匹配。传统的问题等价性判别方法一般采用基于关键词匹配的方式。这样的方法具有以下两方面的问题。一方面，这种方法难以描绘问题深层语义上的等价/不等价。另一方面，通过人工方式构造同义词词典需要耗费大量的时间和精力，并且难以穷尽同义词可能性。除去传统问题等价性判别方法外，基于深度学习的方法虽然在某种意义上避免了以上的问题，但是这种方法难以纳入业务上的先验知识，因此难以根据特定领域进行调整。
技术实现思路
针对现有技术的不足，本专利技术旨在提供一种半监督学习结合集成学习的问题等价性判别的方法，可以有效提高问题等价性判别的准确性和灵活性。为了实现上述目的，本专利技术采用如下技术方案：一种半监督学习结合集成学习的问题等价性判别的方法，包括如下步骤：S1、同义词归一化：识别出目标问答系统中待进行等价性判别的...

【技术保护点】
1.一种半监督学习结合集成学习的问题等价性判别的方法，其特征在于，包括如下步骤：S1、同义词归一化：识别出目标问答系统中待进行等价性判别的两个问题中的同义词并将同义词替换为相同的词语；其中，识别同义词具体为：1)词向量嵌入：采用CROW或者Skip‑gram方法进行词向量嵌入及训练，得到两个问题的词语的词向量；2)词语相似度判断：根据词向量嵌入得到两个问题的词语的词向量后，据此计算词语相似度，当两个词语的相似度超过设定的阈值时，判断为同义词；3)人工判断：人工判断是否所构造的同义词当中是否有覆盖非同义词及是否有遗漏的同义词；S2、语义等价性识别：对经过步骤S1处理的两个问题，通过集成学习判断所给定的两个问题在语义上是否等价；具体为：2.1、基于LSTM的对偶网络的计算：首先计算了两个问题的词语的词向量，并将每个问题的词向量分别输入到对应的LSTM网络中；然后取用LSTM网络的最终输出作为对应问题的编码结果；最后分别计算两个问题的编码结果之间的余弦距离和欧氏距离；2.2、基于CNN的对偶网络模型的计算：首先计算两个问题的词语的词向量，然后对每一个问题构建由卷积层和池化层构成的卷积神经网络...

【技术特征摘要】
1.一种半监督学习结合集成学习的问题等价性判别的方法，其特征在于，包括如下步骤：S1、同义词归一化：识别出目标问答系统中待进行等价性判别的两个问题中的同义词并将同义词替换为相同的词语；其中，识别同义词具体为：1)词向量嵌入：采用CROW或者Skip-gram方法进行词向量嵌入及训练，得到两个问题的词语的词向量；2)词语相似度判断：根据词向量嵌入得到两个问题的词语的词向量后，据此计算词语相似度，当两个词语的相似度超过设定的阈值时，判断为同义词；3)人工判断：人工判断是否所构造的同义词当中是否有覆盖非同义词及是否有遗漏的同义词；S2、语义等价性识别：对经过步骤S1处理的两个问题，通过集成学习判断所给定的两个问题在语义上是否等价；具体为：2.1、基于LSTM的对偶网络的计算：首先计算了两个问题的词语的词向量，并将每个问题的词向量分别输入到对应的LSTM网络中；然后取用LSTM网络的最终输出作为对应问题的编码结果；最后分别计算两个问题的编码结果之间的余弦距离和欧氏距离；2.2、基于CNN的对偶网络模型的计算：首先计算两个问题的词语的词向量，然后对每一个问题构建由卷积层和池化层构成的卷积神经网络，并将其输出作为对应问题的编码结果；在得到编码结果后，计算两个问题的编码结果之间的余弦距离和欧氏距离；2.3、基于MatchPyramid模型的计算：首先基于MatchPyramid模型对两个问题中的词语的词向量进行两两组合并计算各个组合的Pearson相关系数；在得到了两个问题中两两组合的词语的Pearson相关系数后，采用卷积神经网络进一步对相似度提取深度特征；最后将经过卷积神经网络提取的特征作为等价性判别的基础；2.4、...

【专利技术属性】
技术研发人员：苏萌，王然，苏海波，崔丙剑，刘钰，高体伟，
申请(专利权)人：北京百分点信息科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人