一种半监督学习结合集成学习的问题等价性判别的方法技术

技术编号:21605618 阅读:22 留言:0更新日期:2019-07-13 18:15
本发明专利技术公开了一种半监督学习结合集成学习的问题等价性判别的方法,包括S1、同义词归一化:1)词向量嵌入;2)词语相似度判断;3)人工判断;S2、语义等价性识别:基于LSTM的对偶网络的计算;基于CNN的对偶网络模型的计算;基于Match Pyramid模型的计算;人工提取特征。本发明专利技术通过半监督的方式生成并引入同义词,从而使得整个系统可以根据具体领域进行灵活调整,并通过集合学习四种不同模型对问题的语义等价性进行判断,从而发挥不同模型的优势。

A Semi-supervised Learning Combined with ensemble Learning Method for Question Equivalence Discrimination

【技术实现步骤摘要】
一种半监督学习结合集成学习的问题等价性判别的方法
本专利技术涉及数据挖掘
,具体涉及一种半监督学习结合集成学习的问题等价性判别的方法。
技术介绍
智能问答系统以一问一答形式,精确的定位用户所需要的提问知识,并为用户提供个性化的信息服务。随着人工智能技术的发展,智能问答系统在银行、保险、服务、政府等行业也获得了越来越多的应用。智能问答系统一般可以分为针对特定领域(domainspecific)或一般性(generaldomain)两类。对于前者,由于准确的回答必须建立在该领域的专业知识基础上,智能问答系统一般依赖于“问题—回答”知识库。因此,如果能将等价问题通过有效的识别等价问题对等价问题进行归一,则可以大量地节省构建此类问答库所需要的投入,并可以提高对未入库问题的准确匹配。传统的问题等价性判别方法一般采用基于关键词匹配的方式。这样的方法具有以下两方面的问题。一方面,这种方法难以描绘问题深层语义上的等价/不等价。另一方面,通过人工方式构造同义词词典需要耗费大量的时间和精力,并且难以穷尽同义词可能性。除去传统问题等价性判别方法外,基于深度学习的方法虽然在某种意义上避免了以上的问题,但是这种方法难以纳入业务上的先验知识,因此难以根据特定领域进行调整。
技术实现思路
针对现有技术的不足,本专利技术旨在提供一种半监督学习结合集成学习的问题等价性判别的方法,可以有效提高问题等价性判别的准确性和灵活性。为了实现上述目的,本专利技术采用如下技术方案:一种半监督学习结合集成学习的问题等价性判别的方法,包括如下步骤:S1、同义词归一化:识别出目标问答系统中待进行等价性判别的两个问题中的同义词并将同义词替换为相同的词语;其中,识别同义词具体为:1)词向量嵌入:采用CROW或者Skip-gram方法进行词向量嵌入及训练,得到两个问题的词语的词向量。2)词语相似度判断:根据词向量嵌入得到两个问题的词语的词向量后,据此计算词语相似度,当两个词语的相似度超过设定的阈值时,判断为同义词;3)人工判断:人工判断是否所构造的同义词当中是否有覆盖非同义词及是否有遗漏的同义词;S2、语义等价性识别:对经过步骤S1处理的两个问题,通过集成学习判断所给定的两个问题在语义上是否等价;具体为:2.1、基于LSTM的对偶网络的计算:首先计算了两个问题的词语的词向量,并将每个问题的词向量分别输入到对应的LSTM网络中;然后取用LSTM网络的最终输出作为对应问题的编码结果;最后分别计算两个问题的编码结果之间的余弦距离和欧氏距离;2.2、基于CNN的对偶网络模型的计算:首先计算两个问题的词语的词向量,然后对每一个问题构建由卷积层和池化层构成的卷积神经网络,并将其输出作为对应问题的编码结果;在得到编码结果后,计算两个问题的编码结果之间的余弦距离和欧氏距离;2.3、基于MatchPyramid模型的计算:首先基于MatchPyramid模型对两个问题中的词语的词向量进行两两组合并计算各个组合的Pearson相关系数;在得到了两个问题中两两组合的词语的Pearson相关系数后,采用卷积神经网络进一步对相似度提取深度特征;最后将经过卷积神经网络提取的特征作为等价性判别的基础;2.4、人工提取特征:1)基本统计特征:包括两个问题的长度、两个问题的长度差、两个问题分词后的长度、两个问题分词后的长度差、两个问题共有的词语的数量;2)基于模糊匹配的特征:包括两个问题词语完全相同的概率、词语子串相同的比率、词语去重后子串相同的比率、词语排序后子串相同的比率、词语去重后完全相同的比率、词语排序后完全相同的比率;3)基于TF-IDF的特征:包括两个问题各自的TF-IDF值之和、两个问题各自的TF-IDF值的平均值;4)基于词向量的特征:把两个问题的词语的词向量加和求平均得到每个问题的句向量,然后计算句向量之间的多种距离,包括句向量的余弦距离、曼哈顿距离、杰卡德相似系数、坎贝拉距离、欧氏距离、闵氏距离、Braycurtisdistance;2.5、将步骤2.1中两个LTSM网络输出的编码结果的余弦距离和欧氏距离、步骤2.2中两个卷积神经网络输出的编码结果的余弦距离和欧氏距离、步骤2.3中卷积神经网络提取的特征和步骤2.4中人工提取的特征通过全连接层结合在一起,然后通过梯度后向迭代方法直接进行训练,得到最终的判别结果。进一步地,步骤S1中,首先使用在通用领域训练的词向量作为基础,然后选择目标问答系统所对应的语料基于Skip-Gram方法进行增量训练,从而使得最终得到的词向量能够适应目标问答系统的领域。进一步地,步骤2)具体过程为:2.1)去掉问题中的常用停用词;2.2)挑选出问题中出现频率最高的词语;2.3)计算步骤2.2)中挑选出来的词语的词向量和其他词语的词向量的Pearson相关系数,挑选Pearson系数超过预设阈值的词语作为同义词。本专利技术的有益效果在于:本专利技术通过半监督的方式生成并引入同义词,从而使得整个系统可以根据具体领域进行灵活调整,并通过集合学习四种不同模型对问题的语义等价性进行判断,从而发挥不同模型的优势。附图说明图1为本专利技术实施例中方法流程示意图;图2为经典RNN结构示意图。具体实施方式以下将结合附图对本专利技术作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围并不限于本实施例。以下先对实施例中可能涉及的专业术语作简单解释:问题等价性判别:等价问题为意图和语义均相等的问题。问题等价性判别为从给定问题对当中判断两问题是否等价的任务。WordEmbedding:Wordembedding是一系列在语言模型和特征提取中所使用的自然语言处理技术。此项技术将字、词或短语转化为一系列向量或实数。Wordembedding广泛应用于各项NLP任务,如分词、句法分析、命名实体识别等。SiameseNetwork:SiameseNetwork(对偶神经网络)为一种特殊的神经网络架构。该网络由两部分结构相同的网络构成,一般用来生成两个实体(如图像)之间的差异。LSTM:LSTM(LongShort-TermMemory,长短期记忆网络),是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。其通过“记忆门”和“忘记门”来控制历史信息的去留,有效解决了传统循环神经网络依梯度消失或梯度爆炸的问题。CNN:CNN(Convolutionalneuralnetwork,卷积神经网络)为一种常用的深度学习神经网络,一般由多个卷积层、池化层及全连接层构成。这种网络通过卷积运算可以提取局部的特征,因此广泛应用于图像相关人工智能任务中,如图像识别和图像检测。MatchPyramid:一种判断两段文本相似性的方法。具体而言,该方法将两段文本中每一字、词或短语计算两两相关系数计算(基于其词向量),从而获得两段文本的相似性度量。集成学习(ensemble):一种统计学或机器学习中预测性建模的方法。这种方法通过组合多个统计学或机器学习的方法获得单一模型所不具备的预测精度。本实施例提供一种半监督学习结合集成学习的问题等价性判别的方法,如图1所示,包括如下步骤:S1、同义词归一化:识别出目标问答系统中待进行等价性判别的两本文档来自技高网...

【技术保护点】
1.一种半监督学习结合集成学习的问题等价性判别的方法,其特征在于,包括如下步骤:S1、同义词归一化:识别出目标问答系统中待进行等价性判别的两个问题中的同义词并将同义词替换为相同的词语;其中,识别同义词具体为:1)词向量嵌入:采用CROW或者Skip‑gram方法进行词向量嵌入及训练,得到两个问题的词语的词向量;2)词语相似度判断:根据词向量嵌入得到两个问题的词语的词向量后,据此计算词语相似度,当两个词语的相似度超过设定的阈值时,判断为同义词;3)人工判断:人工判断是否所构造的同义词当中是否有覆盖非同义词及是否有遗漏的同义词;S2、语义等价性识别:对经过步骤S1处理的两个问题,通过集成学习判断所给定的两个问题在语义上是否等价;具体为:2.1、基于LSTM的对偶网络的计算:首先计算了两个问题的词语的词向量,并将每个问题的词向量分别输入到对应的LSTM网络中;然后取用LSTM网络的最终输出作为对应问题的编码结果;最后分别计算两个问题的编码结果之间的余弦距离和欧氏距离;2.2、基于CNN的对偶网络模型的计算:首先计算两个问题的词语的词向量,然后对每一个问题构建由卷积层和池化层构成的卷积神经网络,并将其输出作为对应问题的编码结果;在得到编码结果后,计算两个问题的编码结果之间的余弦距离和欧氏距离;2.3、基于Match Pyramid模型的计算:首先基于Match Pyramid模型对两个问题中的词语的词向量进行两两组合并计算各个组合的Pearson相关系数;在得到了两个问题中两两组合的词语的Pearson相关系数后,采用卷积神经网络进一步对相似度提取深度特征;最后将经过卷积神经网络提取的特征作为等价性判别的基础;2.4、人工提取特征:1)基本统计特征:包括两个问题的长度、两个问题的长度差、两个问题分词后的长度、两个问题分词后的长度差、两个问题共有的词语的数量;2)基于模糊匹配的特征:包括两个问题词语完全相同的概率、词语子串相同的比率、词语去重后子串相同的比率、词语排序后子串相同的比率、词语去重后完全相同的比率、词语排序后完全相同的比率;3)基于TF‑IDF的特征:包括两个问题各自的TF‑IDF值之和、两个问题各自的TF‑IDF值的平均值;4)基于词向量的特征:把两个问题的词语的词向量加和求平均得到每个问题的句向量,然后计算句向量之间的多种距离,包括句向量的余弦距离、曼哈顿距离、杰卡德相似系数、坎贝拉距离、欧氏距离、闵氏距离、Braycurtis distance;2.5、将步骤2.1中两个LTSM网络输出的编码结果的余弦距离和欧氏距离、步骤2.2中两个卷积神经网络输出的编码结果的余弦距离和欧氏距离、步骤2.3中卷积神经网络提取的特征和步骤2.4中人工提取的特征通过全连接层结合在一起,然后通过梯度后向迭代方法直接进行训练,得到最终的判别结果。...

【技术特征摘要】
1.一种半监督学习结合集成学习的问题等价性判别的方法,其特征在于,包括如下步骤:S1、同义词归一化:识别出目标问答系统中待进行等价性判别的两个问题中的同义词并将同义词替换为相同的词语;其中,识别同义词具体为:1)词向量嵌入:采用CROW或者Skip-gram方法进行词向量嵌入及训练,得到两个问题的词语的词向量;2)词语相似度判断:根据词向量嵌入得到两个问题的词语的词向量后,据此计算词语相似度,当两个词语的相似度超过设定的阈值时,判断为同义词;3)人工判断:人工判断是否所构造的同义词当中是否有覆盖非同义词及是否有遗漏的同义词;S2、语义等价性识别:对经过步骤S1处理的两个问题,通过集成学习判断所给定的两个问题在语义上是否等价;具体为:2.1、基于LSTM的对偶网络的计算:首先计算了两个问题的词语的词向量,并将每个问题的词向量分别输入到对应的LSTM网络中;然后取用LSTM网络的最终输出作为对应问题的编码结果;最后分别计算两个问题的编码结果之间的余弦距离和欧氏距离;2.2、基于CNN的对偶网络模型的计算:首先计算两个问题的词语的词向量,然后对每一个问题构建由卷积层和池化层构成的卷积神经网络,并将其输出作为对应问题的编码结果;在得到编码结果后,计算两个问题的编码结果之间的余弦距离和欧氏距离;2.3、基于MatchPyramid模型的计算:首先基于MatchPyramid模型对两个问题中的词语的词向量进行两两组合并计算各个组合的Pearson相关系数;在得到了两个问题中两两组合的词语的Pearson相关系数后,采用卷积神经网络进一步对相似度提取深度特征;最后将经过卷积神经网络提取的特征作为等价性判别的基础;2.4、...

【专利技术属性】
技术研发人员:苏萌王然苏海波崔丙剑刘钰高体伟
申请(专利权)人:北京百分点信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1