一种基于深度学习的实例对齐方法技术

技术编号:21004208 阅读:375 留言:0更新日期:2019-04-30 21:33
本发明专利技术公开了一种基于深度学习的实例对齐方法,属于信息融合及Web挖掘技术领域。本发明专利技术包括如下步骤:构建实例语料集;构建实例对集合;对实例对集合进行预处理;基于段落向量模型Doc2vec和词向量模型Word2vec生成实例对的特征向量;基于训练集实例对训练双向长短期记忆‑卷积神经网络模型;利用经过训练的双向长短期记忆‑卷积神经网络模型对测试集实例对进行实例对齐判别,输出实例对齐结果。本发明专利技术将实例对齐问题转换为分类问题,通过双向长短期记忆‑卷积神经网络模型判别实例对齐,提高了实例对齐的识别性能,在信息检索、问答系统、意见挖掘等领域具有广阔的应用前景。

A Case Alignment Method Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的实例对齐方法
本专利技术涉及一种基于深度学习的实例对齐方法,属于信息融合和Web挖掘

技术介绍
本体对齐也称本体映射。本体对齐是指识别不同本体的概念、实例、属性的等价关系。实例对齐是本体对齐的重要研究内容,它是指判断不同数据源或本体中的实体是否指称现实世界中的相同事物。本体对齐技术包括基于语言学的本体对齐方法、基于结构的本体对齐方法、基于推理的对齐方法,以及基于机器学习的本体对齐方法。基于语言学的本体对齐方法是指根据自然语言处理技术、知识词典来计算本体元素的相似性。基于语言学的本体对齐方法可分为基于字符串的本体对齐方法、基于自然语言处理技术的本体对齐方法、基于知识的本体对齐方法。基于结构的本体对齐技术是指根据本体结构信息构建本体元素的对应关系。基于推理的本体对齐方法是指使用可满足性求解器来解决本体对齐问题。基于机器学习的本体对齐方法是指利用监督式机器学习或非监督式机器学习方法来判断本体元素的对齐关系。词向量模型Word2vec是一种构建词向量的神经网络模型。词向量模型Word2vec是基于词语的上下文来生成每个词语的向量表示。文档向量模型Doc2vec是基于词向量模型改进的神经网络模型。文档向量模型Doc2vec能够将一段句子或文档表示为向量。卷积神经网络是一种前馈神经网络,它主要由输入层、卷积层、池化层、全连接层组成。卷积层用于特征提取,池化层用于降低数据维度,全连接层用于分类。长短期记忆模型是一种用于解决长期依赖问题的神经网络模型。长短期记忆模型是由若干神经网络模块构成的链式结构。在神经网络模块中,长短期记忆模型通过输入门、遗忘门和输出门来实现信息的遗忘和记忆功能。现有的本体对齐方法包括基于语言学的方法、基于结构的方法、基于推理的方法,以及基于机器学习的方法。实例对齐是本体对齐领域的重要研究问题。目前采用深度学习技术进行实例对齐的研究工作较少。
技术实现思路
本专利技术的目的在于针对现有基于深度学习的实例对齐方法存在对齐性能较低的技术缺陷,提出了一种基于深度学习的实例对齐方法。所述实例对齐是指对于不同数据源的实例词条,判别哪些实例词条描述同一客观事物。所述深度学习的实例对齐方法,包括如下内容:其一,基于段落向量模型Doc2vec和词向量模型Word2vec来构建文本表示向量,通过段落向量模型Doc2vec模型生成段落层面的文本特征,通过词向量模型Word2vec模型生成文本高频词特征;其二,通过双向长短期记忆-卷积神经网络模型进行不同实例词条的对齐;双向长短期记忆模型(BidirectionalLong-termShort-termMemoryModel,简称BiLSTM)能够保留过去和未来的上下文的时序特征;卷积神经网络模型(ConvolutionalNeuralNetwork,简称CNN)能够选择特征和具有良好的数据泛化能力,双向长短期记忆模型和卷积神经网络模型的融合能够增强语义捕获能力。本专利技术的目的是通过以下技术方案实现的。一种基于深度学习的实例对齐方法,包括如下步骤:步骤1:由语料采集模块构建实例语料集,具体为:从多个百科网站采集实例词条文件,并将其保存到计算机;步骤2:由实例对构建模块构建实例对集合,具体为:从百科网站Ei和Ej采集实例词条文件,构建实例对(ei,ej),所有的实例对组成了实例对集合;其中,ei是来自百科网站Ei的实例词条,ej是来自百科网站Ej的实例词条,i,j为整数;步骤3:由实例对预处理模块对实例对集合进行预处理;其中,实例对集合预处理包括数据清洗和中文分词;数据清洗是指过滤掉实例词条中的符号和停用词;符号是指除了中文汉字、字母和阿拉伯数字以外的符号,包括中文标点符号、英文标点符号、括号、引号、星号(*)、井号(#)。停用词是指没有表示实际意义的词语,例如,连词“但是”、介词“在”、感叹词“啊”。中文分词是指采用分词工具对实例词条进行分词。对于实例对(ei,ej),经预处理后,将该实例对表示为:(wi1,wi2,…,wip,wj1,wj2,….,wjq),其中wi1,wi2,…,wip为实例词条ei中的词语,wj1,wj2,….,wjq为实例词条ej中的词语,p,q为整数;步骤4:由特征向量生成模块生成训练集实例对的特征向量;基于段落向量模型Doc2vec和词向量模型Word2vec生成训练集实例对的特征向量,该特征向量由实例对的段落向量和实例对的高频词向量构成;步骤4.1:基于段落向量模型Doc2vec生成训练集实例对的段落向量;对于任一实例对,采用段落向量模型Doc2vec生成实例对的段落向量。将一个实例对看做一个段落进行向量训练。对于实例对(ei,ej),设生成的段落向量表示为Vij,Vij=(y1,y2,…,ym),m为整数,y1,y2,…,ym为实数;步骤4.2:基于词向量模型Word2vec生成训练集实例对的高频词向量;对任一实例对,首先,计算实例对包含的词语的频率,并按照词语频率的非升序方式对词语进行排列。然后,提取排列在前面的k个词语。最后,基于词向量模型Word2vec生成k个词语的d维向量,进一步构建实例对的高频词向量。对于实例对(ei,ej),该实例对的高频词向量Uij表示为:Uij=(x11,x12,…,x1d,x21,x22,…,x2d,…,xk1,xk2,…,xkd)其中,(xi1,xi2,…,xid)为第i个词语的d维向量,xij为实数,1≤i≤k,1≤j≤d。根据实例对的段落向量和实例对的高频词向量来构建实例对的特征向量。对于实例对(ei,ej),该实例对的特征向量Wij为其段落向量Vij和其高频词向量Uij的拼接,即:Wij=Vij+Uij,其中“+”表示向量拼接;步骤5:基于训练集实例对,由深度学习模型训练模块训练双向长短期记忆-卷积神经网络模型;双向长短期记忆-卷积神经网络模型的输入是特征向量。双向长短期记忆-卷积神经网络模型包括隐藏层、卷积层、池化层、全连接层。通过隐藏层捕捉序列特征,通过卷积层的卷积操作提取局部特征,通过池化层的最大池化操作来保留显著特征,通过全连接层输出实例对齐结果。双向长短期记忆模型不仅能够保持特征的时序语义信息,而且能够捕获文本的上下文信息。卷积神经网络能够捕捉局部相关性,进行局部感知、权值共享,降低噪声。步骤6:实例对齐判别模块利用经过训练的双向长短期记忆-卷积神经网络模型对测试集实例对进行实例对齐判别,输出实例对齐结果。步骤6.1,构建测试集实例对的特征向量;对于测试集实例对,如同步骤4基于段落向量模型Doc2vec和词向量模型Word2vec生成测试集实例对的特征向量;步骤6.2:利用经过训练的双向长短期记忆-卷积神经网络模型对测试集实例对进行对齐判别;通过双向长短期记忆-卷积神经网络模型的全连接层,对测试集实例对进行两个类别的分类判别,两个类别包括实例对齐和实例不对齐,输出实例对对齐结果。至此,就完成了本方法的全部过程。基于上述方法构建的一种基于深度学习的实例对齐判别系统,包括语料采集模块、实例对构建模块、实例对预处理模块、特征向量生成模块、深度学习模型训练模块、实例对齐判别模块。语料采集模块与实例对构建模块相连。实例对构建模块与实例对预处理模块相连。实例对预处理模本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的实例对齐方法,所依托的一种基于深度学习的实例对齐判别系统,其特征在于:包括语料采集模块、实例对构建模块、实例对预处理模块、特征向量生成模块、深度学习模型训练模块以及实例对齐判别模块;语料采集模块与实例对构建模块相连;实例对构建模块与实例对预处理模块相连;实例对预处理模块与特征向量生成模块相连;特征向量生成模块与深度学习模型训练模块相连;深度学习模型训练模块与实例对齐判别模块相连,所述实例对齐方法,其特征在于:包括如下步骤:步骤1:由语料采集模块构建实例语料集;步骤2:由实例对构建模块构建实例对集合;步骤3:由实例对预处理模块对实例对集合进行预处理;其中,实例对集合预处理包括数据清洗和中文分词;数据清洗是指过滤掉实例词条中的符号和停用词;符号是指除了中文汉字、字母和阿拉伯数字以外的符号,包括中文标点符号、英文标点符号、括号、引号、星号*和井号#;停用词是指没有表示实际意义的词语;中文分词是指采用分词工具对实例词条进行分词;步骤4:由特征向量生成模块生成训练集实例对的特征向量,具体为:基于段落向量模型Doc2vec和词向量模型Word2vec生成训练集实例对的特征向量;其中,特征向量由实例对的段落向量和实例对的高频词向量构成;步骤5:基于训练集实例对,由深度学习模型训练模块训练双向长短期记忆‑卷积神经网络模型;其中,双向长短期记忆‑卷积神经网络模型的输入是特征向量;双向长短期记忆‑卷积神经网络模型包括隐藏层、卷积层、池化层、全连接层;通过隐藏层捕捉序列特征,通过卷积层的卷积操作提取局部特征,通过池化层的最大池化操作来保留显著特征,通过全连接层输出实例对齐结果;双向长短期记忆模型不仅能够保持特征的时序语义信息,而且能够捕获文本的上下文信息;卷积神经网络能够捕捉局部相关性,进行局部感知、权值共享,降低噪声;步骤6:实例对齐判别模块利用经过训练的双向长短期记忆‑卷积神经网络模型对测试集实例对进行实例对齐判别,输出实例对齐结果。...

【技术特征摘要】
1.一种基于深度学习的实例对齐方法,所依托的一种基于深度学习的实例对齐判别系统,其特征在于:包括语料采集模块、实例对构建模块、实例对预处理模块、特征向量生成模块、深度学习模型训练模块以及实例对齐判别模块;语料采集模块与实例对构建模块相连;实例对构建模块与实例对预处理模块相连;实例对预处理模块与特征向量生成模块相连;特征向量生成模块与深度学习模型训练模块相连;深度学习模型训练模块与实例对齐判别模块相连,所述实例对齐方法,其特征在于:包括如下步骤:步骤1:由语料采集模块构建实例语料集;步骤2:由实例对构建模块构建实例对集合;步骤3:由实例对预处理模块对实例对集合进行预处理;其中,实例对集合预处理包括数据清洗和中文分词;数据清洗是指过滤掉实例词条中的符号和停用词;符号是指除了中文汉字、字母和阿拉伯数字以外的符号,包括中文标点符号、英文标点符号、括号、引号、星号*和井号#;停用词是指没有表示实际意义的词语;中文分词是指采用分词工具对实例词条进行分词;步骤4:由特征向量生成模块生成训练集实例对的特征向量,具体为:基于段落向量模型Doc2vec和词向量模型Word2vec生成训练集实例对的特征向量;其中,特征向量由实例对的段落向量和实例对的高频词向量构成;步骤5:基于训练集实例对,由深度学习模型训练模块训练双向长短期记忆-卷积神经网络模型;其中,双向长短期记忆-卷积神经网络模型的输入是特征向量;双向长短期记忆-卷积神经网络模型包括隐藏层、卷积层、池化层、全连接层;通过隐藏层捕捉序列特征,通过卷积层的卷积操作提取局部特征,通过池化层的最大池化操作来保留显著特征,通过全连接层输出实例对齐结果;双向长短期记忆模型不仅能够保持特征的时序语义信息,而且能够捕获文本的上下文信息;卷积神经网络能够捕捉局部相关性,进行局部感知、权值共享,降低噪声;步骤6:实例对齐判别模块利用经过训练的双向长短期记忆-卷积神经网络模型对测试集实例对进行实例对齐判别,输出实例对齐结果。2.根据权利要求1所述的一种基于深度学习的实例对齐方法,其特征在于:步骤1,具体为:从多个百科网站采集实例词条文件,构建实例语料集,并将实例语料集保存到计算机。3.根据权利要求1所述的一种基于深度学习的实例对齐方法,其特征在于:步骤2,具体为:从百科网站Ei和Ej采集实例词条文件,构建实例对(ei,ej),所有的实例对组成了实例对集合;其中,ei是来自百科网站Ei的实例词条,ej是...

【专利技术属性】
技术研发人员:张春霞郭钰罗妹秋刘东磊牛振东
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1