一种基于深度学习的实例对齐方法技术

技术编号：21004208 阅读：375 留言：0更新日期：2019-04-30 21:33

本发明专利技术公开了一种基于深度学习的实例对齐方法，属于信息融合及Web挖掘技术领域。本发明专利技术包括如下步骤：构建实例语料集；构建实例对集合；对实例对集合进行预处理；基于段落向量模型Doc2vec和词向量模型Word2vec生成实例对的特征向量；基于训练集实例对训练双向长短期记忆‑卷积神经网络模型；利用经过训练的双向长短期记忆‑卷积神经网络模型对测试集实例对进行实例对齐判别，输出实例对齐结果。本发明专利技术将实例对齐问题转换为分类问题，通过双向长短期记忆‑卷积神经网络模型判别实例对齐，提高了实例对齐的识别性能，在信息检索、问答系统、意见挖掘等领域具有广阔的应用前景。

A Case Alignment Method Based on Deep Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的实例对齐方法
本专利技术涉及一种基于深度学习的实例对齐方法，属于信息融合和Web挖掘

技术介绍
本体对齐也称本体映射。本体对齐是指识别不同本体的概念、实例、属性的等价关系。实例对齐是本体对齐的重要研究内容，它是指判断不同数据源或本体中的实体是否指称现实世界中的相同事物。本体对齐技术包括基于语言学的本体对齐方法、基于结构的本体对齐方法、基于推理的对齐方法，以及基于机器学习的本体对齐方法。基于语言学的本体对齐方法是指根据自然语言处理技术、知识词典来计算本体元素的相似性。基于语言学的本体对齐方法可分为基于字符串的本体对齐方法、基于自然语言处理技术的本体对齐方法、基于知识的本体对齐方法。基于结构的本体对齐技术是指根据本体结构信息构建本体元素的对应关系。基于推理的本体对齐方法是指使用可满足性求解器来解决本体对齐问题。基于机器学习的本体对齐方法是指利用监督式机器学习或非监督式机器学习方法来判断本体元素的对齐关系。词向量模型Word2vec是一种构建词向量的神经网络模型。词向量模型Word2vec是基于词语的上下文来生成每个词语的向量表示。文档向量模型Doc2vec是基于词向量模型改进的神经网络模型。文档向量模型Doc2vec能够将一段句子或文档表示为向量。卷积神经网络是一种前馈神经网络，它主要由输入层、卷积层、池化层、全连接层组成。卷积层用于特征提取，池化层用于降低数据维度，全连接层用于分类。长短期记忆模型是一种用于解决长期依赖问题的神经网络模型。长短期记忆模型是由若干神经网络模块构成的链式结构。在神经网络模块中，长短期记忆模型通过输入门、...

【技术保护点】
1.一种基于深度学习的实例对齐方法，所依托的一种基于深度学习的实例对齐判别系统，其特征在于：包括语料采集模块、实例对构建模块、实例对预处理模块、特征向量生成模块、深度学习模型训练模块以及实例对齐判别模块；语料采集模块与实例对构建模块相连；实例对构建模块与实例对预处理模块相连；实例对预处理模块与特征向量生成模块相连；特征向量生成模块与深度学习模型训练模块相连；深度学习模型训练模块与实例对齐判别模块相连，所述实例对齐方法，其特征在于：包括如下步骤：步骤1：由语料采集模块构建实例语料集；步骤2：由实例对构建模块构建实例对集合；步骤3：由实例对预处理模块对实例对集合进行预处理；其中，实例对集合预处理包括数据清洗和中文分词；数据清洗是指过滤掉实例词条中的符号和停用词；符号是指除了中文汉字、字母和阿拉伯数字以外的符号，包括中文标点符号、英文标点符号、括号、引号、星号*和井号#；停用词是指没有表示实际意义的词语；中文分词是指采用分词工具对实例词条进行分词；步骤4：由特征向量生成模块生成训练集实例对的特征向量，具体为：基于段落向量模型Doc2vec和词向量模型Word2vec生成训练集实例对的特征向量...

【技术特征摘要】
1.一种基于深度学习的实例对齐方法，所依托的一种基于深度学习的实例对齐判别系统，其特征在于：包括语料采集模块、实例对构建模块、实例对预处理模块、特征向量生成模块、深度学习模型训练模块以及实例对齐判别模块；语料采集模块与实例对构建模块相连；实例对构建模块与实例对预处理模块相连；实例对预处理模块与特征向量生成模块相连；特征向量生成模块与深度学习模型训练模块相连；深度学习模型训练模块与实例对齐判别模块相连，所述实例对齐方法，其特征在于：包括如下步骤：步骤1：由语料采集模块构建实例语料集；步骤2：由实例对构建模块构建实例对集合；步骤3：由实例对预处理模块对实例对集合进行预处理；其中，实例对集合预处理包括数据清洗和中文分词；数据清洗是指过滤掉实例词条中的符号和停用词；符号是指除了中文汉字、字母和阿拉伯数字以外的符号，包括中文标点符号、英文标点符号、括号、引号、星号*和井号#；停用词是指没有表示实际意义的词语；中文分词是指采用分词工具对实例词条进行分词；步骤4：由特征向量生成模块生成训练集实例对的特征向量，具体为：基于段落向量模型Doc2vec和词向量模型Word2vec生成训练集实例对的特征向量；其中，特征向量由实例对的段落向量和实例对的高频词向量构成；步骤5：基于训练集实例对，由深度学习模型训练模块训练双向长短期记忆-卷积神经网络模型；其中，双向长短期记忆-卷积神经网络模型的输入是特征向量；双向长短期记忆-卷积神经网络模型包括隐藏层、卷积层、池化层、全连接层；通过隐藏层捕捉序列特征，通过卷积层的卷积操作提取局部特征，通过池化层的最大池化操作来保留显著特征，通过全连接层输出实例对齐结果；双向长短期记忆模型不仅能够保持特征的时序语义信息，而且能够捕获文本的上下文信息；卷积神经网络能够捕捉局部相关性，进行局部感知、权值共享，降低噪声；步骤6：实例对齐判别模块利用经过训练的双向长短期记忆-卷积神经网络模型对测试集实例对进行实例对齐判别，输出实例对齐结果。2.根据权利要求1所述的一种基于深度学习的实例对齐方法，其特征在于：步骤1，具体为：从多个百科网站采集实例词条文件，构建实例语料集，并将实例语料集保存到计算机。3.根据权利要求1所述的一种基于深度学习的实例对齐方法，其特征在于：步骤2，具体为：从百科网站Ei和Ej采集实例词条文件，构建实例对(ei,ej)，所有的实例对组成了实例对集合；其中，ei是来自百科网站Ei的实例词条，ej是...

【专利技术属性】
技术研发人员：张春霞，郭钰，罗妹秋，刘东磊，牛振东，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人