基于词性信息和卷积神经网络的关系抽取方法技术

技术编号:15329509 阅读:80 留言:0更新日期:2017-05-16 13:10
本发明专利技术涉及自然语言处理领域,特别涉及基于词性信息和卷积神经网络的关系抽取方法;将词性纳入特征信息输入到卷积神经网络中,由卷积神经网络来完成对包括词、词性和相对于待抽取关系的实体位置的信息的自动特征提取,进行实体间关系的自动分类。本发明专利技术方法使用卷积神经网络完成了待处理文本特征的自动提取,在进行特征提取时,将词性向量和词向量结合,使卷积神经网络能够自动学习到更多有助于关系分类的特征,分类判断的准确率更高。本发明专利技术方法与基于规则的关系抽取方法相比,不用人工编写大量的规则,减少了工作量,节省人力和时间成本;且具有更好的领域扩展性。与基于传统机器学习方法相比;不用做繁琐的特征工程工作,关系抽取效率更高。

Relation extraction method based on part of speech information and convolutional neural network

The present invention relates to the field of Natural Language Processing, in particular to relation extraction and part of speech information based on convolutional neural network; the part of speech into the feature information input to the convolutional neural network, a convolutional neural network to complete the extraction of the features include automatic word and part of speech and the relationship between the position of the selected entity information relative to the automatic classification of relations between entities the. The method using convolutional neural network to complete the automatic extraction of text feature, the feature extraction, the part of speech and word vector vector with the convolutional neural network can automatically learn more features contribute to the classification, the classification accuracy of judgment is higher. Compared with the rule based relation extraction method, the method of the invention does not need to manually write a large number of rules, thereby reducing workload, saving manpower and time cost, and having better field scalability. Compared with traditional machine learning methods, it is more efficient to extract relations without tedious work of feature engineering.

【技术实现步骤摘要】
基于词性信息和卷积神经网络的关系抽取方法
本专利技术涉及自然语言处理领域,特别涉及基于词性信息和卷积神经网络的关系抽取方法。
技术介绍
随着互联网的快速发展,互联网已经成为了人们获取信息的主要渠道,互联网上的文本数据内容也呈现出指数级增长的趋势。互联网上的文本数据中包含了丰富的信息,对于我们构建知识库或知识图谱非常有用;但是人工进行相关知识提取工作量极其巨大,如果计算机能够理解并提取出有用的信息,那将具有非常重要的意义。但互联网上的文本数据几乎都是以自然语言的形式存在,即无结构化的,计算机无法直接进行处理。为了解决这个问题,信息抽取技术应运而生,信息抽取技术从无结构化的文本数据中抽取出结构化数据,包括实体、实体间关系、事件等。关系抽取是信息抽取技术里的一项关键技术,通常通过命名实体识别技术识别出句子或语篇中的实体,再由关系抽取技术识别实体对之间的关系。关系抽取常用的方法包括:基于规则的抽取方法,基于无监督学习的抽取方法和基于监督学习的抽取方法。基于规则的关系抽取方法是人工编写规则来识别句子或者语篇中两个实体之间的关系。基于无监督学习的关系抽取方法将包括实体的句子或者语篇进行聚类,基于聚类结果进行关系识别。基于监督学习的关系抽取方法,通常将关系抽取问题转化为一个分类问题,再基于传统机器学习技术或深度学习技术进行关系分类。目前关系抽取方法中,基于规则的方法存在明显的不足,该方法需要人工编写大量的规则,工作量非常大,不易维护,而且必须对每个领域都编写规则,不能很好的扩展到其他领域。基于无监督学习的方法,将句子或语篇进行聚类时,往往效果不是很好,存在召回率和准备率都不高的问题,而且需要很多的人工干预。基于监督学习的关系抽取算法中,基于传统的机器学习算法进行关系分类时,需要人工提炼大量的特征,通常会基于分词、词性标注及句法分析等自然语言处理工具的结果提取特征,而且需要具备特定的领域知识,工作量大。基于深度学习进行关系分类时,不用人工做大量的特征提取,如利用卷积神经网络进行关系分类,但目前利用卷积神经网络进行关系分类时没有利用句子中词的词性信息,词性是词法分析的重要成果,对理解句子含义非常有意义,为关系分类提供非常重要的信息,能够提高关系分类的准确率,优化关系提取的效果。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供基于词性信息和卷积神经网络的关系抽取方法,将词性纳入特征信息输入到卷积神经网络中,由卷积神经网络来完成对包括词、词性和相对于待抽取关系的实体位置的信息的自动特征提取,进行实体关系的自动分类;无需手动进行特征提取,预测的效率和准确率更高。为了实现上述专利技术目的,本专利技术提供了以下技术方案:基于词性信息和卷积神经网络的关系抽取方法,将待处理文本分词后,将由各个词的词信息向量依次排列成的矩阵,输入卷积神经网络中,由卷积神经网络进行特征抽取,进而成对待处理文本中实体关系的判断;所述词信息向量由对应词的词向量Vector1、词性向量Vector2、相对于待抽取关系第一实体的位置向量Vector3和相对于第二实体的位置向量Vector4拼接而成。具体的,本专利技术基于词性信息和卷积神经网络的关系抽取方法包含以下实现步骤:(1)对待处理文本进行分词,形成词序列,并对序列中的各个词进行对应的词性标注:(2)建立各个词与向量之间的映射关系;建立各个词性与向量之间的映射关系;(3)计算序列中各个词相对于第一实体的位置,生成第一位置向量Vector3;计算句子中各个词相对于第二实体的位置,生成第二位置向量Vector4;(4)将词序列中各个词的词向量Vector1、词性向量Vector2,第一位置向量Vector3和第二位置向量Vector4,拼接成词信息向量Vector5;并将各个词对应的词信息向量依序排列,形成词信息矩阵;(5)将词信息矩阵输入到卷积神经网络中,进而实现实体关系分类判断。进一步的,所述步骤(2)包含以下实现过程:(2-1)构建一个语料库;(2-2)对语料库中的文本进行分词,并进行对应词性标注;(2-3)对分词后形成词的进行向量转化,同一个词对应一个向量;(2-4)将各个词性进行向量转化,同一词性对应一个向量。作为一种优选,所述步骤(2)采用WordEmbedding技术来进行词和词性的向量转化。作为一种优选,所述步骤(2)中采用word2vec来实现词和词性的向量化。进一步的,所述步骤(2)与所述步骤(1)的顺序可以调换。进一步的,所述卷积神经网络将提取到的特征信息输入到maxpooling层中,进行降维处理。进一步的,所述maxpooling层将经过降维处理后的特征信息输入到softmax层中进行对实体关系的分类预测。与现有技术相比,本专利技术的有益效果:本专利技术提供基于词性信息和卷积神经网络的关系抽取方法,将词性纳入特征信息输入到卷积神经网络中,由卷积神经网络来完成对包括词,词性和相对于待抽取关系的实体位置的信息的自动特征提取,进行实体关系的自动分类;在采用卷积神经网络进行关系抽取时,除了利用词信息和相对于实体的位置信息以外,还充分利用了词的词性信息,有助于更好的理解句子语义。将词性向量和词向量结合成一个信息含量更大的向量;当词向量信息不足的时候词性向量信息会作为补充,使卷积神经网络能够自动学习到更多有助于关系分类的特征,准确率更高。当句子中的词语表示存在歧义时,加入词性信息后,可以一定程度上消除歧义,使关系抽取的鲁棒性更好。与基于规则的关系抽取方法相比,本专利技术方法不用人工编写大量的规则,减少了工作量;而且能够比较好的扩展到不同的领域。本专利技术方法省略了人工规则编写的步骤,特征的提取由卷积神经网络来完成提取,与基于传统机器学习方法相比,本专利技术不用做繁琐的特征工程工作,使提升了实体关系的判断效率。附图说明:图1为本基于词性信息和卷积神经网络的关系抽取方法的实现步骤图。图2为实施例1总本基于词性信息和卷积神经网络的关系抽取方法实现步骤示意图。图3为本基于词性信息和卷积神经网络的关系抽取方法的工作原理示意图。具体实施方式下面结合试验例及具体实施方式对本专利技术作进一步的详细描述。但不应将此理解为本专利技术上述主题的范围仅限于以下的实施例,凡基于本
技术实现思路
所实现的技术均属于本专利技术的范围。提供基于词性信息和卷积神经网络的关系抽取方法:将待处理文本分词后,将由各个词的词信息向量依次排列成的矩阵,输入卷积神经网络中,由卷积神经网络进行特征抽取,进而完成对待处理文本中实体关系的判断;所述词信息向量由对应的词向量Vector1、词性向量Vector2、相对于待抽取关系第一实体的位置向量Vector3和相对于第二实体的位置向量Vector4拼接而成。本专利技术方法将词性信息作为输入信息,输入到卷积神经网络中,有助于更好的理解句子语义,提高关系类型判断的准确性。具体的,本基于词性信息和卷积神经网络的关系抽取方法包含如图1所示的以下实现步骤:(1)对待处理文本进行分词,形成词序列,并对序列中的各个词进行对应的词性标注:(2)建立各个词与向量之间的映射关系;建立各个词性与向量之间的映射关系;(3)计算序列中各个词相对于第一实体的位置,生成第一位置向量Vector3;计算句子中各个词相对于第二实体的位置,生成第二位置向量Vec本文档来自技高网
...
基于词性信息和卷积神经网络的关系抽取方法

【技术保护点】
基于词性信息和卷积神经网络的关系抽取方法,其特征在于,将待处理文本分词后,将由各个词的词信息向量依次排列成的矩阵,输入卷积神经网络中,由卷积神经网络进行特征抽取,进而完成对待处理文本中实体关系的判断;所述词信息向量由对应词向量、词性向量、相对于待抽取关系第一实体的位置向量和相对于第二实体的位置向量拼接而成。

【技术特征摘要】
1.基于词性信息和卷积神经网络的关系抽取方法,其特征在于,将待处理文本分词后,将由各个词的词信息向量依次排列成的矩阵,输入卷积神经网络中,由卷积神经网络进行特征抽取,进而完成对待处理文本中实体关系的判断;所述词信息向量由对应词向量、词性向量、相对于待抽取关系第一实体的位置向量和相对于第二实体的位置向量拼接而成。2.如权利要求1所述的方法,其特征在于,所述方法包含以下实现步骤:(1)对待处理文本进行分词,形成词序列,并对序列中的各个词进行对应的词性标注;(2)建立各个词与向量之间的映射关系;建立各个词性与向量之间的映射关系;(3)计算句子中各个词相对于第一实体的位置,生成第一位置向量;计算句子中各个词相对于第二实体的位置,生成第二位置向量;(4)将词序列中各个词的词向量、词性向量,第一位置向量和第二位置向量,拼接成对应的词信息向量;并将各个词对应的词信息向量依序排列,形成词信息矩阵;(5)通过卷积神...

【专利技术属性】
技术研发人员:罗强刘世林丁国栋练睿罗镇权闫俊杰
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1