The present invention relates to the field of Natural Language Processing, in particular to relation extraction and part of speech information based on convolutional neural network; the part of speech into the feature information input to the convolutional neural network, a convolutional neural network to complete the extraction of the features include automatic word and part of speech and the relationship between the position of the selected entity information relative to the automatic classification of relations between entities the. The method using convolutional neural network to complete the automatic extraction of text feature, the feature extraction, the part of speech and word vector vector with the convolutional neural network can automatically learn more features contribute to the classification, the classification accuracy of judgment is higher. Compared with the rule based relation extraction method, the method of the invention does not need to manually write a large number of rules, thereby reducing workload, saving manpower and time cost, and having better field scalability. Compared with traditional machine learning methods, it is more efficient to extract relations without tedious work of feature engineering.
【技术实现步骤摘要】
基于词性信息和卷积神经网络的关系抽取方法
本专利技术涉及自然语言处理领域,特别涉及基于词性信息和卷积神经网络的关系抽取方法。
技术介绍
随着互联网的快速发展,互联网已经成为了人们获取信息的主要渠道,互联网上的文本数据内容也呈现出指数级增长的趋势。互联网上的文本数据中包含了丰富的信息,对于我们构建知识库或知识图谱非常有用;但是人工进行相关知识提取工作量极其巨大,如果计算机能够理解并提取出有用的信息,那将具有非常重要的意义。但互联网上的文本数据几乎都是以自然语言的形式存在,即无结构化的,计算机无法直接进行处理。为了解决这个问题,信息抽取技术应运而生,信息抽取技术从无结构化的文本数据中抽取出结构化数据,包括实体、实体间关系、事件等。关系抽取是信息抽取技术里的一项关键技术,通常通过命名实体识别技术识别出句子或语篇中的实体,再由关系抽取技术识别实体对之间的关系。关系抽取常用的方法包括:基于规则的抽取方法,基于无监督学习的抽取方法和基于监督学习的抽取方法。基于规则的关系抽取方法是人工编写规则来识别句子或者语篇中两个实体之间的关系。基于无监督学习的关系抽取方法将包括实体的句子或者语篇进行聚类,基于聚类结果进行关系识别。基于监督学习的关系抽取方法,通常将关系抽取问题转化为一个分类问题,再基于传统机器学习技术或深度学习技术进行关系分类。目前关系抽取方法中,基于规则的方法存在明显的不足,该方法需要人工编写大量的规则,工作量非常大,不易维护,而且必须对每个领域都编写规则,不能很好的扩展到其他领域。基于无监督学习的方法,将句子或语篇进行聚类时,往往效果不是很好,存在召回率和准备率 ...
【技术保护点】
基于词性信息和卷积神经网络的关系抽取方法,其特征在于,将待处理文本分词后,将由各个词的词信息向量依次排列成的矩阵,输入卷积神经网络中,由卷积神经网络进行特征抽取,进而完成对待处理文本中实体关系的判断;所述词信息向量由对应词向量、词性向量、相对于待抽取关系第一实体的位置向量和相对于第二实体的位置向量拼接而成。
【技术特征摘要】
1.基于词性信息和卷积神经网络的关系抽取方法,其特征在于,将待处理文本分词后,将由各个词的词信息向量依次排列成的矩阵,输入卷积神经网络中,由卷积神经网络进行特征抽取,进而完成对待处理文本中实体关系的判断;所述词信息向量由对应词向量、词性向量、相对于待抽取关系第一实体的位置向量和相对于第二实体的位置向量拼接而成。2.如权利要求1所述的方法,其特征在于,所述方法包含以下实现步骤:(1)对待处理文本进行分词,形成词序列,并对序列中的各个词进行对应的词性标注;(2)建立各个词与向量之间的映射关系;建立各个词性与向量之间的映射关系;(3)计算句子中各个词相对于第一实体的位置,生成第一位置向量;计算句子中各个词相对于第二实体的位置,生成第二位置向量;(4)将词序列中各个词的词向量、词性向量,第一位置向量和第二位置向量,拼接成对应的词信息向量;并将各个词对应的词信息向量依序排列,形成词信息矩阵;(5)通过卷积神...
【专利技术属性】
技术研发人员:罗强,刘世林,丁国栋,练睿,罗镇权,闫俊杰,
申请(专利权)人:成都数联铭品科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。