一种基于深度学习的实体关系抽取方法技术

技术编号：24939057 阅读：29 留言：0更新日期：2020-07-17 21:09

本发明专利技术公开了一种基于深度学习的实体关系抽取方法。该方法使用卷积神经网络和循环神经网络对实体关系抽取，在CNN和LSTM神经网络上加入文本中的词向量特征和位置特征、局部特征和序列特征等。然后将卷积神经网络和循环神经网络组合在一起，分别组合成串联、并联的组合模型对实体关系进行抽取，从不同角度去学习特征，获得更加充分全面的学习能力，还在多种不同结构的神经网络的基础上，将卷积神经网络和循环神经网络组合在一起，分别使用了串联、并联的方式对样本进行自动抽取。最后联合了多个基于深度学习的模型，将利用之前设计的多个关系抽取模型，将这些模型联合在一起进行实体关系抽取，进而选择出样本较优的实体关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的实体关系抽取方法
本专利技术涉及实体关系抽取领域，具体涉及一种基于深度学习的实体关系抽取方法。
技术介绍
实体关系抽取的任务是对文本中的实体对进行语义识别，根据其在文本和语句中的含义，判断他们之间是否具有关系或者属于什么类型的关系。早期的实体关系抽取主要采用模式匹配的方法。基于规则的方法分析文本中的一些隐含的特征，由参与的专业人员手动定义出规则和模式，利用关系模式来发现和匹配其中的关系。基于规则的方法需要在专业领域拥有专业知识的人来人工编写规则，需要大量的人力投入。在将抽取规则应用于别的领域时候，往往受到限制，具有很强的专业性和局限性。这种早期主要依赖的基于规则的研究方法，在一些专业领域和范围内获得了较好的成果。随着机器学习的发展与应用，实体关系抽取有了新的研究方法，利用机器学习来进行实体关系抽取的研究方法得到了广泛的关注。机器学习的方法在实体关系抽取中应用非常广泛，无监督、弱监督和有监督的机器学习方法都在实体关系抽取中得到了相应的研究，基于无监督、弱监督的学习方法不需要太多的人工标注好的样本数据，在训练学习中减少了对样本数据标签的依赖，但是训练过程容易被噪声干扰，降低实体关系抽取性能。除了无监督和弱监督的实体关系抽取方法，基于有监督学习的抽取方法在多个领域得到了研究和应用，也取得较好的抽取效果。有监督学习的实体关系抽取方法相对需要更多的精力投入，抽取模型会依赖于较多的已经标注好的数据集，需要充分的标注数据才能使实体关系抽取模型的训练过程顺利进行，而得到这些标注数据较为费时费力，所以有监督学...

【技术保护点】
1.一种基于深度学习的实体关系抽取方法，其特征在于，包括：/n采用CNN神经网络从输入样本中提取特征并学习，以获取该模式下的第一候选关系类型；/n采用BLSTM神经网络从输入样本中提取特征并学习，以获取该模式下的第二候选关系类型；/n采用CNN神经网络和BLSTM神经网络分别从输入样本中提取特征并学习，并将其学到的信息依次分别输入至BLSTM神经网络和CNN神经网络进一步学习，以分别获取第三候选关系类型和第四候选关系类型；/n采用CNN神经网络和BLSTM神经网络分别从输入样本中提取特征并学习，学习后的特征进行拼接，以获取第五候选关系类型；/n对第一候选关系类型、第二候选关系类型、第三候选关系类型、第四候选关系类型和第五候选关系类型进行评定，选取分数最高的候选关系类型作为该样本的最终关系分类结果。/n

【技术特征摘要】
1.一种基于深度学习的实体关系抽取方法，其特征在于，包括：
采用CNN神经网络从输入样本中提取特征并学习，以获取该模式下的第一候选关系类型；
采用BLSTM神经网络从输入样本中提取特征并学习，以获取该模式下的第二候选关系类型；
采用CNN神经网络和BLSTM神经网络分别从输入样本中提取特征并学习，并将其学到的信息依次分别输入至BLSTM神经网络和CNN神经网络进一步学习，以分别获取第三候选关系类型和第四候选关系类型；
采用CNN神经网络和BLSTM神经网络分别从输入样本中提取特征并学习，学习后的特征进行拼接，以获取第五候选关系类型；
对第一候选关系类型、第二候选关系类型、第三候选关系类型、第四候选关系类型和第五候选关系类型进行评定，选取分数最高的候选关系类型作为该样本的最终关系分类结果。

2.根据权利要求1所述的基于深度学习的实体关系抽取方法，其特征在于，所述分数最高的候选关系类型如多于一种，则从所有分数最高的候选关系类型中随机选择一种类型作为分类的结果。

【专利技术属性】
技术研发人员：路松峰，
申请(专利权)人：南京搜文信息技术有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人