基于生成对抗网络的关系抽取方法技术

技术编号：17779703 阅读：109 留言：0更新日期：2018-04-22 08:12

本发明专利技术公开了一种基于生成对抗网络的关系抽取方法，包括准备训练文本和待分析文本；对训练文本和待分析文本进行分词和句法分析；将得到的分词和句法分析结果转换为句法分析树图像；对生成器和判别器进行训练得到生成对抗网络模型；采用生成对抗网络对待分析文本进行关系抽取。本发明专利技术简化了其他基于深度学习方法的输入数据处理过程，放弃了相对繁琐的向量化过程，输入数据处理相对简单，利用的特征相对目前基于深度学习的关系抽取方法更丰富，关系识别过程模拟人的思维模式，将生成对抗网络应用到关系抽取中，充分发挥生成对抗网络的自动学习图像中特征的能力，提高关系抽取的效果，而且方法简单可靠。

全部详细技术资料下载

【技术实现步骤摘要】
基于生成对抗网络的关系抽取方法
本专利技术具体涉及一种基于生成对抗网络的关系抽取方法。
技术介绍
随着信息技术的迅速发展，互联网上的资源爆炸式增长。互联网中社交媒体数据、百科、论坛、专业文献、新闻等非结构化文本数据包含了丰富的领域知识信息。众多领域专家利用互联网上的文本数据构建结构化的领域知识库，以指导领域内业务问题的推理决策。知识库包含了领域相关实体以及实体间的关系，利用关系抽取技术从海量非结构化的文本中识别抽取领域实体的语义关系是构建知识库的关键步骤。目前关系抽取的方法主要分为两类：基于规则的方法以及基于机器学习的方法。基于规则的方法主要利用人类的经验和总结设置特定的规则，抽取文本中的实体关系。基于规则的方法规则的设定费时费力，需要专业的领域人才设置规则。规则在不同领域数据上的迁移能力较弱，需要针对每一个领域数据编写适当的规则。基于机器学习的方法目前主要有基于特征的方法、基于核函数的方法、基于深度学习的方法。基于特征的方法和基于核函数的方法需要人工选择大量对关系抽取有辨别性的特征，定义特征模板，抽取特征，工作相对繁琐。基于深度学习的方法将文本特征信息映射为向量，利用CNN、RNN等模型学习实体间关系的特征进行识别分类。相对于传统方法，基于深度学习的方法模拟人的思维方式，性能上有一定的提升。但其特征的向量化过程相对复杂，同时普遍没有考虑对关系抽取有一定影响的文本整体结构信息。
技术实现思路
本专利技术的目的在于提供一种方法简单可靠、将对关系抽取有判别性的特征图像化处理的基于生成对抗网络的关系抽取方法。本专利技术提供的这种基于生成对抗网络的关系抽取方法，包括如...

【技术保护点】
一种基于生成对抗网络的关系抽取方法，包括如下步骤：S1.准备训练文本和待分析文本；所述训练文本中的实体和实体间的关系已经标注，待分析文本中的实体已经进行了标注；S2.采用自然语言处理工具对训练文本和待分析文本进行分词和句法分析；S3.采用图形绘制工具将步骤S2得到的分词和句法分析结果转换为句法分析树图像；S4.采用步骤S3得到的训练文本的句法分析树图像和标注的文本中实体间的关系，对生成器和判别器进行相互竞争的迭代训练，从而得到训练好的生成对抗网络模型；S5.采用步骤S4得到的生成对抗网络，输入步骤S3获取的待分析文本的句法分析树图像，对待分析文本进行关系抽取。

【技术特征摘要】
1.一种基于生成对抗网络的关系抽取方法，包括如下步骤：S1.准备训练文本和待分析文本；所述训练文本中的实体和实体间的关系已经标注，待分析文本中的实体已经进行了标注；S2.采用自然语言处理工具对训练文本和待分析文本进行分词和句法分析；S3.采用图形绘制工具将步骤S2得到的分词和句法分析结果转换为句法分析树图像；S4.采用步骤S3得到的训练文本的句法分析树图像和标注的文本中实体间的关系，对生成器和判别器进行相互竞争的迭代训练，从而得到训练好的生成对抗网络模型；S5.采用步骤S4得到的生成对抗网络，输入步骤S3获取的待分析文本的句法分析树图像，对待分析文本进行关系抽取。2.根据权利要求1所述的基于生成对抗网络的关系抽取方法，其特征在于步骤S2所述的自然语言处理工具为StanfordParser或者具有类似功能的自然语言处理工具。3.根据权利要求2所述的基于生成对抗网络的关系抽取方法，其特征在于步骤S3所述的图形绘制工具为Graphviz或者具有类似功能的图形绘制工具。4.根据权利要求3所述的基于生成对抗网络的关系抽取方法，其特征在于步骤S4所述的对生成器和判别器进行相互竞争的迭代训练，具体为采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练。5.根据权利要求4所述的基于生成对抗网络的关系抽取方法，其特征在于所述的采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练，具体为采用如下步骤进行训练：A.生成m组训练文本及相应的句法分析树图像；B.初始化判别器D和生成器G，并且每一次迭代中均包括依次判别器D的训练和生成器G的训练；C.采用m...

【专利技术属性】
技术研发人员：刘兵，蒋方玲，蒋黎明，龚向坚，
申请(专利权)人：南华大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人