当前位置: 首页 > 专利查询>南华大学专利>正文

基于生成对抗网络的关系抽取方法技术

技术编号:17779703 阅读:109 留言:0更新日期:2018-04-22 08:12
本发明专利技术公开了一种基于生成对抗网络的关系抽取方法,包括准备训练文本和待分析文本;对训练文本和待分析文本进行分词和句法分析;将得到的分词和句法分析结果转换为句法分析树图像;对生成器和判别器进行训练得到生成对抗网络模型;采用生成对抗网络对待分析文本进行关系抽取。本发明专利技术简化了其他基于深度学习方法的输入数据处理过程,放弃了相对繁琐的向量化过程,输入数据处理相对简单,利用的特征相对目前基于深度学习的关系抽取方法更丰富,关系识别过程模拟人的思维模式,将生成对抗网络应用到关系抽取中,充分发挥生成对抗网络的自动学习图像中特征的能力,提高关系抽取的效果,而且方法简单可靠。

【技术实现步骤摘要】
基于生成对抗网络的关系抽取方法
本专利技术具体涉及一种基于生成对抗网络的关系抽取方法。
技术介绍
随着信息技术的迅速发展,互联网上的资源爆炸式增长。互联网中社交媒体数据、百科、论坛、专业文献、新闻等非结构化文本数据包含了丰富的领域知识信息。众多领域专家利用互联网上的文本数据构建结构化的领域知识库,以指导领域内业务问题的推理决策。知识库包含了领域相关实体以及实体间的关系,利用关系抽取技术从海量非结构化的文本中识别抽取领域实体的语义关系是构建知识库的关键步骤。目前关系抽取的方法主要分为两类:基于规则的方法以及基于机器学习的方法。基于规则的方法主要利用人类的经验和总结设置特定的规则,抽取文本中的实体关系。基于规则的方法规则的设定费时费力,需要专业的领域人才设置规则。规则在不同领域数据上的迁移能力较弱,需要针对每一个领域数据编写适当的规则。基于机器学习的方法目前主要有基于特征的方法、基于核函数的方法、基于深度学习的方法。基于特征的方法和基于核函数的方法需要人工选择大量对关系抽取有辨别性的特征,定义特征模板,抽取特征,工作相对繁琐。基于深度学习的方法将文本特征信息映射为向量,利用CNN、RNN等模型学习实体间关系的特征进行识别分类。相对于传统方法,基于深度学习的方法模拟人的思维方式,性能上有一定的提升。但其特征的向量化过程相对复杂,同时普遍没有考虑对关系抽取有一定影响的文本整体结构信息。
技术实现思路
本专利技术的目的在于提供一种方法简单可靠、将对关系抽取有判别性的特征图像化处理的基于生成对抗网络的关系抽取方法。本专利技术提供的这种基于生成对抗网络的关系抽取方法,包括如下步骤:S1.准备训练文本和待分析文本;所述训练文本中的实体和实体间的关系已经标注,待分析文本中的实体已经进行了标注;S2.采用自然语言处理工具对训练文本和待分析文本进行分词和句法分析;S3.采用图形绘制工具将步骤S2得到的分词和句法分析结果转换为句法分析树图像;S4.采用步骤S3获取的训练文本的句法分析树图像和标注的文本中实体间的关系,对生成器和判别器进行相互竞争的迭代训练,从而得到训练好的生成对抗网络模型;S5.采用步骤S4得到的生成对抗网络,输入步骤S3获取的待分析文本的句法分析树图像,对待分析文本进行关系抽取。步骤S2所述的自然语言处理工具为StanfordParser或者具有类似功能的自然语言处理工具。步骤S3所述的图形绘制工具为Graphviz或者具有类似功能的图形绘制工具。步骤S4所述的对生成器和判别器进行相互竞争的迭代训练,具体为采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练。所述的采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练,具体为采用如下步骤进行训练:A.生成m组训练文本及相应的句法分析树图像;B.初始化判别器D和生成器G,并且每一次迭代中均包括依次判别器D的训练和生成器G的训练;C.采用m个噪声向量和m个训练样本的句法分析树图像作为输入,采用如下公式计算梯度,并在判别器D的原有参数上增加计算得到的梯度更新判别器D的参数:式中zi表示第i个噪声向量,xi表示第i个训练样本,Dy(xi)表示第i个训练样本判断为关系y的概率,实体间的关系的个数定义为Nr,yr表示第r种关系;Nr+1表示判别器的输入图像是生成器生成的假图像;Dyr(x)表示输入图像x中的实体间的关系是yr关系的概率;表示用于更新判别器D的梯度;D.采用m个噪声向量作为输入,采用如下公式计算梯度,并在生成器G的原有参数上增加计算得到的梯度并更新生成器G的参数:式中,表示用于更新生成器G的梯度;G(zi)表示第i个噪声向量经过G后生成的图像;E.以下式为目标函数,重复步骤C和D,直至训练完成,从而得到最终的训练模型:本专利技术提供的这种基于生成对抗网络的关系抽取方法,简化了其他基于深度学习方法的输入数据处理过程,放弃了相对繁琐的向量化过程,将对关系抽取有判别性的词汇特征、句法特征、词汇相对位置、上下文信息、句子整体结构信息图像化,作为生成对抗网络的输入,模型的输入数据处理相对简单,利用的特征相对目前基于深度学习的关系抽取方法更丰富,关系识别过程模拟人的思维模式,将生成对抗网络应用到关系抽取中,充分发挥生成对抗网络的自动学习图像中特征的能力,提高关系抽取的效果,而且本专利技术方法简单可靠。附图说明图1为本专利技术方法的方法流程图。图2为本专利技术的实施例中的句法分析树图像的示意图。具体实施方式如图1所示为本专利技术方法的方法流程图:本专利技术提供的这种基于生成对抗网络的关系抽取方法,包括如下步骤:S1.准备训练文本和待分析文本;所述训练文本中的实体和实体间的关系已经进行了标注,待分析文本中的实体已经进行了标注;S2.采用自然语言处理工具对训练文本和待分析文本进行分词和句法分析;自然语言处理工具可以采用StanfordParser或者具有类似功能的自然语言处理工具;S3.采用图形绘制工具将步骤S2得到的分词和句法分析结果转换为句法分析树图像;图形绘制工具可以采用Graphviz或者具有类似功能的图形绘制工具;S4.采用步骤S3获取的训练文本的句法分析树图像和标注的文本中实体间的关系,对生成器和判别器进行相互竞争的迭代训练,从而得到训练好的生成对抗网络模型;采用多层卷积层、平均化池、softmax全连接层实现判别器D,每一个卷积层后做批量归一化和指数线性单元处理。采用多层反卷积层实现生成器G。在判别器D中,输入数据经过多层卷积层做卷积操作,将输入数据映射到隐层空间,继而经过全连接层,融合学习到的特征,最后利用softmax实现分类;对于一个给定的图像,其实体间对应的关系定义为y,实体间的关系的个数定义为Nr,yr表示第r种关系。Nr+1表示判别器的输入图像是生成器生成的假图像,表示输入图像x中的实体间的关系是yr关系的概率;随机噪声z作为生成器的输入,生成器生成句法分析树图像语料生成的句法分析树图像x和生成器生成的图像作为判别器的输入,对于语料生成的句法分析树图像x,判别器输出两个实体间最有可能的某一种关系yr,对于生成器生成的句法分析树图像,判别器判定两个实体间是生成的假图像,输出通过判别器的类别判定,最终实现关系的抽取;对生成器和判别器进行相互竞争的迭代训练,具体为采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练,具体包括如下步骤进行训练:A.生成m组训练文本及相应的句法分析树图像;B.初始化判别器D和生成器G,并且每一次迭代中均包括依次判别器D的训练和生成器G的训练;C.采用m个噪声向量和m个训练样本的句法分析树图像作为输入,采用如下公式计算梯度,并在判别器D的原有参数上增加计算得到的梯度更新判别器D的参数:式中zi表示第i个噪声向量,xi表示第i个训练样本,Dy(xi)表示第i个训练样本判断为关系y的概率,实体间的关系的个数定义为Nr,yr表示第r种关系;Nr+1表示判别器的输入图像是生成器生成的假图像;Dyr(x)表示输入图像x中的实体间的关系是yr关系的概率;表示用于更新判别器D的梯度;D.采用m个噪声向量作为输入,采用如下公式计算梯度,并在生成器G的原有参数上增加计算得到的梯度并更新生成器G的参数:式中,表示用于更新生成器G的梯度;G(zi)表示第i个噪声本文档来自技高网...
基于生成对抗网络的关系抽取方法

【技术保护点】
一种基于生成对抗网络的关系抽取方法,包括如下步骤:S1.准备训练文本和待分析文本;所述训练文本中的实体和实体间的关系已经标注,待分析文本中的实体已经进行了标注;S2.采用自然语言处理工具对训练文本和待分析文本进行分词和句法分析;S3.采用图形绘制工具将步骤S2得到的分词和句法分析结果转换为句法分析树图像;S4.采用步骤S3得到的训练文本的句法分析树图像和标注的文本中实体间的关系,对生成器和判别器进行相互竞争的迭代训练,从而得到训练好的生成对抗网络模型;S5.采用步骤S4得到的生成对抗网络,输入步骤S3获取的待分析文本的句法分析树图像,对待分析文本进行关系抽取。

【技术特征摘要】
1.一种基于生成对抗网络的关系抽取方法,包括如下步骤:S1.准备训练文本和待分析文本;所述训练文本中的实体和实体间的关系已经标注,待分析文本中的实体已经进行了标注;S2.采用自然语言处理工具对训练文本和待分析文本进行分词和句法分析;S3.采用图形绘制工具将步骤S2得到的分词和句法分析结果转换为句法分析树图像;S4.采用步骤S3得到的训练文本的句法分析树图像和标注的文本中实体间的关系,对生成器和判别器进行相互竞争的迭代训练,从而得到训练好的生成对抗网络模型;S5.采用步骤S4得到的生成对抗网络,输入步骤S3获取的待分析文本的句法分析树图像,对待分析文本进行关系抽取。2.根据权利要求1所述的基于生成对抗网络的关系抽取方法,其特征在于步骤S2所述的自然语言处理工具为StanfordParser或者具有类似功能的自然语言处理工具。3.根据权利要求2所述的基于生成对抗网络的关系抽取方法,其特征在于步骤S3所述的图形绘制工具为Graphviz或者具有类似功能的图形绘制工具。4.根据权利要求3所述的基于生成对抗网络的关系抽取方法,其特征在于步骤S4所述的对生成器和判别器进行相互竞争的迭代训练,具体为采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练。5.根据权利要求4所述的基于生成对抗网络的关系抽取方法,其特征在于所述的采用随机梯度下降法对生成器和判别器进行相互竞争的迭代训练,具体为采用如下步骤进行训练:A.生成m组训练文本及相应的句法分析树图像;B.初始化判别器D和生成器G,并且每一次迭代中均包括依次判别器D的训练和生成器G的训练;C.采用m...

【专利技术属性】
技术研发人员:刘兵蒋方玲蒋黎明龚向坚
申请(专利权)人:南华大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1