一种图到图结构的自动标注转换方法技术

技术编号:35746027 阅读:12 留言:0更新日期:2022-11-26 18:50
一种图到图结构的自动标注转换方法,涉及自然语言处理技术领域,针对现有技术中通过人工进行标注规范转换准确率低的问题,本申请通过简单有效的线性变换将源解析器中的核心参数适配到目标解析器中,并继承源解析器中的所有其他参数。图到图线性变换方法能充分继承源标准规范的信息并将其迁移到目标规范,因此本申请能有效避免人工规则和大量平行语料的限制,大幅提升图结构转换的准确率以及获得高质量的图结构标注数据。在少量平行语料帮助下,本申请的方法可以取得比现有的各种基线模型更好的效果。更好的效果。更好的效果。

【技术实现步骤摘要】
一种图到图结构的自动标注转换方法


[0001]本专利技术涉及自然语言处理
,具体为一种图到图结构的自动标注转换方法。

技术介绍

[0002]随着深度学习的发展,监督学习算法的能力得到了巨大的跨越。然而基于深度学习的监督学习算法需要大量的标注数据,对于图结构的标注数据,由于其标注难度高,标注时间长,因此获取的成本十分高昂。图到图结构的转换任务是给定一个文本句子以及基于该文本标注的源规范的图结构信息,将该图结构信息转化为目标规范(另一种标注规范)的图结构信息,可有效扩充标注数据。传统基于规则的方法在解决该问题的时候往往需要专家构建十分准确的转换规则,费时费力,开发周期长。此外,专家构建的规则面临通用性的问题,无法解决所有场景下的图到图结构的自动标注。传统监督学习算法需要大量的平行标注语料(同时标注源规范图结构和目标规范的图结构),然后将源规范的图结构信息进行编码融入图结构分析器中,以达到让模型来隐式学习转换规则。这些方法都无法摆脱人工规则或者大量标注数据的限制。

技术实现思路

[0003]本专利技术的目的是:针对现有技术中通过人工进行标注规范转换准确率低的问题,提出一种图到图结构的自动标注转换方法。
[0004]本专利技术为了解决上述技术问题采取的技术方案是:
[0005]一种图到图结构的自动标注转换方法,包括以下步骤:
[0006]步骤一:获取源规范文本,然后使用预训练语言模型对源规范文本进行编码,得到向量表示;
[0007]步骤二:根据编码后的向量表示,并利用双仿射分析器得到源规范解析器;
[0008]步骤三:将线性函数作用于源规范解析器的注意力矩阵上,同时冻结注意力矩阵的参数,得到目标规范解析器;
[0009]步骤四:对源规范文本进行标注,得到目标规范的标注文本,之后利用目标规范的标注文本和源规范文本对目标规范解析器进行优化,得到优化后的目标规范解析器;
[0010]步骤五:利用优化后的目标规范解析器对待标注文本进行预测,得到目标规范的标注信息。
[0011]进一步的,所述步骤二的具体步骤为:
[0012]步骤二一:将编码后的向量表示通过多层的双向LSTM结构进行编码,得到编码表示h
i

[0013]步骤二二:将编码表示h
i
分别送入4个单层的前向神经网络层中,得到第i个词语作为头结点或者依附节点的弧表示和标签表示;
[0014]步骤二三:通过双仿射分类器预测弧表示的分数和标签表示的分数;
[0015]步骤二四:对于弧表示的分数,若弧表示的分数不小于预先设定的阈值,则头结点和依附节点之间存在弧,并执行步骤二五;
[0016]步骤二五:对于标签表示的分数,取最大的分数对应的标签类别,将该标签类别标记在对应的头结点和依附节点的弧上,得到源规范解析器。
[0017]进一步的,所述头结点的弧表示为:
[0018][0019]依附节点的弧表示为:
[0020][0021]头结点的标签表示为:
[0022][0023]依附节点的标签表示为:
[0024][0025]其中,FFN
arc

head
表示作用于头节点的前馈神经网络得到的头节点的弧表示,FFN
arc

dep
表示作用于依附节点的前馈神经网络得到的依附节点的弧表示,FFN
rel

head
表示作用于头节点的前馈神经网络得到的头结点的标签表示,FFN
rel

dep
表示作用于依附节点的前馈神经网络得到的依附节点的标签表示。
[0026]进一步的,所述双仿射分类器表示为:
[0027][0028]其中,Biaf(x
i
,x
j
)表示双仿射分析器的函数表示,x
i
和x
j
表示输入的两个节点表示,U表示双仿射注意力矩阵的二阶参数,W表示双仿射注意力矩阵的一阶参数,b表示双仿射注意力矩阵的零阶参数。
[0029]进一步的,所述弧表示的分数表示为:
[0030][0031]其中,Biaf
arc
()表示预测弧的双仿射分析器,和分别表示输入参数为节点i和节点j的弧表示,节点j作为头节点,节点i作为依附节点,表示存在一条由节点j指向节点i的依存弧的得分。
[0032]进一步的,所述标签表示的分数表示为:
[0033][0034]其中,Biaf
rel
()表示预测依存弧标签的双仿射分析器,输入参数为节点i和节点j的标签表示,分别为节点j作为头节点,节点i作为依附节点,表示在一条由节点j指向节点i的依存弧上各个标签的得分。
[0035]进一步的,所述目标规范解析器表示为:
[0036][0037]U
t
=V
u
U
s
[0038]W
t
=V
w
W
s
[0039]其中,U
s
、W
s
和b
s
分别为源分析器中的相应参数,V
u
和V
w
为线性变换函数,V
u
作用于U
s
,V
w
作用于W
s
,Biaf
t
(x
i
,x
j
)为目标规范的双仿射解析器,U
t
、W
t
分别为目标规范双仿射解析器中的二阶注意力矩阵参数和一阶注意力矩阵参数。
[0040]本专利技术的有益效果是:
[0041]本申请通过简单有效的线性变换将源解析器中的核心参数适配到目标解析器中,并继承源解析器中的所有其他参数。图到图线性变换方法能充分继承源标准规范的信息并将其迁移到目标规范,因此本申请能有效避免人工规则和大量平行语料的限制,大幅提升图结构转换的准确率以及获得高质量的图结构标注数据。在少量平行语料帮助下,本申请的方法可以取得比现有的各种基线模型更好的效果。
附图说明
[0042]图1为图到秃线性变换方法架构图;
[0043]图2为图到图线性变换方法流程图;
[0044]图3为图到图结构自动标注流程图。
具体实施方式
[0045]需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
[0046]具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的一种图到图结构的自动标注转换方法,包括以下步骤:
[0047]步骤一:获取源规范文本,然后使用预训练语言模型对源规范文本进行编码,得到向量表示;
[0048]步骤二:根据编码后的向量表示,并利用双仿射分析器得到源规范解析器;
[0049]步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图到图结构的自动标注转换方法,其特征在于包括以下步骤:步骤一:获取源规范文本,然后使用预训练语言模型对源规范文本进行编码,得到向量表示;步骤二:根据编码后的向量表示,并利用双仿射分析器得到源规范解析器;步骤三:将线性函数作用于源规范解析器的注意力矩阵上,同时冻结注意力矩阵的参数,得到目标规范解析器;步骤四:对源规范文本进行标注,得到目标规范的标注文本,之后利用目标规范的标注文本和源规范文本对目标规范解析器进行优化,得到优化后的目标规范解析器;步骤五:利用优化后的目标规范解析器对待标注文本进行预测,得到目标规范的标注信息。2.根据权利要求1所述的一种图到图结构的自动标注转换方法,其特征在于所述步骤二的具体步骤为:步骤二一:将编码后的向量表示通过多层的双向LSTM结构进行编码,得到编码表示h
i
;步骤二二:将编码表示h
i
分别送入4个单层的前向神经网络层中,得到第i个词语作为头结点或者依附节点的弧表示和标签表示;步骤二三:通过双仿射分类器预测弧表示的分数和标签表示的分数;步骤二四:对于弧表示的分数,若弧表示的分数不小于预先设定的阈值,则头结点和依附节点之间存在弧,并执行步骤二五;步骤二五:对于标签表示的分数,取最大的分数对应的标签类别,将该标签类别标记在对应的头结点和依附节点的弧上,得到源规范解析器。3.根据权利要求2所述的一种图到图结构的自动标注转换方法,其特征在于所述头结点的弧表示为:依附节点的弧表示为:头结点的标签表示为:依附节点的标签表示为:其中,FFN
arc

head
表示作用于头节点的前馈神经网络得到的头节点的弧表示,FFN
arc

dep
表示作用于依附节点的前馈神经网络得到的依附节点的弧表示,FFN
rel

head
表示作用于头节点的前馈神经网络得到的头结点的标签表示,FFN
rel

dep
表示作用于依附节点的前馈神经网络得到的依附节点的标签表示。4.根据权利要求3所述的一种图到图结构的自动标注...

【专利技术属性】
技术研发人员:车万翔雷志林赵妍妍刘挺
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1