【技术实现步骤摘要】
一种图到图结构的自动标注转换方法
[0001]本专利技术涉及自然语言处理
,具体为一种图到图结构的自动标注转换方法。
技术介绍
[0002]随着深度学习的发展,监督学习算法的能力得到了巨大的跨越。然而基于深度学习的监督学习算法需要大量的标注数据,对于图结构的标注数据,由于其标注难度高,标注时间长,因此获取的成本十分高昂。图到图结构的转换任务是给定一个文本句子以及基于该文本标注的源规范的图结构信息,将该图结构信息转化为目标规范(另一种标注规范)的图结构信息,可有效扩充标注数据。传统基于规则的方法在解决该问题的时候往往需要专家构建十分准确的转换规则,费时费力,开发周期长。此外,专家构建的规则面临通用性的问题,无法解决所有场景下的图到图结构的自动标注。传统监督学习算法需要大量的平行标注语料(同时标注源规范图结构和目标规范的图结构),然后将源规范的图结构信息进行编码融入图结构分析器中,以达到让模型来隐式学习转换规则。这些方法都无法摆脱人工规则或者大量标注数据的限制。
技术实现思路
[0003]本专利技术的目的是:针对现有技术中通过人工进行标注规范转换准确率低的问题,提出一种图到图结构的自动标注转换方法。
[0004]本专利技术为了解决上述技术问题采取的技术方案是:
[0005]一种图到图结构的自动标注转换方法,包括以下步骤:
[0006]步骤一:获取源规范文本,然后使用预训练语言模型对源规范文本进行编码,得到向量表示;
[0007]步骤二:根据编码后的向量表示,并利用双仿 ...
【技术保护点】
【技术特征摘要】
1.一种图到图结构的自动标注转换方法,其特征在于包括以下步骤:步骤一:获取源规范文本,然后使用预训练语言模型对源规范文本进行编码,得到向量表示;步骤二:根据编码后的向量表示,并利用双仿射分析器得到源规范解析器;步骤三:将线性函数作用于源规范解析器的注意力矩阵上,同时冻结注意力矩阵的参数,得到目标规范解析器;步骤四:对源规范文本进行标注,得到目标规范的标注文本,之后利用目标规范的标注文本和源规范文本对目标规范解析器进行优化,得到优化后的目标规范解析器;步骤五:利用优化后的目标规范解析器对待标注文本进行预测,得到目标规范的标注信息。2.根据权利要求1所述的一种图到图结构的自动标注转换方法,其特征在于所述步骤二的具体步骤为:步骤二一:将编码后的向量表示通过多层的双向LSTM结构进行编码,得到编码表示h
i
;步骤二二:将编码表示h
i
分别送入4个单层的前向神经网络层中,得到第i个词语作为头结点或者依附节点的弧表示和标签表示;步骤二三:通过双仿射分类器预测弧表示的分数和标签表示的分数;步骤二四:对于弧表示的分数,若弧表示的分数不小于预先设定的阈值,则头结点和依附节点之间存在弧,并执行步骤二五;步骤二五:对于标签表示的分数,取最大的分数对应的标签类别,将该标签类别标记在对应的头结点和依附节点的弧上,得到源规范解析器。3.根据权利要求2所述的一种图到图结构的自动标注转换方法,其特征在于所述头结点的弧表示为:依附节点的弧表示为:头结点的标签表示为:依附节点的标签表示为:其中,FFN
arc
‑
head
表示作用于头节点的前馈神经网络得到的头节点的弧表示,FFN
arc
‑
dep
表示作用于依附节点的前馈神经网络得到的依附节点的弧表示,FFN
rel
‑
head
表示作用于头节点的前馈神经网络得到的头结点的标签表示,FFN
rel
‑
dep
表示作用于依附节点的前馈神经网络得到的依附节点的标签表示。4.根据权利要求3所述的一种图到图结构的自动标注...
【专利技术属性】
技术研发人员:车万翔,雷志林,赵妍妍,刘挺,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。