【技术实现步骤摘要】
基于图注意力网络的多粒度汉越平行句对抽取方法
[0001]本专利技术涉及基于图注意力网络的多粒度汉越平行句对抽取方法,属于自然语言处理
技术介绍
[0002]神经机器翻译受数据驱动影响,依赖于海量双语数据,一般数据规模越大,翻译模型的效果就越好。然而现有的低资源语言的神经机器翻译效果较差,特别是在汉越神经机器翻译中,平行语料十分匮乏且很难在互联网上直接获取,导致模型性能不好。而平行句对抽取是提高平行语料质量和规模的重要方法之一,已有许多研究表明大规模和高质量的平行语料能够有效改善低资源语言的神经机器翻译质量。因此,对于缺乏大规模和高质量平行语料的汉越神经机器翻译来说,抽取汉越平行语料,构建大规模的高质量汉越双语平行句对,是改善汉越神经机器翻译性能的方法之一。
技术实现思路
[0003]本专利技术提供了一种基于图注意力网络的多粒度汉越平行句对抽取方法,以用于构建高质量的汉越双语平行句对,改善汉越神经机器翻译的性能。
[0004]本专利技术的技术方案是:基于图注意力网络的多粒度汉越平行句对抽取方 ...
【技术保护点】
【技术特征摘要】
1.一种基于图注意力网络的多粒度汉越平行句对抽取方法,其特征在于:所述方法的具体步骤如下:Step1、多粒度文档建模:将汉越双语文档划分为子词、句子、段落、文档4种不同级别的粒度,并将其扩展为图结构;Step2、通过BERT编码层利用多语言BERT初始化汉越双语词向量,生成共享同一语义空间的词向量;Step3、通过图注意力网络层利用图注意力网络对节点间的信息进行建模,同时将不同粒度的节点经过自注意力机制提取节点之间的相关特征权重,对各个节点的特征信息进行表征;Step4、通过放置在图注意力网络层中的自注意力机制后,融合不同粒度的特征信息;Step5、分类层将汉语和越南语通过孪生神经网络分别得到句子相似度向量表示,训练分类器衡量两个向量之间的相似程度。2.根据权利要求1所述的基于图注意力网络的多粒度汉越平行句对抽取方法,其特征在于:所述Step1的具体步骤为:Step1.1、将汉越双语文档划分为子词、句子、段落、文档这4种不同级别的粒度,将文本整体划分为四类节点,即子词级节点、句子级节点、段落级节点和文档级节点;Step1.2、按照文档由段落组成,段落由句子组成,句子由子词组成的关系,利用树结构对双语文档进行表示;Step1.3、引入双向边信息来表示不同粒度之间的关系进一步扩展为图结构,图中的每一条边表示两个不同粒度的节点之间的信息。3.根据权利要求1所述的基于图注意力网络的多粒度汉越平行句对抽取方法,其特征在于:所述步骤St...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。