融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质制造方法及图纸

技术编号:36831204 阅读:16 留言:0更新日期:2023-03-12 01:51
本发明专利技术公开了一种融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质,涉及人工智能、自然语言处理、文本建模等技术领域。具体实现方案为:构建源语言

【技术实现步骤摘要】
融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质


[0001]本申请实施例涉及计算机技术方向的人工智能领域,尤其涉及自然语言处理、深度学习和文本建模等
具体地,本申请实施例提供一种融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质。

技术介绍

[0002]近年来,在全球化和信息技术快速发展的双重背景下,不同语言间的资源差异导致的数字鸿沟受到学术界的广泛关注。跨语言表示学习(Cross

Lingual Representation)将不同语言的文本映射至同一语义表示空间,从而提取统一的语义表示特征,并服务于跨语言下游任务。通过跨语言表示学习技术,既能够实现多语言文本统一处理,也可以实现高资源语言向低资源语言的知识迁移,是减小上述不同语言间数字鸿沟的重要方法。
[0003]早期的跨语言表示学习以静态词向量研究为主,Mikolov等学者发现通过训练词嵌入模型得到的不同语言词向量空间具有一定的同构特征,因此早期的方法以双语词典等作为监督,采用基于线性映射的方法学习不同语言间的词映射关系。随后,部分学者提出了无监督的跨语言词向量训练方法,获得了较好的效果。随着预训练模型在多个自然语言处理任务中表现出较强的性能,基于预训练模型的跨语言表示学习成为了主流方法。跨语言预训练模型能够较好的提取多语言上下文特征,并适配多种下游任务。
[0004]本申请的专利技术人在长期研发中发现,由于不同语言训练语料分布不均衡,且掩码语言建模训练没有词对齐监督,使基于预训练模型的跨语言文本表示方法在训练过程中难以形成源语言与目标语言的词级别对齐,造成跨语言迁移性能下降。

技术实现思路

[0005]本专利技术提供了一种融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质。该方法构建源语言

目标语言平行语料数据集,通过无监督词对齐算法对平行语句构建词对齐矩阵;在Transformer结构的跨语言预训练模型的每个子层之间插入词对齐适配器,通过掩码语言建模与词对齐建模联合训练,实现跨语言表示特征的语义对齐;将所述词对齐适配器模块生成的跨语言表示特征输入至任务适配器,从而实现多种跨语言下游任务。解决了现有技术中低资源小语种难以形成词对齐映射导致的跨语言表示效果较差的问题。根据本申请的技术提高了面向低资源小语种的跨语言文本表示及多种跨语言下游任务的性能。
[0006]本专利技术所述的一种融合词对齐适配器模块的跨语言文本表示方法,按下列步骤进行:
[0007]a、对双语平行语料中的源语言与目标语言文本构建词对齐矩阵,所述双语平行语料输入至无监督词对齐算法模型中,设定相关参数,并获取包括源语言到目标语言和目标语言到源语言两个方向上的词对齐矩阵;
[0008]b、为每个源语言

目标语言对构造一个词对齐适配器模块并初始化相应的适配器模块参数,所述词对齐适配器模块包括:
[0009]两个前馈神经网络线性层、残差连接层及归一化网络;
[0010]c、将所述适配器模块插入到Transformer结构的跨语言预训练模型编码器的各个子层之间;
[0011]d、将所述双语平行语料作为所述跨语言预训练模型编码器的输入,对模型进行掩码语言建模和词对齐建模联合训练,从而生成针对每个语言对具有词对齐特征的跨语言文本表示;
[0012]e、在所述词对齐适配器模块后连接任务适配器模块,用于实现特定的跨语言下游任务。
[0013]步骤d将双语平行语料作为输入,具体为:
[0014]将源语言和目标语言平行语句进行拼接,拼接处加入分隔符[SEP],并通过所述跨语言预训练模型的tokenizer分词器进行编码。
[0015]步骤d所述掩码语言建模和词对齐建模联合训练,具体为:将输入文本的词语按照一定的概率进行掩码替换,并通过推断替换位置的原有词语,实现上下文建模训练;所述词对齐建模根据所述词对齐矩阵,对所述双语平行语句中对齐词语的词向量计算相似度,实现同义词表示对齐;所述联合训练指同时进行掩码语言建模与所述词对齐建模两种训练;所述具有词对齐特征的跨语言文本表示,具体为:通过利用适配器模块,在所述跨语言预训练模型的基础上注入所述词对齐信息,从而使不同语言的同义词特征表示在语义空间中实现对齐,生成跨语言表示特征,服务于下游任务;所述下游任务,包括:跨语言词性标注、跨语言句法分析、跨语言命名实体识别及其他依赖跨语言文本表示特征的自然语言处理任务;所述任务适配器模块包括:两层前馈神经网络、残差连接和归一化网络。
[0016]一种融合词对齐适配器模块的跨语言文本表示装置,该装置包括:
[0017]词对齐矩阵构建模块:用于获取双语平行语料数据集,通过无监督词对齐算法对所述数据集进行词对齐训练,对每一组双语文本计算词级别对齐分数并生成词对齐矩阵;
[0018]词对齐适配器模块:词对齐适配器模块由前馈神经网路、残差链接及归一化网络组成,插入到Transformer编码器的每个子层之间,用于对词对齐适配器模型进行掩码语言建模和词对齐建模联合训练,针对每一组源语言

目标语言平行语句输入,计算掩码语言损失及词对齐建模损失,其中所述词对齐建模损失根据对齐词对特征向量计算均方误差损失;
[0019]任务适配器模块:词对齐适配器模块由前馈神经网路、残差链接及归一化网络组成,以所述词对齐适配器模块输出的跨语言表示特征作为模型输入,用于训练特定的跨语言下游任务。
[0020]进一步地,所述词对齐矩阵构建模块,包括:
[0021]源语言

目标语言平行语料数据集构建单元,用于构建源语言

目标语言组成的一定规模双语平行语料数据集;
[0022]词对齐矩阵生成单元,用于通过无监督词对齐算法对所述平行语料数据集实现词级别对齐,针对每一组平行语句对,通过对齐分数生成词对齐矩阵。
[0023]进一步地,所述词对齐适配器模块,包括:
[0024]掩码语言建模单元,用于对拼接后的平行语句进行掩码替换,并通过推断掩码位置的原有词语增强上下文特征提取能力;
[0025]词对齐建模单元,用于对拼接后的平行语句进行词对齐建模,通过词对齐矩阵获取对齐词对,通过计算对齐词对特征向量的相似度实现同义词语义对齐。
[0026]进一步地,所述任务适配器模块,包括:
[0027]跨语言下游任务训练单元,用于将所述词对齐适配器模块的输出特征作为任务适配器模块的输入,实现特定的跨语言下游任务。
[0028]一种电子设备,其中,包括:
[0029]至少一个处理器;
[0030]至少一张GPU计算卡;以及
[0031]与所述至少一个处理器通信连接的存储器;其中,
[0032]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行或所述至少一个GPU计算卡执行,以使所述至少一个处理器能或所述至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合词对齐适配器模块的跨语言文本表示方法,其特征在于按下列步骤进行:a、对双语平行语料中的源语言与目标语言文本构建词对齐矩阵,所述双语平行语料输入至无监督词对齐算法模型中,设定相关参数,并获取包括源语言到目标语言和目标语言到源语言两个方向上的词对齐矩阵;b、为每个源语言

目标语言对构造一个词对齐适配器模块并初始化相应的适配器模块参数,所述词对齐适配器模块包括:两个前馈神经网络线性层、残差连接层及归一化网络;c、将所述适配器模块插入到Transformer结构的跨语言预训练模型编码器的各个子层之间;d、将所述双语平行语料作为所述跨语言预训练模型编码器的输入,对模型进行掩码语言建模和词对齐建模联合训练,从而生成针对每个语言对具有词对齐特征的跨语言文本表示;e、在所述词对齐适配器模块后连接任务适配器模块,用于实现特定的跨语言下游任务。2.根据权利要求1所述的一种融合词对齐适配器模块的跨语言文本表示方法,其特征在于,步骤d将双语平行语料作为输入,具体为:将源语言和目标语言平行语句进行拼接,拼接处加入分隔符,并通过所述跨语言预训练模型的tokenizer分词器进行编码。3.根据权利要求1所述的一种融合词对齐适配器模块的跨语言文本表示方法,其特征在于,步骤d所述掩码语言建模和词对齐建模联合训练,具体为:将输入文本的词语按照一定的概率进行掩码替换,并通过推断替换位置的原有词语,实现上下文建模训练;所述词对齐建模根据所述词对齐矩阵,对所述双语平行语句中对齐词语的词向量计算相似度,实现同义词表示对齐;所述联合训练指同时进行掩码语言建模与所述词对齐建模两种训练;所述具有词对齐特征的跨语言文本表示,具体为:通过利用适配器模块,在所述跨语言预训练模型的基础上注入所述词对齐信息,从而使不同语言的同义词特征表示在语义空间中实现对齐,生成跨语言表示特征,服务于下游任务;所述下游任务,包括:跨语言词性标注、跨语言句法分析、跨语言命名实体识别及其他依赖跨语言文本表示特征的自然语言处理任务;所述任务适配器模块包括:两层前馈神经网络、残差连接和归一化网络。4.一种融合词对齐适配器模块的跨语言文本表示装置,其特征在于该装置包括:词对齐矩阵构建模块:用于获取双语平行语料数据...

【专利技术属性】
技术研发人员:杨雅婷艾合塔木江
申请(专利权)人:中国科学院新疆理化技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1