【技术实现步骤摘要】
融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质
[0001]本申请实施例涉及计算机技术方向的人工智能领域,尤其涉及自然语言处理、深度学习和文本建模等
具体地,本申请实施例提供一种融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质。
技术介绍
[0002]近年来,在全球化和信息技术快速发展的双重背景下,不同语言间的资源差异导致的数字鸿沟受到学术界的广泛关注。跨语言表示学习(Cross
‑
Lingual Representation)将不同语言的文本映射至同一语义表示空间,从而提取统一的语义表示特征,并服务于跨语言下游任务。通过跨语言表示学习技术,既能够实现多语言文本统一处理,也可以实现高资源语言向低资源语言的知识迁移,是减小上述不同语言间数字鸿沟的重要方法。
[0003]早期的跨语言表示学习以静态词向量研究为主,Mikolov等学者发现通过训练词嵌入模型得到的不同语言词向量空间具有一定的同构特征,因此早期的方法以双语词典等作为监督,采用基于线性映射的方法学习不同语言间的词映射关系。随后,部分学者提出了无监督的跨语言词向量训练方法,获得了较好的效果。随着预训练模型在多个自然语言处理任务中表现出较强的性能,基于预训练模型的跨语言表示学习成为了主流方法。跨语言预训练模型能够较好的提取多语言上下文特征,并适配多种下游任务。
[0004]本申请的专利技术人在长期研发中发现,由于不同语言训练语料分布不均衡,且掩码语言建模训练没有词对齐监督,使基于预训练模型的跨语 ...
【技术保护点】
【技术特征摘要】
1.一种融合词对齐适配器模块的跨语言文本表示方法,其特征在于按下列步骤进行:a、对双语平行语料中的源语言与目标语言文本构建词对齐矩阵,所述双语平行语料输入至无监督词对齐算法模型中,设定相关参数,并获取包括源语言到目标语言和目标语言到源语言两个方向上的词对齐矩阵;b、为每个源语言
‑
目标语言对构造一个词对齐适配器模块并初始化相应的适配器模块参数,所述词对齐适配器模块包括:两个前馈神经网络线性层、残差连接层及归一化网络;c、将所述适配器模块插入到Transformer结构的跨语言预训练模型编码器的各个子层之间;d、将所述双语平行语料作为所述跨语言预训练模型编码器的输入,对模型进行掩码语言建模和词对齐建模联合训练,从而生成针对每个语言对具有词对齐特征的跨语言文本表示;e、在所述词对齐适配器模块后连接任务适配器模块,用于实现特定的跨语言下游任务。2.根据权利要求1所述的一种融合词对齐适配器模块的跨语言文本表示方法,其特征在于,步骤d将双语平行语料作为输入,具体为:将源语言和目标语言平行语句进行拼接,拼接处加入分隔符,并通过所述跨语言预训练模型的tokenizer分词器进行编码。3.根据权利要求1所述的一种融合词对齐适配器模块的跨语言文本表示方法,其特征在于,步骤d所述掩码语言建模和词对齐建模联合训练,具体为:将输入文本的词语按照一定的概率进行掩码替换,并通过推断替换位置的原有词语,实现上下文建模训练;所述词对齐建模根据所述词对齐矩阵,对所述双语平行语句中对齐词语的词向量计算相似度,实现同义词表示对齐;所述联合训练指同时进行掩码语言建模与所述词对齐建模两种训练;所述具有词对齐特征的跨语言文本表示,具体为:通过利用适配器模块,在所述跨语言预训练模型的基础上注入所述词对齐信息,从而使不同语言的同义词特征表示在语义空间中实现对齐,生成跨语言表示特征,服务于下游任务;所述下游任务,包括:跨语言词性标注、跨语言句法分析、跨语言命名实体识别及其他依赖跨语言文本表示特征的自然语言处理任务;所述任务适配器模块包括:两层前馈神经网络、残差连接和归一化网络。4.一种融合词对齐适配器模块的跨语言文本表示装置,其特征在于该装置包括:词对齐矩阵构建模块:用于获取双语平行语料数据...
【专利技术属性】
技术研发人员:杨雅婷,艾合塔木江,
申请(专利权)人:中国科学院新疆理化技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。