基于上下文的汉越跨语言句嵌入方法技术

技术编号:34458672 阅读:27 留言:0更新日期:2022-08-06 17:12
本发明专利技术涉及基于上下文的汉越跨语言句嵌入方法,属自然语言处理领域。本发明专利技术首先构建训练数据集;再利用mBERT模型获取训练数据集中对应的汉越上下文跨语言句嵌入,并基于孪生网络结构搭建线性微调层,对获取到的汉越上下文跨语言句嵌入进行重构,并以此构建对比损失用于反向优化微调层。本发明专利技术通过构建融合孪生网络结构的线性微调层对mBERT模型中获取到的汉越上下文跨语言句嵌入进行重构,有效缓解了mBERT模型中因汉越句级平行语料稀缺及语法差异较大导致的汉越跨语言句嵌入语义对齐效果不佳的问题。实验结果表明,本发明专利技术的准确度均取得了较大提升,提高汉越嵌入分布间的重合度,改善汉越低资源上下文跨语言句嵌入的语义对齐效果。对齐效果。对齐效果。

【技术实现步骤摘要】
基于上下文的汉越跨语言句嵌入方法


[0001]本专利技术涉及基于上下文的汉越跨语言句嵌入方法,属于自然语言处理


技术介绍

[0002]跨语言句嵌入任务旨在将不同语言的句子语义信息进行编码后映射至一个同语言无关的共享嵌入空间中对齐,使不同语言具有相似语义的句子拥有相近的向量表示,以实现不同语言间语义信息的传输。跨语言句嵌入可以用于解决一些更为复杂的跨语言任务,如跨语言文档匹配、跨语言摘要抽取等,具有重要的应用价值。
[0003]由于多语预训练模型能够很好地捕获不同语言序列中的句法和语义特征,因此常作为下游跨语言任务特征提取的首选工具,也是当前获取跨语言句嵌入的主流方法。然而,汉越作为低资源语言对其可用的句级平行语料稀缺,导致多语预训练模型仅通过汉越单语语料进行训练,缺乏明确的跨语言监督信号。此外,汉语和越南语在语法及构词上的差异也较大,例如越南语句子“Toi la nguoi Trung Quoc”对应的汉语翻译为“我是人中国”,不符合汉语的语法规则,这也导致仅通过汉越单语语料训练的编码器难以学习到高质量的汉越上下文跨语言句嵌入本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于上下文的汉越跨语言句嵌入方法,其特征在于:所述方法的具体步骤如下:Step1、使用汉语与越南语同主题的可比语料构建汉越平行句对数据集与非平行句对数据集作为正例和负例,进行相应预处理操作后用于孪生网络线性微调层的训练;Step2、基于mBERT模型获取训练集对应的汉越上下文跨语言句嵌入,并融合孪生网络结构搭建线性微调层,用于对mBERT模型中获取到的汉越上下文跨语言句嵌入进行重构,并构建对比损失用于反向优化线性微调层;Step3、将mBERT模型与优化好的线性微调层进行组合,得到基于上下文的汉越跨语言句嵌入模型mBERT

SF,用于获取高质量的汉越上下文跨语言句嵌入。2.根据权利要求1所述的基于上下文的汉越跨语言句嵌入方法,其特征在于:所述Step1的具体步骤为:Step1.1、从维基百科数据中抽取同主题词条下的汉越伪平行句对;Step1.2、分别剔除其中字词数量小于5的中文和越南语句子;Step1.3、利用正则化方法去除含有特殊字符的错误句对;Step1.4、从剩余的句对中人工筛选出语义相似度最高的若干对汉越平行句对作为正例,同时人工精标注若干条汉越平行句对作为测试集,平行句对的数据标签l=0;Step1.5、通过为正例中的汉语句子随机抽取同属于正例数据集但语义信息不对应的越南语翻译句作为负例,并将其与正例进行混合,共同构成训练集,负例规模同正例相同,数据标签l=1。3.根据权利要求1所述的基于上下文的汉越跨语言句嵌入方法,其特征在于:所述Step2的具体步骤为:Step2.1、基于多语预训练模型mBERT获取训练集中对应的汉越上下文跨语言句嵌入CLS
S
和CLS
T
;Step2.2、构建两个结构相同的子网络Network1和Network2组成线性重构层,分别对汉越输入句对中对应的上下文跨语言句嵌入CLS
S
和CLS
T
进行重构,使具有相同语义的汉越跨语言句嵌入在共享嵌入空间中拥有相近的向量表示;每个子网络均由一个全连接层和一个Dropout层构成,其中,全连接层大小为768维*768维,负责对mBERT模型输出的原始上下文跨语言句嵌入进行特征提取;为进一步提升模型的泛化能力,在全连接层fc后添加了一层Dropout层,通过对全连接层中的神经元以概率p进行随机剔除,防止模型产生过拟合问题;两个子网络Network1和Ne...

【专利技术属性】
技术研发人员:黄于欣武照渊余正涛
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1