一种基于多级对抗的跨语言命名实体识别模型训练方法技术

技术编号:37133093 阅读:38 留言:0更新日期:2023-04-06 21:31
本发明专利技术提出一种基于多级对抗的跨语言命名实体识别模型训练方法。该方法主要包括:通过外部的词到词翻译模型将带标签的源语言数据翻译为带标签的目标语言数据;构造语码转换数据与乱序数据等多种数据输入多级对抗网络来对mBERT进行领域内对抗训练;将经对抗训练得到的mBERT分别在三组数据上微调后进行多模型蒸馏得到学生模型。型蒸馏得到学生模型。型蒸馏得到学生模型。

【技术实现步骤摘要】
一种基于多级对抗的跨语言命名实体识别模型训练方法


[0001]本专利技术涉及命名实体识别,更具体地,涉及基于多级对抗的跨语言命名实体识别模型训练方法、系统、装置和介质。

技术介绍

[0002]随着互联网的发展,各种海外业务场景中有着大量的多语言需求。由于世界主要的人口使用的仍然是少量的主流语言,而更多非通用语言仅仅被少量的人口所使用,这一现象导致了较多语言资源的稀缺。现有的自然语言处理方法,通常需要大量的人工标注数据集,这会导致较高的人工标注代价。因此,如何能够基于资源丰富语言(如英语,中文)的数据资源来对资源稀缺的语言进行有效地命名实体识别成为跨语言的自然语言处理当前面临的挑战。

技术实现思路

[0003]提供本
技术实现思路
以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本
技术实现思路
并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
[0004]本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。
[0005]在一个方面中,提供了一种用于基于多本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于基于多级对抗的跨语言命名实体识别模型训练的方法,包括:创建多个数据集,所述多个数据集包括:带标签的源语言数据集,带标签的目标语言数据集,语码转换数据集以及乱序数据集;至少部分地采用创建的带标签的源语言数据、语码转换数据集以及乱序数据集来通过多级对抗网络对mBERT进行对抗训练,以得到经过对抗训练的mBERT,其中,所述多级对抗网络包括单词级、句子级和语序级;将所述经对抗训练的mBERT在多组数据上进行微调以得到对应的多个具有不同倾向的教师模型,通过对所述多个教师模型进行蒸馏来得到学生模型。2.如权利要求1所述的方法,其中,创建多个数据集进一步包括:通过词到词翻译模型对所述带标签的源语言数据集进行翻译来构造所述带标签的目标语言数据集。3.如权利要求2所述的方法,其中,创建多个数据集进一步包括:通过将所述带标签的源语言数据集的所有实体词部分与非实体词部分分别词到词翻译为目标语言来构造所述语码转换数据集,所述语码转换数据集中的每个语码转换数据集中的每个句子均包括源语言和目标语言这两种语言。4.如权利要求3所述的方法,其中,所述语码转换数据集包括第一语码转换数据集和第二语码转换数据集;其中,在所述第一语码转换数据集的每个句子中,源语言句子的实体词部分用翻译后的目标语言来替换;其中,在所述第二语码转换数据集的每个句子中,源语言句子的非实体词部分用翻译后的目标语言来替换。5.如权利要求1所述的方法,其中,创建多个数据集进一步包括:通过将所述带标签的源语言数据集中的数据按照实体词部分分割出的边界进行边界内的语序打乱来构造所述乱序数据集。6.如权利要求4所述的方法,其中,通过多级对抗网络对mBERT进行对抗训练进一步包括:将所述带标签的源语言数据集、所述第一语码转换数据集与无标签的目标语言数据集的经mBERT编码后的句子输入单词级别判别器,所述单词级别判别器用于判断每个输入句子中的每个单词是属于源语言还是目标语言,训练损失为L
DIS1
;将所述带标签的源语言数据集、所述第一语码转换数据集与所述无标签的目标语言数据集的经mBERT编码后的句子输入句子级别判别器,所述句子级别判别器用于判断每个输入句子是属于源语言、目标语言还是经语码转换的句子,训练损失为L
DIS2
;将所述带标签的源语言数据集与所述乱序数据集中的经mBERT编码后的句子输入语序级别判别器,所述语序级别判别器判...

【专利技术属性】
技术研发人员:赵易淳康光梁都金涛祝慧佳
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1