一种基于多级对抗的跨语言命名实体识别模型训练方法技术

技术编号:37133093 阅读:31 留言:0更新日期:2023-04-06 21:31
本发明专利技术提出一种基于多级对抗的跨语言命名实体识别模型训练方法。该方法主要包括:通过外部的词到词翻译模型将带标签的源语言数据翻译为带标签的目标语言数据;构造语码转换数据与乱序数据等多种数据输入多级对抗网络来对mBERT进行领域内对抗训练;将经对抗训练得到的mBERT分别在三组数据上微调后进行多模型蒸馏得到学生模型。型蒸馏得到学生模型。型蒸馏得到学生模型。

【技术实现步骤摘要】
一种基于多级对抗的跨语言命名实体识别模型训练方法


[0001]本专利技术涉及命名实体识别,更具体地,涉及基于多级对抗的跨语言命名实体识别模型训练方法、系统、装置和介质。

技术介绍

[0002]随着互联网的发展,各种海外业务场景中有着大量的多语言需求。由于世界主要的人口使用的仍然是少量的主流语言,而更多非通用语言仅仅被少量的人口所使用,这一现象导致了较多语言资源的稀缺。现有的自然语言处理方法,通常需要大量的人工标注数据集,这会导致较高的人工标注代价。因此,如何能够基于资源丰富语言(如英语,中文)的数据资源来对资源稀缺的语言进行有效地命名实体识别成为跨语言的自然语言处理当前面临的挑战。

技术实现思路

[0003]提供本
技术实现思路
以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本
技术实现思路
并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
[0004]本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。
[0005]在一个方面中,提供了一种用于基于多级对抗的跨语言命名实体识别模型训练的方法,包括:创建多个数据集,该多个数据集包括:带标签的源语言数据集,带标签的目标语言数据集,语码转换数据集以及乱序数据集;至少部分地采用创建的带标签的源语言数据、语码转换数据集以及乱序数据集来通过多级对抗网络对mBERT进行对抗训练,以得到经过对抗训练的mBERT,其中,该多级对抗网络包括单词级、句子级和语序级;将该经对抗训练的mBERT在多组数据上进行微调以得到对应的多个具有不同倾向的教师模型,通过对该多个教师模型进行蒸馏来得到学生模型。
[0006]在另一方面,提供了一种用于基于多级对抗的跨语言命名实体识别模型训练的系统,包括:数据集创建模块,该数据集创建模块被配置成创建多个数据集,该多个数据集包括:带标签的源语言数据集,带标签的目标语言数据集,语码转换数据集以及乱序数据集;对抗训练模块,该对抗训练模块被配置成至少部分地采用创建的带标签的源语言数据、语码转换数据集以及乱序数据集来通过多级对抗网络对mBERT进行对抗训练,以得到经过对抗训练的mBERT,其中,该多级对抗网络包括单词级、句子级和语序级;蒸馏模块,该蒸馏模块被配置成将该经对抗训练的mBERT在多组数据上进行微调以得到对应的多个具有不同倾向的教师模型,通过对该多个教师模型进行蒸馏来得到学生模型。
[0007]在又另一方面中,提供了一种用于基于多级对抗的跨语言命名实体识别模型训练的装置,包括:存储器;以及处理器,该处理器被配置成执行如上文任一项所述的方法。
[0008]在又另一方面中,提供了一种存储指令的计算机可读存储介质,该指令当被计算机执行时,使该计算机执行上述方法。
[0009]在又另一方面,提供了一种采用以上所述的学生模型来对输入数据进行命名实体识别的方法,包括:该学生模型接收数据集,该数据集包括一个或多个句子,该一个或多个句子包括非实体词部分和/或实体词部分;该学生模型对接收到的数据集进行命名实体识别;以及该学生模型输出对该数据集中的每个句子中的每个单词的标注,该标注指示该单词为实体或为非实体。
[0010]通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
[0011]为了能详细地理解本专利技术的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本专利技术的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
[0012]图1示出了根据本专利技术的一个实施例的基于多级对抗的跨语言命名实体识别模型训练方法的流程图100。
[0013]图2示出了基于多级对抗的跨语言命名实体识别模型训练技术的数据流图200。
[0014]图3示出了根据本专利技术的一个实施例的采用本专利技术得到的模型来对输入数据进行命名实体识别的方法300。
[0015]图4示出了根据本专利技术的一个实施例的基于多级对抗的跨语言命名实体识别模型训练的系统400的框图。
[0016]图5示出了用于实现根据本专利技术的一个或多个实施例的系统或方法的装置500的示意框图。
具体实施方式
[0017]下面结合附图详细描述本专利技术,本专利技术的特点将在以下的具体描述中得到进一步的显现。
[0018]以下具体描述参考示出本专利技术的示例性实施例的附图。但是,本专利技术的范围不限于这些实施例,而是由所附权利要求书定义。因此,诸如所示实施例的修改版本之类的在附图所示之外的实施例仍然由本专利技术所包含。
[0019]本说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用指的是该实施例可包括特定的特征、结构或特点,但是每一实施例不一定包括该特定的特征、结构或特点。此外,这些短语不一定指相同的实施例。此外,当结合实施例描述具体特征、结构或特性时,应当理解在相关领域的技术人员的知识范围内能够结合其他实施例来实现具体特征、结构或特性,无论是否被显式地描述。
[0020]以下,对本专利技术中出现的技术术语进行简要介绍。所列技术术语并没有偏离其在本领域的常规解释和/或本领域技术人员对其的一般理解。
[0021]命名实体识别(Named Entity Recognition,简称NER):是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。一般来说,命名实体识别的任务就
是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
[0022]语码转换(Code

Switch):语码(code)这一术语指交际中使用的语言系统。语码转换指人们在同一次交际中使用两种或更多的语码进行交际。
[0023]生成对抗网络(Generative adversarial network):是深度学习领域的一个重要生成模型,对抗网络的核心是对抗式(adversarial),生成器(Generator)负责生成样本,判别器(Discriminator)负责判别样本。两个网络(生成器和判别器)在同一时间训练并且在极小化极大算法(minimax)中进行竞争。这种对抗方式通过对抗学习来近似一些不可解的损失函数,在图像、视频、自然语言和音乐等数据的生成方面有着广泛应用。
[0024]模型蒸馏(Model Distillation):旨在把一个大模型或者多个模型学到的知识迁移到另一个轻量级单模型上,方便部署。简单的说就是用小模型去学习大模型的预测结果。具体而言,将原始大模型称为教师模型(teacher),新的小模型称为学生模型(student),教师模型预测的概率输出为软标签(soft label)。
[0025]多语言BERT(Multilingu本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于基于多级对抗的跨语言命名实体识别模型训练的方法,包括:创建多个数据集,所述多个数据集包括:带标签的源语言数据集,带标签的目标语言数据集,语码转换数据集以及乱序数据集;至少部分地采用创建的带标签的源语言数据、语码转换数据集以及乱序数据集来通过多级对抗网络对mBERT进行对抗训练,以得到经过对抗训练的mBERT,其中,所述多级对抗网络包括单词级、句子级和语序级;将所述经对抗训练的mBERT在多组数据上进行微调以得到对应的多个具有不同倾向的教师模型,通过对所述多个教师模型进行蒸馏来得到学生模型。2.如权利要求1所述的方法,其中,创建多个数据集进一步包括:通过词到词翻译模型对所述带标签的源语言数据集进行翻译来构造所述带标签的目标语言数据集。3.如权利要求2所述的方法,其中,创建多个数据集进一步包括:通过将所述带标签的源语言数据集的所有实体词部分与非实体词部分分别词到词翻译为目标语言来构造所述语码转换数据集,所述语码转换数据集中的每个语码转换数据集中的每个句子均包括源语言和目标语言这两种语言。4.如权利要求3所述的方法,其中,所述语码转换数据集包括第一语码转换数据集和第二语码转换数据集;其中,在所述第一语码转换数据集的每个句子中,源语言句子的实体词部分用翻译后的目标语言来替换;其中,在所述第二语码转换数据集的每个句子中,源语言句子的非实体词部分用翻译后的目标语言来替换。5.如权利要求1所述的方法,其中,创建多个数据集进一步包括:通过将所述带标签的源语言数据集中的数据按照实体词部分分割出的边界进行边界内的语序打乱来构造所述乱序数据集。6.如权利要求4所述的方法,其中,通过多级对抗网络对mBERT进行对抗训练进一步包括:将所述带标签的源语言数据集、所述第一语码转换数据集与无标签的目标语言数据集的经mBERT编码后的句子输入单词级别判别器,所述单词级别判别器用于判断每个输入句子中的每个单词是属于源语言还是目标语言,训练损失为L
DIS1
;将所述带标签的源语言数据集、所述第一语码转换数据集与所述无标签的目标语言数据集的经mBERT编码后的句子输入句子级别判别器,所述句子级别判别器用于判断每个输入句子是属于源语言、目标语言还是经语码转换的句子,训练损失为L
DIS2
;将所述带标签的源语言数据集与所述乱序数据集中的经mBERT编码后的句子输入语序级别判别器,所述语序级别判别器判...

【专利技术属性】
技术研发人员:赵易淳康光梁都金涛祝慧佳
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1