基于多语言模型的目标语种模型的构建方法、装置及设备制造方法及图纸

技术编号:39062426 阅读:25 留言:0更新日期:2023-10-12 19:55
本发明专利技术涉及医疗健康技术领域,公开了一种基于多语言模型的目标语种模型的构建方法、装置及设备,包括:删除预训练多语言模型中的非目标语种token,保留模型内目标语种token;删除对非目标语种token的索引,并更新对模型内目标语种token的索引;保持其他网络层参数不变,删除模型中非目标语种token在嵌入层的相关参数,保留目标语种token在嵌入层的相关参数,得到目标语种模型。本申请利用多语言模型的迁移特性,对多语言模型进行瘦身得到目标语种模型,既保留了多语言模型的基本结构框架和性能优势,又能大大减少模型参数,降低训练代价和计算量,最终获得在目标语种上表现优异且轻量级的目标语种模型。轻量级的目标语种模型。轻量级的目标语种模型。

【技术实现步骤摘要】
基于多语言模型的目标语种模型的构建方法、装置及设备


[0001]本专利技术涉及人工智能及医疗健康
,尤其涉及一种基于多语言模型的目标语种模型的构建方法、装置及设备。

技术介绍

[0002]多语言模型(mLM)是自然语言处理(NLP)技术中的一类强大模型,它在预训练的过程中,通常使用数十种甚至数百种不同语言的相关语料,力求通过一个模型解决语料中所包含的所有语言的处理问题,完美解决跨语言文本处理问题。另外对于一些小语种而言,由于小语种高质量语料收集工作困难,例如在医疗健康领域,利用神经网络模型对各种疾病进行诊断,小语种语料比较难收集,如果单独训练这类单语种语言模型其性能会较差,而多语言模型则可以借助其他语言的知识,将相关知识自动迁移到小语种上,即可实现模型在任意单语种上的性能。因此,多语言模型在小语种上的表现比单语言模型在小语种上的表现更好。
[0003]多语言模型由于其涵盖大量的语种,词汇表的数量数倍于单语种语言模型的词汇量,这就意味着模型的参数量会非常大。模型太大不仅对于存储、硬件显存有较高的需求,而且计算量上也会增多,使得模型训本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多语言模型的目标语种模型的构建方法,其特征在于,包括:删除预训练多语言模型中的非目标语种token,保留模型内目标语种token,得到所述预训练多语言模型更新的词汇表;根据所述更新的词汇表,删除所述预训练语言模型的tokenizer对非目标语种token的索引,并更新所述tokenizer对所述模型内目标语种token的索引;在保持其他网络层参数不变的情况下,删除所述预训练多语言模型中非目标语种token在嵌入层的相关参数,保留所述模型内目标语种token在嵌入层的相关参数,得到应用于目标语种的目标语种模型。2.如权利要求1所述的基于多语言模型的目标语种模型的构建方法,其特征在于,在删除预训练多语言模型中的非目标语种token,保留模型内目标语种token,得到所述预训练多语言模型更新的词汇表之前,所述方法还包括:获取预训练语料,其中,所述预训练语料包含所述预训练多语言模型可支持语种中的至少一种其他语种的语料,所述预训练多语言模型可支持语种包括所述目标语种;利用所述预训练语料对所述预训练多语言模型进行预训练。3.如权利要求1所述的基于多语言模型的目标语种模型的构建方法,其特征在于,在删除所述预训练多语言模型中非目标语种token在嵌入层的相关参数之前,所述方法还包括:利用获取到的下游业务数据微调所述预训练多语言模型,其中,所述下游业务数据为目标语种的数据集,所述目标语种包括至少一种语种。4.如权利要求1所述的基于多语言模型的目标语种模型的构建方法,其特征在于,在得到应用于目标语种的目标语种模型之后,所述方法还包括:利用获取到的下游业务数据微调所述目标语种模型,其中,所述下游业务数据为目标语种的数据集,所述目标语种包括至少一种语种。5.如权利要求1所述的基于多语言模型的目标语种模型的构建方法,其特征在于,所述删除预训练多语言模型中的非目标语种token,保留模型内目标语种token,包括:获取目标语种语料;利用所述预训练多语言模型对所述目标语种语料进行分词,得到模型外目标语种token集合;根据所述模型外目标语种token集合,对预训练多语言模型的词汇表中的非目标语种token和目标语种token进行识...

【专利技术属性】
技术研发人员:谯轶轩
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1