【技术实现步骤摘要】
预训练语言模型的训练方法、装置、计算机设备和介质
[0001]本公开涉及计算机
,更具体而言,涉及一种预训练语言模型的训练方法、装置、计算机设备和介质。
技术介绍
[0002]随着深度学习技术和全球国际化的不断发展,业务国际化趋势更加明显,能处理多国语言的人工智能(AI)技术的需求日渐增多。目前,在自然语言处理领域,预训练语言模型是一种实现AI的方法。对于覆盖不同语言的适用于特定下游任务的自然语言处理模型,预训练语言模型需要经过大规模下游任务相关的覆盖不同语言的训练样本数据的充分微调,而国际化业务(例如,跨境电商业务、跨境物流业务和国际业务智能客服等)往往覆盖不同语言,并且国际化业务相关的低资源语言(小语种)样本数据通常较为稀缺,使得下游任务相关的低资源语言的训练样本数据对预训练语言模型微调训练不足,这降低了低资源语言场景下自然语言处理模型处理下游任务的性能,也使得低资源语言样本数据稀缺的下游任务不适合于通过微调预训练语言模型而获得适用于下游任务的自然语言处理模型,这降低了不同语言场景下预训练语言模型所能适用的下游任务
【技术保护点】
【技术特征摘要】
1.一种预训练语言模型的训练方法,包括:获得使用不同语言表达相同语义的训练数据组合;将所述训练数据组合输入具备不同语言理解能力的预训练语言模型,以使得所述预训练语言模型对所述训练数据组合进行预训练后得到所述训练数据组合对应的输出数据组合,并根据所述输出数据组合计算所述训练数据组合的损失值;利用所述损失值更新所述预训练语言模型的模型参数,以提高所述输出数据组合的相似度。2.根据权利要求1所述的训练方法,其中,所述训练数据组合至少包括使用第一语言表达第一语义的第一文本和使用第二语言表达第一语义的第二文本,所述第一文本包括多个第一分词,所述第二文本包括多个第二分词,将所述训练数据组合输入具备不同语言理解能力的预训练语言模型,以使得所述预训练语言模型对所述训练数据组合进行预训练后得到所述训练数据组合对应的输出数据组合,并根据所述输出数据组合计算所述训练数据组合的损失值包括:将所述多个第一分词输入所述预训练语言模型,由所述预训练语言模型得到多个第一分词向量;将所述多个第二分词输入所述预训练语言模型,由所述预训练语言模型得到多个第二分词向量;基于所述多个第一分词向量和所述多个第二分词向量,计算所述第一文本的向量表示和所述第二文本的向量表示之间的相似度损失值。3.根据权利要求2所述的训练方法,其中,将所述训练数据组合输入具备不同语言理解能力的预训练语言模型,以使得所述预训练语言模型对所述训练数据组合进行预训练后得到所述训练数据组合对应的输出数据组合还包括:将所述第一文本输入所述预训练语言模型,由所述预训练语言模型得到第一文本预测值;将所述第二文本输入所述预训练语言模型,由所述预训练语言模型得到第二文本预测值;根据所述输出数据组合计算所述训练数据组合的损失值还包括:基于所述第一文本预测值和所述第一文本的标签值,计算所述第一文本的预测损失值;基于所述第二文本预测值和所述第二文本的标签值,计算所述第二文本的预测损失值。4.根据权利要求3所述的训练方法,其中,利用所述损失值更新所述预训练语言模型的模型参数之前,所述方法还包括:计算所述相似度损失值、所述第一文本的预测损失值和所述第二文本的预测损失值的线性加权和,作为所述训练数据组合的损失值。5.根据权利要求4所述的训练方法,其中,所述训练数据组合包括多个双语数据对,利用所述损失值更新所述预训练语言模型的模型参...
【专利技术属性】
技术研发人员:刘家豪,罗福莉,黄松芳,
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。