自然语言处理、模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:37112323 阅读:35 留言:0更新日期:2023-04-01 05:09
本公开涉及一种自然语言处理、模型训练方法、装置、设备及存储介质。本公开通过每个三元组对机器学习模型进行预训练,使得预训练后的机器学习模型能够无缝自然的在机器阅读理解范式下处理各式各样的自然语言理解任务。另外,由于预训练阶段中用于做模型训练的数据格式和微调阶段中用于做模型训练的数据格式一致,使得预训练的目标和微调的目标相同,从而使得预训练阶段和微调阶段之间可以进行无缝的衔接。在采用大量低成本数据对模型进行预训练之后,通过少量的目标任务数据即可校准预训练后的机器学习模型,从而使得预训练阶段中学习到的通用知识顺利的迁移到微调后的模型中,并保证了微调后的模型的准确性。并保证了微调后的模型的准确性。并保证了微调后的模型的准确性。

【技术实现步骤摘要】
自然语言处理、模型训练方法、装置、设备及存储介质


[0001]本公开涉及信息
,尤其涉及一种自然语言处理、模型训练方法、装置、设备及存储介质。

技术介绍

[0002]目前的自然语言理解任务可以由机器来执行,但是,需要具备能够对自然语言进行处理的机器学习模型。由于针对自然语言理解任务的目标任务数据较少,因此,在采用少量的目标任务数据对该机器学习模型进行训练之前,通常会对该机器学习模型进行预训练。
[0003]但是,目前预训练的目标和自然语言理解任务的目标不同,例如,目前预训练的目标是让机器学习模型恢复出被污染的文本,而自然语言理解任务的目标是解决具体的问题,例如,识别命名实体、完成抽取式问答、情感分析、完成多选式问答等。因此,若采用目前的预训练方法对该机器学习模型进行预训练,将会导致经过预训练后的机器学习模型无法用于处理自然语言理解任务,并且难以通过少量的目标任务数据校准预训练后的机器学习模型,从而导致微调后的机器学习模型依然不够精准。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种自然语言处理、模型训练方法、装置、设备及存储介质,以提高微调后的机器学习模型的准确性。
[0005]第一方面,本公开实施例提供一种自然语言处理方法,包括:
[0006]获取超链接所标记的第一目标信息;
[0007]从所述第一目标信息的主页文章中获取所述第一目标信息对应的第一查询,从所述第一目标信息的至少一个引用文章中获取所述第一目标信息的至少一个第一上下文信息;
[0008]根据所述第一目标信息、所述第一查询、所述至少一个第一上下文信息对机器学习模型进行预训练,得到预训练后的机器学习模型;
[0009]从自然语言理解任务提供的样本文本中确定出第二目标信息,生成所述第二目标信息对应的第二查询,并采用所述样本文本、所述第二查询和所述第二目标信息对所述预训练后的机器学习模型进行训练。
[0010]第二方面,本公开实施例提供一种模型训练方法,包括:
[0011]获取目标文本;
[0012]根据所述目标文本对应的自然语言理解任务,确定查询信息;
[0013]将所述查询信息和所述目标文本作为机器学习模型的输入,使得所述机器学习模型输出所述目标文本中与所述查询信息对应的答案,所述机器学习模型是根据如上所述的模型训练方法训练得到的。
[0014]第三方面,本公开实施例提供一种模型训练装置,包括:
[0015]第一获取模块,用于获取超链接所标记的第一目标信息;
[0016]第二获取模块,用于从所述第一目标信息的主页文章中获取所述第一目标信息对应的第一查询,从所述第一目标信息的至少一个引用文章中获取所述第一目标信息的至少一个第一上下文信息;
[0017]预训练模块,用于根据所述第一目标信息、所述第一查询、所述至少一个第一上下文信息对机器学习模型进行预训练,得到预训练后的机器学习模型;
[0018]微调模块,用于从自然语言理解任务提供的样本文本中确定出第二目标信息,生成所述第二目标信息对应的第二查询,并采用所述样本文本、所述第二查询和所述第二目标信息对所述预训练后的机器学习模型进行训练。
[0019]第四方面,本公开实施例提供一种自然语言处理装置,包括:
[0020]获取模块,用于获取目标文本;
[0021]确定模块,用于根据所述目标文本对应的自然语言理解任务,确定查询信息;
[0022]输入模块,用于将所述查询信息和所述目标文本作为机器学习模型的输入,使得所述机器学习模型输出所述目标文本中与所述查询信息对应的答案,所述机器学习模型是根据如上所述的模型训练方法训练得到的。
[0023]第五方面,本公开实施例提供一种电子设备,包括:
[0024]存储器;
[0025]处理器;以及
[0026]计算机程序;
[0027]其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面或第二方面所述的方法。
[0028]第六方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面或第二方面所述的方法。
[0029]本公开实施例提供的自然语言处理、模型训练方法、装置、设备及存储介质,通过获取超链接所标记的第一目标信息作为答案,并从所述第一目标信息的主页文章中获取所述第一目标信息对应的第一查询,从所述第一目标信息的至少一个引用文章中获取所述第一目标信息的至少一个第一上下文信息,使得所述第一目标信息、所述第一查询和每个第一上下文信息可以构成一个机器阅读理解风格的三元组。进一步,根据每个三元组对机器学习模型进行预训练,使得预训练后的机器学习模型能够无缝自然的在机器阅读理解范式下处理各式各样的自然语言理解任务。另外,由于预训练阶段中用于做模型训练的数据格式和微调阶段中用于做模型训练的数据格式一致,都是包括答案、查询和上下文信息的三元组,使得预训练的目标和微调的目标相同,从而使得预训练阶段和微调阶段之间可以进行无缝的衔接。由于预训练过程和微调过程极为相似,因此,在采用大量低成本数据对机器学习模型进行预训练之后,通过少量的目标任务数据即可校准预训练后的机器学习模型,从而使得预训练阶段中学习到的通用知识顺利的迁移到微调后的机器学习模型中,并保证了微调后的机器学习模型的准确性。
附图说明
[0030]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0031]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0032]图1为本公开实施例提供的MLM、S2S、MRC在预训练和微调阶段差异的示意图;
[0033]图2为本公开实施例提供的模型训练方法流程图;
[0034]图3为本公开实施例提供的应用场景的示意图;
[0035]图4为本公开实施例提供的主页文章、引用文章的示意图;
[0036]图5为本公开另一实施例提供的PMR的示意图;
[0037]图6为本公开另一实施例提供的模型训练方法流程图;
[0038]图7为本公开另一实施例提供的概率矩阵的示意图;
[0039]图8为本公开另一实施例提供的概率矩阵的示意图;
[0040]图9为本公开另一实施例提供的概率矩阵的示意图;
[0041]图10为本公开另一实施例提供的模型训练方法流程图;
[0042]图11为本公开实施例提供的模型训练装置的结构示意图;
[0043]图12为本公开实施例提供的自然语言处理装置的结构示意图;
[0044]图13为本公开实施例提供的电子设备实施例的结构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其中,所述方法包括:获取超链接所标记的第一目标信息;从所述第一目标信息的主页文章中获取所述第一目标信息对应的第一查询,从所述第一目标信息的至少一个引用文章中获取所述第一目标信息的至少一个第一上下文信息;根据所述第一目标信息、所述第一查询、所述至少一个第一上下文信息对机器学习模型进行预训练,得到预训练后的机器学习模型;从自然语言理解任务提供的样本文本中确定出第二目标信息,生成所述第二目标信息对应的第二查询,并采用所述样本文本、所述第二查询和所述第二目标信息对所述预训练后的机器学习模型进行训练。2.根据权利要求1所述的方法,其中,所述机器学习模型包括编码器和抽取器,所述编码器的输出是所述抽取器的输入;根据所述第一目标信息、所述第一查询、所述至少一个第一上下文信息对机器学习模型进行预训练,得到预训练后的机器学习模型,包括:针对所述至少一个第一上下文信息中的每个第一上下文信息,将所述第一查询和所述第一上下文信息作为所述编码器的输入,使得所述编码器输出所述第一查询中每个文本单元的表示向量和所述第一上下文信息中每个文本单元的表示向量;通过所述抽取器计算所述第一上下文信息中每个文本段分别作为所述第一查询对应的答案的概率,所述每个文本段分别由所述第一上下文信息中连续的至少一个文本单元构成;根据所述概率、所述第一目标信息在所述第一上下文信息中的位置信息,对所述机器学习模型进行预训练,得到预训练后的机器学习模型。3.根据权利要求2所述的方法,其中,通过所述抽取器计算所述第一上下文信息中每个文本段分别作为所述第一查询对应的答案的概率,包括:通过所述抽取器计算从第i个文本单元到第j个文本单元连续的至少一个文本单元构成的文本段作为所述第一查询对应的答案的概率,j大于或等于i,i大于或等于N+1,N+1是所述第一上下文信息中的第一个文本单元在所述编码器的输入中对应的索引,所述概率是根据所述第i个文本单元的表示向量和所述第j个文本单元的表示向量计算得到的。4.根据权利要求2所述的方法,其中,根据所述概率、所述第一目标信息在所述第一上下文信息中的位置信息,对所述机器学习模型进行预训练之前,所述方法还包括:通过所述抽取器计算所述第一查询和所述第一上下文信息的相关度,所述相关度是根据所述第一查询和所述第一上下文信息整体的表示向量计算得到的;根据所述概率、所述第一目标信息在所述第一上下文信息中的位置信息,对所述机器学习模型进行预训练,包括:根据所述相关度、所述概率、所述第一目标信息在所述第一上下文信息中的位置信息,对所述机器学习模型进行预训练。5.根据权利要求1所述的方法,其中,从所述第一目标信息的主页文章中获取所述第一目标信息对应的第一查询,包括:将所述第一目标信息的主页文章中的前至少一个句子作为所述第一目标信息对应的第...

【专利技术属性】
技术研发人员:徐蔚文李昕张雯轩邴立东司罗
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1