文本理解模型的训练方法和文本理解方法、装置制造方法及图纸

技术编号:37440245 阅读:8 留言:0更新日期:2023-05-06 09:12
本公开提供了一种文本理解模型的训练方法和文本理解方法、装置、设备和介质,涉及人工智能领域,具体涉及自然语言处理和深度学习等技术领域,可应用于智能问答、智能搜索、智能推荐等场景。文本理解模型包括依次连接的多个编码子模型和输出层,至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络。训练方法的具体实现方案为:确定与目标文本理解任务对应的有偏样本文本;将有偏样本文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对有偏样本文本依次处理,得到文本理解特征;将文本理解特征输入输出层,得到预测理解信息;以及根据有偏样本文本标注的真实理解信息和预测理解信息,对文本理解模型进行训练。行训练。行训练。

【技术实现步骤摘要】
文本理解模型的训练方法和文本理解方法、装置


[0001]本公开涉及人工智能领域,具体涉及自然语言和深度学习等
,可应用于智能问答、智能搜索、智能推荐等场景。

技术介绍

[0002]随着计算机技术和电子技术的发展,基于深度学习的自然语言理解技术取得了很大的发展。自然语言理解是所有支持机器理解文本内容的方法、模型或任务的总称。自然语言理解是自然语言处理领域的一个重要研究方向。
[0003]基于深度学习的自然语言理解技术主要是采用深度学习模型预先从数据中学习知识,然后根据已经学到的知识进行预测。即,自然语言理解模型的理解能力是从数据中预先学习到的,如果从有偏数据中学习到文本理解的某种捷径(shortcuts),模型常常会依靠该捷径进行文本理解,而忽略了文本的真正语义。

技术实现思路

[0004]本公开旨在提供一种文本理解模型的训练方法和文本理解方法、装置、电子设备和存储介质,旨在针对多种捷径对模型进行训练,避免模型依据学习到的多种捷径进行文本理解,提高模型的文本理解精度。
[0005]根据本公开的第一方面,提供了一种文本理解模型的训练方法,其中,文本理解模型包括依次连接的多个编码子模型和输出层;多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;训练方法包括:确定与目标文本理解任务对应的有偏样本文本;将有偏样本文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对有偏样本文本依次处理,得到文本理解特征;将文本理解特征输入输出层,得到预测理解信息;以及根据有偏样本文本标注的真实理解信息和预测理解信息,对文本理解模型进行训练。
[0006]根据本公开的第二方面,提供了一种基于文本理解模型的文本理解方法,其中,文本理解模型包括依次连接的多个编码子模型;多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;文本理解方法包括:将待理解文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对待理解文本依次处理后,得到文本理解特征;以及将文本理解特征输入输出层,得到预测理解信息,其中,文本理解模型是采用本公开第一方面提供的文本理解模型的训练方法训练得到的。
[0007]根据本公开的第三方面,提供了一种文本理解模型的训练装置,其中,文本理解模型包括依次连接的多个编码子模型和输出层;多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;训练装置包括:样本文本确定模块,用于确定与目标文本理解任务对应的有偏样本文本;文本理解模块,用于将有偏样本文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对有偏样本文本依次处理后,得到文本理解特征;预测信息获得模块,用于将文本理解特征输入输出层,得到预测理
解信息;以及模型训练模块,用于根据样本文本标注的真实理解信息和预测理解信息,对文本理解模型进行训练。
[0008]根据本公开的第四方面,提供了一种基于文本理解模型的文本理解装置,其中,文本理解模型包括依次连接的多个编码子模型;多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;训练装置包括:文本理解模块,用于将待理解文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对待理解文本依次处理后,得到文本理解特征;以及预测信息获得模块,用于将文本理解特征输入输出层,得到预测理解信息,其中,文本理解模型是采用本公开第三方面提供的文本理解模型的训练装置训练得到的。
[0009]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的文本理解模型的训练方法和/或基于文本理解模型的文本理解方法。
[0010]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的文本理解模型的训练方法和/或基于文本理解模型的文本理解方法。
[0011]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上,所述计算机程序/指令在被处理器执行时实现本公开提供的文本理解模型的训练方法和/或基于文本理解模型的文本理解方法。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1是根据本公开实施例的文本理解模型的训练方法和基于文本理解模型的文本理解方法、装置的应用场景示意图;
[0015]图2是根据本公开实施例的文本理解模型的训练方法的流程示意图;
[0016]图3是根据本公开实施例的文本理解模型的训练方法的原理示意图;
[0017]图4是根据本公开实施例的基于文本理解模型的文本理解方法的流程示意图;
[0018]图5是根据本公开实施例的文本理解模型的训练装置的结构框图;
[0019]图6是根据本公开实施例的基于文本理解模型的文本理解装置的结构框图;以及
[0020]图7是用来实施本公开实施例的方法的示例电子设备的示意性框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]自然语言理解是自然语言处理领域的一个重要研究方向,在文本信息处理系统中扮演着非常重要的角色,是推荐、问答、搜索等系统的必备模块,应用方向包括语义分析、机器客服、语音识别等。
[0023]在深度学习中,自然语言理解模型(也可称为文本理解模型)的处理能力都是从样本数据中预先学习得到的。若样本数据为有偏样本文本,即样本数据中存在某种捷径,模型常常会先学习到这种捷径,并在文本理解时,优先依据文本中存在的捷径确定理解结果,而忽略了整个文本的语义。
[0024]例如,自然语言理解场景中,样本数据通常存在的捷径类型包括:词汇特征捷径类型、部分输入捷径类型和句间重叠捷径类型等。
[0025]词汇特征捷径类型是指样本数据中包括与样本标签之间存在虚假的关联的类型,对应地,有偏样本文本的有偏类型包括:包括目标词汇的类型,其中的目标词汇与包括目标词汇的样本文本所标注的真实理解信息之间具有非绝对关联关系,即,大部分包括目标词汇的样本文本所标注的真实理解信息为第一信息,而少部分包括目标词汇的样本文本所标注的真实理解信息为除第一信息外的其他信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本理解模型的训练方法,其中,所述文本理解模型包括依次连接的多个编码子模型和输出层;所述多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;所述方法包括:确定与目标文本理解任务对应的有偏样本文本;将所述有偏样本文本输入所述多个编码子模型中排在首位的编码子模型,经由所述多个编码子模型对所述有偏样本文本依次处理,得到文本理解特征;将所述文本理解特征输入所述输出层,得到预测理解信息;以及根据所述有偏样本文本标注的真实理解信息和所述预测理解信息,对所述文本理解模型进行训练。2.根据权利要求1所述的方法,其中,所述至少一个编码子模型中的每个编码子模型对所述有偏样本文本进行的处理包括:采用所述编码器对在前编码子模型得到的文本特征进行编码,得到编码特征;采用所述门网络对所述编码特征进行处理,得到所述多个专家网络中各网络的权重;以及根据所述权重,采用所述多个专家网络对所述编码特征进行处理,得到文本特征,其中,所述多个编码子模型中排在末位的编码子模型得到的文本特征为所述文本理解特征;在所述每个编码子模型为排在首位的编码子模型的情况下,所述在前编码子模型得到的文本特征为所述有偏样本文本。3.根据权利要求2所述的方法,其中,所述根据所述权重,采用所述多个专家网络对所述编码特征进行处理,得到文本特征包括:根据所述权重,确定所述多个专家网络中权重较大的K个专家网络;采用所述K个专家网络分别对所述编码特征进行处理,得到K个初始文本特征;以及根据所述K个专家网络的权重对所述K个初始文本特征进行加权,得到文本特征,其中,K为大于等于1的自然数,且K的取值小于所述多个专家网络的总个数。4.根据权利要求1所述的方法,其中,所述根据所述有偏样本文本标注的真实理解信息和所述预测理解信息,对所述文本理解模型进行训练包括:确定所述编码器的网络参数的取值和所述多个编码子模型中除所述至少一个编码子模型外的其他编码子模型的网络参数为定量;以及根据所述真实理解信息和所述预测理解信息,对所述至少一个编码子模型包括的门网络和专家网络进行训练。5.根据权利要求1或4所述的方法,其中,所述有偏样本文本包括至少两种有偏类型的样本文本;所述根据所述有偏样本文本标注的真实理解信息和所述预测理解信息,对所述文本理解模型进行训练包括:根据每种有偏类型的样本文本标注的真实理解信息和针对所述每种有偏类型的样本文本得到的预测理解信息,确定所述文本理解模型针对所述每种有偏类型的预测损失值;以及根据所述预测损失值,对所述门网络和所述多个专家网络中针对所述每种有偏类型的样本文本进行了处理的专家网络进行训练。6.根据权利要求1所述的方法,其中,所述有偏样本文本的有偏类型包括以下类型中的
至少一种:包括目标词汇的类型;所述目标词汇与包括所述目标词汇的样本文本所标注的真实理解信息之间具有非绝对关联关系;部分文本为目标文本的类型;所述目标文本为所述文本理解模型针对包括所述目标文本的样本文本成功执行所述目标文本理解任务所需的最短文本;与预定文本库中的至少一个文本的词汇重叠率大于预定重叠率的类型。7.根据权利要求1~6中任一项所述的方法,其中,所述编码器包括Transformer架构的编码器。8.一种基于文本理解模型的文本理解方法,其中,所述文本理解模型包括依次连接的多个编码子模型;所述多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;所述方法包括:将待理解文本输入所述多个编码子模型中排在首位的编码子模型,经由所述多个编码子模型对所述待理解文本依次处理后,得到文本理解特征;以及将所述文本理解特征输入所述输出层,得到预测理解信息,其中,所述文本理解模型是采用权利要求1~7中任一项所述的方法训练得到的。9.根据权利要求8所述的方法,其中,所述至少一个编码子模型中的每个编码子模型对所述待理解文本进行的处理包括:采用所述编码器对在前编码子模型得到的文本特征进行编码,得到编码特征;采用所述门网络对所述编码特征进行处理,得到所述多个专家网络中各网络的权重;以及根据所述权重,采用所述多个专家网络对所述编码特征进行处理,得到文本特征,其中,所述多个编码子模型中排在末位的编码子模型得到的文本特征为所述文本理解特征;在所述每个编码子模型为排在首位的编码子模型的情况下,所述在前编码子模型得到的文本特征为所述待理解文本。10.根据权利要求9所述的方法,其中,所述根据所述权重,采用所述多个专家网络对所述编码特征进行处理,得到文本特征包括:根据所述权重,确定所述多个专家网络中权重较大的K个专家网络;采用所述K个专家网络分别对所述编码特征进行处理,得到K个初始文本特征;以及根据所述K个专家网络的权重对所述K个初始文本特征进行加权,得到文本特征,其中,K为大于等于1的自然数,且K的取值小于所述多个专家网络的总个数。11.一种文本理解模型的训练装置,其中,所述文本理解模型包括依次连接的多个编码子模型和输出层;所述多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;所述装置包括:样本文本确定模块,用于确定与目标文本理解任务对应的有偏样本文本;文本理解模块,用于将所述有偏样本文本输入所述多个编码子模型中排在首位的编码子模型,经由所述多个编码子模型对所述有偏样本文本依次处理后,得到文...

【专利技术属性】
技术研发人员:颜璟陈艳刘璟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1