【技术实现步骤摘要】
文本理解模型的训练方法和文本理解方法、装置
[0001]本公开涉及人工智能领域,具体涉及自然语言和深度学习等
,可应用于智能问答、智能搜索、智能推荐等场景。
技术介绍
[0002]随着计算机技术和电子技术的发展,基于深度学习的自然语言理解技术取得了很大的发展。自然语言理解是所有支持机器理解文本内容的方法、模型或任务的总称。自然语言理解是自然语言处理领域的一个重要研究方向。
[0003]基于深度学习的自然语言理解技术主要是采用深度学习模型预先从数据中学习知识,然后根据已经学到的知识进行预测。即,自然语言理解模型的理解能力是从数据中预先学习到的,如果从有偏数据中学习到文本理解的某种捷径(shortcuts),模型常常会依靠该捷径进行文本理解,而忽略了文本的真正语义。
技术实现思路
[0004]本公开旨在提供一种文本理解模型的训练方法和文本理解方法、装置、电子设备和存储介质,旨在针对多种捷径对模型进行训练,避免模型依据学习到的多种捷径进行文本理解,提高模型的文本理解精度。
[0005]根据本公开的第一方面,提供了一种文本理解模型的训练方法,其中,文本理解模型包括依次连接的多个编码子模型和输出层;多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;训练方法包括:确定与目标文本理解任务对应的有偏样本文本;将有偏样本文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对有偏样本文本依次处理,得到文本理解特征;将文本理解特征输入输出层,得到预测理解信息; ...
【技术保护点】
【技术特征摘要】
1.一种文本理解模型的训练方法,其中,所述文本理解模型包括依次连接的多个编码子模型和输出层;所述多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;所述方法包括:确定与目标文本理解任务对应的有偏样本文本;将所述有偏样本文本输入所述多个编码子模型中排在首位的编码子模型,经由所述多个编码子模型对所述有偏样本文本依次处理,得到文本理解特征;将所述文本理解特征输入所述输出层,得到预测理解信息;以及根据所述有偏样本文本标注的真实理解信息和所述预测理解信息,对所述文本理解模型进行训练。2.根据权利要求1所述的方法,其中,所述至少一个编码子模型中的每个编码子模型对所述有偏样本文本进行的处理包括:采用所述编码器对在前编码子模型得到的文本特征进行编码,得到编码特征;采用所述门网络对所述编码特征进行处理,得到所述多个专家网络中各网络的权重;以及根据所述权重,采用所述多个专家网络对所述编码特征进行处理,得到文本特征,其中,所述多个编码子模型中排在末位的编码子模型得到的文本特征为所述文本理解特征;在所述每个编码子模型为排在首位的编码子模型的情况下,所述在前编码子模型得到的文本特征为所述有偏样本文本。3.根据权利要求2所述的方法,其中,所述根据所述权重,采用所述多个专家网络对所述编码特征进行处理,得到文本特征包括:根据所述权重,确定所述多个专家网络中权重较大的K个专家网络;采用所述K个专家网络分别对所述编码特征进行处理,得到K个初始文本特征;以及根据所述K个专家网络的权重对所述K个初始文本特征进行加权,得到文本特征,其中,K为大于等于1的自然数,且K的取值小于所述多个专家网络的总个数。4.根据权利要求1所述的方法,其中,所述根据所述有偏样本文本标注的真实理解信息和所述预测理解信息,对所述文本理解模型进行训练包括:确定所述编码器的网络参数的取值和所述多个编码子模型中除所述至少一个编码子模型外的其他编码子模型的网络参数为定量;以及根据所述真实理解信息和所述预测理解信息,对所述至少一个编码子模型包括的门网络和专家网络进行训练。5.根据权利要求1或4所述的方法,其中,所述有偏样本文本包括至少两种有偏类型的样本文本;所述根据所述有偏样本文本标注的真实理解信息和所述预测理解信息,对所述文本理解模型进行训练包括:根据每种有偏类型的样本文本标注的真实理解信息和针对所述每种有偏类型的样本文本得到的预测理解信息,确定所述文本理解模型针对所述每种有偏类型的预测损失值;以及根据所述预测损失值,对所述门网络和所述多个专家网络中针对所述每种有偏类型的样本文本进行了处理的专家网络进行训练。6.根据权利要求1所述的方法,其中,所述有偏样本文本的有偏类型包括以下类型中的
至少一种:包括目标词汇的类型;所述目标词汇与包括所述目标词汇的样本文本所标注的真实理解信息之间具有非绝对关联关系;部分文本为目标文本的类型;所述目标文本为所述文本理解模型针对包括所述目标文本的样本文本成功执行所述目标文本理解任务所需的最短文本;与预定文本库中的至少一个文本的词汇重叠率大于预定重叠率的类型。7.根据权利要求1~6中任一项所述的方法,其中,所述编码器包括Transformer架构的编码器。8.一种基于文本理解模型的文本理解方法,其中,所述文本理解模型包括依次连接的多个编码子模型;所述多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;所述方法包括:将待理解文本输入所述多个编码子模型中排在首位的编码子模型,经由所述多个编码子模型对所述待理解文本依次处理后,得到文本理解特征;以及将所述文本理解特征输入所述输出层,得到预测理解信息,其中,所述文本理解模型是采用权利要求1~7中任一项所述的方法训练得到的。9.根据权利要求8所述的方法,其中,所述至少一个编码子模型中的每个编码子模型对所述待理解文本进行的处理包括:采用所述编码器对在前编码子模型得到的文本特征进行编码,得到编码特征;采用所述门网络对所述编码特征进行处理,得到所述多个专家网络中各网络的权重;以及根据所述权重,采用所述多个专家网络对所述编码特征进行处理,得到文本特征,其中,所述多个编码子模型中排在末位的编码子模型得到的文本特征为所述文本理解特征;在所述每个编码子模型为排在首位的编码子模型的情况下,所述在前编码子模型得到的文本特征为所述待理解文本。10.根据权利要求9所述的方法,其中,所述根据所述权重,采用所述多个专家网络对所述编码特征进行处理,得到文本特征包括:根据所述权重,确定所述多个专家网络中权重较大的K个专家网络;采用所述K个专家网络分别对所述编码特征进行处理,得到K个初始文本特征;以及根据所述K个专家网络的权重对所述K个初始文本特征进行加权,得到文本特征,其中,K为大于等于1的自然数,且K的取值小于所述多个专家网络的总个数。11.一种文本理解模型的训练装置,其中,所述文本理解模型包括依次连接的多个编码子模型和输出层;所述多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;所述装置包括:样本文本确定模块,用于确定与目标文本理解任务对应的有偏样本文本;文本理解模块,用于将所述有偏样本文本输入所述多个编码子模型中排在首位的编码子模型,经由所述多个编码子模型对所述有偏样本文本依次处理后,得到文...
【专利技术属性】
技术研发人员:颜璟,陈艳,刘璟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。