一种对话生成模型损失参数的确定方法和装置制造方法及图纸

技术编号:35644111 阅读:10 留言:0更新日期:2022-11-19 16:36
本申请提供了一种对话生成模型损失参数的确定方法和装置,所述方法包括:所述方法包括:通过对话数据的标注样本训练对话生成模型,得到所述对话生成模型的整体损失参数;通过所述标注样本进行虚拟对抗训练,得到虚拟对抗损失参数;根据所述整体损失参数和所述虚拟对抗损失参数的和值,得到所述对话生成模型的最终损失参数。本申请能够增强对话生成模型的泛化能力和准确性。泛化能力和准确性。泛化能力和准确性。

【技术实现步骤摘要】
一种对话生成模型损失参数的确定方法和装置


[0001]本申请涉及自然语言处理
,尤其涉及一种对话生成模型损失参数的确定方法和装置。

技术介绍

[0002]对话生成是自然语言处理、信息抽取的一项子任务,其在智能问答、多轮对话、人机交互、智能客服等领域扮演者重要角色。
[0003]目前对话生成方法主要为生成模型,应用自然语言处理的算法,利用编码器

解码器结构进行回复。生成模型更接近人对话的过程,能自动从已有对话文本中学习如何生成文本,灵活性高。
[0004]但生成模型往往存在着鲁棒性、泛化性不强的问题,加入传统的对抗训练(如FGM、PGD等),虽然可以增强鲁棒性,但同时会损害模型的泛化性,造成模型泛化性差。

技术实现思路

[0005]本申请实施例的目的在于提供一种对话生成模型损失参数的确定方法和装置,以解决生成对话准确度不够高的问题。具体技术方案如下:
[0006]第一方面,提供了一种对话生成模型损失参数的确定方法,所述方法包括:
[0007]通过对话数据的标注样本训练对话生成模型,得到所述对话生成模型的整体损失参数;
[0008]通过所述标注样本进行虚拟对抗训练,得到虚拟对抗损失参数;
[0009]根据所述整体损失参数和所述虚拟对抗损失参数的和值,得到所述对话生成模型的最终损失参数。
[0010]可选地,通过对话数据的标注样本训练对话生成模型,得到所述对话生成模型的整体损失参数包括:
[0011]对所述对话数据进行词性标注和句法标注,得到标注样本,其中,所述对话数据包括属于不同对话对象的第一语句和第二语句;
[0012]将所述第一语句输入对话生成模型,得到所述对话生成模型输出的预测结果,其中,所述预测结果包括预测的第二语句的内容、词性和句法;
[0013]将所述预测结果和所述第二语句进行对比,得到所述对话生成模型关于对话生成任务的第一损失参数、关于词性预测任务的第二损失参数以及关于句法预测任务的第三损失参数;
[0014]根据所述第一损失参数、所述第二损失参数和所述第三损失参数得到所述整体损失参数。
[0015]可选地,对所述对话数据进行词性标注和句法标注包括:
[0016]通过分词工具对所述对话数据进行分词;
[0017]采用词性识别方案对所述分词进行词性标注;
[0018]采用句法识别方案对所述分词进行句法标注,其中,所述句法标注指示所述分词在所述对话数据中的语句成分或语句关系。
[0019]可选地,得到所述对话生成模型关于对话生成任务的第一损失参数、关于词性预测任务的第二损失参数以及关于句法预测任务的第三损失参数包括:
[0020]通过所述对话生成模型的解码器隐状态层获取关于对话生成任务的第一损失参数,其中,所述对话生成模型采用编码器

解码器结构;
[0021]通过所述对话生成模型的解码器共享层获取关于词性预测任务的第二损失参数;
[0022]通过所述对话生成模型的解码器共享层获取关于句法预测任务的第三损失参数。
[0023]可选地,所述通过所述标注样本进行虚拟对抗训练,得到虚拟对抗损失参数包括:
[0024]将所述标注样本的第一语句作为非扰动输入;
[0025]通过对所述非扰动输入添加扰动,变换得到扰动输入;
[0026]根据所述对话生成模型针对所述扰动输入的扰动输出,和针对所述非扰动输入的非扰动输出,得到KL差异;
[0027]通过更新所述对话生成模型的权重,最小化所述KL差异,得到虚拟对抗损失参数。
[0028]可选地,得到所述对话生成模型的最终损失参数之后,所述方法还包括:
[0029]针对对话数据的前半句,通过问答库进行语义检索;
[0030]在无法检索到所述前半句对应的后半句时,采用具有所述最终损失参数的对话生成模型预测所述前半句的后半句。
[0031]可选地,所述对话生成模型为seq2seq模型。
[0032]第二方面,提供了一种对话生成模型损失参数的确定装置,所述装置包括:
[0033]训练模块,用于通过对话数据的标注样本训练对话生成模型,得到所述对话生成模型的整体损失参数;
[0034]虚拟对抗训练模块,用于通过所述标注样本进行虚拟对抗训练,得到虚拟对抗损失参数;
[0035]更新模块,用于根据所述整体损失参数和所述虚拟对抗损失参数的和值,得到所述对话生成模型的最终损失参数。
[0036]第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0037]存储器,用于存放计算机程序;
[0038]处理器,用于执行存储器上所存放的程序时,实现任一所述的对话生成模型损失参数的确定方法步骤。
[0039]第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的对话生成模型损失参数的确定方法步骤。
[0040]本申请实施例有益效果:
[0041]本申请实施例提供了一种对话生成模型损失参数的确定方法,本申请由于采用虚拟对抗训练,不使用标签信息,减少了对人工标注样本的过度依赖,采用半监督学习方式,基于虚拟对抗训练vat,得到整体损失参数和虚拟对抗损失参数的联合损失,在不牺牲模型鲁棒性的条件下,增强了对话生成模型的泛化能力和准确性。
[0042]当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
[0043]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0044]图1为本申请实施例提供的一种对话生成模型损失参数的确定方法流程图;
[0045]图2为本申请实施例提供的得到整体损失参数的方法流程图;
[0046]图3为本申请实施例提供的对话生成模型损失参数的确定框架示意图;
[0047]图4为本申请实施例提供的一种对话生成模型损失参数的确定装置的结构示意图;
[0048]图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0049]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0050]在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话生成模型损失参数的确定方法,其特征在于,所述方法包括:通过对话数据的标注样本训练对话生成模型,得到所述对话生成模型的整体损失参数;通过所述标注样本进行虚拟对抗训练,得到虚拟对抗损失参数;根据所述整体损失参数和所述虚拟对抗损失参数的和值,得到所述对话生成模型的最终损失参数。2.根据权利要求1所述的方法,其特征在于,通过对话数据的标注样本训练对话生成模型,得到所述对话生成模型的整体损失参数包括:对所述对话数据进行词性标注和句法标注,得到标注样本,其中,所述对话数据包括属于不同对话对象的第一语句和第二语句;将所述第一语句输入对话生成模型,得到所述对话生成模型输出的预测结果,其中,所述预测结果包括预测的第二语句的内容、词性和句法;将所述预测结果和所述第二语句进行对比,得到所述对话生成模型关于对话生成任务的第一损失参数、关于词性预测任务的第二损失参数以及关于句法预测任务的第三损失参数;根据所述第一损失参数、所述第二损失参数和所述第三损失参数得到所述整体损失参数。3.根据权利要求2所述的方法,其特征在于,对所述对话数据进行词性标注和句法标注包括:通过分词工具对所述对话数据进行分词;采用词性识别方案对所述分词进行词性标注;采用句法识别方案对所述分词进行句法标注,其中,所述句法标注指示所述分词在所述对话数据中的语句成分或语句关系。4.根据权利要求2所述的方法,其特征在于,得到所述对话生成模型关于对话生成任务的第一损失参数、关于词性预测任务的第二损失参数以及关于句法预测任务的第三损失参数包括:通过所述对话生成模型的解码器隐状态层获取关于对话生成任务的第一损失参数,其中,所述对话生成模型采用编码器

解码器结构;通过所述对话生成模型的解码器共享层获取关于词性预测任务的第二损失参数;通过所述对话生成模...

【专利技术属性】
技术研发人员:彭旋陈自岩高鑫
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1