对话意图识别模型训练方法、装置、计算机设备及介质制造方法及图纸

技术编号:28376174 阅读:17 留言:0更新日期:2021-05-08 00:03
本发明专利技术涉及语义解析技术领域,揭露了一种对话意图识别模型训练方法、装置、设备及介质。该方法通过将第一对话样本数据输入至基于ES检索构建的检索模型中确定增强样本数据;将第一对话样本数据以及增强样本数据输入至初始意图识别模型中,对第一对话样本数据以及增强样本数据进行增强意图识别,得到第一样本分布以及第二样本分布;根据第一样本分布及第二样本分布确定分布损失值,并根据各分布损失值确定初始意图识别模型的总损失值;在总损失值未达到预设的收敛条件时,更新迭代初始意图识别模型的第一初始参数,直至总损失值达到预设的收敛条件时,将收敛之后的初始意图识别模型记录为对话意图识别模型。本发明专利技术提高了意图识别模型的识别准确率。

【技术实现步骤摘要】
对话意图识别模型训练方法、装置、计算机设备及介质
本专利技术涉及语义解析
,尤其涉及一种对话意图识别模型训练方法、装置、计算机设备及介质。
技术介绍
随着科学技术的发展,自然语言处理
也快速发展,例如自然语言处理
可以应用于智能多轮对话系统、文本相似度判定系统等系统中。其中,智能多轮对话系统需要根据客户的对话内容识别其意图,该意图用于后续的流程控制以及对话生成,因此意图识别是智能多轮对话中的关键技术。现有技术中,意图识别常常会采用意图识别模型进行意图提取,对于意图识别模型的训练需要采用带有标签的数据,而现有的带有标签的数据需要从历史对话信息中筛选得到后,通过人为标注的方法进行标签标注,但是,通过该方式得到的已标注标签的数据量往往不够充足,进而导致意图识别模型无法得到完整充分的训练,从而使得意图识别模型的准确率较低。
技术实现思路
本专利技术实施例提供一种对话意图识别模型训练方法、装置、计算机设备及介质,以解决由于已标注标签的数据量不充足,导致意图识别模型的准确率较低的问题。一种对话意图识别模型训练方法,包括:获取预设对话样本数据集;所述对话样本数据集中包含至少一个不具有对话意图标签的第一对话样本数据;将所述第一对话样本数据输入至基于ES检索构建的检索模型中,确定与所述第一对话样本数据对应的增强样本数据集;所述增强样本数据集中包括至少一个增强样本数据;将所述第一对话样本数据以及所述增强样本数据输入至包含第一初始参数的初始意图识别模型中,对所述第一对话样本数据以及所述增强样本数据进行增强意图识别,得到与所述第一对话样本数据对应的第一样本分布,以及与所述增强样本数据对应的第二样本分布;根据所述第一样本分布以及所述第二样本分布确定分布损失值,并根据各所述分布损失值确定所述初始意图识别模型的总损失值;在所述总损失值未达到预设的收敛条件时,更新迭代所述初始意图识别模型的第一初始参数,直至所述总损失值达到所述预设的收敛条件时,将收敛之后的所述初始意图识别模型记录为对话意图识别模型。一种对话意图识别模型训练装置,包括:对话样本数据集获取模块,用于获取预设对话样本数据集;所述对话样本数据集中包含至少一个不具有对话意图标签的第一对话样本数据;增强样本数据确定模块,用于将所述第一对话样本数据输入至基于ES检索构建的检索模型中,确定与所述第一对话样本数据对应的增强样本数据集;所述增强样本数据集中包括至少一个增强样本数据;增强意图识别模块,用于将所述第一对话样本数据以及所述增强样本数据输入至包含第一初始参数的初始意图识别模型中,对所述第一对话样本数据以及所述增强样本数据进行增强意图识别,得到与所述第一对话样本数据对应的第一样本分布,以及与所述增强样本数据对应的第二样本分布;总损失值确定模块,用于根据所述第一样本分布以及所述第二样本分布确定分布损失值,并根据各所述分布损失值确定所述初始意图识别模型的总损失值;第一参数更新模块,用于在所述总损失值未达到预设的收敛条件时,更新迭代所述初始意图识别模型的第一初始参数,直至所述总损失值达到所述预设的收敛条件时,将收敛之后的所述初始意图识别模型记录为对话意图识别模型。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述对话意图识别模型训练方法。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述对话意图识别模型训练方法。上述对话意图识别模型训练方法、装置、计算机设备及介质,通过获取预设对话样本数据集;所述对话样本数据集中包含至少一个不具有对话意图标签的第一对话样本数据;将所述第一对话样本数据输入至基于ES检索构建的检索模型中,确定与所述第一对话样本数据对应的增强样本数据集;所述增强样本数据集中包括至少一个增强样本数据;将所述第一对话样本数据以及所述增强样本数据输入至包含第一初始参数的初始意图识别模型中,对所述第一对话样本数据以及所述增强样本数据进行增强意图识别,得到与所述第一对话样本数据对应的第一样本分布,以及与所述增强样本数据对应的第二样本分布;根据所述第一样本分布以及所述第二样本分布确定分布损失值,并根据各所述分布损失值确定所述初始意图识别模型的总损失值;在所述总损失值未达到预设的收敛条件时,更新迭代所述初始意图识别模型的第一初始参数,直至所述总损失值达到所述预设的收敛条件时,将收敛之后的所述初始意图识别模型记录为对话意图识别模型。本专利技术通过基于ES检索构建的检索模型确定与第一对话样本数据对应的增强样本数据,通过如此数据增强方式,提高了不具有对话意图标签的第一对话样本数据的利用率,同时,避免了现有技术中采用同义词替换、回译等数据增强方式带来的额外噪音,提高了模型训练的效率以及模型意图识别的准确率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中对话意图识别模型训练方法的一应用环境示意图;图2是本专利技术一实施例中对话意图识别模型训练方法的一流程图;图3是本专利技术一实施例中对话意图识别模型训练方法中步骤S20的一流程图;图4是本专利技术一实施例中对话意图识别模型训练方法中步骤S205的一流程图;图5是本专利技术一实施例中对话意图识别模型训练方法的另一流程图;图6是本专利技术一实施例中对话意图识别模型训练装置的一原理框图;图7是本专利技术一实施例中对话意图识别模型训练装置的另一原理框图;图8是本专利技术一实施例中对话意图识别模型训练装置中增强样本数据确定模块的一原理框图;图9是本专利技术一实施例中对话意图识别模型训练装置中增强样本数据确定单元的一原理框图;图10是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的对话意图识别模型训练方法,该对话意图识别模型训练方法可应用如图1所示的应用环境中。具体地,该对话意图识别模型训练方法应用在对话意图识别模型训练系统中,该对话意图识别模型训练系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决由于已标注标签的数据量不充足,导致意图识别模型的准确率较低的问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电本文档来自技高网...

【技术保护点】
1.一种对话意图识别模型训练方法,其特征在于,包括:/n获取预设对话样本数据集;所述对话样本数据集中包含至少一个不具有对话意图标签的第一对话样本数据;/n将所述第一对话样本数据输入至基于ES检索构建的检索模型中,确定与所述第一对话样本数据对应的增强样本数据集;所述增强样本数据集中包括至少一个增强样本数据;/n将所述第一对话样本数据以及所述增强样本数据输入至包含第一初始参数的初始意图识别模型中,对所述第一对话样本数据以及所述增强样本数据进行增强意图识别,得到与所述第一对话样本数据对应的第一样本分布,以及与所述增强样本数据对应的第二样本分布;/n根据所述第一样本分布以及所述第二样本分布确定分布损失值,并根据各所述分布损失值确定所述初始意图识别模型的总损失值;/n在所述总损失值未达到预设的收敛条件时,更新迭代所述初始意图识别模型的第一初始参数,直至所述总损失值达到所述预设的收敛条件时,将收敛之后的所述初始意图识别模型记录为对话意图识别模型。/n

【技术特征摘要】
1.一种对话意图识别模型训练方法,其特征在于,包括:
获取预设对话样本数据集;所述对话样本数据集中包含至少一个不具有对话意图标签的第一对话样本数据;
将所述第一对话样本数据输入至基于ES检索构建的检索模型中,确定与所述第一对话样本数据对应的增强样本数据集;所述增强样本数据集中包括至少一个增强样本数据;
将所述第一对话样本数据以及所述增强样本数据输入至包含第一初始参数的初始意图识别模型中,对所述第一对话样本数据以及所述增强样本数据进行增强意图识别,得到与所述第一对话样本数据对应的第一样本分布,以及与所述增强样本数据对应的第二样本分布;
根据所述第一样本分布以及所述第二样本分布确定分布损失值,并根据各所述分布损失值确定所述初始意图识别模型的总损失值;
在所述总损失值未达到预设的收敛条件时,更新迭代所述初始意图识别模型的第一初始参数,直至所述总损失值达到所述预设的收敛条件时,将收敛之后的所述初始意图识别模型记录为对话意图识别模型。


2.如权利要求1所述的对话意图识别模型训练方法,其特征在于,所述对话样本数据集中还包含至少一个具有所述对话意图标签的第二对话样本数据;所述将所述第一对话样本数据以及所述增强样本数据输入至包含第一初始参数的初始意图识别模型中之前,包括:
将所述第二对话样本数据输入至包含第二初始参数的预设识别模型中,通过所述预设识别模型对所述第二对话样本数据进行标注意图识别,得到与所述第二对话样本数据对应的各标注预测标签;一个所述标注预测标签关联一个标签预测概率;
根据各所述标注预测标签、与各所述标注预测标签对应的标签预测概率以及所述对话意图标签,确定所述预设识别模型的预测损失值;
在所述预测损失值未达到预设的收敛条件时,更新迭代所述预设识别模型的第二初始参数,直至所述预测损失值达到所述预设的收敛条件时,将收敛之后的所述预设识别模型记录为所述初始意图识别模型。


3.如权利要求2所述的对话意图识别模型训练方法,其特征在于,所述根据各所述标注预测标签、与各所述标注预测标签对应的标签预测概率以及所述对话意图标签,确定所述预设识别模型的预测损失值,包括:
根据各所述标注预测标签与所述对话意图标签,确定与各所述标注预测标签对应的标注预测结果;
根据各所述标注预测结果以及与各所述标注预测结果对应的所述标签预测概率,通过交叉熵损失函数确定所述预设识别模型的预测损失值。


4.如权利要求1所述的对话意图识别模型训练方法,其特征在于,将所述第一对话样本数据输入至基于ES检索构建的检索模型中,确定与所述第一对话样本数据相似的增强样本数据集,包括:
将所述第一对话样本数据输入至所述检索模型中,对所述第一对话样本数据进行向量编码处理,得到与所述第一对话样本数据对应的对话编码向量;
自所述检索模型的检索数据库中获取所有检索对话向量,并确定所述对话编码向量与各所述检索对话向量之间的向量编辑距离;一个所述检索对话向量关联一个检索样本句子;
将各所述向量编辑距离与预设距离阈值进行比较,并将小于或等于预设距离阈值的向量编辑距离关联的检索句子,记录为待选取样本数据;
根据所有所述待选取样本数据构建所述增强样本数据集。


5.如权利要求4所述的对话意图识别模型训练方法,其特征在于,所述根据所有所述待选取样本数据构建...

【专利技术属性】
技术研发人员:王健宗宋青原吴天博程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1