多语言对话状态追踪模型的训练方法及装置制造方法及图纸

技术编号:39657883 阅读:10 留言:0更新日期:2023-12-09 11:26
本发明专利技术属于自然语言处理技术领域,提供了一种多语言对话状态追踪模型的训练方法及装置,该多语言对话状态追踪模型的训练方法包括:获取源语言数据;基于多语词典对多个对话上下文信息进行语码转换,得到语码转换对话上下文信息;以语码转换对话上下文信息为训练样本,以第一函数为训练损失函数,对多语言训练模型进行多任务联合训练,得到多语言对话状态追踪模型

【技术实现步骤摘要】
多语言对话状态追踪模型的训练方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种多语言对话状态追踪模型的训练方法及装置


技术介绍

[0002]对话状态追踪是对话系统的重要组成部分,通过对话历史了解和追踪用户的目标,对话状态追踪模型的性能对于对话系统的性能有着显著的影响

[0003]相关技术中,当前对话状态追踪模型为了满足多语言需求,一是通过收集和标注每种语言的对话数据,并分别为每种语言训练对话状态追踪模型,但对于低资源语言,收集高质量的对话数据是非常昂贵且耗时的,二是通过迁移学习将高资源语言的对话状态追踪模型迁移到低资源语言的对话状态追踪模型,由于每类语言必须维护各自的对话状态模型,导致该类处理方式的部署难度大,且维护成本高


技术实现思路

[0004]本专利技术提供一种多语言对话状态追踪模型的训练方法及装置,用以解决现有技术对每种语言通过收集和标注对话数据时收集高质量的对话数据的成本高且耗时,而通过迁移学习将高资源语言的对话状态追踪模型迁移到低资源语言的对话状态追踪模型的部署难度大

维护成本高的缺陷,提高了多语言对话状态追踪模型的性能,降低了使用成本

[0005]本专利技术提供一种多语言对话状态追踪模型的训练方法,包括:获取源语言数据,所述源语言数据包括多个对话上下文信息;基于多语词典对所述多个对话上下文信息进行语码转换,得到语码转换对话上下文信息,所述多语词典包括不同语言词汇对应的翻译项;以所述语码转换对话上下文信息为训练样本,以第一函数为训练损失函数,对多语言训练模型进行多任务联合训练,得到多语言对话状态追踪模型;其中,第一函数基于单语言对话状态追踪任务的训练目标函数

跨语言对话状态追踪任务的训练目标函数

向前词汇翻译任务的训练目标函数

向后句子还原任务的训练目标函数和句子级相似度量任务的损失函数确定

[0006]根据本专利技术提供的一种多语言对话状态追踪模型的训练方法,每个对话上下文信息包括多个词汇;所述基于多语词典对所述多个对话上下文信息进行语码转换,得到语码转换对话上下文信息,包括:从每个对话上下文信息对应的词汇中随机选取第一词汇,并基于所述多语词典确定所述第一词汇的翻译项;基于所有上下文信息对应第一词汇的翻译项和第二词汇,得到所述语码转换对话上下文信息;其中,所述第二词汇为每个对话上下文信息对应的词汇中除所述第一词汇的其他词汇

[0007]根据本专利技术提供的一种多语言对话状态追踪模型的训练方法,所述对多语言训练模型进行多任务联合训练,得到多语言对话状态追踪模型,包括:基于所述源语言数据在第
t
周期的对话上下文信息和第
t
‑1周期的对话状态,对所述源语言数据在第
t
周期的对话状态进行更新,得到所述单语言对话状态追踪任务的训练数据;基于所述源语言数据在第
t
周期对应的语码转换对话上下文信息和第
t
‑1周期的对话状态,对所述源语言数据在第
t
周期的对话状态进行更新,得到所述跨语言对话状态追踪任务的训练数据,
t
为大于1的自然数;基于所述源语言数据在第
t
周期的对话上下文信息对第
t
周期对应的语码转换对话上下文信息进行更新,得到所述向前词汇翻译任务的训练数据;基于所述源语言数据在第
t
周期对应的语码转换对话上下文信息对第
t
周期的对话上下文信息进行更新,得到所述向后句子还原任务的训练数据;对所述源语言数据在第
t
周期的对话上下文信息和语码转换对话上下文信息之间的相似性进行计算,得到句子级语义相似性表示;基于所述单语言对话状态追踪任务的训练数据

所述跨语言对话状态追踪任务的训练数据

所述向前词汇翻译任务的训练数据

所述向后句子还原任务的训练数据和所述句子级语义相似性表示对所述多语言训练模型分别进行训练,得到所述多语言对话状态追踪模型

[0008]根据本专利技术提供的一种多语言对话状态追踪模型的训练方法,所述第一函数应用下式得到:;其中,为所述第一函数,
X
为所述源语言数据,分别为
n
个不同的语言,为所述单语言对话状态追踪任务的训练目标函数,为所述跨语言对话状态追踪任务的训练目标函数,为所述向前词汇翻译任务的训练目标函数,为所述向后句子还原任务的训练目标函数,为所述句子级相似度量任务的损失函数,

为权重系数

[0009]根据本专利技术提供的一种多语言对话状态追踪模型的训练方法,在所述得到语码转换对话上下文信息之后,所述方法还包括:按照任务类型对所述语码转换对话上下文信息进行划分,得到多个输入序列,不同类型的任务对应不同的输入序列;在所述单语言对话状态追踪任务对应的输入序列中添加第一标识,得到第一输入序列;在所述跨语言对话状态追踪任务对应的输入序列中添加的第二标识,得到第二输入序列;在所述向前词汇翻译任务对应的输入序列中添加第三标识,得到第三输入序列;在所述向后句子还原任务对应的输入序列中添加第四标识,得到第四输入序列;在所述句子级相似度量任务的输入序列中添加第五标识,得到第五输入序列;其中,第一标识

第二标识

第三标识

第四标识和第五标识之间的添加信息不同,所述添加信息包括添加位置和添加内容中的至少一项

[0010]根据本专利技术提供的一种多语言对话状态追踪模型的训练方法,所述单语言对话状
态追踪任务的训练目标函数应用如下公式表示:;其中,为单语言对话状态追踪任务的训练目标函数,表示所述源语言数据在第
t
‑1周期至
t
周期的对话状态更新信息,为所述源语言数据在第
t
周期的对话上下文信息,为所述源语言数据在第
t
‑1周期的对话状态,为概率;;其中,为跨语言对话状态追踪任务的训练目标函数,为所述源语言数据在第
t
周期对应的语码转换对话上下文信息;所述向前词汇翻译任务的训练目标函数应用如下公式表示:;其中,为向前词汇翻译任务的训练目标函数;所述向后句子还原任务的训练目标函数应用如下公示表示:
[0011]其中,为向后句子还原任务的训练目标函数;所述句子级相似度量任务的损失函数应用如下公示表示:;其中,为句子级相似度量任务的损失函数,为的句子嵌入表示,为的句子嵌入表示

[0012]本专利技术还提供一种多语言对话状态追踪模型的训练装置,包括:数据获取模块,用于获取源语言数据,所述源语言数据包括多个对话上下文信息;语码转换模块,用于基于多语词典对所述多个对话上下文信息进行语码转换,得到语码转换对话上下文信息,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多语言对话状态追踪模型的训练方法,其特征在于,包括:获取源语言数据,所述源语言数据包括多个对话上下文信息;基于多语词典对所述多个对话上下文信息进行语码转换,得到语码转换对话上下文信息,所述多语词典包括不同语言词汇对应的翻译项;以所述语码转换对话上下文信息为训练样本,以第一函数为训练损失函数,对多语言训练模型进行多任务联合训练,得到多语言对话状态追踪模型;其中,第一函数基于单语言对话状态追踪任务的训练目标函数

跨语言对话状态追踪任务的训练目标函数

向前词汇翻译任务的训练目标函数

向后句子还原任务的训练目标函数和句子级相似度量任务的损失函数确定
。2.
根据权利要求1所述的多语言对话状态追踪模型的训练方法,其特征在于,每个对话上下文信息包括多个词汇;所述基于多语词典对所述多个对话上下文信息进行语码转换,得到语码转换对话上下文信息,包括:从每个对话上下文信息对应的词汇中随机选取第一词汇,并基于所述多语词典确定所述第一词汇的翻译项;基于所有上下文信息对应第一词汇的翻译项和第二词汇,得到所述语码转换对话上下文信息;其中,所述第二词汇为每个对话上下文信息对应的词汇中除所述第一词汇的其他词汇
。3.
根据权利要求1所述的多语言对话状态追踪模型的训练方法,其特征在于,所述对多语言训练模型进行多任务联合训练,得到多语言对话状态追踪模型,包括:基于所述源语言数据在第
t
周期的对话上下文信息和第
t
‑1周期的对话状态,对所述源语言数据在第
t
周期的对话状态进行更新,得到所述单语言对话状态追踪任务的训练数据;基于所述源语言数据在第
t
周期对应的语码转换对话上下文信息和第
t
‑1周期的对话状态,对所述源语言数据在第
t
周期的对话状态进行更新,得到所述跨语言对话状态追踪任务的训练数据,
t
为大于1的自然数;基于所述源语言数据在第
t
周期的对话上下文信息对第
t
周期对应的语码转换对话上下文信息进行更新,得到所述向前词汇翻译任务的训练数据;基于所述源语言数据在第
t
周期对应的语码转换对话上下文信息对第
t
周期的对话上下文信息进行更新,得到所述向后句子还原任务的训练数据;对所述源语言数据在第
t
周期的对话上下文信息和语码转换对话上下文信息之间的相似性进行计算,得到句子级语义相似性表示;基于所述单语言对话状态追踪任务的训练数据

所述跨语言对话状态追踪任务的训练数据

所述向前词汇翻译任务的训练数据

所述向后句子还原任务的训练数据和所述句子级语义相似性表示对所述多语言训练模型分别进行训练,得到所述多语言对话状态追踪模型
。4.
根据权利要求1所述的多语言对话状态追踪模型的训练方法,其特征在于,所述第一函数应用下式得到:;
其中,为所述第一函数,
X
为所述源语言数据,分别为
n
个不同的语言,为所述单语言对话状态追踪任务的训练目标函数,为所述跨语言对话状态追踪任务的训练目标函数,为所述向前词汇翻译任务的训练目标函数,为所述向后句子还原任务的训练目标函数,为所述句子级相似度量任务的损失函数,

为权重系数
。5.
根据权利要求1所述的多语言对话状态追踪模型的训练方法,其特征在于,在所述得到语码转换对话上下文信息之后,所述方法还包括:按照任务类型对所述语码转换对话上下文信息进行划分,得到多个输入序列,不同类型的任务对应不同的输入序列;在所述单语言对话状态追踪任务对应的输入序列中添加第一标识,得到第一输入序列;在...

【专利技术属性】
技术研发人员:向露亢晓勉张亚萍周玉宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1