多语言对话状态追踪模型的训练方法及装置制造方法及图纸

技术编号：39657883 阅读：10 留言：0更新日期：2023-12-09 11:26

本发明专利技术属于自然语言处理技术领域，提供了一种多语言对话状态追踪模型的训练方法及装置，该多语言对话状态追踪模型的训练方法包括：获取源语言数据；基于多语词典对多个对话上下文信息进行语码转换，得到语码转换对话上下文信息；以语码转换对话上下文信息为训练样本，以第一函数为训练损失函数，对多语言训练模型进行多任务联合训练，得到多语言对话状态追踪模型

全部详细技术资料下载

【技术实现步骤摘要】
多语言对话状态追踪模型的训练方法及装置

[0001]本专利技术涉及自然语言处理
，尤其涉及一种多语言对话状态追踪模型的训练方法及装置
。

技术介绍

[0002]对话状态追踪是对话系统的重要组成部分，通过对话历史了解和追踪用户的目标，对话状态追踪模型的性能对于对话系统的性能有着显著的影响
。
[0003]相关技术中，当前对话状态追踪模型为了满足多语言需求，一是通过收集和标注每种语言的对话数据，并分别为每种语言训练对话状态追踪模型，但对于低资源语言，收集高质量的对话数据是非常昂贵且耗时的，二是通过迁移学习将高资源语言的对话状态追踪模型迁移到低资源语言的对话状态追踪模型，由于每类语言必须维护各自的对话状态模型，导致该类处理方式的部署难度大，且维护成本高
。

技术实现思路

[0004]本专利技术提供一种多语言对话状态追踪模型的训练方法及装置，用以解决现有技术对每种语言通过收集和标注对话数据时收集高质量的对话数据的成本高且耗时，而通过迁移学习将高资源语言的对话状态追踪模型迁移到低资源语言的对话状态追踪模型的部署难度大
、
维护成本高的缺陷，提高了多语言对话状态追踪模型的性能，降低了使用成本
。
[0005]本专利技术提供一种多语言对话状态追踪模型的训练方法，包括：获取源语言数据，所述源语言数据包括多个对话上下文信息；基于多语词典对所述多个对话上下文信息进行语码转换，得到语码转换对话上下文信息，所述多语词典包括不同语言词汇对应的翻译项；以所述语...

【技术保护点】

【技术特征摘要】
1.
一种多语言对话状态追踪模型的训练方法，其特征在于，包括：获取源语言数据，所述源语言数据包括多个对话上下文信息；基于多语词典对所述多个对话上下文信息进行语码转换，得到语码转换对话上下文信息，所述多语词典包括不同语言词汇对应的翻译项；以所述语码转换对话上下文信息为训练样本，以第一函数为训练损失函数，对多语言训练模型进行多任务联合训练，得到多语言对话状态追踪模型；其中，第一函数基于单语言对话状态追踪任务的训练目标函数
、
跨语言对话状态追踪任务的训练目标函数
、
向前词汇翻译任务的训练目标函数
、
向后句子还原任务的训练目标函数和句子级相似度量任务的损失函数确定
。2.
根据权利要求1所述的多语言对话状态追踪模型的训练方法，其特征在于，每个对话上下文信息包括多个词汇；所述基于多语词典对所述多个对话上下文信息进行语码转换，得到语码转换对话上下文信息，包括：从每个对话上下文信息对应的词汇中随机选取第一词汇，并基于所述多语词典确定所述第一词汇的翻译项；基于所有上下文信息对应第一词汇的翻译项和第二词汇，得到所述语码转换对话上下文信息；其中，所述第二词汇为每个对话上下文信息对应的词汇中除所述第一词汇的其他词汇
。3.
根据权利要求1所述的多语言对话状态追踪模型的训练方法，其特征在于，所述对多语言训练模型进行多任务联合训练，得到多语言对话状态追踪模型，包括：基于所述源语言数据在第
t
周期的对话上下文信息和第
t
‑1周期的对话状态，对所述源语言数据在第
t
周期的对话状态进行更新，得到所述单语言对话状态追踪任务的训练数据；基于所述源语言数据在第
t
周期对应的语码转换对话上下文信息和第
t
‑1周期的对话状态，对所述源语言数据在第
t
周期的对话状态进行更新，得到所述跨语言对话状态追踪任务的训练数据，
t
为大于1的自然数；基于所述源语言数据在第
t
周期的对话上下文信息对第
t
周期对应的语码转换对话上下文信息进行更新，得到所述向前词汇翻译任务的训练数据；基于所述源语言数据在第
t
周期对应的语码转换对话上下文信息对第
t
周期的对话上下文信息进行更新，得到所述向后句子还原任务的训练数据；对所述源语言数据在第
t
周期的对话上下文信息和语码转换对话上下文信息之间的相似性进行计算，得到句子级语义相似性表示；基于所述单语言对话状态追踪任务的训练数据
、
所述跨语言对话状态追踪任务的训练数据
、
所述向前词汇翻译任务的训练数据
、
所述向后句子还原任务的训练数据和所述句子级语义相似性表示对所述多语言训练模型分别进行训练，得到所述多语言对话状态追踪模型
。4.
根据权利要求1所述的多语言对话状态追踪模型的训练方法，其特征在于，所述第一函数应用下式得到：；
其中，为所述第一函数，
X
为所述源语言数据，分别为
n
个不同的语言，为所述单语言对话状态追踪任务的训练目标函数，为所述跨语言对话状态追踪任务的训练目标函数，为所述向前词汇翻译任务的训练目标函数，为所述向后句子还原任务的训练目标函数，为所述句子级相似度量任务的损失函数，
、
为权重系数
。5.
根据权利要求1所述的多语言对话状态追踪模型的训练方法，其特征在于，在所述得到语码转换对话上下文信息之后，所述方法还包括：按照任务类型对所述语码转换对话上下文信息进行划分，得到多个输入序列，不同类型的任务对应不同的输入序列；在所述单语言对话状态追踪任务对应的输入序列中添加第一标识，得到第一输入序列；在...

【专利技术属性】
技术研发人员：向露，亢晓勉，张亚萍，周玉，宗成庆，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人