一种对话模型优化方法技术

技术编号:39593413 阅读:7 留言:0更新日期:2023-12-03 19:48
本申请涉及一种对话模型优化方法

【技术实现步骤摘要】
一种对话模型优化方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种对话模型优化方法

装置

计算机设备和存储介质


技术介绍

[0002]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术,也有软件层面的技术

人工智能基础技术一般包括例如传感器

专用人工智能芯片

云计算

分布式存储

大数据处理技术

操作
/
交互系统

机电一体化等技术

人工智能软件技术主要包括计算机视觉技术

语音处理技术

自然语言处理技术以及机器学习
/
深度学习等几大方向

[0003]自然语言处理
(Nature Language Processing

NLP)
是计算机科学领域与人工智能领域中的一个重要方向

它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法

自然语言处理是一门融语言学

计算机科学

数学于一体的学科

因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系

自然语言处理技术通常包括文本处

语义理解

机器翻译

机器人问答

知识图谱等技术

[0004]机器学习是一门多领域交叉学科,涉及概率论

统计学

逼近论

凸分析

算法复杂度理论等多门学科

机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能

机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域

机器学习和深度学习通常包括:人工神经网络

置信网络

强化学习

迁移学习

归纳学习

示教学习等技术

[0005]随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居

智能穿戴设备

虚拟助理

智能音箱

智能营销

无人驾驶

自动驾驶

无人机

机器人

智能医疗

智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值

[0006]关于智能客服,由于设计人员的思维局限性以及数据

存储

计算能力的限制,智能对话系统无法完全考虑到用户提出的各式各样的问题

当智能对话系统遇到设计之初未考虑到的问题时,针对上述问题的应答动作可以被看作是随机应答,往往无法正确回应用户提出的问题,使用户感到答非所问


技术实现思路

[0007]基于此,有必要针对上述技术问题,提供一种能够提高对话模型的对话质量,避免输出畸形结果的对话模型优化方法

装置

计算机设备和存储介质

[0008]第一方面,提供一种对话模型优化方法,所述方法包括:
[0009]通过应用程序接口采集预训练对话模型中输入的问题数据,并将所述问题数据按照预设比例分为三部分,分别为第一数据

第二数据以及第三数据;
[0010]在所述预训练对话模型中设置第一损失函数,并基于标注答案的第一数据对所述预训练对话模型进行训练,获得训练后的对话模型,使得第一损失函数值最小;
[0011]将所述第二数据输入所述训练后的对话模型,获得对应的若干条回复并标注序号;
[0012]在所述预训练奖励模型中设置差值函数,并基于标注序号的对应的若干条回复对所述预训练奖励模型进行训练,获得训练后的奖励模型,使得差值函数值最大;
[0013]根据所述训练后的对话模型设置第二损失函数,并基于所述第三数据通过强化学习算法获得优化后的对话模型

[0014]在其中一个实施例中,所述获得对应的若干条回复并标注序号,包括:
[0015]根据预设规则,将所述对应的若干条回复根据正确程度按照从高到低的顺序进行排序,并标注上对应的序号;
[0016]其中,所述正确程度指的是与答案的接近程度

[0017]在其中一个实施例中,所述根据所述训练后的对话模型设置第二损失函数,并基于所述第三数据通过强化学习算法获得优化后的对话模型,包括:
[0018]根据所述训练后的奖励模型,获得对应的奖励值函数;
[0019]根据所述训练后的对话模型设置第二损失函数,并根据所述第二损失函数对所述对应的奖励值函数进行调整,获得调整后的奖励值函数;
[0020]根据所述调整后的奖励值函数,获得调整后的奖励模型;
[0021]将所述第三数据输入所述训练后的对话模型,输出回复结果;
[0022]将所述回复结果输入所述调整后的奖励模型,并根据所述调整后的奖励值函数输出奖励值;
[0023]根据所述奖励值对所述训练后的对话模型进行更新,获得优化后的对话模型;
[0024]其中,所述第二损失函数表示所述优化后的对话模型与所述训练后的对话模型之间的相似程度

[0025]在其中一个实施例中,所述第一损失函数表示所述第一数据输入预训练对话模型获得的回复与所述第一数据标注的答案之间的相似程度

[0026]在其中一个实施例中,所述根据所述奖励值对所述训练后的对话模型进行更新,获得优化后的对话模型,包括:
[0027]根据所述奖励值的大小,通过梯度下降法对所述训练后的对话模型进行更新,获得优化后的对话模型

[0028]在其中一个实施例中,所述第二损失函数包括相对熵散度,所述强化学习算法包括近端策略优化算法

[0029]在其中一个实施例中,所述预训练对话模型包括多头注意力层以及前馈神经网络层,所述前馈神经网络层对所述多头注意力层的输出进行非线性变换

[0030]第二方面,提供了一种对话模型优化装置,所述装置包括:
[0031]采集划分模块,所述采集划分模块用于通过应用程序接口采集预训练对话模型中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种对话模型优化方法,其特征在于,所述方法包括:通过应用程序接口采集预训练对话模型中输入的问题数据,并将所述问题数据按照预设比例分为三部分,分别为第一数据

第二数据以及第三数据;在所述预训练对话模型中设置第一损失函数,并基于标注答案的第一数据对所述预训练对话模型进行训练,获得训练后的对话模型,使得第一损失函数值最小;将所述第二数据输入所述训练后的对话模型,获得对应的若干条回复并标注序号;在所述预训练奖励模型中设置差值函数,并基于标注序号的对应的若干条回复对所述预训练奖励模型进行训练,获得训练后的奖励模型,使得差值函数值最大;根据所述训练后的对话模型设置第二损失函数,并基于所述第三数据通过强化学习算法获得优化后的对话模型
。2.
根据权利要求1所述方法,其特征在于,所述获得对应的若干条回复并标注序号,包括:根据预设规则,将所述对应的若干条回复根据正确程度按照从高到低的顺序进行排序,并标注上对应的序号;其中,所述正确程度指的是与答案的接近程度
。3.
根据权利要求1所述方法,其特征在于,所述根据所述训练后的对话模型设置第二损失函数,并基于所述第三数据通过强化学习算法获得优化后的对话模型,包括:根据所述训练后的奖励模型,获得对应的奖励值函数;根据所述训练后的对话模型设置第二损失函数,并根据所述第二损失函数对所述对应的奖励值函数进行调整,获得调整后的奖励值函数;根据所述调整后的奖励值函数,获得调整后的奖励模型;将所述第三数据输入所述训练后的对话模型,输出回复结果;将所述回复结果输入所述调整后的奖励模型,并根据所述调整后的奖励值函数输出奖励值;根据所述奖励值对所述训练后的对话模型进行更新,获得优化后的对话模型;其中,所述第二损失函数表示所述优化后的对话模型与所述训练后的对话模型之间的相似程度
。4.
根据权利要求2所述方法,其特征在于,所述第一损失函数表示所述第一数据输入预训练对话模型获得的回复与所述第一数据标注的答案之间的相似程度
。5.
根据权利要求3所述方法,...

【专利技术属性】
技术研发人员:罗建刚王申领
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1