【技术实现步骤摘要】
一种对话模型优化方法、装置、计算机设备和存储介质
[0001]本申请涉及人工智能
,特别是涉及一种对话模型优化方法
、
装置
、
计算机设备和存储介质
。
技术介绍
[0002]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术,也有软件层面的技术
。
人工智能基础技术一般包括例如传感器
、
专用人工智能芯片
、
云计算
、
分布式存储
、
大数据处理技术
、
操作
/
交互系统
、
机电一体化等技术
。
人工智能软件技术主要包括计算机视觉技术
、
语音处理技术
、
自然语言处理技术以及机器学习
/
深度学习等几大方向
。
[0003]自然语言处理
(Nature Language Processing
,
NLP)
是计算机科学领域与人工智能领域中的一个重要方向
。
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法
。
自然语言处理是一门融语言学
、
计算机科学
、
数学于一体的学科
。
因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系
。
自然语言处理技术通常包括文本处 ...
【技术保护点】
【技术特征摘要】
1.
一种对话模型优化方法,其特征在于,所述方法包括:通过应用程序接口采集预训练对话模型中输入的问题数据,并将所述问题数据按照预设比例分为三部分,分别为第一数据
、
第二数据以及第三数据;在所述预训练对话模型中设置第一损失函数,并基于标注答案的第一数据对所述预训练对话模型进行训练,获得训练后的对话模型,使得第一损失函数值最小;将所述第二数据输入所述训练后的对话模型,获得对应的若干条回复并标注序号;在所述预训练奖励模型中设置差值函数,并基于标注序号的对应的若干条回复对所述预训练奖励模型进行训练,获得训练后的奖励模型,使得差值函数值最大;根据所述训练后的对话模型设置第二损失函数,并基于所述第三数据通过强化学习算法获得优化后的对话模型
。2.
根据权利要求1所述方法,其特征在于,所述获得对应的若干条回复并标注序号,包括:根据预设规则,将所述对应的若干条回复根据正确程度按照从高到低的顺序进行排序,并标注上对应的序号;其中,所述正确程度指的是与答案的接近程度
。3.
根据权利要求1所述方法,其特征在于,所述根据所述训练后的对话模型设置第二损失函数,并基于所述第三数据通过强化学习算法获得优化后的对话模型,包括:根据所述训练后的奖励模型,获得对应的奖励值函数;根据所述训练后的对话模型设置第二损失函数,并根据所述第二损失函数对所述对应的奖励值函数进行调整,获得调整后的奖励值函数;根据所述调整后的奖励值函数,获得调整后的奖励模型;将所述第三数据输入所述训练后的对话模型,输出回复结果;将所述回复结果输入所述调整后的奖励模型,并根据所述调整后的奖励值函数输出奖励值;根据所述奖励值对所述训练后的对话模型进行更新,获得优化后的对话模型;其中,所述第二损失函数表示所述优化后的对话模型与所述训练后的对话模型之间的相似程度
。4.
根据权利要求2所述方法,其特征在于,所述第一损失函数表示所述第一数据输入预训练对话模型获得的回复与所述第一数据标注的答案之间的相似程度
。5.
根据权利要求3所述方法,...
【专利技术属性】
技术研发人员:罗建刚,王申领,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。