训练方法和装置、对话处理方法和系统及介质制造方法及图纸

技术编号:26304111 阅读:103 留言:0更新日期:2020-11-10 19:59
公开了一种强化学习模型训练方法和装置、对话处理方法和对话系统及计算机可读存储介质。其中,所述强化学习模型的训练方法,包括:获取用于训练所述强化学习模型的未标注数据和标注数据;基于所述未标注数据,参考所述标注数据生成用于训练所述强化学习模型的经验池;利用所述经验池训练所述强化学习模型。

【技术实现步骤摘要】
训练方法和装置、对话处理方法和系统及介质
本公开涉及机器学习领域,更具体地涉及强化学习模型训练方法和装置、对话处理方法和对话系统及计算机可读存储介质。
技术介绍
强化学习(ReinforcementLearning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境(Environment)进行交互获得的奖励分数指导行为,目标是使得智能体选择的行为能够获得环境最大的奖励分数。对话系统(DialogSystem,或ConversationAgent)是一种旨在与人进行连贯交流的计算机系统,可以包括具有用于访问、处理、管理和传递信息的人机接口的基于计算机的代理。对话系统可以基于强化学习模型而实现。然而,在基于强化学习模型的对话系统的构建过程中,往往需要获取大量的标注数据,以提高对话系统的精度,这些所需的标注数据通常较为昂贵并且难以获取,从而影响了强化学习模型的训练和构建,也限制了对话系统在各领域的进一步应用。<br>专利技本文档来自技高网...

【技术保护点】
1.一种强化学习模型的训练方法,包括:/n获取用于训练所述强化学习模型的未标注数据和标注数据;/n基于所述未标注数据,参考所述标注数据生成用于训练所述强化学习模型的经验池;/n利用所述经验池训练所述强化学习模型。/n

【技术特征摘要】
1.一种强化学习模型的训练方法,包括:
获取用于训练所述强化学习模型的未标注数据和标注数据;
基于所述未标注数据,参考所述标注数据生成用于训练所述强化学习模型的经验池;
利用所述经验池训练所述强化学习模型。


2.如权利要求1所述的方法,其中,所述基于所述未标注数据,参考所述标注数据生成用于训练所述强化学习模型的经验池包括:
基于所述未标注数据,与环境进行交互,生成所述经验池。


3.如权利要求2所述的方法,其中,
所述经验池包括由第一状态、动作、奖励分数和第二状态构成的序列;
其中,所述第一状态和动作是基于所述未标注数据获取的;所述第二状态是在所述环境处于第一状态的情况下,被施加所述动作后,所述环境迁移到的状态。


4.如权利要求3所述的方法,其中,
所述奖励分数包括在所述环境处于第一状态的情况下,被施加所述动作后,在所述标注数据的引导下做出的反馈。


5.如权利要求3所述的方法,其中,
所述奖励分数还包括所述动作的可信度。


6.如权利要求1所述的方法,其中,所述利用所述经验池训练所述强化学习模型还包括:
在训练所述强化学习模型的过程中,根据训练结果更新所述经验池;
利用更新的所述经验池对所述强化学习模型进行训练。


7.如权利要求3所述的方法,其中,
所述未标注数据为医疗对话数据;和/或
所述标注数据为医疗病例数据。


8.如权利要求7所述的方法,其中,
所述动作是基于所述医疗对话数据获取的任一对话动作;
所述第一状态是所述医疗对话数据中在所获取的所述对话动作之前的所有历史信息。


9.如权利要求1-8任一项所述的方法,其中,所述训练方法用于训练用于医疗对话系统的强化学习模型。


10.一种对话处理方法,包括:
获取对话信息;
基于强化学习模型生成回复信息;
基于所述回复信息对所述对话信息进行响应;
其中,所述强化学习模型是通过如下方法训练得到的:
获取用于训练所述强化学习模型的未标注数据和标注数据;
基于所述未标注数据,参考所述标注数据生成用于训练所述强化学习模型的经验池;
利用所述经验池训练所述强化学习模型。


11.如权利要求10所述的方法,其中,所述基于所述未标注数据,参考所述标注数据生成用于训练所述强化学习模型的经验池包括:
基于所述未标注数据,与环境进行交互,生成所述经验池。


12.如权利要求11所述的方法,其中,
所述经验池包括由第一状态、动作、奖励分数和第二状态构成的序列;
其中,所述第一状态和动作是基于所述未标注数据获取的;所述第二状态是在所述环境处于第一状态的情况下,被施加所述动作后,所述环境迁移到的状态。


13.如权利要求12所述的方法,其中,
所述奖励分数包括在所述环境处于第一状态的情况下...

【专利技术属性】
技术研发人员:朱红文周莉代亚菲陈雪邹声鹏宋伊萍张铭张子涵琚玮
申请(专利权)人:京东方科技集团股份有限公司北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1