The invention discloses a directive automatic chat method based on deep reinforcement learning, which belongs to the field of spoken dialogue system. It utilizes the strong perception of deep learning and the superior decision-making power of reinforcement learning, which mainly includes teaching module making correct strategies by directly giving demonstration decisions or giving additional incentives to the decision-making module. The teaching module of mode selection control gives the demonstration decision directly or the evaluation of the decision module. The decision-making module adjusts its decision-making situation constantly according to the evaluation given by the teaching module and the evaluation of users as the optimization goal. This method takes into account the advantages of deep learning and reinforcement learning. It not only increases the generalization ability of the system, but also increases the learning ability of the system, so that the system has stronger adaptability. Under this framework, the spoken dialogue system can be trained more effectively, and the resulting answers are safer, more reasonable, and more natural and orderly.
【技术实现步骤摘要】
一种基于深度强化学习的指导性自动聊天方法
本专利技术涉及自然语言处理
,具体涉及一种基于深度强化学习的通过与环境交互不断优化对话系统的模型方法。
技术介绍
聊天系统是一种可以通过日常口语与人类对话的服务代理。在我们与技术的互动中,这种系统将扮演越来越重要的角色。聊天系统具有广泛的应用范围,从支持语音的移动应用到车载导航助手、只能家居、辅导系统以及(在不远的将来)协助我们日常工作的服务机器人。聊天系统具有广阔的应用场景和市场需求,因此研究提高对话系统的自然性、连贯性、稳定性、智能性等具有重要意义。传统的聊天系统基于人工模板活基于知识库检索的方式打造,在垂直领域中往往有很好的体验,根据目标领域人工编码形式逻辑模型会把对话限制在较窄的范围,易于机器理解,但这种形式结构无法高效地跟上源知识的增长和领域的切换。然而,基于深度学习的聊天系统是通过数据驱动的端到端的构建过程,只要给定训练数据就可以训练出效果不错的系统,省去了特征抽取以及各种复杂的中间步骤的处理,使得系统的开发效率更高。深度学习起源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替 ...
【技术保护点】
1.一种基于深度强化学习的指导性自动聊天方法,其特征在于:利用深度网络模型感知用户的意图以及状态,然后利用强化学习的方式优化模型,在此基础上加入了特定的教学模块,教学模块分为两种模式教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略;该方法包括以下步骤:步骤1,文本分词预处理;步骤1.1,读取文本进行切词操作;步骤1.2,将切分的单词读取成类别向量的表示;步骤1.3,将切分的单词按词向量表示;步骤1.4,将切分的单词读取成情感向量的表示;步骤1.5,将步骤1.2、步骤1.3和步骤1.4的向量进行拼接;步骤2,文本信息的综合处理;步骤2.1,将步骤1得到的向量送入LSTM网络识别模块;步骤2.2,将步骤2.1的结果加入分类网络,得出相应动作的概率;步骤3,动作教学步骤3.1,计算当前的模式,得出教学模式或者批判模式;步骤3.2,若步骤3.1为教学模式,则教学模块给出当前的示范动作,当前轮对话的动作即为示范模块;若步骤3.2为批判模式则教学模块给出步骤2.2中动作的奖励值,当前轮对话的动作为步骤2.2中的动作;步骤4,实体输出;根据步骤3中得出的动作进行实体填充,得到 ...
【技术特征摘要】
1.一种基于深度强化学习的指导性自动聊天方法,其特征在于:利用深度网络模型感知用户的意图以及状态,然后利用强化学习的方式优化模型,在此基础上加入了特定的教学模块,教学模块分为两种模式教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略;该方法包括以下步骤:步骤1,文本分词预处理;步骤1.1,读取文本进行切词操作;步骤1.2,将切分的单词读取成类别向量的表示;步骤1.3,将切分的单词按词向量表示;步骤1.4,将切分的单词读取成情感向量的表示;步骤1.5,将步骤1.2、步骤1.3和步骤1.4的向量进行拼接;步骤2,文本信息的综合处理;步骤2.1,将步骤1得到的向量送入LSTM网络识别模块;步骤2.2,将步骤2.1的结果加入分类网络,得出相应动作的概率;步骤3,动作教学步骤3.1,计算当前的模式,得出教学模式或者批判模式;步骤3.2,若步骤3.1为教学模式,则教学模块给出当前的示范动作,当前轮对话的动作即为示范模块;若步骤3.2为批判模式则教学模块给出步骤2.2中动作的奖励值,当前轮对话的动作为步骤2.2中的动作;步骤4,实体...
【专利技术属性】
技术研发人员:贾熹滨,史佳帅,刘洋,曾檬,苏醒,郭黎敏,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。