融合规则信息的可控制性对话管理扩展方法技术

技术编号:18426521 阅读:25 留言:0更新日期:2018-07-12 02:02
本发明专利技术属于人机对话技术领域,具体涉及一种融合规则信息的可控制性对话管理扩展方法,旨在解决数据驱动的对话系统通过重新构建交互环境的方式进行扩展时成本高、效率低下的问题,本方法包括:S1,基于交互数据,确定需要扩充的新用户意图,并对原语言理解模块进行扩展;S2,基于新用户意图,构建该新用户意图对应的新对话规则;S3,基于交互数据、原对话管理模块的对话策略、新对话规则,构建新对话管理模块映射空间所需满足的约束;S4,基于S3中得到的新对话管理模块映射空间所需满足的约束,对原对话管理模块进行扩展,生成新对话管理模块。本发明专利技术可以对数据驱动的对话系统根据用户反馈进行快速扩展、高效迭代。

A controllable dialog management extension method integrating rule information

The invention belongs to the field of human-computer dialogue technology, and specifically involves an extension method of control dialogue management for the fusion of rules information. It aims to solve the problem of high cost and low efficiency when the data driven dialogue system is extended by reconstructing the interactive environment. The method includes: S1, based on interactive data, determination of the problem. The new user intention needs to be expanded, and the original language understanding module is extended; S2, based on the new user intention, constructs the new dialogue rules for the new user's intention; S3, based on the interactive data, the dialogue strategy of the original dialogue management module and the new dialogue rules, the constraints needed to be met in the new dialogue management module mapping space S4, based on the new dialog management module in S3, it maps the space required to satisfy the constraints, expands the original dialogue management module and generates a new dialogue management module. The invention can rapidly expand and efficiently iterate the data driven dialogue system according to user feedback.

【技术实现步骤摘要】
融合规则信息的可控制性对话管理扩展方法
本专利技术属于人机对话
,具体涉及一种融合规则信息的可控制性对话管理扩展方法。
技术介绍
任务型对话系统是在某一特定领域(餐馆,酒店或机票领域),通过自然语言交互的形式,辅助用户完成任务的人机交互系统。一般而言,任务型对话系统需要具有如下四个基本功能:语言理解、对话状态跟踪、对话策略和对话生成。其中,对话状态跟踪和对话策略模块一起被称为对话管理模块,是整个系统的核心部分。由于任务型对话系统能够以更加友好的方式帮助消费者达成目标。因此,人们投入了大量的精力去研究如何设计用户体验更好的对话系统。在目前商用的系统中,对话管理模块普遍采用基于规则的方式实现。开发者需手工编撰对话管理策略,定义出在不同对话上下文下,系统应该执行哪一个动作。这种方法虽然简单直观易于控制,但需要大量的人力和专业知识。最近几年,人们发现通过强化学习的方法可以利用用户提供的反馈信号自动地构建鲁棒的对话管理模块。这种方法避免了设计大量的规则。因此,这种基于数据驱动的设计模式受到了工业界的广泛关注。然而在设计商用系统时,开发者可以定义出所有合理的系统行为用于完成某一特定任务。系统能够处理的用户意图则需要在系统上线后,根据用户的需求不断地进行扩展。所以在商业开发中,为了使系统对之前没有考虑到的用户意图做出合理的反应,开发者需要对整个系统进行迭代式地扩展。虽然基于强化学习的方法在构建任务型对话系统上具有极大的优势,但由于数据驱动的对话管理模块是一个黑盒子,如果要对原有的对话管理模块进行扩展只能重新设计交互环境进行再训练。而交互环境的构建十分昂贵。因此,如何花费最少的成本,对已有的基于强化学习的对话管理模块进行高效地扩展,同时保留住数据驱动方法的潜在优势是一个非常值得研究的课题。
技术实现思路
为了解决现有技术中的上述问题,即为了解决对数据驱动的对话系统进行扩展时成本高、效率低下的问题,本专利技术提出了一种融合规则信息的可控制性对话管理扩展方法,包括以下步骤:步骤S1,基于交互数据D,确定需要扩充的新用户意图,并对原语言理解模块进行扩展;步骤S2,基于步骤S1所选择的新用户意图,构建该新用户意图对应的新对话规则;步骤S3,基于步骤S1的交互数据、原对话管理模块的对话策略、步骤S2中得到的新对话规则,构建新对话管理模块映射空间所需满足的约束L;步骤S4,基于步骤S3中得到的新对话管理模块映射空间所需满足的约束L,对原对话管理模块进行扩展,生成新对话管理模块。进一步地,所述“新对话管理模块映射空间所需满足的约束L”,具体为:L=λ1LD+λ2LD,θ+λ3LD,R其中,LD为新对话管理模块的行为与原对话管理模块的行为一致性约束;LD,θ为新对话管理模块的行为策略与原对话管理模块的行为策略一致性约束;LD,R为新对话管理模块的行为策略与定义的新对话规则符合性约束;λ1、λ2、λ3为预设的权值参数。进一步地,其中,θnew为新对话管理模块的模型参数;θ为原对话管理模块的模型参数;d为交互数据D中的对话样本;t为对话样本d的轮数;|As|为系统行为的个数;ht为第t轮对话的对话上下文;ak为新对话管理模块在当前对话上下文ht下的行为;at为原始系统在当前对话历史ht下的行为,π(·)为原对话管理模块;L是用于处理新用户意图而定义的对话规则的个数;hl为第l条规则中声明的对话上下文条件,al为规则上下文条件hl满足时系统应该执行动作。进一步地,所述“对原语言理解模块进行扩展”,其方法为:在原语言理解模块的基础上,基于需要扩充的新用户意图,添加新用户意图的标注数据,重新训练语言理解模块。进一步地,所述“对原对话管理模块进行扩展”,其方法为:在原对话管理模型的对话状态表示中添加额外的字段表示新用户意图;设置所述新用户意图对应的对话规则;设置新对话管理模块映射空间所需满足的约束。进一步地,所述新对话管理模块和原对话管理模块,均为基于数据驱动的对话管理模块。进一步地,通过构造两种用户仿真环境Sim1和Sim2,对所述新对话管理模块进行训练和测试;其中Sim1用于训练原始对话管理模块,Sim2用于模拟具有未知因素的线上环境。还包括用户满意度计算方法:其中,Satis.为用户满意度,d为交互数据D中的对话样本,t为对话样本d的轮数,L是定义的对话规则个数,ht为第t轮对话的对话上下文,hl为第l条规则中声明的对话上下文条件,at为原始系统在当前对话历史ht下的行为,al为规则上下文hl满足时系统应该执行动作,1{}代表指示函数,如果指示函数等号两边的变量相等则指示函数指为1否则为0。本专利技术的积极效果:在商业系统的设计过程当中,不可避免地要根据用户的需求与反馈对原系统进行扩展。而限制强化学习方法在商业开发中大规模应用的一个原因即,基于强化学习的对话管理模块是个黑盒子,对原有系统进行扩展需要重新构建新的交互环境。但是交互环境的构建非常昂贵,如果通过重新构建交互环境的方式对系统进行扩展则有成本高效率低下的问题。本专利技术通过利用商业开发中所产生的资源,以及几条简单的对话规则,实现了对原有对话管理模块的可控制性扩展。实验表明,基于本专利技术所提出的方法可以达到和重新构建交互环境几乎相同的效果。通过本专利技术,开发者可以在保留数据驱动方法潜在优势的前提下,对数据驱动的对话系统根据用户反馈进行快速扩展、高效迭代。附图说明图1是本专利技术一种实施例的融合规则信息的可控制性对话管理扩展方法流程示意图;图2是通过重新设计交互环境实现扩展的示意图;图3是通过本专利技术实施例实现扩展的示意图。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。本专利技术的基本思想是利用系统开发过程中所产生的可用资源以及简单的对话规则,实现对话管理模块的可控制性扩展,同时节省商业系统迭代所需的成本、缩短了开发周期。图1是本专利技术一种实施例的融合规则信息的可控制性对话管理扩展方法流程示意图;开发者如果发现某些用户意图在最开始的系统设计中没有考虑到,并希望新系统能够处理这些用户意图,也可以采用图2中的方法。但是图2要求开发者构建新的交互环境与新对话管理模块进行交互,基于新的模型结构训练新的对话管理模块,这在实际的商业开发中代价昂贵、效率低下。图3则是本专利技术所提出方法的示意图,其核心思想是基于原对话管理模块、以及设定的对话逻辑规则经知识蒸馏(KnowledgeDistillation)后扩展形成新对话管理模块。表3则证明了我们方法的有效性。总体而言,本专利技术中扩展基于深度强化学习的对话管理模块分为三个主要步骤:(1)获取原系统和真实用户的交互数据;(2)设计新对话管理模块所需满足的映射空间约束关系;(3)基于(2)中设计的约束关系实现对话管理模块的功能扩展。本专利技术一种实施例的融合规则信息的可控制性对话管理扩展方法,如图1所示,包括以下步骤:步骤S1,基于交互数据D,确定需要扩充的新用户意图,并对原语言理解模块进行扩展;步骤S2,基于步骤S1所选择的新用户意图,构建该新用户意图对应的新对话规则;步骤S3,基于步骤S1的交互数据、原对话管理模块的对话策略、步骤S2中得到的新对话规则,构建新对话管理模块本文档来自技高网
...

【技术保护点】
1.一种融合规则信息的可控制性对话管理扩展方法,其特征在于,包括以下步骤:步骤S1,基于交互数据D,确定需要扩充的新用户意图,并对原语言理解模块进行扩展;步骤S2,基于步骤S1所选择的新用户意图,构建该新用户意图对应的新对话规则;步骤S3,基于步骤S1的交互数据、原对话管理模块的对话策略、步骤S2中得到的新对话规则,构建新对话管理模块映射空间所需满足的约束L;步骤S4,基于步骤S3中得到的新对话管理模块映射空间所需满足的约束L,对原对话管理模块进行扩展,生成新对话管理模块。

【技术特征摘要】
1.一种融合规则信息的可控制性对话管理扩展方法,其特征在于,包括以下步骤:步骤S1,基于交互数据D,确定需要扩充的新用户意图,并对原语言理解模块进行扩展;步骤S2,基于步骤S1所选择的新用户意图,构建该新用户意图对应的新对话规则;步骤S3,基于步骤S1的交互数据、原对话管理模块的对话策略、步骤S2中得到的新对话规则,构建新对话管理模块映射空间所需满足的约束L;步骤S4,基于步骤S3中得到的新对话管理模块映射空间所需满足的约束L,对原对话管理模块进行扩展,生成新对话管理模块。2.根据权利要求1所述的融合规则信息的可控制性对话管理扩展方法,其特征在于,所述“新对话管理模块映射空间所需满足的约束L”,具体为:L=λ1LD+λ2LD,θ+λ3LD,R其中,LD为新对话管理模块的行为与原对话管理模块的行为一致性约束;LD,θ为新对话管理模块的行为策略与原对话管理模块的行为策略一致性约束;LD,R为新对话管理模块的行为策略与定义的新对话规则符合性约束;λ1、λ2、λ3为预设的权值参数。3.根据权利要求2所述的融合规则信息的可控制性对话管理扩展方法,其特征在于,其中,θnew为新对话管理模块的模型参数;θ为原对话管理模块的模型参数;d为交互数据D中的对话样本;t为对话样本d的轮数;|As|为系统行为的个数对话规则中行为的个数;ht为第t轮对话的对话上下文;ak为新对话管理模块在当前对话上下文ht下的行为;at为原始系统在当前对话历史ht下的行为,π(·)为原对话管理模块;L是用于处理新用户意图而定义的对话规则的个数;hl为第l条规则中声明的对话上下文条件;al为...

【专利技术属性】
技术研发人员:王唯康张家俊李志飞宗成庆
申请(专利权)人:中国科学院自动化研究所出门问问信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1