基于用户交互的多轮对话在线训练方法及系统技术方案

技术编号:21714492 阅读:41 留言:0更新日期:2019-07-27 19:14
本发明专利技术公开了一种基于用户交互的多轮对话在线训练方法及系统,其中,该方法包括:获取当前对话轮次,并判断对话轮次是否大于预设阈值;若对话轮次大于预设阈值,则获取当前动作;若当前动作为接收操作动作时,则通过自然语言理解模块对当前动作进行意图和实体识别;若意图和实体的识别结果任一存在错误,则接收用户定义正确的意图和实体;根据用户定义正确的意图和实体对自然语言理解模块进行实时在线训练。该方法通过与用户在线交互,实时对模块进行训练,解决任务型多轮对话系统中文对话数据集匮乏且质量不高的问题,可适用于不同的对话场景。

Online Training Method and System of Multi-Round Dialogue Based on User Interaction

【技术实现步骤摘要】
基于用户交互的多轮对话在线训练方法及系统
本专利技术涉及人工智能
,特别涉及一种基于用户交互的多轮对话在线训练方法及系统。
技术介绍
近年来,随着人工智能技术日新月异的发展,人机对话技术在各个领域都得到广泛应用,尤其是目标驱动型的多轮对话系统,旨在帮助用户完成具体的任务,例如帮助用户预订机票,预订餐厅等,目标驱动型的对话系统可以使用户获取信息的方式更加简洁明确,不同于传统的搜索引擎的基于网页的解决方案,对话系统可以与用户进行多轮连续的对话,步步引导,逐渐确定用户的意图,基于背景知识返回给用户直接且精准的答案,避免用户从搜索引擎查找到的网页中再进行更细粒度的信息筛选,节省了用户的时间和精力。将传统的搜索引擎检索方式转换为目标驱动型的与用户进行多轮交互的方式,是未来必然的发展趋势。目标驱动型的多轮对话系统的发展势头良好,但传统的基于自动机转换和模版的方式远远不能满足用户的需要,因而对话系统的主要发展趋势是与深度学习技术紧密结合起来,利用深度学习技术进一步提高目标驱动型多轮对话系统的性能。深度学习本身是数据驱动的科学,需要大量的数据来进行训练才能保证模型的性能,但是基于中文业务场景的对话系统数据集很难获得,且标注费时费力,构建高质量的基于业务场景的中文知识库的成本很高昂。其次,数据库的人工标注非常容易出错,会有一些未正确标注的数据出现,这些数据也会放进模型中进行训练,会进一步影响模型的性能。实际上,制约目标驱动型的多轮对话系统的发展的瓶颈之一就是高质量数据量的匮乏。而构建可以实时产生高质量对话数据的在线训练模块可以快速高效的构建高质量的对话数据,缓解目标驱动型多轮对话系统数据匮乏的现状,这对于任务型多轮对话系统的发展具有非常重要的意义。在相关技术中提出了一种具备多任务驱动能力的多轮对话的方法和系统,这个系统根据传统的流水线方式构建,包含了自然语言理解、对话管理、自然语言生成几个模块,但其中并未涉及到在线训练模块,因而也不能实时高效的产生训练数据,缓解数据稀疏的问题。还提出了一种基于多任务学习的对话策略在线实现方法,但该方法仅仅通过强化学习的方式来优化对话策略,并未发挥用户本身的主观能动性,没有给用户自主选择的权利,因此系统需要进行多轮迭代才能得到最终的结果,而且这样的结果并不一定能满足用户的预期。此外,仅仅对对话策略进行了更新,并未直接作用于下游的对话生成模块,因而也无法直接与用户进行交互,直接根据用户的期望进行模型的修正。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于用户交互的多轮对话在线训练方法,该方法通过与用户在线交互,实时对模块进行训练,解决任务型多轮对话系统中文对话数据集匮乏且质量不高的问题,可适用于不同的对话场景。本专利技术的另一个目的在于提出一种基于用户交互的多轮对话在线训练系统。为达到上述目的,本专利技术一方面实施例提出了一种基于用户交互的多轮对话在线训练方法,包括:获取当前对话轮次,并判断所述对话轮次是否大于预设阈值;若所述对话轮次大于预设阈值,则获取当前动作;若所述当前动作为接收操作动作时,则通过自然语言理解模块对所述当前动作进行意图和实体识别;若所述意图和实体的识别结果任一存在错误,则接收用户定义正确的意图和实体;根据所述用户定义正确的意图和实体对所述自然语言理解模块进行实时在线训练。本专利技术实施例的基于用户交互的多轮对话在线训练方法,通过用户进行在线交互,可以实时对系统识别出的意图和实体进行判断,并对不符合期望的地方进行修改,用户也可以对系统进行回复的动作进行审阅并更改,有效地保证了构建的对话数据集的质量,可以实现在实际业务场景中的应用,比如酒店预订、医疗挂号、航班预订、车票预订等。另外,根据本专利技术上述实施例的基于用户交互的多轮对话在线训练方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,还包括:若所述意图和实体的识别结果都为正确,则通过对话管理模块根据所述意图和实体的识别结果对所述当前动作进行动作回应;若所述动作回应为错误,则接收用户定义正确的工作;根据所述用户定义正确的工作对所述对话管理模块进行实时在线训练。进一步地,在本专利技术的一个实施例中,还包括:在完成了所述自然语言理解模块和所述对话理解模块的实时在线训练之后,对对话状态更新模块进行更新得到新的对话状态,并将所述新的对话状态转换为向量形式,得到下一轮次对话,形成多轮对话的交互。进一步地,在本专利技术的一个实施例中,还包括:若所述对话轮次不大于预设阈值,则等待下一对话轮次。进一步地,在本专利技术的一个实施例中,还包括:若所述当前动作不为所述接收操作动作,则仅通过所述对话管理模块对所述当前动作进行动作回应供用户审阅。为达到上述目的,本专利技术另一方面实施例提出了一种基于用户交互的多轮对话在线训练系统,包括:判断模块,用于获取当前对话轮次,并判断所述对话轮次是否大于预设阈值;获取模块,用于若所述对话轮次大于预设阈值,则获取当前动作;识别模块,用于若所述当前动作为接收操作动作时,则通过自然语言理解模块对所述当前动作进行意图和实体识别;修正模块,用于若所述意图和实体的识别结果任一存在错误,则接收用户定义正确的意图和实体;在线训练模块,用于根据所述用户定义正确的意图和实体对所述自然语言理解模块进行实时在线训练。本专利技术实施例的基于用户交互的多轮对话在线训练系统,通过用户进行在线交互,可以实时对系统识别出的意图和实体进行判断,并对不符合期望的地方进行修改,用户也可以对系统进行回复的动作进行审阅并更改,有效地保证了构建的对话数据集的质量,可以实现在实际业务场景中的应用,比如酒店预订、医疗挂号、航班预订、车票预订等。另外,根据本专利技术上述实施例的基于用户交互的多轮对话在线训练系统还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,还包括:动作回应模块,所述动作回应模块,用于若所述意图和实体的识别结果都为正确,则通过对话管理模块根据所述意图和实体的识别结果对所述当前动作进行动作回应;若所述动作回应为错误,则接收用户定义正确的工作;根据所述用户定义正确的工作对所述对话管理模块进行实时在线训练。进一步地,在本专利技术的一个实施例中,还包括:等待模块。所述等待模块,用于若所述对话轮次不大于预设阈值,则等待下一对话轮次。进一步地,在本专利技术的一个实施例中,还包括:处理模块,所述处理模块,用于若所述当前动作不为所述接收操作动作,则仅通过所述对话管理模块对所述当前动作进行动作回应供用户审阅。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的基于用户交互的多轮对话在线训练方法流程图;图2为根据本专利技术一个具体实施例的基于用户交互的多轮对话在线训练方法流程图;图3为根据本专利技术一个实施例的关于意图、实体和回应动作示意图;图4为根据本专利技术一个实施例的自然语言理解模块重新训练图;图5为根据本专利技术一个实施例的自然语言理解模块重新训练后的识别结果图;图6为根据本专利技术一个实施例的对话管理模块的动作识别结果图;图7为根据本专利技术本文档来自技高网
...

【技术保护点】
1.一种基于用户交互的多轮对话在线训练方法,其特征在于,包括以下步骤:获取当前对话轮次,并判断所述对话轮次是否大于预设阈值;若所述对话轮次大于预设阈值,则获取当前动作;若所述当前动作为接收操作动作时,则通过自然语言理解模块对所述当前动作进行意图和实体识别;若所述意图和实体的识别结果任一存在错误,则接收用户定义正确的意图和实体;根据所述用户定义正确的意图和实体对所述自然语言理解模块进行实时在线训练。

【技术特征摘要】
1.一种基于用户交互的多轮对话在线训练方法,其特征在于,包括以下步骤:获取当前对话轮次,并判断所述对话轮次是否大于预设阈值;若所述对话轮次大于预设阈值,则获取当前动作;若所述当前动作为接收操作动作时,则通过自然语言理解模块对所述当前动作进行意图和实体识别;若所述意图和实体的识别结果任一存在错误,则接收用户定义正确的意图和实体;根据所述用户定义正确的意图和实体对所述自然语言理解模块进行实时在线训练。2.根据权利要求1所述的方法,其特征在于,还包括:若所述意图和实体的识别结果都为正确,则通过对话管理模块根据所述意图和实体的识别结果对所述当前动作进行动作回应;若所述动作回应为错误,则接收用户定义正确的工作;根据所述用户定义正确的工作对所述对话管理模块进行实时在线训练。3.根据权利要求2所述的方法,其特征在于,还包括:在完成了所述自然语言理解模块和所述对话理解模块的实时在线训练之后,对对话状态更新模块进行更新得到新的对话状态,并将所述新的对话状态转换为向量形式,得到下一轮次对话,形成多轮对话的交互。4.根据权利要求1还包括所述的方法,其特征在于,还包括:若所述对话轮次不大于预设阈值,则等待下一对话轮次。5.根据权利1所述的方法,其特征在于,还包括:若所述当前动作不为所述接收操作动作,则仅通过所述对话管理模块对所述当前动作进行动作回应供用户审阅。6.一种基于用户交互的多轮对话在线训练系统,其特征在于,包括:判断模块,用于获取当前对话轮次,并...

【专利技术属性】
技术研发人员:鄂海红宋美娜牛佩晴陈忠富肖思琪周筱松程瑞
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1