一种基于自学习对话模型的人机对话方法及系统技术方案

技术编号:27772245 阅读:17 留言:0更新日期:2021-03-23 12:53
本公开提供了一种基于自学习对话模型的人机对话方法及系统;所述方案利用预定义的角色信息训练一个角色信息记忆网络,预测回复时首先利用角色信息记忆网络生成与当前语境相关程度最高的角色信息,并将角色信息输入到对话生成网络中;通过适当地融入角色信息更符合用户之间的对话习惯,使模型生成的回复更加具有个性和多样性;同时,本公开所述方案将基于马尔可夫决策过程的强化学习方式融入模型的学习过程中,对模型的参数进行微调和优化,利用对话生成的模型初始化两个学习体,让它们进行多轮的对话探索;随着学习体的探索,每个学习体的角色信息记忆选择网络会完善对对方的印象描述,一组成功的对话可以让对话双方通过对话的内容和对话者的特点增强对对方的了解。

【技术实现步骤摘要】
一种基于自学习对话模型的人机对话方法及系统
本公开属于自然语言处理和强化学习
,尤其涉及一种基于自学习对话模型的人机对话方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。现有的对话系统分为基于检索方式的对话系统和基于生成方式的对话系统。基于检索的对话系统所产生的回复通常是预先存储和事先定义的数据,输入的内容通常是一段上下文文本和一个候选回复,模型的输出则是候选答案的得分,寻找最优回复的过程为先对多个候选回复进行打分及排序,选出分值最高的回复最为最终回复。基于检索的对话系统生成的回复答案相对固定,灵活性不足,在一些闲聊的场景应用起来非常困难。基于生成式的对话系统在对话流畅度、回复的单一重复率方面还存在一定的问题。通过在感知科学相关领域的研究发现,对话的两个人在对话的时候大脑会产生相似的活动映射,故分析对话者双方的角色信息以及感情信息在双方交流的过程中就显得格外重要。为了将对话者的角色信息充分融入到对话生成的过程中,提高闲聊机器人回复的多样性,研究人员做了许多的尝试。初期,研究人员将用户预定义的角色信息转换成一个稠密向量用于后续的对话生成任务,并且采用MMI替换最大似然估计作为新的损失函数,有效地减少了通用回复的数量,增加了生成回复的多样性;随着闲聊机器人的发展,接着就有研究人员在该领域提出了一个基于角色信息的对话数据集,并且基于该数据集提出了两种生成式的模型,Per-Seq2Seq模型和生成式的角色信息记忆网络,Per-Seq2Seq模型是基于用户的角色信息,采用序列到序列的方式对系统回复进行预测。对话系统指的是通过智能算法让计算机进行自然语言理解,并在一定程度上模仿人类的对话习惯与用户进行对话,通过图灵测试一直都是人工智能的长期目标。因此在开放领域对话系统的研究中,提高系统生成回复的多样性,增强多轮对话的可持续性成为了研究与应用的热点。闲聊机器人在应用过程中不仅要有能生成多样性回复的能力,并且具有可以在对话过程中建立与对话用户之间的情感状态联系的能力也显得格外重要。由于许多开放领域对话数据集的发布,传统的SequencetoSequence(Seq2Seq)模型被广泛用于对话生成模型的建模。Seq2seq模型开始是在机器翻译领域中被提出,随后被广泛应用于自然语言处理的各个领域。在对话系统领域,Seq2Seq可以充分结合对话的文本信息,充分解决了RNN输出数据维度固定的问题,有利于提高对话系统预测回复的多样性。然而,专利技术人发现,尽管Seq2Seq模型已经被广泛应用于对话系统,但是距离让对话系统理解用户的自然语言并通过图灵测试还有很长的一段路需要走,使用Seq2Seq模型去完成对话生成的任务仍存在生成的回复个性化程度不高、相关程度低、长距离依赖等问题,Seq2Seq神经网络模型用于对话生成的模型倾向于生成安全、常见的回复。产生上述问题最重要的一个原因为没有将与对话用户相关的角色信息融入到对话生成的过程中。然而如何提取用户的角色信息以及将所提取的对话信息融合到对话生成的过程中仍然是一个挑战。传统的方法是通过将用户的角色信息输入到神经网络中对角色信息做一个抽象表示,探索对话文本与用户角色信息之间的潜在关系,通过一个自动编码器结构生成多样性的回复。然而在一些语境下,系统产生的回复不需要表现出用户的角色信息,回复需要在充分结合对话历史信息的基础上适当地融合角色信息,这样才更符合人类的对话习惯。
技术实现思路
本公开为了解决上述问题,提出了一种基于自学习对话模型的人机对话方法及系统;所述方案利用预定义的角色信息训练一个角色信息记忆网络,预测回复时首先利用角色信息记忆网络生成与当前语境相关程度最高的角色信息,并将角色信息输入到对话生成网络中;通过适当地融入角色信息更符合用户之间的对话习惯,使模型生成的回复更加具有个性和多样性。根据本公开实施例的第一个方面,提供了一种基于自学习对话模型的人机对话方法,包括:在接受到用户的提问时,利用所述自学习对话模型中的角色信息记忆网络选择与当前语境最相关的用户角色信息;将筛选出的用户角色信息与对话历史信息进行拼接,作为所述自学习对话模型中对话生成网络的输入,并通过所述对话生成网络对用户的提问进行回复预测,生成个性化回复。进一步的,在所述自学习对话模型的学习过程中,为了让模型有更优异的表现,将基于马尔可夫决策过程的强化学习方式融入模型的学习过程中,对模型的参数进行微调和优化,利用对话生成的模型初始化两个学习体,让它们进行多轮的对话探索;随着学习体的探索,每个学习体的角色信息记忆网络会完善对对方的印象描述。根据本公开实施例的第二个方面,提供了一种基于自学习对话模型的人机对话系统,包括:角色信息确定单元,其用于在接受到用户的提问时,利用所述自学习对话模型中的角色信息记忆网络选择与当前语境最相关的用户角色信息;回复预测单元,其用于将筛选出的用户角色信息与对话历史信息进行拼接,作为所述自学习对话模型中对话生成网络的输入,并通过所述对话生成网络对用户的提问进行回复预测,生成个性化回复。根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于自学习对话模型的人机对话方法。根据本公开实施例的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于自学习对话模型的人机对话方法。与现有技术相比,本公开的有益效果是:(1)本公开所述方案通过将用户的角色信息输入到角色信息记忆选择网络中去预测与当前对话相关程度最高的角色信息,并将角色信息融入到对话生成的部分,使模型生成的回复更加具有个性化的特点;(2)为了加快所述自学习对话模型在学习过程中的收敛速度,让模型有更优异的表现,本公开所述方案将基于马尔可夫决策过程的强化学习方式融入模型的学习过程中,对模型的参数进行微调和优化,利用对话生成的模型初始化两个学习体,让它们进行多轮的对话探索;随着学习体的探索,每个学习体的角色信息记忆选择网络会完善对对方的印象描述,一组成功的对话可以让对话双方通过对话的内容和对话者的特点增强对对方的了解。本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。附图说明构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,并不构成对本公开的不当限定。图1为本公开实施例一中所述的对话生成方法概述图;图2为本公开实施例一中所述的对话生成方法流程图;图3为本公开实施例一中所述的角色信息记忆选择网络结构图;图4为本公开实施例一中所述的对话生成网络结构图;图5为本公开实施例一中所述的自学习以及参数微调的过程。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学本文档来自技高网
...

【技术保护点】
1.一种基于自学习对话模型的人机对话方法,其特征在于,包括:/n在接受到用户的提问时,利用所述自学习对话模型中的角色信息记忆网络选择与当前语境最相关的用户角色信息;/n将筛选出的用户角色信息与对话历史信息进行拼接,作为所述自学习对话模型中对话生成网络的输入,并通过所述对话生成网络对用户的提问进行回复预测,生成个性化回复。/n

【技术特征摘要】
1.一种基于自学习对话模型的人机对话方法,其特征在于,包括:
在接受到用户的提问时,利用所述自学习对话模型中的角色信息记忆网络选择与当前语境最相关的用户角色信息;
将筛选出的用户角色信息与对话历史信息进行拼接,作为所述自学习对话模型中对话生成网络的输入,并通过所述对话生成网络对用户的提问进行回复预测,生成个性化回复。


2.如权利要求1所述的一种基于自学习对话模型的人机对话方法,其特征在于,为了将角色信息更好地融入到对话生成的过程中,在对话开始之前会先将角色信息输入到角色记忆网络进行记忆,为了尽量减少记忆角色信息过程中的误差,记忆的过程采用多跳注意力的思想,多次计算角色信息的注意力。


3.如权利要求1所述的一种基于自学习对话模型的人机对话方法,其特征在于,所述角色信息的注意力计算利用注意力权重和其对应的语义向量进行加权求和来实现。


4.如权利要求1所述的一种基于自学习对话模型的人机对话方法,其特征在于,在训练角色信息记忆网络前,需要对语料库中的对话信息进行标注,采用TF-IDF的方式计算每条对话信息与角色信息之间的相似度,每个词的逆向文件频率:



其中,tfi是Glove词表中的索引,词表中的排序方式按照齐夫定律进行排序,设置一个相似度的上限,若高于上限则认为该对话不需要反映用户的角色信息,此时将W*设置成空;对标注好的语料采用MLP的方式训练角色信息记忆网络。


5.如权利要求1所述的一种基于自学习对话模型的人机对话方法,其特征在于,在所述自学习对话模型的学习过程中,为了让模型有更优异的表现,将基于马尔可夫决策过程的强化学习方式融入模型的学习过程中,对模型的参数进行微调...

【专利技术属性】
技术研发人员:刘培玉徐富永朱振方丁琦王元英
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1