当前位置: 首页 > 专利查询>天津大学专利>正文

一种结合知识图谱全局规划的目标导向对话方法技术

技术编号:38089493 阅读:12 留言:0更新日期:2023-07-06 09:00
本发明专利技术公开了一种结合知识图谱全局规划的目标导向对话方法,包括:步骤1、载入常识知识图谱、预训练词向量和对话数据集,步骤2、预训练一个打分器用于环境奖励模块,步骤3、训练阶段,依次选取各个对话确定起点与终点,利用全局规划模块在知识图谱上进行启发式搜索得到连通的全局规划图;利用对话策略探索模块、关键词回复生成模块和环境奖励模块进行选词

【技术实现步骤摘要】
一种结合知识图谱全局规划的目标导向对话方法


[0001]本专利技术属于人工智能、计算机自然语言处理,对话系统领域,具体涉及一种基于知识图谱完成目标导向对话的规划方法。

技术介绍

[0002]随着计算机技术的发展,人与机器之间的交互越发频繁。在各种人机交互方式中,让机器能够以自然语言(人类语言)与人类对话是不容忽视的一种重要方式,也是人工智能的关键目标之一。为实现该目标,必须研发出足够智能的人机对话系统。按照对话的场景,人机对话系统主要分为三类:开放域对话系统,任务型对话系统和目标导向对话系统。开放域对话系统能够陪伴用户进行趣味聊天,通常要求系统回复对话时流畅且自然,例如微软小冰等闲聊机器人;任务型对话系统则专注于理解用户意图并且向用户收集信息从而完成任务,这类系统的实现主要基于槽值填充的方式,引导用户逐次提供和任务信息槽(如名称、时间、地点等)相关的输入,进而完成相应的对话任务,这可以代替人类完成基础的重复工作,节省人力成本,例如可以帮忙预订酒店、机票、餐厅的智能客服;目标导向型对话系统则致力于通过多轮对话,灵活、自然且高效的将对话引导至某个预设目标,目标可以是某个话题关键词、知识点或商品,这被广泛应用于电商销售、对话推荐商品或电影、心理治疗和教育等领域。
[0003]在目标导向对话领域,对话目标多数被设置为某个话题单词,相关的对话数据集也由一段对话和目标话题组成,其中对话长度不固定,话题在其中平滑切换;为了快速且自然的到达预设的对话目标,现有的国内外方法通常将任务分解为两步:预测下一句要回复的关键词,再基于此关键词进行回复。卡内基梅隆大学首先提出了使用分类模型进行关键词预测并进行基于关键词检索的回复生成,南阳理工大学的研究人员则首次引入了外部知识图谱,使用图神经网络进行关键词预测从而有效的提高了对话成功率。由于知识图谱可以表示包含复杂的实体的语义关联、事件的发生逻辑,同时也可以根据需要方便的更新,这使得对话系统可以结合知识图谱处理复杂的任务场景,这极大的提升了对话的灵活性,因此结合知识图谱构建目标导向对话系统前景广阔。总的来说,完成目标导向对话任务的关键在于记住长期目标,通过全局规划选择正确单词并进行回复,时刻朝着目标前进以保证成功率,再附加文本生成模型等约束以保证回复流畅自然;而现有的目标导向型对话系统都缺乏这一能力,它们使用局部贪心的策略搜索,并且没有相关结合知识图谱进行全局规划和生成回复。

技术实现思路

[0004]针对上述现有技术,本专利技术提供一种结合知识图谱全局规划的目标导向对话方法,使用启发式的知识图谱全局规划预先缩小问题空间,再结合对话策略探索模块、关键词回复生成模块、环境奖励模块,通过选词

回复

打分流程探索不同选词效果,再根据打分结果优化选词策略,从而在真正应用时可以选择最佳策略,最终成功、高效且自然的引导对话
到达目标。
[0005]为了解决上述技术问题,本专利技术提出的一种结合知识图谱全局规划的目标导向对话方法,包括以下步骤:
[0006]步骤1、载入常识知识图谱、预训练词向量和对话数据集,所述对话数据集中包括目标导向对话和非目标导向对话;
[0007]步骤2、预训练环境奖励模块中的打分器;
[0008]步骤3、进入训练阶段,包括:
[0009]步骤3

1、在对话数据集中选择一段对话,选定对话起点和目标终点,利用全局规划模块在知识图谱上先进行启发式搜索,得到连通起点和终点的全局规划图G;
[0010]步骤3

2、选词

生成

打分:将所述全局规划图G上所有单词节点输入至对话策略探索模块中的图神经网络,前向传播得到每个单词节点的表示向量,其向量数列视为单词节点的分数;选择任意一个单词节点作为回复关键词K;并送入关键词回复生成模块生成带有该关键词K的回复R;使用步骤2预训练后的打分器对该回复R打分,对于到达目标或流畅回复给出正分数进行奖励,对于偏离目标或较差回复给出负分数进行惩罚;
[0011]步骤3

3、判断回复R否到达目标以及当前执行次数,如果到达目标或超过最大次数,使用打分结果指导反向传播,更新对话策略探索模块中神经网络参数,返回步骤3

2,否则,执行步骤3

4;
[0012]步骤3

4、判断训练次数是否超过50000次或单词节点得分已经收敛不再变化,如果是,则训练结束,执行步骤4,否则,返回步骤3

1,选择新一轮对话继续训练;
[0013]步骤4、进入预测阶段;输入全局规划图G至最新对话策略探索模块的图神经网络,输出所有单词节点最新打分,选择最高得分单词节点为关键词K,并送入关键词回复生成模块生成带有该关键词K的回复R;将回复R反馈给用户。
[0014]进一步讲,本专利技术所述的目标导向对话方法,其中:
[0015]步骤2所述的预训练环境奖励模块中的打分器的过程是:以所述数据集中的目标导向对话作为正样本,以非目标导向对话作为负样本组成训练数据;使用BERT文本分类模型,按序列分类

二分类任务模式训练,正样本标记为1,负样本标记为

1;使用Adam优化器,初始学习率0.0001,每经过10000次迭代,学习率缩小10倍,动量0.9,衰减系数0.0005;在200000次迭代之后完成该打分器的训练。
[0016]所述的步骤3

1包括以下步骤,从而得到连通起点和终点的全局规划图G。
[0017]步骤3
‑1‑
1、在对话数据集中选择一段对话,将其中的动词和名词对应到所述的常识知识图谱上,并分别以历史对话作为起点S,以对话目标最为终点T,得到了仅有起点S和终点T的全局路线图G


[0018]步骤3
‑1‑
2、使用语义相似度作为启发搜索规则,从起点S出发,将其附近一跳的邻居单词节点使用预训练词向量进行向量化表示,计算这些邻居单词节点与起点S、终点T的语义余弦相似度,向全局路线图G

中分别加入距起点S余弦距离最小的N个、距终点T余弦距离最小的N个,共2N个单词节点,用于下一步搜索;
[0019]步骤3
‑1‑
3、取最新得到的2N个单词节点视为临时起点S,再重复步骤3
‑1‑
2筛选附近一跳的邻居节点,执行至连通终点T为止;
[0020]步骤3
‑1‑
4、从终点T出发,视终点T附近一跳的邻居单词节点为起点,将其单词节
点使用预训练词向量进行向量化表示,计算邻居单词节点与起点S、终点T的语义余弦相似度,向全局路线图G

中加入余弦距离最小,分别最接近起点S、终点T的N个,共2N个单词节点,用于下一步搜索;
[0021]步骤3
‑1‑
5、取最新得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合知识图谱全局规划的目标导向对话方法,其特征在于,包括以下步骤:步骤1、载入常识知识图谱、预训练词向量和对话数据集,所述对话数据集中包括目标导向对话和非目标导向对话;步骤2、预训练环境奖励模块中的打分器;步骤3、进入训练阶段,包括:步骤3

1、在对话数据集中选择一段对话,选定对话起点和目标终点,利用全局规划模块在知识图谱上先进行启发式搜索,得到连通起点和终点的全局规划图G;步骤3

2、选词

生成

打分:将所述全局规划图G上所有单词节点输入至对话策略探索模块中的图神经网络,前向传播得到每个单词节点的表示向量,其向量数列视为单词节点的分数;选择任意一个单词节点作为回复关键词K;并送入关键词回复生成模块生成带有该关键词K的回复R;使用步骤2预训练后的打分器对该回复R打分,对于到达目标或流畅回复给出正分数进行奖励,对于偏离目标或较差回复给出负分数进行惩罚;步骤3

3、判断回复R否到达目标以及当前执行次数,如果到达目标或超过最大次数,参考打分结果反向传播,更新对话策略探索模块中神经网络参数,返回步骤3

2,否则,执行步骤3

4;步骤3

4、判断训练次数是否超过50000次或单词节点得分已经收敛不再变化,如果是,则训练结束,执行步骤4,否则,返回步骤3

1,选择新一轮对话继续训练;步骤4、进入预测阶段;输入全局规划图G至最新对话策略探索模块的图神经网络,输出所有单词节点最新打分,选择最高得分单词节点为关键词K,并送入关键词回复生成模块生成带有该关键词K的回复R;将回复R反馈给用户。2.根据权利要求1所述的目标导向对话方法,其特征在于,步骤2所述预训练环境奖励模块中的打分器的过程是:以所述数据集中的目标导向对话作为正样本,以非目标导向对话作为负样本组成训练数据;使用BERT文本分类模型,按序列分类

二分类任务模式训练,正样本标记为1,负样本标记为

1;使用Adam优化器,初始学习率0.0001,每经过10000次迭代,学习率缩小10倍,动量0.9,衰减系数0.0005;在200000次迭代之后完成该打分器的训练。3.根据权利要求1所述的目标导向对话方法,其特征在于,步骤3

1的具体内容如下:步骤3
‑1‑
1、在对话数据集中选择一段对话,将其中的动词和名词对...

【专利技术属性】
技术研发人员:王博杨智彤
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1