一种融合闲聊和常识的多技能任务型对话系统构建方法技术方案

技术编号:32567740 阅读:17 留言:0更新日期:2022-03-09 16:53
本发明专利技术涉及对话系统,具体涉及一种融合闲聊和常识的多技能任务型对话系统构建方法,收集大规模开源的中文闲聊语料,将相邻对话作为闲聊语料对,并构建闲聊模型,收集大规模各领域的常识问答语料以及三元组数据,构建知识图谱,基于常识问答语料训练相似度打分模型,对原始问题进行处理得到候选实体集合,从知识图谱中获取相关两跳关系内所有出度和入度的关系,并得到最终候选实体,利用最终候选实体筛选出实体关系路径,并对实体关系路径进行优选得到最终路径,基于最终路径从知识图谱中查询常识答案,完成常识对话模型的构建;本发明专利技术提供的技术方案能够有效克服现有技术所存在的无法兼具常识推理能力和闲聊功能、对话回复召回准确性较低的缺陷。回准确性较低的缺陷。回准确性较低的缺陷。

【技术实现步骤摘要】
一种融合闲聊和常识的多技能任务型对话系统构建方法


[0001]本专利技术涉及对话系统,具体涉及一种融合闲聊和常识的多技能任务型对话系统构建方法。

技术介绍

[0002]对话系统按照任务类型可以分为闲聊型对话系统、问答型对话系统和任务型对话系统。
[0003]闲聊型对话系统,主要是与用户进行情感互动交流,帮助用户排忧解闷,其一般利用大量闲聊语料对数据训练,比如DialoDG、T5等采用生成式模型,使模型具备根据输入生成相应输出的能力,但是生成的结果是随机的,整体过程难以评估控制。闲聊型对话系统不具备常识推理能力,也无法在特定领域提供垂直任务。
[0004]问答型对话系统又称FAQ问答系统,主要是给用户提供垂直领域的咨询服务,比如政务咨询、法律咨询等。目前主流的问答型对话系统都是基于检索的方案,即预先根据问题和答案构建一个ES问答对库,用户提问时对库内的问题进行检索,返回与用户问题最相似的topN个候选问题,然后利用打分重排机制选出其中最相似的标准问题,返回该标准问题对应的答案作为问题答案。目前常见的FAQ问答系统,通过构建大量相似问或者高质量的知识图谱,充分利用文本和语义特征向量,采用召回和打分策略来保证可控性和精度,但是问答型对话系统也不具备常识推理能力,同时无法支持闲聊功能。
[0005]任务型对话系统,又称智能客服系统,其在物流、金融、保险、制造、电商等诸多领域具有广阔的应用前景,其可以替代部分人工客服为用户提供24h服务,极大减小人工客服的压力,降低企业成本。目前,市面上主流的任务型对话系统都是以pipeline方式实现的,整个系统分为多个模块,比如对话理解NLU模块主要是识别用户意图和提取对话中关键槽位,对话追踪DST模块主要负责记录对话状态和槽位,对话策略DPL模块主要负责根据当前输入和历史记录决策本次对话该向用户作何响应,对话生成NLG模块主要负责生成最终响应给用户的内容。鉴于任务型对话系统的复杂性及对任务完成的高标准要求,该类系统亦不具备常识推理能力,也无法很好地支持闲聊功能。

技术实现思路

[0006](一)解决的技术问题
[0007]针对现有技术所存在的上述缺点,本专利技术提供了一种融合闲聊和常识的多技能任务型对话系统构建方法,能够有效克服现有技术所存在的无法兼具常识推理能力和闲聊功能、对话回复召回准确性较低的缺陷。
[0008](二)技术方案
[0009]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0010]一种融合闲聊和常识的多技能任务型对话系统构建方法,包括以下步骤:
[0011]S1、收集大规模开源的中文闲聊语料,将相邻对话作为闲聊语料对,并构建闲聊模
型;
[0012]S2、收集大规模各领域的常识问答语料以及三元组数据,构建知识图谱,基于常识问答语料训练相似度打分模型;
[0013]S3、对原始问题进行处理得到候选实体集合,从知识图谱中获取相关两跳关系内所有出度和入度的关系,并得到最终候选实体;
[0014]S4、利用最终候选实体筛选出实体关系路径,并对实体关系路径进行优选得到最终路径,基于最终路径从知识图谱中查询常识答案,完成常识对话模型的构建;
[0015]S5、分析任务对话语料,抽象出固定的本体数据存入数据库中,在会话级别构建任务对话模型;
[0016]S6、利用常识推理和任务对话语料训练生成话题判别模型。
[0017]优选地,S4中利用最终候选实体筛选出实体关系路径,并对实体关系路径进行优选得到最终路径,基于最终路径从知识图谱中查询常识答案,包括:
[0018]将最终候选实体分别与对应两跳关系内所有出度和入度的关系拼接成完整句子,利用相似度打分模型分别计算原始问题与每个完整句子之间的相似度,并筛选出实体关系路径;
[0019]对每条实体关系路径与原始问题进行打分,选取得分最高的实体关系路径作为最终路径,基于最终路径从知识图谱中查询常识答案。
[0020]优选地,所述将最终候选实体分别与对应两跳关系内所有出度和入度的关系拼接成完整句子,包括:
[0021]所有最终候选实体对应拼接成的完整句子有:
[0022][0023]其中,代表入度中所有关系及第i个最终候选实体组成的句子,I
i
为第i个输入的最终候选实体,R
r1
为两跳关系内的入度关系,T
r1
为两跳关系内的入度实体,代表出度中所有关系及第i个最终候选实体组成的句子,R
r2
为两跳关系内的出度关系,T
r2
为两跳关系内的出度实体,M为最终候选实体的个数。
[0024]优选地,所述利用相似度打分模型分别计算原始问题与每个完整句子之间的相似度,并筛选出实体关系路径,包括:
[0025]让原始问题和完整句子分别经过相似度打分模型,取最后一层N维特征向量相加,再拼接上最后一层N维特征向量差分形成的3*N向量,经过两层全连接层后输出,最后利用softmax函数进行打分,筛选出分数最高的预设个数的完整句子对应的实体关系路径。
[0026]优选地,S2中收集大规模各领域的常识问答语料以及三元组数据,构建知识图谱,基于常识问答语料训练相似度打分模型,包括:
[0027]利用三元组数据扩展常识问答语料的多样性,同时对三元组数据进行清洗和预处理操作,存入neo4j数据库中构建知识图谱,基于常识问答语料训练SimCSE

RoBerta相似度
打分模型。
[0028]优选地,所述对每条实体关系路径与原始问题进行打分,选取得分最高的实体关系路径作为最终路径,基于最终路径从知识图谱中查询常识答案,包括:
[0029]采用下式计算第i条实体关系路径与原始问题之间的总得分source
i

[0030]source
i
=L
i
+D
i
+R
i
+C
i
[0031]其中,L
i
为第i条实体关系路径与原始问题在全部字粒度上进行去重后得到的交集长度,D
i
为第i条实体关系路径长度的倒数,R
i
为第i条实体关系路径跳数的倒数,C
i
为最终候选实体在第i条实体关系路径中出现的频率;
[0032]选取总得分source
i
最高实体关系路径作为最终路径,基于最终路径组装cypher查询语句从知识图谱中查询常识答案。
[0033]优选地,S5中在会话级别构建任务对话模型,包括:
[0034]将每个对话轮次用户的话语、信念状态、数据库结果、系统动作和系统回复组成对话序列在DialoDG神经网络上进行微调,具体包括:
[0035]在第一个对话轮次时,用户输入的话语为U0,根据话语U0生成的信念状态为B0,信念状态B0用于数据库的检索,以检索满足信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合闲聊和常识的多技能任务型对话系统构建方法,其特征在于:包括以下步骤:S1、收集大规模开源的中文闲聊语料,将相邻对话作为闲聊语料对,并构建闲聊模型;S2、收集大规模各领域的常识问答语料以及三元组数据,构建知识图谱,基于常识问答语料训练相似度打分模型;S3、对原始问题进行处理得到候选实体集合,从知识图谱中获取相关两跳关系内所有出度和入度的关系,并得到最终候选实体;S4、利用最终候选实体筛选出实体关系路径,并对实体关系路径进行优选得到最终路径,基于最终路径从知识图谱中查询常识答案,完成常识对话模型的构建;S5、分析任务对话语料,抽象出固定的本体数据存入数据库中,在会话级别构建任务对话模型;S6、利用常识推理和任务对话语料训练生成话题判别模型。2.根据权利要求1所述的融合闲聊和常识的多技能任务型对话系统构建方法,其特征在于:S4中利用最终候选实体筛选出实体关系路径,并对实体关系路径进行优选得到最终路径,基于最终路径从知识图谱中查询常识答案,包括:将最终候选实体分别与对应两跳关系内所有出度和入度的关系拼接成完整句子,利用相似度打分模型分别计算原始问题与每个完整句子之间的相似度,并筛选出实体关系路径;对每条实体关系路径与原始问题进行打分,选取得分最高的实体关系路径作为最终路径,基于最终路径从知识图谱中查询常识答案。3.根据权利要求2所述的融合闲聊和常识的多技能任务型对话系统构建方法,其特征在于:所述将最终候选实体分别与对应两跳关系内所有出度和入度的关系拼接成完整句子,包括:所有最终候选实体对应拼接成的完整句子有:其中,代表入度中所有关系及第i个最终候选实体组成的句子,I
i
为第i个输入的最终候选实体,R
r1
为两跳关系内的入度关系,T
r1
为两跳关系内的入度实体,代表出度中所有关系及第i个最终候选实体组成的句子,R
r2
为两跳关系内的出度关系,T
r2
为两跳关系内的出度实体,M为最终候选实体的个数。4.根据权利要求2所述的融合闲聊和常识的多技能任务型对话系统构建方法,其特征在于:所述利用相似度打分模型分别计算原始问题与每个完整句子之间的相似度,并筛选出实体关系路径,包括:让原始问题和完整句子分别经过相似度打分模型,取最后一层N维特征向量相加,再拼接上最后一层N维特征向量差分形成的3*N向量,经过两层全连接层后输出,最后利用
softmax函数进行打分,筛选出分数最高的预设个数的完整句子对应的实体关系路径。5.根据权利要求4所述的融合闲聊和常识的多技能任务型对话系统构建方法,其特征在于:S2中收集大规模各领域的常识问答语料以及三元组数据,构建知识图谱,基于常识问答语料训练相似度打分模型,包括:利用三元组数据扩展常识问答语料的多样性,同时对三元组数据进行清洗和预处理操作,存入neo4j数据库中构建知识图谱,基于常识问答语料训练SimCSE

RoBerta相似度打分模型。6.根据权利要求2所述的融合闲聊和常识的多技能任务型对话系统构建方法,其特征在于:所述对每条实体关系路径与原始问题进行打分,选取得分最高的实体关系路径作为最终路径,基于最终路径从知识图谱中查询常识答案,包括:采用下式计算第i条实体关系路径与原始问题之间的总得分source
i
:source
i
=L
i
+D
i
+R
i
+C
i
其中,L
i
为第i条实体关系路径与原始问题在全部字粒度上进行去重后得到的交集长度,D
i
为第i条实体关系路径长度的倒...

【专利技术属性】
技术研发人员:陈楷熊京萍廖奇王辉
申请(专利权)人:科讯嘉联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1