【技术实现步骤摘要】
一种融合闲聊和常识的多技能任务型对话系统构建方法
[0001]本专利技术涉及对话系统,具体涉及一种融合闲聊和常识的多技能任务型对话系统构建方法。
技术介绍
[0002]对话系统按照任务类型可以分为闲聊型对话系统、问答型对话系统和任务型对话系统。
[0003]闲聊型对话系统,主要是与用户进行情感互动交流,帮助用户排忧解闷,其一般利用大量闲聊语料对数据训练,比如DialoDG、T5等采用生成式模型,使模型具备根据输入生成相应输出的能力,但是生成的结果是随机的,整体过程难以评估控制。闲聊型对话系统不具备常识推理能力,也无法在特定领域提供垂直任务。
[0004]问答型对话系统又称FAQ问答系统,主要是给用户提供垂直领域的咨询服务,比如政务咨询、法律咨询等。目前主流的问答型对话系统都是基于检索的方案,即预先根据问题和答案构建一个ES问答对库,用户提问时对库内的问题进行检索,返回与用户问题最相似的topN个候选问题,然后利用打分重排机制选出其中最相似的标准问题,返回该标准问题对应的答案作为问题答案。目前常见的FAQ问答系统,通过构建大量相似问或者高质量的知识图谱,充分利用文本和语义特征向量,采用召回和打分策略来保证可控性和精度,但是问答型对话系统也不具备常识推理能力,同时无法支持闲聊功能。
[0005]任务型对话系统,又称智能客服系统,其在物流、金融、保险、制造、电商等诸多领域具有广阔的应用前景,其可以替代部分人工客服为用户提供24h服务,极大减小人工客服的压力,降低企业成本。目前,市面上主流的任务型对话 ...
【技术保护点】
【技术特征摘要】
1.一种融合闲聊和常识的多技能任务型对话系统构建方法,其特征在于:包括以下步骤:S1、收集大规模开源的中文闲聊语料,将相邻对话作为闲聊语料对,并构建闲聊模型;S2、收集大规模各领域的常识问答语料以及三元组数据,构建知识图谱,基于常识问答语料训练相似度打分模型;S3、对原始问题进行处理得到候选实体集合,从知识图谱中获取相关两跳关系内所有出度和入度的关系,并得到最终候选实体;S4、利用最终候选实体筛选出实体关系路径,并对实体关系路径进行优选得到最终路径,基于最终路径从知识图谱中查询常识答案,完成常识对话模型的构建;S5、分析任务对话语料,抽象出固定的本体数据存入数据库中,在会话级别构建任务对话模型;S6、利用常识推理和任务对话语料训练生成话题判别模型。2.根据权利要求1所述的融合闲聊和常识的多技能任务型对话系统构建方法,其特征在于:S4中利用最终候选实体筛选出实体关系路径,并对实体关系路径进行优选得到最终路径,基于最终路径从知识图谱中查询常识答案,包括:将最终候选实体分别与对应两跳关系内所有出度和入度的关系拼接成完整句子,利用相似度打分模型分别计算原始问题与每个完整句子之间的相似度,并筛选出实体关系路径;对每条实体关系路径与原始问题进行打分,选取得分最高的实体关系路径作为最终路径,基于最终路径从知识图谱中查询常识答案。3.根据权利要求2所述的融合闲聊和常识的多技能任务型对话系统构建方法,其特征在于:所述将最终候选实体分别与对应两跳关系内所有出度和入度的关系拼接成完整句子,包括:所有最终候选实体对应拼接成的完整句子有:其中,代表入度中所有关系及第i个最终候选实体组成的句子,I
i
为第i个输入的最终候选实体,R
r1
为两跳关系内的入度关系,T
r1
为两跳关系内的入度实体,代表出度中所有关系及第i个最终候选实体组成的句子,R
r2
为两跳关系内的出度关系,T
r2
为两跳关系内的出度实体,M为最终候选实体的个数。4.根据权利要求2所述的融合闲聊和常识的多技能任务型对话系统构建方法,其特征在于:所述利用相似度打分模型分别计算原始问题与每个完整句子之间的相似度,并筛选出实体关系路径,包括:让原始问题和完整句子分别经过相似度打分模型,取最后一层N维特征向量相加,再拼接上最后一层N维特征向量差分形成的3*N向量,经过两层全连接层后输出,最后利用
softmax函数进行打分,筛选出分数最高的预设个数的完整句子对应的实体关系路径。5.根据权利要求4所述的融合闲聊和常识的多技能任务型对话系统构建方法,其特征在于:S2中收集大规模各领域的常识问答语料以及三元组数据,构建知识图谱,基于常识问答语料训练相似度打分模型,包括:利用三元组数据扩展常识问答语料的多样性,同时对三元组数据进行清洗和预处理操作,存入neo4j数据库中构建知识图谱,基于常识问答语料训练SimCSE
‑
RoBerta相似度打分模型。6.根据权利要求2所述的融合闲聊和常识的多技能任务型对话系统构建方法,其特征在于:所述对每条实体关系路径与原始问题进行打分,选取得分最高的实体关系路径作为最终路径,基于最终路径从知识图谱中查询常识答案,包括:采用下式计算第i条实体关系路径与原始问题之间的总得分source
i
:source
i
=L
i
+D
i
+R
i
+C
i
其中,L
i
为第i条实体关系路径与原始问题在全部字粒度上进行去重后得到的交集长度,D
i
为第i条实体关系路径长度的倒...
【专利技术属性】
技术研发人员:陈楷,熊京萍,廖奇,王辉,
申请(专利权)人:科讯嘉联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。