标准回复确定方法、装置、设备及存储介质制造方法及图纸

技术编号:26342585 阅读:19 留言:0更新日期:2020-11-13 20:35
本申请公开了一种标准回复确定方法、装置、设备及存储介质,针对待预测标准回复的目标项目,获取目标项目的候选回复集合,以及目标项目相关的背景知识、目标项目的项目数据,基于背景知识和项目数据,可以确定关注于项目数据的背景知识的第一特征表示,基于背景知识、项目数据和每一候选回复,确定关注于背景知识和项目数据的第一候选回复的第二特征表示,确定项目数据的第三特征表示,并基于第三特征表示、第一特征表示及每一候选回复的第二特征表示,确定每一候选回复作为标准回复的概率,依据此概率来选取标准回复。本申请实施例中引入并挖掘背景知识、项目数据与候选回复间的潜在联系,辅助筛选标准回复,能够大大提高标准回复的质量。

【技术实现步骤摘要】
标准回复确定方法、装置、设备及存储介质
本申请涉及机器语言处理
,更具体的说,是涉及一种标准回复确定方法、装置、设备及存储介质。
技术介绍
随着人工智能领域的不断壮大,越来越多的人工智能算法诞生出来,帮助机器更好地理解和处理人类的自然语言。在现实应用中,存在多种不同的项目需要进行标准回复内容的预测,示例如人机对话项目中,需要预测机器的标准回复,机器阅读理解以及知识问答项目中,需要预测对给定问题的标准回复(又可称为标准答案)等。以人机对话为例,目前,研究者们已经研发出许多人机对话系统,在人工客服、家庭助手、学习指导等方面广泛应用。然而,当前的对话系统仍处于初步阶段,人机交互过程中,机器仅能够依据人机对话历史来预测标准回复,使得预测的标准回复质量不高。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种标准回复确定方法、装置、设备及存储介质,以解决现有技术预测的标注回复质量不高的问题。具体方案如下:一种标准回复确定方法,包括:获取待预测标准回复的目标项目的候选回复集合、所述目标项目相关的背景知识,及所述目标项目的项目数据;基于所述背景知识和所述项目数据,确定关注项目数据的背景知识的第一特征表示;基于所述背景知识、所述项目数据和所述每一候选回复,确定关注背景知识及项目数据的每一候选回复的第二特征表示;确定所述项目数据的第三特征表示,并基于所述第三特征表示、所述第一特征表示及所述每一候选回复的第二特征表示,确定每一候选回复作为标准回复的概率;基于各候选回复的概率,从中选取标准回复。优选地,所述第一特征表示、所述第二特征表示及所述第三特征表示的确定过程,包括:确定所述背景知识的编码特征、所述项目数据的编码特征及每一候选回复的编码特征;将所述项目数据的编码特征作为所述项目数据的第三特征表示;基于所述背景知识的编码特征和所述项目数据的编码特征,确定关注项目数据的背景知识的第一特征表示;基于所述背景知识的编码特征、所述项目数据的编码特征和所述每一候选回复的编码特征,确定关注背景知识及项目数据的每一候选回复的第二特征表示。优选地,所述基于所述背景知识的编码特征、所述项目数据的编码特征和所述每一候选回复的编码特征,确定关注背景知识及项目数据的每一候选回复的第二特征表示,包括:基于所述背景知识的编码特征和所述每一候选回复的编码特征,确定关注背景知识的每一候选回复的第四特征表示;基于所述项目数据的编码特征和所述每一候选回复的编码特征,确定关注项目数据的每一候选回复的第五特征表示;将每一候选回复的第四特征表示与第五特征表示进行拼接,得到关注背景知识及项目数据的每一候选回复的第二特征表示。优选地,所述确定所述背景知识的编码特征、所述项目数据的编码特征及每一候选回复的编码特征,包括:对所述背景知识中每条知识进行编码,并将各条知识的编码结果进行联合表示,得到背景知识的编码特征;对所述项目数据中每条语句进行编码,并将各条语句的编码结果进行联合表示,得到项目数据的编码特征;对每一候选回复进行编码,得到对应的编码特征。优选地,所述基于所述背景知识的编码特征和所述项目数据的编码特征,确定关注项目数据的背景知识的第一特征表示,包括:将所述项目数据的编码特征与所述背景知识的编码特征间进行交叉注意力计算,得到关注项目数据的背景知识的第一特征表示。优选地,所述基于所述背景知识的编码特征和所述每一候选回复的编码特征,确定关注背景知识的每一候选回复的第四特征表示,包括:将所述背景知识的编码特征与所述每一候选回复的编码特征进行交叉注意力计算,得到关注背景知识的每一候选回复的第四特征表示;所述基于所述项目数据的编码特征和所述每一候选回复的编码特征,确定关注项目数据的每一候选回复的第五特征表示,包括:将所述项目数据的编码特征与所述每一候选回复的编码特征进行交叉注意力计算,得到关注项目数据的每一候选回复的第五特征表示。优选地,所述目标项目为人机对话回复预测项目;所述背景知识包括人机对话回复预测项目相关的背景知识图谱,所述项目数据包括人机对话历史;所述获取待预测标准回复的目标项目的候选回复集合,包括:基于所述人机对话历史所涉及的两个历史对话目标及对话轮次,确定候选回复的目标分类标签;参考预先配置的标注有分类标签的机器回复训练语句,从中选取目标分类标签对应的机器回复训练语句,并基于此确定候选回复集合;其中,机器回复训练语句所标注的分类标签为,根据人机对话训练内容所涉及的两个对话目标及其中每条机器回复所处的对话轮次,确定的每条机器回复的分类标签。优选地,所述基于所述人机对话历史所涉及的两个历史对话目标及对话轮次,确定候选回复的目标分类标签,包括:确定所述人机对话历史所涉及的两个历史对话目标各自所属的领域,得到两个领域信息;基于所述人机对话历史的对话轮次,确定候选回复的对应的目标对话轮次;由所述两个领域信息及所述目标对话轮次,组成候选回复的目标分类标签。优选地,标注有分类标签的机器回复训练语句的配置过程,包括:获取训练集,所述训练集包括若干段人机对话训练内容,每段人机对话训练内容对应标记有对话目标信息,对话目标信息包含涉及的两个对话目标;对所述训练集中每句机器回复设定分类标签,所述分类标签包括两个领域信息及当前机器回复在所属人机对话训练内容段中的出现轮次,其中两个领域信息分别为当前机器回复对应的对话目标信息中两个对话目标各自所属的领域。优选地,预先配置的标注有分类标签的机器回复训练语句为经过规范化处理后的机器回复训练语句,该规范化处理过程包括,对机器回复训练语句中出现的对话目标及其属性值用设定标签替换;则,基于选取的目标分类标签对应的机器回复训练语句确定候选回复集合的过程,包括:在选取的目标分类标签对应的机器回复训练语句中,按照设定优先级顺序选取设定数目的机器回复训练语句,所述设定优先级顺序由高至低依次为:同时包含所述历史对话目标对应的标签及其属性值对应的标签、仅包含所述历史对话目标对应的标签,不包含所述历史对话目标对应的标签;将选取的设定数目的各条机器回复训练语句中,对话目标及其属性值对应的标签,分别用历史对话目标及其属性值进行替换,得到候选回复集合。一种标准回复确定装置,包括:数据获取单元,用于获取待预测标准回复的目标项目的候选回复集合、所述目标项目相关的背景知识,及所述目标项目的项目数据;第一特征表示确定单元,用于基于所述背景知识和所述项目数据,确定关注项目数据的背景知识的第一特征表示;第二特征表示确定单元,用于基于所述背景知识、所述项目数据和所述每一候选回复,确定关注背景知识及项目数据的每一候选回复的第二特征表示;第三特征表示确定单元,用于确定所述项目数据的第三特征表示;概率确定单元,用于基于所述第三特本文档来自技高网...

【技术保护点】
1.一种标准回复确定方法,其特征在于,包括:/n获取待预测标准回复的目标项目的候选回复集合、所述目标项目相关的背景知识,及所述目标项目的项目数据;/n基于所述背景知识和所述项目数据,确定关注项目数据的背景知识的第一特征表示;/n基于所述背景知识、所述项目数据和所述每一候选回复,确定关注背景知识及项目数据的每一候选回复的第二特征表示;/n确定所述项目数据的第三特征表示,并基于所述第三特征表示、所述第一特征表示及所述每一候选回复的第二特征表示,确定每一候选回复作为标准回复的概率;/n基于各候选回复的概率,从中选取标准回复。/n

【技术特征摘要】
1.一种标准回复确定方法,其特征在于,包括:
获取待预测标准回复的目标项目的候选回复集合、所述目标项目相关的背景知识,及所述目标项目的项目数据;
基于所述背景知识和所述项目数据,确定关注项目数据的背景知识的第一特征表示;
基于所述背景知识、所述项目数据和所述每一候选回复,确定关注背景知识及项目数据的每一候选回复的第二特征表示;
确定所述项目数据的第三特征表示,并基于所述第三特征表示、所述第一特征表示及所述每一候选回复的第二特征表示,确定每一候选回复作为标准回复的概率;
基于各候选回复的概率,从中选取标准回复。


2.根据权利要求1所述的方法,其特征在于,所述第一特征表示、所述第二特征表示及所述第三特征表示的确定过程,包括:
确定所述背景知识的编码特征、所述项目数据的编码特征及每一候选回复的编码特征;
将所述项目数据的编码特征作为所述项目数据的第三特征表示;
基于所述背景知识的编码特征和所述项目数据的编码特征,确定关注项目数据的背景知识的第一特征表示;
基于所述背景知识的编码特征、所述项目数据的编码特征和所述每一候选回复的编码特征,确定关注背景知识及项目数据的每一候选回复的第二特征表示。


3.根据权利要求2所述的方法,其特征在于,所述基于所述背景知识的编码特征、所述项目数据的编码特征和所述每一候选回复的编码特征,确定关注背景知识及项目数据的每一候选回复的第二特征表示,包括:
基于所述背景知识的编码特征和所述每一候选回复的编码特征,确定关注背景知识的每一候选回复的第四特征表示;
基于所述项目数据的编码特征和所述每一候选回复的编码特征,确定关注项目数据的每一候选回复的第五特征表示;
将每一候选回复的第四特征表示与第五特征表示进行拼接,得到关注背景知识及项目数据的每一候选回复的第二特征表示。


4.根据权利要求2所述的方法,其特征在于,所述确定所述背景知识的编码特征、所述项目数据的编码特征及每一候选回复的编码特征,包括:
对所述背景知识中每条知识进行编码,并将各条知识的编码结果进行联合表示,得到背景知识的编码特征;
对所述项目数据中每条语句进行编码,并将各条语句的编码结果进行联合表示,得到项目数据的编码特征;
对每一候选回复进行编码,得到对应的编码特征。


5.根据权利要求2所述的方法,其特征在于,所述基于所述背景知识的编码特征和所述项目数据的编码特征,确定关注项目数据的背景知识的第一特征表示,包括:
将所述项目数据的编码特征与所述背景知识的编码特征间进行交叉注意力计算,得到关注项目数据的背景知识的第一特征表示。


6.根据权利要求3所述的方法,其特征在于,所述基于所述背景知识的编码特征和所述每一候选回复的编码特征,确定关注背景知识的每一候选回复的第四特征表示,包括:
将所述背景知识的编码特征与所述每一候选回复的编码特征进行交叉注意力计算,得到关注背景知识的每一候选回复的第四特征表示;
所述基于所述项目数据的编码特征和所述每一候选回复的编码特征,确定关注项目数据的每一候选回复的第五特征表示,包括:
将所述项目数据的编码特征与所述每一候选回复的编码特征进行交叉注意力计算,得到关注项目数据的每一候选回复的第五特征表示。


7.根据权利要求1所述的方法,其特征在于,所述目标项目为人机对话回复预测项目;所述背景知识包括人机对话回复预测项目相关的背景知识图谱,所述项目数据包括人机对话历史;
所述获取待预测标准...

【专利技术属性】
技术研发人员:王可心李直旭刘庆升
申请(专利权)人:安徽淘云科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1