用于生成对话语句的方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:32474191 阅读:13 留言:0更新日期:2022-03-02 09:35
本公开实施例公开了一种用于生成对话语句的方法、装置、设备、介质和程序,其中,方法包括:响应于用户发送的当前语句,生成当前语句的词集合;确定词元素的第一重要性权重;基于当前对话场景中的历史对话语句的语义关系,确定词元素的第二重要性权重;基于第一重要性权重和第二重要性权重,确定词元素的重要性参数;确定当前语句的语料召回池,语料召回池中的候选回复语料包括基于重要性参数从第一索引库中检索出的第一语料以及基于历史对话语句与预设语料的相似度从第二索引库中检索出的第二语料;将语料召回池中与当前语句的匹配程度最高的候选回复语料确定为目标回复语句。可以充分利用历史对话记录中的上下文信息,从而提高对话质量。而提高对话质量。而提高对话质量。

【技术实现步骤摘要】
用于生成对话语句的方法、装置、设备、介质和程序产品


[0001]本公开涉及一种用于生成对话语句的方法、装置、电子设备、存储介质和计算机程序。

技术介绍

[0002]目前,智能会话系统(例如机器人客服、聊天机器人等)在日常生活中的应用越来越广泛,例如可以用来满足家庭陪护、医疗、教育、政务机关、银行、旅游等行业场景的需求。通常,智能会话系统在接收到用户发送的语句后,可以自动生成相应的回复,以此实现人与机器之间的对话。在这个过程中,智能会话系统生成的回复与用户发送的语句之间的匹配程度,直接关系到人与机器之间的对话质量。
[0003]相关技术中,智能会话系统通常是针对用户在单轮对话中发送的语句,从预先构建的语料库中检索出对应的回复语句,以此实现智能对话。

技术实现思路

[0004]本公开实施例提供一种一种用于生成对话语句的方法、装置、电子设备、存储介质和计算机程序,以提高智能对话系统中对话语句的针对性。
[0005]本公开实施例的一个方面,提供一种用于生成对话语句的方法,包括:响应于用户发送的当前语句,生成当前语句的词集合,词集合中的词元素包括对当前语句分词得到的词语以及基于词语构建的词组;确定词元素的第一重要性权重;基于当前对话场景中的历史对话语句的语义关系,确定词元素的第二重要性权重;基于第一重要性权重和第二重要性权重,确定词元素的重要性参数;确定当前语句的语料召回池,语料召回池中的候选回复语料包括基于重要性参数从第一索引库中检索出的第一语料以及基于历史对话语句与预设语料的相似度从第二索引库中检索出的第二语料;将语料召回池中与当前语句的匹配程度最高的候选回复语句确定为目标回复语句。
[0006]在一些实施例中,将语料召回池中与当前语句的匹配程度最高的候选回复语句确定为目标回复语句,包括:将候选回复语料、当前语句和历史对话语句输入预先训练的至少一个语料确定模型,确定第一特征向量以及候选回复语料对应的第二特征向量和第三特征向量,其中,第一特征向量表征当前语句与历史对话语句拼接得到的句子的句向量,第二特征向量表征将候选回复语料与历史对话语句拼接得到的句子的句向量,第三特征向量表征候选回复语料的句向量;将第一特征向量以及候选回复语料对应的第二特征向量和第三特征向量拼接,得到候选回复语料的目标特征向量;将目标特征向量输入全连接层,估计候选回复语料分别对应于预设的各优先级标签的置信度,优先级标签表征候选回复语料与当前语句的匹配程度;将各置信度输入预先构建的分类器,确定候选回复语料的优先级标签;基于优先级标签,从语料召回池中确定目标回复语句。
[0007]在一些实施例中,至少一个语料确定模型经由如下步骤训练得到:从样本对话日志中提取样本语句;基于对话次序,从样本对话日志中确定每个样本语句对应的第一预设
数量个回复语句以及第二预设数量个样本历史对话语句,其中,第一预设数量个回复语句发生在样本语句之后且与样本语句的对话次序相邻,第二预设数量个样本历史对话语句发生在样本语句之前;基于预设的优先级标签,分别对第一预设数量个回复语句标记样本标签,得到第一预设数量个样本回复语句;基于样本语句、第一预设数量个样本回复语句以及第二预设数量个样本历史对话语句,构建样本语料,得到样本集;将样本集中的样本语料输入预先构建的至少一个初始语料确定模型,将样本回复语句的样本标签作为期望输出,训练初始语料确定模型,得到至少一个语料确定模型。
[0008]在一些实施例中,将样本集中的样本语料输入预先构建的至少一个初始语料确定模型,将样本回复语句的样本标签作为期望输出,训练初始语料确定模型,得到至少一个语料确定模型,包括:确定样本语句的语义类型;基于样本语句的语义类型,从样本集中确定多个样本子集,每个样本子集仅包括一种语义类型的样本语句构成的样本语料;基于每个样本子集训练一个预先构建的初始语料确定模型,得到与多个样本子集一一对应的多个语料确定模型,每个语料确定模型对应一种语义类型。
[0009]在一些实施例中,将候选回复语料、当前语句和历史对话语句输入预先构建的至少一个语料确定模型,包括:确定候选回复语料的语义类型;将至少一个语料确定模型中与候选回复语料的语义模型对应的语料确定模型作为目标语料确定模型;将候选回复语料、当前语句和历史对话语句输入目标语料确定模型。
[0010]在一些实施例中,词元素还包括词语的同义词。
[0011]在一些实施例中,生成当前语句的词集合,包括:从当前语句中检测出信息指向词;从历史对话语句中确定信息指向词指向的历史信息;将当前语句中的信息指向词替换为历史信息,得到更新后的当前语句;对更新后的当前语句分词,得到更新后的当前语句对应的词语集合;基于语义关系,将词语集合中的词语组合成词组,得到更新后的当前语句对应的词组集合;合并词语集合和词组集合,得到当前语句的词集合。
[0012]在一些实施例中,该方法还包括:将词集合中满足预设条件的词元素删除,预设条件为:出现次数大于第一预设阈值或小于第二预设阈值,第二预设阈值小于第一预设阈值。
[0013]本公开实施例的又一个方面,提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行存储器中存储的计算机程序,且计算机程序被执行时,实现上述任一实施例中用于生成对话语句的方法。
[0014]本公开实施例的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中用于生成对话语句的方法。
[0015]本公开实施例的又一个方面,提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述任一实施例中用于生成对话语句的方法。
[0016]本公开的实施例提供的用于生成对话语句的方法,响应于用户发送的当前语句,生成当前语句的词集合;之后,确定词集合中词元素的第一重要性权重,并根据历史对话语句的语义关系,确定词元素的第二重要性权重;然后,基于第一重要性权重和第二重要性权重,确定词元素的重要性参数;再之后,基于重要性参数以及历史对话语句与预设语料的相似程度分别从第一索引库和第二索引库中确定第一语料和第二语料,并以此构建语料召回池;最后,从语料召回池中确定与当前语句的匹配程度最高的目标回复语句。通过历史对话语句的语义关系确定词元素的第二重要性权重,并基于历史对话语句与预设语料的相似度
检索出第二语料,实现了对上下文信息的充分利用,可以提高目标回复语句与当前语句在内容上的一致性,从而提高对话质量。
[0017]下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
[0018]构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
[0019]参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
[0020]图1为本公开的用于生成对话语句的方法的一个应用场景的示意图;
[0021]图2为本公开的用于生成对话语句的方法的一个实施例的流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于生成对话语句的方法,其特征在于,包括:响应于用户发送的当前语句,生成所述当前语句的词集合,所述词集合中的词元素包括对所述当前语句分词得到的词语以及基于所述词语构建的词组;确定所述词元素的第一重要性权重;基于当前对话场景中的历史对话语句的语义关系,确定所述词元素的第二重要性权重;基于所述第一重要性权重和所述第二重要性权重,确定所述词元素的重要性参数;确定所述当前语句的语料召回池,所述语料召回池中的候选回复语料包括基于所述重要性参数从第一索引库中检索出的第一语料以及基于所述历史对话语句与预设语料的相似度从第二索引库中检索出的第二语料;将所述语料召回池中与所述当前语句的匹配程度最高的候选回复语料确定为目标回复语句。2.根据权利要求1所述的方法,其特征在于,将所述语料召回池中与所述当前语句的匹配程度最高的候选回复语料确定为目标回复语句,包括:将所述候选回复语料、所述当前语句和所述历史对话语句输入预先训练的至少一个语料确定模型,确定第一特征向量以及所述候选回复语料对应的第二特征向量和第三特征向量,其中,所述第一特征向量表征所述当前语句与所述历史对话语句拼接得到的句子的句向量,所述第二特征向量表征将所述候选回复语料与所述历史对话语句拼接得到的句子的句向量,所述第三特征向量表征所述候选回复语料的句向量;将所述第一特征向量、所述第二特征向量和所述第三特征向量拼接,得到所述候选回复语料的目标特征向量;将所述目标特征向量输入全连接层,估计所述候选回复语料分别对应于预设的各优先级标签的置信度,所述优先级标签表征所述候选回复语料与所述当前语句的匹配程度;将各所述置信度输入预先构建的分类器,确定所述候选回复语料的优先级标签;基于所述优先级标签,从所述语料召回池中确定所述目标回复语句。3.根据权利要求2所述的方法,其特征在于,所述至少一个语料确定模型经由如下步骤训练得到:从样本对话日志中提取样本语句;基于对话次序,从所述样本对话日志中确定每个所述样本语句对应的第一预设数量个回复语句以及第二预设数量个样本历史对话语句,其中,所述第一预设数量个回复语句发生在所述样本语句之后且与所述样本语句的对话次序相邻,所述第二预设数量个样本历史对话语句发生在所述样本语句之前;基于预设的优先级标签,分别对所述第一预设数量个回复语句标记样本标签,得到第一预设数量个样本回复语句;基于所述样本语句、所述第一预设数量个样本回复语句以及所述第二预设数量个样本历史对话语句,构建样本语料,得到样本集;将所述样本集中的样本语料输入预先构建的至少一个初始语料确定模型,将所述样本回复语句的样本标签作为期...

【专利技术属性】
技术研发人员:王文彬
申请(专利权)人:北京房江湖科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1