文本增强方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:30021328 阅读:14 留言:0更新日期:2021-09-11 06:42
本申请涉及一种文本增强方法和装置,该方法包括:接收多条原始对话数据,将每条原始对话数据中的每一轮对话解析为相应的单轮对话模板,单轮对话模板中包括单轮对话函数;将多条原始对话数据生成的具有相同单轮对话模板的单轮对话作为同一级节点,组成对话模板树,遍历对话模板树的每个节点,如果第一节点的当前对话槽和前一轮信念状态与上一级中的第二节点的相同,则将第一节点和第二节点相连接;遍历对话模板树,生成多条完整路径,每条完整路径由多个不同等级的节点组成,将完整路径上的多个节点对应的原始对话语句还原为自然语言,组成多个完整对话,作为增强后的任务型对话数据。本申请减少了很多的计算量,通用性强。通用性强。通用性强。

【技术实现步骤摘要】
文本增强方法、装置、计算机设备及存储介质


[0001]本申请涉及数据处理
,特别是涉及针对任务型对话数据的文本增强方法、装置、计算机设备和存储介质。

技术介绍

[0002]寿险很多业务场景需要用户按照预设的业务流程进行办理,比如保单贷款、保险方案咨询、外呼保费续收、增员面试考察等,这些场景可统称之为任务型场景。任务型机器人能够模拟业务员,以对话的方式引导和帮助用户完成这些业务。任务型机器人模拟业务员的能力是通过模型学习任务型对话数据获得的。而整段任务型对话数据的标注是非常耗时耗力的,为此人们已经想到一些针对句子级别的文本增强的方法,但是并不能解决任务型机器人对话学习的所有任务。
[0003]例如,中国专利技术专利CN112488164A公开的任务型对话文本增强系统,涉及文本处理
,包括同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块,其中,同义词替换模块用于用文本中各个词的同义词替换对应的词,生成第一训练数据;近义词替换模块用于用文本中各个词的近义词替换对应的词,生成第二训练数据;实体替换模块用于用文本中与各个实体类型相同的实体替换对应的实体,生成第三训练数据;噪声注入模块用于置空、交换、增加、删除文本的词,生成第四训练数据;文本混合模块用于混合第一训练数据、第二训练数据、第三训练数据、第四训练数据,得到第五训练数据,缓解了训练数据不足的问题,实现了进一步优化任务型对话系统的性能。
[0004]如上技术中,针对句子的文本增强技术有明显的缺陷是:这些文本增强方法都只针对句子级别进行增强,主要是用于加强辅助文本分类,在任务型机器人中用于用户意图理解。但是对于任务型机器人文本分类只是其中一部分任务,任务型机器人还需要槽值填充、对话状态管理等技术。针对句子级的文本增强技术并不能对槽值填充和对话状态管理等提供数据支持。

技术实现思路

[0005]基于此,本申请提供一种针对任务型对话数据的文本增强方法、装置、计算机设备和存储介质。
[0006]第一方面提供了一种文本增强方法,包括:
[0007]接收多条原始对话数据,将每条所述原始对话数据中的每一轮对话解析为相应的单轮对话模板,所述单轮对话模板中包括单轮对话函数,所述单轮对话函数包括如下元素:当前信念状态、前一轮信念状态、当前对话槽、下一轮对话槽;
[0008]将多条所述原始对话数据中的具有相同单轮对话模板的单轮对话作为同一级节点,组成对话模板树,遍历所述对话模板树的每个节点,如果第一节点的当前对话槽与上一级中的第二节点的下一轮对话槽相同,并且所述第一节点的前一轮信念状态与所述上一级的第二节点的当前信念状态相同,则将所述第一节点和第二节点相连接;
[0009]遍历所述对话模板树,按照等级由高到低的顺序沿着节点连线生成多条完整路径,每条所述完整路径由多个不同等级的节点组成,将所述完整路径上的多个节点对应的原始对话语句按照由高到低的等级进行顺序组合,组成多个完整对话,作为增强后的任务型对话数据。
[0010]进一步地,所述信念状态包含所述原始对话数据中的所有语义关键信息。
[0011]进一步地,所述对话槽包含所述原始对话数据中单轮对话的唯一语义关键信息。
[0012]进一步地,所述对话模板树由多个等级的节点分级连线而组成,每个等级内部的节点的单轮对话模板所包含的单轮对话函数相同。
[0013]进一步地,在所述对话模板树中,每个节点代表所述原始对话数据中的一轮对话,等级高一级的节点作为下一个等级的父节点,并且当前节点的对话槽与父节点的下一轮对话槽相同,而当前节点的前一轮信念状态与父节点的当前信念状态相同。
[0014]进一步地,在每一条完整路径中,所述语义关键信息通过人工标注或机器自动标注而获得。
[0015]进一步地,所述将所述完整路径上的多个节点对应的原始对话语句还原为自然语言,组成多个完整对话,包括:
[0016]所述完整路径上的每个节点对应的原始对话语句为多条;
[0017]从多条原始对话语句中随机抽取一条还原为自然语言;
[0018]整合每个节点对应的自然语言,组成一个完整对话;
[0019]重复以上过程,组成多个完整对话。
[0020]第二方面提供了一种文本增强装置,包括:
[0021]单论对话模板生成模块,用于接收多条原始对话数据,将每条所述原始对话数据中的每一轮对话解析为相应的单轮对话模板,所述单轮对话模板中包括单轮对话函数,所述单轮对话函数包括如下元素:当前信念状态、前一轮信念状态、当前对话槽、下一轮对话槽;
[0022]对话模板树生成模块,用于将多条所述原始对话数据中的具有相同单轮对话模板的单轮对话作为同一级节点,组成对话模板树,遍历所述对话模板树的每个节点,如果第一节点的当前对话槽与上一级中的第二节点的下一轮对话槽相同,并且所述第一节点的前一轮信念状态与所述上一级的第二节点的当前信念状态相同,则将所述第一节点和第二节点相连接;
[0023]新对话合成模块,用于遍历所述对话模板树,按照等级由高到低的顺序沿着节点连线生成多条完整路径,每条所述完整路径由多个不同等级的节点组成,将所述完整路径上的多个节点对应的原始对话语句按照由高到低的等级进行顺序组合,组成多个完整对话,作为增强后的任务型对话数据。
[0024]第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述针对任务型对话数据的文本增强方法的步骤。
[0025]第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被一个或多个处理器执行时,实现如第一方面所述文本增强方法的步骤。
[0026]上述针对任务型对话数据的文本增强方法、装置、计算机设备和存储介质,相对于现有技术具有如下优势:
[0027]1、针对任务型对话的文本增强技术比原来针对句子的文本增强的方法简单,不用使用大规模的预训练模型,只需在现有任务型对话数据基础上形成模板,启发式的进行文本增强,减少了很多的计算量。
[0028]2、针对任务型对话的文本增强技术比原来针对句子的文本增强的更具有通用性,原来针对句子的文本增强只能对意图理解的下游任务有帮助作用。针对任务型对话文本增强技术最终增强的是一整段完成对话,可用于任何对话任务,如意图理解、槽值填充、对话状态管理等多个模型的训练。
附图说明
[0029]图1为一个实施例中计算机设备的内部结构框图;
[0030]图2为本申请的任务型对话数据文本增强关键原理示意图;
[0031]图3为一个实施例中针对任务型对话数据的文本增强方法的第一个实施方式的流程图;
[0032]图4为一条原始对话数据的模板解析过程示意图;
[0033]图5为对话模板树生成示意图;
[0034]图6为合成新对话过程示意图;
[0035]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本增强方法,其特征在于,包括:接收多条原始对话数据,将每条所述原始对话数据中的每一轮对话解析为相应的单轮对话模板,所述单轮对话模板中包括单轮对话函数,所述单轮对话函数包括如下元素:当前信念状态、前一轮信念状态、当前对话槽、下一轮对话槽;将多条所述原始对话数据中的具有相同单轮对话模板的单轮对话作为同一级节点,组成对话模板树,遍历所述对话模板树的每个节点,如果第一节点的当前对话槽与上一级中的第二节点的下一轮对话槽相同,并且所述第一节点的前一轮信念状态与所述上一级的第二节点的当前信念状态相同,则将所述第一节点和第二节点相连接;遍历所述对话模板树,按照等级由高到低的顺序沿着节点连线生成多条完整路径,每条所述完整路径由多个不同等级的节点组成,将所述完整路径上的多个节点对应的原始对话语句按照由高到低的等级进行顺序组合,组成多个完整对话,作为增强后的任务型对话数据。2.如权利要求1所述的文本增强方法,其特征在于,所述信念状态包含所述原始对话数据中的所有语义关键信息。3.如权利要求1所述的文本增强方法,其特征在于,所述对话槽包含所述原始对话数据中单轮对话的唯一语义关键信息。4.如权利要求1所述的文本增强方法,其特征在于,所述对话模板树由多个等级的节点分级连线而组成,每个等级内部的节点的单轮对话模板所包含的单轮对话函数相同。5.如权利要求4所述的文本增强方法,其特征在于,在所述对话模板树中,每个节点代表所述原始对话数据中的一轮对话,等级高一级的节点作为下一个等级的父节点,并且当前节点的对话槽与父节点的下一轮对话槽相同,而当前节点的前一轮信念状态与父节点的当前信念状态相同。6.如权利要求2或3所述的文本增强方法,其特征在于,所述语义关键信息通过人工标注或机器自动标注而获得。7.如权利要求1所述的文本增强...

【专利技术属性】
技术研发人员:黄海龙
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1