文本增强方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：30021328 阅读：14 留言：0更新日期：2021-09-11 06:42

本申请涉及一种文本增强方法和装置，该方法包括：接收多条原始对话数据，将每条原始对话数据中的每一轮对话解析为相应的单轮对话模板，单轮对话模板中包括单轮对话函数；将多条原始对话数据生成的具有相同单轮对话模板的单轮对话作为同一级节点，组成对话模板树，遍历对话模板树的每个节点，如果第一节点的当前对话槽和前一轮信念状态与上一级中的第二节点的相同，则将第一节点和第二节点相连接；遍历对话模板树，生成多条完整路径，每条完整路径由多个不同等级的节点组成，将完整路径上的多个节点对应的原始对话语句还原为自然语言，组成多个完整对话，作为增强后的任务型对话数据。本申请减少了很多的计算量，通用性强。通用性强。通用性强。

全部详细技术资料下载

【技术实现步骤摘要】
文本增强方法、装置、计算机设备及存储介质

[0001]本申请涉及数据处理
，特别是涉及针对任务型对话数据的文本增强方法、装置、计算机设备和存储介质。

技术介绍

[0002]寿险很多业务场景需要用户按照预设的业务流程进行办理，比如保单贷款、保险方案咨询、外呼保费续收、增员面试考察等，这些场景可统称之为任务型场景。任务型机器人能够模拟业务员，以对话的方式引导和帮助用户完成这些业务。任务型机器人模拟业务员的能力是通过模型学习任务型对话数据获得的。而整段任务型对话数据的标注是非常耗时耗力的，为此人们已经想到一些针对句子级别的文本增强的方法，但是并不能解决任务型机器人对话学习的所有任务。
[0003]例如，中国专利技术专利CN112488164A公开的任务型对话文本增强系统，涉及文本处理
，包括同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块，其中，同义词替换模块用于用文本中各个词的同义词替换对应的词，生成第一训练数据；近义词替换模块用于用文本中各个词的近义词替换对应的词，生成第二训练数据；实体替换模块用于用文本中与各个实体类型相同的实体替换对应的实体，生成第三训练数据；噪声注入模块用于置空、交换、增加、删除文本的词，生成第四训练数据；文本混合模块用于混合第一训练数据、第二训练数据、第三训练数据、第四训练数据，得到第五训练数据，缓解了训练数据不足的问题，实现了进一步优化任务型对话系统的性能。
[0004]如上技术中，针对句子的文本增强技术有明显的缺陷是：这些文本增强方法都只针...

【技术保护点】

【技术特征摘要】
1.一种文本增强方法，其特征在于，包括：接收多条原始对话数据，将每条所述原始对话数据中的每一轮对话解析为相应的单轮对话模板，所述单轮对话模板中包括单轮对话函数，所述单轮对话函数包括如下元素：当前信念状态、前一轮信念状态、当前对话槽、下一轮对话槽；将多条所述原始对话数据中的具有相同单轮对话模板的单轮对话作为同一级节点，组成对话模板树，遍历所述对话模板树的每个节点，如果第一节点的当前对话槽与上一级中的第二节点的下一轮对话槽相同，并且所述第一节点的前一轮信念状态与所述上一级的第二节点的当前信念状态相同，则将所述第一节点和第二节点相连接；遍历所述对话模板树，按照等级由高到低的顺序沿着节点连线生成多条完整路径，每条所述完整路径由多个不同等级的节点组成，将所述完整路径上的多个节点对应的原始对话语句按照由高到低的等级进行顺序组合，组成多个完整对话，作为增强后的任务型对话数据。2.如权利要求1所述的文本增强方法，其特征在于，所述信念状态包含所述原始对话数据中的所有语义关键信息。3.如权利要求1所述的文本增强方法，其特征在于，所述对话槽包含所述原始对话数据中单轮对话的唯一语义关键信息。4.如权利要求1所述的文本增强方法，其特征在于，所述对话模板树由多个等级的节点分级连线而组成，每个等级内部的节点的单轮对话模板所包含的单轮对话函数相同。5.如权利要求4所述的文本增强方法，其特征在于，在所述对话模板树中，每个节点代表所述原始对话数据中的一轮对话，等级高一级的节点作为下一个等级的父节点，并且当前节点的对话槽与父节点的下一轮对话槽相同，而当前节点的前一轮信念状态与父节点的当前信念状态相同。6.如权利要求2或3所述的文本增强方法，其特征在于，所述语义关键信息通过人工标注或机器自动标注而获得。7.如权利要求1所述的文本增强...

【专利技术属性】
技术研发人员：黄海龙，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人