文本数据处理方法、模型训练方法、装置及介质制造方法及图纸

技术编号:37124871 阅读:16 留言:0更新日期:2023-04-01 05:21
本公开提供了一种文本数据处理方法、模型训练方法、装置及介质,涉及人工智能技术领域,尤其涉及文本数据处理、深度学习、自然语言处理和对话系统领域。实现方案为:基于用户的输入文本,生成用于回复输入文本的原始文本;获取目标风格信息;以及基于原始文本和目标风格信息,生成与目标风格相应的目标文本。生成与目标风格相应的目标文本。生成与目标风格相应的目标文本。

【技术实现步骤摘要】
文本数据处理方法、模型训练方法、装置及介质


[0001]本公开涉及人工智能
,尤其涉及文本数据处理、深度学习、自然语言处理和对话系统领域,具体涉及一种文本数据处理方法、模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]在对话闲聊系统中,对话机器人除了需要依据用户的表达生成合理且内容丰富的回复外,用户对机器人的回复风格也有很强的感知需求,例如普通回复“我不是笨蛋,我是聪明蛋”和活泼风格的回复“我可不是笨蛋哦,我是聪明蛋呢”能给用户完全不一样的使用体验,让机器人拥有贴近真人的表达方式一直是对话系统追求的目标之一。现在很多对话机器人其实已经拥有不同风格的TTS(Text To Speech,从文本到语音)语音包,TTS的源头仍旧是文本,因此,无论是保证文本和语音在风格上的一致性,还是机器人历史所有回复的风格一致性,都能让用户在对话过程中感受到屏幕前这个机器人具备的人设风格和表达特色。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种文本数据处理方法、模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种文本数据处理方法,包括:基于用户的输入文本,生成用于回复输入文本的原始文本;获取目标风格信息,目标风格信息包括目标风格标签和目标风格词典中的至少一者,目标风格标签用于指示原始文本所需转换的目标风格,目标风格词典中包括与目标风格相应的至少一个语料文本;以及基于原始文本和目标风格信息,生成与目标风格相应的目标文本。
[0007]根据本公开的另一方面,提供了一种模型训练方法,模型用于将原始文本转换为目标风格的文本,包括:获取样本数据集,其中,样本数据集包括至少一个样本文本对,至少一个样本文本对中的每个样本文本对包括原始样本文本和与目标风格相应的目标样本文本;针对至少一个样本文本对中的每个样本文本对,获取该样本文本对相应的标注序列,标注序列包括分别与该样本文本对中原始样本文本的至少一个字符相应的至少一个操作标
签,至少一个操作标签包括保留标签和修改标签,保留标签用于指示相较于样本文本对中目标样本文本的需要保留的字符,修改标签包括插入标签,插入标签用于指示相较于目标样本文本的原始样本文本中需要插入的字符;将至少一个样本文本对中的每个样本文本对相应的标注序列中的插入标签所对应的字符确定为语料文本,以构建与目标风格相应的目标风格词典;以及针对样本数据集中的每个样本文本对,执行下述操作:将目标风格词典中的语料文本、该样本文本对中的原始样本文本、目标样本文本输入模型,以获取模型输出的标注序列预测结果;以及基于标注序列预测结果以及与该样本文本对相应的标注序列训练模型。
[0008]根据本公开的另一方面,提供了一种模型训练方法,包括:获取样本数据集,样本数据集包括多个目标风格标签,以及与多个目标风格标签中每个目标风格标签相应的至少一个样本文本对,每个样本文本对包括原始样本文本和具备相应目标风格的目标样本文本;以及针对样本数据集中的每个样本文本对,执行下述操作:将该样本文本对中的原始样本文本、目标样本文本以及该样本文本对相应的目标风格标签输入模型,以获取模型输出的目标文本预测结果;以及基于目标文本预测结果以及该样本文本对中的目标样本文本训练模型。
[0009]根据本公开的另一方面,提供了一种文本数据处理装置,包括:第一生成单元,被配置为基于用户的输入文本,生成用于回复输入文本的原始文本;第一获取单元,被配置为获取目标风格信息,目标风格信息包括目标风格标签和目标风格词典中的至少一者,目标风格标签用于指示原始文本所需转换的目标风格,目标风格词典中包括与目标风格相应的至少一个语料文本;以及第二生成单元,被配置为基于原始文本和目标风格信息,生成与目标风格相应的目标文本。
[0010]根据本公开的另一方面,提供了一种模型训练装置,模型用于将原始文本转换为目标风格的文本,包括:第二获取单元,被配置为获取样本数据集,其中,样本数据集包括至少一个样本文本对,至少一个样本文本对中的每个样本文本对包括原始样本文本和与目标风格相应的目标样本文本;第三获取单元,被配置为针对至少一个样本文本对中的每个样本文本对,获取该样本文本对相应的标注序列,标注序列包括分别与该样本文本对中原始样本文本的至少一个字符相应的至少一个操作标签,至少一个操作标签包括保留标签和修改标签,保留标签用于指示相较于样本文本对中目标样本文本的需要保留的字符,修改标签包括插入标签,插入标签用于指示相较于目标样本文本的原始样本文本中需要插入的字符;确定单元,被配置为将至少一个样本文本对中的每个样本文本对相应的标注序列中的插入标签所对应的字符确定为语料文本,以构建与目标风格相应的目标风格词典;以及第一执行单元,被配置为针对样本数据集中的每个样本文本对,执行下述子单元的操作,第一执行单元包括:第一输入子单元,被配置为将目标风格词典中的语料文本、该样本文本对中的原始样本文本、目标样本文本输入模型,以获取模型输出的标注序列预测结果;以及第一训练子单元,被配置为基于标注序列预测结果以及与该样本文本对相应的标注序列训练模型。
[0011]根据本公开的另一方面,提供了一种模型训练装置,包括:第四获取单元,被配置为获取样本数据集,样本数据集包括多个目标风格标签,以及与多个目标风格标签中每个目标风格标签相应的至少一个样本文本对,每个样本文本对包括原始样本文本和具备相应
目标风格的目标样本文本;以及第二执行单元,被配置为针对样本数据集中的每个样本文本对,执行下述子单元的操作,第二执行单元包括:第二输入子单元,被配置为将该样本文本对中的原始样本文本、目标样本文本以及该样本文本对相应的目标风格标签输入模型,以获取模型输出的目标文本预测结果;以及第二训练子单元,被配置为基于目标文本预测结果以及该样本文本对中的目标样本文本,训练模型。
[0012]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述文本数据处理方法或模型训练方法。
[0013]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据处理方法,包括:基于用户的输入文本,生成用于回复所述输入文本的原始文本;获取目标风格信息,所述目标风格信息包括目标风格标签和目标风格词典中的至少一者,所述目标风格标签用于指示所述原始文本所需转换的目标风格,所述目标风格词典中包括与所述目标风格相应的至少一个语料文本;以及基于所述原始文本和所述目标风格信息,生成与所述目标风格相应的目标文本。2.根据权利要求1所述的方法,其中,所述基于所述原始文本和所述目标风格信息,生成与所述目标风格相应的目标文本包括:基于所述目标风格标签,确定与所述目标风格相应的第一模型,所述第一模型基于至少一个第一样本文本对和所述目标风格词典训练获得,所述至少一个第一样本文本对中的每个第一样本文本对包括第一原始文本和与所述目标风格相应的第一目标文本;获取所述原始文本的字符序列,所述字符序列包括所述原始文本的至少一个字符;基于所述目标风格词典,利用所述第一模型对所述字符序列进行序列标注,以获得标注序列,其中,所述标注序列包括分别与所述至少一个字符相应的至少一个操作标签,所述至少一个操作标签包括保留标签和插入标签,所述保留标签用于指示保留所述保留标签相应的字符,所述插入标签与所述至少一个语料文本中的一者对应并且用于指示将相应语料文本插入所述字符序列中;以及基于所述标注序列,生成所述目标文本。3.根据权利要求2所述的方法,其中,所述至少一个字符的数量为多个,所述至少一个操作标签包括保留标签,以及插入标签和删除标签中的至少一者,所述删除标签用于指示将所述删除标签相应的字符从所述字符序列中删除。4.根据权利要求2或3所述的方法,其中,所述目标风格词典还包括参考信息,所述参考信息包括所述至少一个语料文本中每个语料文本相应的第一操作标签和使用概率中的至少一者,所述第一操作标签用于指示相应语料文本对应的操作为插入或删除,所述使用概率基于构建所述目标风格词典时相应语料文本的出现频次确定,所述基于所述目标风格词典,利用所述第一模型对所述字符序列进行序列标注,以获得标注序列包括:基于所述目标风格词典中的所述至少一个语料文本和所述参考信息,利用所述第一模型对所述字符序列进行序列标注,以获得所述标注序列。5.根据权利要求1所述的方法,其中,所述基于所述原始文本和所述目标风格信息,生成与所述目标风格相应的目标文本包括:将所述目标风格标签和所述原始文本输入第二模型,以获取所述第二模型输出的所述目标文本,其中,所述第二模型基于多个风格标签以及与所述多个风格标签中的每个风格标签相应的至少一个第二样本文本对训练获得,所述至少一个第二样本文本对中的每个第二样本文本对包括第二原始文本和与相应风格标签对应的第二目标文本。6.一种模型训练方法,所述模型用于将原始文本转换为目标风格的文本,所述方法包括:获取样本数据集,其中,所述样本数据集包括至少一个样本文本对,所述至少一个样本文本对中的每个样本文本对包括原始样本文本和与所述目标风格相应的目标样本文本;针对所述至少一个样本文本对中的每个样本文本对,获取该样本文本对相应的标注序
列,所述标注序列包括分别与该样本文本对中原始样本文本的至少一个字符相应的至少一个操作标签,所述至少一个操作标签包括保留标签和修改标签,所述保留标签用于指示相较于样本文本对中目标样本文本的需要保留的字符,所述修改标签包括插入标签,所述插入标签用于指示相较于目标样本文本的原始样本文本中需要插入的字符;将所述至少一个样本文本对中的每个样本文本对相应的标注序列中的插入标签所对应的字符确定为语料文本,以构建与所述目标风格相应的目标风格词典;以及针对所述样本数据集中的每个样本文本对,执行下述操作:将所述目标风格词典中的语料文本、该样本文本对中的原始样本文本、目标样本文本输入所述模型,以获取所述模型输出的标注序列预测结果;以及基于所述标注序列预测结果以及与该样本文本对相应的标注序列,训练所述模型。7.根据权利要求6所述的方法,其中,所述至少一个字符的数量为多个,所述修改标签包括插入标签和删除标签中的至少一者,所述删除标签用于指示相较于目标样本文本的原始样本文本中需要删除的字符。8.根据权利要求6或7所述的方法,其中,所述目标风格词典中还包括每个语料文本相应的修改标签。9.根据权利要求6至8中任一项所述的方法,其中,所述构建与所述目标风格相应的目标风格词典还包括:统计所述至少一个样本文本对中的每个样本文本对相应的标注序列中的插入标签所对应的字符的出现频率,以获取按照出现频率排序的至少一个第一字符;基于出现频率最高的预设数量的第一字符构建所述目标风格词典,以将其余第一字符删除;将删除的第一字符相应的样本文本对删除,以更新所述样本数据集;以及基于更新后的样本数据集训练所述模型。10.一种模型训练方法,包括:获取样本数据集,所述样本数据集包括多个目标风格标签,以及与所述多个目标风格标签中每个目标风格标签相应的至少一个样本文本对,每个样本文本对包括原始样本文本和具备相应目标风格的目标样本文本;以及针对所述样本数据集中的每个样本文本对,执行下述操作:将该样本文本对中的原始样本文本、目标样本文本以及该样本文本对相应的目标风格标签输入所述模型,以获取所述模型输出的目标文本预测结果;以及基于所述目标文本预测结果以及该样本文本对中的目标样本文本,训练所述模型。11.一种文本数据处理装置,包括:第一生成单元,被配置为基于用户的输入文本,生成用于回复所述输入文本的原始文本;第一...

【专利技术属性】
技术研发人员:高杨帆孙辉丰孙叔琦常月
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1