语料训练数据生成方法及装置、文本风格转换方法及装置制造方法及图纸

技术编号:37380253 阅读:10 留言:0更新日期:2023-04-27 07:22
本公开提供了一种语料训练数据生成方法及装置、文本风格转换方法及装置,语料训练数据生成方法首先获取通过第一语言表达的第一语料,然后对第一语料进行翻译得到通过第二语言表达的中间语料,之后对中间语料进行k次翻译得到通过第一语言表达的第二语料,其中,k≥1,第二语料与第一语料的语义相同且文本风格不同,最后依据第一语料和第二语料生成训练用的语料对,采用翻译的方式进行相关语料的生成和扩增,能够自动化地快速生成大量的文本风格转换模型的训练语料,节省了时间和人力成本,并且生成的训练语料质量和可读性较高。并且生成的训练语料质量和可读性较高。并且生成的训练语料质量和可读性较高。

【技术实现步骤摘要】
语料训练数据生成方法及装置、文本风格转换方法及装置


[0001]本公开涉及文本生成
,尤其涉及语料训练数据生成方法及装置、文本风格转换方法及装置。

技术介绍

[0002]训练数据是深度学习模型的血液,训练数据的数量和质量,直接影响着模型的性能。在中文文本生成领域,用于文风转换及润色模型的训练数据是较为匮乏的。并且对于结构较大的模型来说,其学习时所需训练数据的数量级别往往在百万或千万以上,若采取人工标注的方式来产生训练数据,则效率较低且成本较高,质量一致性也无法保证。
[0003]目前,生成语料训练数据的方法主要采用直接噪声法,将噪声语料引入到原始语句中。然而这种方法产生的语句往往不具备可读性,与人产生的真实数据相差甚远。

技术实现思路

[0004]为了解决上述技术问题中的至少一个,本公开提供了语料训练数据生成方法及装置、文本风格转换方法及装置。
[0005]本公开第一方面提出了一种语料训练数据生成方法,包括:获取通过第一语言表达的第一语料;对所述第一语料进行翻译得到通过第二语言表达的中间语料;对所述中间语料进行k次翻译得到通过第一语言表达的第二语料,其中,k≥1,所述第二语料与所述第一语料的语义相同且文本风格不同;依据所述第一语料和所述第二语料生成训练用的语料对。
[0006]根据本公开的一个实施方式,对所述第一语料进行翻译得到通过第二语言表达的中间语料,包括:通过不同的翻译工具分别对所述第一语料进行翻译,得到多个通过第二语言表达的中间语料。
[0007]根据本公开的一个实施方式,在k=1时,对所述第一语料进行的翻译与对所述中间语料进行的翻译的翻译方向相反。
[0008]根据本公开的一个实施方式,在k>1时,对所述中间语料进行多次翻译的翻译方向中的目的语言不完全相同,最后一次对所述中间语料进行翻译的翻译方向中的目的语言为所述第一语言。
[0009]根据本公开的一个实施方式,每次对所述中间语料进行翻译时,翻译方向中的目的语言各不相同。
[0010]根据本公开的一个实施方式,在对每个所述中间语料进行多次翻译时,通过不同的翻译工具进行其中的至少一次翻译,得到多个对应于同一所述中间语料的多个第二语料。
[0011]根据本公开的一个实施方式,对所述中间语料进行k次翻译得到通过第一语言表达的第二语料,包括:对所述中间语料进行k次翻译,得到通过第一语言表达的翻译结果;确定与所述第一语料的文本风格不同的翻译结果作为第三语料;依据所述第三语料得到第二
语料。
[0012]根据本公开的一个实施方式,在与所述第一语料的文本风格不同的第三语料有多个时,依据所述第三语料得到第二语料,包括:分别计算每个所述第三语料与所述第一语料之间的语义相似度;选取所述语义相似度最高的至少一个第三语料作为第二语料。
[0013]本公开第二方面提出了一种语料训练数据生成装置,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行任一实施方式所述的语料训练数据生成方法。
[0014]本公开第三方面提出了一种文本风格转换方法,包括:获取多个初始训练语料;将每个所述初始训练语料作为通过第一语言表达的第一语料,对所述第一语料进行翻译得到通过第二语言表达的中间语料;对所述中间语料进行k次翻译得到通过第一语言表达的第二语料,其中,k≥1,所述第二语料与所述第一语料的语义相同且文本风格不同;依据所述第一语料和所述第二语料生成训练用的语料对;依据所述语料对对文本风格转换模型进行训练;将待转换文本输入训练好的文本风格转换模型,得到文本风格转换后的文本。
[0015]本公开第四方面提出了一种文本风格转换装置,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行任一实施方式所述的文本风格转换方法。
附图说明
[0016]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0017]图1是根据本公开的一个实施方式的语料训练数据生成方法的流程示意图。
[0018]图2是根据本公开的另一个实施方式的语料训练数据生成方法的流程示意图。
[0019]图3是根据本公开的又一个实施方式的语料训练数据生成方法的流程示意图。
[0020]图4是根据本公开的一个实施方式的语料训练数据的生成过程示意图。
[0021]图5是根据本公开的一个实施方式的采用处理系统的硬件实现方式的语料训练数据生成装置的示意图。
[0022]图6是根据本公开的一个实施方式的文本风格转换方法的流程示意图。
[0023]图7是根据本公开的一个实施方式的采用处理系统的硬件实现方式的文本风格转换装置的示意图。
具体实施方式
[0024]下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
[0025]需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
[0026]除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则
在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
[0027]本文使用的术语是为了描述具体实施例的目的,而不是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
[0028]下面参考附图描述本公开的语料训练数据生成方法及装置、文本风格转换方法及装置。
[0029]图1是根据本公开的一个实施方式的语料训练数据生成方法的流程示意图。请参阅图1,本实施方式的语料训练数据生成方法S100,可以包括以下步骤。
[0030]S102,获取通过第一语言表达的第一语料。
[0031]语料可以是文本语句,第一语言可以采用中文。在本步骤中可以是获取多个不同的第一语料,也就是获取到多个不同的中文语句。
[0032]S10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语料训练数据生成方法,其特征在于,包括:获取通过第一语言表达的第一语料;对所述第一语料进行翻译得到通过第二语言表达的中间语料;对所述中间语料进行k次翻译得到通过第一语言表达的第二语料,其中,k≥1,所述第二语料与所述第一语料的语义相同且文本风格不同;依据所述第一语料和所述第二语料生成训练用的语料对。2.根据权利要求1所述的方法,其特征在于,对所述第一语料进行翻译得到通过第二语言表达的中间语料,包括:通过不同的翻译工具分别对所述第一语料进行翻译,得到多个通过第二语言表达的中间语料。3.根据权利要求1或2所述的方法,其特征在于,在k=1时,对所述第一语料进行的翻译与对所述中间语料进行的翻译的翻译方向相反。4.根据权利要求1或2所述的方法,其特征在于,在k>1时,对所述中间语料进行多次翻译的翻译方向中的目的语言不完全相同,最后一次对所述中间语料进行翻译的翻译方向中的目的语言为所述第一语言。5.根据权利要求4所述的方法,其特征在于,每次对所述中间语料进行翻译时,翻译方向中的目的语言各不相同。6.根据权利要求2所述的方法,其特征在于,对所述中间语料进行k次翻译得到通过第一语言表达的第二语料,包括:对所述中间语料进行k次翻译,得到通过第一语言表达的翻译结果;确定与所述第一语料的文本风格不同的翻译结果作为第三语料;依据所述第三语...

【专利技术属性】
技术研发人员:明卫鹏李志飞
申请(专利权)人:上海墨百意信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1