一种将无监督的风格转换转化为释义生成的方法技术

技术编号：40739767 阅读：28 留言：0更新日期：2024-03-25 20:00

本发明专利技术属于深度学习领域，具体涉及一种将无监督的风格转换转化为释义生成的方法，数据采集：采集模型所需的数据，并对不同类别的数据进行标注，完成模型所需的数据集构建；数据预处理：对数据集进行的预处理；创造并行训练数据：通过不同的释义模型对输入句子进行规范化；反式转换：用伪并行语料库训练一个特定风格模型,并针对其释义重建原句；GPT‑2的释义实现：微调预先训练的大规模GPT2‑large语言模型；通过过滤数据提升多样性：释义模型选择训练数据；验证模型：在数据集中验证方法的有效性和可行性。本发明专利技术在人工和自动评估上显著优于最先进的风格转移系统，并有效的解决了现有风格转换设计系统更改文本情感语义属性的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度学习，具体涉及一种将无监督的风格转换转化为释义生成的方法。

技术介绍

1、在文本数据上进行风格转换的任务包括改变给定句子的风格，同时保留其语义最近在这一领域的工作将风格转换与相关的属性转换任务合并在一起，并对特定属性实词(如带有情感的词)的修改扭曲了句子的文体和语义属性。

2、现有技术存在的问题或者缺陷：现代自然语言处理将风格转换定义为在不明显改变句子语义的情况下修改句子的风格，这意味着风格转换系统的输出应该是输入的释义。然而，许多现有的据称是为风格转换而设计的系统，通过属性转换固有地扭曲了输入的意义，从而改变了情感等语义属性。

技术实现思路

1、针对上述现代自然语言处理通过属性转换固有地扭曲了输入的意义，从而改变了情感等语义属性的技术问题，本专利技术提供了一种将无监督的风格转换转化为释义生成的方法，将无监督风格转换重新定义为释义生成问题，创造并行训练数据，反式转换，gpt-2的释义实现和通过过滤数据提升多样性。

2、为了解决上述技术问题，本专利技...

【技术保护点】

1.一种将无监督的风格转换转化为释义生成的方法，其特征在于：包括下列步骤：

2.根据权利要求1所述的一种将无监督的风格转换转化为释义生成的方法，其特征在于：所述S1中数据采集的方法为：使用两个标准的基准数据集来对比与现存先进模型的性能差异；第二个数据集是莎士比亚作者模仿数据集，包含37k训练句，分别来自两种风格：威廉·莎士比亚的原创戏剧和其现代化版本，莎士比亚的戏剧是用早期的现代语言写成的，与现代语言相比，现代语言的词汇和句法分布都有明显的不同；第二个数据集是正式转移数据集，包含105k个句子，同样来自两种风格，句子用正式的或非正式的现代语言书写。

3.根据权利要...

【技术特征摘要】

1.一种将无监督的风格转换转化为释义生成的方法，其特征在于：包括下列步骤：

2.根据权利要求1所述的一种将无监督的风格转换转化为释义生成的方法，其特征在于：所述s1中数据采集的方法为：使用两个标准的基准数据集来对比与现存先进模型的性能差异；第二个数据集是莎士比亚作者模仿数据集，包含37k训练句，分别来自两种风格：威廉·莎士比亚的原创戏剧和其现代化版本，莎士比亚的戏剧是用早期的现代语言写成的，与现代语言相比，现代语言的词汇和句法分布都有明显的不同；第二个数据集是正式转移数据集，包含105k个句子，同样来自两种风格，句子用正式的或非正式的现代语言书写。

3.根据权利要求1所述的一种将无监督的风格转换转化为释义生成的方法，其特征在于：所述s2中对数据集进行预处理的方法为：采用特征标准化对数据进行预处理，所述特征标准化的方法为：使数据集中所有特征都具有零均值和单位方差。

4.根据权利要求1所述的一种将无监督的风格转换转化为释义生成的方法，其特征在于：所述s3中通过不同的释义模型对输入句子进行规范化的方法为：

5.根据权利要求1所述的一种将无监督的风格转换转化为释义生成的方法，其特征在于：所述s4中用伪并行语料库训练一个特定风格模型的方法为：重建原句x针对于其释义z，从fpara删除样式标识符的输入，然...

【专利技术属性】
技术研发人员：潘晓光，罗晋，宋晓晨，陈亮，马彩霞，戴艳，
申请(专利权)人：山西三友和智慧信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人