一种平行语料数据对的构建方法、装置及存储介质制造方法及图纸

技术编号:38157628 阅读:7 留言:0更新日期:2023-07-13 09:27
本申请实施例公开了一种平行语料数据对的构建方法、装置及存储介质。其中,该方法包括:将具有第一风格特征的第一语料数据输入第一风格转换模型中,得到具有第二风格特征的第二语料数据;第一风格转换模型基于回译训练得到;将第一语料数据输入第二风格转换模型中,得到具有第二风格特征的第三语料数据;第二风格转换模型基于对抗训练得到;计算第二语料数据的第二风格特征对应的第一得分;计算第三语料数据的第二风格特征对应的第二得分;若第一得分大于第二得分,则利用第二语料数据和第一语料数据构建第一平行语料数据对;若第一得分不大于第二得分,则利用第三语料数据和第一语料数据构建第一平行语料数据对,解决平行语料数据对稀缺的问题。数据对稀缺的问题。数据对稀缺的问题。

【技术实现步骤摘要】
一种平行语料数据对的构建方法、装置及存储介质


[0001]本申请涉及自然语言处理
,更具体的说,涉及一种平行语料数据对的构建方法、装置及存储介质。

技术介绍

[0002]在如今互联网蓬勃发展的时代,人与人之间的信息交互愈发频繁。无论是口头交谈或是文字表述,语言作为人类交流沟通的表达方式,是具有情境性的。不同的时间、特定的地点与场景,每个话语通常传达着表述者的性格特征、状态或者意图等。如,当人们质疑答案的正确性时,常会发出疑问“结果真是这样的吗?”,而非发表“没错,确实是这样。”这一类的肯定言论。在相对正式场合时,应注重表述的规范性,对比“请坐。”与“过来,坐。”,前者相对礼貌、正式,后者则更为随意。因此,平白直叙并不是单一形式,个性化的需求使得让机器能够理解、实现语言背后的风格迁移这一能力显得尤为重要。
[0003]风格迁移是在尽可能保留主要内容的基础上,通过编辑风格相关词语或者将文本改写以生成另一种风格的文本。目前的研究思路是,利用平行语料数据对对预训练语言模型进行有监督训练,进而利用训练得到的模型将待处理文本处理为不同风格的文本。其中,平行语料数据对是指带有属性风格a的句子,以及与之配对的带有另一个属性风格a

的句子。如,一个句子的风格为积极的,“这家餐厅的味道真不错。”,那么与之配对的另一个消极风格的句子为“这家餐厅的味道真差劲。”。但是,由于平行语料数据对的稀缺性,导致上述的思路难以落地实施。

技术实现思路

[0004]有鉴于此,本申请实施例公开一种平行语料数据对的构建方法、装置及存储介质,实现平行语料数据对的构建,解决平行语料数据对稀缺的问题。
[0005]本申请实施例提供的技术方案如下:
[0006]第一方面,本申请实施例提供了一种平行语料数据对的构建方法,所述方法包括:
[0007]将具有第一风格特征的第一语料数据输入第一风格转换模型中,得到具有第二风格特征的第二语料数据;所述第一风格转换模型基于回译训练得到;
[0008]将所述第一语料数据输入第二风格转换模型中,得到具有所述第二风格特征的第三语料数据;所述第二风格转换模型基于对抗训练得到;
[0009]计算所述第二语料数据的第二风格特征对应的第一得分;
[0010]计算所述第三语料数据的第二风格特征对应的第二得分;
[0011]若所述第一得分大于所述第二得分,则利用所述第二语料数据和所述第一语料数据构建第一平行语料数据对;
[0012]若所述第一得分不大于所述第二得分,则利用所述第三语料数据和所述第一语料数据构建第一平行语料数据对。
[0013]结合上述第一方面,在一种可能的实现方式中,所述方法还包括:
[0014]利用所述第一平行语料数据对对第一预训练语言模型进行有监督微调,得到第二预训练语言模型;所述第一平行语料数据对包括:所述第一语料数据、第一语料数据对应的平行语料数据,所述第一语料数据对应的平行语料数据为所述第二语料数据或所述第三语料数据;
[0015]将所述第一语料数据输入所述第二预训练语言模型中,得到具有所述第二风格特征的第一输出结果;
[0016]计算所述第一输出结果和所述第一语料数据对应的平行语料数据之间的第一变化幅度值;
[0017]若所述第一变化幅度值大于预设阈值,则利用所述第一输出结果替换所述第一语料数据对应的平行语料数据,得到更新后的第一平行语料数据对。
[0018]结合上述第一方面,在一种可能的实现方式中,所述计算所述第一输出结果和所述第一语料数据对应的平行语料数据之间的第一变化幅度值,包括:
[0019]计算所述第一语料数据与所述第一输出结果之间的第一双语互译质量评估BLEU值;
[0020]计算所述第一语料数据与所述第一语料数据对应的平行语料数据之间的第二BLEU值;
[0021]计算所述第一输出结果的第二风格特征对应的第三得分;
[0022]当所述第一语料数据对应的平行语料数据为所述第二语料数据时,利用所述第一得分、所述第一BLEU值、所述第二BLEU值和所述第三得分,计算得到所述第一变化幅度值;或者,
[0023]当所述第一语料数据对应的平行语料数据为所述第三语料数据时,利用所述第二得分、所述第一BLEU值、所述第二BLEU值和所述第三得分,计算得到所述第一变化幅度值。
[0024]结合上述第一方面,在一种可能的实现方式中,所述方法还包括:
[0025]通过多次循环计算过程对所述更新后的第一平行语料数据对进行更新,得到构建成功的第一平行语料数据对;
[0026]其中,所述多次循环计算过程中当前的循环计算过程,包括:
[0027]利用前一次的循环计算过程中的更新后的第一平行语料数据对对所述第一预训练语言模型进行有监督微调,得到第三预训练语言模型;
[0028]将所述第一语料数据输入所述第三预训练语言模型中,得到具有第二风格特征的第二输出结果;
[0029]计算所述第二输出结果和当前的循环计算过程中的所述第一语料数据对应的平行语料数据之间的第二变化幅度值;
[0030]若所述第二变化幅度值大于所述预设阈值,则利用所述第二输出结果替换当前的循环计算过程中的所述第一语料数据对应的平行语料数据,得到当前的循环计算过程中的更新后的第一平行语料数据对,并返回执行如下步骤:利用前一次的循环计算过程中的更新后的第一平行语料数据对对所述第一预训练语言模型进行有监督微调,得到第三预训练语言模型,直至当前的循环计算过程中的第三预训练语言模型的迁移准确率和前一次的循环计算过程中的第三预训练语言模型的迁移准确率的差值不大于预设值,得到构建成功的第一平行语料数据对。
[0031]结合上述第一方面,在一种可能的实现方式中,所述计算所述第二输出结果和当前的循环计算过程中的所述第一语料数据对应的平行语料数据之间的第二变化幅度值,包括:
[0032]计算所述第一语料数据与所述第二输出结果之间的第三BLEU值;
[0033]计算所述第一语料数据与当前的循环计算过程中的所述第一语料数据对应的平行语料数据之间的第四BLEU值;
[0034]计算所述第二输出结果的第二风格特征对应的第四得分;
[0035]计算当前的循环计算过程中的所述第一语料数据对应的平行语料数据的第二风格特征对应的第五得分;
[0036]利用所述第三BLEU值、所述第四BLEU值、所述第四得分和所述第五得分,计算得到所述第二变化幅度值。
[0037]结合上述第一方面,在一种可能的实现方式中,所述方法还包括:
[0038]将具有所述第二风格特征的第四语料数据输入所述第一风格转换模型中,得到具有所述第一风格特征的第五语料数据;
[0039]将所述第四语料数据输入所述第二风格转换模型中,得到具有所述第一风格特征的第六语料数据;
[0040]计算所述第五语料数据的第一风格特征对应的第六得分;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种平行语料数据对的构建方法,其特征在于,所述方法包括:将具有第一风格特征的第一语料数据输入第一风格转换模型中,得到具有第二风格特征的第二语料数据;所述第一风格转换模型基于回译训练得到;将所述第一语料数据输入第二风格转换模型中,得到具有所述第二风格特征的第三语料数据;所述第二风格转换模型基于对抗训练得到;计算所述第二语料数据的第二风格特征对应的第一得分;计算所述第三语料数据的第二风格特征对应的第二得分;若所述第一得分大于所述第二得分,则利用所述第二语料数据和所述第一语料数据构建第一平行语料数据对;若所述第一得分不大于所述第二得分,则利用所述第三语料数据和所述第一语料数据构建第一平行语料数据对。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用所述第一平行语料数据对对第一预训练语言模型进行有监督微调,得到第二预训练语言模型;所述第一平行语料数据对包括:所述第一语料数据、第一语料数据对应的平行语料数据,所述第一语料数据对应的平行语料数据为所述第二语料数据或所述第三语料数据;将所述第一语料数据输入所述第二预训练语言模型中,得到具有所述第二风格特征的第一输出结果;计算所述第一输出结果和所述第一语料数据对应的平行语料数据之间的第一变化幅度值;若所述第一变化幅度值大于预设阈值,则利用所述第一输出结果替换所述第一语料数据对应的平行语料数据,得到更新后的第一平行语料数据对。3.根据权利要求2所述的方法,其特征在于,所述计算所述第一输出结果和所述第一语料数据对应的平行语料数据之间的第一变化幅度值,包括:计算所述第一语料数据与所述第一输出结果之间的第一双语互译质量评估BLEU值;计算所述第一语料数据与所述第一语料数据对应的平行语料数据之间的第二BLEU值;计算所述第一输出结果的第二风格特征对应的第三得分;当所述第一语料数据对应的平行语料数据为所述第二语料数据时,利用所述第一得分、所述第一BLEU值、所述第二BLEU值和所述第三得分,计算得到所述第一变化幅度值;或者,当所述第一语料数据对应的平行语料数据为所述第三语料数据时,利用所述第二得分、所述第一BLEU值、所述第二BLEU值和所述第三得分,计算得到所述第一变化幅度值。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:通过多次循环计算过程对所述更新后的第一平行语料数据对进行更新,得到构建成功的第一平行语料数据对;其中,所述多次循环计算过程中当前的循环计算过程,包括:利用前一次的循环计算过程中的更新后的第一平行语料数据对对所述第一预训练语言模型进行有监督微调,得到第三预训练语言模型;将所述第一语料数据输入所述第三预训练语言模型中,得到具有第二风格特征的第二
输出结果;计算所述第二输出结果和当前的循环计算过程中的所述第一语料数据对应的平行语料数据之间的第二变化幅度值;若所述第二变化幅度值大于所述预设阈值,则利用所述第二输出结果替换当前的循环计算过程中的所述第一语料数据对应的平行语料数据,得到当前的循环计算过程中的更新后的第一平行语料数据对,并返回执行如下步骤:利用前一次的循环计算过程中的更新后的第一平行语料数据对对所述第一预训练语言模型进行有监督微调,得到第三预训练语言模型,直至当前的循环计算过程中的第三预训练语言模型的迁移准确率和前一次的循环计算过程中的第三预训练语言模型的迁移准确率的差值不大于预设值,得到构建成功的第一平行语料数据对。5.根据权利要求4所述的方法,其特征在于,所述计算所述第二输出结果和当前的循环计算过程中的所述第一语料数据对应的平行语料数据之间的第二变化幅度值,包括:计算所述第一语料数据与所述第二输出结果之间的第三BLEU值;计算所述第一语料数据与当前的循环计算过程中的所述第一语料数据对应的平行语料数据之间的第四BLEU值;计算所述第二输出结果的第二风格特征对应的第四得分;计算当前的循环计算过程中的所述第一语料数据对应的平行语料数据的第二风格特征对应的第五得分;利用所述第三BLEU值、所述第四BLEU值、所述第四得分和所述第五得分,计算得到所述第二变化幅度值。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:将具有所述第二风格特征的第四语料数据输入所述第一风格转换模型中,得到具有所述第一风格特征的第五语料数据;将所述第四语料数据输入所述第二风格转换模型中,得到具有所述第一风格特征的第六语料数据;计算所述第五语料数据的第一风格特征对应的第六得分;计算所述第六语料数据的第一风格特征对应的第七得分;若所述第六得分大于所述第七得分,则利用所述第五语料数据和所述第四语料数据构建第二平行语料数据对;若第六得分...

【专利技术属性】
技术研发人员:柳林杜先杨张浩宇吴飞
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1