当前位置: 首页 > 专利查询>清华大学专利>正文

平行语料的生成方法及装置和无监督同义转写方法及装置制造方法及图纸

技术编号:36906203 阅读:42 留言:0更新日期:2023-03-18 09:25
本发明专利技术实施例提供一种平行语料的生成方法及装置和无监督同义转写方法及装置,其中平行语料的生成方法包括:获取待转写语料和所述待转写语料的上下文;基于所述待转写语料获得关键词集合;将所述关键词集合和所述待转写语料的上下文输入至预训练语言模型,获得的所述预训练语言模型输出的至少一个候选同义转写语料;对每个所述候选同义转写语料进行评价,基于评价结果确定目标同义转写语料。无监督同义转写方法包括:获取待转写语句;将所述待转写语句输入至同义转写模型,获得所述同义转写模型输出的同义转写句;其中,所述同义转写模型是基于平行语料对训练得到的。本发明专利技术实施例能够获得优秀的同义转写句。能够获得优秀的同义转写句。能够获得优秀的同义转写句。

【技术实现步骤摘要】
平行语料的生成方法及装置和无监督同义转写方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种平行语料的生成方法及装置和无监督同义转写方法及装置。

技术介绍

[0002]同义转写是指用不同的表达形式来表达相同的意思的句子。从计算语言学研究的早期开始,自动生成转述是自然语言处理的一项基本任务,并在下游任务中有着广泛的应用,包括问题回答、语义解析、机器翻译等。此外,同义转写生成是一种重要的数据增强方法,它可以使低资源环境下的学习受益。
[0003]目前的同义转写方法中包括:在待转写语料的基础上利用预训练语言模型进行增改和优化,以及直接利用预训练语言模型进行生成的方法。但是在待转写语料的基础上利用预训练语言模型进行增改和优化通常只在局部改变常用词,阻碍了多样性;直接利用预训练语言模型进行生成的方法,通常会出现一些语义的偏移。
[0004]因此,目前的同义转写方法无法兼顾同义转写的语义同一性和语句多样性。

技术实现思路

[0005]本专利技术提供一种平行语料的生成方法及装置和无监督同义转写方法及装置,用以解决现有技术中无法兼顾同义转写的语义同一性和语句多样性的缺陷。
[0006]第一方面,本专利技术提供一种平行语料的生成方法,包括:
[0007]获取待转写语料和所述待转写语料的上下文;
[0008]基于所述待转写语料获得关键词集合;
[0009]将所述关键词集合和所述待转写语料的上下文输入至预训练语言模型,获得的所述预训练语言模型输出的至少一个候选同义转写语料;
[0010]对每个所述候选同义转写语料进行评价,基于评价结果确定目标同义转写语料,所述评价中至少包括多样性评价。
[0011]可选地,所述获取待转写语料中的关键词包括:
[0012]对所述待转写语料进行关键词抽取,获取至少一个初始关键词;
[0013]过滤所述初始关键词,获得过滤关键词;
[0014]基于所述过滤关键词获得与所述过滤关键词一一对应的同义关键词;
[0015]基于预设的替换比例,将部分或全部过滤关键词替换为同义关键词,获得初始关键词集合;
[0016]将所述初始关键词集合中关键字的顺序进行重排,获得所述关键字集合。
[0017]可选地,所述基于所述过滤关键词获得与所述过滤关键词一一对应的同义关键词,包括:
[0018]将所述待转写语料输入至预训练语言模型,以单个过滤关键词所在的位置作为预测对象,通过预训练语言模型对所述待转写语料进行掩码预测,获得所述预训练语言模型
输出的候选同义关键词,每个过滤关键词对应至少一个候选同义关键词;
[0019]在所述候选同义关键词中,确定所述每个过滤关键词对应的同义关键词。
[0020]可选地,所述将所述关键词集合和所述待转写语料的上下文输入至预训练语言模型,获得的所述预训练语言模型输出的至少一个候选同义转写语料,包括:
[0021]将所述关键词集合和所述待转写语料的上下文输入至预训练语言模型,所述预训练语言模型在所述待转写语料的上下文的约束下,对关键词之间的字词进行预测,获得至少一个候选同义转写语料。
[0022]可选地,所述对每个所述候选同义转写语料进行评价包括:
[0023]分别计算每个候选同义转写语料与所述待转写语料的语义相似度,获得每个候选同义转写语料对应的语义分数;
[0024]计算每个候选同义转写语料的生成概率,获得每个候选同义转写语料对应的流畅度分数;
[0025]分别计算每个候选同义转写语料与所述待转写语料的杰卡德Jaccard相似度,获得每个候选同义转写语料对应的多样性分数;
[0026]对所述语义分数、所述流畅度分数和所述多样性分数进行加权,获得评价结果。
[0027]第二方面,本专利技术提供一种无监督同义转写方法,包括:
[0028]获取待转写语句;
[0029]将所述待转写语句输入至同义转写模型,获得所述同义转写模型输出的同义转写句;
[0030]其中,所述同义转写模型是基于平行语料对训练得到的,所述平行语料对是基于第一方面所述的平行语料的生成方法得到的。
[0031]第三方面,本专利技术提供一种平行语料的生成装置,包括:
[0032]第一获取单元,用于获取待转写语料和所述待转写语料的上下文第一处理单元,用于基于所述待转写语料获得关键词集合;
[0033]第一转写单元,用于将所述关键词集合和所述待转写语料的上下文输入至预训练语言模型,获得的所述预训练语言模型输出的至少一个候选同义转写语料;
[0034]第一评价单元,用于对每个所述候选同义转写语料进行评价,基于评价结果确定目标同义转写语料,所述评价中至少包括多样性评价。
[0035]第四方面,本专利技术提供一种无监督同义转写装置,包括:
[0036]第二获取单元,用于获取待转写语句;
[0037]第二转写单元,用于将所述待转写语句输入至同义转写模型,获得所述同义转写模型输出的同义转写句;
[0038]其中,所述同义转写模型是基于平行语料对训练得到的,所述平行语料对是基于第一方面所述的平行语料的生成方法得到的。
[0039]第五方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的平行语料的生成方法和无监督同义转写方法。
[0040]第六方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的平行语料的生成方法和无监督同
义转写方法。
[0041]本专利技术提供的平行语料的生成方法及装置和无监督同义转写方法及装置,在平行语料生成中采用了待转写语料的关键词,根据待转写语料的关键词生成的候选同义转写语料能够与待转写语料保持语义一致性;本专利技术实施例还通过待转写语料的上下文对生成的候选同义转写语料进行约束,充分利用待转写语料的上下文中包含的信息,使得生成的候选同义转写语料符合待转写语料的上下文所构成的语言场景,进而候选同义转写语料与待转写语料进一步保持语义一致;另外,本专利技术实施例还对候选同义转写语料进行多样性评价,可以在多个候选同义转写语料中选择多样性最优的候选同义转写语料作为目标同义转写语料,通过本专利技术提供的平行语料的生成方法及装置生成的平行语料兼顾语义一致性和表达多样性两方面,获得更优秀的同义转写句。本专利技术提供的无监督同义转写方法及装置,采用由本专利技术提供的平行语料的生成方法及装置所生成的平行语料进行训练,能够学习到平行语料中的语义一致性和表达多样性,并且,无需人工进行语料标注,实现了无监督同义转写。
附图说明
[0042]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种平行语料的生成方法,其特征在于,包括:获取待转写语料和所述待转写语料的上下文;基于所述待转写语料获得关键词集合;将所述关键词集合和所述待转写语料的上下文输入至预训练语言模型,获得的所述预训练语言模型输出的至少一个候选同义转写语料;对每个所述候选同义转写语料进行评价,基于评价结果确定目标同义转写语料,所述评价中至少包括多样性评价。2.根据权利要求1所述的平行语料的生成方法,其特征在于,所述获取待转写语料中的关键词包括:对所述待转写语料进行关键词抽取,获取至少一个初始关键词;过滤所述初始关键词,获得过滤关键词;基于所述过滤关键词获得与所述过滤关键词一一对应的同义关键词;基于预设的替换比例,将部分或全部过滤关键词替换为同义关键词,获得初始关键词集合;将所述初始关键词集合中关键字的顺序进行重排,获得所述关键字集合。3.根据权利要求2所述的平行语料的生成方法,其特征在于,所述基于所述过滤关键词获得与所述过滤关键词一一对应的同义关键词,包括:将所述待转写语料输入至预训练语言模型,以单个过滤关键词所在的位置作为预测对象,通过预训练语言模型对所述待转写语料进行掩码预测,获得所述预训练语言模型输出的候选同义关键词,每个过滤关键词对应至少一个候选同义关键词;在所述候选同义关键词中,确定所述每个过滤关键词对应的同义关键词。4.根据权利要求1所述的平行语料的生成方法,其特征在于,所述将所述关键词集合和所述待转写语料的上下文输入至预训练语言模型,获得的所述预训练语言模型输出的至少一个候选同义转写语料,包括:将所述关键词集合和所述待转写语料的上下文输入至预训练语言模型,所述预训练语言模型在所述待转写语料的上下文的约束下,对关键词之间的字词进行预测,获得至少一个候选同义转写语料。5.根据权利要求1

4任一项所述的平行语料的生成方法,其特征在于,所述对每个所述候选同义转写语料进行评价包括:分别计算每个候选同义转写语料与所述待转写语料的语义相似度,获得每个候选同义转写语料对应的语义分数;...

【专利技术属性】
技术研发人员:李涓子刘金鑫齐济曹书林侯磊张鹏唐杰许斌
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1