语义融合预训练模型构建方法及跨语言摘要生成方法和系统技术方案

技术编号:39261577 阅读:10 留言:0更新日期:2023-10-30 12:14
本发明专利技术涉及跨语言处理领域,特别涉及一种语义融合预训练模型构建方法及跨语言摘要生成方法和系统,通过使用语义融合目标函数上对mBART模型进行微调,在自然语言生成任务的交叉熵对数似然目标函数的基础上引入单语语义相似度和跨语言语义相似度提供的语义信息来指导训练过程,其中,单语语义相似度能够从语义层面充分衡量模型产生的摘要与目标语言参考摘要间的相似性,为模型的训练提供文本深层语义的抽象有监督信息,使模型能够从语料中更有效地学习跨语言摘要对齐信息,跨语言语义相似度能够从语义层面充分衡量模型产生的摘要与源语言参考摘要间的相似性,为模型提供更真实准确的语义信息,降低跨语言摘要数据集的误差,提高模型的泛化能力。提高模型的泛化能力。提高模型的泛化能力。

【技术实现步骤摘要】
语义融合预训练模型构建方法及跨语言摘要生成方法和系统


[0001]本专利技术涉及新一代信息技术人工智能应用中的跨语言文本处理
,特别涉及一种语义融合预训练模型构建方法及基于语义融合预训练模型的跨语言摘要生成方法及系统。

技术介绍

[0002]随着互联网文本的爆炸式增长,一种高效的自动摘要系统已成为迫切需要。全球化使人们接触到越来越多的外语。然而,人们更喜欢用母语获取信息,而不是用外语。为了响应这种偏好,跨语言摘要(Cross

lingual Summarization,CLS),一种从用外语文本中获得关键信息的方法已经被开发出来。它将一种语言的文本转换为另一种语言的摘要,使人们能够快速有效地从陌生语言文本中获取信息。
[0003]传统的跨语言摘要方法是管道方法。该类方法要么先将源文本翻译成目标语言,然后对翻译后的文本进行摘要,要么先对源文本进行摘要,然后将摘要翻译成目标语言,其前一阶段的输出会作为后一阶段的输入,所以前一阶段的模型会直接影响后一阶段的结果,从而造成误差传递问题。近年来,随着深度学习技术的飞速发展,研究者们借助由神经机器翻译系统所构建的跨语言摘要平行语料训练端到端模型。端到端方法虽然已被证明优于管道方法,但缺点是存在严重依赖数据集规模的问题。此外,跨语言摘要所用的交叉熵对数似然目标函数刻板学习文本表面字符形式的有监督信息,易导致过拟合问题。由于管道方法和端到端方法的局限性以及传统跨语言摘要目标函数的缺点,跨语言摘要领域的研究发展被严重阻碍。如何在少量、有限的样本环境下优化跨语言摘要系统的学习效果,从而得到更好的性能,是该领域目前最为迫切的任务。

技术实现思路

[0004]为此,本专利技术提供一种语义融合预训练模型构建方法及基于语义融合预训练模型的跨语言摘要生成方法及系统,解决现有技术中跨语言摘要学习模型应用受限的问题,通过优化模型目标函数来提升学习模型性能,降低跨语言摘要误差。
[0005]按照本专利技术所提供的设计方案,提供一种语义融合预训练模型构建方法,包含:
[0006]构建用于执行摘要任务的多语言预训练模型及用于模型训练的语义融合目标函数,其中,语义融合目标函数采用交叉熵对数似然目标函数,并在所述交叉熵对数似然目标函数中融合单语语义相似度和跨语言语义相似度使模型在文本表层形式和深层语义形式两者有监督信息的共同反馈下进行优化;
[0007]基于语义融合目标函数并利用跨语言摘要数据集对多语言预训练模型进行训练优化,将训练优化后的多语言预训练模型作为最终用于执行摘要任务的语义融合预训练模型。
[0008]作为本专利技术语义融合预训练模型构建方法,进一步地,所述多语言预训练模型采用mBART模型作为基本框架,并在多种语言上共享基于子词的词表、编码器和解码器。
[0009]作为本专利技术语义融合预训练模型构建方法,进一步地,构建的语义融合目标函数表示为:L
total
=(1

λ)L
CLS
(θ)+λ(L
ssim
(θ)+L
xsim
(θ)),其中,λ为平衡因子,θ为模型参数集合,L
CLS
(θ)为模型在跨语言摘要数据集上的目标函数,L
ssim
(θ)为模型在跨语言摘要数据集上的单语语义目标函数,L
xsim
(θ)为模型在跨语言摘要数据集上的跨语言语义目标函数。
[0010]作为本专利技术语义融合预训练模型构建方法,进一步地,模型在跨语言摘要数据集上的目标函数表示为:其中,T为跨语言摘要数据集的样本数,X
src
为源语言参考摘要,Y
tgt
为目标语言参考摘要,log P(Y
tgt
|X
src
;θ)为模型产生摘要的对数条件概率。
[0011]作为本专利技术语义融合预训练模型构建方法,进一步地,模型在跨语言摘要数据集上的单语语义目标函数中,通过计算目标语言参考摘要和将源语言参考摘要输入模型所产生的目标语言摘要两者的余弦相似度来获取单语语义相似度,利用单语语义相似度来表示单语语义目标函数。
[0012]作为本专利技术语义融合预训练模型构建方法,进一步地,针对模型在跨语言摘要数据集上的跨语言语义目标函数,首先,针对源语言参考摘要和将源语言文本输入模型所产生的目标语言摘要,利用预训练模型XLM

RoBERTa进行上下文嵌入编码并分别生成token的表示向量;接着,通过计算源语言参考摘要和目标语言摘要中的每个token表示向量之间的内积来获取相似矩阵,基于相似矩阵对源语言参考摘要和目标语言摘要的最大相似性得分进行累加和归一化处理,并获取XLM

RoBERTa模型中源语言参考摘要和目标语言摘要的召回率和精度;然后,利用召回率和精度并通过贪婪匹配来获取XLM

RoBERTa模型中源语言参考摘要和目标语言摘要的F1分数;最后,将F1分数作为源语言参考摘要和目标语言摘要的跨语言语义相似度,利用跨语言语义相似度来表示跨语言语义目标函数。
[0013]进一步地,本专利技术还提供一种基于语义融合预训练模型的跨语言摘要生成方法,包含:
[0014]利用上述的语义融合预训练模型构建方法构建用于跨语言摘要生成的语义融合预训练模型;
[0015]针对目标文档,获取其源语言文本,并将其输入至语义融合预训练模型中,利用语义融合预训练模型来获取并输出目标语言摘要。
[0016]进一步地,本专利技术还提供一种基于语义融合预训练模型的跨语言摘要生成系统,包含:模型构建模块和摘要生成模块,其中,
[0017]模型构建模块,用于利用上述的语义融合预训练模型构建方法构建用于跨语言摘要生成的语义融合预训练模型;
[0018]摘要生成模块,用于针对目标文档,获取其源语言文本,并将其输入至语义融合预训练模型中,利用语义融合预训练模型来获取并输出目标语言摘要。
[0019]本专利技术的有益效果:
[0020]本专利技术根据跨语言摘要任务的特点,通过使用语义融合目标函数上对mBART模型进行微调,在自然语言生成任务的交叉熵对数似然目标函数的基础上引入单语语义相似度和跨语言语义相似度提供的语义信息来指导训练过程,其中,单语语义相似度能够从语义
层面充分衡量模型产生的摘要与目标语言参考摘要间的相似性,为模型的训练提供文本深层语义的抽象有监督信息,使模型能够从语料中更有效地学习跨语言摘要对齐信息,跨语言语义相似度能够从语义层面充分衡量模型产生的摘要与源语言参考摘要间的相似性,为模型提供更真实准确的语义信息,降低跨语言摘要数据集的误差,提高模型的泛化能力。并进一步通过实验数据验证,本案方案中预训练模型对跨语言摘要性能提升效果显著,通过语义融合目标函数能够得到更综合、更全面的跨语言摘要知识,未来同样可以用于其它自然语言处理任务(Natural Language Processing,NLP)当中。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义融合预训练模型构建方法,其特征在于,包含:构建用于执行摘要任务的多语言预训练模型及用于模型训练的语义融合目标函数,其中,语义融合目标函数采用交叉熵对数似然目标函数,并在所述交叉熵对数似然目标函数中融合单语语义相似度和跨语言语义相似度使模型在文本表层形式和深层语义形式两者有监督信息的共同反馈下进行优化;基于语义融合目标函数并利用跨语言摘要数据集对多语言预训练模型进行训练优化,将训练优化后的多语言预训练模型作为最终用于执行摘要任务的语义融合预训练模型。2.根据权利要求1所述的语义融合预训练模型构建方法,其特征在于,所述多语言预训练模型采用mBART模型作为基本框架,并在多种语言上共享基于子词的词表、编码器和解码器。3.根据权利要求1所述的语义融合预训练模型构建方法,其特征在于,构建的语义融合目标函数表示为:L
total
=(1

λ)L
CLS
(θ)+λ(L
ssim
(θ)+L
xsim
(θ)),其中,λ为平衡因子,θ为模型参数集合,L
CLS
(θ)为模型在跨语言摘要数据集上的传统目标函数,L
ssim
(θ)为模型在跨语言摘要数据集上的单语语义目标函数,L
xsim
(θ)为模型在跨语言摘要数据集上的跨语言语义目标函数。4.根据权利要求3所述的语义融合预训练模型构建方法,其特征在于,模型在跨语言摘要数据集上的传统目标函数表示为:其中,T为跨语言摘要数据集的样本数,X
src
为源语言参考摘要,Y
tgt
为目标语言参考摘要,logP(Y
tgt
|X
src
;θ)为模型产生摘要的对数条件概率。5.根据权利要求3所述的语义融合预训练模型构建方法,其特征在于,模型在跨语言摘要数据集上的单语语义目标函数中,通过计算目标语言参考摘要和将源语言文本输入模型所产生的目标语言摘要两者的余弦相似度来获取单语语义相似度,利用单语语义相似度来表示单...

【专利技术属性】
技术研发人员:潘航宇席耀一胡瑞娟余文涛李勇赵俭刘剑赵新伟岳智慧许岩孙绍为
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1