System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于胶囊网络与显著性感知的航运新闻摘要生成方法技术_技高网

一种基于胶囊网络与显著性感知的航运新闻摘要生成方法技术

技术编号:41391799 阅读:4 留言:0更新日期:2024-05-20 19:14
本发明专利技术涉及自然语言处理技术领域,具体公开了一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,包括如下步骤:S1、使用编码器对输入的文本序列进行编码,并将其转化为向量表示;S2、对编码器输出的句子表示进行建模,并预测每个句子的显著性概率分布;S3、将显著性预测模块得到的显著性信息与编码器和解码器的输出进行整合;S4、使用解码器生成摘要;本发明专利技术通过引入句子信息作为显著性信号来扩展编码器和解码器,这将有助于模型在输出时更加关注显著性高的部分,且不以信息丢失为代价,从而提高摘要的质量和准确性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体为一种基于胶囊网络与显著性感知的航运新闻摘要生成方法


技术介绍

1、近年来,随着航运业的飞速发展,航运新闻作为航运产业的一个信息窗口,己经被越来越多的人关注。航运新闻在传递信息的同时,也在时刻影响着航运业及其他相关行业的发展动态。而通过有效方法提取航运新闻的的文本摘要信息,一方面能够使人们快速的了解新闻的主要内容,又能够为相关领域的研究提供可用信息。

2、作为nlp领域的重要分支,自动文本摘要技术已成为一个热门的研究课题。文本摘要生成方法包括提取式摘要和生成式摘要,抽取式文本摘要的主要任务是从输入文本中提取关键信息并生成简洁的概述,而生成式文本摘要不仅需要提取关键信息,还要对原始文本进行概括和重新表述,从而生成一篇高质量的摘要。

3、传统的基于规则和模板的文本摘要方法在某些方面受到局限,如固定的规则导致生成的摘要表述单一,且难以适应不同类型的文本。因此,基于深度学习的文本摘要模型逐渐成为主流。通过自动学习语言的抽象表示,这些模型能够生成与原始文本相关的简洁概述。

4、预训练语言模型,如bert、gpt和bart等,在各种下游任务上取得了巨大的成功,将当前的技术水平推向新的高度,包括文本摘要任务。bart通过对输入序列的部分掩盖进行无监督训练,学习到句子表示和上下文关系,从而在多项任务中取得优异表现。然而,尽管bart在生成摘要任务中展示了强大的潜力,但在内容选择方面仍然存在明显的不足。为解决这一问题,一些研究者尝试为生成式摘要模型添加抽取式显著性引导以改善内容选择。

5、这些方法通常在抽取式摘要的基础上进行生成,但忽略了抽取式摘要的缺点是无法灵活适应不同的情况。对于长输入文本摘要,由于模型可能无法处理超过某个限制的长输入,抽取式摘要可能是一种不错的思路,但对于短输入文本摘要,选择其中的一部分可能容易导致信息丢失,其似乎并不是一个完美的选择。


技术实现思路

1、本专利技术的目的在于提供一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,以解决上述
技术介绍
中提出的问题。

2、为实现上述目的,本专利技术提供如下技术方案:一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,包括如下步骤:

3、s1、使用编码器对输入的文本序列进行编码,并将其转化为向量表示;

4、s2、对编码器输出的句子表示进行建模,并预测每个句子的显著性概率分布;

5、s3、将显著性预测模块得到的显著性信息与编码器和解码器的输出进行整合;

6、s4、使用解码器生成摘要。

7、优选的,所述步骤s1中,涉及的输入文本序列来自两个广泛使用的摘要生成数据集:cnn/dailymail数据集和xsum数据集。

8、优选的,所述步骤s1具体过程如下:

9、采用预训练的bart作为模型的编码器和解码器;首先对输入文本x中的部分词进行遮盖,使用特殊符号[mask]替换这些单词,得到遮盖后的输入文本x’;在预训练过程中,模型需要根据x’恢复原始输入文本x,从而学习到输入文本的结构和语义信息;编码器将遮盖后的文本x’编码为上下文向量,解码器则基于这些向量生成原始输入文本x;

10、预训练过程的训练目标公式如下:

11、

12、其中,d表示预训练所使用的语料库,而θ代表模型参数;

13、完成bart的预训练之后,将其应用于文本摘要数据集上进行微调;在微调阶段,模型直接学习从输入文本生成相应摘要的能力。

14、优选的,所述步骤s1~步骤s4中涉及的编码器、解码器,设计采用预训练的bart作为模型的编码器和解码器,编码器的最后一层隐藏状态作为输出,其中bart是一个基于transformer结构的序列到序列模型,它在预训练阶段采用了自动编码器的架构。

15、优选的,所述步骤s2中,设计基于胶囊网络的显著性预测模块,利用胶囊网络对编码器输出的句子表示进行建模,并进一步预测每个句子的显著性概率分布;所述基于胶囊网络的显著性预测模块具体实现过程为:将编码器的最后一层隐藏状态作为输出送入胶囊网络中后,通过动态路由算法和多层胶囊结构;然后,将胶囊层的输出映射到各个显著性等级的概率值,以得到每个句子的显著性分布。

16、优选的,所述步骤s2包括如下步骤:

17、步骤s21、对输入文档x进行处理,并为每个句子生成一个向量表示;

18、步骤s22、使用基于胶囊网络的显著性预测模块对编码器的输出进行处理。

19、优选的,所述步骤s21中,在每个句子的开头加上了一个特殊标记[bos]来表示新句子的开始,得到新的输入序列之后,使用编码器对其进行编码,并将编码器的最后一层隐藏状态作为每个句子的向量表示,编码器的输出公式如下所示:

20、h=encoder(x)

21、=[hs1,hs2,...,hsn];

22、其中,hsj表示第j个句子的上下文嵌入,j∈1,...,n;

23、所述步骤s22中,胶囊网络是是一种具有多层胶囊结构的神经网络,每个胶囊层负责捕捉输入句子的不同特征;

24、将输入句子的向量表示hsj输入到胶囊网络的第一层,然后利用动态路由算法将这些胶囊输出传递到高层胶囊,动态路由算法通过计算低层胶囊的输出与高层胶囊的输入之间的内积来实现;

25、在胶囊网络中,计算从一个输入胶囊hi到一个输出胶囊vj的信息sij;sij的计算方法如下:

26、sij=hiohccij;

27、其中,ohc为参数矩阵,cij是耦合因子,为从输入胶囊hi传递到输出胶囊vj的信息比率;用softmax函数来计算cij,此过程的计算公式如下:

28、

29、其中,bij为对数几率,初始值设为0;

30、第j个输出胶囊从第i个输入胶囊接收到的信息表示为sij,通过vj接收到所有输入胶囊传递来的信息sj,如下式所示:

31、

32、然后,可以使用squash函数对sj进行压缩,从而可得到第j个输出胶囊的胶囊向量vj;其计算方法如下式所示:

33、

34、最后更新对数几率bij,公式如下:

35、bij=bij+hiuhvvj;

36、其中,uhv为参数矩阵;

37、引入了一个分类层将最后一个胶囊层的输出映射到各个显著性程度的概率值,对于每个句子j∈1,...,n,其显著性分布在给定输入x条件下可以表示为:

38、

39、其中,l∈1,...,l是显著性程度的索引,τ是用于调整显著性程度分布的锐化系数,l是显著性程度的数量,wl、ul是可训练参数。

40、优选的,所述步骤s3中,通过设计显著性感知的交叉注意力模块,将显著性预测模块得到的显著性信息与编码器和解码器的输出进行整合;所述显著性感知本文档来自技高网...

【技术保护点】

1.一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤S1中,涉及的输入文本序列来自两个摘要生成数据集:CNN/DailyMail数据集和XSum数据集。

3.根据权利要求1所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤S1具体过程如下:

4.根据权利要求1所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤S1~步骤S4中涉及的编码器、解码器,设计采用预训练的BART作为模型的编码器和解码器,编码器的最后一层隐藏状态作为输出,其中BART是一个基于Transformer结构的序列到序列模型,模型在预训练阶段采用了自动编码器的架构。

5.根据权利要求1所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤S2中,设计基于胶囊网络的显著性预测模块,利用胶囊网络对编码器输出的句子表示进行建模,并进一步预测每个句子的显著性概率分布;所述基于胶囊网络的显著性预测模块具体实现过程为:将编码器的最后一层隐藏状态作为输出送入胶囊网络中后,通过动态路由算法和多层胶囊结构;然后,将胶囊层的输出映射到各个显著性等级的概率值,以得到每个句子的显著性分布。

6.根据权利要求1所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤S2包括如下步骤:

7.根据权利要求6所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤S21中,在每个句子的开头加上一个标记[BOS]来表示新句子的开始,得到新的输入序列之后,使用编码器对其进行编码,并将编码器的最后一层隐藏状态作为每个句子的向量表示,编码器的输出公式如下所示:

8.根据权利要求1所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤S3中,通过设计显著性感知的交叉注意力模块,将显著性预测模块得到的显著性信息与编码器和解码器的输出进行整合;所述显著性感知的交叉注意力模块具体实现过程为:通过将先验的知识映射到对应的向量上,并将对应的向量与输入进行交叉注意力。

9.根据权利要求1所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤S3包括如下步骤:

10.根据权利要求1所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤S4中,在训练过程中,模型需要同时学习预测显著性分布和摘要生成;

...

【技术特征摘要】

1.一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤s1中,涉及的输入文本序列来自两个摘要生成数据集:cnn/dailymail数据集和xsum数据集。

3.根据权利要求1所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤s1具体过程如下:

4.根据权利要求1所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤s1~步骤s4中涉及的编码器、解码器,设计采用预训练的bart作为模型的编码器和解码器,编码器的最后一层隐藏状态作为输出,其中bart是一个基于transformer结构的序列到序列模型,模型在预训练阶段采用了自动编码器的架构。

5.根据权利要求1所述的一种基于胶囊网络与显著性感知的航运新闻摘要生成方法,其特征在于:所述步骤s2中,设计基于胶囊网络的显著性预测模块,利用胶囊网络对编码器输出的句子表示进行建模,并进一步预测每个句子的显著性概率分布;所述基于胶囊网络的显著性预测模块具体实现过程为:将编码器的最后一层隐藏状态作为输出送入胶囊网络中后,通过动态路由算法和多层胶囊结构;然后,将胶囊...

【专利技术属性】
技术研发人员:李宇铭刘晋王虹
申请(专利权)人:上海海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1