一种带有多模态锚点的自适应文本摘要方法技术

技术编号：41363521 阅读：32 留言：0更新日期：2024-05-20 10:12

本发明专利技术公开了一种带有多模态锚点的自适应文本摘要方法，将文本积极句子样本输入解码器，获得文本积极特征，将文本消极句子样本输入解码器，获得文本消极特征；通过文字摘要门控机制模型，计算文本积极特征与文本消极特征的核心文本摘要概率分布，选择核心文本摘要概率分布最大的词汇作为文本摘要；将图像积极目标样本输入解码器，获得图像积极特征，将图像消极目标样本输入解码器，获得图像消极特征；通过图像摘要门控机制模型，计算图像积极特征与图像消极特征的核心图像摘要概率分布，选择核心图像摘要概率分布中概率最大的图片作为图片摘要。本发明专利技术以多种媒体形式呈现信息，丰富了摘要的表达方式，使得用户可以更全面地了解和理解原始内容。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种带有多模态锚点的自适应文本摘要方法，属于智能化摘要。

技术介绍

1、多模态摘要旨在利用来源于多种不同的媒体数据(如图像、音频、文本等)进行凝练和压缩，通过不同的表现手法来生成摘要或概括。多模态摘要使自然语言处理与计算机图像领域的交叉方向，旨在结合多种媒体数据来生成更全面、准确和可读性更强的摘要内容。

2、现有的多模态摘要方法面临着以下挑战：

3、1)、不同模态存在于不同的语义空间中，在更加相似的语义表示空间中表达各种模态信息至关重要。

4、2)、对于文本摘要的结果，必须考虑如何学习各种模态之间的异同，从而减少冗余，提高文本摘要的质量。

5、为了克服上述挑战，对多种不同的媒体数据进行文本摘要是本领域技术人员急需要解决的技术问题。

技术实现思路

1、目的：为了克服现有技术中存在的不足，本专利技术提供一种带有多模态锚点的自适应文本摘要方法，以新闻内容中的源文本、源图像和图像文本标题作为输入，并将生成的文本摘要和生成的图像摘要作为输出。

2、技术方案：为解决上述技术问题，本专利技术采用的技术方案为：

3、一种带有多模态锚点的自适应文本摘要方法，包括如下步骤：

4、获取源文本句子特征hi,图像目标特征vj,将源文本句子特征hi,图像目标特征vj输入多模态交叉注意力模块，得到交叉注意力源文本句子特征交叉注意力图像目标特征将交叉注意力源文本句子特征交叉注意力图像目标特征通过前馈子层得到更新后的第

5、将更新后的第k层源文本句子特征与图像目标特征作为文本样本hr、图像目标样本vs，根据文本样本hr、图像目标样本vs获得图像积极目标样本posv，图像消极目标样本negv，文本积极句子样本posh，文本消极句子样本negh。

6、将文本积极句子样本posh输入解码器，获得文本积极特征将文本消极句子样本negh输入解码器，获得文本消极特征

7、通过文字摘要门控机制模型，计算文本积极特征与文本消极特征的核心文本摘要概率分布ptext，选择核心文本摘要概率分布ptext最大的词汇作为文本摘要。

8、作为优选方案，还包括：

9、将图像积极目标样本posv输入解码器，获得图像积极特征将图像消极目标样本negv输入解码器，获得图像消极特征

10、通过图像摘要门控机制模型，计算图像积极特征与图像消极特征的核心图像摘要概率分布pimg，选择核心图像摘要概率分布pimg中概率最大的图片作为图片摘要。

11、作为优选方案，所述源文本句子特征hi,图像目标特征vj获取方法，具体包括：

12、获取源文本，源本文对应的若干个源图像以及每个源图像对应的文本标题。

13、将源文本与文本标题输入bert模型，输出源文本特征text。

14、text＝(cap1,...,capa,sena+1,...,senm)

15、其中，表示第m个句子中的第s个单词的词嵌入向量，m表示源文本中句子个数，s表示每句话最大长度，capa表示第a个源图像对应的文本标题。

16、将每个句子中s个单词的词嵌入向量汇合成源文本句子特征hi，i∈m。

17、将每个源图像输入卷积神经网络，输出每个源图像对应的n个目标的图像目标特征vj，j∈n。

18、作为优选方案，所述多模态交叉注意力模块由k层cross-transformers串联组成。其中，第k层的cross-transformers实现过程：将k-1层cross-transformers输出的作为将输入selfattl→l模块，得到自注意源文本句子特征将输入selfattr→r模块，得到自注意图像目标特征再将输入crossattl→r模块，得到交叉注意力源文本句子特征再将输入crossattr→l模块，得到交叉注意力图像目标特征

19、其中，selfattl→l模块计算公式如下：

20、

21、selfattr→r模块计算公式如下：

22、

23、crossattl→r模块计算公式如下：

24、

25、crossattr→l模块计算公式如下：

26、

27、作为优选方案，所述图像积极目标样本posv，图像消极目标样本negv获取方法，具体包括：

28、通过余弦相似度计算每个文本样本(h1,...,hm)和每个图像目标样本(v1,...,vn)之间的相似性度量

29、根据相似性度量计算每个图像目标样本与所有文本样本相似性分布disv，

30、选取相似性分布最高的前o个图像目标样本作为图像目标锚点

31、通过余弦相似度计算每个图像目标样本(v1,...,vn)与图像目标锚点之间的相似性能度量sortv，并根据相似性能度量sortv从高到低排序获取排序后的图像目标样本集合vsort。

32、使用激活函数来评估文本样本hr和图像目标样本vs之间的相似性，根据相似性获取图像积极目标样本的数量gv。

33、根据排序后的图像目标样本集合vsort，选择前gv个图像目标样本作为图像积极目标样本posv，其余为图像消极目标样本negv。

34、作为优选方案，所述文本积极句子样本posh，文本消极句子样本negh获取方法，具体包括：

35、通过余弦相似度计算图像积极目标样本posv与文本样本(h1,...,hm)余弦相似性，获取相似性矩阵posj表示图像积极目标样本posv中第j个样本。

36、计算每个文本样本与所有图像积极目标样本的相似性分布

37、通过余弦相似度计算图像消极目标样本negv与文本样本(h1,...,hm)余弦相似性，从而获取相似性矩阵negj表示图像消极目标样本negv中第j个样本。

38、计算每个文本样本与所有图像消极目标样本的相似性分布

39、搭建一个门控机制模型，考虑和来确定每个文本样本与图像核心语义的相似性sorth,并按相似性sorth从高到低进行排序得到排序后的文本样本集合hsort，其中，sorth计算公式如下：

40、

41、其中：σ表示激活函数，z表示门控权重，wv，wh分别为文本和图像的参数矩阵。

42、使用激活函数来评估当前文本摘要过程所需要文本样本hr和图像目标样本vs之间的相似性，根据相似性获取图像积极目标样本数量gh，根据排序后的文本样本集合hsort，选择前gh个图像目标样本作为文本积极句子样本posh，其余为文本消极句子样本negh。

43、作为优选方案，所述核心文本摘要概率分布ptext计算公式如下：

44、

45、式中，

46、其中，sigmoid表示激活函数，表示门控过程文本积极特本文档来自技高网...

【技术保护点】

1.一种带有多模态锚点的自适应文本摘要方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种带有多模态锚点的自适应文本摘要方法，其特征在于：还包括：

3.根据权利要求1或2所述的一种带有多模态锚点的自适应文本摘要方法，其特征在于：所述源文本句子特征hi,图像目标特征vj获取方法，具体包括：

4.根据权利要求1或2所述的一种带有多模态锚点的自适应文本摘要方法，其特征在于：所述多模态交叉注意力模块由k层Cross-transformers串联组成；其中，第k层的Cross-transformers实现过程：将k-1层Cross-transformers输出的作为将输入SelfAttL→L模块，得到自注意源文本句子特征将输入SelfAttR→R模块，得到自注意图像目标特征再将输入CrossAttL→R模块，得到交叉注意力源文本句子特征再将输入CrossAttR→L模块，得到交叉注意力图像目标特征

5.根据权利要求1或2所述的一种带有多模态锚点的自适应文本摘要方法，其特征在于：所述图像积极目标样本Posv，图像消极目标样本Negv获取方法，具体包括：

6.根据权利要求1或2所述的一种带有多模态锚点的自适应文本摘要方法，其特征在于：所述文本积极句子样本Posh，文本消极句子样本Negh获取方法，具体包括：

7.根据权利要求1所述的一种带有多模态锚点的自适应文本摘要方法，其特征在于：所述核心文本摘要概率分布Ptext计算公式如下：

8.根据权利要求2所述的一种带有多模态锚点的自适应文本摘要方法，其特征在于：所述核心图像摘要概率分布Pimg计算公式如下：

...

【技术特征摘要】

1.一种带有多模态锚点的自适应文本摘要方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种带有多模态锚点的自适应文本摘要方法，其特征在于：还包括：

3.根据权利要求1或2所述的一种带有多模态锚点的自适应文本摘要方法，其特征在于：所述源文本句子特征hi,图像目标特征vj获取方法，具体包括：

4.根据权利要求1或2所述的一种带有多模态锚点的自适应文本摘要方法，其特征在于：所述多模态交叉注意力模块由k层cross-transformers串联组成；其中，第k层的cross-transformers实现过程：将k-1层cross-transformers输出的作为将输入selfattl→l模块，得到自注意源文本句子特征将输入selfattr→r模块，得到自注意图像目标特征再将输入c...

【专利技术属性】
技术研发人员：陆振宇，陈中峰，荣欢，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人