参考多模态信息的文本摘要生成方法、电子设备及介质技术

技术编号:33449993 阅读:37 留言:0更新日期:2022-05-19 00:34
本发明专利技术涉及一种参考多模态信息的文本摘要生成方法、电子设备及介质,包括编码步骤和解码步骤;编码步骤包括:通过特征映射获取多模态信息的序列化特征,多模态信息包括文本信息、音频信息和图像信息;通过注意力机制对多模态信息的序列化特征进行增强,获得多模态信息的增强特征;对多模态信息的增强特征进行分类,获得若干类增强特征集合;将若干类增强特征集合一一对应输入若干个前馈神经网络中,对应获得若干组融合特征;将若干组融合特征拼接成特征融合向量;解码步骤包括:通过跨注意力机制,以特征融合向量作为隐状态输入,对文本信息的增强特征与特征融合向量进行特征融合,生成文本摘要。与现有技术相比,本发明专利技术具有效率高、准确性高等优点。准确性高等优点。准确性高等优点。

【技术实现步骤摘要】
参考多模态信息的文本摘要生成方法、电子设备及介质


[0001]本专利技术涉及一种文本摘要生成技术,尤其是涉及一种参考多模态信息的文本摘要生成方法、电子设备及介质。

技术介绍

[0002]随着网络多媒体信息的丰富,人们对短而有效的信息的需求也越来越大。许多跨媒体平台依赖于与视频或音频相关的文本,例如新闻标题。因此,多模态输入的抽象句摘要技术的发展可以避免资源的浪费,减少重复性工作,推动社会的发展。
[0003]本专利技术所需要解决的事情是基于多种模态的输入信息自动化的生成文本摘要。现有的摘要研究主要集中在单模态(不是文本摘要就是视频摘要)上,部分研究者将多模态输入归纳为文本或多模态输出,虽取得了一些进展,但还存在两大问题:
[0004](1)多模态信息无法有效的进行对齐;
[0005](2)对所有的特征一视同仁,并没有采用分而治之的方法对待特征中的不同部分。

技术实现思路

[0006]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种参考多模态信息的文本摘要生成方法、电子设备及介质,效率高,准确性高。
[0007]本专利技术的目的可以通过以下技术方案来实现:
[0008]一种参考多模态信息的文本摘要生成方法,包括编码步骤和解码步骤;
[0009]所述的编码步骤包括:
[0010]通过特征映射获取多模态信息的序列化特征,所述的多模态信息包括文本信息、音频信息和图像信息;
[0011]通过注意力机制对多模态信息的序列化特征进行增强,获得多模态信息的增强特征;
[0012]对多模态信息的增强特征进行分类,获得若干类增强特征集合;
[0013]将若干类增强特征集合一一对应输入若干个前馈神经网络中,对应获得若干组融合特征;
[0014]将若干组融合特征拼接成特征融合向量;
[0015]所述的解码步骤包括:
[0016]通过跨注意力机制,以特征融合向量作为隐状态输入,对文本信息的增强特征与特征融合向量进行特征融合,生成文本摘要。
[0017]进一步地,所述的文本信息的序列化特征为词嵌入特征;
[0018]所述的音频信息的序列化特征为MFCC特征;
[0019]所述的图像信息的序列化特征的获取过程包括:
[0020]对图像进行切分切,经切分后的图像的特征维度与词嵌入特征的特征维度相同,经切分后的图像的数据长度与MFCC特征的数据长度相同。
[0021]进一步地,通过分类器对多模态信息的增强特征进行分类,所述的分类器的表达式为:
[0022][0023]其中,n为前馈神经网络的数量,R为输入信息,R
i
为经分类后的第i类增强特征集合,为文本信息,L
T
为文本信息的长度,D
T
为文本信息的特征维度,为音频信息,L
I
为音频信息的长度,D
I
为音频信息的特征维度,为图像信息,L
A
为图像信息的长度,D
A
为图像信息的特征维度。
[0024]进一步地,所述的融合特征的表达式为:
[0025][0026]其中,FFN
i
为第i个前馈神经网络。
[0027]进一步地,所述的通过注意力机制对多模态信息的序列化特征进行增强的过程包括:
[0028]通过自注意力机制对文本信息进行增强,利用文本信息,通过跨注意力机制对音频信息和图像信息进行增强。
[0029]进一步地,所述的自注意力机制通过Transformer模型实现。
[0030]进一步地,所述的跨注意力机制通过Transformer模型实现。
[0031]进一步地,对注意力机制中的掩码矩阵进行遮盖。
[0032]一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器调用所述程序指令能够执行所述的文本摘要生成方法。
[0033]一种计算机可读存储介质,包括计算机程序,所述计算机程序能够被处理器执行以实现所述的文本摘要生成方法。
[0034]与现有技术相比,本专利技术具有以如下有益效果:
[0035](1)本专利技术文本、图像和音频的三元多模态数据组经特征映射后均变为序列化数据结构,利用自注意力机制增强文本信息的特征表达,利用跨注意力机制从图像信息和音频信息中分别学习利于文本表达的信息,获得三元多模态数据的增强特征,对增强特征进行分类后一一对应地输入若干个前馈神经网络中,对应获得若干组融合特征,将若干组融合特征拼接成特征融合向量,以特征融合向量作为隐向量,以文本信息的增强特征作为输入,通过跨注意力机制进行交互,生成最终的文本摘要预测结果,本专利技术利用跨模态交互融合信息,然后对增强特征进行分类,利用对应的前馈神经网络对属于同一类的不同模态的增强特征进行融合,让融合特征的不同信息能被更好的捕捉,使最终表达更加高效和准确,利用特征融合向量反作用于文本摘要生成过程,能更好的融合多模态信息;
[0036](2)本专利技术为了使得整个文本摘要在生成的过程中能够遵循序列化生成的策略,采用掩码的形式进行操作,即将跨注意力机制和自注意力机制中的掩码矩阵进行遮盖。
附图说明
[0037]图1为基于Transformer模型的多模态分层选择框架结构示意图。
具体实施方式
[0038]下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。
[0039]实施例1
[0040]一种参考多模态信息的文本摘要生成方法,包括编码步骤和解码步骤;
[0041]编码步骤包括:
[0042]通过特征映射获取多模态信息的序列化特征,多模态信息包括文本信息、音频信息和图像信息;
[0043]通过注意力机制对多模态信息的序列化特征进行增强,获得多模态信息的增强特征;
[0044]对多模态信息的增强特征进行分类,获得若干类增强特征集合;
[0045]将若干类增强特征集合一一对应输入若干个前馈神经网络中,对应获得若干组融合特征;
[0046]将若干组融合特征拼接成特征融合向量;
[0047]解码步骤包括:
[0048]通过跨注意力机制,以特征融合向量作为隐状态输入,对文本信息的增强特征与特征融合向量进行特征融合,生成文本摘要。
[0049]特征表征(特征映射)主要是对不同的模态的数据进行特征的映射,使其具有序列化的数据结构形式,文本信息的序列化特征为词嵌入特征,音频信息的序列化特征为MFCC特征,而对图像信息则需要进行切分,因为图像本身并不具有序列化的数据特性,图像信息的序列化特征的获取过程包括:
[0050]原始的图像是一个长
×

×
通道(H
×
W
×
C)的三维矩阵,随后将图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种参考多模态信息的文本摘要生成方法,其特征在于,包括编码步骤和解码步骤;所述的编码步骤包括:通过特征映射获取多模态信息的序列化特征,所述的多模态信息包括文本信息、音频信息和图像信息;通过注意力机制对多模态信息的序列化特征进行增强,获得多模态信息的增强特征;对多模态信息的增强特征进行分类,获得若干类增强特征集合;将若干类增强特征集合一一对应输入若干个前馈神经网络中,对应获得若干组融合特征;将若干组融合特征拼接成特征融合向量;所述的解码步骤包括:通过跨注意力机制,以特征融合向量作为隐状态输入,对文本信息的增强特征与特征融合向量进行特征融合,生成文本摘要。2.根据权利要求1所述的一种参考多模态信息的文本摘要生成方法,其特征在于,所述的文本信息的序列化特征为词嵌入特征;所述的音频信息的序列化特征为MFCC特征;所述的图像信息的序列化特征的获取过程包括:对图像进行切分切,经切分后的图像的特征维度与词嵌入特征的特征维度相同,经切分后的图像的数据长度与MFCC特征的数据长度相同。3.根据权利要求1所述的一种参考多模态信息的文本摘要生成方法,其特征在于,通过分类器对多模态信息的增强特征进行分类,所述的分类器的表达式为:其中,n为前馈神经网络的数量,R为输入信息,R
i
为经分类后的第i类增强特征集合,为文本信息,L
T
为文本信息的长度,D
T
为文本信息的特征维度,为音频信息,L
I
为音...

【专利技术属性】
技术研发人员:张梓键付卫婷
申请(专利权)人:浙江同善人工智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1