参考多模态信息的文本摘要生成方法、电子设备及介质技术

技术编号：33449993 阅读：37 留言：0更新日期：2022-05-19 00:34

本发明专利技术涉及一种参考多模态信息的文本摘要生成方法、电子设备及介质，包括编码步骤和解码步骤；编码步骤包括：通过特征映射获取多模态信息的序列化特征，多模态信息包括文本信息、音频信息和图像信息；通过注意力机制对多模态信息的序列化特征进行增强，获得多模态信息的增强特征；对多模态信息的增强特征进行分类，获得若干类增强特征集合；将若干类增强特征集合一一对应输入若干个前馈神经网络中，对应获得若干组融合特征；将若干组融合特征拼接成特征融合向量；解码步骤包括：通过跨注意力机制，以特征融合向量作为隐状态输入，对文本信息的增强特征与特征融合向量进行特征融合，生成文本摘要。与现有技术相比，本发明专利技术具有效率高、准确性高等优点。准确性高等优点。准确性高等优点。

全部详细技术资料下载

【技术实现步骤摘要】
参考多模态信息的文本摘要生成方法、电子设备及介质

[0001]本专利技术涉及一种文本摘要生成技术，尤其是涉及一种参考多模态信息的文本摘要生成方法、电子设备及介质。

技术介绍

[0002]随着网络多媒体信息的丰富，人们对短而有效的信息的需求也越来越大。许多跨媒体平台依赖于与视频或音频相关的文本，例如新闻标题。因此，多模态输入的抽象句摘要技术的发展可以避免资源的浪费，减少重复性工作，推动社会的发展。
[0003]本专利技术所需要解决的事情是基于多种模态的输入信息自动化的生成文本摘要。现有的摘要研究主要集中在单模态(不是文本摘要就是视频摘要)上，部分研究者将多模态输入归纳为文本或多模态输出，虽取得了一些进展，但还存在两大问题：
[0004](1)多模态信息无法有效的进行对齐；
[0005](2)对所有的特征一视同仁，并没有采用分而治之的方法对待特征中的不同部分。

技术实现思路

[0006]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种参考多模态信息的文本摘要生成方法、电子设备及介质，效率高，准确性高。
[0007]本专利技术的目的可以通过以下技术方案来实现：
[0008]一种参考多模态信息的文本摘要生成方法，包括编码步骤和解码步骤；
[0009]所述的编码步骤包括：
[0010]通过特征映射获取多模态信息的序列化特征，所述的多模态信息包括文本信息、音频信息和图像信息；
[0011]通过注意力机制对多模态信息的序列化特征进行增强，获...

【技术保护点】

【技术特征摘要】
1.一种参考多模态信息的文本摘要生成方法，其特征在于，包括编码步骤和解码步骤；所述的编码步骤包括：通过特征映射获取多模态信息的序列化特征，所述的多模态信息包括文本信息、音频信息和图像信息；通过注意力机制对多模态信息的序列化特征进行增强，获得多模态信息的增强特征；对多模态信息的增强特征进行分类，获得若干类增强特征集合；将若干类增强特征集合一一对应输入若干个前馈神经网络中，对应获得若干组融合特征；将若干组融合特征拼接成特征融合向量；所述的解码步骤包括：通过跨注意力机制，以特征融合向量作为隐状态输入，对文本信息的增强特征与特征融合向量进行特征融合，生成文本摘要。2.根据权利要求1所述的一种参考多模态信息的文本摘要生成方法，其特征在于，所述的文本信息的序列化特征为词嵌入特征；所述的音频信息的序列化特征为MFCC特征；所述的图像信息的序列化特征的获取过程包括：对图像进行切分切，经切分后的图像的特征维度与词嵌入特征的特征维度相同，经切分后的图像的数据长度与MFCC特征的数据长度相同。3.根据权利要求1所述的一种参考多模态信息的文本摘要生成方法，其特征在于，通过分类器对多模态信息的增强特征进行分类，所述的分类器的表达式为：其中，n为前馈神经网络的数量，R为输入信息，R
i
为经分类后的第i类增强特征集合，为文本信息，L
T
为文本信息的长度，D
T
为文本信息的特征维度，为音频信息，L
I
为音...

【专利技术属性】
技术研发人员：张梓键，付卫婷，
申请(专利权)人：浙江同善人工智能技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人