一种多模态数据的文本标签提取方法、装置、设备及介质制造方法及图纸

技术编号：40437489 阅读：16 留言：0更新日期：2024-02-22 23:01

本申请涉及一种多模态数据的文本标签提取方法、装置、设备及介质。所述方法包括：获取多模态数据并进行分类；将文本数据、图像数据、语音数据和视频数据转换为文本信息，并将其他数据的文本内容赋值为空字符串，然后获取转换后的文本信息进行预处理，得到预处理后的转换文本并与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接，并将空字符串与其他数据对应的原始文件名称进行拼接，得到最终的转换文本；最后对最终的转换文本进行分词和词性标注，并根据词性标注结果进行分级开放标签提取，得到多模态数据的文本标签列表。采用本方法能够实现不同场景下多模态数据的文本转换和标签提取。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及多模态数据处理，特别是涉及一种多模态数据的文本标签提取方法、装置、设备及介质。

技术介绍

1、多模态数据主要包含图像、文本、语音、视频这四大类不同模态的数据。多模态数据的标签提取需要先将不同结构形态的数据转换为目标模态，再对目标模态进行标签提取。然而，现阶段的多模态数据转换方法大部分都只针对两种模态之间的数据对象进行转化建模，例如图像-文本转换、视频-文本转换、语音-文本转换等几大类，由于多模态数据之间的表示异质难题，同时涵盖所有模态的统一特征转换和标签提取技术尚不成熟，无法满足多场景的数据转换和标签提取要求。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种多模态数据的文本标签提取方法、装置、设备及介质。

2、一种多模态数据的文本标签提取方法，所述方法包括：

3、获取多模态数据并进行数据分类，将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据；

4、将文本数据、图像数据、语音数据和视频数据转换为文本信息，并将其他数...

【技术保护点】

1.一种多模态数据的文本标签提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，获取多模态数据并进行数据分类，将所述多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据，包括：

3.根据权利要求1所述的方法，其特征在于，对所述图像数据并行开展光学字符识别和图像内容描述生成，获取图像数据的转换文本，包括：

4.根据权利要求1所述的方法，其特征在于，对所述语音数据进行语音识别，获取语音数据的转换文本，包括：

5.根据权利要求1所述的方法，其特征在于，对所述视频数据并行开展语音识别和字幕文字识别，获取视频...

【技术特征摘要】

1.一种多模态数据的文本标签提取方法，其特征在于，所述方法包括：

3.根据权利要求1所述的方法，其特征在于，对所述图像数据并行开展光学字符识别和图像内容描述生成，获取图像数据的转换文本，包括：

4.根据权利要求1所述的方法，其特征在于，对所述语音数据进行语音识别，获取语音数据的转换文本，包括：

5.根据权利要求1所述的方法，其特征在于，对所述视频数据并行开展语音识别和字幕文字识别，获取视频数据的转换文本，包括：

6.根据权利要求1所述的方法，其...

【专利技术属性】
技术研发人员：葛斌，何春辉，张翀，李家旭，杨济伟，田雪萌，唐雯，吴菲，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人