【技术实现步骤摘要】
本申请涉及多模态数据处理,特别是涉及一种多模态数据的文本标签提取方法、装置、设备及介质。
技术介绍
1、多模态数据主要包含图像、文本、语音、视频这四大类不同模态的数据。多模态数据的标签提取需要先将不同结构形态的数据转换为目标模态,再对目标模态进行标签提取。然而,现阶段的多模态数据转换方法大部分都只针对两种模态之间的数据对象进行转化建模,例如图像-文本转换、视频-文本转换、语音-文本转换等几大类,由于多模态数据之间的表示异质难题,同时涵盖所有模态的统一特征转换和标签提取技术尚不成熟,无法满足多场景的数据转换和标签提取要求。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种多模态数据的文本标签提取方法、装置、设备及介质。
2、一种多模态数据的文本标签提取方法,所述方法包括:
3、获取多模态数据并进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据;
4、将文本数据、图像数据、语音数据和视频数据转换为文本信息,并将其他数
...【技术保护点】
1.一种多模态数据的文本标签提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,获取多模态数据并进行数据分类,将所述多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据,包括:
3.根据权利要求1所述的方法,其特征在于,对所述图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本,包括:
4.根据权利要求1所述的方法,其特征在于,对所述语音数据进行语音识别,获取语音数据的转换文本,包括:
5.根据权利要求1所述的方法,其特征在于,对所述视频数据并行开展语音识别和字
...【技术特征摘要】
1.一种多模态数据的文本标签提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,获取多模态数据并进行数据分类,将所述多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据,包括:
3.根据权利要求1所述的方法,其特征在于,对所述图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本,包括:
4.根据权利要求1所述的方法,其特征在于,对所述语音数据进行语音识别,获取语音数据的转换文本,包括:
5.根据权利要求1所述的方法,其特征在于,对所述视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本,包括:
6.根据权利要求1所述的方法,其...
【专利技术属性】
技术研发人员:葛斌,何春辉,张翀,李家旭,杨济伟,田雪萌,唐雯,吴菲,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。