【技术实现步骤摘要】
一种基于Resnet-Bert网络模型的跨媒体检索方法
本专利技术涉及一种基于Resnet-Bert网络模型的跨媒体检索方法,属于。
技术介绍
大数据时代,多种媒体数据类型,如文本、图像、视频、音频等已经成为了人们获取知识的主要数据形式。越来越多的用户渴望通过多种媒体数据内容及其之间的相互关联关系学习和掌握更为全面的知识信息,辅助自身的认知和问题的解决。检索是用户获取知识的常用方式之一,传统的跨媒体检索研究主要集中在以文搜图和以图搜文两种媒体数据之间。事实上,随着大数据时代的来临,人们通过互联网会产生大量的文本数据如新闻报道、微博淘宝等评论数据、微信聊天记录、弹幕数据等,图片数据如表情包、文章配图、手机照片、医疗影像等,视频数据如抖音、快手等视频媒体软件数据、城市摄像头数据等,同时伴随着有音频信息,如微信语音、视频配音等信息。在人们信息交流的过程中,上述的四种媒体常常会同时出现且语义具有相关性。但现有跨媒体检索技术都局限于两种媒体数据之间,事实上,这种搜索已经不能够满足人们日益增加的数据检索需求,尤其存在着跨模态检索
【技术保护点】
1.一种基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:采用Resnet-Bert网络模型,对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索,返回对应的分类结果;当对图像数据、文本数据、视频数据和音频数据中至少两种进行分类检索时,进行检索的图像数据、文本数据、视频数据或音频数据语义类别一致;Resnet-Bert网络模型对图像数据、视频数据和音频数据进行分类检索时采用Resnet模型,对文本数据进行分类检索时采用Bert模型。/n
【技术特征摘要】
1.一种基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:采用Resnet-Bert网络模型,对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索,返回对应的分类结果;当对图像数据、文本数据、视频数据和音频数据中至少两种进行分类检索时,进行检索的图像数据、文本数据、视频数据或音频数据语义类别一致;Resnet-Bert网络模型对图像数据、视频数据和音频数据进行分类检索时采用Resnet模型,对文本数据进行分类检索时采用Bert模型。
2.如权利要求1所述的基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:所述Resnet-Bert网络模型通过图像数据、视频数据、音频数据和文本数据的联合数据训练而成;每一项联合数据中,图像数据、视频数据、音频数据和文本数据的分类标签一致。
3.如权利要求2所述的基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:所述图像数据、视频数据均通过对源数据进行图像转化、图像裁剪、去中心化、标准化操作后得到。
4.如权利要求2所述的基于Resnet-Bert网络模型的跨媒体检索方法,其特征在于:所述音频数据通过对源数据进行傅里...
【专利技术属性】
技术研发人员:闫盈盈,张婧慧,洒科进,曹扬,丁剑飞,
申请(专利权)人:中电科大数据研究院有限公司,
类型:发明
国别省市:贵州;52
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。