多媒体资源处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33836655 阅读：38 留言：0更新日期：2022-06-16 11:53

本申请涉及一种多媒体资源处理方法、装置、电子设备及存储介质。该方法包括：获取待搜索的第一文本信息和多个多媒体资源；分别对各多媒体资源中包括的第二文本信息和图像帧进行文本编码与图像编码，得到各多媒体资源的第二文本特征和图像特征；对各多媒体资源的第二文本特征和图像特征进行跨模态特征融合处理，得到各多媒体资源对应的多模态特征；对多模态特征和第一文本特征(第一文本信息对应的文本特征)进行特征相关性处理，确定多个多媒体资源各自与第一文本信息的相关性信息；根据相关性信息，从多个多媒体资源中筛选出与第一文本信息匹配的目标多媒体资源。根据本申请的技术方案，可以提升多媒体资源的搜索精度。可以提升多媒体资源的搜索精度。可以提升多媒体资源的搜索精度。

全部详细技术资料下载

【技术实现步骤摘要】
多媒体资源处理方法、装置、电子设备及存储介质

[0001]本申请涉及计算机视觉
，尤其涉及一种多媒体资源处理方法、装置、电子设备及存储介质。

技术介绍

[0002]多媒体资源的搜索(比如短视频的搜索等)与一般新闻、资讯等文本搜索一样，都是先输入搜索词query，搜索引擎后台根据预先建立好的文本索引(比如多媒体资源的标题、标签及简介等文本字段)召回一系列包含该query词的候选文档集合。进而再通过计算query和候选文档集合的文本相关性得分来对这些候选文档进行排序。这种搜索方式只用到了文本相关性特征，即只考虑搜索query和多媒体资源的标题等的文本相关性，在多媒体资源的标题等文本较短或者语义与视频内容本身差异较大的情况下，导致搜索精度较差。

技术实现思路

[0003]有鉴于上述存在的技术问题，本申请提出了多媒体资源处理方法、装置、电子设备及存储介质。
[0004]根据本申请的一方面，提供了一种多媒体资源处理方法，包括：
[0005]获取待搜索的第一文本信息和多个多媒体资源；
[0006]分别对各多媒体资源中包括的第二文本信息和图像帧进行文本编码与图像编码，得到各多媒体资源的第二文本特征和图像特征；
[0007]对各多媒体资源的第二文本特征和图像特征进行跨模态特征融合处理，得到各多媒体资源对应的多模态特征；
[0008]对所述多模态特征和第一文本特征进行特征相关性处理，确定所述多个多媒体资源各自与所述第一文本信息的相关性信息，所述第一文本特征为所述第一文本信息...

【技术保护点】

【技术特征摘要】
1.一种多媒体资源处理方法，其特征在于，所述方法包括：获取待搜索的第一文本信息和多个多媒体资源；分别对各多媒体资源中包括的第二文本信息和图像帧进行文本编码与图像编码，得到各多媒体资源的第二文本特征和图像特征；对各多媒体资源的第二文本特征和图像特征进行跨模态特征融合处理，得到各多媒体资源对应的多模态特征；对所述多模态特征和第一文本特征进行特征相关性处理，确定所述多个多媒体资源各自与所述第一文本信息的相关性信息，所述第一文本特征为所述第一文本信息对应的文本特征；所述相关性信息表征各多媒体资源的内容与所述第一文本信息的匹配度；根据所述相关性信息，从所述多个多媒体资源中筛选出与所述第一文本信息匹配的目标多媒体资源。2.根据权利要求1所述的方法，其特征在于，所述分别对各多媒体资源中包括的第二文本信息和图像帧进行文本编码与图像编码，得到各多媒体资源的第二文本特征和图像特征，包括：从各多媒体资源中提取各多媒体资源对应的多个图像帧；基于光学字符识别技术，从各多媒体资源对应的多个图像帧中提取各多媒体资源对应的第二文本信息；将所述第二文本信息输入第二文本处理模型进行文本特征提取处理，得到各多媒体资源对应的第二文本特征；将各多媒体资源对应的多个图像帧输入连接文本与图像的视觉特征预测模型进行图像特征提取处理，得到各多媒体资源对应的图像特征。3.根据权利要求2所述的方法，其特征在于，所述对各多媒体资源的第二文本特征和图像特征进行跨模态特征融合处理，得到各多媒体资源对应的多模态特征，包括：将所述第二文本特征和所述图像特征输入多模态特征融合模型，进行跨模态特征融合处理，得到各多媒体资源对应的所述多模态特征。4.根据权利要求2或3所述的方法，其特征在于，所述基于光学字符识别技术，从各多媒体资源对应的多个图像帧中提取各多媒体资源对应的第二文本信息，包括：对各图像帧进行区域划分处理，得到各图像帧各自对应的多个区域图像；基于光学字符识别技术对所述多个区域图像进行文本提取处理，得到所述多个区域图像各自的区域文本；对同类区域中的区域文本进行拼接和预处理，得到各类区域对应的第三文本信息；所述同类区域是指处于多个图像帧中相同位置的区域；对各类区域对应的第三文本信息进行拼接处理，得到各多媒体资源对应的所述第二文本信息。5.根据权利要求1
‑
3任一所述的方法，其特征在于，所述对所述多模态特征和第一文本特征进行特征相关性处理，确定所述多个多媒体资源各自与所述第一文本信息的相关性信息，包括：将所述第一文本特征、第一多模态特征以及第二多模态特征输入相关性预测模型，进行第一文本特征与多模态特征的相关性处理，得到所述相关性信息；
其中，所述第一多模态特征为第一多媒体资源对应的多模态特征，所述第二多模态特征为第二多媒体资源对应的多模态特征；所述第一多媒体资源和所述第二多媒体资源为所述多个多媒体资源中的任两个多媒体资源。6.根据权利要求3所述的方法，其特征在于，所述方法还包括：获取待修正的多媒体资源，所述待修正的多媒体资源为所述多个多媒体资源中除所述目标多媒体资源之外的多媒体资源；基于所述待修正的多媒体资源各自对应的第二文...

【专利技术属性】
技术研发人员：康战辉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人