多媒体资源处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33836655 阅读:38 留言:0更新日期:2022-06-16 11:53
本申请涉及一种多媒体资源处理方法、装置、电子设备及存储介质。该方法包括:获取待搜索的第一文本信息和多个多媒体资源;分别对各多媒体资源中包括的第二文本信息和图像帧进行文本编码与图像编码,得到各多媒体资源的第二文本特征和图像特征;对各多媒体资源的第二文本特征和图像特征进行跨模态特征融合处理,得到各多媒体资源对应的多模态特征;对多模态特征和第一文本特征(第一文本信息对应的文本特征)进行特征相关性处理,确定多个多媒体资源各自与第一文本信息的相关性信息;根据相关性信息,从多个多媒体资源中筛选出与第一文本信息匹配的目标多媒体资源。根据本申请的技术方案,可以提升多媒体资源的搜索精度。可以提升多媒体资源的搜索精度。可以提升多媒体资源的搜索精度。

【技术实现步骤摘要】
多媒体资源处理方法、装置、电子设备及存储介质


[0001]本申请涉及计算机视觉
,尤其涉及一种多媒体资源处理方法、装置、电子设备及存储介质。

技术介绍

[0002]多媒体资源的搜索(比如短视频的搜索等)与一般新闻、资讯等文本搜索一样,都是先输入搜索词query,搜索引擎后台根据预先建立好的文本索引(比如多媒体资源的标题、标签及简介等文本字段)召回一系列包含该query词的候选文档集合。进而再通过计算query和候选文档集合的文本相关性得分来对这些候选文档进行排序。这种搜索方式只用到了文本相关性特征,即只考虑搜索query和多媒体资源的标题等的文本相关性,在多媒体资源的标题等文本较短或者语义与视频内容本身差异较大的情况下,导致搜索精度较差。

技术实现思路

[0003]有鉴于上述存在的技术问题,本申请提出了多媒体资源处理方法、装置、电子设备及存储介质。
[0004]根据本申请的一方面,提供了一种多媒体资源处理方法,包括:
[0005]获取待搜索的第一文本信息和多个多媒体资源;
[0006]分别对各多媒体资源中包括的第二文本信息和图像帧进行文本编码与图像编码,得到各多媒体资源的第二文本特征和图像特征;
[0007]对各多媒体资源的第二文本特征和图像特征进行跨模态特征融合处理,得到各多媒体资源对应的多模态特征;
[0008]对所述多模态特征和第一文本特征进行特征相关性处理,确定所述多个多媒体资源各自与所述第一文本信息的相关性信息,所述第一文本特征为所述第一文本信息对应的文本特征;所述相关性信息表征各多媒体资源的内容与所述第一文本信息的匹配度;
[0009]根据所述相关性信息,从所述多个多媒体资源中筛选出与所述第一文本信息匹配的目标多媒体资源。
[0010]根据本申请的另一方面,提供了一种多媒体资源处理装置,包括:
[0011]获取模块,用于获取待搜索的第一文本信息和多个多媒体资源;所述多个多媒体资源为所述第一文本信息对应的召回多媒体资源;
[0012]编码模块,用于分别对各多媒体资源中包括的第二文本信息和图像帧进行文本编码与图像编码,得到各多媒体资源的第二文本特征和图像特征;
[0013]多模态处理模块,用于对各多媒体资源的第二文本特征和图像特征进行跨模态特征融合处理,得到各多媒体资源对应的多模态特征;
[0014]相关性预测模块,用于对所述多模态特征和第一文本特征进行特征相关性处理,确定所述多个多媒体资源各自与所述第一文本信息的相关性信息,所述第一文本特征为所述第一文本信息对应的文本特征;所述相关性信息表征各多媒体资源的内容与所述第一文
所说明的任何实施例不必解释为优于或好于其它实施例。
[0031]另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
[0032]请参阅图1,图1示出根据本申请一实施例提供的一种应用系统的示意图。所述应用系统可以用于本申请的多媒体资源处理方法。如图1所示,该应用系统至少可以包括服务器01和终端02。
[0033]本申请实施例中,所述服务器01可以用于多媒体资源处理,例如多媒体资源的搜索处理,该服务器01可以包括独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0034]本申请实施例中,所述终端02可以接收并展示目标多媒体资源。该终端02可以包括智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmentedreality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的实体设备。实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中终端02上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
[0035]本说明书实施例中,上述终端02以及服务器01可以通过有线或无线通信方式进行直接或间接地连接,本申请对此不作限定。
[0036]在一个具体的实施例中,服务器02为分布式系统时,该分布式系统可以为区块链系统,分布式系统为区块链系统时,可以由多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)形成,节点之间形成组成的点对点(P2P,PeerTo Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。具体的,区块链系统中各节点的功能,涉及的功能可以包括:
[0037]1)路由,节点具有的基本功能,用于支持节点之间的通信。
[0038]节点除具有路由功能外,还可以具有以下功能:
[0039]2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
[0040]需要说明的是,在本申请的具体实施方式中,涉及到用户信息相关的数据,当本申请以下实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0041]图2示出根据本申请一实施例提供的一种多媒体资源处理方法的流程图。如图2所示,该方法可以包括:
[0042]S201,获取待搜索的第一文本信息和多个多媒体资源。
[0043]本说明书实施例中,第一文本信息可以是终端侧输入的搜索词,相应地,搜索引擎响应于搜索请求,可以获取待搜索的第一文本信息(搜索词)。进而可以基于第一文本信息,
进行多媒体资源的搜索。在一个示例中,多个多媒体资源可以是与第一文本信息对应的召回多媒体资源,即可以先进行多媒体资源的初步筛选,例如,可以获取多个待匹配多媒体资源各自的文本描述信息;从而可以基于文本描述信息,从多个待匹配多媒体资源中确定与第一文本信息对应的(匹配的)召回多媒体资源(多个多媒体资源)。即基于文本匹配进行初步筛选。具体地,可以将与第一文本信息匹配的文本描述信息对应的待匹配多媒体资源,作为多个多媒体资源。
[0044]其中,多媒体资源的文本描述信息可以是指预先为多媒体资源设置的描述信息,例如可以包括标题信息、标签信息、简介信息等,本公开对此不作限定。多个待匹配本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多媒体资源处理方法,其特征在于,所述方法包括:获取待搜索的第一文本信息和多个多媒体资源;分别对各多媒体资源中包括的第二文本信息和图像帧进行文本编码与图像编码,得到各多媒体资源的第二文本特征和图像特征;对各多媒体资源的第二文本特征和图像特征进行跨模态特征融合处理,得到各多媒体资源对应的多模态特征;对所述多模态特征和第一文本特征进行特征相关性处理,确定所述多个多媒体资源各自与所述第一文本信息的相关性信息,所述第一文本特征为所述第一文本信息对应的文本特征;所述相关性信息表征各多媒体资源的内容与所述第一文本信息的匹配度;根据所述相关性信息,从所述多个多媒体资源中筛选出与所述第一文本信息匹配的目标多媒体资源。2.根据权利要求1所述的方法,其特征在于,所述分别对各多媒体资源中包括的第二文本信息和图像帧进行文本编码与图像编码,得到各多媒体资源的第二文本特征和图像特征,包括:从各多媒体资源中提取各多媒体资源对应的多个图像帧;基于光学字符识别技术,从各多媒体资源对应的多个图像帧中提取各多媒体资源对应的第二文本信息;将所述第二文本信息输入第二文本处理模型进行文本特征提取处理,得到各多媒体资源对应的第二文本特征;将各多媒体资源对应的多个图像帧输入连接文本与图像的视觉特征预测模型进行图像特征提取处理,得到各多媒体资源对应的图像特征。3.根据权利要求2所述的方法,其特征在于,所述对各多媒体资源的第二文本特征和图像特征进行跨模态特征融合处理,得到各多媒体资源对应的多模态特征,包括:将所述第二文本特征和所述图像特征输入多模态特征融合模型,进行跨模态特征融合处理,得到各多媒体资源对应的所述多模态特征。4.根据权利要求2或3所述的方法,其特征在于,所述基于光学字符识别技术,从各多媒体资源对应的多个图像帧中提取各多媒体资源对应的第二文本信息,包括:对各图像帧进行区域划分处理,得到各图像帧各自对应的多个区域图像;基于光学字符识别技术对所述多个区域图像进行文本提取处理,得到所述多个区域图像各自的区域文本;对同类区域中的区域文本进行拼接和预处理,得到各类区域对应的第三文本信息;所述同类区域是指处于多个图像帧中相同位置的区域;对各类区域对应的第三文本信息进行拼接处理,得到各多媒体资源对应的所述第二文本信息。5.根据权利要求1

3任一所述的方法,其特征在于,所述对所述多模态特征和第一文本特征进行特征相关性处理,确定所述多个多媒体资源各自与所述第一文本信息的相关性信息,包括:将所述第一文本特征、第一多模态特征以及第二多模态特征输入相关性预测模型,进行第一文本特征与多模态特征的相关性处理,得到所述相关性信息;
其中,所述第一多模态特征为第一多媒体资源对应的多模态特征,所述第二多模态特征为第二多媒体资源对应的多模态特征;所述第一多媒体资源和所述第二多媒体资源为所述多个多媒体资源中的任两个多媒体资源。6.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取待修正的多媒体资源,所述待修正的多媒体资源为所述多个多媒体资源中除所述目标多媒体资源之外的多媒体资源;基于所述待修正的多媒体资源各自对应的第二文...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1