搜索方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:39241801 阅读:6 留言:0更新日期:2023-10-30 11:54
本申请提供了一种搜索方法、装置、设备及计算机可读存储介质;方法包括:响应于接收到的搜索请求,获取搜索请求中携带的搜索数据,并基于搜索数据确定搜索图像;获取训练好的搜索模型,利用所述训练好的搜索模型对所述搜索图像进行特征提取,得到搜索图像特征;利用所述训练好的搜索模型确定所述搜索图像特征与各个候选图像特征之间的相似度,各个候选图像特征是将候选数据转换为候选图像,并利用训练好的搜索模型提取出的;基于各个相似度从多个候选图像特征对应的候选数据中确定搜索结果;输出所述搜索结果。通过本申请,能够利用训练好的搜索模型完成任何多模态检索任务,具有很高的灵活性和通用性。高的灵活性和通用性。高的灵活性和通用性。

【技术实现步骤摘要】
搜索方法、装置、设备及计算机可读存储介质


[0001]本申请涉及搜索技术,尤其涉及一种搜索方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]近年来,随着海量视频的生产,视频理解任务变得尤为重要。视频理解任务能够提供众多丰富的、多样的标签数据,通过这些标签数据,用户可以方便的进行视频归档,视频推荐,视频二次编辑等。视频理解一个很重要的下游任务就是视频检索。通过视频检索,用户能够很方便的检索出相关的视频片段,视频的文本标签,标题信息等,该能力对于视频推荐,视频加工,视频编目都有着非常重要的意义。
[0003]随着用户检索需求的不断增加,视频检索平台也需要支持越来越多的能力。其中包括,用户输入文本,平台不仅要输出相关的文本,同时也需要输出相关的视频,图片,语音等信息。反过来,用户也可以通过输入图片,视频或者语音去检索文本/图片/语音/视频。因此在视频检索平台中,基于多模态的检索能力变得越来越重要。
[0004]多模态检索算法能力业界还处于初步阶段。目前多模态检索业界主流做法是,针对每一个模态设置一种编码器,通过不同的编码器提取各个模态的特征之后,通过设置模态各自的专有任务以及跨模态的对齐任务,进而使得模态间能够对齐。然而,传统方法存在一个致命的问题:每个模态都需要设置一种特征编码器,对于视频任务,会包含语音,视频,图像以及文本等多个模态,因此设置多个特征编码器,存在严重的存储以及计算资源问题。

技术实现思路

[0005]本申请实施例提供一种搜索方法、装置及计算机可读存储介质,能够在不改变搜索模型的主干网络的前提下,利用训练好的搜索模型完成任何多模态检索任务,具有很高的灵活性和通用性。
[0006]本申请实施例的技术方案是这样实现的:
[0007]本申请实施例提供一种搜索方法,所述方法包括:
[0008]响应于接收到的搜索请求,获取所述搜索请求中携带的搜索数据,并基于所述搜索数据确定搜索图像;
[0009]获取训练好的搜索模型,利用所述训练好的搜索模型对所述搜索图像进行特征提取,得到搜索图像特征;
[0010]利用所述训练好的搜索模型确定所述搜索图像特征与各个候选图像特征之间的相似度,所述各个候选图像特征是利用所述训练好的搜索模型从候选图像中提取出的,所述候选图像是基于不同模态的候选数据确定的;
[0011]基于各个相似度从多个候选图像特征对应的候选数据中确定搜索结果;
[0012]输出所述搜索结果。
[0013]本申请实施例提供一种搜索装置,包括:
[0014]第一获取模块,用于响应于接收到的搜索请求,获取所述搜索请求中携带的搜索数据,并基于所述搜索数据确定搜索图像;
[0015]第一提取模块,用于获取训练好的搜索模型,利用所述训练好的搜索模型对所述搜索图像进行特征提取,得到搜索图像特征;
[0016]第一确定模块,用于利用所述训练好的搜索模型确定所述搜索图像特征与各个候选图像特征之间的相似度,所述各个候选图像特征是利用所述训练好的搜索模型从候选图像中提取出的,所述候选图像是基于不同模态的候选数据确定的;
[0017]第二确定模块,用于基于各个相似度从多个候选图像特征对应的候选数据中确定搜索结果;
[0018]输出模块,用于输出所述搜索结果。
[0019]本申请实施例提供一种电子设备,所述电子设备包括:
[0020]存储器,用于存储计算机可执行指令;
[0021]处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的搜索方法。
[0022]本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的搜索方法。
[0023]本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的搜索方法。
[0024]本申请实施例具有以下有益效果:
[0025]在接收到搜索请求后,获取搜索数据,搜索数据可以是语音、文本、图像、视频任意形态,然后再将搜索数据转换为搜索图像,并利用训练好的搜索模型对所述搜索图像进行特征提取,得到搜索图像特征,进而确定搜索图像特征与各个候选图像特征之间的相似度,其中各个候选图像特征是将不同模态的候选数据转换为候选图像,并利用训练好的搜索模型提取出的,最后基于各个相似度从多个候选图像特征对应的候选数据中确定搜索结果,并输出搜索结果。由于训练好的搜索模型针对所有的模态,都统一设置成一种编码器,将多塔模型简化成单塔模型,将传统的多种任务简化成一种简单任务,能够在算法性能不变的情况下,大幅减小模型的大小,从而在任何多模态检索任务当中,不需改变主干网的网络结构,在不增加运行时间的前提下,大幅度提升模型的性能,具有灵活性、通用性和易用性。
附图说明
[0026]图1为相关技术中多模态检索算法的框架示意图;
[0027]图2是本申请实施例提供的搜索系统100的架构示意图;
[0028]图3是本申请实施例提供的服务器400的结构示意图;
[0029]图4A是本申请实施例提供的搜索方法的一种实现流程示意图;
[0030]图4B是本申请实施例提供的基于搜索数据确定搜索图像的实现流程示意图;
[0031]图5A是本申请实施例提供的搜索模型的训练方法实现流程示意图;
[0032]图5B是本申请实施例提供的多个训练样本对中的训练样本进行预处理的实现流程示意图;
[0033]图6是本申请实施例提供的将第一训练样本转换为图像样本的实现流程示意图;
[0034]图7是将文本转换为图像的示意图;
[0035]图8为VisionTransformer的结构示意图;
[0036]图9为利用本申请实施例提供的搜索模型的框架图。
具体实施方式
[0037]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0038]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0039]在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0040]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0041]对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种搜索方法,其特征在于,所述方法包括:响应于接收到的搜索请求,获取所述搜索请求中携带的搜索数据,并基于所述搜索数据确定搜索图像;获取训练好的搜索模型,利用所述训练好的搜索模型对所述搜索图像进行特征提取,得到搜索图像特征;利用所述训练好的搜索模型确定所述搜索图像特征与各个候选图像特征之间的相似度,所述各个候选图像特征是利用所述训练好的搜索模型从候选图像中提取出的,所述候选图像是基于不同模态的候选数据确定的;基于各个相似度从多个候选图像特征对应的候选数据中确定搜索结果;输出所述搜索结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述搜索数据确定搜索图像,包括:响应于所述搜索数据为图像模态,将所述搜索数据确定为搜索图像;响应于所述搜索数据为除图像模态之外的其他模态,将搜索数据转换为搜索图像。3.根据权利要求2中所述的方法,其特征在于,所述响应于所述搜索数据为除图像模态之外的其他模态,将搜索数据转换为搜索图像,包括:响应于所述搜索数据为文本模态,获取预设的图像属性;按照预设的图像属性将所述搜索数据转换为搜索图像,所述搜索图像中包括所述搜索数据对应的文本信息。4.根据权利要求2中所述的方法,其特征在于,所述响应于所述搜索数据为除图像模态之外的其他模态,将搜索数据转换为搜索图像,包括:响应于所述搜索数据为语音模态,对所述搜索数据进行语音识别,得到搜索文本;获取预设的图像属性,并按照所述图像属性将所述搜索文本转换为搜索图像。5.根据权利要求2中所述的方法,其特征在于,所述响应于所述搜索数据为除图像模态之外的其他模态,将搜索数据转换为搜索图像,包括:响应于所述搜索数据为视频模态,从所述搜索数据中获取至少一个搜索视频帧;响应于视频模态的所述搜索数据中包括音频数据,将所述音频数据进行语音识别,得到识别文本,并将所述识别文本按照预设的图像属性转换为识别图像;响应于视频模态的所述搜索数据中包括文本数据,将所述文本数据按照所述图像数据转换为文本图像;基于所述至少一个搜索视频帧、所述识别图像和所述文本图像中的至少一者,确定搜索图像。6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:获取预设的搜索模型和训练数据,其中所述训练数据包括多个训练样本对;对所述多个训练样本对中的训练样本进行预处理,对应得到多个预处理后的训练样本对,所述预处理后的训练样本对中的训练样本均为图像模态,且尺寸相同;利用所述多个预处理后的训练样本对,对所述搜索模型进行训练,得到训练好的搜索模型。7.根据权利要求6中所述的方法,其特征在于,所述对所述多个训练样本对中的训练样
本进行预处理,对应得到多个预处理后的训练样本对,包括:获取预设尺寸信息;将所述多个训练样本对中的第一训练样本,按照所述预设尺寸信息转换为图像样本,其中,所述第一训练样本为除图像模态之外的其他模态;将所述多个训练样本对中的第二训练样本,按照所述预设尺寸信息进行缩放处理,得到缩放后的第二训练样本,所述第二训练样本为图像模态。8.根据权利要求7中所述的方法,其特征在于,所述将所述多个训练样本对中的第一训练样本,按照所述预设尺寸信息转换为图像样本,包括:响应于所述第一训练样本为文本模态,基于所述预设尺寸信息,将所述第一训练样本转换为图像样本;响应于所述第一训练样本的模态信息为语音模态,对所述第一训...

【专利技术属性】
技术研发人员:刘烨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1