搜索方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：39241801 阅读：6 留言：0更新日期：2023-10-30 11:54

本申请提供了一种搜索方法、装置、设备及计算机可读存储介质；方法包括：响应于接收到的搜索请求，获取搜索请求中携带的搜索数据，并基于搜索数据确定搜索图像；获取训练好的搜索模型，利用所述训练好的搜索模型对所述搜索图像进行特征提取，得到搜索图像特征；利用所述训练好的搜索模型确定所述搜索图像特征与各个候选图像特征之间的相似度，各个候选图像特征是将候选数据转换为候选图像，并利用训练好的搜索模型提取出的；基于各个相似度从多个候选图像特征对应的候选数据中确定搜索结果；输出所述搜索结果。通过本申请，能够利用训练好的搜索模型完成任何多模态检索任务，具有很高的灵活性和通用性。高的灵活性和通用性。高的灵活性和通用性。

全部详细技术资料下载

【技术实现步骤摘要】
搜索方法、装置、设备及计算机可读存储介质

[0001]本申请涉及搜索技术，尤其涉及一种搜索方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]近年来，随着海量视频的生产，视频理解任务变得尤为重要。视频理解任务能够提供众多丰富的、多样的标签数据，通过这些标签数据，用户可以方便的进行视频归档，视频推荐，视频二次编辑等。视频理解一个很重要的下游任务就是视频检索。通过视频检索，用户能够很方便的检索出相关的视频片段，视频的文本标签，标题信息等，该能力对于视频推荐，视频加工，视频编目都有着非常重要的意义。
[0003]随着用户检索需求的不断增加，视频检索平台也需要支持越来越多的能力。其中包括，用户输入文本，平台不仅要输出相关的文本，同时也需要输出相关的视频，图片，语音等信息。反过来，用户也可以通过输入图片，视频或者语音去检索文本/图片/语音/视频。因此在视频检索平台中，基于多模态的检索能力变得越来越重要。
[0004]多模态检索算法能力业界还处于初步阶段。目前多模态检索业界主流做法是，针对每一个模态设置一种编码器，通过不同的编码器提取各个模态的特征之后，通过设置模态各自的专有任务以及跨模态的对齐任务，进而使得模态间能够对齐。然而，传统方法存在一个致命的问题：每个模态都需要设置一种特征编码器，对于视频任务，会包含语音，视频，图像以及文本等多个模态，因此设置多个特征编码器，存在严重的存储以及计算资源问题。

技术实现思路

[0005]本申请实施例提供一种搜索方法、装置及计算机可读存储介质，能够...

【技术保护点】

【技术特征摘要】
1.一种搜索方法，其特征在于，所述方法包括：响应于接收到的搜索请求，获取所述搜索请求中携带的搜索数据，并基于所述搜索数据确定搜索图像；获取训练好的搜索模型，利用所述训练好的搜索模型对所述搜索图像进行特征提取，得到搜索图像特征；利用所述训练好的搜索模型确定所述搜索图像特征与各个候选图像特征之间的相似度，所述各个候选图像特征是利用所述训练好的搜索模型从候选图像中提取出的，所述候选图像是基于不同模态的候选数据确定的；基于各个相似度从多个候选图像特征对应的候选数据中确定搜索结果；输出所述搜索结果。2.根据权利要求1所述的方法，其特征在于，所述基于所述搜索数据确定搜索图像，包括：响应于所述搜索数据为图像模态，将所述搜索数据确定为搜索图像；响应于所述搜索数据为除图像模态之外的其他模态，将搜索数据转换为搜索图像。3.根据权利要求2中所述的方法，其特征在于，所述响应于所述搜索数据为除图像模态之外的其他模态，将搜索数据转换为搜索图像，包括：响应于所述搜索数据为文本模态，获取预设的图像属性；按照预设的图像属性将所述搜索数据转换为搜索图像，所述搜索图像中包括所述搜索数据对应的文本信息。4.根据权利要求2中所述的方法，其特征在于，所述响应于所述搜索数据为除图像模态之外的其他模态，将搜索数据转换为搜索图像，包括：响应于所述搜索数据为语音模态，对所述搜索数据进行语音识别，得到搜索文本；获取预设的图像属性，并按照所述图像属性将所述搜索文本转换为搜索图像。5.根据权利要求2中所述的方法，其特征在于，所述响应于所述搜索数据为除图像模态之外的其他模态，将搜索数据转换为搜索图像，包括：响应于所述搜索数据为视频模态，从所述搜索数据中获取至少一个搜索视频帧；响应于视频模态的所述搜索数据中包括音频数据，将所述音频数据进行语音识别，得到识别文本，并将所述识别文本按照预设的图像属性转换为识别图像；响应于视频模态的所述搜索数据中包括文本数据，将所述文本数据按照所述图像数据转换为文本图像；基于所述至少一个搜索视频帧、所述识别图像和所述文本图像中的至少一者，确定搜索图像。6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：获取预设的搜索模型和训练数据，其中所述训练数据包括多个训练样本对；对所述多个训练样本对中的训练样本进行预处理，对应得到多个预处理后的训练样本对，所述预处理后的训练样本对中的训练样本均为图像模态，且尺寸相同；利用所述多个预处理后的训练样本对，对所述搜索模型进行训练，得到训练好的搜索模型。7.根据权利要求6中所述的方法，其特征在于，所述对所述多个训练样本对中的训练样
本进行预处理，对应得到多个预处理后的训练样本对，包括：获取预设尺寸信息；将所述多个训练样本对中的第一训练样本，按照所述预设尺寸信息转换为图像样本，其中，所述第一训练样本为除图像模态之外的其他模态；将所述多个训练样本对中的第二训练样本，按照所述预设尺寸信息进行缩放处理，得到缩放后的第二训练样本，所述第二训练样本为图像模态。8.根据权利要求7中所述的方法，其特征在于，所述将所述多个训练样本对中的第一训练样本，按照所述预设尺寸信息转换为图像样本，包括：响应于所述第一训练样本为文本模态，基于所述预设尺寸信息，将所述第一训练样本转换为图像样本；响应于所述第一训练样本的模态信息为语音模态，对所述第一训...

【专利技术属性】
技术研发人员：刘烨，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人