跨模态检索方法、装置、设备、存储介质及计算机程序制造方法及图纸

技术编号：40606277 阅读：4 留言：0更新日期：2024-03-12 22:12

本申请公开了一种跨模态检索方法、装置、设备、存储介质及计算机程序，属于信息检索领域。所述方法包括：提取检索文本的文本标签和文本特征；基于文本标签和被检索视觉数据的视觉标签，确定被检索视觉数据中是否存在视觉标签与文本标签匹配的至少一个第一视觉数据，被检索视觉数据包括图像和/或视频；基于文本特征和被检索视觉数据的视觉特征，确定被检索视觉数据中是否存在视觉特征与文本特征匹配的至少一个第二视觉数据；如果被检索视觉数据中存在至少一个第一视觉数据和至少一个第二视觉数据，则基于至少一个第一视觉数据和至少一个第二视觉数据确定检索结果。本申请能够同时提升跨模态的检索精度和检索广度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及信息检索领域，特别涉及一种跨模态检索方法、装置、设备、存储介质及计算机程序。

技术介绍

1、随着科学技术的发展，图像、文本、视频等多模态数据爆炸式增长，而且用户对于检索的需求不再停留在以文本检索文本的形式，所以跨模态检索随之产生。跨模态检索是以某一种模态的数据去检索另一种模态的数据的检索形式，比如，用户通过输入文本来检索图像或者视频。然而，由于不同模态的数据差异性较大，跨模态检索仍然面临很大挑战，如何不限定用户输入的内容,并反馈给用户想要的图像或者视频,从而实现开放内容的跨模态检索，满足用户的实际体验是目前非常重要的问题。因此，亟需一种跨模态的检索方法。

技术实现思路

1、本申请提供了一种跨模态检索方法、装置、设备、存储介质及计算机程序，能够实现多场景下的开放内容跨模态的检索。所述技术方案如下：

2、第一方面，提供了一种跨模态检索方法，所述方法包括：提取检索文本的文本标签和文本特征；基于所述文本标签和被检索视觉数据的视觉标签，确定所述被检索视觉数据中是否存在视觉标签与所述文本标签匹配的至少一个第一视觉数据，所述被检索视觉数据包括图像和/或视频；基于所述文本特征和所述被检索视觉数据的视觉特征，确定所述被检索视觉数据中是否存在视觉特征与所述文本特征匹配的至少一个第二视觉数据；基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果。

3、可选地，如果所述被检索视觉数据中存在所述至少一个第一视觉数据和所述至少一个第二视觉数据，则基于所述至少一个

4、由于被检索视觉数据的视觉标签的范围固定，所以，通过被检索视觉数据的视觉标签和检索文本的文本标签确定出的第一视觉数据比较精确，也即是，通过标签匹配能够精确地控制检索范围。并且，由于检索文本是具有语义开放性的自然语言的描述信息，所以，通过被检索视觉数据的视觉特征和检索文本的文本特征确定出的第二视觉数据没有语义上的限制，支持自然语义检索，检索比较灵活，检索范围也比较广，能够识别形容词等细粒度的检索文本。这样，在被检索视觉数据中同时存在第一视觉数据和第二视觉数据的情况下，将第一视觉数据和第二视觉数据进行融合，能够同时提升跨模态的检索精度和检索广度。

5、本申请提供的跨模态检索方法可以应用于网络侧场景，也可应用于端侧场景。检索文本根据应用场景的不同，获取的方式也不同。例如，在网络侧场景中，用户终端提供检索页面以供用户在检索页面内的检索框中输入检索文本，然后，用户终端将检索框中输入的检索文本发送给服务器，由服务器提取该检索文本的文本标签和文本特征。在端侧场景中，用户终端提供检索页面以供用户在检索页面内的检索框中输入检索文本，然后，用户终端直接提取检索框中输入的检索文本的文本标签和文本特征。

6、将检索文本的文本标签与被检索视觉数据的视觉标签进行匹配，以确定被检索视觉数据中是否存在视觉标签与文本标签相同或者属于同义词的视觉数据。如果被检索视觉数据中存在视觉标签与检索文本的文本标签相同或者属于同义词的视觉数据，则确定被检索视觉数据中存在至少一个第一视觉数据，该至少一个第一视觉数据为被检索视觉数据中视觉标签与检索文本的文本标签相同或者属于同义词的视觉数据；如果被检索视觉数据中不存在视觉标签与检索文本的文本标签相同或者属于同义词的视觉数据，则确定被检索视觉数据中不存在至少一个第一视觉数据。

7、确定检索文本的文本特征与被检索视觉数据的视觉特征之间的相似度，如果被检索视觉数据中存在视觉特征与检索文本的文本特征之间的相似度大于第二相似度阈值的视觉数据，则确定被检索视觉数据中存在至少一个第二视觉数据，该至少一个第二视觉数据为被检索视觉数据中视觉特征与检索文本的文本特征之间的相似度大于第二相似度阈值的视觉数据；如果被检索视觉数据中不存在视觉特征与检索文本的文本特征之间的相似度大于第二相似度阈值的视觉数据，则确定被检索视觉数据中不存在至少一个第二视觉数据。

8、经上述步骤判断可得，被检索视觉数据中可能同时存在至少一个第一视觉数据和至少一个第二视觉数据，也可能只存在至少一个第一视觉数据或者只存在至少一个第二视觉数据。如果被检索视觉数据中同时存在至少一个第一视觉数据和至少一个第二视觉数据，可以按照融合策略对至少一个第一视觉数据和至少一个第二视觉数据进行融合，以得到检索结果。如果被检索视觉数据中存在至少一个第一视觉数据但不存在至少一个第二视觉数据，则将至少一个第一视觉数据作为检索结果。如果被检索视觉数据中存在至少一个第二视觉数据但不存在至少一个第一视觉数据，则将至少一个第二视觉数据作为检索结果。

9、其中，融合策略是预先设定好的，可以根据应用场景对于检索结果的数量和准确性的侧重程度，选择将至少一个第一视觉数据和至少一个第二视觉数据取并集或交集来作为检索结果。也即是，当应用场景更侧重于检索结果的数量时，将至少一个第一视觉数据和至少一个第二视觉数据取并集作为检索结果；当应用场景更侧重于检索结果的准确性时，将至少一个第一视觉数据和至少一个第二视觉数据取交集作为检索结果。

10、作为一种示例，如果所述至少一个第一视觉数据的视觉标签属于第一类标签，则将所述至少一个第一视觉数据和所述至少一个第二视觉数据的交集作为所述检索结果，所述第一类标签是指表征视觉数据时具有不确定性的标签。

11、由于第一类标签是指表征视觉数据时具有不确定性的标签，所以，在至少一个第一视觉数据的视觉标签属于第一类标签的情况下，表明该至少一个第一视觉数据的视觉标签可能不一定能够准确地表达相应的视觉数据的内容，此时，为了保证检索结果的准确性，将至少一个第一视觉数据和至少一个第二视觉数据的交集作为检索结果。

12、作为一种示例，如果所述至少一个第一视觉数据的视觉标签属于第二类标签，则将所述至少一个第一视觉数据和所述至少一个第二视觉数据的并集作为所述检索结果，所述第二类标签是指表征视觉数据时具有确定性的标签。

13、由于第二类标签是指表征视觉数据时具有确定性的标签，所以，在至少一个第一视觉数据的视觉标签属于第二类标签的情况下，表明该至少一个第一视觉数据的视觉标签能够准确地表达相应的视觉数据的内容，此时，为了保证检索结果的数量，将至少一个第一视觉数据和至少一个第二视觉数据的并集作为检索结果。

14、在被检索视觉数据中存在至少一个第二视觉数据的情况下，可以直接按照上述方法来确定检索结果。当然，还可以对至少一个第二视觉数据进行更精确地处理之后，再按照上述方法来确定检索结果。其中，对至少一个第二视觉数据进行更精确处理的方法包括多种，接下来对其中的一种方法进行介绍。

15、如果所述被检索视觉数据中存在所述至少一个第二视觉数据，将所述至少一个第二视觉数据的视觉特征和所述文本特征输入至神经网络模型中，以得到模型推理结果，所述模型推理结果包括相似性结果和/或成对判断结果，所述相似性结果指示所述至少一个第二视觉数据分别与所述检索文本之间本文档来自技高网...

【技术保护点】

1.一种跨模态检索方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果，包括：

3.如权利要求1或2所述的方法，其特征在于，所述基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果，包括：

4.如权利要求1-3任一项所述的方法，其特征在于，所述基于所述至少一个第一视觉数据和所述至少一个第二视觉数据确定检索结果，包括：

5.如权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

6.如权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.如权利要求1-6任一项所述的方法，其特征在于，所述被检索视觉数据中存在所述至少一个第二视觉数据；所述方法还包括：

8.如权利要求7所述的方法，其特征在于，所述模型推理结果包括相似性结果；

9.如权利要求7所述的方法，其特征在于，所述模型推理结果包括成对判断结果；

10.如权利要求7所述的方法，其特征在于，所述模型推理结

11.一种跨模态检索装置，其特征在于，所述装置包括：

12.如权利要求11所述的装置，其特征在于，所述第三确定模块具体用于：

13.如权利要求11或12所述的装置，其特征在于，所述第三确定模块具体用于：

14.如权利要求11-13任一项所述的装置，其特征在于，所述第三确定模块具体用于：

15.如权利要求11-14任一项所述的装置，其特征在于，所述装置还包括：

16.如权利要求11-15任一项所述的装置，其特征在于，所述装置还包括：

17.如权利要求11-16任一项所述的装置，其特征在于，所述被检索视觉数据中存在所述至少一个第二视觉数据；所述装置还包括：

18.如权利要求17所述的装置，其特征在于，所述模型推理结果包括相似性结果；所述处理模块具体用于：

19.如权利要求17所述的装置，其特征在于，所述模型推理结果包括成对判断结果；所述处理模块具体用于：

20.如权利要求17所述的装置，其特征在于，所述模型推理结果包括相似性结果和成对判断结果；所述处理模块具体用于：

21.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器被配置为执行所述计算机程序，以实现权利要求1-10任一项所述的跨模态检索方法的步骤。

22.一种计算机可读存储介质，其特征在于，所述存储介质内存储有指令，当所述指令在所述计算机上运行时，使得所述计算机执行权利要求1-10任一项所述的方法的步骤。

23.一种计算机程序，其特征在于，所述计算机程序包含指令，当所述指令在计算机上运行时，使得所述计算机执行权利要求1-10任一项所述的跨模态检索方法的步骤。

24.一种芯片，其特征在于，所述芯片包括处理器和接口电路，所述接口电路用于接收指令并传输至所述处理器，所述处理器用于执行权利要求1-10任一项所述的跨模态检索方法的步骤。

25.一种检索系统，其特征在于，所述检索系统包括权利要求11-20任一项所述的跨模态检索装置以及模型训练装置。

...

【技术特征摘要】