数据存储方法、数据检索方法和识别相似视频的方法技术

技术编号:37960436 阅读:8 留言:0更新日期:2023-06-30 09:35
本公开提供了一种数据存储方法、数据检索方法和识别相似视频的方法,涉及计算机技术领域,尤其涉及人工智能、大数据、数据检索等技术领域。具体实现方案为:对多个数据进行聚类,得到至少一个第一聚类中心;根据至少一个第一聚类中心,对多个数据进行聚类,得到至少一个第二聚类中心;根据至少一个第一聚类中心和至少一个第二聚类中心,将多个数据划分为至少一个数据组;根据至少一个数据组,生成图结构;以及将图结构存储至数据库。将图结构存储至数据库。将图结构存储至数据库。

【技术实现步骤摘要】
数据存储方法、数据检索方法和识别相似视频的方法


[0001]本公开涉及计算机
,尤其涉及人工智能、大数据、数据检索等


技术介绍

[0002]随着CNN(Convolutional Neural Network,卷积神经网络))的广泛应用,使得应用在CNN特征上的基础检索技术ANN(Approximate Nearest Neighbor,近似最近邻检索)也得到了较快发展。针对大规模数据集,可以利用HNSW(Hierarchical Navigable Small World)。但是HN SW算法的计算量较大。

技术实现思路

[0003]本公开提供了一种数据存储方法、数据检索方法和识别相似视频的方法、装置、设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种数据存储方法,包括:对多个数据进行聚类,得到至少一个第一聚类中心;根据所述至少一个第一聚类中心,对所述多个数据进行聚类,得到至少一个第二聚类中心;根据所述至少一个第一聚类中心和所述至少一个第二聚类中心,将所述多个数据划分为至少一个数据组;根据所述至少一个数据组,生成图结构;以及将所述图结构存储至数据库。
[0005]根据本公开的另一方面,提供了一种数据检索方法,包括:确定至少一个第一聚类中心与待检索数据匹配的目标第一聚类中心;确定至少一个第二聚类中心与所述待检索数据匹配的目标第二聚类中心;根据所述目标第一聚类中心和所述目标第二聚类中心,确定多个数据组中的目标数据组;以及在数据库的图结构中,以与所述目标数据组对应的节点作为起点,检索与所述待检索数据匹配的数据,得到检索结果,其中,所述图结构包括多个节点,所述多个节点与多个原始数据一一对应,所述多个原始数据是根据本公开实施例所述的方法存储至所述数据库的。
[0006]根据本公开的另一方面,提供了一种识别相似视频的方法,包括:确定至少一个第一聚类中心与待识别视频信息匹配的目标第一聚类中心;确定至少一个第二聚类中心与所述待识别视频信息匹配的目标第二聚类中心;根据所述目标第一聚类中心和所述目标第二聚类中心,确定多个数据组中的目标数据组;以及在数据库的图结构中,以与所述目标数据组对应的节点作为起点,检索与所述待识别视频信息匹配的视频信息,得到识别结果,其中,所述图结构包括多个节点,所述多个节点与多个原始视频信息一一对应,所述多个原始视频信息是根据本公开实施例所述的方法存储至所述数据库的。
[0007]根据本公开的另一方面,提供了一种数据存储装置,包括:第二聚类模块,用于根据所述至少一个第一聚类中心,对所述多个数据进行聚类,得到至少一个第二聚类中心;划分模块,用于根据所述至少一个第一聚类中心和所述至少一个第二聚类中心,将所述多个数据划分为至少一个数据组;图生成模块,用于根据所述至少一个数据组,生成图结构;以及存储模块,用于将所述图结构存储至数据库存储模块。
[0008]根据本公开的另一方面,提供了一种数据检索装置,包括:第一聚类中心确定模块,用于确定至少一个第一聚类中心与待检索数据匹配的目标第一聚类中心;第二聚类中心确定模块,用于确定至少一个第二聚类中心与所述待检索数据匹配的目标第二聚类中心;第一目标数据组确定模块,用于根据所述目标第一聚类中心和所述目标第二聚类中心,确定多个数据组中的目标数据组;以及第一检索模块,用于在数据库的图结构中,以与所述目标数据组对应的节点作为起点,检索与所述待检索数据匹配的数据,得到检索结果,其中,所述图结构包括多个节点,所述多个节点与多个原始数据一一对应,所述多个原始数据是根据本公开实施例所述的方法存储至所述数据库的。
[0009]本公开的另一个方面提供了一种识别相似视频的装置,包括:第三聚类中心确定模块,用于确定至少一个第一聚类中心与待识别视频信息匹配的目标第一聚类中心;第四聚类中心确定模块,用于确定至少一个第二聚类中心与所述待识别视频信息匹配的目标第二聚类中心;第二目标数据组确定模块,用于根据所述目标第一聚类中心和所述目标第二聚类中心,确定多个数据组中的目标数据组;以及第二检索模块,用于在数据库的图结构中,以与所述目标数据组对应的节点作为起点,检索与所述待识别视频信息匹配的视频信息,得到识别结果,其中,所述图结构包括多个节点,所述多个节点与多个原始视频信息一一对应,所述多个原始视频信息是根据本公开实施例所述的方法存储至所述数据库的。
[0010]本公开的另一个方面提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例所示的方法。
[0011]根据本公开实施例的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开实施例所示的方法。
[0012]根据本公开实施例的另一方面,提供了一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现本公开实施例所示方法的步骤。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0015]图1示意性示出了根据本公开实施例的示例性系统架构;
[0016]图2示意性示出了根据本公开的实施例的数据存储方法的流程图;
[0017]图3示意性示出了根据本公开的实施例的生成图结构的方法的示意图;
[0018]图4示意性示出了根据本公开的实施例的数据检索方法的流程图;
[0019]图5示意性示出了根据本公开的实施例的确定目标第二聚类中心的方法的流程图;
[0020]图6示意性示出了根据本公开的实施例的三点关系的示意图;
[0021]图7示意性示出了根据本公开的实施例的以与目标数据组对应的节点作为起点,检索与待检索数据匹配的数据的方法的流程图;
[0022]图8示意性示出了根据本公开实施例的数据存储装置的框图;
[0023]图9示意性示出了根据本公开实施例的数据检索装置的框图;
[0024]图10示意性示出了根据本公开实施例的识别相似视频的装置的框图;
[0025]图11示意性示出了可以用来实施本公开的实施例的示例电子设备的框图。
具体实施方式
[0026]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0027]以下将结合图1对本公开提供的数据存储方法、数据检索方法、识别相似视频的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据存储方法,包括:对多个数据进行聚类,得到至少一个第一聚类中心;根据所述至少一个第一聚类中心,对所述多个数据进行聚类,得到至少一个第二聚类中心;根据所述至少一个第一聚类中心和所述至少一个第二聚类中心,将所述多个数据划分为至少一个数据组;根据所述至少一个数据组,生成图结构;以及将所述图结构存储至数据库。2.根据权利要求1所述的方法,其中,所述根据所述至少一个第一聚类中心,对所述多个数据进行聚类,得到至少一个第二聚类中心,包括:确定所述多个数据中的每个数据与该数据最接近的第一聚类中心之间的残差,得到残差向量空间;以及基于所述残差向量空间,对所述多个数据进行聚类,得到所述至少一个第二聚类中心。3.根据权利要求1所述的方法,其中,所述根据所述至少一个数据组,生成图结构,包括:根据所述至少一个数据组中的每个数据,确定图结构中的节点;以及根据所述节点与数据组的对应关系,生成所述节点之间的边,其中,所述边用于表示节点之间的邻居关系。4.根据权利要求3所述的方法,其中,所述边包括邻接边和相邻边;所述根据所述节点与数据组的对应关系,生成所述节点之间的边,包括:对于任意两个节点,在所述两个节点对应于同一个数据组的情况下,在所述两个节点之间生成相邻边;在所述两个节点对应于不同数据组的情况下,确定所述两个节点之间的相似度;以及在所述相似度高于相似度阈值的情况下,在所述两个节点之间生成邻接边。5.根据权利要求1所述的方法,其中,所述对多个数据进行聚类,得到至少一个第一聚类中心,包括:确定所述多个数据中每个数据的原始特征,得到原始特征空间;以及基于所述原始特征空间,对所述多个数据进行聚类,得到所述至少一个第一聚类中心。6.根据权利要求1所述的方法,其中,所述根据所述至少一个第一聚类中心和所述至少一个第二聚类中心,将所述多个数据划分为至少一个数据组,包括:将所述多个数据中对应于相同第一聚类中心和相同第二聚类中心的数据划分为一个数据组。7.根据权利要求1所述的方法,还包括:计算每个第一聚类中心和每个第二聚类中心之间的第一距离;以及在所述数据库中记录所述第一距离。8.一种数据检索方法,包括:确定至少一个第一聚类中心与待检索数据匹配的目标第一聚类中心;确定至少一个第二聚类中心与所述待检索数据匹配的目标第二聚类中心;
根据所述目标第一聚类中心和所述目标第二聚类中心,确定多个数据组中的目标数据组;以及在数据库的图结构中,以与所述目标数据组对应的节点作为起点,检索与所述待检索数据匹配的数据,得到检索结果,其中,所述图结构包括多个节点,所述多个节点与多个原始数据一一对应,所述多个原始数据是根据权利要求1

7中任一项所述的方法存储至所述数据库的。9.根据权利要求8所述的方法,其中,所述确定至少一个第一聚类中心与待检索数据匹配的目标第一聚类中心,包括:计算所述至少一个第一聚类中心中每个第一聚类中心与所述待检索数据之间的距离;以及确定所述至少一个第一聚类中心中距离小于第一距离阈值的第一聚类中心,作为所述目标第一聚类中心。10.根据权利要求9所述的方法,其中,所述确定至少一个第二聚类中心与所述待检索数据匹配的目标第二聚类中心,包括:获取所述目标第一聚类中心和所述第二聚类中心之间的第一距离;根据所述第一距离和所述目标第一聚类中心与所述待检索数据之间的第二距离,确定距离上界;根据所述第一距离、所述第二距离和与所述第二聚类中心对应的残差,确定距离下界;以及确定所述至少一个第二聚类中心中与所述待检索数据之间的距离与所述距离上界和所述距离下界匹配的第二聚类中心,作为所述目标第二聚类中心。11.根据权利要求8所述的方法,其中,所述在数据库的图结构中,以与所述目标数据组对应的节点作为起点,检索与所述待检索数据匹配的数据,得到检索结果,包括:将与所述目标数据组对应的节点添加至候选集;对所述候选集中的每个节点,确定与每个节点具有邻居关系的邻居节点;确定所述邻居节点中是否存在与所述待检索数据匹配的目标节点;在所述邻居节点中存在与所述待检索数据匹配的目标节点的情况下,根据所述目标节点,更新所述候选集,并针对更新后的候选集,返回所述对所述候选集中的每个节点,确定与每个节点具有邻居关系的邻居节点的操作;以及在所述邻居节点中不存在与所述待检索数据匹配的目标节点的情况下,确定与所述候选集对应的原始数据,作为所述检索结果。12.根据权利要求11所述的方法,其中,所述确定所述邻居节点中是否存在与所述待检索数据匹配的目标节点,包括:计算所述邻居节点与所述待检索数据之间的相似度;以及在所述相似度大于相似度阈值的情况下,确定所述邻居节点作为所述目标节点。13.一种识别相似视频的方法,包括:确定至少一个第一聚类中心与待识别视频信息匹配的目标第一聚类中心;确定至少一个第二聚类中心与所述待识别视频信息匹配的目标第二聚类中心;根据所述目标第一聚类中心和所述目标第二聚类中心,确定多个数据组中的目标数据
组;以及在数据库的图结构中,以与所述目标数据组对应的节点作为起点,检索与所述待识别视频信息匹配的视频信息,得到识别结果,其中,所述图结构包括多个节点,所述多个节点与多个原始视频信息一一对应,所述多个原始视频信息是根据权利要求1

7中任一项所述的方法存储至所述数据库的。14.根据权利要求13所述的方法,其中,所述确定至少一个第一聚类中心与待识别视频信息匹配的目标第一聚类中心,包括:计算所述至少一个第一聚类中心中每个第一聚类中心与所述待识别视频信息之间的距离;以及确定所述至少一个第一聚类中心中距离小于第一距离阈值的第一聚类中心,作为所述目标第一聚类中心。15.根据权利要求14所述的方法,其中,所述确定至少一个第二聚类中心与所述待识别视频信息匹配的目标第二聚类中心,包括:获取所述目标第一聚类中心和所述第二聚类中心之间的第一距离;根据所述第一距离和所述目标第一聚类中心与所述待识别视频信息之间的第二距离,确定距离上界;根据所述第一距离、所述第二距离和与所述第二聚类中心对应的残差,确定距离下界;以及确定所述至少一个第二聚类中心中与所述待识别视频信息之间的距离与所述距离上界和所述距离下界匹配的第二聚类中心,作为所述目标第二聚类中心。16.根据权利要求13所述的方法,其中,所述在数据库的图结构中,以与所述目标数据组对应的节点作为起点,检索与所述待识别视频信息匹配的目标视频信息,得到识别结果,包括:将与所述目标数据组对应的节点添加至候选集;对所述候选集中的每个节点,确定与每个节点具有邻居关系的邻居节点;确定所述邻居节点中是否存在与所述待识别视频信息匹配的目标节点;在所述邻居节点中存在与所述待识别视频信息匹配的目标节点的情况下,根据所述目标节点,更新所述候选集,并针对更新后的候选集,返回所述对所述候选集中的每个节点,确定与每个节点具有邻居关系的邻居节点的操作;以及在所述邻居节点中不存在与所述待识别视频信息匹配的目标节点的情况下,确定与所述候选集对应的视频信息,作为所述识别结果。17.根据权利要求16所述的方法,其中,所述确定所述邻居节点中是否存在与所述待识别视频信息匹配的目标节点,包括:计算所述邻居节点与所述待识别视频信息之间的相似度;以及在所述相似度大于相似度阈值的情况下,确定所述邻居节点作为所述目标节点。18.一种数据存储装置,包括:第一聚类模块,用于对多个数据进行聚类,得到至少一个第一聚类中心;第二聚类模块,用于根据所述至少一个第一聚类中心,对所述多个数据进行聚类,得到至少一个第二聚类中心;
划分模块,用于根据所述至少一个第一聚类中心和所述至少一个第二聚类中心,将所述多个数据划分为至少一个数据组;图生成模块,用于根据所述至少一个数据组,生成图结构;以及存储模块,用于将所述图结构存储至数据库。19.根据权利要求18所述的装置,其中,所述第二聚类模块包括:残差确定子模块,用于确定所述多个数据中的每个数据与该数据最接近的第一聚类中心之间的残差,得到...

【专利技术属性】
技术研发人员:尹洁黄贲
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1