数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37607524 阅读:18 留言:0更新日期:2023-05-18 11:59
本公开提供了一种数据处理方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及数据处理、数据去重技术领域。具体为:获取待处理数据集中各数据的特征信息;基于特征信息对待处理数据集中的各数据进行聚类,生成多个簇;对每个簇,分别根据特征信息进行数据两两特征匹配,得到相同数据对;根据各相同数据对,关联生成相同数据组。能够对待处理数据集中的各数据进行聚类,然后通过两两特征匹配的方式生成相同数据组,从而便于后续根据去重规则对每一组相同数据组中的数据分别进行去重。重。重。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及数据处理、数据去重
,具体涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]目前实现图片去重,需要部署及维护一套图片检索系统,离线计算图片的特征,将全量待去重图片建索引,然后再通过检索系统,全量检索一遍这些图片,获得相同的重复图片,再进行图片去重。
[0003]但是,在图片去重业务场景多、数据规模大的情况下,每个业务都部署及维护一套图片检索系统,需要的资源及维护成本比较高。

技术实现思路

[0004]本公开提供了一种数据处理方法、装置、电子设备及存储介质,能够对待处理数据集中的各数据进行聚类,然后通过两两特征匹配的方式生成相同数据组,从而便于后续根据去重规则对每一组相同数据组中的数据分别进行去重。
[0005]根据本公开的第一方面,提供了一种数据处理方法,包括:获取待处理数据集中各数据的特征信息;基于特征信息对待处理数据集中的各数据进行聚类,生成多个簇;对每个簇,分别根据特征信息进行数据两两特征匹配,得到相同数据对;根据各相同数据对,关联生成相同数据组。
[0006]根据本公开的第二方面,提供了一种数据处理装置,包括:获取模块,用于获取待处理数据集中各数据的特征信息;处理模块,用于基于特征信息对待处理数据集中的各数据进行聚类,生成多个簇;对每个簇,分别根据特征信息进行数据两两特征匹配,得到相同数据对;根据各相同数据对,关联生成相同数据组。
[0007]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面提供的方法。
[0008]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行根据第一方面提供的方法。
[0009]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据第一方面提供的方法。
[0010]本公开能够通过特征提取的方式,计算提取得到待处理数据集中各数据的特征信息。然后基于各数据的特征信息,对待处理数据集中的各数据进行聚类。从而基于聚类后得到的多个簇,分别对每个簇中的数据进行两两特征匹配,以得到相同数据对。最终可以根据得到的相同数据对,关联生成相同数据组。进而便于后续根据相同数据组,来按照预设的去重规则对每个相同数据组中的数据进行去重。或者还可以根据相同数据组,来向用户推荐用户输入的数据的关联数据(如相同数据)。如此,由于聚类后的数据中,每个簇中的数据的
特征信息均相同或相近,即每个簇中的数据均为相同或相近的数据。所以,通过该方法基于聚类后的每个簇来进行特征匹配得到相同数据对时,能够减小数据处理量,节省资源,提高效率。并且,得到相同数据组后,可以在不通过维护检索系统来检索全量待处理数据集的情况下,便捷的对每个相同数据组中的数据分别进行去重,从而降低数据去重时的系统维护成本。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1为本公开实施例提供的数据处理方法的流程示意图之一;
[0014]图2为本公开实施例提供的数据处理方法的流程示意图之二;
[0015]图3为本公开实施例提供的数据处理方法的流程示意图之三;
[0016]图4为本公开实施例提供的根据相同数据对构建的连通关系的示意图;
[0017]图5为本公开实施例提供的数据处理方法的流程示意图之四;
[0018]图6为本公开实施例提供的数据处理装置的组成示意图;
[0019]图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。
具体实施方式
[0020]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0021]本公开提供的数据处理方法和数据处理装置,适用于对待处理数据集按照相似度进行划分聚合,以便后续对待处理数据集进行去重等操作的情况。本公开所提供的数据处理方法可以由数据处理装置执行,该数据处理装置可以采用软件和/或硬件实现,并具体配置于电子设备中,该电子设备可以是用户终端、服务器、计算机、移动设备、单片机等设备或其他计算设备此处不做限制。
[0022]以下首先对本公开所提供的数据处理方法进行详细说明。
[0023]目前实现图片去重,需要部署及维护一套图片检索系统,离线计算图片的特征,将全量待去重图片建索引,然后再通过检索系统,全量检索一遍这些图片,获得相同的重复图片,再进行图片去重。
[0024]但是,在图片去重业务场景多、数据规模大的情况下,每个业务都部署及维护一套图片检索系统,需要的资源及维护成本比较高。
[0025]对此,本公开提供了一种数据处理方法,包括:获取待处理数据集中各数据的特征信息;基于特征信息对待处理数据集中的各数据进行聚类,生成多个簇;对每个簇,分别根据特征信息进行数据两两特征匹配,得到相同数据对;根据各相同数据对,关联生成相同数据组。
[0026]本公开能够通过特征提取的方式,计算提取得到待处理数据集中各数据的特征信
息。然后基于各数据的特征信息,对待处理数据集中的各数据进行聚类。从而基于聚类后得到的多个簇,分别对每个簇中的数据进行两两特征匹配,以得到相同数据对。最终可以根据得到的相同数据对,关联生成相同数据组。进而便于后续根据相同数据组,来按照预设的去重规则对每个相同数据组中的数据进行去重。或者还可以根据相同数据组,来向用户推荐用户输入的数据的关联数据(如相同数据)。如此,由于聚类后的数据中,每个簇中的数据的特征信息均相同或相近,即每个簇中的数据均为相同或相近的数据。所以,通过该方法基于聚类后的每个簇来进行特征匹配得到相同数据对时,能够减小数据处理量,节省资源,提高效率。并且,得到相同数据组后,可以在不通过维护检索系统来检索全量待处理数据集的情况下,便捷的对每个相同数据组中的数据分别进行去重,从而降低数据去重时的系统维护成本。
[0027]图1为本公开实施例提供的数据处理方法的流程示意图。如图1所示,该方法可以包括以下S101

S104。
[0028]S101、获取待处理数据集中各数据的特征信息。
[0029]其中,数据的特征信息,可以是用于判断数据之间是否相同的特征。例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理数据集中各数据的特征信息;基于所述特征信息对所述待处理数据集中的各数据进行聚类,生成多个簇;对每个所述簇,分别根据所述特征信息进行数据两两特征匹配,得到相同数据对;根据各相同数据对,关联生成相同数据组。2.根据权利要求1所述的方法,其特征在于,所述对每个所述簇,分别根据所述特征信息进行数据两两特征匹配,得到相同数据对,包括:对于任一个所述簇:根据簇中的数据规模,对簇中的数据进行分桶;对各桶的数据,分别进行桶内数据两两特征匹配和桶间数据两两特征匹配,得到相同数据对。3.根据权利要求2所述的方法,其特征在于,所述根据各相同数据对,关联生成相同数据组,包括:以相同数据对中两个数据分别作为顶点,基于各所述相同数据对构建连通关系;将同一连通关系中的各数据组成一个所述相同数据组。4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:基于预设的去重规则,分别对各所述相同数据组进行数据去重。5.根据权利要求4所述的方法,其特征在于,所述数据为图像,所述基于预设的去重规则,分别对各所述相同数据组进行数据去重,包括:保留各所述相同数据组中图像质量最高的图像,去除其余图像。6.根据权利要求1至3任一项所述的方法,其特征在于,在所述根据各相同数据对,关联生成相同数据组之后,所述方法还包括:接收到用户输入的第一数据;根据所述第一数据确定所述第一数据对应的相同数据组;根据确定出的相同数据组中的数据,向用户推荐与所述第一数据相同的第二数据,或所述第二数据对应的关联数据。7.一种数据处理装置,其特征在于,包括:获取模块,用于获取待处理数据集中各数据的特征信息;处理模块,用于基于所述特征信息对所述待处理数据集中的各数据进行聚类,生成多个簇;对每个所述簇,分别根据所述特征信息进行数据两两特征匹配,得到相同数据对...

【专利技术属性】
技术研发人员:镇方权王光远杨少宁
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1