一种数据判重方法、装置、设备及存储介质制造方法及图纸

技术编号:25550857 阅读:25 留言:0更新日期:2020-09-08 18:50
本申请公开了一种数据判重方法、装置、设备及存储介质,涉及智能搜索技术领域。具体实现方式为:获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;根据所述匹配度,确定所述目标对象和所述基准对象是否重复。本申请实施例提高了数据判重效率和判重便捷度,同时在提高数据判重便捷度的基础上,保障了数据判重结果的准确度。

【技术实现步骤摘要】
一种数据判重方法、装置、设备及存储介质
本申请实施例涉及数据处理技术,尤其涉及智能搜索技术,特别涉及一种数据判重方法、装置、设备及存储介质。
技术介绍
随着信息时代的不断发展,通过数据共享平台所展示的共享数据给用户带来了极大的便利。然而,由于共享数据的来源不同,不同来源的共享数据之间的数据格式差异也较大,导致数据共享平台中同时展示的共享数据中,存在着部分重复数据。现有技术中,通常借助于用户对共享数据的行为反馈,进行数据判重,使得共享数据判重便捷度较差、判重效率较低。因此,如何提高商户数据判重便捷度和判重效率,成为亟待解决的技术问题。
技术实现思路
本申请实施例提供了一种数据判重方法、装置、设备及存储介质,以提高商户数据判重便捷度和判重效率。根据第一方面,本申请实施例提供了一种数据判重方法,包括:获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;根据所述匹配度,确定所述目标对象和所述基准对象是否重复。根据第二方面,本申请实施例还提供了一种数据判重装置,包括:属性数据获取模块,用于获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;匹配度确定模块,用于确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;判重模块,用于根据所述匹配度,确定所述目标对象和所述基准对象是否重复。根据第三方面,本申请实施例还提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面实施例提供的一种数据判重方法。根据第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面实施例提供的一种数据判重方法。本申请实施例通过获取基准对象的属性数据和目标对象的属性数据;其中,属性数据包括至少一种属性元素;确定基准对象的属性数据和目标对象的属性数据之间的匹配度;根据匹配度确定目标对象和基准对象是否重复,提高了数据判重效率和判重便捷度,同时在提高数据判重便捷度的基础上,保障了数据判重结果的准确度。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请实施例提供的一种数据判重方法的流程图;图2是本申请实施例提供的另一种据判重方法的流程图;图3是本申请实施例提供的另一种数据判重方法的流程图;图4是本申请实施例提供的一种数据判重装置的结构图;图5是用来实现本申请实施例的数据判重方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。本申请实施例提供的各数据判重方法,适用于对共享数据平台中的共享数据的重复数据进行识别的情况,该方法由数据判重装置执行,该装置采用软件和/或硬件实现,并具体配置于电子设备中。图1是本申请实施例提供的一种数据判重方法的流程图,该方法包括:S101、获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素。其中,属性数据用于通过至少一种属性元素,定性或定量的描述对象的自身特性。例如,若对象为景点,则属性数据可以包括景点的地址、类别、门票价格和营业时间等属性元素中的至少一种;若对象为商户,则属性数据可以包括商户的名称、地址、联系方式、类型和营业时间等属性元素中的至少一种。示例性地,属性数据可以预先存储在电子设备本地或与电子设备关联的其他存储设备,并在需要时进行基准对象和目标对象的属性数据的查询获取。S102、确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度。其中,匹配度至少为1个。示例性地,可以确定包括至少一个属性元素的基准对象的属性数据和目标对象的属性数据,确定一个综合匹配度;还可以分别针对每一属性元素,分别确定各属性元素下,基准对象的属性数据和目标对象的属性数据之间的匹配度。在本申请实施例的一种可选实施方式中,确定基准对象的属性数据和目标对象的属性数据之间的匹配度,可以将基准对象的属性数据和目标对象的属性数据,输入至预先训练好的网络模型中,根据模型输出结果,确定基准对象的属性数据和目标对象的属性数据之间的匹配度。其中,网络模型可以采用以下方式进行训练得到:将大量的样本基准对象的属性数据和样本目标对象的属性数据,作为训练样本输入至预先构建的网络模型中,得到匹配度预测结果;根据匹配度预测结果与实际匹配度结果之间的差异,对网络模型的模型参数进行优化。其中,网络模型可以是机器学习模型或深度学习模型。可选的,网络模型可以是孪生神经网络(SiameseNetwork)。在本申请实施例的另一可选实施方式中,可以针对各属性元素,分别确定各属性元素对应的基准对象的属性数据和目标对象的属性数据之间的匹配度。可选的,在分别确定各属性元素对应的基准对象的属性数据和目标对象的属性数据之间的匹配度,可以是:采用各属性元素所关联的网络模型,确定该属性元素下,基准对象的属性数据和目标对象的属性数据之间的匹配度。其中,不同属性元素所采用的网络模型的结构相同或不同。可以理解的是,由于不同属性元素之间的差异较大,为了提高基于网络模型进行匹配度确定的准确度,需要针对不同的属性元素分别进行模型训练。由于采用网络模型进行不同属性元素的匹配度确定,需要预先根据大量的训练样本进行模型训练,将会投入大量的时间成本和人力成本。为了提高匹配度确定效率,还可以直接通过非人工智能的数据处理方式,进行匹配度的确定。在本申请实施例的又一可选实施方式中,可以获取其中一个属性元素作为当前属性元素;获取当前属性元素对应的基准对象的属性数据作为第一当前属性数据,以及获取当前属性元素对应的目标对象的属性数据作为第二当前属性数据;确定第一当前属性数据对应的字符串和第二当前属性数据的字符串的匹配度,并将确定结果作为当前属性元素对应的匹配度。其中,匹配度确定方式可以采用下述算法中的至少一种加以实现:KMP(TheKnuth-Morris-Pratt,克努特-莫里斯-普拉特)算法,BM(Boyer-Moore,博伊尔-摩尔)算法、BF(BruteForce,暴力匹配)算法、或RK(Rabin-K本文档来自技高网...

【技术保护点】
1.一种数据判重方法,包括:/n获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;/n确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;/n根据所述匹配度,确定所述目标对象和所述基准对象是否重复。/n

【技术特征摘要】
1.一种数据判重方法,包括:
获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;
确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;
根据所述匹配度,确定所述目标对象和所述基准对象是否重复。


2.根据权利要求1所述的方法,其中,所述基准对象为基准商户;所述目标对象为目标商户;所述属性数据包括品牌信息、坐标信息、分店名称信息、联系方式信息和地址描述信息中的至少一种。


3.根据权利要求2所述的方法,其中,若所述属性数据包括分店名称信息和/或地址描述信息,则确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度,包括:
确定所述基准对象的分店名称信息和所述目标对象的分店名称信息之间的匹配名称,并根据所述基准对象的分店名称信息的长度和/或所述目标对象的分店名称信息的长度,以及该匹配名称的长度,确定所述基准对象和所述目标对象之间的分店名称匹配度;和/或,
确定所述基准对象的地址描述信息和所述目标对象的地址描述信息之间的匹配名称,并根据所述基准对象的地址描述信息的长度和/或所述目标对象的地址描述信息的长度,以及该匹配名称的长度,确定所述基准对象和所述目标对象之间的地址描述匹配度。


4.根据权利要求2所述的方法,其中,若所述属性数据包括坐标信息,则确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度,包括:
根据所述基准对象的坐标信息和所述目标对象的坐标信息,确定空间距离;
根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度。


5.根据权利要求4所述的方法,其中,根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度,包括:
采用预设的距离转化公式,根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度;
其中,所述距离转化公式为空间距离的递减函数。


6.根据权利要求2所述的方法,其中,若所述属性数据包括联系方式信息,则确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度,包括:
确定所述基准对象的各条联系方式信息和所述目标对象的各条联系方式信息是否存在重合;
根据确定结果,确定所述基准对象和所述目标对象之间的联系方式匹配度。


7.根据权利要求2所述的方法,其中,若所述属性数据包括所述品牌信息,则获取基准对象的属性数据和目标对象的属性数据,包括:
获取基准对象的属性数据;
从各候选对象中,选择与所述基准对象的品牌信息相关联的目标对象,并获取所述目标对象的属性数据。


8.根据权利要求1所述的方法,其中,所述目标对象和所述基准对象位于同一判重地理区域。


9.根据权利要求1-8任一项所述的方法,其中,若所述基准对象的属性数据和所述目标对象的属性数据分别包括至少两种属性元素,相应的确定的匹配度为至少两个时,确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度,包括:
采用并行执行的方式,针对每种匹配元素,确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度。


10.根据权利要求1-8任一项所述的方法,其中,在确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度之前,所述方法还包括:
分别滤除所述基准对象的属性数据和所述目标对象的属性数据中的干扰信息。

【专利技术属性】
技术研发人员:孙冠超尉乃升刘玉忠陈浩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1