【技术实现步骤摘要】
一种数据判重方法、装置、设备及存储介质
本申请实施例涉及数据处理技术,尤其涉及智能搜索技术,特别涉及一种数据判重方法、装置、设备及存储介质。
技术介绍
随着信息时代的不断发展,通过数据共享平台所展示的共享数据给用户带来了极大的便利。然而,由于共享数据的来源不同,不同来源的共享数据之间的数据格式差异也较大,导致数据共享平台中同时展示的共享数据中,存在着部分重复数据。现有技术中,通常借助于用户对共享数据的行为反馈,进行数据判重,使得共享数据判重便捷度较差、判重效率较低。因此,如何提高商户数据判重便捷度和判重效率,成为亟待解决的技术问题。
技术实现思路
本申请实施例提供了一种数据判重方法、装置、设备及存储介质,以提高商户数据判重便捷度和判重效率。根据第一方面,本申请实施例提供了一种数据判重方法,包括:获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;根据所述匹配度,确定所述目标对象和所述基准对象是否重复。根据第二方面,本申请实施例还提供了一种数据判重装置,包括:属性数据获取模块,用于获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;匹配度确定模块,用于确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;判重模块,用于根据所述匹配度,确定所述目标对象和所述基准对象是否重复。根据 ...
【技术保护点】
1.一种数据判重方法,包括:/n获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;/n确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;/n根据所述匹配度,确定所述目标对象和所述基准对象是否重复。/n
【技术特征摘要】 【专利技术属性】
1.一种数据判重方法,包括:
获取基准对象的属性数据和目标对象的属性数据;其中,所述属性数据包括至少一种属性元素;
确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度;
根据所述匹配度,确定所述目标对象和所述基准对象是否重复。
2.根据权利要求1所述的方法,其中,所述基准对象为基准商户;所述目标对象为目标商户;所述属性数据包括品牌信息、坐标信息、分店名称信息、联系方式信息和地址描述信息中的至少一种。
3.根据权利要求2所述的方法,其中,若所述属性数据包括分店名称信息和/或地址描述信息,则确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度,包括:
确定所述基准对象的分店名称信息和所述目标对象的分店名称信息之间的匹配名称,并根据所述基准对象的分店名称信息的长度和/或所述目标对象的分店名称信息的长度,以及该匹配名称的长度,确定所述基准对象和所述目标对象之间的分店名称匹配度;和/或,
确定所述基准对象的地址描述信息和所述目标对象的地址描述信息之间的匹配名称,并根据所述基准对象的地址描述信息的长度和/或所述目标对象的地址描述信息的长度,以及该匹配名称的长度,确定所述基准对象和所述目标对象之间的地址描述匹配度。
4.根据权利要求2所述的方法,其中,若所述属性数据包括坐标信息,则确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度,包括:
根据所述基准对象的坐标信息和所述目标对象的坐标信息,确定空间距离;
根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度。
5.根据权利要求4所述的方法,其中,根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度,包括:
采用预设的距离转化公式,根据所述空间距离,确定所述基准对象和所述目标对象之间的距离匹配度;
其中,所述距离转化公式为空间距离的递减函数。
6.根据权利要求2所述的方法,其中,若所述属性数据包括联系方式信息,则确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度,包括:
确定所述基准对象的各条联系方式信息和所述目标对象的各条联系方式信息是否存在重合;
根据确定结果,确定所述基准对象和所述目标对象之间的联系方式匹配度。
7.根据权利要求2所述的方法,其中,若所述属性数据包括所述品牌信息,则获取基准对象的属性数据和目标对象的属性数据,包括:
获取基准对象的属性数据;
从各候选对象中,选择与所述基准对象的品牌信息相关联的目标对象,并获取所述目标对象的属性数据。
8.根据权利要求1所述的方法,其中,所述目标对象和所述基准对象位于同一判重地理区域。
9.根据权利要求1-8任一项所述的方法,其中,若所述基准对象的属性数据和所述目标对象的属性数据分别包括至少两种属性元素,相应的确定的匹配度为至少两个时,确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度,包括:
采用并行执行的方式,针对每种匹配元素,确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度。
10.根据权利要求1-8任一项所述的方法,其中,在确定所述基准对象的属性数据和所述目标对象的属性数据之间的匹配度之前,所述方法还包括:
分别滤除所述基准对象的属性数据和所述目标对象的属性数据中的干扰信息。
技术研发人员:孙冠超,尉乃升,刘玉忠,陈浩,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。