一种用于多源异构数据的重复检测方法、设备以及介质技术

技术编号:32278955 阅读:21 留言:0更新日期:2022-02-12 19:45
本申请公开了一种用于多源异构数据的重复检测方法、设备及介质,主要涉及数据处理技术领域。用于解决现有的一个设备存在若干多源异构数据,进而不利于设备数据统计的问题。方法包括:获取新增设备数据以及设备数据库;基于预设参数的具体内容,对新增设备数据以及存储设备数据进行聚类处理;以确定与新增设备数据同属一个聚类中心点的存储设备数据为对比设备数据;确定新增设备数据与对比设备数据之间的总相似度,以对总相似度大于预设总相似度阈值的对比设备数据进行重复数据处理。本申请通过上述方法有效地清除了同一设备对应的多源异构数据,有利于提高后续设备统计的速度以及准确性。及准确性。及准确性。

【技术实现步骤摘要】
一种用于多源异构数据的重复检测方法、设备以及介质


[0001]本申请涉及数据处理
,尤其涉及一种用于多源异构数据的重复检测方法、设备以及介质。

技术介绍

[0002]随着科技的进步与发展,越来越多的企业或单位开始使用大数据、人工智能、物联网等新一代信息技术对流动设备进行监控。主要是将该设备以设备数据的形式记录在当下环境涉及的系统中。
[0003]但是,流动设备在传输过程中,可能需要录入多个环节系统。在多个环节系统的输入过程中往往会因为系统的不同或输入人员录入标准的不同,很容易使流动设备出现多源异构数据,即同一流动设备具有多个不同结构或内容的设备数据或多个流动设备具有相同内容的设备编号的情况,这给流动设备的统计带来了巨大的阻碍。

技术实现思路

[0004]针对现有技术的上述不足,本专利技术提供一种用于多源异构数据的重复检测方法、设备以及介质,以解决上述技术问题。
[0005]第一方面,本申请实施例提供了一种用于多源异构数据的重复检测方法,方法包括:获取新增设备数据以及设备数据库;其中,设备数据库中包含若干存储设备数据,且新增设备数据以及存储设备数据中都包含预设参数;基于预设参数的具体内容,对新增设备数据以及存储设备数据进行聚类处理;以确定与新增设备数据同属一个聚类中心点的存储设备数据为对比设备数据;确定新增设备数据与对比设备数据之间的总相似度,以对总相似度大于预设总相似度阈值的对比设备数据进行重复数据处理。
[0006]在本申请的一种实现方式中,预设聚类算法;在基于预设参数的具体内容,对新增设备数据以及存储设备数据进行聚类处理前,方法还包括:获取若干设备数据;基于预设参数的具体内容,标记若干设备数据,以获得训练样本数据以及若干聚类中心点;通过训练样本数据对聚类算法进行训练,以确定聚类算法对应的类别权重和类别偏置,进而完成聚类算法的训练。
[0007]在本申请的一种实现方式中,基于预设参数的具体内容,对新增设备数据以及存储设备数据进行聚类处理;以确定与新增设备数据同属一个聚类中心点的存储设备数据为对比设备数据,具体包括:将新增设备数据、全部存储设备数据导入预设的聚类算法,以使聚类算法确定新增设备数据对应的具体内容;进而确定与新增设备数据同属于一个聚类中心点的存储设备数据为对比设备数据。
[0008]在本申请的一种实现方式中,预设若干关键属性;且关键属性同时存在与新增设备数据以及对比设备属性中;确定新增的设备数据与原有的设备数据之间的相似度,具体包括:获取关键属性在新增设备数据中第一属性值,以及在对比设备数据中的第二属性值;确定第一属性值与第二属性的属性相似度;以将属性相似度设为新增设备数据与对比设备
数据关于关键属性的关键相似度;进而确定新增设备数据与对比设备数据关于若干关键属性的若干关键相似度;基于若干预设关键属性权重以及若干关键相似度,确定新增设备数据与对比设备数据之间的总相似度。
[0009]在本申请的一种实现方式中,预设属性相似表,用于存储第一属性值、第二属性值以及第一属性值与第二属性值之间的属性相似度;确定第一属性值与第二属性的属性相似度,具体包括:基于预设属性相似表、第一属性值以及第二属性值,确定预设属性相似表中是否存在第一属性值与第二属性值之间的属性相似度;当存在第一属性值与第二属性值之间的属性相似度时,基于预设的属性相似表,确定第一属性值与第二属性之间的属性相似度;当不存在第一属性值与第二属性值之间的属性相似度时,基于预设相似度算法,确定第一属性值与第二属性值之间的属性相似度,并将基于预设相似度算法确定的属性相似度存储至预设属性相似表中。
[0010]在本申请的一种实现方式中,预设参数包含以下任意一项或多项:编号数据、制造单位数据、类别数据、制造日期数据。
[0011]第二方面,一种用于多源异构数据的重复检测设备,该设备包括处理器、存储器和存储在存储器上的执行指令,执行指令设置成在被处理器执行时能够使设备执行上述的任一项用于多源异构数据的重复检测方法。
[0012]第三方面,一种非易失性计算机存储介质,其上存储有计算机指令,计算机指令执行上述的一种用于多源异构数据的重复检测方法。
[0013]基于前文描述,本领域技术人员能够理解的是,本专利技术至少具有如下有益效果:通过基于预设参数,对新增设备数据以及设备数据库进行分类,实现了获取与新增设备数据在预设参数上相似度高的对比设备数据。通过分析对比设备数据,降低了需要分析的设备数据的数量,提高了获取多源异构数据的准确性。依次计算各个对比设备数据与新增设备数据之前的总相似度,实现了多源异构数据(总相似度大于预设总相似度阈值的对比设备数据)的准确获取。
附图说明
[0014]下面参照附图来描述本公开的部分实施例,附图中:
[0015]图1是本申请实施例提供的一种用于多源异构数据的重复检测流程图。
[0016]图2是本申请实施例提供的一种用于多源异构数据的重复检测设备内部结构示意图。
具体实施方式
[0017]本领域技术人员应当理解的是,下文所描述的实施例仅仅是本公开的优选实施例,并不表示本公开仅能通过该优选实施例实现,该优选实施例仅仅是用于解释本公开的技术原理,并非用于限制本公开的保护范围。基于本公开提供的优选实施例,本领域普通技术人员在没有付出创造性劳动的情况下所获得的其它所有实施例,仍应落入到本公开的保护范围之内。
[0018]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包
括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0019]在流动设备的设备数据的获取过程中,由于设备数据来源于制造、充装、使用登记、检验、监管等多个环节,设备数据重复度较高,表现为系统异构、语法异构、结构异构、语义异构等。如存在流动设备以档案信息作为最重要的主数据,来源于制造单位管理系统,充装单位管理系统,检验单位检验系统,监管部门使用登记系统,这些系统中都存有流动设备的档案信息,各个系统又存在着多源异构的特点,大多数流动设备的编号在某一区域内并没有统一的编码格式,主要由各个制造单位各自编写,造成两个不同的瓶使用同一气瓶编号。因此如何快速查找出流动设备的重复设备数据(多源异构数据)成为一个重要的课题。
[0020]基于此,本申请施例提供了一种用于多源异构数据的重复检测方法,用以解决上述技术问题。
[0021]另外,在本申请实施例中提出的一种用于多源异构数据的重复检测方法,其执行主体是服务器。
[0022]下面通过附图对本申请实施例提出的技术方案进行详细的说明。
[0023]图1为本申请实施例提供的一种用于多源异构数据的重复检测方法。如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于多源异构数据的重复检测方法,其特征在于,所述方法包括:获取新增设备数据以及设备数据库;其中,所述设备数据库中包含若干存储设备数据,且所述新增设备数据和所述存储设备数据中都包含预设参数;基于所述预设参数的具体内容,对新增设备数据以及存储设备数据进行聚类处理;以确定与新增设备数据同属一个聚类中心点的存储设备数据为对比设备数据;确定新增设备数据与所述对比设备数据之间的总相似度,以对总相似度大于预设总相似度阈值的对比设备数据进行重复数据处理。2.根据权利要求1所述的用于多源异构数据的重复检测方法,其特征在于,预设聚类算法;在基于所述预设参数的具体内容,对新增设备数据以及存储设备数据进行聚类处理前,所述方法还包括:获取若干设备数据;基于预设参数的具体内容,标记所述若干设备数据,以获得训练样本数据以及若干聚类中心点;通过所述训练样本数据对所述聚类算法进行训练,以确定聚类算法对应的类别权重和类别偏置,进而完成聚类算法的训练。3.根据权利要求1所述的用于多源异构数据的重复检测方法,其特征在于,基于所述预设参数的具体内容,对新增设备数据以及存储设备数据进行聚类处理;以确定与新增设备数据同属一个聚类中心点的存储设备数据为对比设备数据,具体包括:将新增设备数据、全部存储设备数据导入预设的聚类算法,以通过所述聚类算法确定新增设备数据对应的所述聚类中心点;进而确定与新增设备数据同属于一个聚类中心点的存储设备数据为对比设备数据。4.根据权利要求1所述的用于多源异构数据的重复检测方法,其特征在于,预设若干关键属性;且所述关键属性同时存在与新增设备数据以及对比设备属性中;确定所述新增的设备数据与原有的设备数据之间的相似度,具体包括:获取关键属性在新增设备数据中第一属性值,以及在对比设备数据中的第二属性值...

【专利技术属性】
技术研发人员:李娟薛庆陈树芳刘丽梅李观松穆明阳
申请(专利权)人:山东特检鲁安工程技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1