一种物联网数据相似度处理方法技术

技术编号:12621535 阅读:63 留言:0更新日期:2015-12-30 19:14
本发明专利技术提供一种物联网数据相似度处理方法,包括以下步骤:获取多条产品记录,选出具有多个相同属性的第一产品记录和第二产品记录;将第一产品记录的属性保存在第一数组中,将第二产品记录的属性保存在第二数组中;对第一产品记录和第二产品记录的各属性分别按相应的属性函数计算相应的属性相似度值;根据第一产品记录和第二产品记录各属性的重要程度、并通过权重函数计算各属性的权重值;结合属性相似度值的第三数组和权重值的第四数组,通过整体相似度函数计算第一产品记录和第二产品记录的整体相似度。本申请将具有相同属性的两条产品记录按照各自的属性相似度和属性权重值进行整体相似度的计算,其处理速度快、可以节省大量的时间成本。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,特别是涉及。
技术介绍
自Internet出现以来,互联网上的WEB页面的数量就飞速增长着,也恰是由于其 这种增长速度,形成了世界上最大的信息资源库。WEB信息整合技术就是对这一个信息资源 库进行有效处理,整合相关信息,为数据挖掘提供数据方面的支撑,以便更好地应用于专业 领域中的信息服务。在当前飞速发展的网络时代,信息资源日益丰富,WEB信息整合已成为 信息时代的重要内容,在多个领域中都有WEB信息整合的应用。 如在物联网领域中,产品供货商可以通过多个WEB交易平台发布产品信息,而买 家可以从WEB交易平台中获取信息,并通过产品供货商所发布的信息可以联系到产品供货 商进行购买;在这一过程中,就涉及到大量数据的处理。但是,由于每个WEB交易平台对信 息的表述方式不尽相同,从而给信息整合带来了一定的困难。另外,同一个产品供货商去不 同的WEB交易平台发布同一个产品可能会出现不同的表现形式,其会造成这些WEB产品交 易平台上使用数据爬虫获取数据,进而会产生很多重复数据,因此,针对来自不同WEB数据 源的、表述形式不一样的产品数据进行重复数据的清洗是非常有必要的,其是通过机器判 断是否有重复数据的重要保障。 产品数据的清洗过程中,最主要的是清除产品多条记录中的相似重复记录,以保 证建立一个全面、准确、专业、符合数据质量条件的产品数据库;此时,就需要对多条记录进 行相似度计算。目前,数据相似度的计算主要是通过一一比对来实现的,其运算速度非常 慢,消耗大量的时间成本。
技术实现思路
鉴于以上所述现有技术的缺陷和各种不足之处,本专利技术要解决的技术问题在于提 供一种能够节省大量时间成本的物联网数据相似度处理方法。 为实现上述目的,本专利技术提供,包括以下步骤:S1、从WEB交易平台中获取多条产品记录,选出具有多个相同属性的两条产品记 录,分别为第一产品记录和第二产品记录;S2、将第一产品记录的属性保存在第一数组中,将第二产品记录的属性保存在第 二数组中;S3、对第一产品记录和第二产品记录的各属性分别按相应的属性函数计算相应的 属性相似度值,并将多个属性的属性相似度值保存在第三数组中; S4、根据第一产品记录和第二产品记录各属性的重要程度、并通过权重函数计算 各属性的权重值,并将多个属性的权重值保存在第四数组中; S5、结合属性相似度值的第三数组和权重值的第四数组,通过整体相似度函数计 算第一产品记录和第二产品记录的整体相似度。 进一步地,所述步骤S3中,属性函数包括产品别称匹配策略函数、产品价格转换 匹配策略函数、规范化日期匹配策略函数、规范化产地匹配策略函数和编辑距离算法函数。 优选地,所述步骤S2中,第一产品记录的属性按照产品名称、价格、生产日期、产 地的顺序先后放入多个第一属性数组中,多个第一属性数组构成所述第一数组。 优选地,所述步骤S2中,第二产品记录的属性按照产品名称、价格、生产日期、产 地的顺序先后放入多个第二属性数组中,多个第二属性数组构成所述第二数组。 本专利技术涉及的具有以下有益效果: 本申请将具有相同属性的两条产品记录按照各自的属性相似度和属性权重值进 行整体相似度的计算,其处理速度快,计算精度高,从而可以节省大量的时间成本。 上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段, 并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图对本专利进行详 细说明。【附图说明】 图1为本申请的流程图。 图2为本申请中产品别称匹配策略函数的流程图。 图3为本申请中产品价格转换匹配策略函数的流程图。 图4为本申请中规范化日期匹配策略函数的流程图。 图5为本申请中规范化产地匹配策略函数的流程图。【具体实施方式】 下面结合附图对本专利技术的优选实施例进行详细介绍。 如图1所示,本专利技术提供一种数据相似度处理方法,包括以下步骤: S1、从WEB交易平台中获取多条产品记录,选出具有多个相同属性的两条产品记 录,分别为第一产品记录A和第二产品记录B。S2、将第一产品记录A的属性保存在第一数组a□中,将第二产品记录B的属性保 存在第二数组b□中。 第一产品记录A和第二产品记录B都具有n个属性,故第一数组a□由n个第一属 性数组3、&、&、 &、&~8构成,第二数组13]由11个第二属性数组13、 b、b、b、b~b构成。同时,第一产品记录A的多个属性按照产品名称、价 格、生产日期、产地的顺序先后依次保存在第一属性数组中a、a、a、a中,而第 一属性数组a~a用于保存第一产品记录A的其他次要属性;同理,第二产品记录 B的多个属性按照产品名称、价格、生产日期、产地的顺序先后依次保存在第一属性数组中 b、b、b、b中,而第二属性数组b~b用于保存第二产品记录B的其他 次要属性。S3、对第一产品记录A和第二产品记录B的各属性分别按相应的属性函数计算相 应的属性相似度值,并将多个属性的属性相似度值保存在第三数组c□中,该第三数组c[] 为double型数组。所述步骤S3中,属性函数包括产品别称匹配策略函数Strategy_Name〇、产品价 格转换匹配策略函数Strategy_Price()、规范化日期匹配策略函数Strategy_Date()、规 范化产地匹配策略函数Strategy_Origin()和编辑距离算法函数Edit_Distance()。S4、根据第一产品记录A和第二产品记录B各属性的重要程度、并通过权重函数 Weight()计算各属性的权重值,并将多个属性的权重值保存在第四数组w□中,该第四数 组w□为double型数组。 S5、结合属性相似度值的第三数组c□和权重值的第四数组w□,通过整体相似度 函数Sim()计算第一产品记录A和第二产品记录B的整体相似度Sim(A、B)。 本申请将具有相同属性的两条产品记录按照各自的属性相似度和属性权重值进 行整体相似度的计算,其处理速度快,计算精度高,从而可以节省大量的时间成本。所以,本 专利技术有效克服了现有技术中的种种缺点而具高度产业利用价值。 进一步地,如图2所示,所述产品别称匹配策略函数Strategy_Name()包括以下步 骤:N1、从文档中选取一组数据,放到集合S中;N2、从集合的第一个元素开始,每一个元素都用C++STL中的map容器保存起来,与 第一个元素形成映射;N3、对于记录A、B的农产品名称这个属性值,在map容器中找到对应的映射值,对 它们进当前第1页1 2 本文档来自技高网...

【技术保护点】
一种物联网数据相似度处理方法,其特征在于:包括以下步骤:S1、从WEB交易平台中获取多条产品记录,选出具有多个相同属性的两条产品记录,分别为第一产品记录和第二产品记录;S2、将第一产品记录的属性保存在第一数组中,将第二产品记录的属性保存在第二数组中;S3、对第一产品记录和第二产品记录的各属性分别按相应的属性函数计算相应的属性相似度值,并将多个属性的属性相似度值保存在第三数组中;S4、根据第一产品记录和第二产品记录各属性的重要程度、并通过权重函数计算各属性的权重值,并将多个属性的权重值保存在第四数组中;S5、结合属性相似度值的第三数组和权重值的第四数组,通过整体相似度函数计算第一产品记录和第二产品记录的整体相似度。

【技术特征摘要】

【专利技术属性】
技术研发人员:谢东肖东成运
申请(专利权)人:湖南人文科技学院
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1