一种物联网数据相似度处理方法技术

技术编号：12621535 阅读：63 留言：0更新日期：2015-12-30 19:14

本发明专利技术提供一种物联网数据相似度处理方法，包括以下步骤：获取多条产品记录，选出具有多个相同属性的第一产品记录和第二产品记录；将第一产品记录的属性保存在第一数组中，将第二产品记录的属性保存在第二数组中；对第一产品记录和第二产品记录的各属性分别按相应的属性函数计算相应的属性相似度值；根据第一产品记录和第二产品记录各属性的重要程度、并通过权重函数计算各属性的权重值；结合属性相似度值的第三数组和权重值的第四数组，通过整体相似度函数计算第一产品记录和第二产品记录的整体相似度。本申请将具有相同属性的两条产品记录按照各自的属性相似度和属性权重值进行整体相似度的计算，其处理速度快、可以节省大量的时间成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，特别是涉及。
技术介绍
自Internet出现以来，互联网上的WEB页面的数量就飞速增长着，也恰是由于其这种增长速度，形成了世界上最大的信息资源库。WEB信息整合技术就是对这一个信息资源库进行有效处理，整合相关信息，为数据挖掘提供数据方面的支撑，以便更好地应用于专业领域中的信息服务。在当前飞速发展的网络时代，信息资源日益丰富，WEB信息整合已成为信息时代的重要内容，在多个领域中都有WEB信息整合的应用。如在物联网领域中，产品供货商可以通过多个WEB交易平台发布产品信息，而买家可以从WEB交易平台中获取信息，并通过产品供货商所发布的信息可以联系到产品供货商进行购买；在这一过程中，就涉及到大量数据的处理。但是，由于每个WEB交易平台对信息的表述方式不尽相同，从而给信息整合带来了一定的困难。另外，同一个产品供货商去不同的WEB交易平台发布同一个产品可能会出现不同的表现形式，其会造成这些WEB产品交易平台上使用数据爬虫获取数据，进而会产生很多重复数据，因此，针对来自不同WEB数据源的、表述形式不一样的产品数据进行重复数据的清洗是非常有必要的，其是通过机器判断是否有重复数据的重要保障。产品数据的清洗过程中，最主要的是清除产品多条记录中的相似重复记录，以保证建立一个全面、准确、专业、符合数据质量条件的产品数据库；此时，就需要对多条记录进行相似度计算。目前，数据相似度的计算主要是通过一一比对来实现的，其运算速度非常慢，消耗大量的时间成本。
技术实现思路
鉴于以上所述现有技术的缺陷和各种不足之处，...

【技术保护点】
一种物联网数据相似度处理方法，其特征在于：包括以下步骤：S1、从WEB交易平台中获取多条产品记录，选出具有多个相同属性的两条产品记录，分别为第一产品记录和第二产品记录；S2、将第一产品记录的属性保存在第一数组中，将第二产品记录的属性保存在第二数组中；S3、对第一产品记录和第二产品记录的各属性分别按相应的属性函数计算相应的属性相似度值，并将多个属性的属性相似度值保存在第三数组中；S4、根据第一产品记录和第二产品记录各属性的重要程度、并通过权重函数计算各属性的权重值，并将多个属性的权重值保存在第四数组中；S5、结合属性相似度值的第三数组和权重值的第四数组，通过整体相似度函数计算第一产品记录和第二产品记录的整体相似度。

【技术特征摘要】

【专利技术属性】
技术研发人员：谢东，肖东，成运，
申请(专利权)人：湖南人文科技学院，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人