数据处理方法及装置制造方法及图纸

技术编号:12511815 阅读:58 留言:0更新日期:2015-12-16 09:25
本发明专利技术实施例提供了一种数据处理方法及装置,改善了现有技术中无法在Web大数据清理阶段进行重复数据清理的问题。该数据处理方法包括:建立待处理网站数据源的网页对象数据模型;根据抽取出的数据信息建立网页数据信息模型;根据网页数据信息模型抽取出待处理网站数据源中各页面的数据项和描述对象,对各页面进行分类;根据各页面的数据项计算出每个页面的相似哈希值,判断同一类页面中各页面之间的相似哈希值之间的差值是否满足预设阈值,如果是,则判定为重复页面数据,对重复页面数据进行清理。使用该数据处理方法,可以在Web大数据清理阶段进行重复数据清理,降低了数据存储与管理的时间和成本。

【技术实现步骤摘要】

本专利技术涉及互联网
,具体而言,涉及数据处理方法及装置
技术介绍
“大数据”是我们这个时代的核心特征,它代表着信息技术的发展进入了一个新的时代。随着新一代信息技术的创新和应用普及,大数据已经在互联网、金融、医疗、交通、零售等多个领域得到了广泛的应用。种类广泛、数量庞大、产生更新速度不断加快的大数据蕴含着前所未有的巨大价值,同时也带来了巨大的技术挑战。Web网页大数据是大数据的主要数据来源之一,在海量的、动态的Web数据中获取有用知识的数据挖掘不仅在互联网行业广泛应用,而且对其他行业也产生了重大的影响。当前,Web数据正在以一种惊人的速度增长,移动互联网、物联网和云计算等技术的发展使得各种类型的Web数据正在源源不断地从各行各业迅速产生。据市场调研公司IDC的预测:到2020年全球的数据总量将超过40ZB。据统计,百度每天需要处理的网页数据达到10PB-100PB。因此,很多行业提供的存储系统容量逐渐从数十GB发展到数百TB,甚至数PB。企业所面临的数据备份与恢复的时间需求却越来越多,管理数据的成本越来越高,数据存储的空间消耗也越来越大。然而,研究发现,存储系统所保存的数据中高达60%是冗余的,而且随着时间的推移越来越多。其中,大量数据的重复存储必然会带来存储空间浪费和处理时间增加的问题,最终导致大数据分析成本升高,为企业或个人带来压力。为了改善上述问题,重复数据删除技术已经受到了越来越多的企业和研究机构的关注,知名存储企业EMC、HP、NEC、Microsoft以及Symantec等都推出了重复数据删除相关的产品,而很多国内外研究机构,如Princeton大学、Minnesota大学、California大学以及国内的华中科技大学、清华大学、国防科技大学、华南理工大学等都对重复数据删除技术做了深入研究,并取得了许多有价值的研究成果。重复数据删除技术(DataDe-duplication)也被称为智能数据压缩或者单一实例存储,通过识别相同的数据,将相同的数据只保留唯一的一个副本,以此达到消除数据冗余、降低存储容量需求的目的。目前,国内外针对重复数据删除的研究主要集中在数据库记录以及文件存储系统中。专利技术人经研究发现,现今重复数据删除技术的研究成果虽然涉及到各种重复数据检测方法以及针对大规模Web数据的统一模型,但是,均无法在Web大数据清理阶段进行重复数据清理。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种数据处理方法及装置,以改善现有技术中无法在Web大数据清理阶段进行重复数据清理的问题。为了实现上述目的,本专利技术采用的技术方案如下:第一方面,本专利技术实施例提供了一种数据处理方法,包括:建立待处理网站数据源的网页对象数据模型,所述网页对象数据模型中包括所述待处理网站数据源中各页面所包含的数据信息;对所述待处理网站数据源中各页面所包含的数据信息进行抽取,根据抽取出的数据信息建立网页数据信息模型;根据所述网页数据信息模型抽取出所述待处理网站数据源中各页面的数据项和描述对象,并根据抽取的各页面的描述对象和数据项对各页面进行分类;根据各页面的数据项计算出每个页面的相似哈希值,判断同一类页面中各页面之间的相似哈希值之间的差值是否满足预设阈值,如果是,则判定为重复数据,对重复数据进行清理。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述网页对象数据模型为:Wj={L,O,B本文档来自技高网
...

【技术保护点】
一种数据处理方法,其特征在于,包括:建立待处理网站数据源的网页对象数据模型,所述网页对象数据模型中包括所述待处理网站数据源中各页面所包含的数据信息;对所述待处理网站数据源中各页面所包含的数据信息进行抽取,根据抽取出的数据信息建立网页数据信息模型;根据所述网页数据信息模型抽取出所述待处理网站数据源中各页面的数据项和描述对象,并根据抽取的各页面的描述对象和数据项对各页面进行分类;根据各页面的数据项计算出每个页面的相似哈希值,判断同一类页面中各页面之间的相似哈希值之间的差值是否满足预设阈值,如果是,则判定为重复数据,对重复数据进行清理。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
建立待处理网站数据源的网页对象数据模型,所述网页对象数
据模型中包括所述待处理网站数据源中各页面所包含的数据信息;
对所述待处理网站数据源中各页面所包含的数据信息进行抽
取,根据抽取出的数据信息建立网页数据信息模型;
根据所述网页数据信息模型抽取出所述待处理网站数据源中各
页面的数据项和描...

【专利技术属性】
技术研发人员:谭良王闪
申请(专利权)人:四川师范大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1