【技术实现步骤摘要】
本专利技术涉及互联网
,具体而言,涉及数据处理方法及装置。
技术介绍
“大数据”是我们这个时代的核心特征,它代表着信息技术的发展进入了一个新的时代。随着新一代信息技术的创新和应用普及,大数据已经在互联网、金融、医疗、交通、零售等多个领域得到了广泛的应用。种类广泛、数量庞大、产生更新速度不断加快的大数据蕴含着前所未有的巨大价值,同时也带来了巨大的技术挑战。Web网页大数据是大数据的主要数据来源之一,在海量的、动态的Web数据中获取有用知识的数据挖掘不仅在互联网行业广泛应用,而且对其他行业也产生了重大的影响。当前,Web数据正在以一种惊人的速度增长,移动互联网、物联网和云计算等技术的发展使得各种类型的Web数据正在源源不断地从各行各业迅速产生。据市场调研公司IDC的预测:到2020年全球的数据总量将超过40ZB。据统计,百度每天需要处理的网页数据达到10PB-100PB。因此,很多行业提供的存储系统容量逐渐从数十GB发展到数百TB,甚至数PB。企业所面临的数据备份与恢复的时间需求却越来越多,管理数据的成本越来越高,数据存储的空间消耗也越来越大。然而,研究发现,存储系统所保存的数据中高达60%是冗余的,而且随着时间的推移越来越多。其中,大量数据的重复存储必然会带来存储空间浪费和处理时间增加的问题,最终导致大数据分析成本升高,为企业或个人带来压力。为了改善上述问题,重复数据删除技术已经受到了越来越多的企业和研究机构的关注,知名存储企业EMC、HP、NEC、Microsoft以及Symantec等都推出了重复数据删除相 ...
【技术保护点】
一种数据处理方法,其特征在于,包括:建立待处理网站数据源的网页对象数据模型,所述网页对象数据模型中包括所述待处理网站数据源中各页面所包含的数据信息;对所述待处理网站数据源中各页面所包含的数据信息进行抽取,根据抽取出的数据信息建立网页数据信息模型;根据所述网页数据信息模型抽取出所述待处理网站数据源中各页面的数据项和描述对象,并根据抽取的各页面的描述对象和数据项对各页面进行分类;根据各页面的数据项计算出每个页面的相似哈希值,判断同一类页面中各页面之间的相似哈希值之间的差值是否满足预设阈值,如果是,则判定为重复数据,对重复数据进行清理。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
建立待处理网站数据源的网页对象数据模型,所述网页对象数
据模型中包括所述待处理网站数据源中各页面所包含的数据信息;
对所述待处理网站数据源中各页面所包含的数据信息进行抽
取,根据抽取出的数据信息建立网页数据信息模型;
根据所述网页数据信息模型抽取出所述待处理网站数据源中各
页面的数据项和描...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。