大规模数据信息排重处理系统技术方案

技术编号:2915507 阅读:348 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及的是一种信息处理技术领域的大规模数据信息排重处理系统,包括输入模块、数字编码模块、多点检验模块、输出模块,输入模块接收需要进行排重的原始数据,即数据实例;数字编码模块将输入模块获得的数据实例进行重新编码,将数据空间压缩到与待解问题实际数据实例的规模相当或稍大的空间;多点检验模块对新编码进行多次采样,并与高速存储的地址建立映射关系,通过控制高速存储相应地址的标志位来记录是否已经出现过某一个数据实例,从而实现排重功能;输出模块将经过排重的数据返回给用户。本发明专利技术具有高效性及可处理数据量大等特点。

【技术实现步骤摘要】

本专利技术涉及的是一种信息处理
的系统,具体地说,涉及的是一种大规模数据信息排重处理系统
技术介绍
随着信息处理技术的不断发展,出现一些应用场景需要对大量数据进行排查重复出现的工作。例如:在搜索引擎系统中需要判断哪些网页已经收录在系统中。由于互联网络上的网页数量众多,须要有专门的系统对新发现的网址进行判断,看看其是否已经被爬取和索引过,如果已经存在,也许需要后续进行更新索引的工作;而如果尚未存在,那么就可能要进行新建索引的后续工作。又如:在一些生物科学研究领域,需要对大量的基因信息进行分析比较。也需要判断基因信息是否已经做过相应的处理,并进行不同的后续工作。而在电信业务方面,也需要对大约几十亿条各种电信业务的记录数据进行判断重复记录的工作,以免出现多收费的情况。在这些应用中的数据有如下三点共同特性。首先,数据空间非常大。以网址这类数据为例,一般而言,其由数字、字母(大小写相关)、“-”和“.”组成,一般不超过100个字符(实际上扩展的网址可以由几乎所有的ASCII字符组成,并可以长达2000个字符)。这样的数据可能总共有64100(大约10180)个。一般系统无法处理如此庞大的数据空间。其次,实际数据所占的空间未必充满整个数据空间,或者在一个任务中可能出现的实际数据量并不是充满整个数据空间的。依然以网址作为例子,根据中国互联网信息中心统计,我国的网站数量在百万这个数量级上。而商业搜索引擎的索引页面数量大约在百亿这个数量级上。相对于10180个可能的网址而言,百亿实际上是一个非常小的数字。在数量级上差10170。可以说数据非常稀疏。最后,实际数据所占的空间相对于目前的计算机系统而言,又是一个很难完成的任务。以一百亿个网址来计算,假设平均每个网址长度为30个字符(每-->个字符4个字节),存储这些网址总共需要约1.2PB空间,是目前主流硬盘空间容量(500GB-1TB)的大约一千倍。而一百亿条记录对于单机数据库系统来说要能迅速(毫秒级别)响应一个查询来判断一条网址是否已经存在也是几乎不可能的。因此目前已有的解决方案大都采用分布式构架,将存储、索引和计算负载分布到成百上千台机器上。通过并行处理若干被切分的小规模问题来共同完成一项任务。由于牵涉大量机器的网络通讯和工作同步问题,系统的稳定性和可靠性都不十分理想。经对现有技术的文献检索发现,中国专利申请《基于内存的海量话单快速交叉排重方法》(公开号CN1897629)提出一种采用基于内存的多级存储机制、基于二叉平衡树和键树的索引技术、基于BCD码和RLC算法的压缩技术和基于时间片的交叉排重方法相结合的过程。在IBM P650(16个1.5GHz CPU,32GB RAM)上处理45240988条记录费时4467秒。相对于传统的基于数据库的交叉排重测试所用的时间86669秒,提高速度约20倍。尽管如此,它依然采用了基于硬盘的第三级存储机制,这种机制仍然会对系统速度的进一步提升带来影响。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种大规模数据信息排重处理系统,它可以高效处理大规模可能重复数据的信息,其输出没有重复数据,以克服传统系统的通用性设计带来的效率降低问题。本专利技术是通过以下技术方案实现的,本专利技术包括四个模块:输入模块、数字编码模块、多点检验模块、输出模块。其中:所述的输入模块接收需要进行排重的原始数据,即数据实例;所述的数字编码模块将输入模块获得的数据实例进行重新编码,将数据空间压缩到与待解问题实际数据实例的规模相当或稍大的空间;所述的多点检验模块对新编码进行多次采样,并与高速存储的地址建立映射关系,通过控制高速存储相应地址的标志位来记录是否已经出现过某一个数据实例,从而实现排重功能;所述的输出模块将经过排重的数据返回给用户。所述的输入模块,负责接收用户的数据实例,可以是文件输入,网络流输入等等,例如:接收从网页中发现的各种网址。这些数据实例没有特定的顺序要-->求,一个数据实例可能在接收时多次出现,中间夹杂其他数据实例。所述的数字编码模块,将数据实例进行快速编码转换,可以采用MD5、SHA-1等哈希函数来实现。并将原始空间内的数据压缩到由k位01序列的数值空间。数字编码模块的编码位数应该略大于最终输出的数值数量。其中,k的取值通常是16或32的整数倍,需要根据实际问题进行适当的参数选择。比较常用的k值可以是128或160。所述的多点检验模块,将由数字编码模块生成的数值和高速存储的地址建立多点对应关系(包括:多点对应关系和单点对应关系。如:将新编码的几部分分别映射为高速存储的地址,从而将一个新编码映射到高速存储的多个存储位置。或将新编码直接映射为高速存储的地址),并通过控制高速存储相应地址的标志位来记录是否已经出现过某一个数据实例的模块。它可以迅速查询高速存储装置中特定地址位是否均已标记过来判断数据进行是否已经出现过。另外,当需要处理的问题规模相对较小时,可以将多点检验简化为单点检验,以进一步提升系统性能。所述的输出模块,将多点检验模块判重以后,没有重复出现过的数据实例整理并最终返回给用户。本专利技术中的数字编码模块的编码位数和多点检验模块中高速存储的地址位数是两个可以根据实际问题规模进行适当调整的参数。其中,数字编码模块的编码位数通常应该略大于最终输出的数值数量,以保证数字编码有足够的区分度;高速存储的地址位数(如计算机内存的寻址空间)决定了需要使用的高速存储的容量。本专利技术可以高效地处理大规模的数据问题。由于经过快速的编码转换,数据空间得以压缩,并最终经过多点检验实现将数据都映射到高速存储的连续地址空间。一方面,数据空间的大规模压缩使得需要存储的信息量也得以相应地减少,从而使得在单台机器上存储所有实例是否出现过的信息变为可能。另一方面,这样的压缩还使得处理每个数据所需要的时间大幅缩减,整个系统的效率也因此大幅提升。附图说明图1为本专利技术系统结构框图。-->图2为本专利技术工作流程图。具体实施方式下面结合附图对本专利技术的实施例作详细说明:本实施例在以本专利技术技术方案为前提下进行实施,给出了详细的实施方式,但本专利技术的保护范围不限于下述的实施例。以判断网址是否为重复出现问题为例。经过搜索引擎的爬虫收集到的网页内包含大量网址信息,并且可能会多次指向同一个网址的网页。因此有必要对这些网址信息进行排重工作,以免搜索引擎多次索引同一张网页。如图1所示,本实施例包括四个模块:输入模块、数字编码模块、多点检验模块、输出模块。各个模块之间通过计算机的各种数据线或主板进行通讯。其中:所述的输入模块接需要进行排重的原始数据,即数据实例;所述的数字编码模块将输入模块获得的数据实例进行重新编码,将数据空间压缩到与相应问题的规模相当或稍大的空间;所述的多点检验模块对新编码进行多次采样,并与高速存储的地址建立映射关系,通过控制高速存储相应地址的标志位来记录是否已经出现过某一个数据实例,从而实现排重功能;所述的输出模块将经过排重的数据返回给用户。如图2所示,本实施例开始工作时,先由输入模块接用户需要进行排重的原始数据,然后数字编码模块对数据实例进行重新编码,将数据空间压缩到与相应问题的规模相当或稍大的空间,多点检验模块对新编码进行多次采样,并与高速存储的地址建立映射关系,通过本文档来自技高网
...

【技术保护点】
一种大规模数据信息排重处理系统,其特征在于包括四个模块:输入模块、数字编码模块、多点检验模块、输出模块,其中: 所述的输入模块接收需要进行排重的原始数据,即数据实例; 所述的数字编码模块将输入模块获得的数据实例进行重新编码,将数据空间压缩到与待解问题实际数据实例的规模相当或稍大的空间; 所述的多点检验模块对新编码进行多次采样,并与高速存储的地址建立映射关系,通过控制高速存储相应地址的标志位来记录是否已经出现过某一个数据实例,从而实现排重; 所述的输出模块将经过排重的数据返回给用户。

【技术特征摘要】
1、一种大规模数据信息排重处理系统,其特征在于包括四个模块:输入模块、数字编码模块、多点检验模块、输出模块,其中:所述的输入模块接收需要进行排重的原始数据,即数据实例;所述的数字编码模块将输入模块获得的数据实例进行重新编码,将数据空间压缩到与待解问题实际数据实例的规模相当或稍大的空间;所述的多点检验模块对新编码进行多次采样,并与高速存储的地址建立映射关系,通过控制高速存储相应地址的标志位来记录是否已经出现过某一个数据实例,从而实现排重;所述的输出模块将经过排重的数据返回给用户。2、根据权利要求1所述的大规模数据信息排重处理系统,其特征是,所述的输入模块负责接收用户的数据实例,数据实例是文件输入或者网络流输入,这些数据实例没有特定的顺序要求,一个数据实例可能在接收时多次出现,中间夹杂其他数据实例。3、根据权利要求1所述的大规模数据信息排重处理系统,其特征是,所述的数字编码模块采用哈希函数来实现数据实例的快速编码转换,并将原始空间内的数据压缩到由k...

【专利技术属性】
技术研发人员:韩定一周云庆袁若石薛贵荣俞勇
申请(专利权)人:上海交通大学
类型:发明
国别省市:31[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1