一种数据处理装置及方法制造方法及图纸

技术编号:11759054 阅读:56 留言:0更新日期:2015-07-22 12:35
本发明专利技术提供一种数据处理装置及方法,用以简化线程对大量数据文件的处理过程,提高线程对文件的处理速度,降低计算机资源的消耗,提高哈希算法的计算速度。本发明专利技术方法包括:对待处理文件中任意一行数据,根据预先设置的该行数据的关键信息确定该行数据的特征值,根据该特征值定位到预先设置的数组结构中的用于存储行数据的标识的元素;判断所述定位到的元素是否被占用,如果是,则将该行数据以及占用该元素的标识所对应的行数据确定为满足预设条件的行数据;否则,将该行数据的标识存储到该元素中。

【技术实现步骤摘要】

本专利技术涉及通信领域,尤其涉及。
技术介绍
在对大量数据进行处理时,通常需要对大量数据进行排重处理,即在大量数据中, 根据每个数据段的关键信息查找有关联的两个或多个数据段,并对该有关联的数据段做相 应处理。 以数据稽核业务过程为例,该过程中主要包括客户关系管理系统(CRM,Customer RelationshipManagement)、融合计费系统(CBS,ConvergentBillingSystem)和稽核系 统,CRM和CBS负责提供大量的数据文件,稽核系统负责对这些数据文件进行稽核处理,即 根据每个数据段的关键信息查找所有文件中有关联的两个或多个数据段,并分析出关联的 数据段之间信息相同和不同的部分,然后将关联的数据段形成报表文件,最后稽核系统将 该报表文件反馈给CRM和CBS,CRM和CBS再对其做数据纠正。 由于需要进行排重处理的数据量比较大,为节省计算机的软硬件资源,通常采用 哈希(Hash)算法,通过哈希算法可以将任意长度的输入转换成指定数值范围内的固定长 度的输出,这种转换是一种压缩映射,该输出所占用的空间通常远小于其输入所占用的空 间,通过哈希算法不同的输入得到的输出可能会相同,而不可能根据输出来确定唯一的输 入;简单的说哈希算法就是一种将任意长度的消息压缩到某一固定长度的摘要消息的函 数。在对大量数据进行排重处理过程中,通过哈希算法将数据段压缩成固定长度的输出,可 以简化对大量数据的处理过程。目前,采用现有技术来简化对大量数据的处理过程依然会消耗计算机中大量的软 硬件资源,比如计算机内存和中央处理器(CPU,CentralProcessingUnit)资源。
技术实现思路
本专利技术实施例提供,用以简化线程对大量数据文件的处 理过程,提高线程对文件的处理速度,降低计算机资源的消耗,提高哈希算法的计算速度。 第一方面,提供一种数据处理装置,包括: 确定单元,用于对待处理文件中任意一行数据,根据预先设置的该行数据的关键 信息确定该行数据的特征值,根据该特征值定位到预先设置的数组结构中的用于存储行数 据的标识的元素; 处理单元,用于判断确定单元定位到的元素是否被占用,如果是,则将该行数据以 及占用该元素的标识所对应的行数据确定为满足预设条件的行数据;否则,将该行数据的 标识存储到该元素中。 结合第一方面,在第一种可能的实现方式中,数组结构为包含行元素和列元素的 二维数组结构,且数组结构中的元素的个数不小于需要处理的所有文件中数据的行数。 结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式 中,需要处理的所有文件中数据的行数为2m+n,m和n为自然数; 数组结构包括2m+l行元素和2n+l列元素。 结合第一方面的第一种或第二种可能的实现方式,在第一方面的第三种可能的实 现方式中,确定单元具体用于: 对待处理文件中任意一行数据,获取预先设置的该行数据的关键信息X,并利用哈 希函数对X进行计算得到该行数据的特征值h(X); 根据公式r(X)=h(X)&(2m+n-l) >>n,定位到预先设置的数组结构中的用于存储该行 数据的标识的元素的行地址r(x); 根据公式c(x)=h(X)&(2m+n-l)&(2 n-l),定位到预先设置的数组结构中的用于存储 该行数据的标识的元素的列地址C(X); 其中,2m+n表示需要处理的所有文件中数据的行数,m和n为自然数。 结合第一方面,在第四种可能的实现方式中,数组结构为包括1行元素和2n+l列 元素的一维数组结构,n为自然数。 结合第一方面,在第五种可能的实现方式中,行数据的标识包括该行数据所在文 件的编号以及该行数据在该文件中的行号。 结合第一方面,在第六种可能的实现方式中,该装置还包括: 报文生成单元,用于将处理单元确定的满足预设条件的行数据的相关信息添加到 报文中;其中,相关信息包括满足预设条件的行数据的关键信息和标识。 结合第一方面的第一种可能的实现方式,在第一方面的第七种可能的实现方式 中,确定单元和处理单元分别采用多个线程并行地对多个文件中的行数据进行处理,其中 一个线程处理一个文件中的行数据。 结合第一方面的第七种可能的实现方式,在第一方面的第八种可能的实现方式 中,确定单元和处理单元分别当确定一个线程访问数组结构中的一个元素时,禁止其他线 程访问该元素所在的行元素。 第二方面,提供一种数据处理方法,包括 对待处理文件中任意一行数据,根据预先设置的该行数据的关键信息确定该行数 据的特征值,根据该特征值定位到预先设置的数组结构中的用于存储行数据的标识的元 素; 判断定位到的元素是否被占用,如果是,则将该行数据以及占用该元素的标识所 对应的行数据确定为满足预设条件的行数据;否则,将该行数据的标识存储到该元素中。 结合第二方面,在第一种可能的实现方式中,数组结构为包含行元素和列元素的 二维数组结构,且数组结构中的元素的个数不小于需要处理的所有文件中数据的行数。 结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式 中,需要处理的所有文件中数据的行数为2m+n,m和n为自然数; 数组结构包括2m+l行元素和2n+l列元素。结合第二方面的第一种或第二种可能的实现方式,在第二方面的第三种可能的实 现方式中,对待处理文件中任意一行数据,根据预先设置的该行数据的关键信息确定该行 数据的特征值,根据该特征值定位到预先设置的数组结构中的用于存储行数据的标识的元 素,包括: 对待处理文件中任意一行数据,获取预先设置的该行数据的关键信息x,并利用哈 希函数对X进行计算得到该行数据的特征值h(X); 根据公式r(X)=h(X)&(2m+n_l) >>n,定位到预先设置的数组结构中的用于存储该行 数据的标识的元素的行地址r(x); 根据公式c(X)=h(X) &(2m+n_l)&(2n_l),定位到预先设置的数组结构中的用于存储 该行数据的标识的元素的列地址C(X); 其中,2m+n表示需要处理的所有文件中数据的行数,m和n为自然数。 结合第二方面,在第四种可能的实现方式中,数组结构为包括1行元素和2n+l列 元素的一维数组结构,n为自然数。 结合第二方面,在第五种可能的实现方式中,行数据的标识包括该行数据所在文 件的编号以及该行数据在该文件中的行号。 结合第二方面,在第六种可能的实现方式中,该方法还包括: 将满足预设条件的行数据的相关信息添加到报文中;其中,相关信息包括满足预 设条件的行数据的关键信息和标识。 结合第二方面的第一种可能的实现方式,在第二方面的第七种可能的实现方式 中,采用多个线程并行地对多个文件中的行数据进行处理,其中一个线程处理一个文件中 的行数据。 结合第二方面的第七种可能的实现方式,在第二方面的第八种可能的实现方式 中,当一个线程访问数组结构中的一个元素时,禁止其他线程访问该元素所在的行元素。 本专利技术实施例提供的一种数据处理方法中,线程根据预先设置的行数据的关键信 息确定该行数据的特征值,根据该特征值定位到预先设置的数组结构中的用于存储行数据 的标识的元素,并判断所述定位到的元素是否被占用,以便确定满足预设条件的行本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104793997.html" title="一种数据处理装置及方法原文来自X技术">数据处理装置及方法</a>

【技术保护点】
一种数据处理装置,其特征在于,该装置包括:确定单元,用于对待处理文件中任意一行数据,根据预先设置的该行数据的关键信息确定该行数据的特征值,根据该特征值定位到预先设置的数组结构中的用于存储行数据的标识的元素;处理单元,用于判断所述确定单元定位到的元素是否被占用,如果是,则将该行数据以及占用该元素的标识所对应的行数据确定为满足预设条件的行数据;否则,将该行数据的标识存储到该元素中。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴万里
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1