数据处理方法、数据处理装置及计算机可读存储介质制造方法及图纸

技术编号：8453014 阅读：225 留言：0更新日期：2013-03-21 16:34

本发明专利技术提供一种数据处理方法、计算机系统及计算机可读存储介质，所述方法包括接收记录流，每个记录包括一个或多个字段和对应值；在多个处理器之间分割所述记录流；为每个记录生成在各记录中具有值的每个字段的字段值对，所述字段值对表示各记录中的字段和用于所述字段的对应值；为每个处理器生成每个相异字段值对的调查元素，所述调查元素包括表示所述相异字段和所述相异值的字段值对的计数；基于用于各字段的所述调查元素计算所述记录流中每个字段的统计数字；以及基于对应的统计数字为所述记录流中的每个字段生成归档。本发明专利技术可以自动确定或协同用户确定的信息可以用于转存数据源的元数据，之后用于进一步的处理。（*该技术在2024年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据归档(profling)。
技术介绍
存储的数据集经常包括事先未知各种特性的数据。例如，数据集的值或一般值的范围，在数据集内不同字段之间的关系，或在不同字段中的值之间的函数依赖性可能是未知的。数据归档会涉及到检查数据集的源，以确定这些特性。数据归档系统的用途之一是收集有关数据集的信息，然后该信息用于设计集结区(staging area)，以便在进一步处理之前装载数据集。然后，基于在数据归档过程中收集的信息，在集结区中进行将数据集映射到希望的目标格式和位置所需的转换。这种转换可能是必要的，例如，使第三方数据与已有数据存储器兼容，或者将数据从原来的计算机系统转移到新的计算机系统。
技术实现思路
一般而言，在一个方案中，本专利技术的特征是数据处理方法。接收记录流，每个记录包括一个或多个字段和对应值；在多个处理器之间分割所述记录流；为每个记录生成在各记录中具有值的每个字段的字段值对，所述字段值对表示各记录中的字段和用于所述字段的对应值；为每个处理器生成每个相异字段值对的调查元素，所述调查元素包括表示所述相异字段和所述相异值的字段值对的计数；基于用于各字段的...

【技术保护点】
一种数据处理方法，包括如下步骤：接收记录流，每个记录包括一个或多个字段和对应值；在多个处理器之间分割所述记录流；为每个记录生成在各记录中具有值的每个字段的字段值对，所述字段值对表示各记录中的字段和用于所述字段的对应值；为每个处理器生成每个相异字段值对的调查元素，所述调查元素包括表示相异字段和相异值的字段值对的计数；基于用于各字段的所述调查元素计算所述记录流中每个字段的统计数字；以及基于对应的统计数字为所述记录流中的每个字段生成归档。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：乔尔·古尔德，卡尔·范曼，保罗·贝，
申请(专利权)人：起元科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人