大数据一致性对比方法和系统技术方案

技术编号：10408994 阅读：161 留言：0更新日期：2014-09-10 18:13

本发明专利技术提供了一种大数据一致性对比方法和系统，所述方法包括：将第一待对比数据转换为第一结构化数据，以及将第二待对比数据转换为第二结构化数据；利用分布式并行计算构架对所述第一结构化数据和第二结构化数据进行分层对比，所述分层对比包括在不同层级对所述第一结构化数据和第二结构化数据中的数据统计信息进行对比和对所述第一结构化数据和第二结构化数据中的内容进行对比；若所述第一结构化数据和第二结构化数据中的数据统计信息不相同，则直接返回对比不一致的结果；若所述第一结构化数据和第二结构化数据中的数据统计信息和内容都相同，则返回对比一致的结果。采用该方法和系统，能够实现了高效的对无序的大数据进行一致性对比。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种大数据一致性对比方法和系统，所述方法包括：将第一待对比数据转换为第一结构化数据，以及将第二待对比数据转换为第二结构化数据；利用分布式并行计算构架对所述第一结构化数据和第二结构化数据进行分层对比，所述分层对比包括在不同层级对所述第一结构化数据和第二结构化数据中的数据统计信息进行对比和对所述第一结构化数据和第二结构化数据中的内容进行对比；若所述第一结构化数据和第二结构化数据中的数据统计信息不相同，则直接返回对比不一致的结果；若所述第一结构化数据和第二结构化数据中的数据统计信息和内容都相同，则返回对比一致的结果。采用该方法和系统，能够实现了高效的对无序的大数据进行一致性对比。【专利说明】大数据一致性对比方法和系统
本专利技术涉及计算机
，特别是涉及一种大数据一致性对比方法和系统。
技术介绍
大数据，也称为巨量数据，是指数据量为PB级(PB指petabyte，是较为高级的存储单位，为2的50次方字节)以上的数据。大数据由于数据量规模巨大，无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯，通常需要上千甚至几万台计算机通过网络连接组成的共同完成特定数据存储、计算任务的计算机集群(即大数据集群)来进行处理。随着大数据时代的到来，大数据的价值得以开发，大数据的应用和处理越来越频繁，大数据一致性对比成为大数据中的一个关键应用。比如，在大数据集群系统更替时需要确定更替前后的大数据是否一致；算法优化前后计算结果是否一致；数据迁移前后是否一致等等。然而传统的对比工具通常只能实现...

【技术保护点】
一种大数据一致性对比方法，所述方法包括：将第一待对比数据转换为第一结构化数据，以及将第二待对比数据转换为第二结构化数据；利用分布式并行计算构架对所述第一结构化数据和第二结构化数据进行分层对比，所述分层对比包括在不同层级对所述第一结构化数据和第二结构化数据中的数据统计信息进行对比和对所述第一结构化数据和第二结构化数据中的内容进行对比；若所述第一结构化数据和第二结构化数据中的数据统计信息不相同，则直接返回对比不一致的结果；若所述第一结构化数据和第二结构化数据中的数据统计信息和内容都相同，则返回对比一致的结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：徐天华，贺波，梁栋，蔡伟岗，张宝亮，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人