大数据一致性对比方法和系统技术方案

技术编号:10408994 阅读:161 留言:0更新日期:2014-09-10 18:13
本发明专利技术提供了一种大数据一致性对比方法和系统,所述方法包括:将第一待对比数据转换为第一结构化数据,以及将第二待对比数据转换为第二结构化数据;利用分布式并行计算构架对所述第一结构化数据和第二结构化数据进行分层对比,所述分层对比包括在不同层级对所述第一结构化数据和第二结构化数据中的数据统计信息进行对比和对所述第一结构化数据和第二结构化数据中的内容进行对比;若所述第一结构化数据和第二结构化数据中的数据统计信息不相同,则直接返回对比不一致的结果;若所述第一结构化数据和第二结构化数据中的数据统计信息和内容都相同,则返回对比一致的结果。采用该方法和系统,能够实现了高效的对无序的大数据进行一致性对比。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种大数据一致性对比方法和系统,所述方法包括:将第一待对比数据转换为第一结构化数据,以及将第二待对比数据转换为第二结构化数据;利用分布式并行计算构架对所述第一结构化数据和第二结构化数据进行分层对比,所述分层对比包括在不同层级对所述第一结构化数据和第二结构化数据中的数据统计信息进行对比和对所述第一结构化数据和第二结构化数据中的内容进行对比;若所述第一结构化数据和第二结构化数据中的数据统计信息不相同,则直接返回对比不一致的结果;若所述第一结构化数据和第二结构化数据中的数据统计信息和内容都相同,则返回对比一致的结果。采用该方法和系统,能够实现了高效的对无序的大数据进行一致性对比。【专利说明】大数据一致性对比方法和系统
本专利技术涉及计算机
,特别是涉及一种大数据一致性对比方法和系统。
技术介绍
大数据,也称为巨量数据,是指数据量为PB级(PB指petabyte,是较为高级的存储单位,为2的50次方字节)以上的数据。大数据由于数据量规模巨大,无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯,通常需要上千甚至几万台计算机通过网络连接组成的共同完成特定数据存储、计算任务的计算机集群(即大数据集群)来进行处理。随着大数据时代的到来,大数据的价值得以开发,大数据的应用和处理越来越频繁,大数据一致性对比成为大数据中的一个关键应用。比如,在大数据集群系统更替时需要确定更替前后的大数据是否一致;算法优化前后计算结果是否一致;数据迁移前后是否一致等等。然而传统的对比工具通常只能实现小数据量一致性的对比,但在对比大数据量(PB级数据量)时效率则非常低下。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能提高对比效率的大数据一致性对比方法和系统。一种大数据一致性对比方法,所述方法包括:将第一待对比数据转换为第一结构化数据,以及将第二待对比数据转换为第二结构化数据;利用分布式并行计算构架对所述第一结构化数据和第二结构化数据进行分层对t匕,所述分层对比包括在不同层级对所述第一结构化数据和第二结构化数据中的数据统计信息进行对比和对所述第一结构化数据和第二结构化数据中的内容进行对比;若所述第一结构化数据和第二结构化数据中的数据统计信息不相同,则直接返回对比不一致的结果;若所述第一结构化数据和第二结构化数据中的数据统计信息和内容都相同,则返回对比一致的结果。一种大数据一致性对比系统,所述系统包括:数据转换模块,用于将第一待对比数据转换为第一结构化数据,以及将第二待对比数据转换为第二结构化数据;数据对比模块,用于利用分布式并行计算构架对所述第一结构化数据和第二结构化数据进行分层对比,所述分层对比包括在不同层级对所述第一结构化数据和第二结构化数据中的数据统计信息进行对比和对所述第一结构化数据和第二结构化数据中的内容进行对比;若所述第一结构化数据和第二结构化数据中的数据统计信息不相同,则直接返回对比不一致的结果;若所述第一结构化数据和第二结构化数据中的数据统计信息和内容都相同,则返回对比一致的结果。上述大数据一致性对比方法和系统,通过将非结构化的待对比数据转换为有序的结构化数据,使得后续的对比更加高效。另外,利用分布式并行架构对第一结构化数据和第二结构化数据进行分层对比,通过在不同层级分别对第一结构化数据和第二结构化数据中的数据通信信息和内容进行对比,这种分层对比的方式能够降低一些不必要的对比开销,从而提高了对比效率,能够高效的解决无序的大数据一致性对比的问题,且能实现大数据的高一致性对比。【专利附图】【附图说明】图1为一个实施例中大数据一致性对比方法的应用环境图;图2为一个实施例中大数据一致性对比方法的流程示意图;图3为另一个实施例中大数据一致性对比方法的流程示意图;图4为图3中对非结构化数据转换为结构化数据的示意图;图5为图3中判断第一库表中的记录条数与第二库表中的记录条数是否相同的步骤的流程示意图;图6为图3中对第一库表和第二库表进行内容对比的流程示意图;图7为图6中对两个库表进行内容对比的示意图;图8为一个实施例中利用MapReduce进行分布式计算的示意图;图9为一个实施例中大数据一致性对比系统的结构框图;图10为图9中数据对比模块的结构框图;图11为另一个实施例中大数据一致性对比系统的结构框图;图12为一个实际项目中的大数据一致性对比系统的运行框架图;图13为图12中的记录结果的示意图。【具体实施方式】为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例所提供的一种大数据一致性对比方法可应用于如图1所示的系统中。参考图1所示,需要进行一致性对比的大数据A和大数据B为计算机集群中的数据,t匕如,可以分别是大数据集群进行系统更替时的更替前和更替后的大数据,可以分别是集群中进行算法优化所对应的优化前的计算结果和优化后的计算结果,也可以分别是大数据从一个计算机集群迁移到另一个计算机集群所对应的迁移前的数据和迁移后的数据,等等。需要进行一致性对比的大数据A和大数据B通常为不规整的目录文件数据,服务器106获取这些数据,将这些非结构化的数据转换为规整的结构化数据(库表),然后使用分布式并行计算架构108对得到的两个有序的库表进行分层对比。其中,分层对比包括对两个库表中的数据统计信息和内容进行对比。具体的,例如,可先对比两个库表中的记录条数是否相同,如果记录条数不相同,则表明其内容不可能相同,直接返回对比不一致的结果。如果记录条数相同,再进一步对比内容是否相同,采用分布式并行计算架构108使用多线程提交任务进行并行计算对比,大大提高了对比效率。最终将对比结果存储至数据库110中。存储在数据库Iio中的对比结果可以通过前台进行展现,或通过网络112推送至远程终端114进行展示,比如以邮件的方式发送到远程终端114。如图2所示,在一个实施例中,提供了一种大数据一致性对比方法,该方法以运行于Linux ( 一种类Unix操作系统,是一个基于POSIX和Unix的多用户、多任务、支持多线程和多CPU的操作系统)服务器进行举例说明,该方法包括:步骤202,将第一待对比数据转换为第一结构化数据,以及将第二待对比数据转换为第二结构化数据。本实施例中,第一待对比数据和第二待对比数据即为需要进行一致性对比的大数据,由于原始的大数据是不规整的,因此可先分别将第一待对比数据和第二待对比数据转换为规整有序的结构化数据,如库表。步骤204,利用分布式并行计算架构对第一结构化数据和第二结构化数据进行分层对比,分层对比包括在不同层级对第一结构化数据和第二结构化数据中的数据通信信息进行对比和对第一结构化数据和第二结构化数据中的内容进行对比。本实施例中,若第一结构化数据和第二结构化数据中的数据统计信息不相同,则直接返回对比不一致的结果;若第一结构化数据和第二结构化数据中的数据统计信息和内容都相同,则返回对比一致的结果。具体的,可利用分布式并行计算架构,先对第一结构化数据和第二结构化数据中的数据统计信息进行对比,数据统计信息可以是结构化数据的本文档来自技高网
...

【技术保护点】
一种大数据一致性对比方法,所述方法包括:将第一待对比数据转换为第一结构化数据,以及将第二待对比数据转换为第二结构化数据;利用分布式并行计算构架对所述第一结构化数据和第二结构化数据进行分层对比,所述分层对比包括在不同层级对所述第一结构化数据和第二结构化数据中的数据统计信息进行对比和对所述第一结构化数据和第二结构化数据中的内容进行对比;若所述第一结构化数据和第二结构化数据中的数据统计信息不相同,则直接返回对比不一致的结果;若所述第一结构化数据和第二结构化数据中的数据统计信息和内容都相同,则返回对比一致的结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐天华贺波梁栋蔡伟岗张宝亮
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1