一种增加日志大数据量排序方法技术

技术编号：26170785 阅读：28 留言：0更新日期：2020-10-31 13:40

本发明专利技术涉及大数据ETL领域，具体提供了一种增加日志大数据量排序方法，多线程解析Redo日志后的多批次无序数据，通过路径文件命名、落盘和抓取的方式进行排序后，以正确有序的队列向后传输至目标源中，用于完成数据的同步。与现有技术相比，本发明专利技术的可以使用多线程解析，致使同步数据量达到T级别。满足绝大部分业务的增量需求，且该处理器配置简单、开发成本低、运行稳定、操作难度低，具有良好的推广价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种增加日志大数据量排序方法
本专利技术涉及大数据ETL领域，具体提供一种增加日志大数据量排序方法。
技术介绍
现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。目前来看，随着信息化越来越普遍，业务中的每天增量数据已经不仅仅局限于几百KB或者几百G的数据量，更多的业务增量redo日志日增数据量达到了T级别。于是这就产生了另一个问题，解析日志的速度达不到redo日志的产生速度。由于要保证数据的一致性，即数据DML一致，之前解析redo日志文件是以单线程运行的，即按照redo日志的生成时间逐个解析。这种解析方式无法并发导致速度无法达到日志生成速度，从而多线程对日志的解析方案就呼之欲出。但是多线程的方式速度达到了，然而各个线程解析日志文件后的数据是杂乱无章的，如何将这些数据以正确有序的方式重新排列成了本领域技术人员面临的技术难题。
技术实现思路
本专利技术是针对上述现有技术的不足，提供一种实用性强的增加日志大数据量排序方法。<...

【技术保护点】
1.一种增加日志大数据量排序方法，其特征在于，多线程解析Redo日志后的多批次无序数据，通过路径文件命名、落盘和抓取的方式进行排序后，以正确有序的队列向后传输至目标源中，用于完成数据的同步。/n

【技术特征摘要】
1.一种增加日志大数据量排序方法，其特征在于，多线程解析Redo日志后的多批次无序数据，通过路径文件命名、落盘和抓取的方式进行排序后，以正确有序的队列向后传输至目标源中，用于完成数据的同步。

2.根据权利要求1所述的一种增加日志大数据量排序方法，其特征在于，解析Redo日志之前先需要在FetchOracleRedoLogFile获取某一时间段的所有redo日志文件名称，按照日志生成的时间给每个日志文件名称依次加上current.index(1,2,3...)属性。

3.根据权利要求2所述的一种增加日志大数据量排序方法，其特征在于，多线程解析Redo日志时，ExecuteOracleLogMiner为解析日志文件处理器，每个线程处理一个日志文件，每10000条生成一个数据流向后传输，同时设置上FragmentNumber与NextFragmentNumber属性，当FragmentNumber与NextFragmentNumber相同时，则说明该日志文件已解析完毕。

4.根据权利要求3所述的一种增加日志大数据量排序方法，其特征在于，多批无序数据使用处理器FetchRedoBySequential进行数据的传输，先查看所述处理器中有无该数据表保存的状态，如果状态中未查询到该数据表的状态，则采取初始化状态Initialsequence(1-1)。

5.根据权利要求4所述的一种增加日志大数据量排序方法，其特征在于，所述数据表中键列为用户名和数据表，值列为所期待的序号批次数据。

6.根据权利要求5所述的一种增加日志大数据量排序方法，其特征在于，所述处理器FetchRedoBySequential为单线程执行，若传输的数据流不能识别，则采取的逻辑即将其落盘，路径为用户所配置的路径(/indata/disk_0/nifi/datas+“/用户名/数据表/cur...

【专利技术属性】
技术研发人员：杨贵柽，王庆明，李国涛，胡清，
申请(专利权)人：浪潮云信息技术股份公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人