一种基于规则标签的大文档分片处理方法及装置制造方法及图纸

技术编号：39320939 阅读：8 留言：0更新日期：2023-11-12 16:01

本发明专利技术公开了一种基于规则标签的大文档分片处理方法及装置。其中，方法包括：使用主线程先对待处理文档进行标签的定位标记，并收集待处理文档中所有的标记坐标对，其中每一对标记包含开始和结束的坐标，视为一组；依据计算设备对所有的标记坐标对进行分片，确定待处理的多组标记；采用多线程根据每组标记的起始和结束坐标使用文档的随机读写技术，获取该组坐标范围内的内容数据；读取每组标记的内容数据至内存，进行内容数据的扩展操作。进行内容数据的扩展操作。进行内容数据的扩展操作。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于规则标签的大文档分片处理方法及装置

[0001]本专利技术涉及文档分片处理
，并且更具体地，涉及一种基于规则标签的大文档分片处理方法及装置。

技术介绍

[0002]对于具有规则的大文档例如十几G，如果内存只有几个G大小，如何有效快速的处理数据是一项艰难的任务。如果CPU也只有2核心，在这种资源匮乏的情况下需要有一种机制可以处理超出资源处理能力的数据文档。
[0003]目前主流的做法，主要是针对规则的XML文档进行处理，不能兼容更多的文档类型例如txt、dbf、pdf等等，而且只能处理小于内存大小的文档，因此局限性比较多。如何利用现在有的机器资源对具有规则的大文档进行数据高效读取和分片处理成为亟待解决的技术问题。目前解决方案严重依赖内存和CPU资源，利用多线程技术将文档全部读入内存，然后在进行内存数据操作，并没有真正意义上做到数据分片处理，如果文档内容远远大于内存大小，那么会造成文档处理失败。因此这样处理方案并没有合理利用现有的有限资源，反而过渡依赖内存和CPU的资源，造成任务不可处理。

技术实现思路

[0004]针对现有技术的不足，本专利技术提供一种基于规则标签的大文档分片处理方法及装置。
[0005]根据本专利技术的一个方面，提供了一种基于规则标签的大文档分片处理方法，包括：
[0006]使用主线程先对待处理文档进行标签的定位标记，并收集待处理文档中所有的标记坐标对，其中每一对标记包含开始和结束的坐标，视为一组；
[0007]依据计算设备对所有的标记坐标...

【技术保护点】

【技术特征摘要】
1.一种基于规则标签的大文档分片处理方法，其特征在于，包括：使用主线程先对待处理文档进行标签的定位标记，并收集所述待处理文档中所有的标记坐标对，其中每一对标记包含开始和结束的坐标，视为一组；依据计算设备对所有的所述标记坐标对进行分片，确定待处理的多组标记；采用多线程根据每组标记的起始和结束坐标使用文档的随机读写技术，获取该组坐标范围内的内容数据；读取每组标记的所述内容数据至内存，进行内容数据的扩展操作。2.根据权利要求1所述的方法，其特征在于，所述待处理文档的类型包括：txt、xml、dbf、pdf。3.根据权利要求1所述的方法，其特征在于，依据计算设备对所有的所述标记坐标对进行分片，确定待处理的多组标记，包括：在所述计算设备为本地计算设备的情况下，根据本地计算设备的CPU核心数n和内存大小mG进行均衡的分片，则每个核心分得N/n＝x组标记，并且每个CPU核心同时处理的数据大小之和不能超过m*(3/4)＝m_maxG，确定每个CPU核心每次处理x/(m_max)＝x_per组标记，循环处理m_max次；在所述计算设备为分布式处理的情况下，根据每台计算设备的配置的权重进行分片，确定待处理的多组标记。4.根据权利要求1所述的方法，其特征在于，所述扩展操作为对接批处理框进行数据的process、转换以及持久化操作。5.一种基于规则标签的大文档分片处理装置，其特征在于，包括：定位标记模块，用于使用主线程先对待处理文档进行标签的定位标记，并收集所述待处理文档中所有的标记坐标对，其中每一对标记包含开始和结束的坐标，视为一组；确定模块，用于依据计...

【专利技术属性】
技术研发人员：代江波，陈凌云，李宁，刘栋，胡方全，张晴普，闵洋洋，丁福照，吴光炳，王玉峰，魏臣，苑歌，范宝珠，叶伟睿，
申请(专利权)人：德邦证券股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人