一种基于分布式系统的解析超大文本文件处理方法技术方案

技术编号：28211479 阅读：20 留言：0更新日期：2021-04-24 14:48

本发明专利技术公开了一种基于分布式系统的解析超大文本文件处理方法，获取样本数据和解析分布数据，解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据；对解析分布数据进行分布式分析，得到分布分析数据；根据分布分析数据对样本数据进行划分和分配，得到样本分配集；对样本分配集进行分布式处理，得到样本处理集；将样本处理集进行组合，得到样本解析集；本发明专利技术用于解决不能根据分布主机的工作状态和工作能力进行针对性分发数据和处理，使得整体的数据受到节点主机的影响进而使得数据的处理效率不佳的问题，以及不能将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分布式系统的解析超大文本文件处理方法

[0001]本专利技术涉及分布式
，尤其涉及一种基于分布式系统的解析超大文本文件处理方法。

技术介绍

[0002]当计算机的程序和数据通过网络分布在多于一个的计算机上时，计算就成为“分布式的”。以前的计算通常是由计算中心完成的，尽管仍存在这样的计算中心，大小企业却逐渐将应用程序移至(分布到)企业中能最有效地完成计算的地点进行，通常是桌面工作站、局域网服务器、部门服务器、Web服务器和其他服务器的混合。比较流行的是客户/服务器模式，客户机只具有一定的功能，其他的功能需要从提供服务的服务器那里获得。HTTP协议就是一个例子。在分布式计算环境中，数据的存储和处理可在本地工作站上进行；
[0003]超大文本文件(如几十G的txt文件)解析，传统技术容易出现OOM问题，通过分布式系统可以解决超大文本文件处理的弊端，但仍然存在一定的缺陷。
[0004]现有的解析超大文本文件处理方法存在的缺陷是：不能根据分布主机的工作状态和工作能力进行针对性分发数据和处理，使得整体的数据受到节点主机的影响进而使得数据的处理效率不佳的问题，以及不能将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的问题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于分布式系统的解析超大文本文件处理方法，本专利技术所要解决的技术问题为：
[0006]如何解决现有方案中不能根据分布主机的工作状态和工作能力进行针对性分发数据和处理，使得整体的数据受到节点...

【技术保护点】

【技术特征摘要】
1.一种基于分布式系统的解析超大文本文件处理方法，其特征在于，具体的步骤包括：S1：获取样本数据和解析分布数据，解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据；S2：对解析分布数据进行分布式分析，得到分布分析数据；S3：根据分布分析数据对样本数据进行划分和分配，得到样本分配集；S4：对样本分配集进行分布式处理，得到样本处理集；S5：将样本处理集进行组合，得到样本解析集。2.根据权利要求1所述的一种基于分布式系统的解析超大文本文件处理方法，其特征在于，对解析分布数据进行分布式分析，得到分布分析数据，包括：S21：获取解析分布数据中若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据；S22：设定不同的处理器均对应一个不同的处理预设值，将类型数据中的处理器类型与所有的处理器进行匹配获取对应的处理预设值并标记为CY，获取处理速率数据中的平均处理速率并标记为PC；S23：获取处理内存数据中的已使用处理内存和未使用处理内存，将已使用处理内存标记为YCN1，将未处理内存标记为WCN1，获取存储内存数据中的已存储内存和未使用存储内存，并将已存储内存标记为YCN2，将未存储内存标记为WCN2；S24：获取状态数据中若干个主机上一次处理数据的持续时长和间隔时长，设定不同的时长对应不同的时长预设值，将持续时长与所有的时长进行匹配获取对应的时长预设值并标记为第一时预值，将间隔时长与所有的时长进行匹配获取对应的时长预设值并标记为第二时预值；S25：利用公式获取若干个主机的实运值，该公式为：其中，Q
sy
表示为实运值，μ表示为预设的实运修正因子，g1、g2、g3、g4表示为预设的不同比例系数，YSY表示为第一时预值，ESY表示为第二时预值；S26：将若干个实运值进行降序排列得到实运排序集；S27：将标记的处理预设值、平均处理速率、已使用处理内存、未处理内存、已存储内存、未存储内存、第一时预值和第二时预值与实运排序集组合，得到分布分析数据。3.根据权利要求1所述的一种基于分布式系统的解析超大文本文件处理方法，其特征在于，根据分布分析数据对样本数据进行划分和分...

【专利技术属性】
技术研发人员：李立强，吴福全，王淋淋，
申请(专利权)人：安徽迪科数金科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人