一种基于分布式系统的解析超大文本文件处理方法技术方案

技术编号:28211479 阅读:20 留言:0更新日期:2021-04-24 14:48
本发明专利技术公开了一种基于分布式系统的解析超大文本文件处理方法,获取样本数据和解析分布数据,解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;对解析分布数据进行分布式分析,得到分布分析数据;根据分布分析数据对样本数据进行划分和分配,得到样本分配集;对样本分配集进行分布式处理,得到样本处理集;将样本处理集进行组合,得到样本解析集;本发明专利技术用于解决不能根据分布主机的工作状态和工作能力进行针对性分发数据和处理,使得整体的数据受到节点主机的影响进而使得数据的处理效率不佳的问题,以及不能将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的问题。问题。问题。

【技术实现步骤摘要】
一种基于分布式系统的解析超大文本文件处理方法


[0001]本专利技术涉及分布式
,尤其涉及一种基于分布式系统的解析超大文本文件处理方法。

技术介绍

[0002]当计算机的程序和数据通过网络分布在多于一个的计算机上时,计算就成为“分布式的”。以前的计算通常是由计算中心完成的,尽管仍存在这样的计算中心,大小企业却逐渐将应用程序移至(分布到)企业中能最有效地完成计算的地点进行,通常是桌面工作站、局域网服务器、部门服务器、Web服务器和其他服务器的混合。比较流行的是客户/服务器模式,客户机只具有一定的功能,其他的功能需要从提供服务的服务器那里获得。HTTP协议就是一个例子。在分布式计算环境中,数据的存储和处理可在本地工作站上进行;
[0003]超大文本文件(如几十G的txt文件)解析,传统技术容易出现OOM问题,通过分布式系统可以解决超大文本文件处理的弊端,但仍然存在一定的缺陷。
[0004]现有的解析超大文本文件处理方法存在的缺陷是:不能根据分布主机的工作状态和工作能力进行针对性分发数据和处理,使得整体的数据受到节点主机的影响进而使得数据的处理效率不佳的问题,以及不能将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的问题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于分布式系统的解析超大文本文件处理方法,本专利技术所要解决的技术问题为:
[0006]如何解决现有方案中不能根据分布主机的工作状态和工作能力进行针对性分发数据和处理,使得整体的数据受到节点主机的影响进而使得数据的处理效率不佳的问题,以及不能将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的问题。
[0007]本专利技术的目的可以通过以下技术方案实现:一种基于分布式系统的解析超大文本文件处理方法,具体的步骤包括:
[0008]S1:获取样本数据和解析分布数据,解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;
[0009]S2:对解析分布数据进行分布式分析,得到分布分析数据;
[0010]S3:根据分布分析数据对样本数据进行划分和分配,得到样本分配集;
[0011]S4:对样本分配集进行分布式处理,得到样本处理集;
[0012]S5:将样本处理集进行组合,得到样本解析集。
[0013]优选的,对解析分布数据进行分布式分析,得到分布分析数据,包括:
[0014]S21:获取解析分布数据中若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;
[0015]S22:设定不同的处理器均对应一个不同的处理预设值,将类型数据中的处理器类
型与所有的处理器进行匹配获取对应的处理预设值并标记为CY,获取处理速率数据中的平均处理速率并标记为PC;
[0016]S23:获取处理内存数据中的已使用处理内存和未使用处理内存,将已使用处理内存标记为YCN1,将未处理内存标记为WCN1,获取存储内存数据中的已存储内存和未使用存储内存,并将已存储内存标记为YCN2,将未存储内存标记为WCN2;
[0017]S24:获取状态数据中若干个主机上一次处理数据的持续时长和间隔时长,设定不同的时长对应不同的时长预设值,将持续时长与所有的时长进行匹配获取对应的时长预设值并标记为第一时预值,将间隔时长与所有的时长进行匹配获取对应的时长预设值并标记为第二时预值;
[0018]S25:利用公式获取若干个主机的实运值,该公式为:
[0019][0020]其中,Q
sy
表示为实运值,μ表示为预设的实运修正因子,g1、g2、g3、g4表示为预设的不同比例系数,YSY表示为第一时预值,ESY表示为第二时预值;
[0021]S26:将若干个实运值进行降序排列得到实运排序集;
[0022]S27:将标记的处理预设值、平均处理速率、已使用处理内存、未处理内存、已存储内存、未存储内存、第一时预值和第二时预值与实运排序集组合,得到分布分析数据。
[0023]优选的,根据分布分析数据对样本数据进行划分和分配,得到样本分配集,包括:
[0024]S31:获取分布分析数据中的已使用处理内存、未处理内存、已存储内存、未存储内存;
[0025]S32:利用公式获取若干个主机的划分值,该公式为:
[0026][0027]其中,Q
hf
表示为划分值,β表示为预设的划分修正因子,a1、a2表示为预设的不同比例系数;
[0028]S33:将若干个划分值进行降序排列,得到划分排序集,将划分排序集与预设的划分阈值进行匹配,若划分值不小于划分阈值,则判定该划分值有效并将其对应的主机标记为处理主机;若划分值小于划分阈值,则判定该划分值无效并将其对应的主机标记为待机主机,统计处理主机的总数量并标记为划分数量;
[0029]S34:获取若干个处理主机的未处理内存的累加值,并计算若干个处理主机的未处理内存与累加值的占比,得到占比系数,将占比系数进行降序排列并标号;
[0030]S35:获取样本数据的内存值,将内存值根据占比系数进行划分并降序排列标号,得到样本划分数据;
[0031]S36:将样本划分数据根据占比系数与若干个处理主机关联并组合,得到样本分配集。
[0032]优选的,对样本分配集进行分布式处理,得到样本处理集,包括:
[0033]S41:获取处理主机的分布坐标,根据分布坐标将样本划分数据分发至若干个处理主机,若干个处理主机接收样本划分数据并进行解析,得到样本解析数据;
[0034]S42:获取处理主机解析的持续时长和样本解析数据的占用内存,根据持续时长将
该处理主机的工作时长进行更新,将样本数据存储至处理主机中进行备份并获取备份路径;
[0035]S43:根据样本解析数据的占用内存对处理主机的已存储内存和未存储内存分别进行加减更新,得到更新已存储存储和更新未存储内存;
[0036]S44:将若干个备份路径根据处理主机的排序标号和分布坐标进行排列组合,得到路径分配集;
[0037]S45:将路径分配集和若干个降序排列的样本解析数据组合,得到样本处理集。
[0038]优选的,将样本处理集进行组合,得到样本解析集,包括:
[0039]将路径分配集根据降序排列的标号和分布坐标与样本解析数据进行关联,并将若干个样本解析数据根据降序排列的标号进行组合,得到样本解析集。
[0040]本专利技术的有益效果:
[0041]本专利技术公开的若干个方面,获取样本数据和解析分布数据,解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;通过采集样本数据和解析分布数据并进行处理,从节点主机的类型、处理速率、处理内存和存储内存以及状态等方面综合考虑主机的处理能力,为样本数据的拆分和分配提供了数据支撑;
[0042]对解析分布数据进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布式系统的解析超大文本文件处理方法,其特征在于,具体的步骤包括:S1:获取样本数据和解析分布数据,解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;S2:对解析分布数据进行分布式分析,得到分布分析数据;S3:根据分布分析数据对样本数据进行划分和分配,得到样本分配集;S4:对样本分配集进行分布式处理,得到样本处理集;S5:将样本处理集进行组合,得到样本解析集。2.根据权利要求1所述的一种基于分布式系统的解析超大文本文件处理方法,其特征在于,对解析分布数据进行分布式分析,得到分布分析数据,包括:S21:获取解析分布数据中若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据;S22:设定不同的处理器均对应一个不同的处理预设值,将类型数据中的处理器类型与所有的处理器进行匹配获取对应的处理预设值并标记为CY,获取处理速率数据中的平均处理速率并标记为PC;S23:获取处理内存数据中的已使用处理内存和未使用处理内存,将已使用处理内存标记为YCN1,将未处理内存标记为WCN1,获取存储内存数据中的已存储内存和未使用存储内存,并将已存储内存标记为YCN2,将未存储内存标记为WCN2;S24:获取状态数据中若干个主机上一次处理数据的持续时长和间隔时长,设定不同的时长对应不同的时长预设值,将持续时长与所有的时长进行匹配获取对应的时长预设值并标记为第一时预值,将间隔时长与所有的时长进行匹配获取对应的时长预设值并标记为第二时预值;S25:利用公式获取若干个主机的实运值,该公式为:其中,Q
sy
表示为实运值,μ表示为预设的实运修正因子,g1、g2、g3、g4表示为预设的不同比例系数,YSY表示为第一时预值,ESY表示为第二时预值;S26:将若干个实运值进行降序排列得到实运排序集;S27:将标记的处理预设值、平均处理速率、已使用处理内存、未处理内存、已存储内存、未存储内存、第一时预值和第二时预值与实运排序集组合,得到分布分析数据。3.根据权利要求1所述的一种基于分布式系统的解析超大文本文件处理方法,其特征在于,根据分布分析数据对样本数据进行划分和分...

【专利技术属性】
技术研发人员:李立强吴福全王淋淋
申请(专利权)人:安徽迪科数金科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1