一种序列化多线程数据处理系统技术方案

技术编号:27741078 阅读:21 留言:0更新日期:2021-03-19 13:34
本发明专利技术公开一种序列化多线程数据处理系统,其包括数据加载请求管理模块、数据索引管理模块、多线程序列化模块、多线程数据加载模块、序列化同步模块。本发明专利技术可以满足以亿兆为单位的企业级数据多线程加载,且不会出现导致计算机死机,内存溢出、蓝屏等现象。同时,通过序列化多线程技术对数据加载过程进行管控,可有效提高数据加载性能和速度。

【技术实现步骤摘要】
一种序列化多线程数据处理系统
本专利技术涉及数据处理
,尤其具体涉及一种序列化多线程数据处理系统。
技术介绍
以大数据应用中的机器学习为例,计算机需要识别一幅图片中的苹果,则就需要学习多张图片中的苹果,并分析和提炼出共同的相似特征以确实是否是苹果。这样学习的越多,识别越精准,但是其对数据的处理要求也就越高。由上可知,机器学习的过程是需要以处理大量的数据为前提的,面对海量的庞大数据资源,如何快速有效地管理数据加载处理就是我们需要面临的问题。传统的方法是采用多线程方式进行数据加载,即多线程数据处理方法允许同时执行多个线程,通常在允许进行调试操作的软件开发期间使用调试指令。然而传统的多线程数据加载方法虽然在一定方面有利于数据加载,提高了数据处理速度,但是其对将要加载的数据没有进行有效分析,对进行多线程加载的服务器的各个通道处理能力也没有进行区分调度管理不够,经常就会造成某些通道处理的快,有些通道处理的能力慢,造成数据加载时间长,等待时间过多,甚至造成某些通道的加载死机,内存溢出等诸多服务器错误。现有技术中的多线程加载数据经常出现每个线程都在给客户端返回数据,用户所看到的数据类似洗牌后数据,数据非序列化排列;每个线程都在读取数据,数据在过程中发生变化,则会造成服务器数据为1~5、10~20,中间由于无同步化的数据加载造成用户展示的数据为1~20。现有技术中的顺序加载数据在面临数据量过大导致死机、内存溢出、蓝屏等死机情况。现有数据中的分段加载数据需要用户点击“下一页”的此类操作才能完成对于后续数据的加载,其操作繁琐。现有技术中以大数据应用中语音识别为例,在机器学习过程中需要大量的语言、发音的数据样本,学习计算机和数据源计算机一般不会是同一台计算机,数据样本需要通过加载的方式供学习计算机学习。学习过程计算机会对数据进行读取、分析、保存数据,而这个过程漫长。由于数据读取会对数据源计算机CPU、内存、硬盘产生性能消耗,时间越久次数越多,计算机本身就会越热,可能会造成性能占用高、蓝屏、死机等诸多电器元器件错误现象。学习计算机由于一般不会由一台计算机完成,会由一个学习计算机集群进行,如果采用传统数据记载,势必会造成学习计算机集群性能过剩,大部分学习计算机无足够数据分析学习,从而造成资源和性能浪费。因此,急需研发出能够快速有效的管理多线程加载过程,避免传统多线程加载数据过慢或者无序、数据无法同步、甚至数据加载错误的现象出现的多线程数据处理系统。
技术实现思路
本专利技术的目的在于提供一种序列化多线程数据处理系统,其可以满足以亿兆为单位的企业级数据多线程加载,且不会出现导致计算机死机,内存溢出、蓝屏等现象。同时,通过序列化多线程技术对数据加载过程进行管控,有效提高数据加载性能和速度。为实现上述目的,本专利技术提供如下技术方案:一种序列化多线程数据处理系统包括:数据加载请求管理模块,用于对待加载数据进行解析和处理后形成数据加载请求信息包,并将该数据加载请求信息包向数据索引管理模块发起发送指令;数据索引管理模块,用于根据多线程序列化模块的解析分析结果,向多线程数据加载模块发起数据加载指令,并管控多线程数据加载过程;多线程序列化模块,用于根据加载数据的服务器的处理数据能力,对待加载数据进行多线程序列化;多线程数据加载模块,用于根据数据索引管理模块和多线程序列化模块的解析对待加载数据进行序列化加载;序列化同步模块。用于对多线程加载后的数据进行同步数据恢复,同步还原数据,完成数据的加载。优选地,所述数据加载请求管理模块的数据加载请求信息包由请求标识编码、数据特征码、数据量范围、数据索引值、数据同步值、数据加载值构成;请求标识编码为用户终端唯一标识,数据特征码为数据类型,数据量范围包括数据关键字、数据关键信息或者数据关键识别码,数据索引值为数据起始点,数据同步值为数据同步节点,数据加载值为数据加载进度。优选地,所述数据类型为文本数据、图像数据或视频数据。优选地,所述数据索引管理模块包括数据请求接收模块、数据请求分析模块、数据索引存储模块、数据索引计算模块、数据索引集;数据请求接收模块接收数据加载请求管理模块发送的数据加载请求信息包,并根据多线程序列化模块和多线程数据加载模块的进度进行实时更新;数据请求分析模块对数据加载请求信息包进行识别,并解析为对应数据库地址、数据库、数据表;数据索引计算模块依据数据特征码、数据量范围、数据索引值、数据同步值、数据索引进行实时计算,建立形成数据索引集;数据索引储存模块根据数据库地址、数据库、数据表,读取数据索引信息,并动态实时更新数据索引信息。优选地,所述多线程序列化模块包括数据索引集分解模块、线程准备模块、数据序列化管理线程、数据多线程序列化模块、线程序列启动模块、多线程监测模块;数据索引集分解模块根据收到数据索引集的体量进行性能需求计算,依据CPU数量、硬盘读取速度、传输速度进行分解多个数据索引子集,并根据配套的多线程需求量将多线程PID与数据索引子集匹配,建立数据帧单元;线程准备模块依据线程需求量进行线程准备,即通知多线程序列化模块线程进行线程编号1,2,3,4,5(线程编号过程中以CPU的PID为特征进行序列化顺序编号)……准备完成后,启动数据序列化管理线程,监控所有序列化模块线程;数据序列化管理线程对于停止、锁死、中断异常情况,依据线程编号进行线程重启。优选地,所述线程准备过程包括:数据多线程序列化模块加载分派读取数据帧单元序列号、读取数据库地址、数据库、数据表、子索引集信息;线程序列启动模块通知多线程数据加载模块执行启动单元,依据数据序列化管理线程指令启动线程,通知多线程监测模块进行线程监测;多线程监测模块依据线程编号、线程状态进行实时监测,并将检测信息反馈给数据序列化管理线程。优选地,所述多线程数据加载模块包括线程响应模块、加载线程编码模块、线程启动准备模块、线程执行模块、线程关闭模块、线程恢复模块;线程响应模块响应来自线程序列启动模块指令,启动指令、关闭指令、恢复指令,并反馈线程状态信息;加载线程编码模块依据数据类型完成对数据加载,并对文字类型数据、图像类型数据、视频类型数据编码化;线程执行模块执行线程开始命令完成CPU线程启动;线程关闭模块用于执行线程关闭命令完成CPU线程关闭;线程恢复模块用于执行线程重启命令完成CPU线程重启。优选地,所述序列化同步模块包括多线程序列化目录、多线程数据侦测模块、多线程同步管理模块、同步加载模块、同步变更模块、同步恢复模块;多线程序列化目录接收来自数据索引集分解模块的数据帧单元标识;多线程数据侦测模块启动同步线程,依据数据帧单元标识对序列线程编码进行数据重组;多线程同步管理模块依据线程编码读取线程执行数据信息;同步加载模块依据数据请求分析模块数据类型进行数据编码,将获取的数据恢复成用户可读取数据;同步变更模块用于检测错位数据,依据序列化模块进行变更修正数据;同步恢复模块将对意外终止线程数据发送恢复请求数据序列化管理线程,数据序列化管理线程执行线本文档来自技高网
...

【技术保护点】
1.一种序列化多线程数据处理系统,其特征在于:其包括:/n数据加载请求管理模块,用于对待加载数据进行解析和处理后形成数据加载请求信息包,并将该数据加载请求信息包向数据索引管理模块发起发送指令;/n数据索引管理模块,用于根据多线程序列化模块的解析分析结果,向多线程数据加载模块发起数据加载指令,并管控多线程数据加载过程;/n多线程序列化模块,用于根据加载数据的服务器的处理数据能力,对待加载数据进行多线程序列化;/n多线程数据加载模块,用于根据数据索引管理模块和多线程序列化模块的解析对待加载数据进行序列化加载;/n序列化同步模块,用于对多线程加载后的数据进行同步数据恢复,同步还原数据,完成数据的加载。/n

【技术特征摘要】
1.一种序列化多线程数据处理系统,其特征在于:其包括:
数据加载请求管理模块,用于对待加载数据进行解析和处理后形成数据加载请求信息包,并将该数据加载请求信息包向数据索引管理模块发起发送指令;
数据索引管理模块,用于根据多线程序列化模块的解析分析结果,向多线程数据加载模块发起数据加载指令,并管控多线程数据加载过程;
多线程序列化模块,用于根据加载数据的服务器的处理数据能力,对待加载数据进行多线程序列化;
多线程数据加载模块,用于根据数据索引管理模块和多线程序列化模块的解析对待加载数据进行序列化加载;
序列化同步模块,用于对多线程加载后的数据进行同步数据恢复,同步还原数据,完成数据的加载。


2.根据权利要求1所述的一种序列化多线程数据处理系统,其特征在于:所述数据加载请求管理模块的数据加载请求信息包由请求标识编码、数据特征码、数据量范围、数据索引值、数据同步值、数据加载值构成;请求标识编码为用户终端唯一标识,数据特征码为数据类型,数据量范围包括数据关键字、数据关键信息或者数据关键识别码,数据索引值为数据起始点,数据同步值为数据同步节点,数据加载值为数据加载进度。


3.根据权利要求2所述的一种序列化多线程数据处理系统,其特征在于:所述数据类型为文本数据、图像数据或视频数据。


4.根据权利要求3所述的一种序列化多线程数据处理系统,其特征在于:所述数据索引管理模块包括数据请求接收模块、数据请求分析模块、数据索引存储模块、数据索引计算模块、数据索引集;数据请求接收模块接收数据加载请求管理模块发送的数据加载请求信息包,并根据多线程序列化模块和多线程数据加载模块的进度进行实时更新;数据请求分析模块对数据加载请求信息包进行识别,并解析为对应数据库地址、数据库、数据表;数据索引计算模块依据数据特征码、数据量范围、数据索引值、数据同步值、数据索引进行实时计算,建立形成数据索引集;数据索引储存模块根据数据库地址、数据库、数据表,读取数据索引信息,并动态实时更新数据索引信息。


5.根据权利要求4所述的一种序列化多线程数据处理系统,其特征在于:所述多线程序列化模块包括数据索引集分解模块、线程准备模块、数据序列化管理线程、数据多线程序列化模块、线程序列启动模块、多线程监测模块;数据索引集分解模块根据收到数据索引集的体量进行性能需求计算,依据CPU数量、硬盘读取速度、传输速度进行分解多个数据索引子集,并根据配套的多线程需求量将多线程PID与数据索引子集匹配,建立数据帧单元;线程准备模块依据线程需求量进行线程准备,即通知多线程序列化模...

【专利技术属性】
技术研发人员:任峰李竹竹
申请(专利权)人:武汉育知联信息科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1