一种数据处理方法、系统、设备和介质技术方案

技术编号:23314874 阅读:36 留言:0更新日期:2020-02-11 17:43
本发明专利技术提供了一种数据处理方法、系统、设备和介质,所述方法包括:承载平台获取源数据,并对所述源数据根据预设规则进行分类以及网络切片后,分别存储至多个数据库;承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机;所述容器或所述虚拟机从所述数据库中获取待处理数据,通过TensorFlow对所述待处理数据进行处理。本发明专利技术对源数据规整、分类、切片,实现众包开发,数据处理并行计算,以提高总体效能,实现实时交付结果。

A data processing method, system, equipment and medium

【技术实现步骤摘要】
一种数据处理方法、系统、设备和介质
本专利技术涉及一种数据处理方法、系统、设备和介质。
技术介绍
随着互联网发展日益成熟,数据量日益庞大,对于大量数据在短时间内实时完成处理的需求量不断增高。目前,可以采用TensorFlow来对复杂数据进行处理。TensorFlow是一个采用数据流图(dataflowgraphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如台式计算机中的一个或多个CPU(或GPU),服务器,移动设备等等。并且TensorFlow在图形分类、音频处理、推荐系统和自然语言处理等场景下有着丰富的应用,可以实现机器学习框架。但如何在TensorFlow数据处理的基础上,对源数据数据量维度过多、复杂度高的情况下进行数据处理,还支持对不同类型的数据处理,以实现后期多种实习基地建设,各态势分析课题的进行。
技术实现思路
(一)要解决的技术问题如何在TensorFlow数据处理的基础上,对源数据数据量维度过多、复杂度高的情况下进行数据处理,还支持对不同类型的数据处理,以实现后期多种实习基地建设,各态势分析课题的进行。(二)技术方案本专利技术一方面提供了一种数据处理方法,所述方法包括:承载平台获取源数据,并对所述源数据根据预设规则进行分类以及网络切片后,分别存储至多个数据库;承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机;所述容器或所述虚拟机从所述数据库中获取待处理数据,通过TensorFlow对所述待处理数据进行处理。可选地,所述根据预设规则进行分类包括:根据所述源数据的不同数据类型进行分类。可选地,所述承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机,包括:对所述TensorFlow数据处理容器和所述TensorFlow数据处理虚拟机设置访问权限。可选地,所述TensorFlow数据处理容器通过Kubernetes进行创建。可选地,所述通过TensorFlow对所述待处理数据进行处理,包括:通过TensorFlow中各节点对所述待处理数据按预设顺序进行处理;获取能执行各节点的处理任务的所有设备,计算每个节点所对应的多个设备的数据处理时间以及数据传递时间,为所述各节点选择并分配相应的设备,使总的数据处理时间以及总的数据传递时间为最小值。可选地,所述通过TensorFlow对所述待处理数据进行处理,包括:将所述待处理数据中属于同一TensorFlow执行逻辑的数据进行拆分,通过TensorFlow中各节点对拆分后的所述待处理数据进行并行处理。可选地,所述通过TensorFlow对所述待处理数据进行处理,还包括:将所述待处理数据中属于同一TensorFlow执行逻辑的数据进行拆分后,计算TensorFlow中执行同一TensorFlow执行逻辑的各节点处理数据的数据量,并求和得到总的数据量;当所述总的数据量小于预设值时,则取消所述拆分,通过TensorFlow中各节点对所述待处理数据按预设顺序进行处理。本专利技术另一方面提供了一种数据处理系统,所述系统包括:存储模块,用于承载平台获取源数据,并对所述源数据根据预设规则进行分类以及网络切片后,分别存储至多个数据库;创建模块,用于承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机;处理模块,用于所述容器或所述虚拟机从所述数据库中获取待处理数据,通过TensorFlow对所述待处理数据进行处理。本专利技术又一方面提供了一种电子设备,所述设备包括:处理器;存储器,其存储有计算机可执行程序,该程序包含如上文所述的方法。本专利技术再一方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序包含如上文所述的方法。(三)有益效果对源数据规整、分类、切片,实现众包开发,数据处理并行计算,以提高总体效能,实现实时交付结果;在TensorFlow数据处理的基础上,对源数据数据量维度过多、复杂度高的情况下进行数据处理,还支持对不同类型的数据处理,以实现后期多种实习基地建设,各态势分析课题的进行。附图说明图1是本专利技术实施例提供的数据处理方法流程图;图2是本专利技术实施例提供的数据处理过程的示意图;图3是本专利技术实施例提供的数据处理系统框图;图4是本专利技术实施例提供的电子设备框图。具体实施方式以下,将参照附图来描述本专利技术的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本专利技术实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。本专利技术的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本专利技术的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本专利技术的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。本专利技术实施例提供了一种数据处理方法,参见图1和图2,所述方法包括:步骤101,承载平台获取源数据,并对所述源数据根据预设规则进行分类以及网络切片后,分别存储至多个数据库。其中,所述根据预设规则进行分类包括:根据所述源数据的不同数据类型进行分类。例如用以书写处理程序的各种程序设计语言不同,根据这些不同的的编程语言进行分类,Python、C/C++、Java、Go、R等。或者根据数据的应用不同进行的分类,将其分为分别提供给手机、自动驾驶、远程机器人的不同数据。网络切片也就是将这些分类之后的数据进行区分,例如将分别提供给手机、自动驾驶、远程机器人的不同数据进行区分,然后分别存储至多个数据库,多个与这些分类相对应的数据库。另外,上文所述的承载平台可以为现有技术中的任何一种云平台。源数据根据业务需求,可针对互联口流量,先做分类,再进行网络切片,产生类型不同、统计方式不同的大量源数据,写入数据库或ftp文件服务器。仅对用户提供处理后的数据,不提供原数据。以下是对源数据相同ip和端口作唯一,加和、去重、排序的具体算法关键步骤(算法中使用动态文件名和表名):hive-e″useipcredit;SELECTip,port,sum(flow)astota本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n承载平台获取源数据,并对所述源数据根据预设规则进行分类以及网络切片后,分别存储至多个数据库;/n承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机;/n所述容器或所述虚拟机从所述数据库中获取待处理数据,通过TensorFlow对所述待处理数据进行处理。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
承载平台获取源数据,并对所述源数据根据预设规则进行分类以及网络切片后,分别存储至多个数据库;
承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机;
所述容器或所述虚拟机从所述数据库中获取待处理数据,通过TensorFlow对所述待处理数据进行处理。


2.根据权利要求1所述的方法,其特征在于,所述根据预设规则进行分类包括:
根据所述源数据的不同数据类型进行分类。


3.根据权利要求1所述的方法,其特征在于,所述承载平台根据用户指令创建TensorFlow数据处理容器或TensorFlow数据处理虚拟机,包括:
对所述TensorFlow数据处理容器和所述TensorFlow数据处理虚拟机设置访问权限。


4.根据权利要求1所述的方法,其特征在于,所述TensorFlow数据处理容器通过Kubernetes进行创建。


5.根据权利要求1所述的方法,其特征在于,所述通过TensorFlow对所述待处理数据进行处理,包括:
通过TensorFlow中各节点对所述待处理数据按预设顺序进行处理;
获取能执行各节点的处理任务的所有设备,计算每个节点所对应的多个设备的数据处理时间以及数据传递时间,为所述各节点选择并分配相应的设备,使总的数据处理时间以及总的数据传递时间为最小值。


6.根据权利要求1所述的方法,其特征在于,所述通...

【专利技术属性】
技术研发人员:黄友俊李星吴建平李腾刘知刚
申请(专利权)人:下一代互联网重大应用技术北京工程研究中心有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1