一种基于机器学习模型的异构数据解析方法、设备及介质技术

技术编号:29835565 阅读:21 留言:0更新日期:2021-08-27 14:25
本申请公开了一种基于机器学习模型的异构数据解析方法、设备及介质,用以解决现有的机器学习模型无法直接应用于ETL中,因此无法统一多源异构系统中的数据的技术问题。方法包括:将机器学习模型部署至服务器;通过预测模型标记语言,将机器学习模型解析为标准格式,并将解析后的机器学习模型按照数据流的方式输出;基于解析后的机器学习模型,对待处理异构数据分别进行解析;输出待处理异构数据的解析结果。本申请通过上述方法将机器学习模型解析为标准格式,从而将异构系统中的异构数据统一,避免了机器学习模型需要通过人为编写代码,才能将机器学习模型与异构数据整合的问题,降低了人力成本。

【技术实现步骤摘要】
一种基于机器学习模型的异构数据解析方法、设备及介质
本申请涉及企业信息化
,尤其涉及一种基于机器学习模型的异构数据解析方法、设备及介质。
技术介绍
随着新型互联网技术和大数据技术的广泛应用,企业的信息化发展越来越重视数据资产管理。企业在进行信息化建设时,首要任务就是建立自己的数据管理系统,而数据管理系统的建设,往往涉及各业务系统数据的汇聚。在日常生产经营过程中,企业往往包括多源异构业务系统,例如:人力资源系统(HR)、财务管理系统(FM)、企业资源管理系统(ERP)、产品生命周期管理系统(PLM)、产品数据管理系统(PDM)、供应链管理系统(SCM)、客户关系管理系统(CRM)、制造执行系统(MES)等。但是,由于管理的数据对象不同,各业务系统的类型、存储格式、数据通讯协议差异较大。例如,这些系统分别存储了外网爬虫数据、内部传感器数据、各系统数据等。为了使这些数据发挥价值,传统的数据抽取在整合多源异构业务系统的过程中,只能对数据进行增减筛选过滤等操作,而机器学习方法只能通过数据科学家编写代码的形式将数据模型和数据进行整合,两端无法更好的融合。并且,由于缺少成熟的工具,在将不同的业务数据进行有效的整合时,需要大量的人力手动逐一排查、分析,造成海量人力成本的产生。
技术实现思路
本申请实施例提供了一种基于机器学习模型的异构数据解析方法及设备,用以解决现有的机器学习模型无法直接应用于ETL中,因此无法统一多源异构系统中的数据的技术问题。本申请实施例采用下述技术方案:一方面,本申请实施例提供了一种基于机器学习模型的异构数据解析方法,包括:将机器学习模型部署至服务器;通过预测模型标记语言,将所述机器学习模型解析为标准格式,并将解析后的机器学习模型按照数据流的方式输出;基于所述解析后的机器学习模型,对待处理异构数据分别进行解析;输出所述待处理异构数据的解析结果。在本申请的一种实现方式中,将机器学习模型部署至服务器,具体包括:根据数据解析目的,确定待处理异构数据对应的机器学习模型;将所述待处理异构数据对应的机器学习模型部署至服务器。在本申请的一种实现方式中,所述数据解析目的为数据清洗;基于所述解析后的机器学习模型,对待处理异构数据分别进行解析,具体包括:基于所述解析后的机器学习模型,对待处理异构数据分别进行数据清洗,以去除所述待处理异构数据中的冗余数据。在本申请的一种实现方式中,基于所述解析后的机器学习模型,对待处理异构数据分别进行解析之前,还包括:确定不同业务分别对应的多个异构系统;从所述多个异构系统的数据源中,分别获取对应的待处理数据,构成待处理异构数据。在本申请的一种实现方式中,通过预测模型标记语言,将所述机器学习模型解析为标准格式,并将解析后的机器学习模型按照数据流的方式输出,具体包括:基于JAVA的预测模型标记语言,将所述机器学习模型中的参数、字段、算法解析为JSON格式,并将所述JSON格式的机器学习模型按照数据流的方式输出。在本申请的一种实现方式中,基于所述解析后的机器学习模型,对待处理异构数据分别进行解析,具体包括:设置数据解析组件;基于所述数据解析组件,将所述JSON格式的机器学习模型以异步的方式预置到模型评估器中;通过所述模型评估器,对待处理异构数据分别进行解析。在本申请的一种实现方式中,基于所述解析后的机器学习模型,对待处理异构数据分别进行解析,具体包括:基于所述解析后的机器学习模型中的映射关系,对待处理异构数据分别进行相应的处理;将处理后的不同格式的所述待处理异构数据,统一为逗号分隔值格式。在本申请的一种实现方式中,输出所述待处理异构数据的解析结果之后,还包括:根据所述待处理异构数据的解析结果,删除对应异构系统的数据源中的冗余数据。另一方面,本申请实施例还提供了一种基于机器学习模型的异构数据解析设备,设备包括:处理器;及存储器,其上存储有可执行代码,当可执行代码被执行时,使得处理器执行如上述的一种基于机器学习模型的异构数据解析方法。再一方面,本申请实施例还提供了一种基于机器学习模型的异构数据解析的非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:如上述任一项的一种基于机器学习模型的异构数据解析方法。本申请实施例提供了一种基于机器学习模型的异构数据解析方法、设备及介质,至少包括以下有益效果:根据数据解析的目的,确定出待处理异构数据对应的机器学习模型,并将确定出的机器学习模型部署到服务器上,从而提高待处理异构数据的解析效率。基于JAVA的预测模型标记语言,将机器学习模型中的参数、字段和算法解析成JSON格式,以异步的方式预置到模型评估器中,并以数据流的方式输出,以使解析后的机器学习模型对各种结构的数据都能进行解析处理,避免了现有的机器学习模型需要通过人为编写代码,才能将机器学习模型与异构数据整合的问题,从而降低了人力成本。同时,将处理好的异构数据统一为逗号分隔值格式,使统一后的异构数据通用性更强。此外,本申请还可以根据待处理异构数据的解析结果,将异构系统的数据源中的冗余数据删除,从而节省了冗余数据对应异构系统的存储空间。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的一种基于机器学习模型的异构数据解析方法流程图;图2为本申请实施例提供的一种机器学习模型输入图;图3为本申请实施例提供的另一种基于机器学习模型的异构数据解析方法流程图;图4为本申请实施例提供的一种具体的基于机器学习模型的异构数据解析方法流程图;图5为本申请实施例提供的一种基于机器学习模型的异构数据解析设备内部结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例提供了一种基于机器学习模型的异构数据解析方法、设备及介质,根据数据解析目的,确定出待处理异构数据对应的机器学习模型后,基于JAVA的预测模型标记语言,将确定出的机器学习模型中的参数、字段、算法解析为标准格式,以数据流的方式输出,并且基于解析后的机器学习模型,对待处理异构数据进行清洗,以去除待处理异构数据中的冗余数据,同时,还将处理好的异构数据统一为逗号分隔值格式,用以解决现有的机器学习模型无法直接应用于数据仓库技术(ExtractTransformLoad,ETL)中,因此无法统一多源异构系统中的数据的技术问题。下面通过附图对本申请实施例提出的技术方案进行详细的说明。图1为本申请实施例提供的一种基于机器学习模型的异构数据解析方法流程图。如图1所示,本申请实施例提供本文档来自技高网...

【技术保护点】
1.一种基于机器学习模型的异构数据解析方法,其特征在于,所述方法包括:/n将机器学习模型部署至服务器;/n通过预测模型标记语言,将所述机器学习模型解析为标准格式,并将解析后的机器学习模型按照数据流的方式输出;/n基于所述解析后的机器学习模型,对待处理异构数据分别进行解析;/n输出所述待处理异构数据的解析结果。/n

【技术特征摘要】
1.一种基于机器学习模型的异构数据解析方法,其特征在于,所述方法包括:
将机器学习模型部署至服务器;
通过预测模型标记语言,将所述机器学习模型解析为标准格式,并将解析后的机器学习模型按照数据流的方式输出;
基于所述解析后的机器学习模型,对待处理异构数据分别进行解析;
输出所述待处理异构数据的解析结果。


2.根据权利要求1所述的一种基于机器学习模型的异构数据解析方法,其特征在于,将机器学习模型部署至服务器,具体包括:
根据数据解析目的,确定待处理异构数据对应的机器学习模型;
将所述待处理异构数据对应的机器学习模型部署至服务器。


3.根据权利要求2所述的一种基于机器学习模型的异构数据解析方法,其特征在于,所述数据解析目的为数据清洗;
基于所述解析后的机器学习模型,对待处理异构数据分别进行解析,具体包括:
基于所述解析后的机器学习模型,对待处理异构数据分别进行数据清洗,以去除所述待处理异构数据中的冗余数据。


4.根据权利要求1所述的一种基于机器学习模型的异构数据解析方法,其特征在于,基于所述解析后的机器学习模型,对待处理异构数据分别进行解析之前,所述方法还包括:
确定不同业务分别对应的多个异构系统;
从所述多个异构系统的数据源中,分别获取对应的待处理数据,构成待处理异构数据。


5.根据权利要求1所述的一种基于机器学习模型的异构数据解析方法,其特征在于,通过预测模型标记语言,将所述机器学习模型解析为标准格式,并将解析后的机器学习模型按照数据流的方式输出,具体包括:
基于JAVA的预测模型标记语言,将所述机器学习模型中的参数...

【专利技术属性】
技术研发人员:李则江
申请(专利权)人:浪潮通用软件有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1