The invention relates to an integrated machine learning algorithm library and unified programming framework, including model learning component, model updating component and learning strategy component; the model learning component is based on Batch Processing, which uses machine learning algorithm and fixed-size batch data to construct the logic of algorithm model; the model updating component is based on Timely Processing, which uses dynamic data. Flow updates the specific algorithm model; the learning strategy component includes a strategy to determine whether the input data is batch data or stream data, and a logic to schedule the dynamic learning of the model learning component and the model updating component. The invention can overcome the shortcomings of the single processing mode of the traditional machine learning system and facilitate the application of machine learning.
【技术实现步骤摘要】
集成化的机器学习算法库与统一编程框架
本专利技术涉及计算机
,具体涉及一种集成化的机器学习算法库与统一编程框架。
技术介绍
机器学习已经广泛走进我们的生活,在日常生活中的应用越来越频繁。其实,机器学习就在我们身边:它向我们发送通知消息,包括微博热点,关注的人刚发的动态,手机地图上搜到的交通路线,垃圾邮件过滤,甚至是银行信息的安全。近几年来,机器学习已经发生了根本性的变化,如今机器只需要最少的人工干预就可以学习。然而,由于机器学习的处理方法多且过程复杂,实际应用中需要同时设计和维护批处理和流处理两套代码,没有一套统一的编程模型适应各种具体场景,不利于机器学习的大规模应用。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种集成化的机器学习算法库与统一编程框架,能够克服传统机器学习系统的单一处理方式缺点,方便机器学习的应用。为实现上述目的,本专利技术采用如下技术方案:一种集成化的机器学习算法库与统一编程框架,包括模型学习组件、模型更新组件和学习策略组件;所述模型学习组件基于BatchProcessing利用机器学习算法和固定大小的批量数据构建算法模型的逻辑;所述模型更新组件基于TimelyProcessing利用动态的数据流对特定的算法模型进行更新的逻辑;所述学习策略组件内置判断输入数据是批量数据还是流数据的策略,调度模型学习组件、模型更新组件两个组件进行动态学习的逻辑。进一步的,所述模型学习组件包括一套数据转换适配器。进一步的,所述模型学习组件在使用时数据集在Hadoop、Spark或Flink平台上进行数据预处理及算法模型构建,预处理过程中,利用数据转 ...
【技术保护点】
1.一种集成化的机器学习算法库与统一编程框架,其特征在于:包括模型学习组件、模型更新组件和学习策略组件;所述模型学习组件基于Batch Processing利用机器学习算法和固定大小的批量数据构建算法模型的逻辑;所述模型更新组件基于Timely Processing利用动态的数据流对特定的算法模型进行更新的逻辑;所述学习策略组件内置判断输入数据是批量数据还是流数据的策略,调度模型学习组件、模型更新组件两个组件进行动态学习的逻辑。
【技术特征摘要】
1.一种集成化的机器学习算法库与统一编程框架,其特征在于:包括模型学习组件、模型更新组件和学习策略组件;所述模型学习组件基于BatchProcessing利用机器学习算法和固定大小的批量数据构建算法模型的逻辑;所述模型更新组件基于TimelyProcessing利用动态的数据流对特定的算法模型进行更新的逻辑;所述学习策略组件内置判断输入数据是批量数据还是流数据的策略,调度模型学习组件、模型更新组件两个组件进行动态学习的逻辑。2.根据权利要求1所述的集成化的机器学习算法库与统一编程框架,其特征在于:所述模型学习组件包括一套数据转换适配器。3.根据权利要求2所述的集成化的机器学习算法库与统一编程框架,其特征在于:所述模型学习组件在使用时数据集在Hadoop、Spark或Flink平台上进行数据预处理及算法模型构建,预处理过程中,利用数据转换适配器在不同平台间无缝转换并传递数据集,实现跨平台模型构建,再利用SparkStructuredStreaming、Flink流数据处理平台实现流式算法模型更新。4.根据权利要求1所述的集成化的机器学习算法库与统一编程框架,其特征在于:所述模型更新组件通过在SparkStructuredStreaming、Flink流式计算框架上实现,运行时指定执行的计算引擎,组件内部的算法库基于流处理模式提供了分类、回归、聚类机器学习算法模型更新策略。5.根据权利要求1所述的...
【专利技术属性】
技术研发人员:郭昆,郭文忠,陈羽中,郭鸿清,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。