【技术实现步骤摘要】
基于Ray和Spark的可视化大数据机器学习系统及方法
[0001]本专利技术属于可视化大数据
,尤其涉及一种基于
Ray
和
Spark
的可视化大数据机器学习系统及方法
。
技术介绍
[0002]尽管现有技术为大规模数据处理和机器学习提供了一些工具和框架,但它们通常是独立存在,互相之间的集成是一个复杂的过程
。
不仅需要懂得机器学习与深度学习知识,还需要了解数据预处理
、
特征工程
、
模型选择
、
训练和调参等方面的知识,这些都需要用户有一定的专业知识,对于非专业人士而言存在门槛较高,并且需要花费大量的时间来管理不同的组件与技术
。
还有现有的第三方模型,不能快速接入海量数据做训练与推理预测
。
所以,亟需一种系统和方法能快速获取高质量大规模数据,降低使用这些模型的门槛,使非专业人士也能够通过简单的表单下拉框选择模型,就可以利用大数据技术结合机器学习与深度学习模型来高效处理与分析海量数据,以便从中提取有价值的信息和洞察,并支持各种应用领域中的决策和创新
。
例如商业智能
、
预测分析
、ORC、
图像识别等
。
[0003]通过上述分析,现有技术存在的问题及缺陷为:
[0004]1.
数据获取与质量问题:
[0005]缺陷:获取高质量与多样化的大规模数据是一个挑战
。
...
【技术保护点】
【技术特征摘要】
1.
一种基于
Ray
和
Spark
的可视化大数据机器学习系统,其特征在于,由前端
UI、
展示层
、
业务层
、
数据层
、
存储层以及运行环境组成;所述前端
UI
与展示层,用于提供用户友好的界面管理数据源与模型,以及根据设置的
sql
脚本模版与机器学习模型模版引擎渲染生成
spark sql
与
python
脚本;所述业务层,用于对任务的管理与监控,以及任务中有包含函数与变量的映射与管理,还使用到机器学习模型的管理;所述数据层,用于处理离线批量大数据与实时的在线数据,使用
Arrow
高效地传输列式数据
,Arrow
内存格式支持零拷贝读取,实现快速数据访问,无需序列化开销;所述存储层,用于保存各种结构化
、
非结构化的数据;所述运行环境,基于
Spark
引擎
、Ray
集群与
YARN
资源管理调度平台来完成大数据与机器学习模型的高效交互与分析处理能力
。2.
一种基于
Ray
和
Spark
的可视化大数据机器学习方法,其特征在于,该方法包括:步骤一,基于
Web
可视化页面的各种数据源接入;步骤二,基于
Web
可视化页面的机器学习模型和深度学习框架的管理和接入;步骤三,脚本生成与校验模块;步骤四,
Spark
和
Ray
分布式处理与计算模块及通信;步骤五,结果展示和保存
。3.
如权利要求2所述的基于
Ray
和
Spark
的可视化大数据机器学习方法,其特征在于,步骤一中用户可通过界面选择各种配置好的数据源,包括
JDBC
,
HDFS、kafka、HIVE
等源,也可自定义创建其它数据源
。4.
如权利要求2所述的基于
Ray
和
Spark
的可视化大数据机器学习方法,其特征在于,步骤一中所述数据源包含一些基本的
IP、
端口
、
数据源实例
、
用户
、
密码等信息,用于接入对应的数据源
。5.
如权利要求2所述的基于
Ray
和
Spark
的可视化大数据机器学习方法,其特征在于,步骤二中
Web
页面提供一个用于管理和使用机器学习模型和深度学习框架的平台,通过
Web
界面,用户选择希望使用的预训练模型或框架,以及配置参数,然后对其数据运行这些模型,同时,该系统支持用户上传自定义模型,为不同任务提供灵活性
。6.
如权利要求2所述的基于
【专利技术属性】
技术研发人员:吴志雄,徐春梅,刘云星,
申请(专利权)人:福建南威软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。