基于制造技术

技术编号:39666962 阅读:17 留言:0更新日期:2023-12-11 18:31
本发明专利技术属于可视化大数据技术领域,公开了一种基于

【技术实现步骤摘要】
基于Ray和Spark的可视化大数据机器学习系统及方法


[0001]本专利技术属于可视化大数据
,尤其涉及一种基于
Ray

Spark
的可视化大数据机器学习系统及方法


技术介绍

[0002]尽管现有技术为大规模数据处理和机器学习提供了一些工具和框架,但它们通常是独立存在,互相之间的集成是一个复杂的过程

不仅需要懂得机器学习与深度学习知识,还需要了解数据预处理

特征工程

模型选择

训练和调参等方面的知识,这些都需要用户有一定的专业知识,对于非专业人士而言存在门槛较高,并且需要花费大量的时间来管理不同的组件与技术

还有现有的第三方模型,不能快速接入海量数据做训练与推理预测

所以,亟需一种系统和方法能快速获取高质量大规模数据,降低使用这些模型的门槛,使非专业人士也能够通过简单的表单下拉框选择模型,就可以利用大数据技术结合机器学习与深度学习模型来高效处理与分析海量数据,以便从中提取有价值的信息和洞察,并支持各种应用领域中的决策和创新

例如商业智能

预测分析
、ORC、
图像识别等

[0003]通过上述分析,现有技术存在的问题及缺陷为:
[0004]1.
数据获取与质量问题:
[0005]缺陷:获取高质量与多样化的大规模数据是一个挑战

对于某些领域,特别是敏感信息或专有数据,数据获取可能受限,导致数据规模和质量不足

[0006]解决方案:需要开发更多的数据采集技术,包括数据爬取

数据共享平台等,以解决数据获取问题

同时,还需要加强数据质量控制措施,确保数据的准确性和完整性

[0007]2.
技术整合和复杂性问题:
[0008]缺陷:现有的大数据处理和机器学习工具通常是独立存在的,互相之间的集成是一个复杂的过程

这对非专业人士而言存在较高的门槛,需要掌握多个技术组件和知识领域

[0009]解决方案:需要开发一种系统和方法,能够将大数据处理

机器学习和深度学习等技术进行有效整合,提供一站式的可视化解决方案,使非专业人士也能轻松地进行数据处理和分析

[0010]3.
人才短缺问题:
[0011]缺陷:大数据与人工智能技术的融合需要具备相关专业知识和技能的人才,而这样的人才目前相对紧缺

[0012]解决方案:为了解决人才短缺问题,需要加强相关领域的教育培训,提供更多的人才储备,并鼓励跨学科的研究和合作,以培养更多懂得大数据和人工智能的专业人士

[0013]4.
数据不落盘处理与隐私保护:
[0014]缺陷:目前的大部分数据处理和分析通常需要将数据落盘,可能涉及隐私和安全问题

数据落盘带来的存储成本和安全风险,以及隐私泄露的风险,是现有技术需要解决的问题

[0015]解决方案:需要开发更多的数据不落盘处理技术,采用加密和安全计算等方法,保护数据的隐私和安全,同时减少存储成本和风险

[0016]5.
一站式可视化解决方案:
[0017]缺陷:目前缺乏一站式的可视化解决方案,从大数据预处理到机器学习和深度学习的整个过程都需要独立配置和操作

[0018]解决方案:亟需开发一种一站式的可视化解决方案,使用户通过简单的操作就能快速获取高质量的大规模数据,选择合适的模型并进行分析处理,无需过多关注底层技术细节

[0019]综合上述分析,现有技术在大规模数据处理和机器学习领域仍存在多个方面的缺陷和挑战

为了解决这些问题,需要加强技术研发和人才培养,推动数据采集和处理的标准化与规范化,同时开发更智能化

简化化的系统和方法,降低门槛,使非专业人士也能够轻松地利用大数据和人工智能技术,从中获得有价值的信息和洞察,支持各种应用领域的决策和创新


技术实现思路

[0020]针对现有技术存在的问题,本专利技术提供了一种基于
Ray

Spark
的可视化大数据机器学习系统及方法

[0021]本专利技术是这样实现的,一种基于
Ray

Spark
的可视化大数据机器学习系统,该系统由前端
UI、
展示层

业务层

数据层

存储层以及运行环境组成;
[0022]所述前端
UI
与展示层,用于提供用户友好的界面管理数据源与模型,以及根据设置的
sql
脚本模版与机器学习模型模版引擎渲染生成
spark sql

python
脚本;
[0023]所述业务层,用于对任务的管理与监控,以及任务中有包含函数与变量的映射与管理,还使用到机器学习模型的管理;
[0024]所述数据层,用于处理离线批量大数据与实时的在线数据,使用
Arrow
高效地传输列式数据
,Arrow
内存格式支持零拷贝读取,实现快速数据访问,无需序列化开销;
[0025]所述存储层,用于保存各种结构化

非结构化的数据;
[0026]所述运行环境,基于
Spark
引擎
、Ray
集群与
YARN
资源管理调度平台来完成大数据与机器学习模型的高效交互与分析处理能力

[0027]本专利技术的另一目的在于提供一种基于
Ray

Spark
的可视化大数据机器学习方法,该方法包括:
[0028]步骤一,基于
Web
可视化页面的各种数据源接入;
[0029]步骤二,基于
Web
可视化页面的机器学习模型和深度学习框架
(TensorFlow

PyTorch

Keras

)
的管理和接入;
[0030]步骤三,脚本生成与校验模块;
[0031]步骤四,
Spark

Ray
分布式处理与计算模块及通信;
[0032]步骤五,结果展示和保存

[0033]进一步,步骤一中用户可通过界面选择各种配置好的数据源,包括
JDBC

HDFS、kafka、HIVE
等源,也可自定义创建其它数据源

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
Ray

Spark
的可视化大数据机器学习系统,其特征在于,由前端
UI、
展示层

业务层

数据层

存储层以及运行环境组成;所述前端
UI
与展示层,用于提供用户友好的界面管理数据源与模型,以及根据设置的
sql
脚本模版与机器学习模型模版引擎渲染生成
spark sql

python
脚本;所述业务层,用于对任务的管理与监控,以及任务中有包含函数与变量的映射与管理,还使用到机器学习模型的管理;所述数据层,用于处理离线批量大数据与实时的在线数据,使用
Arrow
高效地传输列式数据
,Arrow
内存格式支持零拷贝读取,实现快速数据访问,无需序列化开销;所述存储层,用于保存各种结构化

非结构化的数据;所述运行环境,基于
Spark
引擎
、Ray
集群与
YARN
资源管理调度平台来完成大数据与机器学习模型的高效交互与分析处理能力
。2.
一种基于
Ray

Spark
的可视化大数据机器学习方法,其特征在于,该方法包括:步骤一,基于
Web
可视化页面的各种数据源接入;步骤二,基于
Web
可视化页面的机器学习模型和深度学习框架的管理和接入;步骤三,脚本生成与校验模块;步骤四,
Spark

Ray
分布式处理与计算模块及通信;步骤五,结果展示和保存
。3.
如权利要求2所述的基于
Ray

Spark
的可视化大数据机器学习方法,其特征在于,步骤一中用户可通过界面选择各种配置好的数据源,包括
JDBC

HDFS、kafka、HIVE
等源,也可自定义创建其它数据源
。4.
如权利要求2所述的基于
Ray

Spark
的可视化大数据机器学习方法,其特征在于,步骤一中所述数据源包含一些基本的
IP、
端口

数据源实例

用户

密码等信息,用于接入对应的数据源
。5.
如权利要求2所述的基于
Ray

Spark
的可视化大数据机器学习方法,其特征在于,步骤二中
Web
页面提供一个用于管理和使用机器学习模型和深度学习框架的平台,通过
Web
界面,用户选择希望使用的预训练模型或框架,以及配置参数,然后对其数据运行这些模型,同时,该系统支持用户上传自定义模型,为不同任务提供灵活性
。6.
如权利要求2所述的基于

【专利技术属性】
技术研发人员:吴志雄徐春梅刘云星
申请(专利权)人:福建南威软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1