一种基于AI训练平台的多数据源的自动化数据收集方法和系统技术方案

技术编号:42324190 阅读:19 留言:0更新日期:2024-08-14 16:03
本发明专利技术提出一种基于AI训练平台的多数据源的自动化数据收集方法及系统,属于人工智能领域,包括:数据源适配,预设适配器模块,用于将不同源的数据映射到一个统一的数据模型;数据自动化抽取,设置数据抽取策略,根据数据源类型选择对应的数据抽取策略;数据清洗和预处理,根据预先设定的清洗规则对数据进行清洗;数据转换和整合,将不同数据源抽取的数据进行格式转换,对不同数据源的字段进行映射,将不同数据源的数据进行合并,形成数据集;数据集存储,将数据集存储到存储介质中;使得引擎能够高效地从多种数据源中采集数据,并为用户提供一个集成、全面的数据管理解决方案。这一技术创新在AI领域数据集构建模块具有广泛的应用前景。

【技术实现步骤摘要】

本专利技术属于人工智能领域,具体涉及一种基于ai训练平台的多数据源的自动化数据收集方法和系统。


技术介绍

1、随着当下网络的迅速发展以及信息化在社会上的不断深入,对于网络的管理要求提高,在技术上的选择应用服务也越来越重要。其中大数据处理技术与传统的数据处理技术不同,也可以说是在传统的数据处理技术基础上的一种革新。大数据处理技术保证了信息传递过程中的效率、信息的准确性、扩大了管理资源还保证了网络在运行过程中的安全性和可靠性,在通信网管中有着很大的应用服务价值。

2、传统的数据采集方式,各种应用服务在运行过程中会产生各种数据,这些数据直接写在本地磁盘。大数据侧需要采集这些数据,可以通过一些专门的数据采集组件(比如apache flume),读取各个服务存储在本地磁盘的数据后,再把读取到的数据写到大数据侧的数据存储单元,以供给大数据业务分析使用。

3、而大数据系统的核心问题之一就是数据采集收集,需要把有价值的数据高效安全的收集到大数据系统中,作为提供大数据系统其他业务能力的基础。在采集数据和应用服务耦合时,若想要更改采集数据的组装格式,需本文档来自技高网...

【技术保护点】

1.一种基于AI训练平台的多数据源的自动化数据收集方法,其特征在于,包括:

2.根据权利要求1所述的一种基于AI训练平台的多数据源的自动化数据收集方法,其特征在于,预设适配器模块包括,针对不同的数据源,设计不同的适配器模块;

3.根据权利要求1所述的一种基于AI训练平台的多数据源的自动化数据收集方法,其特征在于,设置数据抽取策略,包括:

4.根据权利要求1所述的一种基于AI训练平台的多数据源的自动化数据收集方法,其特征在于,去重和过滤,使用唯一标识符或者相同特征值进行判断,只保留第一个出现的记录。

5.根据权利要求1所述的一种基于AI训练平...

【技术特征摘要】

1.一种基于ai训练平台的多数据源的自动化数据收集方法,其特征在于,包括:

2.根据权利要求1所述的一种基于ai训练平台的多数据源的自动化数据收集方法,其特征在于,预设适配器模块包括,针对不同的数据源,设计不同的适配器模块;

3.根据权利要求1所述的一种基于ai训练平台的多数据源的自动化数据收集方法,其特征在于,设置数据抽取策略,包括:

4.根据权利要求1所述的一种基于ai训练平台的多数据源的自动化数据收集方法,其特征在于,去重和过滤,使用唯一标识符或者相同特征值进行判断,只保留第一个出现的记录。

5.根据权利要求1所述的一种基于ai训练平台的多数据源的自动化数据收集方法,其特征在于,对缺失值进行处理,选择如缺失删除、均值补充,线性插值等合适的...

【专利技术属性】
技术研发人员:李圣伟李彬贾荫鹏魏子重李锐
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1