【技术实现步骤摘要】
本专利技术属于人工智能领域,具体涉及一种基于ai训练平台的多数据源的自动化数据收集方法和系统。
技术介绍
1、随着当下网络的迅速发展以及信息化在社会上的不断深入,对于网络的管理要求提高,在技术上的选择应用服务也越来越重要。其中大数据处理技术与传统的数据处理技术不同,也可以说是在传统的数据处理技术基础上的一种革新。大数据处理技术保证了信息传递过程中的效率、信息的准确性、扩大了管理资源还保证了网络在运行过程中的安全性和可靠性,在通信网管中有着很大的应用服务价值。
2、传统的数据采集方式,各种应用服务在运行过程中会产生各种数据,这些数据直接写在本地磁盘。大数据侧需要采集这些数据,可以通过一些专门的数据采集组件(比如apache flume),读取各个服务存储在本地磁盘的数据后,再把读取到的数据写到大数据侧的数据存储单元,以供给大数据业务分析使用。
3、而大数据系统的核心问题之一就是数据采集收集,需要把有价值的数据高效安全的收集到大数据系统中,作为提供大数据系统其他业务能力的基础。在采集数据和应用服务耦合时,若想要更改采
...【技术保护点】
1.一种基于AI训练平台的多数据源的自动化数据收集方法,其特征在于,包括:
2.根据权利要求1所述的一种基于AI训练平台的多数据源的自动化数据收集方法,其特征在于,预设适配器模块包括,针对不同的数据源,设计不同的适配器模块;
3.根据权利要求1所述的一种基于AI训练平台的多数据源的自动化数据收集方法,其特征在于,设置数据抽取策略,包括:
4.根据权利要求1所述的一种基于AI训练平台的多数据源的自动化数据收集方法,其特征在于,去重和过滤,使用唯一标识符或者相同特征值进行判断,只保留第一个出现的记录。
5.根据权利要求1所述
...【技术特征摘要】
1.一种基于ai训练平台的多数据源的自动化数据收集方法,其特征在于,包括:
2.根据权利要求1所述的一种基于ai训练平台的多数据源的自动化数据收集方法,其特征在于,预设适配器模块包括,针对不同的数据源,设计不同的适配器模块;
3.根据权利要求1所述的一种基于ai训练平台的多数据源的自动化数据收集方法,其特征在于,设置数据抽取策略,包括:
4.根据权利要求1所述的一种基于ai训练平台的多数据源的自动化数据收集方法,其特征在于,去重和过滤,使用唯一标识符或者相同特征值进行判断,只保留第一个出现的记录。
5.根据权利要求1所述的一种基于ai训练平台的多数据源的自动化数据收集方法,其特征在于,对缺失值进行处理,选择如缺失删除、均值补充,线性插值等合适的...
【专利技术属性】
技术研发人员:李圣伟,李彬,贾荫鹏,魏子重,李锐,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。