【技术实现步骤摘要】
用于人工智能训练的大数据特征清洗决策方法及系统
[0001]本公开涉及大数据
,具体而言,涉及一种用于人工智能训练的大数据特征清洗决策方法及系统。
技术介绍
[0002]在人工智能训练任务中,需要采集大量的样本数据作为特征学习的支撑。因此,人工智能训练任务通常需要联动大数据采集任务,然而大数据采集任务的执行过程中,所产生的大数据通常会存在诸多噪声,从而会影响后续人工智能训练任务的可靠性,因此需要进行采集噪声节点的分析并进行大数据特征清洗后,才能最终应用于后续的人工智能训练任务。然而相关技术中,本申请专利技术人研究过程中发现,当前大数据特征清洗决策时没有考虑与大数据采集运行程序的业务兼容性,进而难以保证最佳的大数据特征清洗效果。
技术实现思路
[0003]为了至少克服现有技术中的上述不足,本公开的目的在于提供一种用于人工智能训练的大数据特征清洗决策方法及系统。
[0004]第一方面,本公开提供一种用于人工智能训练的大数据特征清洗决策方法,应用于大数据服务系统,所述大数据服务系统与所述多个大数据采集服务器通信连接,所述方法包括:获取依据存在错误数据采集活动的大数据采集路由数据生成的所述大数据采集服务器的大数据采集运行程序的采集噪声节点;获取所述采集噪声节点关联于所述大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列,并基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围对所述第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列;基于所述 ...
【技术保护点】
【技术特征摘要】
1.一种用于人工智能训练的大数据特征清洗决策方法,其特征在于,应用于大数据服务系统,所述方法包括:获取依据存在错误数据采集活动的大数据采集路由数据生成的所述大数据采集服务器的大数据采集运行程序的采集噪声节点;从预先配置的大数据特征清洗策略库中提取所述采集噪声节点关联于所述大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列,并基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围对所述第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列;基于所述第二大数据特征清洗策略序列对所述大数据采集服务器进行大数据特征清洗决策。2.根据权利要求1所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围对所述第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列,具体包括:依据噪声清洗特征范围的先验调整日志确定关键特征清洗策略;对所述关键特征清洗策略进行特征清洗点分配,确定至少一个模糊特征清洗点;基于所述模糊特征清洗点对所述第一大数据特征清洗策略序列进行选择,确定所述第二大数据特征清洗策略序列。3.根据权利要求2所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于所述模糊特征清洗点对所述第一大数据特征清洗策略序列进行选择,确定所述第二大数据特征清洗策略序列,具体包括:基于所述模糊特征清洗点对所述第一大数据特征清洗策略序列进行选择,确定多个第一模糊大数据特征清洗策略序列;获取特征清洗域相同的存在联动关系的多个第一模糊大数据特征清洗策略序列,确定每个第二大数据特征清洗策略序列,所述每个第二大数据特征清洗策略序列的特征清洗种类基于特征清洗点图谱进行变化;获取与所述第二大数据特征清洗策略序列的特征清洗域呈扩大态势的第一模糊大数据特征清洗策略序列作为第三大数据特征清洗策略序列;所述第三大数据特征清洗策略序列被配置于协助决策目标特征清洗点。4.根据权利要求3所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于所述第二大数据特征清洗策略序列对所述大数据采集服务器进行大数据特征清洗决策,具体包括:基于同一第二大数据特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个所述第二大数据特征清洗策略序列对应的目标特征清洗点;所述特征清洗点分配是指基于同一第二大数据特征清洗策略序列内每个大数据特征清洗策略的特征清洗域特征拟合出目标特征清洗点的特征清洗点图谱,使得同一第二大数据特征清洗策略序列内每个大数据特征清洗策略到对应的目标特征清洗点的代价值之和最小,所述特征清洗域特征包括大数据特征清洗策略的特征清洗时空域字段和特征清洗种类;基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略到对应的目标特
征清洗点的代价值确定关键特征清洗策略,基于所述关键特征清洗策略确定所述采集噪声节点对应的清洗决策信息;基于所述采集噪声节点对应的清洗决策信息对所述大数据采集服务器进行大数据特征清洗决策。5.根据权利要求4所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于同一第二大数据特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个所述第二大数据特征清洗策略序列对应的目标特征清洗点,具体包括:沿着所述第二大数据特征清洗策略序列的特征清洗点图谱的方向形成模糊特征清洗点对所述每个第二大数据特征清洗策略序列进行选择,确定每个第二大数据特征清洗策略序列对应的中间特征清洗策略序列;基于相关联第二大数据特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定所述每个第二大数据特征清洗策略序列的清洗测试性能特征;基于同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个中间特征清洗策略序列的兼容度;基于兼容度对同一第二大数据特征清洗策略序列内兼容的中间特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个第二大数据特征清洗策略序列对应的目标特征清洗点。6.根据权利要求5所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个中间特征清洗策略序列的兼容度,包括:将同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列作为关联成员特征清洗策略序列,归入同一个关联成员特征清洗策略序列簇,确定每个关键特征清洗策略序列内每个清洗测试性能特征对应的关联成员特征清洗策略序列簇;基于每个关联成员特征清洗策略序列簇中每个中间特征清洗策略序列对应的清洗策略测试数据得到每...
【专利技术属性】
技术研发人员:张耀荣,
申请(专利权)人:永修县彧馨科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。