用于人工智能训练的大数据特征清洗决策方法及系统技术方案

技术编号:34192471 阅读:58 留言:0更新日期:2022-07-17 15:46
本发明专利技术实施例提供一种用于人工智能训练的大数据特征清洗决策方法及系统,基于采集噪声节点关联于大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列,进而基于第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围为采集噪声节点筛选多个第二大数据特征清洗策略序列,基于第二大数据特征清洗策略序列进行大数据特征清洗决策,不仅考虑到了大数据采集运行程序的当前人工智能训练任务的大数据特征清洗策略特点,也考虑到了大数据特征清洗策略的噪声清洗特征范围,由此进行大数据特征清洗决策时可以提高与大数据采集运行程序的业务兼容性,由此提高大数据特征清洗效果。由此提高大数据特征清洗效果。由此提高大数据特征清洗效果。

【技术实现步骤摘要】
用于人工智能训练的大数据特征清洗决策方法及系统


[0001]本公开涉及大数据
,具体而言,涉及一种用于人工智能训练的大数据特征清洗决策方法及系统。

技术介绍

[0002]在人工智能训练任务中,需要采集大量的样本数据作为特征学习的支撑。因此,人工智能训练任务通常需要联动大数据采集任务,然而大数据采集任务的执行过程中,所产生的大数据通常会存在诸多噪声,从而会影响后续人工智能训练任务的可靠性,因此需要进行采集噪声节点的分析并进行大数据特征清洗后,才能最终应用于后续的人工智能训练任务。然而相关技术中,本申请专利技术人研究过程中发现,当前大数据特征清洗决策时没有考虑与大数据采集运行程序的业务兼容性,进而难以保证最佳的大数据特征清洗效果。

技术实现思路

[0003]为了至少克服现有技术中的上述不足,本公开的目的在于提供一种用于人工智能训练的大数据特征清洗决策方法及系统。
[0004]第一方面,本公开提供一种用于人工智能训练的大数据特征清洗决策方法,应用于大数据服务系统,所述大数据服务系统与所述多个大数据采集服务器通信连接,所述方法包括:获取依据存在错误数据采集活动的大数据采集路由数据生成的所述大数据采集服务器的大数据采集运行程序的采集噪声节点;获取所述采集噪声节点关联于所述大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列,并基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围对所述第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列;基于所述第二大数据特征清洗策略序列对所述大数据采集服务器进行大数据特征清洗决策。
[0005]在第一方面的一种可能的实施方式中,所述获取依据存在错误数据采集活动的大数据采集路由数据生成的所述大数据采集服务器的大数据采集运行程序的采集噪声节点,具体包括:获取存在错误数据采集活动的大数据采集路由数据,对所述大数据采集路由数据进行错误采集路由特征提取,确定目标错误采集路由特征,所述目标错误采集路由特征包括所述大数据采集路由数据对应的目标错误采集轨迹特征,所述大数据采集路由数据为所述大数据采集服务器的目标AI训练阶段的大数据采集记录数据;获取所述大数据采集路由数据中的目标采集路由节点,确定所述目标采集路由节点对应的第一协同采集路由节点;基于所述第一协同采集路由节点的协同采集覆盖特征以及对应的协同采集指标
信息,输出所述目标采集路由节点对应的目标采集快照特征,其中,所述协同采集指标信息基于所述目标错误采集轨迹特征与协同采集覆盖特征之间的采集活动关联度得到,所述协同采集覆盖特征为表示采集路由节点的协同采集路径的特征;将所述目标错误采集路由特征与所述目标采集路由节点对应的目标采集快照特征进行关联性聚合,确定目标聚合特征,基于所述目标聚合特征确定所述大数据采集路由数据对应的错误采集决策信息;获取所述错误采集决策信息中一个或多个错误采集决策数据区中每个错误采集决策数据区的噪声字段追溯数据,并获取所述每个错误采集决策数据区的第一噪声追溯类型,所述每个错误采集决策数据区的噪声字段追溯数据为该错误采集决策数据区对应于所述错误采集决策信息的噪声字段追溯数据,所述错误采集决策数据区的第一噪声追溯类型表征所述错误采集决策数据区的噪声字段属性信息,所述错误采集决策数据区的噪声字段属性信息用于表征所述错误采集决策数据区的潜在噪声字段;基于所述每个错误采集决策数据区的第一噪声追溯类型从所述一个或多个错误采集决策数据区中获取对应的噪声采集数据单元,并从所述一个或多个错误采集决策数据区的噪声字段追溯数据获取所述噪声采集数据单元的噪声字段追溯数据;基于所述噪声采集数据单元的噪声字段追溯数据对所述错误采集决策信息中所述噪声采集数据单元进行识别,以得到所述噪声采集数据单元的采集噪声节点。
[0006]譬如,在第一方面的一种可能的实施方式中,所述基于所述第一协同采集路由节点的协同采集覆盖特征以及对应的协同采集指标信息,输出所述目标采集路由节点对应的目标采集快照特征,具体包括:获取所述第一协同采集路由节点与所述目标采集路由节点组成的采集路由节点图;对于所述采集路由节点图中的采集路由节点,获取表示所述采集路由节点与协同采集路由节点的协同采集路径的协同采集覆盖特征;基于所述协同采集覆盖特征与所述目标错误采集轨迹特征得到采集活动关联度,基于所述采集活动关联度确定所述协同采集路由节点对应的协同采集指标信息;基于所述协同采集路由节点对应的协同采集指标信息以及所述协同采集路由节点的协同采集覆盖特征,确定所述采集路由节点对应的目标采集快照特征;从所述采集路由节点图的每个采集路由节点对应的目标采集快照特征中,提取所述目标采集路由节点对应的目标采集快照特征。
[0007]譬如,在第一方面的一种可能的实施方式中,所述采集路由节点对应的目标采集快照特征是采集快照挖掘网络输出的,所述采集快照挖掘网络包括至少一个目标挖掘分支;所述基于所述协同采集路由节点对应的协同采集指标信息以及所述协同采集路由节点的协同采集覆盖特征,确定所述采集路由节点对应的目标采集快照特征,具体包括:将所述协同采集路由节点的协同采集覆盖特征以及所述协同采集覆盖特征加载至所述目标挖掘分支中进行特征挖掘,确定所述采集路由节点对应的第一采集快照特征;基于所述采集路由节点对应的第一采集快照特征以及对应的所述协同采集路由节点对应的协同采集指标信息,输出所述采集路由节点对应的目标采集快照特征。
[0008]譬如,在第一方面的一种可能的实施方式中,所述采集路由节点对应的目标采集快照特征是采集快照挖掘网络输出的,所述采集快照挖掘网络包括至少一个目标挖掘分支;所述基于所述协同采集覆盖特征与所述目标错误采集轨迹特征得到采集活动关联度,基于所述采集活动关联度确定所述协同采集路由节点对应的协同采集指标信息,具体包括:基于所述目标挖掘分支中的第二挖掘分支的挖掘函数对所述协同采集覆盖特征进行处理,确定第一挖掘变量;基于所述目标挖掘分支中的第三挖掘分支的挖掘函数对所述目标错误采集轨迹特征进行处理,确定第二挖掘变量;基于所述第一挖掘变量与所述第二挖掘变量计算得到采集活动关联度;基于所述采集活动关联度确定所述协同采集路由节点对应的协同采集指标信息,所述采集活动关联度与所述协同采集路由节点对应的协同采集指标信息成正相关关系。
[0009]譬如,在第一方面的一种可能的实施方式中,所述大数据采集路由数据包括多个采集路径约束数据,所述目标错误采集路由特征包括采集路径约束操作特征序列,所述采集路径约束操作特征序列包括每个采集路径约束数据对应的采集路径约束操作特征;所述将所述目标错误采集路由特征与所述目标采集路由节点对应的目标采集快照特征进行关联性聚合,确定目标聚合特征,具体包括:基于所述目标采集路由节点对应的目标采集快照特征对目标采集路径约束数据对应的采集路径约束操作特征进行采集快照引用处理,确定所述目标采集路径约束数据对应的采集快照引用特征;基于所述目标采集路径约束数据对应的采集快照引用特征,调整所述采集路径约束操作特征序列中,所述目标采集路径约本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于人工智能训练的大数据特征清洗决策方法,其特征在于,应用于大数据服务系统,所述方法包括:获取依据存在错误数据采集活动的大数据采集路由数据生成的所述大数据采集服务器的大数据采集运行程序的采集噪声节点;从预先配置的大数据特征清洗策略库中提取所述采集噪声节点关联于所述大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列,并基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围对所述第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列;基于所述第二大数据特征清洗策略序列对所述大数据采集服务器进行大数据特征清洗决策。2.根据权利要求1所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围对所述第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列,具体包括:依据噪声清洗特征范围的先验调整日志确定关键特征清洗策略;对所述关键特征清洗策略进行特征清洗点分配,确定至少一个模糊特征清洗点;基于所述模糊特征清洗点对所述第一大数据特征清洗策略序列进行选择,确定所述第二大数据特征清洗策略序列。3.根据权利要求2所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于所述模糊特征清洗点对所述第一大数据特征清洗策略序列进行选择,确定所述第二大数据特征清洗策略序列,具体包括:基于所述模糊特征清洗点对所述第一大数据特征清洗策略序列进行选择,确定多个第一模糊大数据特征清洗策略序列;获取特征清洗域相同的存在联动关系的多个第一模糊大数据特征清洗策略序列,确定每个第二大数据特征清洗策略序列,所述每个第二大数据特征清洗策略序列的特征清洗种类基于特征清洗点图谱进行变化;获取与所述第二大数据特征清洗策略序列的特征清洗域呈扩大态势的第一模糊大数据特征清洗策略序列作为第三大数据特征清洗策略序列;所述第三大数据特征清洗策略序列被配置于协助决策目标特征清洗点。4.根据权利要求3所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于所述第二大数据特征清洗策略序列对所述大数据采集服务器进行大数据特征清洗决策,具体包括:基于同一第二大数据特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个所述第二大数据特征清洗策略序列对应的目标特征清洗点;所述特征清洗点分配是指基于同一第二大数据特征清洗策略序列内每个大数据特征清洗策略的特征清洗域特征拟合出目标特征清洗点的特征清洗点图谱,使得同一第二大数据特征清洗策略序列内每个大数据特征清洗策略到对应的目标特征清洗点的代价值之和最小,所述特征清洗域特征包括大数据特征清洗策略的特征清洗时空域字段和特征清洗种类;基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略到对应的目标特
征清洗点的代价值确定关键特征清洗策略,基于所述关键特征清洗策略确定所述采集噪声节点对应的清洗决策信息;基于所述采集噪声节点对应的清洗决策信息对所述大数据采集服务器进行大数据特征清洗决策。5.根据权利要求4所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于同一第二大数据特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个所述第二大数据特征清洗策略序列对应的目标特征清洗点,具体包括:沿着所述第二大数据特征清洗策略序列的特征清洗点图谱的方向形成模糊特征清洗点对所述每个第二大数据特征清洗策略序列进行选择,确定每个第二大数据特征清洗策略序列对应的中间特征清洗策略序列;基于相关联第二大数据特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定所述每个第二大数据特征清洗策略序列的清洗测试性能特征;基于同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个中间特征清洗策略序列的兼容度;基于兼容度对同一第二大数据特征清洗策略序列内兼容的中间特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个第二大数据特征清洗策略序列对应的目标特征清洗点。6.根据权利要求5所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个中间特征清洗策略序列的兼容度,包括:将同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列作为关联成员特征清洗策略序列,归入同一个关联成员特征清洗策略序列簇,确定每个关键特征清洗策略序列内每个清洗测试性能特征对应的关联成员特征清洗策略序列簇;基于每个关联成员特征清洗策略序列簇中每个中间特征清洗策略序列对应的清洗策略测试数据得到每...

【专利技术属性】
技术研发人员:张耀荣
申请(专利权)人:永修县彧馨科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1