【技术实现步骤摘要】
基于大数据分析的采集噪声点挖掘方法及大数据采集系统
[0001]本申请涉及大数据采集
,具体而言,涉及一种基于大数据分析的采集噪声点挖掘方法及大数据采集系统。
技术介绍
[0002]随着人工智能技术的发展,基于人工智能模型进行训练样本数据的学习,以应用于相关的线上业务需求中。基于此,需要进行大量的训练样本数据的收集,这些训练样本数据的收集需要进行广泛的大数据,并且训练样本数据的可靠性也关乎到训练学习的可靠性。相关技术中,由于采集噪声点的存在,可能导致一些训练冗余反馈数据节点的产生。目前的噪声点挖掘方法中,主要是基于简单的预设字段规则进行筛选,难以有效且合理挖掘采集噪声点进行大数据采集流程优化,影响大数据采集流程优化的可靠性,由此影响最终的样本学习和训练效果。
技术实现思路
[0003]为了至少克服现有技术中的上述不足,本申请的目的在于提供一种基于大数据分析的采集噪声点挖掘方法及大数据采集系统。
[0004]第一方面,本申请提供一种基于大数据分析的采集噪声点挖掘方法,应用于大数据采集系统,所述方法 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据分析的采集噪声点挖掘方法,其特征在于,应用于大数据采集系统,所述方法包括:结合AI训练服务器下发的AI训练任务所请求的大数据采集流程的训练源数据采集轨迹从训练冗余反馈流程中确定多个训练冗余反馈数据节点,而后解析出所述多个训练冗余反馈数据节点中的各训练冗余反馈数据节点的冗余采集字段;挖掘所述训练源数据采集轨迹所覆盖的样本采集路由空间,而后逐一挖掘所述样本采集路由空间中的各样本采集路由节点的样本采集路由字段;结合所述多个训练冗余反馈数据节点的冗余采集字段和所述样本采集路由空间的样本采集路由字段,确定与所述训练源数据采集轨迹相关的采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点,并结合所述采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点对所述AI训练服务器进行大数据采集流程优化。2.根据权利要求1所述的基于大数据分析的采集噪声点挖掘方法,其特征在于,所述结合所述多个训练冗余反馈数据节点的冗余采集字段和所述样本采集路由空间的样本采集路由字段,确定与所述训练源数据采集轨迹相关的采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点,并结合所述采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点对所述AI训练服务器进行大数据采集流程优化的步骤,包括:将所述多个训练冗余反馈数据节点的冗余采集字段和所述样本采集路由空间的样本采集路由字段进行字段连通,生成第一字段连通矩阵;确定每个冗余采集字段所相关的冗余采集触发点在所述训练源数据采集轨迹中的第一路由路径,并确定每个样本采集路由字段所相关的样本采集路由节点在所述样本采集路由空间中的第二路由路径;结合各冗余采集字段所相关的第一路由路径和各样本采集路由字段所相关的第二路由路径,对所述第一字段连通矩阵中的各第一字段连通矩阵单元进行二次映射,生成第二字段连通矩阵;结合所述第二字段连通矩阵,确定与所述训练源数据采集轨迹相关的采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点,并结合所述采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点对所述AI训练服务器进行大数据采集流程优化。3.根据权利要求2所述的基于大数据分析的采集噪声点挖掘方法,其特征在于,所述结合所述第二字段连通矩阵,确定与所述训练源数据采集轨迹相关的采集噪声点,包括:将所述第二字段连通矩阵加载到采集噪声点分析AI单元,输出所述采集噪声点的触发路由节点;确定所述采集噪声点的触发路由节点的样本采集路由字段;结合所述采集噪声点的触发路由节点的样本采集路由字段及其在所述采集噪声点中的路由路径,基于字段汇聚优化所述第二字段连通矩阵;将优化完成的第二字段连通矩阵加载到采集噪声点分析AI单元,并遍历结合确定的各样本采集路由节点的样本采集路由字段优化所述第二字段连通矩阵,直到获得所述采集噪声点的AI输出信息。4.根据权利要求3所述的基于大数据分析的采集噪声点挖掘方法,其特征在于,所述采集噪声点分析AI单元包括自编码分支和噪声点分析分支,其特征在于,将所述第二字段连
通矩阵加载到采集噪声点分析AI单元,输出所述采集噪声点的触发路由节点,包括:将所述第二字段连通矩阵加载到自编码分支,输出对应于采集噪声点的触发路由节点的自编码分布;依据噪声点分析分支,将对应于采集噪声点的触发路由节点的自编码分布转换为第一噪声决策热力图,在所述第一噪声决策热力图中包含对应于样本采集路由节点序列中的各样本采集路由节点的触发热力值;结合所述第一噪声决策热力图,输出所述采集噪声点的触发路由节点。5.根据权利要求2所述的基于大数据分析的采集噪声点挖掘方法,其特征在于,结合所述采集噪声点的触发路由节点的样本采集路由字段及其在所述采集噪声点中的路由路径,基于字段汇聚优化所述第二字段连通矩阵,包括:将所述多个训练冗余反馈数据节点的冗余采集字段、所述样本采集路由空间的样本采集路由字段和所述采集噪声点的触发路由节点的样本采集路由字段进行字段连通,优化所述第一字段连通矩阵;结合各冗余采集字段所相关的第一路由路径、所述样本采集路由空间的各样本采集路由字段所相关的第二路由路径以及所述采集噪声点的触发路由节点的第二路由路径,对优化完成的所述第一字段连通矩阵中的各第一字段连通矩阵单元进行二次映射,优化所述第二字段连通矩阵。6.根据权利要求4所述的基于大数据分析的采集噪声点挖掘方法,其特征在于,结合所述第一噪声决策热力图,输出所述采集噪声点的触发路由节点,包括:在所述第一噪声决策热力图中,对热力值进行热力值排布;确定热力值排布信息中排序前R的热力值,并确定所述排序前R的样本采集路由节点作为所述采集噪声点的触发路由节点的关联路由节点集,并且其中,将优化的所述第二字段连通矩阵加载到所述自编码分支,重复执行上述操作,直到得到所述采集噪声点的AI输出信息为止,包括:结合触发路由节点的关联路由节点集,依次生成其它样本采集路由节点的关联路由节点集;结合所述采集噪声点中的各样本采集路由节点的关联路由节点集,确定指定数量的采集噪声点。7.根据权利要求6所述的基于大数据分析的采集噪声点挖掘方法,所述方法还包括:分别针对所述指定数量的采集噪声点中的各采集噪声点,实施下述步骤:在输出所述采集噪声点的AI输出信息之后,在由所述自编码分支生成的多个自编码分布中任意确定一个自编码分布作为第一自编码分布和一个自编码分布作为第二自编码分布;以及确定所述第一自编码分布与所述第二自编码分布之间的匹配度;如果其中的最大匹配度大于设定匹配度阈值,确定与该匹配度相关的采集噪声点作为与训练源数据采集轨迹相关的采集噪声点,如果其中的最大匹配度不大于设定匹配度阈值,则确定不存在与所述训练源数据采集轨迹相关的采集噪声点的信息;其中,针对每个采集噪声点,在输出所述采集噪声点的AI输出信息之后,在由所述自编码分支生成的多个自编码分布中任意确定一个自编码分布作为第三自编码分布、一个自编
码分布作为第一自编码分布和一个自编码分布作为第二自编码分布;以及确定所述第三自编码分布与所述第一自编码分布之间的匹配度,并确定所述第三自编码分布与所述第二自编码分布之间的匹配度;在分析到所述第三自编码分布...
【专利技术属性】
技术研发人员:徐信福,苏健明,
申请(专利权)人:辽源市讯展网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。