【技术实现步骤摘要】
一种模型训练、数据筛选方法、装置及计算机设备
[0001]本专利技术实施例涉及数据处理
,尤其涉及一种模型训练、数据筛选方法、装置及计算机设备。
技术介绍
[0002]通常情况下,设备中的应用系统正式上线后难免会引入设备测试数据。而设备正式投入使用后,后续又会产生设备实操数据。例如,车辆上线后,用户在试驾的过程中,车辆会产生试驾数据。或者,车辆经销商对车辆进行测试时,也会产生相应的测试数据。用户购买车辆后,在车辆的使用过程中则会产生设备实操数据。由此可见,后期对设备产生的数据进行分析时,往往会对同时包括测试数据和实操数据的混合数据进行分析。显然,在对数据进行分析时,测试数据并不应该作为数据分析对象。
[0003]现有技术中,为了区域设备生成数据中的测试数据类型,往往需要人为对测试数据标注相应的ID号或其他特殊的标记,以便后期进行数据分析时根据测试数据的标识过滤测试数据。
[0004]专利技术人在实现本专利技术的过程中,发现现有技术存在如下缺陷:人为对测试数据进行标识,不仅会从整体上降低数据筛选的效率,而 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取样本数据;所述样本数据包括测试样本数据和/或实操样本数据;根据所述样本数据对预设机器学习模型进行训练,得到模型训练结果;根据多个评价指标对所述模型训练结果进行多维度评估;根据多维度评估结果确定所述预设机器学习模型的目标模型参数;根据所述目标模型参数以及所述预设机器学习模型构建目标机器学习模型;其中,所述目标机器学习模型用于从混合数据中筛选设备测试数据;所述混合数据包括所述设备测试数据和设备实操数据。2.根据权利要求1所述的方法,其特征在于,所述获取样本数据,包括:获取原始样本数据;对所述原始样本数据根据数据筛选条件进行数据预处理,得到所述样本数据。3.根据权利要求1所述的方法,其特征在于,所述根据所述样本数据对预设机器学习模型进行训练,得到模型训练结果,包括:确定所述预设机器学习模型的当前模型参数;根据所述当前模型参数确定当前机器学习模型;将所述样本数据输入至所述当前机器学习模型中,得到所述当前机器学习模型的当前模型训练结果;返回执行确定所述预设机器学习模型的当前模型参数的操作,直至获取设定数量的模型训练结果。4.根据权利要求1所述的方法,其特征在于,所述预设机器学习模型包括密度聚类模型;所述评价指标包括邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值;所述根据多个评价指标对所述模型训练结果进行多维度评估,包括:以所述邻域内数据点阈值为X轴,以所述测试评定比值为Y轴,以设备总量的比值为Z轴,构建三维评估坐标系;根据各所述模型训练结果分别对应的邻域内数据点阈值确定各所述模型训练结果分别对应的目标簇数据点数量与数据点总量的比值,根据各所述目标簇数据点数量与数据点总量的比值与所述测试评定比值之间的关系,确定各所述模型训练结果分别对应的测试设备与设备总量的比值,将各所述模型训练结果分别对应的邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值映射至所述三维评估坐标系中;或,根据各所述模型训练结果分别对应的邻域内数据点阈值确定各所述模型训练结果分别对应的目标簇数据点数量与数据点总量的比值,根据各所述目标簇数据点数量与数据点总量的比值与所述测试评定比值之间的关系,确定各所述模型训练结果分别对应的测试设备与设备总量的比值,并根据各所述模型训练结果分别对应的邻域内数据点阈值、测试评定比值以及测试设备与设备总量的比值构建评估数据表。5.根据权利要求4所述的方法,其特征在于,所述根据多维度评估结果确定所述预设机器学习模型的目标模型参数,包括:根据所述多维度评估结果确定所述目标模型参数匹配的参数活动区间;
获取所述参数活动区间内的各模型参数对应的机器学习模型的待筛选模型训练结果;获取各所述待筛选模型训练结果匹配的核实结果;所述核实结果为所述待筛选模型训练结果中包括的所述测试样本数据,与所述待筛选模型训练结果中样本数据总量的比值;根据各所述待筛选模型训练结果匹配的核实结果,确定所述目标模型参数。6.一种数据筛选方法,其特征在于,包括:获取待筛选混合数据;所述待筛选混合数据包括设备测试数据和设备实操数据;将所述待筛选混合数据输入至目标机器学习模型中,得到所述目标机器学习模型输出的筛选数据;所述目标机器学习模型通过权利要求1-5任一所述的模型训练方法得到;将所述筛选数据作为设备测试数据。7.根据权利要求6所述的方法,其特征在于,所述将所述筛选数据作为设备测试数据,包括:获取所述筛选数据的筛选关联数据;所述筛选关联数据包括数据总量、兴趣点POI数据以及数据生成时间;如果确定所述筛选关联数据满足测试数据筛选规则,则将所述筛选数据作为所述设备测试数据。8.一种模型训练装置,其特征在于,包括:样本数据获取模块,用于获取样本数据;所述样本数据包括测试样本数据和/或实操...
【专利技术属性】
技术研发人员:唐杰,
申请(专利权)人:大众问问北京信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。