数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:20074904 阅读:36 留言:0更新日期:2019-01-15 00:35
本公开的数据处理方法,属于计算机技术领域,解决现有技术中采用人工方法进行数据处理成本高、效率低的问题。本公开实施例的数据处理方法包括:基于训练数据训练目标模型;通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理。本公开提供的数据处理方法通过基于测试数据确定目标模型的预测准确率,并结合目标模型的预测准确率和训练数据的预测结果置信度对训练数据进行处理,有助于提升数据处理效率和准确性,降低数据处理成本。

Data Processing Method, Device, Electronic Equipment and Storage Media

The data processing method of the present disclosure belongs to the field of computer technology, and solves the problems of high cost and low efficiency of data processing by manual method in the prior art. The data processing method of the present disclosure embodiment includes: training target model based on training data; predicting test data by the target model to determine the prediction accuracy of the target model; predicting the training data by the target model to determine the prediction label of each training data and the confidence of the prediction result; and predicting the training data according to the training data. The training data are processed by labeling, predictive labeling, confidence of predictive results and the predictive accuracy. The data processing method provided in the present disclosure determines the prediction accuracy of the target model based on the test data, and processes the training data with the prediction accuracy of the target model and the confidence of the prediction results of the training data, which helps to improve the efficiency and accuracy of data processing and reduce the cost of data processing.

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质
本公开涉及计算机
,特别是涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
基于训练得到的模型进行分类识别是目前对象分类的常用手段,其中,对象包括但不限于图像、用户行为以及商户等。以酒旅平台的酒店图像质量分类为例,通常是首先基于人工标定了图向质量等级标签的酒店图像训练酒店图像质量分类模型,然后,再基于训练好的酒店图像质量分类模型对目标酒店图像进行分类识别,以确定所述目标酒店图像的质量等级。现有技术中基于训练数据训练分类模型,并基于训练得到的分类模型对对象进行分类识别的应用中,训练数据质量的好坏直接影响训练得到的分类模型的分类准确率,因此,需要提供一种改善训练数据的方案。
技术实现思路
本公开提供一种数据处理方法,有助于提升数据处理效率和准确性,并降低数据处理成本。第一方面,本公开实施例提供了一种数据处理方法包括:基于训练数据训练目标模型,其中,所述训练数据包括预置标签;通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;根据所述训练本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:基于训练数据训练目标模型,其中,所述训练数据包括预置标签;通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:基于训练数据训练目标模型,其中,所述训练数据包括预置标签;通过所述目标模型对测试数据进行预测,确定所述目标模型的预测准确率;通过所述目标模型对所述训练数据进行预测,确定每条所述训练数据的预测标签和预测结果置信度;根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理。2.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理的步骤,包括:将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类,确定若干组异常训练数据,其中,所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据;对于每组所述异常训练数据,分别确定所述预测结果置信度满足预设第一数据处理条件的所述异常训练数据为噪声数据,其中,所述预设第一数据处理条件根据所述预测准确率确定。3.根据权利要求2所述的方法,其特征在于,所述根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理的步骤之后,还包括:基于所述训练数据中除所述噪声数据以外的所述训练数据,优化所述目标模型。4.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理的步骤,包括:将预测结果表现异常的所述训练数据按照所述预置标签和所述预测标签的两两组合进行分类,确定若干组异常训练数据,其中,所述预测结果表现异常的所述训练数据包括:所述预置标签和所述预测标签不同的所述训练数据;对于每组所述异常训练数据,分别确定所述预测结果置信度满足预设第二数据处理条件的所述异常训练数据为易混淆训练数据,其中,所述预设第二数据处理条件根据所述预测准确率确定。5.根据权利要求4所述的方法,其特征在于,所述根据所述训练数据的预置标签、预测标签和预测结果置信度,以及所述预测准确率,对所述训练数据进行处理的步骤之后,还包括:基于所述易混淆训练数据,优化所述目标模型。6.根据权利要求5所述的方法,其特征在于,所述基于所述易混淆训练数据,优化所述目标模型的步骤,包括:根据所述预测结果置信度,分别确定每组所述异常训练数据中所述易混淆训练数据匹配的预测难易程度;按照所述预测难易程度由易到难的顺序,基于与所述预测难易程度匹配的所述易混淆训练数据,迭代优化所述目标模型。7.根据权利要求5所述的方法,其特征在于,所述基于所述易混淆训练数据,优化所述目标模型的步骤,包括:确定所述易混淆训练数据的相似训练数据,其中,所述相似训练数据的预置标签与所述易混淆数据的预测标签相同;基于所述相似训练数据和所述易混淆数据构建相似训练数据对;基于所述相似训练数据对优化所述目标模型。8.一种数据处理装置,其特征在于,包括:目标模型训练模块,用于基于训练...

【专利技术属性】
技术研发人员:康丽萍
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1