【技术实现步骤摘要】
训练数据集的生成方法、神经网络的训练方法及装置
[0001]本公开涉及计算机
,具体而言,涉及一种训练数据集的生成方法、神经网络的训练方法及装置。
技术介绍
[0002]随着深度学习的不断发展,各种机器学习模型在各行各业取得了越来越大的成功,而这要归功于大规模训练数据集的支撑。不同应用场景所需的训练数据集的分配比例并不相同,例如,有些应用场景下希望训练所得的模型对不同类别数据的识别精度相一致,这时往往需要所收集的训练数据集在不同数据类别上达到均衡。
[0003]然而,实际上所收集的训练数据集通常会存在数据类别不均衡的问题,例如,常见的类别在数据集上出现的频率过高,稀有类别占比过低。如果直接基于所收集的训练数据集进行相关模型的训练,将会导致所训练的模型性能较差。
技术实现思路
[0004]本公开实施例至少提供一种训练数据集的生成方法、神经网络的训练方法及装置。
[0005]第一方面,本公开实施例提供了一种训练数据集的生成方法,包括:
[0006]获取在目标任务场景下,对各个训练数据 ...
【技术保护点】
【技术特征摘要】
1.一种训练数据集的生成方法,其特征在于,包括:获取在目标任务场景下,对各个训练数据类别的需求比例信息;按照所述各个训练数据类别对应的需求比例信息,从训练数据库中提取所述各个训练数据类别下的训练数据;基于提取的所述训练数据,生成训练数据集。2.根据权利要求1所述的方法,其特征在于,所述方法还包括接收用户端的数据搜索指令,所述获取在目标任务场景下,对各个训练数据类别的需求比例信息,包括:响应于接收到数据搜索指令,从所述数据搜索指令中提取所述需求比例信息。3.根据权利要求1所述的方法,其特征在于,所述方法还包括接收用户端的数据搜索指令,所述按照所述各个训练数据类别对应的需求比例信息,从训练数据库中提取所述各个训练数据类别下的训练数据,包括:响应于接收到数据搜索指令,基于所述数据搜索指令中携带的搜索关键词从所述训练数据库中查找标注类别信息与所述搜索关键词匹配的候选训练数据;基于所述各个训练数据类别对应的需求比例信息,从所述候选训练数据中确定各个训练数据类别下的训练数据。4.根据权利要求2或3所述的方法,其特征在于,所述生成方法还包括:从所述数据搜索指令中提取待生成训练数据集的数据总数量;所述按照所述各个训练数据类别对应的需求比例信息,从训练数据库中提取所述各个训练数据类别下的训练数据,包括:基于所述各个训练数据类别对应的需求比例信息以及所述数据总数量,确定每个所述训练数据类别所需的数据数量;从所述训练数据库中提取每个所述训练数据类别所需的数据数量的训练数据。5.根据权利要求1所述的方法,其特征在于,所述获取在目标任务场景下,对各个训练数据类别的需求比例信息,包括:获取初始训练数据集;将所述初始训练数据集包括的各个训练数据输入到测试的神经网络中,得到所述神经网络输出的针对每个所述训练数据的预测结果;所述预测结果用于指示对应训练数据的数据类别信息;基于所述神经网络输出的针对每个所述训练数据的预测结果,确定所述神经网络针对各个训练数据类别的预测准确率;基于所述神经网络针对各个训练数据类别的预测准确率,确定所述需求比例信息。6.根据权利要求5所述的方法,其特征在于,所述基于所述神经网络针对各个训练数据类别的预测准确率,确定所述需求比例信息,包括:获取针对初始训练数据集的各个训练数据类别的预设需求权重;基于所述预设需求权重,以及所述神经网络针对各个训练数据类别的预测准确率,对所述初始训练数据集中各个训练数据类别对应的初始比例信息进行调整,得到调整后的比例信息;基于所述调整后的比例信息,确定所述需求比例信息。7.根据权利要求1
‑
6任一所述的方法,其特征在于,所述按照所述各个训练数据类别对
应的需求比例信息,从训练数据库中提取所述各个训练数据类别下的训练...
【专利技术属性】
技术研发人员:陈钰玲,程光亮,
申请(专利权)人:上海商汤临港智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。