一种神经网络模型的训练集优化方法及系统技术方案

技术编号：19746307 阅读：29 留言：0更新日期：2018-12-12 04:55

本发明专利技术公开了一种神经网络模型的训练集优化方法及系统，该方法包括：将采集的原始数据按照预设比例分为测试集和训练集；对所述测试集进行预处理，得到处理后文件集；对所述处理后文件集中的各文件进行归一化处理；使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率；根据每个文件的分类概率，按照预设待优化条件进行统计，得到对应的待优化文件集；对所述待优化文件集中的每个待优化文件进行增广处理，得到作为优化训练集的增广数据集。本发明专利技术使用与训练集同源的测试集的预测结果进行增广，优化训练集，从而提高神经网络模型的预测准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络模型的训练集优化方法及系统
本专利技术涉及神经网络领域，尤其涉及一种神经网络模型的训练集优化方法及系统。
技术介绍
在神经网络的训练和调试过程中，训练集的优劣可以直接影响到神经网络的表现效果，训练集的质量越高，神经网络所表现出的性能越好。对于训练集的调优现有的方案有：对训练集的特征进行相应的分析，然后进行相应的评估；随后根据得分进行相应的优化。其本质实际上是对训练集特征相似度的比对，会将比较相似的图片进行高的评分，不太相似的图片进行比较低的分，使用到的特征都是传统图像处理中的特征提取技术。但是使用这种传统的特征提取技术，实际上会丢失一些高维的训练特征，丢失一些具有代表性的数据集，最后导致训练集的整体质量并不乐观。
技术实现思路
本专利技术的目的是提供一种神经网络模型的训练集优化方法及系统，在不丢失训练特征的同时，优化训练集。本专利技术提供的技术方案如下：一种神经网络模型的训练集优化方法，包括：将采集的原始数据按照预设比例分为测试集和训练集；对所述测试集进行预处理，得到处理后文件集；对所述处理后文件集中的各文件进行归一化处理；使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率；根据每个文件的分类概率，按照预设待优化条件进行统计，得到对应的待优化文件集；对所述待优化文件集中的每个待优化文件进行增广处理，得到作为优化训练集的增广数据集。在上述技术方案中，根据神经网络模型对测试集的预测结果，对符合预设待优化条件的待优化文件进行增广，加强原来训练集中缺少的特征，有效提高神经网络模型预测的准确率。进一步，所述增广处理包括以下任意一种或...

【技术保护点】
1.一种神经网络模型的训练集优化方法，其特征在于，包括：将采集的原始数据按照预设比例分为测试集和训练集；对所述测试集进行预处理，得到处理后文件集；对所述处理后文件集中的各文件进行归一化处理；使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率；根据每个文件的分类概率，按照预设待优化条件进行统计，得到对应的待优化文件集；对所述待优化文件集中的每个待优化文件进行增广处理，得到作为优化训练集的增广数据集。

【技术特征摘要】
1.一种神经网络模型的训练集优化方法，其特征在于，包括：将采集的原始数据按照预设比例分为测试集和训练集；对所述测试集进行预处理，得到处理后文件集；对所述处理后文件集中的各文件进行归一化处理；使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率；根据每个文件的分类概率，按照预设待优化条件进行统计，得到对应的待优化文件集；对所述待优化文件集中的每个待优化文件进行增广处理，得到作为优化训练集的增广数据集。2.如权利要求1所述的神经网络模型的训练集优化方法，其特征在于，所述增广处理包括以下任意一种或多种：旋转处理、缩放处理、添加噪声处理和裁剪处理。3.如权利要求2所述的神经网络模型的训练集优化方法，其特征在于，所述增广数据集包括：待优化文件集中的每个待优化文件对应的处理数据集。4.如权利要求3所述的神经网络模型的训练集优化方法，其特征在于，所述对待优化文件集中的每个待优化文件进行增广处理中对一个待优化文件进行处理的具体过程为：对所述待优化文件集中的一个待优化文件分别进行所述增广处理中包括的所有处理，每种处理得到一个对应的增广文件，得到的所有增广文件作为所述待优化文件的处理数据集。5.如权利要求1-4任意一项所述的神经网络模型的训练集优化方法，其特征在于，所述对测试集进行预处理，得到处理后文件集具体为：对所述测试集中的所有文件进行文件格式的校验和后缀的校验；将校验成功的所有文件作为所述处理后文件集；所述校验成功是指所述文件的文件格式符合预设文件格式条件、且所述文件的后缀与预设后缀一致。6.如权利要求5所述的神经网络模型的训练集优化方法，其特征在于，所述对测试集中的所有文件进行文件格式的校验和后缀的校验的具体过程为：遍历所述测试集中的所有文件，将所述文件格式不符合预设文件格式条件的文件删除，将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。7.一种神经网络模型的训练集优化系统，其特征在于，包括：数据分类模块，用于将采集的原始数据按照预设比例分为测试集和训练集；预处理模块，...

【专利技术属性】
技术研发人员：罗培元，
申请(专利权)人：四川斐讯信息技术有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人