一种神经网络模型的训练集优化方法及系统技术方案

技术编号:19746307 阅读:29 留言:0更新日期:2018-12-12 04:55
本发明专利技术公开了一种神经网络模型的训练集优化方法及系统,该方法包括:将采集的原始数据按照预设比例分为测试集和训练集;对所述测试集进行预处理,得到处理后文件集;对所述处理后文件集中的各文件进行归一化处理;使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;根据每个文件的分类概率,按照预设待优化条件进行统计,得到对应的待优化文件集;对所述待优化文件集中的每个待优化文件进行增广处理,得到作为优化训练集的增广数据集。本发明专利技术使用与训练集同源的测试集的预测结果进行增广,优化训练集,从而提高神经网络模型的预测准确率。

【技术实现步骤摘要】
一种神经网络模型的训练集优化方法及系统
本专利技术涉及神经网络领域,尤其涉及一种神经网络模型的训练集优化方法及系统。
技术介绍
在神经网络的训练和调试过程中,训练集的优劣可以直接影响到神经网络的表现效果,训练集的质量越高,神经网络所表现出的性能越好。对于训练集的调优现有的方案有:对训练集的特征进行相应的分析,然后进行相应的评估;随后根据得分进行相应的优化。其本质实际上是对训练集特征相似度的比对,会将比较相似的图片进行高的评分,不太相似的图片进行比较低的分,使用到的特征都是传统图像处理中的特征提取技术。但是使用这种传统的特征提取技术,实际上会丢失一些高维的训练特征,丢失一些具有代表性的数据集,最后导致训练集的整体质量并不乐观。
技术实现思路
本专利技术的目的是提供一种神经网络模型的训练集优化方法及系统,在不丢失训练特征的同时,优化训练集。本专利技术提供的技术方案如下:一种神经网络模型的训练集优化方法,包括:将采集的原始数据按照预设比例分为测试集和训练集;对所述测试集进行预处理,得到处理后文件集;对所述处理后文件集中的各文件进行归一化处理;使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;根据每个文件的分类概率,按照预设待优化条件进行统计,得到对应的待优化文件集;对所述待优化文件集中的每个待优化文件进行增广处理,得到作为优化训练集的增广数据集。在上述技术方案中,根据神经网络模型对测试集的预测结果,对符合预设待优化条件的待优化文件进行增广,加强原来训练集中缺少的特征,有效提高神经网络模型预测的准确率。进一步,所述增广处理包括以下任意一种或多种:旋转处理、缩放处理、添加噪声处理和裁剪处理。在上述技术方案中,增广处理包含的多种处理给予了不同的增广结果,多方面对相应特征进行增加。进一步,所述增广数据集包括:待优化文件集中的每个待优化文件对应的处理数据集。进一步,所述对待优化文件集中的每个待优化文件进行增广处理中对一个待优化文件进行处理的具体过程为:对所述待优化文件集中的一个待优化文件分别进行所述增广处理中包括的所有处理,每种处理得到一个对应的增广文件,得到的所有增广文件作为所述待优化文件的处理数据集。在上述技术方案中,一个待优化文件进行多种处理,增广数据集中的各文件得到了多方面特征的增加。进一步,所述对测试集进行预处理,得到处理后文件集具体为:对所述测试集中的所有文件进行文件格式的校验和后缀的校验;将校验成功的所有文件作为所述处理后文件集;所述校验成功是指所述文件的文件格式符合预设文件格式条件、且所述文件的后缀与预设后缀一致。在上述技术方案中,对文件的文件格式和后缀进行校验,保证处理后数据集的稳定性。进一步,所述对测试集中的所有文件进行文件格式的校验和后缀的校验的具体过程为:遍历所述测试集中的所有文件,将所述文件格式不符合预设文件格式条件的文件删除,将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。在上述技术方案中,尽可能多地保留文件,丰富处理后数据集。本专利技术还提供一种神经网络模型的训练集优化系统,包括:数据分类模块,用于将采集的原始数据按照预设比例分为测试集和训练集;预处理模块,用于对所述测试集进行预处理,得到处理后文件集;归一化处理模块,用于对所述处理后文件集中的各文件进行归一化处理;概率预测模块,用于使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;待优化统计模块,用于根据每个文件的分类概率,按照预设待优化条件进行统计,得到对应的待优化文件集;增广处理模块,用于对所述待优化文件集中的每个待优化文件进行增广处理,得到作为优化训练集的增广数据集。在上述技术方案中,根据神经网络模型对测试集的预测结果,对符合预设待优化条件的待优化文件进行增广,加强原来训练集中缺少的特征,有效提高神经网络模型预测的准确率。进一步,所述增广处理包括以下任意一种或多种:旋转处理、缩放处理、添加噪声处理和裁剪处理。进一步,所述增广数据集包括:待优化文件集中的每个待优化文件对应的处理数据集。进一步,所述增广处理模块,用于对所述待优化文件集中的每个待优化文件进行增广处理中对一个待优化文件进行处理的具体过程为:所述增广处理模块,用于对所述待优化文件集中的一个待优化文件分别进行所述增广处理中包括的所有处理,每种处理得到一个对应的增广文件,得到的所有增广文件作为所述待优化文件的处理数据集。进一步,其特征在于,所述预处理模块,用于对所述测试集进行预处理,得到处理后文件集具体为:所述预处理模块包括:校验子模块,用于对所述测试集中的所有文件进行文件格式的校验和后缀的校验;文件子模块,用于将校验成功的所有文件作为所述处理后文件集;所述校验成功是指所述文件的文件格式符合预设文件格式条件、且所述文件的后缀与预设后缀一致。进一步,所述校验子模块,用于对所述测试集中的所有文件进行文件格式的校验和后缀的校验具体为:所述校验子模块,用于遍历所述测试集中的所有文件,将所述文件格式不符合预设文件格式条件的文件删除,将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。与现有技术相比,本专利技术的神经网络模型的训练集优化方法及系统有益效果在于:本专利技术使用与训练集同源的测试集的预测结果进行增广,优化训练集,从而提高神经网络模型的预测准确率。附图说明下面将以明确易懂的方式,结合附图说明优选实施方式,对一种神经网络模型的训练集优化方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。图1是本专利技术神经网络模型的训练集优化方法一个实施例的流程图;图2是本专利技术神经网络模型的训练集优化方法另一个实施例的流程图;图3是本专利技术神经网络模型的训练集优化方法又一个实施例的流程图;图4是本专利技术对测试集中的各文件进行预处理一个实施例的流程图;图5是本专利技术神经网络模型的训练集优化系统一个实施例的结构示意图;图6是本专利技术神经网络模型的训练集优化系统另一个实施例的结构示意图;图7是本专利技术神经网络模型的训练集优化系统又一个实施例的结构示意图。附图标号说明:10.数据分类模块,20.预处理模块,21.校验子模块,22.文件子模块,30.归一化处理模块,40.概率预测模块,50.待优化统计模块,60.增广处理模块,70.分类排序模块。具体实施方式为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对照附图说明本专利技术的具体实施方式。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。为使图面简洁,各图中只示意性地表示出了与本专利技术相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。在本专利技术的一个实施例中,如图1所示,一种神经网络模型的训练集优化方法,包括:S101将采集的原始数据按照预设比例分为测试集和训练集。具体的,原始数据可以通过各种渠道获取,例如:爬虫系统,人工搜集等,只要是神经网络模型需要的数据即可。将原始数据划分为两部分,训练集是为了训练神经网络模型,因训练本文档来自技高网...

【技术保护点】
1.一种神经网络模型的训练集优化方法,其特征在于,包括:将采集的原始数据按照预设比例分为测试集和训练集;对所述测试集进行预处理,得到处理后文件集;对所述处理后文件集中的各文件进行归一化处理;使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;根据每个文件的分类概率,按照预设待优化条件进行统计,得到对应的待优化文件集;对所述待优化文件集中的每个待优化文件进行增广处理,得到作为优化训练集的增广数据集。

【技术特征摘要】
1.一种神经网络模型的训练集优化方法,其特征在于,包括:将采集的原始数据按照预设比例分为测试集和训练集;对所述测试集进行预处理,得到处理后文件集;对所述处理后文件集中的各文件进行归一化处理;使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;根据每个文件的分类概率,按照预设待优化条件进行统计,得到对应的待优化文件集;对所述待优化文件集中的每个待优化文件进行增广处理,得到作为优化训练集的增广数据集。2.如权利要求1所述的神经网络模型的训练集优化方法,其特征在于,所述增广处理包括以下任意一种或多种:旋转处理、缩放处理、添加噪声处理和裁剪处理。3.如权利要求2所述的神经网络模型的训练集优化方法,其特征在于,所述增广数据集包括:待优化文件集中的每个待优化文件对应的处理数据集。4.如权利要求3所述的神经网络模型的训练集优化方法,其特征在于,所述对待优化文件集中的每个待优化文件进行增广处理中对一个待优化文件进行处理的具体过程为:对所述待优化文件集中的一个待优化文件分别进行所述增广处理中包括的所有处理,每种处理得到一个对应的增广文件,得到的所有增广文件作为所述待优化文件的处理数据集。5.如权利要求1-4任意一项所述的神经网络模型的训练集优化方法,其特征在于,所述对测试集进行预处理,得到处理后文件集具体为:对所述测试集中的所有文件进行文件格式的校验和后缀的校验;将校验成功的所有文件作为所述处理后文件集;所述校验成功是指所述文件的文件格式符合预设文件格式条件、且所述文件的后缀与预设后缀一致。6.如权利要求5所述的神经网络模型的训练集优化方法,其特征在于,所述对测试集中的所有文件进行文件格式的校验和后缀的校验的具体过程为:遍历所述测试集中的所有文件,将所述文件格式不符合预设文件格式条件的文件删除,将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。7.一种神经网络模型的训练集优化系统,其特征在于,包括:数据分类模块,用于将采集的原始数据按照预设比例分为测试集和训练集;预处理模块,...

【专利技术属性】
技术研发人员:罗培元
申请(专利权)人:四川斐讯信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1