一种神经网络模型的训练集评估方法及系统技术方案

技术编号:19746303 阅读:25 留言:0更新日期:2018-12-12 04:55
本发明专利技术公开了一种神经网络模型的训练集评估方法及系统,该方法包括:将采集的原始数据按照预设比例分为测试集和训练集;对所述测试集进行预处理,得到处理后文件集;对所述处理后文件集中的各文件进行归一化处理;使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息。本发明专利技术使用与训练集同源的测试集的预测结果对训练集的优劣进行评估,实现有效地定位,得到准确度较高的、量化的评估信息。

【技术实现步骤摘要】
一种神经网络模型的训练集评估方法及系统
本专利技术涉及神经网络领域,尤其涉及一种神经网络模型的训练集评估方法及系统。
技术介绍
在神经网络的训练和调试过程中,训练集的优劣可以直接影响到神经网络的表现效果,训练集的质量越高,神经网络所表现出的性能越好。现有技术中不会对应用于神经网络的训练集的优劣进行评估,这是因为通常训练集非常巨大,导致评估工作无法有效地定位和开展,缺乏有效的对训练集的评估方法。
技术实现思路
本专利技术的目的是提供一种神经网络模型的训练集评估方法及系统,对训练集的优劣进行有效地评估。本专利技术提供的技术方案如下:一种神经网络模型的训练集评估方法,包括:将采集的原始数据按照预设比例分为测试集和训练集;对所述测试集进行预处理,得到处理后文件集;对所述处理后文件集中的各文件进行归一化处理;使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息。在上述技术方案中,通过统计神经网络模型对测试集预测的分类概率对训练集的优劣进行评估,基于与训练集同源的原因,评估信息的准确度较高。且评估信息是自动化完成,可有效地开展、实施。进一步,所述对测试集进行预处理,得到处理后文件集具体为:对所述测试集中的所有文件进行文件格式的校验和后缀的校验;将校验成功的所有文件作为所述处理后文件集;所述校验成功是指所述文件的文件格式符合预设文件格式条件、且所述文件的后缀与预设后缀一致。在上述技术方案中,对文件的文件格式和后缀进行校验,保证处理后数据集的稳定性。进一步,所述对测试集中的所有文件进行文件格式的校验和后缀的校验的具体过程为:遍历所述测试集中的所有文件,将所述文件格式不符合预设文件格式条件的文件删除,将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。在上述技术方案中,尽可能多地保留文件,丰富处理后数据集。进一步,所述处理后文件集中的每个文件的文件格式符合预设文件格式条件、所述文件的后缀与预设后缀一致,且所述文件对应的分类类别未被所述神经网络模型预测完。在上述技术方案中,处理后文件集中的文件除了文件格式、后缀正确外,还要其所处的分类类别是没有被预测完的,避免宕机等原因重复预测所有的测试集中的文件,提高了评估效率。进一步,所述对所述测试集进行预处理,得到处理后文件集之后还包括:按照预设分类类别对所述处理后文件集中的所有文件进行分类排序;所述对处理后文件集中的各文件进行归一化处理具体为:对分类排序后的所述处理后文件集中的各文件进行归一化处理。在上述技术方案中,在评估过程中,按照每一个分类类别进行预测,方便记录每个分类类别的处理进度。进一步,所述根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息具体为:根据每个文件的分类概率,按照预设统计类别进行分类统计,得到所述预设统计类别下每个统计类别的比率信息和文件列表信息;将所有统计类别的比率信息和文件列表信息作为对所述训练集进行评估的评估信息。在上述技术方案中,对评估信息进行量化,有效、准确地评估训练集的优劣。本专利技术还提供一种神经网络模型的训练集评估系统,包括:数据分类模块,用于将采集的原始数据按照预设比例分为测试集和训练集;预处理模块,用于对所述测试集进行预处理,得到处理后文件集;归一化处理模块,用于对所述处理后文件集中的各文件进行归一化处理;概率预测模块,用于使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;评估模块,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息。在上述技术方案中,通过统计神经网络模型对测试集预测的分类概率对训练集的优劣进行评估,基于与训练集同源的原因,评估信息的准确度较高。且评估信息是自动化完成,可有效地开展、实施。进一步,所述预处理模块,用于对所述测试集进行预处理,得到处理后文件集具体为:所述预处理模块包括:校验子模块,用于对所述测试集中的所有文件进行文件格式的校验和后缀的校验;文件子模块,用于将校验成功的所有文件作为所述处理后文件集;所述校验成功是指所述文件的文件格式符合预设文件格式条件、且所述文件的后缀与预设后缀一致。进一步,所述校验子模块,用于对所述测试集中的所有文件进行文件格式的校验和后缀的校验具体为:所述校验子模块,用于遍历所述测试集中的所有文件,将所述文件格式不符合预设文件格式条件的文件删除,将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。进一步,所述处理后文件集中的每个文件的文件格式符合预设文件格式条件、所述文件的后缀与预设后缀一致,且所述文件对应的分类类别未被所述神经网络模型预测完。进一步,还包括:分类排序模块,用于按照预设分类类别对所述处理后文件集中的所有文件进行分类排序;所述归一化处理模块,用于对所述处理后文件集中的各文件进行归一化处理具体为:所述归一化处理模块,用于对分类排序后的所述处理后文件集中的各文件进行归一化处理。进一步,所述评估模块,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息具体为:所述评估模块,用于根据每个文件的分类概率,按照预设统计类别进行分类统计,得到所述预设统计类别下每个统计类别的比率信息和文件列表信息;以及,将所有统计类别的比率信息和文件列表信息作为对所述训练集进行评估的评估信息。与现有技术相比,本专利技术的神经网络模型的训练集评估方法及系统有益效果在于:本专利技术使用与训练集同源的测试集的预测结果对训练集的优劣进行评估,实现有效地定位,得到准确度较高的、量化的评估信息。附图说明下面将以明确易懂的方式,结合附图说明优选实施方式,对一种神经网络模型的训练集评估方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。图1是本专利技术神经网络模型的训练集评估方法一个实施例的流程图;图2是本专利技术神经网络模型的训练集评估方法另一个实施例的流程图;图3是本专利技术神经网络模型的训练集评估方法又一个实施例的流程图;图4是本专利技术对测试集中的各文件进行预处理一个实施例的流程图;图5是本专利技术神经网络模型的训练集评估系统一个实施例的结构示意图;图6是本专利技术神经网络模型的训练集评估系统另一个实施例的结构示意图;图7是本专利技术神经网络模型的训练集评估系统又一个实施例的结构示意图。附图标号说明:10.数据分类模块,20.预处理模块,21.校验子模块,22.文件子模块,30.归一化处理模块,40.概率预测模块,50.评估模块,60.分类排序模块。具体实施方式为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对照附图说明本专利技术的具体实施方式。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。为使图面简洁,各图中只示意性地表示出了与本专利技术相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个本文档来自技高网...

【技术保护点】
1.一种神经网络模型的训练集评估方法,其特征在于,包括:将采集的原始数据按照预设比例分为测试集和训练集;对所述测试集进行预处理,得到处理后文件集;对所述处理后文件集中的各文件进行归一化处理;使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息。

【技术特征摘要】
1.一种神经网络模型的训练集评估方法,其特征在于,包括:将采集的原始数据按照预设比例分为测试集和训练集;对所述测试集进行预处理,得到处理后文件集;对所述处理后文件集中的各文件进行归一化处理;使用根据所述训练集训练好的神经网络模型预测每个经过归一化处理的文件的分类概率;根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息。2.如权利要求1所述的神经网络模型的训练集评估方法,其特征在于,所述对测试集进行预处理,得到处理后文件集具体为:对所述测试集中的所有文件进行文件格式的校验和后缀的校验;将校验成功的所有文件作为所述处理后文件集;所述校验成功是指所述文件的文件格式符合预设文件格式条件、且所述文件的后缀与预设后缀一致。3.如权利要求2所述的神经网络模型的训练集评估方法,其特征在于,所述对测试集中的所有文件进行文件格式的校验和后缀的校验的具体过程为:遍历所述测试集中的所有文件,将所述文件格式不符合预设文件格式条件的文件删除,将仅后缀不与预设后缀一致的文件的后缀改为预设后缀。4.如权利要求1所述的神经网络模型的训练集评估方法,其特征在于:所述处理后文件集中的每个文件的文件格式符合预设文件格式条件、所述文件的后缀与预设后缀一致,且所述文件对应的分类类别未被所述神经网络模型预测完。5.如权利要求1-4任意一项所述的神经网络模型的训练集评估方法,其特征在于:所述对所述测试集进行预处理,得到处理后文件集之后还包括:按照预设分类类别对所述处理后文件集中的所有文件进行分类排序;所述对处理后文件集中的各文件进行归一化处理具体为:对分类排序后的所述处理后文件集中的各文件进行归一化处理。6.如权利要求1-4任意一项所述的神经网络模型的训练集评估方法,其特征在于,所述根据每个文件的分类概率,按照预设统计类别进行分类统计,得到用于对所述训练集进行评估的评估信息具体为:根据每个文件的分类概率,按照预设统计类别进行分类统计,得到所述预设统计类别下每个统计类别的比率信息和文件列表信息;将所有统计类别的比率信息和文件列表信息作为对所述训练集进行评估的评估信息。7.一种神经网络模型的训练集评估系统,其特征在于,包括:数据分类模块,用于将采集的原始数据按照预设比例分为测试集和训练集;预处理...

【专利技术属性】
技术研发人员:罗培元
申请(专利权)人:四川斐讯信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1