一种基于随机森林算法的人像视图档案准确性检测方法技术

技术编号：41312717 阅读：2 留言：0更新日期：2024-05-13 14:55

本发明专利技术公开了一种基于随机森林算法的人像视图档案准确性检测方法，包括以下步骤：获取人像视图档案，人工标注人像视图档案是否正确，标注完成后对人像视图档案进行清洗、特征处理和增减；对处理后的数据进行向量化处理，并获得数据集；将数据集划分为训练集和测试集，并对训练集进行循环的训练，至随机森林模型能够对训练集训练的结果在预设范围内；然后再对随机森林模型进行验证，若随机森林模型的验证结果在预期范围内，则随机森林模型训练结束，反之将验证错的数据放至训练集，继续在训练集中对随机森林模型进行训练；本方法利用随机森林预测模型算法对人像视图档案进行聚类质量评估，分析出不同场景下不同算法的人像聚类准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人像档案管理领域，特别涉及一种基于随机森林算法的人像视图档案准确性检测方法。

技术介绍

1、随着大数据技术的发展，基于深度学习的视频结构化技术的发展越发成熟，人像采集和人脸分析技术在安防行业中的应用越来越广泛。通过前端设备进行人像视图数据的采集，积累了大量有价值的人像视图数据。为提升人像视图数据的应用价值，通过视图聚类技术形成人像视图档案，并将档案和人员身份信息库进行对比，实现人像视图目标身份信息的匹配，从而实现更高效的赋能业务应用。

2、但当前实际环境下，受限于物理环境，如：光照、遮挡，摄像机安装采集角度、摄像机图像质量，以及聚类算法本身精准性等因素影响，使得人像视图目标聚类过程中随着抓拍数据量的增加、聚类目标越多、计算时间越久，目标聚类出现了很多“错聚”、“漏聚”等问题。目前看，在gpu算力有限的情况下，单一的依赖ai算法来解决聚类问题，提升作用有限。

技术实现思路

1、为此，需要提供一种利用机器学习算法对ai算法聚类结果进行检测和分析的手段，将人像视图目标档案质量的分析同ai算法及算力解耦，利用更低的成本来实现人像视图目标档案准确性的检测和分析。

2、为实现上述目的，专利技术人提供了一种基于随机森林算法的人像视图档案准确性检测方法，包括以下步骤：

3、s1，获取人像视图档案，人工标注人像视图档案是否正确，标注完成后对人像视图档案进行清洗、特征处理和增减；

4、s2，对处理后的人像视图档案进行向量化处理，并获得数据集；

5、s3，将数据集划分为训练集和测试集，并对训练集进行循环的训练，至随机森林模型能够对训练集训练的结果在预设范围内；

6、s4，然后再对随机森林模型进行验证，若随机森林模型的验证结果在预期范围内，则随机森林模型训练结束，反之将验证错的数据放至训练集，继续在训练集中对随机森林模型进行训练。

7、作为本专利技术的一种优选方式，步骤s1还包括步骤：

8、s101，获取人像视图档案，根据人像视图档案实际情况，人工对人像视图档案打上是否正确的标签，标签类型包括0或1，其中0表示错误、1表示正确；

9、s102，对人像视图档案进行数据清洗和特征处理，并基于概率统计对人像视图档案进行增减。

10、作为本专利技术的一种优选方式，步骤s102还包括步骤：按照控制比例对人像视图档案中标签的类型进行数量控制，对超出部分的人像视图档案进行删除，所述控制比例为控制标签类型为1的人像视图档案与标签类型为0的人像视图档案间的数量比。

11、作为本专利技术的一种优选方式，步骤s2还包括步骤：

12、s201，将步骤s102清洗后的人像视图档案进行向量化处理，生成多维特征向量，并获得由向量和标签构成的数据集，其中向量的主要字段为人脸抓拍设备数量分布、车辆抓拍设备数量分布、年龄段数量分布、性别数量分布、戴口罩数量分布、戴帽子数量分布、侧脸数量分布和/或俯仰照数量分布。

13、作为本专利技术的一种优选方式，步骤s3还包括步骤：

14、s301，对步骤s201得到的数据集进行划分，将其中的80%作为训练集，剩余的20%作为测试集，并保证训练集与测试集内数据的标签类型的比例相同。

15、s302、采用随机森林算法对训练集进行训练，以训练集中的向量作为特征x，以标签作为目标值y，并通过网格搜索的调参方法调节模型参数，训练随机森林分类器内的若干个决策树，形成随机森林模型，其中基尼系数用作决策树节点的分裂标准。

16、作为本专利技术的一种优选方式，所述s4还包括步骤：

17、s401，对随机森林模型做验证时采用五折交叉验证，既将数据平均分成五份，每次取其中一份做测试，剩余份数用来训练，实验五次后求平均值，并在测试集上输出roc曲线对随机森林模型进行评估，若结果不符合预设标准，则返回步骤s3对随机森林模型进行再次训练及调参；

18、s402，若结果符合预设标准则将该随机森林模型作为预测模型、导出并存储在分布式集群路径下。

19、作为本专利技术的一种优选方式，所述s4还包括步骤：

20、s403，根据步骤s402中预测模型在分布式集群存储的路径，加载该预测模型并且对测试集进行预测，预测结果包含四列，即archive_no，correct，probability，prediction；

21、s404，在步骤s403的预测结果中，当probability值小于threshold值时，prediction为0，表示不可用，当probability值大于threshold值时，prediction为1,表示可用，其中，threshold值在预测时为预设的阈值；

22、作为本专利技术的一种优选方式，还包括步骤：

23、s405，对验证结果进行筛选划分，将验证结果为档案正确，但实际档案错误的标签标记为0，将验证结果为档案错误，但实际档案正确的标签标记为1，将全部标记数据录入训练集中，返回步骤s3中对随机森林模型进行再次训练及调参；

24、s406，经过步骤s405，在给定threshold阈值的情况下通过随机森林模型得到符合预期的档案预测结果。

25、区别于现有技术，上述技术方案所达到的有益效果有：

26、本方法主要是针对不同的聚类算法输出的聚类结果，基于人工标注后，通过对人像视图档案进行特征提取，包括位置、性别、年龄、弱约束、轨迹数量等，然后利用随机森林模型对人像视图档案进行聚类质量评估，分析出不同场景下不同算法的人像聚类准确性，并通过机器自主学习错误档案的特征分布，分析不同因子对人像视图聚档的影响，自动筛选并清洗掉低质量的人像视图档案。

本文档来自技高网...

【技术保护点】

1.一种基于随机森林算法的人像视图档案准确性检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于随机森林算法的人像视图档案准确性检测方法，其特征在于，步骤S1还包括步骤：

3.根据权利要求2所述的基于随机森林算法的人像视图档案准确性检测方法，其特征在于，步骤S102还包括步骤：按照控制比例对人像视图档案中标签的类型进行数量控制，对超出部分的人像视图档案进行删除，所述控制比例为控制标签类型为1的人像视图档案与标签类型为0的人像视图档案间的数量比。

4.根据权利要求2所述的基于随机森林算法的人像视图档案准确性检测方法，其特征在于，步骤S2还包括步骤：

5.根据权利要求4所述的基于随机森林算法的人像视图档案准确性检测方法，其特征在于，步骤S3还包括步骤：

6.根据权利要求5所述的基于随机森林算法的人像视图档案准确性检测方法，其特征在于，所述S4还包括步骤：

7.根据权利要求6所述的基于随机森林算法的人像视图档案准确性检测方法，其特征在于，所述S4还包括步骤：

8.根据权利要求7所述的基于随

...

【技术特征摘要】

1.一种基于随机森林算法的人像视图档案准确性检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于随机森林算法的人像视图档案准确性检测方法，其特征在于，步骤s1还包括步骤：

3.根据权利要求2所述的基于随机森林算法的人像视图档案准确性检测方法，其特征在于，步骤s102还包括步骤：按照控制比例对人像视图档案中标签的类型进行数量控制，对超出部分的人像视图档案进行删除，所述控制比例为控制标签类型为1的人像视图档案与标签类型为0的人像视图档案间的数量比。

4.根据权利要求2所述的基于随...

【专利技术属性】
技术研发人员：李杰，赵伟伟，孟犇，王昌中，焦广宇，
申请(专利权)人：南京启数智能系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人