一种样本筛选方法技术

技术编号:15640470 阅读:514 留言:0更新日期:2017-06-16 06:07
本发明专利技术适用于图像抽取对比技术改进领域,提供了一种样本筛选方法,所述样本筛选方法包括以下步骤:A、计算两个待比较文件夹中图片的相似值的平均值;B、根据得到的平均值求出该平均值下的概率;C、根据概率判断两个文件夹中图片是否为同一人物;当概率越大时,则为同一个人物几率越大,当概率较小时,则为同一个人物几率较小。通过计算图片文件夹之间为同一人物的概率,将图片按照概率从大到小的顺序展示在筛选工具界面上供用户筛选,能够让用户很快的锁定与当前图片有极大可能为同一人物的所有图片。该方法能极大的加快筛选的速度和效率,同时能够尽可能的找到训练样本中所有的重复数据。

【技术实现步骤摘要】
一种样本筛选方法
本专利技术属于图像抽取对比技术改进领域,尤其涉及一种样本筛选方法及系统。
技术介绍
人脸是人的重要信息,是区分不同的人的重要依据,因此人脸比对是较指纹、虹膜等技术更自然、更直接的比对方式。人脸比对是将图像或视频输入的人脸通过提取特定的人脸特征信息,与数据库中已注册的人脸特征信息相比较,获得匹配的人脸极其相似度,确认是否与数据库中人脸为同一。人脸比对在很多场合下都具有非常重要的作用,例如手机彩信中的视频彩信、人机界面、权限控制、智能监视系统等。比对的准确性、精度和鲁棒性问题一直是业界关心的主要问题。现有技术方法是通过人工的方式依次去判断不同文件夹之间是否为同一人物。该方法效率低,耗时长,且不够准确。
技术实现思路
本专利技术的目的在于提供一种样本筛选方法,旨在解决现有技术效率低、耗时长、不够准确的技术问题。本专利技术是这样实现的,一种样本筛选方法,所述样本筛选方法包括以下步骤:A、计算两个待比较文件夹中图片的相似值的平均值;B、根据得到的平均值求出该平均值下的概率;C、根据概率判断两个文件夹中图片是否为同一人物;当概率越大时,则为同一个人物几率越大,当概率较小时,则为同一个人物几率较小。本专利技术的进一步技术方案是:所述步骤A中还包括以下步骤:A1、依次计算两个文件夹中所有图片的相似值;A2、根据所得到的所有相似值求和并进而求出平均值。本专利技术的进一步技术方案是:所述步骤A2中两文件夹中图片的平均值为savg,其公式为:m,n为文件夹A和B中分别有图片张数,为A中图片ai和B中图片bj的相似值。本专利技术的进一步技术方案是:所述步骤B中两文件夹中图片为同一人的概率为PAB,其公式为其中,savg为两文件夹中图片的平均值,Psc为两张图片为同一人物的概率,1-Psc为两张图片为不同人物的概率,Pf(s)为两张图片是不同人物且相似度为s的概率,Pt(s)为两张图片为相同人物且相似度为s的概率。本专利技术的另一目的在于提供样本筛选方法,所述样本筛选方法包括以下步骤:a、依次计算两个文件夹中所有图片的相似值;b、根据所得到的所有相似值求和;c、根据相似值求得的和计算出平均值;d、根据得到的平均值判断两个文件夹中图片是否为同一人,当平均值越高时,则两个文件夹中的图片为同一人物的几率越大,当平均值越低时,则两个文件夹中的图片为同一人物的几率越小。本专利技术的进一步技术方案是:所述步骤a中的相似值为sAB,其公式为其中,m、n为两个文件夹中图片的张数,为A中图片ai和B中图片bj的相似值。本专利技术的另一目的在于提供一种样本筛选方法,所述样本筛选方法包括以下步骤:(1)、依次计算两个待比较文件夹中图片为同一人物的概率;(2)、将所求得的所有概率值相加求出平均值;(3)、根据求得的平均概率值判断两文件夹中图片是否为同一人物,当平均概率值越大,则两个文件夹中图片为同一个人的几率越大,当平均概率值越小,则两个文件夹中图片为同一个人的几率越小。本专利技术的进一步技术方案是:所述步骤(1)中根据局部人工抽样筛选之后的数据统计与计算两张图片为同一人物的概率为Psc,其公式为:N为图片集中的图片张数,S为相同人物图片对数。本专利技术的进一步技术方案是:所述步骤(1)中两张图片为相同人物且相似度为s的概率为Pt(s),其公式为两张图片是不同人物且相似度为s的概率为Pf(s),其公式为N为图片集中的图片张数,S为相同人物图片对数,TS为相同人物且相似度为s的图片对数,FS为不是同一人物且相似度为s的图片对数。本专利技术的有益效果是:通过计算图片文件夹之间为同一人物的概率,将图片按照概率从大到小的顺序展示在筛选工具界面上供用户筛选,能够让用户很快的锁定与当前图片有极大可能为同一人物的所有图片。该方法能极大的加快筛选的速度和效率,同时能够尽可能的找到训练样本中所有的重复数据。附图说明图1是本专利技术实施例提供的样本筛选方法的流程图一。图2是本专利技术实施例提供的样本筛选方法的流程图二。图3是本专利技术实施例提供的样本筛选方法的流程图三。具体实施方式图1示出了本专利技术提供的样本筛选方法的流程图,其详述如下:步骤S11,计算两个带比较文件夹中图片的相似值的平均值;通过相似值求和的平均值法和概率法相结合,可以先算出待比较的两个文件夹中图片相似值的平均值;其中求平均值,首先,依次计算两个文件夹中所有图片的相似值;对于任意两个待比较的文件夹,可以依次计算一个文件夹中图片与另一文件夹中所有图片的相似值;其次,根据所得到的所有相似值求和并进而求出平均值;然后将计算所得的所有相似值求和,进而求出平均值;其中,两文件夹中图片的平均值为savg,其公式为:m,n为文件夹A和B中分别有图片张数,为A中图片ai和B中图片bj的相似值。步骤S12,根据得到的平均值求出该平均值下的概率;根据该平均值求出该平均值下的概率为PAB,其中,两文件夹中图片为同一人的概率为PAB,其公式为其中,savg为两文件夹中图片的平均值,Psc为两张图片为同一人物的概率,1-Psc为两张图片为不同人物的概率,Pf(s)为两张图片是不同人物且相似度为s的概率,Pt(s)为两张图片为相同人物且相似度为s的概率;Pf(s),Pt(s)是根据前期大量的实验数据统计出来的两个函数,s是某个相似度。步骤S13,根据概率判断两个文件夹中图片是否为同一人物;当概率越大时,则为同一个人物几率越大,当概率较小时,则为同一个人物几率较小。可以根据前面求得的概率来表示这两个文件夹之间图片为同一人物的可能性。当该概率越大,则表明这两个文件夹之间图片为同一人物的可能性越大。反之则当该概率越小,则表明这两个文件夹之间图片为同一人物的可能性越小。如图2所示,本专利技术的另一目的在于提供一种样本筛选方法的流程图,其详述如下:步骤S21,依次计算两个文件夹中所有图片的相似值;对于任意两个待比较的文件夹,可以依次计算一个文件夹中图片与另一文件夹中所有图片的相似值;其中相似值为sAB,其公式为其中,m、n为两个文件夹中图片的张数,为A中图片ai和B中图片bj的相似值。假设待比较文件夹A和B中分别有m,n张图片,为A中图片ai和B中图片bj的相似值,AB文件夹的相似值为:步骤S22,根据所得到的所有相似值求和;将计算所得的所有相似值进行求和,其中,在该式中分子为相似值求和,该式的值就是平均值,也就是AB文件夹的相似值。步骤S23,根据相似值求得的和计算出平均值;利用相似值所求取到的和,进而求出平均值。步骤S24,根据得到的平均值判断两个文件夹中图片是否为同一人,当平均值越高时,则两个文件夹中的图片为同一人物的几率越大,当平均值越低时,则两个文件夹中的图片为同一人物的几率越小。利用求得到的平均值可以用于衡量两个文件夹之间图片为同一人物的可能性大小,当平均值越高时,则表明这两个文件夹之间图片为同一人物的可能性越大,当平均值越低时,则两个文件夹中的图片为同一人物的几率越小。如图3所示,本专利技术的另一目的在于提供一种样本筛选方法的流程图,其详述如下:步骤S31,依次计算两个带比较文件夹中图片为同一人物的概率;对于任意两个待比较文件夹,可以用两个文件夹之间图片为同一人物的概率来衡量两个文件夹之间图片为同一人物的可能性。根据局部人工抽样统计得到在一个很大的图片集中两张图片为同本文档来自技高网...
一种样本筛选方法

【技术保护点】
一种样本筛选方法,其特征在于,所述样本筛选方法包括以下步骤:A、计算两个待比较文件夹中图片的相似值的平均值;B、根据得到的平均值求出该平均值下的概率;C、根据概率判断两个文件夹中图片是否为同一人物;当概率越大时,则为同一个人物几率越大,当概率较小时,则为同一个人物几率较小。

【技术特征摘要】
1.一种样本筛选方法,其特征在于,所述样本筛选方法包括以下步骤:A、计算两个待比较文件夹中图片的相似值的平均值;B、根据得到的平均值求出该平均值下的概率;C、根据概率判断两个文件夹中图片是否为同一人物;当概率越大时,则为同一个人物几率越大,当概率较小时,则为同一个人物几率较小。2.根据权利要求1所述的样本筛选方法,其特征在于,所述步骤A中还包括以下步骤:A1、依次计算两个文件夹中所有图片的相似值;A2、根据所得到的所有相似值求和并进而求出平均值。3.根据权利要求2所述的样本筛选方法,其特征在于,所述步骤A2中两文件夹中图片的平均值为savg,其公式为:m,n为文件夹A和B中分别有图片张数,saibj为A中图片ai和B中图片bj的相似值。4.根据权利要求3所述的样本筛选方法,其特征在于,所述步骤B中两文件夹中图片为同一人的概率为PAB,其公式为其中,savg为两文件夹中图片的平均值,Psc为两张图片为同一人物的概率,1-Psc为两张图片为不同人物的概率,Pf(s)为两张图片是不同人物且相似度为s的概率,Pt(s)为两张图片为相同人物且相似度为s的概率。5.一种样本筛选方法,其特征在于,所述样本筛选方法包括以下步骤:a、依次计算两个文件夹中所有图片的相似值;b、根据所得到的所有相似值求和;c、根据相似值求得的和计算出平均值;d、根据得到的平均值判断两...

【专利技术属性】
技术研发人员:张宾张兆丰杨龙牟永强田第鸿
申请(专利权)人:深圳云天励飞技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1