一种基于本体的人脸图像数据收集方法和装置制造方法及图纸

技术编号:25690276 阅读:20 留言:0更新日期:2020-09-18 21:02
本发明专利技术涉及人脸图像数据整理技术领域,提供了一种基于本体的人脸图像数据收集方法和装置。获取待收集的人脸图像数据的目标主题关键词;根据所述目标主题关键词,进行被爬取网站的综合优先度分析;其中,所述综合优先度分析,包括网站与所述目标主题关键词的相关度,以及图片质量权重;根据所述综合优先度的排序和待收集的人脸图像数据的相关要求,结合已储备的人脸图像本体完成待收集的人脸图像数据的收集。本发明专利技术构建了人脸图像本体,并通过扩展人脸图像数据,使得人脸图像本体更加丰富,最终形成信息完备人脸图像本体库。同时,采用人脸图像本体、网页图像质量改进爬虫链接综合优先级评估方式使得整个爬虫过程更容易聚焦有效数据上来。

【技术实现步骤摘要】
一种基于本体的人脸图像数据收集方法和装置
本专利技术涉及人脸图像数据整理
,特别是涉及一种基于本体的人脸图像数据收集方法和装置。
技术介绍
近年来,人像识别技术得到快速发展,许多学者、公共服务业或企业也开始围绕人像识别领域开展相关研究。一些人像识别研发和治综项目开发过程中,对于人脸图像测试数据集的获取亟待提供一个高效良好的采集方案。相比于人工采集方案,网络图片采集可以更好的减少人力消耗,并且合理利用了公共资源。然而,现有的网络图片爬虫采集过程中缺少主题语义分析,存在主题漂移问题,并且已有采集方法仅进行图片数据下载收集,忽略对图片的信息标注。此外,针对人脸图像数据采集缺失对图像数据包含的人物实体信息标注,使得采集的人脸图像数据信息单一。鉴于此,克服该现有技术所存在的缺陷是本
亟待解决的问题。
技术实现思路
本专利技术要解决的技术问题是现有的网络图片爬虫采集过程中缺少主题语义分析,存在主题漂移问题,并且已有采集方法仅进行图片数据下载收集,忽略对图片的信息标注。此外,针对人脸图像数据采集缺失对图像数据包含的人物实体信息标注,使得采集的人脸图像数据信息单一。本专利技术采用如下技术方案:第一方面,本专利技术提供了一种基于本体的人脸图像数据收集方法,储备有人脸图像本体,其中,人脸图像本体包括人脸图片属性、人脸身份属性和人脸拓扑关系属性,所述数据搜集方法包括:获取待收集的人脸图像数据的目标主题关键词;根据所述目标主题关键词,进行被爬取网站的综合优先度分析;其中,所述综合优先度分析,包括网站与所述目标主题关键词的相关度,以及图片质量权重;根据所述综合优先度的排序和待收集的人脸图像数据的相关要求,结合已储备的人脸图像本体完成待收集的人脸图像数据的收集。优选的,所述网站与所述目标主题关键词的相关度包括网页文本主题相关度,则所述根据所述目标主题关键词,进行被爬取网站的综合优先度分析,具体包括:综合优先度Priority(l)=γ×R(Pl)+θ×F(Pu),其中,γ和θ加权系数满足γ+θ=1;其中,Pl表示网页文本;所述R(Pl)表示网页文本主题相关度;Pu表示链接l所在网页;F(Pu)表示当前所在网页图像质量;其中,综合优先度越高,相应的抓取顺序越靠前。优选的,所述网站与所述目标主题关键词的相关度包括锚文本主题相关度、周围文字主题相关度和网页文本主题相关度,则所述根据所述目标主题关键词,进行被爬取网站的综合优先度分析,具体包括:综合优先度Priority(l)=α×R(Al)+β×R(Sl)+γ×R(Pl)+θ×F(Pu),其中,α、β、γ和θ加权系数满足α+β+γ+θ=1;其中,Al、Sl、Pl表示超链接l的锚文本、锚文本周围的文字和网页文本;所述R(Al)、R(Sl)、R(Pl)表示锚文本主题相关度、周围文字主题相关度和网页文本主题相关度;Pu表示链接l所在网页;F(Pu)表示当前所在网页图像质量;其中,综合优先度越高,相应的抓取顺序越靠前。优选的,所述网站与所述目标主题关键词的相关度包括锚文本主题相关度、周围文字主题相关度、网页的重要程度和网页文本主题相关度,则所述根据所述目标主题关键词,进行被爬取网站的综合优先度分析,具体包括:综合优先度Priority(l)=α×R(Al)+β×R(Sl)+γ×R(Pl)+η×PR(Pl)+θ×F(Pu),其中,α、β、γ、η和θ加权系数满足α+β+γ+η+θ=1;其中,Al、Sl、Pl表示超链接l的锚文本、锚文本周围的文字和网页文本;所述R(Al)、R(Sl)、R(Pl)表示锚文本主题相关度、周围文字主题相关度和网页文本主题相关度;PR(Pl)表示超链接l指向网页的重要程度;Pu表示链接l所在网页;F(Pu)表示当前所在网页图像质量;其中,综合优先度越高,相应的抓取顺序越靠前。优选的,网页文本主题相关度和/或锚文本主题相关度、周围文字主题相关度的获取,具体为:网页文本Pl和/或将锚文本Al、锚文本周围的文字Sl各自作为一个文本Doc,获取Doc对应的文本主题向量D,带入第一公式计算文本主题相关度;所述第一公式为:其中,T和D分别为带有语义权重的目标主题关键词向量和文本中对应目标主题关键词的向量;WT、WD分别为T和D对应的语义权重向量;分别为T和D中第i个对应目标主题关键词的语义权重。优选的,用TFi,j表示第i个目标主题关键词在文本Doc第j个位置出现的词频,所述文本Doc表示为DTF=[(TF1,1,TF2,1,...,TFn,1),(TF1,2,TF2,2,...,TFn,2),…,(TF1,J,TF2,J,...,TFn,J)];用wdi表示切分出的目标主题关键词在文本Doc的语义权重,文本Doc的文本主题向量表示为其中,其中,idfi中N表示已处理的网页文本总数,Ni表示包含第i个目标主题关键词的网页文本个数。优选的,所述PR(Pl)的计算通过将网页文本Pl代入第二公式中的参数P计算得到,所述第二公式为:其中,d表示阻尼系数;ω表示调节因子;m表示已爬取的网页中网页P的入链网页总数,Pi表示指向网页P的第i个入链网页;PR(Pi)表示网页Pi的PR值;C(Pi)表示网页Pi的出链网页总数。优选的,将当前网页中已分析的图片数量、图片质量用于评估子链接l相关度;链接l所在网页的网页图像质量F(Pu)计算方式如下:其中,σ和τ加权系数满足σ+τ=1;Te表示符合人脸图像质量分阈值的图像数量,Tf表示包含人脸图像的图像数量,Tz表示当前网页的图像总数,Ei表示归一化处理之后的人脸图像质量分。优选的,所述人脸图片属性包括:图像像素、人脸可见度、面部扭曲程度、噪声级别和人脸图像质量分中的一项或者多项,则所述符合质量分阈值的图像,具体为:图像根据所述图像像素、人脸可见度、面部扭曲程度、噪声级别和人脸图像质量分中的一项或者多项综合打分得到的质量分;其中,所述质量分阈值是根据储备的人脸图像本体中,与所述目标主题关键词关联的人脸图片属性的人脸图像质量分计算得到。优选的,所述待收集的人脸图像数据的相关要求,具体包括:待收集的人脸图像数据的相关要求为针对每一人物收集预设阈值内的人脸图像数据;和/或,待收集的人脸图像数据的相关要求为本次爬虫的人脸图像数量大于目标人脸图像阈值或者等待抓取队列为空,则爬虫任务结束;和/或,待收集的人脸图像数据的相关要求为补充针对每一人物的不同程度的人脸可见度。优选的,所述根据所述综合优先度的排序和待收集的人脸图像数据的相关要求,结合已储备的人脸图像本体完成待收集的人脸图像数据的收集,具体包括:根据已储备的人脸图像本体中的人脸身份属性和人脸拓扑关系属性,确定当前所抓取网站中的人脸图像数据与储备的人脸图像本体之间的关系;若待收集的人脸图像数据的相关要求为针对每一人本文档来自技高网...

【技术保护点】
1.一种基于本体的人脸图像数据收集方法,其特征在于,储备有人脸图像本体,其中,人脸图像本体包括人脸图片属性、人脸身份属性和人脸拓扑关系属性,所述数据搜集方法包括:/n获取待收集的人脸图像数据的目标主题关键词;/n根据所述目标主题关键词,进行被爬取网站的综合优先度分析;其中,所述综合优先度分析,包括网站与所述目标主题关键词的相关度,以及图片质量权重;/n根据所述综合优先度的排序和待收集的人脸图像数据的相关要求,结合已储备的人脸图像本体完成待收集的人脸图像数据的收集。/n

【技术特征摘要】
1.一种基于本体的人脸图像数据收集方法,其特征在于,储备有人脸图像本体,其中,人脸图像本体包括人脸图片属性、人脸身份属性和人脸拓扑关系属性,所述数据搜集方法包括:
获取待收集的人脸图像数据的目标主题关键词;
根据所述目标主题关键词,进行被爬取网站的综合优先度分析;其中,所述综合优先度分析,包括网站与所述目标主题关键词的相关度,以及图片质量权重;
根据所述综合优先度的排序和待收集的人脸图像数据的相关要求,结合已储备的人脸图像本体完成待收集的人脸图像数据的收集。


2.根据权利要求1所述的基于本体的人脸图像数据收集方法,其特征在于,所述网站与所述目标主题关键词的相关度包括网页文本主题相关度,则所述根据所述目标主题关键词,进行被爬取网站的综合优先度分析,具体包括:
综合优先度Priority(l)=γ×R(Pl)+θ×F(Pu),其中,γ和θ加权系数满足γ+θ=1;其中,Pl表示网页文本;所述R(Pl)表示网页文本主题相关度;Pu表示链接l所在网页;F(Pu)表示当前所在网页图像质量;
其中,综合优先度越高,相应的抓取顺序越靠前。


3.根据权利要求1所述的基于本体的人脸图像数据收集方法,其特征在于,所述网站与所述目标主题关键词的相关度包括锚文本主题相关度、周围文字主题相关度和网页文本主题相关度,则所述根据所述目标主题关键词,进行被爬取网站的综合优先度分析,具体包括:
综合优先度Priority(l)=α×R(Al)+β×R(Sl)+γ×R(Pl)+θ×F(Pu),其中,α、β、γ和θ加权系数满足α+β+γ+θ=1;其中,Al、Sl、Pl表示超链接l的锚文本、锚文本周围的文字和网页文本;所述R(Al)、R(Sl)、R(Pl)表示锚文本主题相关度、周围文字主题相关度和网页文本主题相关度;Pu表示链接l所在网页;F(Pu)表示当前所在网页图像质量;
其中,综合优先度越高,相应的抓取顺序越靠前。


4.根据权利要求1所述的基于本体的人脸图像数据收集方法,其特征在于,所述网站与所述目标主题关键词的相关度包括锚文本主题相关度、周围文字主题相关度、网页的重要程度和网页文本主题相关度,则所述根据所述目标主题关键词,进行被爬取网站的综合优先度分析,具体包括:
综合优先度Priority(l)=α×R(Al)+β×R(Sl)+γ×R(Pl)+η×PR(Pl)+θ×F(Pu),其中,α、β、γ、η和θ加权系数满足α+β+γ+η+θ=1;其中,Al、Sl、Pl表示超链接l的锚文本、锚文本周围的文字和网页文本;所述R(Al)、R(Sl)、R(Pl)表示锚文本主题相关度、周围文字主题相关度和网页文本主题相关度;PR(Pl)表示超链接l指向网页的重要程度;Pu表示链接l所在网页;F(Pu)表示当前所在网页图像质量;
其中,综合优先度越高,相应的抓取顺序越靠前。


5.根据权利要求2-4任一所述的基于本体的人脸图像数据收集方法,其特征在于,网页文本主题相关度和/或锚文本主题相关度、周围文字主题相关度的获取,具体为:
网页文本Pl和/或将锚文本Al、锚文本周围的文字Sl各自作为一个文本Doc,获取Doc对应的文本主题向量D,带入第一公式计算文本主题相关度;所述第一公式为:



其中,T和D分别为带有语义权重的目标主题关键词向量和文本中对应目标主题关键词的向量;WT、WD分别为T和D对应的语义权重向量;


分别为T和D中第i个对应目标主题关键词的语义权重。


6.根据权利要求5所述的基于本体的人脸图像数据收集方法,其特征在于,用TFi,j表示第i个目标主题关键词在文本Doc第j个位置出现的词频,所述文本Doc表示...

【专利技术属性】
技术研发人员:李帆李永刘朱铭皓
申请(专利权)人:烽火通信科技股份有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1