一种基于本体的人脸图像数据收集方法和装置制造方法及图纸

技术编号：25690276 阅读：20 留言：0更新日期：2020-09-18 21:02

本发明专利技术涉及人脸图像数据整理技术领域，提供了一种基于本体的人脸图像数据收集方法和装置。获取待收集的人脸图像数据的目标主题关键词；根据所述目标主题关键词，进行被爬取网站的综合优先度分析；其中，所述综合优先度分析，包括网站与所述目标主题关键词的相关度，以及图片质量权重；根据所述综合优先度的排序和待收集的人脸图像数据的相关要求，结合已储备的人脸图像本体完成待收集的人脸图像数据的收集。本发明专利技术构建了人脸图像本体，并通过扩展人脸图像数据，使得人脸图像本体更加丰富，最终形成信息完备人脸图像本体库。同时，采用人脸图像本体、网页图像质量改进爬虫链接综合优先级评估方式使得整个爬虫过程更容易聚焦有效数据上来。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于本体的人脸图像数据收集方法和装置
本专利技术涉及人脸图像数据整理
，特别是涉及一种基于本体的人脸图像数据收集方法和装置。
技术介绍
近年来，人像识别技术得到快速发展，许多学者、公共服务业或企业也开始围绕人像识别领域开展相关研究。一些人像识别研发和治综项目开发过程中，对于人脸图像测试数据集的获取亟待提供一个高效良好的采集方案。相比于人工采集方案，网络图片采集可以更好的减少人力消耗，并且合理利用了公共资源。然而，现有的网络图片爬虫采集过程中缺少主题语义分析，存在主题漂移问题，并且已有采集方法仅进行图片数据下载收集，忽略对图片的信息标注。此外，针对人脸图像数据采集缺失对图像数据包含的人物实体信息标注，使得采集的人脸图像数据信息单一。鉴于此，克服该现有技术所存在的缺陷是本
亟待解决的问题。
技术实现思路
本专利技术要解决的技术问题是现有的网络图片爬虫采集过程中缺少主题语义分析，存在主题漂移问题，并且已有采集方法仅进行图片数据下载收集，忽略对图片的信息标注。此外，针对人脸图像数据采集缺失对图像数据包含的人物实体信息标注，使得采集的人脸图像数据信息单一。本专利技术采用如下技术方案：第一方面，本专利技术提供了一种基于本体的人脸图像数据收集方法，储备有人脸图像本体，其中，人脸图像本体包括人脸图片属性、人脸身份属性和人脸拓扑关系属性，所述数据搜集方法包括：获取待收集的人脸图像数据的目标主题关键词；根据所述目标主题关键词，进行被爬取网站的综合优先...

【技术保护点】
1.一种基于本体的人脸图像数据收集方法，其特征在于，储备有人脸图像本体，其中，人脸图像本体包括人脸图片属性、人脸身份属性和人脸拓扑关系属性，所述数据搜集方法包括：/n获取待收集的人脸图像数据的目标主题关键词；/n根据所述目标主题关键词，进行被爬取网站的综合优先度分析；其中，所述综合优先度分析，包括网站与所述目标主题关键词的相关度，以及图片质量权重；/n根据所述综合优先度的排序和待收集的人脸图像数据的相关要求，结合已储备的人脸图像本体完成待收集的人脸图像数据的收集。/n

【技术特征摘要】
1.一种基于本体的人脸图像数据收集方法，其特征在于，储备有人脸图像本体，其中，人脸图像本体包括人脸图片属性、人脸身份属性和人脸拓扑关系属性，所述数据搜集方法包括：
获取待收集的人脸图像数据的目标主题关键词；
根据所述目标主题关键词，进行被爬取网站的综合优先度分析；其中，所述综合优先度分析，包括网站与所述目标主题关键词的相关度，以及图片质量权重；
根据所述综合优先度的排序和待收集的人脸图像数据的相关要求，结合已储备的人脸图像本体完成待收集的人脸图像数据的收集。

2.根据权利要求1所述的基于本体的人脸图像数据收集方法，其特征在于，所述网站与所述目标主题关键词的相关度包括网页文本主题相关度，则所述根据所述目标主题关键词，进行被爬取网站的综合优先度分析，具体包括：
综合优先度Priority(l)＝γ×R(Pl)+θ×F(Pu)，其中，γ和θ加权系数满足γ+θ＝1；其中，Pl表示网页文本；所述R(Pl)表示网页文本主题相关度；Pu表示链接l所在网页；F(Pu)表示当前所在网页图像质量；
其中，综合优先度越高，相应的抓取顺序越靠前。

3.根据权利要求1所述的基于本体的人脸图像数据收集方法，其特征在于，所述网站与所述目标主题关键词的相关度包括锚文本主题相关度、周围文字主题相关度和网页文本主题相关度，则所述根据所述目标主题关键词，进行被爬取网站的综合优先度分析，具体包括：
综合优先度Priority(l)＝α×R(Al)+β×R(Sl)+γ×R(Pl)+θ×F(Pu)，其中，α、β、γ和θ加权系数满足α+β+γ+θ＝1；其中，Al、Sl、Pl表示超链接l的锚文本、锚文本周围的文字和网页文本；所述R(Al)、R(Sl)、R(Pl)表示锚文本主题相关度、周围文字主题相关度和网页文本主题相关度；Pu表示链接l所在网页；F(Pu)表示当前所在网页图像质量；
其中，综合优先度越高，相应的抓取顺序越靠前。

4.根据权利要求1所述的基于本体的人脸图像数据收集方法，其特征在于，所述网站与所述目标主题关键词的相关度包括锚文本主题相关度、周围文字主题相关度、网页的重要程度和网页文本主题相关度，则所述根据所述目标主题关键词，进行被爬取网站的综合优先度分析，具体包括：
综合优先度Priority(l)＝α×R(Al)+β×R(Sl)+γ×R(Pl)+η×PR(Pl)+θ×F(Pu)，其中，α、β、γ、η和θ加权系数满足α+β+γ+η+θ＝1；其中，Al、Sl、Pl表示超链接l的锚文本、锚文本周围的文字和网页文本；所述R(Al)、R(Sl)、R(Pl)表示锚文本主题相关度、周围文字主题相关度和网页文本主题相关度；PR(Pl)表示超链接l指向网页的重要程度；Pu表示链接l所在网页；F(Pu)表示当前所在网页图像质量；
其中，综合优先度越高，相应的抓取顺序越靠前。

5.根据权利要求2-4任一所述的基于本体的人脸图像数据收集方法，其特征在于，网页文本主题相关度和/或锚文本主题相关度、周围文字主题相关度的获取，具体为：
网页文本Pl和/或将锚文本Al、锚文本周围的文字Sl各自作为一个文本Doc，获取Doc对应的文本主题向量D，带入第一公式计算文本主题相关度；所述第一公式为：

其中，T和D分别为带有语义权重的目标主题关键词向量和文本中对应目标主题关键词的向量；WT、WD分别为T和D对应的语义权重向量；

分别为T和D中第i个对应目标主题关键词的语义权重。

6.根据权利要求5所述的基于本体的人脸图像数据收集方法，其特征在于，用TFi,j表示第i个目标主题关键词在文本Doc第j个位置出现的词频，所述文本Doc表示...

【专利技术属性】
技术研发人员：李帆，李永刘，朱铭皓，
申请(专利权)人：烽火通信科技股份有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人