一种从新闻页面中自动提取带命名人脸数据的方法技术

技术编号:14900569 阅读:62 留言:0更新日期:2017-03-29 16:02
本发明专利技术公开了一种从新闻页面中自动提取带命名人脸数据的方法,从新闻页面中自动提取带命名人脸数据的方法使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;具体步骤包括:从新闻网页中提取图像及图像的文字描述内容、针对图像及图像的文字描述,进行分析、采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。本发明专利技术解决了从新闻页面中自动提取带命名人脸数据效果不理想的问题。

【技术实现步骤摘要】

本专利技术属于图像数据处理
,尤其涉及一种从新闻页面中自动提取带命名人脸数据的方法
技术介绍
建立人脸库,通常做法是手动来建立。比如说,找到一个人的头像,手动填写他的名字,存入数据库,这样建立人脸库要耗费大量的人力物力。新闻页面里,会有大量的图片,而图片通常下面会附加一行图片说明文本。但现有技术,从新闻页面中自动提取带命名人脸数据效果不理想。不能自动建立人脸库。
技术实现思路
本专利技术的目的在于提供一种从新闻页面中自动提取带命名人脸数据的方法,旨在解决但现有技术,从新闻图文分析建立人脸库不准确,不能自动建立人脸库,而且现有技术建立人脸库要耗费大量的人力物力的问题。本专利技术,通过对新闻报道里照片和照片说明文本进行分析,自动提取出人的头像和头像对应的人名,不依赖于人的操作即可建立人脸库。本专利技术是这样实现的,一种从新闻页面中自动提取带命名人脸数据的方法,使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;具体步骤包括:第一步,从新闻网页中提取图像及图像的文字描述内容:检测出图像,及图像在网页布局里的位置;检测出图像下面文字段落在网页里的位置;判断文字是否居中,检测出文字居中后,判断文字是否不超过两行,如果是,则将图像及图像的文字描述存储下来;其中,新闻网页是html代码,html代码里<img/>标签标注的为图像;使用WebKit或其它网页渲染引擎,能够找到每个html节点在网页里的位置。第二步,针对图像及图像的文字描述,进行分析:使用人脸检测技术,检测出图片中的人脸集合F;采用自然语言处理技术,对文字描述进行命名实体识别,识别出人名集合N;第三步,采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。进一步,第一步中,判断文字是否居中,判断方法包括:文字左边缘到图像左边缘的距离为d1,文字右边缘到图像右边缘的距离为d2;计算d1和d2的比值,如果表示文字居中。进一步,第二步针对图像及图像的文字描述,进行分析中,具体包括:令(f1,f2,…fn)是检测出来的人脸集合,(n1,n2,…nm)为检测出来的人名集合;假设m=n=1,则认为头像f1的名字为n1,将数据对(f1,n1)提取存储入人脸数据库;人脸数据库里存储的是确定的人脸及人名对;假设m=n>1,则将((f1,f2,…fn),(n1,n2,…,nm))存储入候选数据库,候选数据库里存储的是不确定的人脸及人名;假设则将(f1,f2,…fn)和(n1,n2,…nm)丢弃。进一步,第三步中,从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理包括:假定人脸数据库里的人脸数据集为D={(fi,ni)|i=1,2,…k本文档来自技高网...

【技术保护点】
一种从新闻页面中自动提取带命名人脸数据的方法,其特征在于,所述从新闻页面中自动提取带命名人脸数据的方法使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;具体步骤包括:第一步,从新闻网页中提取图像及图像的文字描述内容:检测出图像,及图像在网页布局里的位置;检测出图像下面文字段落在网页里的位置;判断文字是否居中,检测出文字居中后,判断文字是否不超过两行,如果是,则将图像及图像的文字描述存储下来;第二步,针对图像及图像的文字描述,进行分析:使用人脸检测技术,检测出图片中的人脸集合F;采用自然语言处理技术,对文字描述进行命名实体识别,识别出人名集合N;第三步,采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。

【技术特征摘要】
1.一种从新闻页面中自动提取带命名人脸数据的方法,其特征在于,所述从新闻页面中自动提取带命名人脸数据的方法使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;具体步骤包括:第一步,从新闻网页中提取图像及图像的文字描述内容:检测出图像,及图像在网页布局里的位置;检测出图像下面文字段落在网页里的位置;判断文字是否居中,检测出文字居中后,判断文字是否不超过两行,如果是,则将图像及图像的文字描述存储下来;第二步,针对图像及图像的文字描述,进行分析:使用人脸检测技术,检测出图片中的人脸集合F;采用自然语言处理技术,对文字描述进行命名实体识别,识别出人名集合N;第三步,采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。2.如权利要求1所述的从新闻页面中自动提取带命名人脸数据的方法,其特征在于,第一步中,判断文字是否居中,判断方法包括:...

【专利技术属性】
技术研发人员:程国艮李欣杰
申请(专利权)人:中译语通科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1