【技术实现步骤摘要】
本专利技术属于图像数据处理
,尤其涉及一种从新闻页面中自动提取带命名人脸数据的方法。
技术介绍
建立人脸库,通常做法是手动来建立。比如说,找到一个人的头像,手动填写他的名字,存入数据库,这样建立人脸库要耗费大量的人力物力。新闻页面里,会有大量的图片,而图片通常下面会附加一行图片说明文本。但现有技术,从新闻页面中自动提取带命名人脸数据效果不理想。不能自动建立人脸库。
技术实现思路
本专利技术的目的在于提供一种从新闻页面中自动提取带命名人脸数据的方法,旨在解决但现有技术,从新闻图文分析建立人脸库不准确,不能自动建立人脸库,而且现有技术建立人脸库要耗费大量的人力物力的问题。本专利技术,通过对新闻报道里照片和照片说明文本进行分析,自动提取出人的头像和头像对应的人名,不依赖于人的操作即可建立人脸库。本专利技术是这样实现的,一种从新闻页面中自动提取带命名人脸数据的方法,使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;具体步骤包括:第一步,从新闻网页中提取图像及图像的文字描述内容:检测出图像,及图像在网页布局里的位置;检测出图像下面文字段落在网页里的位置;判断文字是否居中,检测出文字居中后,判断文字是否不超过两行,如果是,则将图像及图像的文字描述存储下来;其中,新闻网页是html代码,html代码里<img/>标签标注的为图像;使用WebKit或其它网页渲染引擎,能够找到每个html节点在网页里的位置。第二步,针对图像及图像的文字描述,进行分析:使用人脸检测技术,检测出图片中的人脸集合F; ...
【技术保护点】
一种从新闻页面中自动提取带命名人脸数据的方法,其特征在于,所述从新闻页面中自动提取带命名人脸数据的方法使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;具体步骤包括:第一步,从新闻网页中提取图像及图像的文字描述内容:检测出图像,及图像在网页布局里的位置;检测出图像下面文字段落在网页里的位置;判断文字是否居中,检测出文字居中后,判断文字是否不超过两行,如果是,则将图像及图像的文字描述存储下来;第二步,针对图像及图像的文字描述,进行分析:使用人脸检测技术,检测出图片中的人脸集合F;采用自然语言处理技术,对文字描述进行命名实体识别,识别出人名集合N;第三步,采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。
【技术特征摘要】
1.一种从新闻页面中自动提取带命名人脸数据的方法,其特征在于,所述从新闻页面中自动提取带命名人脸数据的方法使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;具体步骤包括:第一步,从新闻网页中提取图像及图像的文字描述内容:检测出图像,及图像在网页布局里的位置;检测出图像下面文字段落在网页里的位置;判断文字是否居中,检测出文字居中后,判断文字是否不超过两行,如果是,则将图像及图像的文字描述存储下来;第二步,针对图像及图像的文字描述,进行分析:使用人脸检测技术,检测出图片中的人脸集合F;采用自然语言处理技术,对文字描述进行命名实体识别,识别出人名集合N;第三步,采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。2.如权利要求1所述的从新闻页面中自动提取带命名人脸数据的方法,其特征在于,第一步中,判断文字是否居中,判断方法包括:...
【专利技术属性】
技术研发人员:程国艮,李欣杰,
申请(专利权)人:中译语通科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。