基于人脸识别的词条数据扩充方法及装置制造方法及图纸

技术编号：23161776 阅读：23 留言：0更新日期：2020-01-21 21:59

本发明专利技术公开一种基于人脸识别的词条数据扩充方法及装置，涉及数据处理技术领域，能够有效解决词条数据匹配错乱的问题。该方法包括：基于内部数据库的第一词条数据，从外部网站中爬取与词条数据相关的第二词条数据，第一词条数据和第二词条数据均包括人脸图片及字段；识别第一词条数据和第二词条数据中的人脸图片，若识别结果匹配则将第二词条数据中的字段补录和/或更新到第一词条数据中。该装置应用有上述方案所提的方法。

A method and device of lexical data expansion based on face recognition

全部详细技术资料下载

【技术实现步骤摘要】
基于人脸识别的词条数据扩充方法及装置
本专利技术涉及数据处理
，尤其涉及一种基于人脸识别的词条数据扩充方法及装置。
技术介绍
近年来，“内容为王”成为行业中绝对的高频词，明星的百科词条数据内容的准确性以及完整性对于视频搜索、推荐等重要业务起着非常重要的作用，明星图片库的建立及运营需要依靠大量人力去完成，虽然行业内逐渐应用了爬虫抓取技术来完善及更新明星的词条数据，但由于其仅依靠文本匹配的方案容易造成重名明星的词条数据匹配错乱的问题。
技术实现思路
本专利技术的目的在于提供一种基于人脸识别的词条数据扩充方法及装置，能够有效解决词条数据匹配错乱的问题。为了实现上述目的，本专利技术的一方面提供一种基于人脸识别的词条数据扩充方法，包括：基于内部数据库的第一词条数据，从外部网站中爬取与所述词条数据相关的第二词条数据，所述第一词条数据和所述第二词条数据至少包括人脸图片及字段；识别所述第一词条数据和所述第二词条数据中的人脸图片，若识别结果匹配则将第二词条数据中的字段补录和/或更新到第一词条数...

【技术保护点】
1.一种基于人脸识别的词条数据扩充方法，其特征在于，包括：/n基于内部数据库的第一词条数据，从外部网站中爬取与所述词条数据相关的第二词条数据，所述第一词条数据和所述第二词条数据至少包括人脸图片及字段，所述字段包括中英文姓名、职业、性别、生日、地区、代表作和相关新闻信息；/n在每个相关的第二词条数据中分别提取至少一张人脸图片；/n将每个相关的第二词条数据提取出的人脸图片，分别与从第一词条数据提取的人脸图片比较，识别人脸相似度；/n当人脸相似度识别结果为同一人时，将相关第二词条数据中的字段补录和/或更新到第一词条数据中；/n当人脸相似度识别结果为无法判断时，继续通过生日、地区、代表作中的任一种或多...

【技术特征摘要】
1.一种基于人脸识别的词条数据扩充方法，其特征在于，包括：
基于内部数据库的第一词条数据，从外部网站中爬取与所述词条数据相关的第二词条数据，所述第一词条数据和所述第二词条数据至少包括人脸图片及字段，所述字段包括中英文姓名、职业、性别、生日、地区、代表作和相关新闻信息；
在每个相关的第二词条数据中分别提取至少一张人脸图片；
将每个相关的第二词条数据提取出的人脸图片，分别与从第一词条数据提取的人脸图片比较，识别人脸相似度；
当人脸相似度识别结果为同一人时，将相关第二词条数据中的字段补录和/或更新到第一词条数据中；
当人脸相似度识别结果为无法判断时，继续通过生日、地区、代表作中的任一种或多种字段继续判断能否关联为同一人，若可以关联，则将相关第二词条数据中的字段补录和/或更新到第一词条数据中。

2.根据权利要求1所述的方法，其特征在于，所述内部数据库为明星数据库，包括与多位明星一一对应的所述第一词条数据。

3.根据权利要求2所述的方法，其特征在于，基于内部数据库的第一词条数据，从外部网站中爬取与所述词条数据相关的第二词条数据的方法包括：
基于内部数据库中任一明星的第一词条数据，从外部网站中爬取同名明星的第二词条数据；
通过比较职业字段，对爬取的多条第二词条数据过滤筛选最终保留相关的第二词条数据。

4.根据权利要求1所述的方法，其特征在于，当人脸相似度识别结果为非无法判断时还包括：
若相关的第二词条数据中提取有多张人脸图片，则重新调取另一张人脸图片与从所述明星的第一词条数据提取的人脸图片比较识别人脸相似度；
直至相关第二词条数据中全部的人脸相似度识别结果均为无法判断时，再通过生日、...

【专利技术属性】
技术研发人员：王晨龙，
申请(专利权)人：苏宁云计算有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人