【技术实现步骤摘要】
企业地址识别方法及识别系统
本专利技术涉及数据处理
,尤其涉及一种企业地址识别方法及识别系统。
技术介绍
企业地址是对企业刻画必不可少的一部分内容。随着互联网的发展,通过网络爬虫在招聘网站、企业黄页、企业自建网站、工商局在线信息库等获取企业地址信息的方式已经是行业通用技术。但是企业在发展过程中,一方面企业的实际经营地可能会发生变更,这就有可能导致企业的经营地和工商局的注册备案地址会存在不一致的情况。另一方面,随着企业业务的扩张,可能会同时存在多个实际经营地,这就导致单次的网络地址抓取并不足以充分描述企业当前的实际经营地址。这就需要建立相应的业务模型来识别出企业真实的经营地址,以便提高企业画像的真实性。公开号为CN106469200A的中国专利提出了一种预测企业存在地址位置变更却未及时工商备案的方法及系统。该方法中通过抓取企业在招聘网站上发布的地址信息与企业的备案地址信息,并转化为经纬度信息,进行比对。若两者的经纬度差值大于等于10"时,就判断企业存在地址变更却未及时工商备案的情况。该专利使用经纬度的差值对比来判断企业地址是否变更,容易错漏企业短距离的位置改变 ...
【技术保护点】
一种企业地址识别方法,其特征在于,包括:获取公开的企业地址信息;依据获取到企业地址信息更新预设的地址信息资源库;获取预设时间段内互联网站上的企业地址信息;若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分;判断所述企业地址的积分是否小于阈值;若所述企业地址的积分大于或等于阈值,则判定所述企业地址为企业当前的经营地址。
【技术特征摘要】
1.一种企业地址识别方法,其特征在于,包括:获取公开的企业地址信息;依据获取到企业地址信息更新预设的地址信息资源库;获取预设时间段内互联网站上的企业地址信息;若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分;判断所述企业地址的积分是否小于阈值;若所述企业地址的积分大于或等于阈值,则判定所述企业地址为企业当前的经营地址。2.根据权利要求1所述的企业地址识别方法,其特征在于,所述“依据获取到企业地址信息建立企业的地址信息资源库”包括:对获取到的企业地址信息进行拆分得到地址要素;将所述地址要素与已有的企业地址数据进行数据排重处理;依据数据排重处理后的地址要素新增企业地址至预设的地址信息资源库;对新增的企业地址设置初始积分。3.根据权利要求2所述的企业地址识别方法,其特征在于,所述“对新增的企业地址设置初始积分”之后,“获取预设时间段内互联网站上的企业地址信息”之前,还包括:设置最高积分值和最低积分值。4.根据权利要求3所述的企业地址识别方法,其特征在于,“若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分”之后,还包括:若所述企业地址的积分达到最高积分值,则停止增加所述企业地址的积分。5.根据权利要求3所述的企业地址识别方法,其特征在于,若所述互联网站上的企业地址信息中未出现地址信息资源库的企业地址,则减少所述企业地址的积分;若所述企业地址的积分达到最低积分值,则停止减少所述企业地址的积分。6.一种企业地址识别系统,其特征在于,包括存储器...
【专利技术属性】
技术研发人员:陈捷,王仁斌,栾江霞,左军,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。