企业地址识别方法及识别系统技术方案

技术编号:17812882 阅读:31 留言:0更新日期:2018-04-28 05:35
本发明专利技术提供了一种企业地址识别方法及识别系统,方法包括:获取公开的企业地址信息;依据获取到企业地址信息更新预设的地址信息资源库;获取预设时间段内互联网站上的企业地址信息;若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分;判断所述企业地址的积分是否小于阈值;若所述企业地址的积分大于或等于阈值,则判定所述企业地址为企业当前的经营地址。通过对地址信息资源库中的企业地址进行积分,将积分值大于或等于阈值的企业地址判定为企业的经营地址,能够应对同时存在多个实际经营地址的情况,并且不会遗漏企业短距离的位置改变的情况,能够准确地识别出企业当前使用的经营地址。

【技术实现步骤摘要】
企业地址识别方法及识别系统
本专利技术涉及数据处理
,尤其涉及一种企业地址识别方法及识别系统。
技术介绍
企业地址是对企业刻画必不可少的一部分内容。随着互联网的发展,通过网络爬虫在招聘网站、企业黄页、企业自建网站、工商局在线信息库等获取企业地址信息的方式已经是行业通用技术。但是企业在发展过程中,一方面企业的实际经营地可能会发生变更,这就有可能导致企业的经营地和工商局的注册备案地址会存在不一致的情况。另一方面,随着企业业务的扩张,可能会同时存在多个实际经营地,这就导致单次的网络地址抓取并不足以充分描述企业当前的实际经营地址。这就需要建立相应的业务模型来识别出企业真实的经营地址,以便提高企业画像的真实性。公开号为CN106469200A的中国专利提出了一种预测企业存在地址位置变更却未及时工商备案的方法及系统。该方法中通过抓取企业在招聘网站上发布的地址信息与企业的备案地址信息,并转化为经纬度信息,进行比对。若两者的经纬度差值大于等于10"时,就判断企业存在地址变更却未及时工商备案的情况。该专利使用经纬度的差值对比来判断企业地址是否变更,容易错漏企业短距离的位置改变,比如企业经营地在同一栋楼的不同楼层迁移。同时对存在多个经营地址的企业,也会存在错判的情况。
技术实现思路
本专利技术所要解决的技术问题是:提供一种企业地址识别方法及识别系统,能够比较准确地判断出企业的经营地址。为了解决上述技术问题,本专利技术采用的技术方案为:一种企业地址识别方法,包括:获取公开的企业地址信息;依据获取到企业地址信息更新预设的地址信息资源库;获取预设时间段内互联网站上的企业地址信息;若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分;判断所述企业地址的积分是否小于阈值;若所述企业地址的积分大于或等于阈值,则判定所述企业地址为企业当前的经营地址。本专利技术提供的另一个技术方案为:一种企业地址识别系统,包括存储器和处理器,所述存储器内存储有计算机程序,所述存储器内的计算机程序被处理器执行以实现以下步骤:获取公开的企业地址信息;依据获取到企业地址信息更新预设的地址信息资源库;获取预设时间段内互联网站上的企业地址信息;若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分;判断所述企业地址的积分是否小于阈值;若所述企业地址的积分大于或等于阈值,则判定所述企业地址为企业当前的经营地址。本专利技术的有益效果在于:通过建立地址信息资源库,然后对地址信息资源库中的企业地址依据预设时间段内在互联网站上的出现情况进行积分。获取预设时间段内互联网站上的企业地址信息的目的在于及时更新企业地址的使用信息,而积分值的高低则直接反映了该企业地址作为企业实际经营地址的可信度。同时,采用积分模型的方法,对于积分值高于阈值的企业地址,都可以直接识别为企业仍在使用的经营地址,有利于处理同时存在多个实际经营地址的情况,从而能够更好的把企业地址信息展示出来。附图说明图1为本专利技术实施例的企业地址识别方法流程示意图;图2为本专利技术实施例一的企业地址识别方法的流程示意图。具体实施方式为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施方式并配合附图予以说明。本专利技术最关键的构思在于:对地址信息资源库的企业地址进行积分,将积分大于或等于阈值的企业地址判定为企业的经营地址。请参照图1,本专利技术提供:一种企业地址识别方法,包括:获取公开的企业地址信息;依据获取到企业地址信息更新预设的地址信息资源库;获取预设时间段内互联网站上的企业地址信息;若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分;判断所述企业地址的积分是否小于阈值;若所述企业地址的积分大于或等于阈值,则判定所述企业地址为企业当前的经营地址。从上述描述可知,本专利技术的有益效果在于:通过对地址信息资源库中的企业地址进行积分,将积分值大于或等于阈值的企业地址判定为企业的经营地址,能够应对同时存在多个实际经营地址的情况,并且不会遗漏企业短距离的位置改变的情况,能够准确地识别出企业当前使用的经营地址。需要说明的是,上述预设时间段为一个周期,获取互联网站上的企业地址信息以及后续积分计算均是周期性的运算。上述获取公开的企业地址信息具体可包括:从招聘网站、企业黄页、企业自建网站、公商局企业备案信息库中获取企业地址信息。而招聘网站的信息更新最快,所以上述互联网站优选为招聘网站。进一步的,所述“依据获取到企业地址信息建立企业的地址信息资源库”包括:对获取到的企业地址信息进行拆分得到地址要素;将所述地址要素与已有的企业地址数据进行数据排重处理;依据数据排重处理后的地址要素新增企业地址至预设的地址信息资源库;对新增的企业地址设置初始积分。从上述描述可知,通过提取出地址要素,然后对地址要素进行排重处理,避免数据重复,并且极大地减少了运算量。所有新入库的企业地址设置初始积分,方便后续积分计算。进一步的,所述“对新增的企业地址设置初始积分”之后,“获取预设时间段内互联网站上的企业地址信息”之前,还包括:设置最高积分值和最低积分值。进一步的,“若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分”之后,还包括:若所述企业地址的积分达到最高积分值,则停止增加所述企业地址的积分。进一步的,若所述互联网站上的企业地址信息中未出现地址信息资源库的企业地址,则减少所述企业地址的积分;若所述企业地址的积分达到最低积分值,则停止减少所述企业地址的积分。从上述描述可知,通过设置最高积分值和最低积分值,能够有效解决因积分无限增加和积分无限减小导致运算量过大的问题。本专利技术的另一个技术方案为:一种企业地址识别系统,包括存储器和处理器,所述存储器内存储有计算机程序,所述存储器内的计算机程序被处理器执行以实现以下步骤:获取公开的企业地址信息;依据获取到企业地址信息更新预设的地址信息资源库;获取预设时间段内互联网站上的企业地址信息;若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分;判断所述企业地址的积分是否小于阈值;若所述企业地址的积分大于或等于阈值,则判定所述企业地址为企业当前的经营地址。进一步的,所述“依据获取到企业地址信息建立企业的地址信息资源库”包括:对获取到的企业地址信息进行拆分得到地址要素;将所述地址要素与已有的企业地址数据进行数据排重处理;依据数据排重处理后的地址要素新增企业地址至预设的地址信息资源库;对新增的企业地址设置初始积分。进一步的,所述“对新增的企业地址设置初始积分”之后,“获取预设时间段内互联网站上的企业地址信息”之前,还包括:设置最高积分值和最低积分值。进一步的,“若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分”之后,还包括:若所述企业地址的积分达到最高积分值,则停止增加所述企业地址的积分。进一步的,若所述互联网站上的企业地址信息中未出现地址信息资源库的企业地址,则减少所述企业地址的积分;若所述企业地址的积分达到最低积分值,则停止减少所述企业地址的积分。请参照图2,本专利技术的实施例一为:一种企业地址识别方法,包括:S1:通过网络爬虫分别从本文档来自技高网
...
企业地址识别方法及识别系统

【技术保护点】
一种企业地址识别方法,其特征在于,包括:获取公开的企业地址信息;依据获取到企业地址信息更新预设的地址信息资源库;获取预设时间段内互联网站上的企业地址信息;若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分;判断所述企业地址的积分是否小于阈值;若所述企业地址的积分大于或等于阈值,则判定所述企业地址为企业当前的经营地址。

【技术特征摘要】
1.一种企业地址识别方法,其特征在于,包括:获取公开的企业地址信息;依据获取到企业地址信息更新预设的地址信息资源库;获取预设时间段内互联网站上的企业地址信息;若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分;判断所述企业地址的积分是否小于阈值;若所述企业地址的积分大于或等于阈值,则判定所述企业地址为企业当前的经营地址。2.根据权利要求1所述的企业地址识别方法,其特征在于,所述“依据获取到企业地址信息建立企业的地址信息资源库”包括:对获取到的企业地址信息进行拆分得到地址要素;将所述地址要素与已有的企业地址数据进行数据排重处理;依据数据排重处理后的地址要素新增企业地址至预设的地址信息资源库;对新增的企业地址设置初始积分。3.根据权利要求2所述的企业地址识别方法,其特征在于,所述“对新增的企业地址设置初始积分”之后,“获取预设时间段内互联网站上的企业地址信息”之前,还包括:设置最高积分值和最低积分值。4.根据权利要求3所述的企业地址识别方法,其特征在于,“若所述互联网站上的企业地址信息中出现了地址信息资源库的企业地址,则增加所述企业地址的积分”之后,还包括:若所述企业地址的积分达到最高积分值,则停止增加所述企业地址的积分。5.根据权利要求3所述的企业地址识别方法,其特征在于,若所述互联网站上的企业地址信息中未出现地址信息资源库的企业地址,则减少所述企业地址的积分;若所述企业地址的积分达到最低积分值,则停止减少所述企业地址的积分。6.一种企业地址识别系统,其特征在于,包括存储器...

【专利技术属性】
技术研发人员:陈捷王仁斌栾江霞左军
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1