The invention discloses a method and system for cleaning company's landline number based on network crawler, which obtains the area numbers of countries or cities or regions in the preset range by crawler, establishes the domestic area number mapping table and/or the international area number mapping table, obtains the contact data of the company needed by crawler, and then determines whether the company landline number contains the international area number and/or the domestic area number, if. Yes, it ends; if not, it obtains the incomplete seat number; obtains the longitude and latitude information of the corresponding company according to the company name or company address of the corresponding company with incomplete seat number, and obtains the country or city or region where the corresponding company belongs according to the longitude and latitude information; and searches the international area number and/or the international area number mapping table of the corresponding company according to the domestic area number mapping table and/or the international area number mapping table. / Finally, adding international and/or domestic area codes to incomplete machine numbers can automatically screen incomplete machine numbers and complete them, which is more efficient.
【技术实现步骤摘要】
基于网络爬虫的公司座机号码清洗方法及系统
本专利技术涉及网络信息处理
,特别是一种基于网络爬虫的公司座机号码清洗方法及其应用该方法的系统。
技术介绍
随着互联网技术的发展,搜索引擎已经成为人们获取信息的重要方式。现有的搜索引擎都是基于通称为网络爬虫(Crawler)的技术实现。爬虫工作原理是搜索引擎定期执行网络爬虫程序,从作为搜索树根的指定初始URL列表开始访问这些URL定位的网页资源,获取网页信息,包括标题、描述HTML网页文档属性的Meta标签等,并从这些信息中提取关键词,添加到搜索时用的数据库中,以及从这些信息中提取指向网页资源的URL并将这些新提取的URL作为起点开始新一轮的访问处理,通过这种访问处理的循环得到一个定期更新的综合性的搜索数据库,当用户向搜索引擎提供关键字后,搜索引擎通过检索搜索数据库,按排名规则向用户返回搜索成果,完成一次搜索过程。但是,网络爬虫抓取时,难以删选自己想要的有价值的信息。通常还需要爬虫工程师在爬完网站数据之后对这些数据做清洗操作。例如,通过爬虫获取到的公司联系数据主要包括:行业、公司名称、电话号码、联系人、地址、公司网站,其中,电话号码通常需要人工去识别。电话号码包括座机号码和手机号码,座机号码经常没有区号。搜索区号通常需要知道当前电话的公司的地址,接着到搜索引擎上查找该市的区号,这一过程往往需要花费十多秒的时间,如果只是一个号码就还好,但是如果是成千上万个号码,将造成人力物力的极大浪费。
技术实现思路
本专利技术为解决上述问题,提供了一种基于网络爬虫的公司座机号码清洗方法及系统,能够实现对座机号码的自动补全,效率更 ...
【技术保护点】
1.一种基于网络爬虫的公司座机号码清洗方法,其特征在于,包括以下步骤:a.通过爬虫获取预设范围的国家或城市或地区的区号,以所述城市或地区为键、国内区号为值,建立国内区号映射表;和/或,以所述国家为键、国际区号为值,建立国际区号映射表;b.通过爬虫获取所需公司的联系数据,所述联系数据包括:公司名称或公司地址、公司座机号码;c.判断所述公司座机号码是否包含国际区号和/或国内区号,若是,则结束;若否,则得到不完整座机号码;d.根据所述不完整座机号码的对应公司的公司名称或公司地址,获取所述对应公司的经纬度信息,并根据所述经纬度信息获取所述对应公司归属的国家或城市或地区;e.根据所述国内区号映射表和/或所述国际区号映射表进行查找所述对应公司的国际区号和/或国内区号;f.将所述国际区号和/或国内区号添加至所述不完整座机号码中。
【技术特征摘要】
1.一种基于网络爬虫的公司座机号码清洗方法,其特征在于,包括以下步骤:a.通过爬虫获取预设范围的国家或城市或地区的区号,以所述城市或地区为键、国内区号为值,建立国内区号映射表;和/或,以所述国家为键、国际区号为值,建立国际区号映射表;b.通过爬虫获取所需公司的联系数据,所述联系数据包括:公司名称或公司地址、公司座机号码;c.判断所述公司座机号码是否包含国际区号和/或国内区号,若是,则结束;若否,则得到不完整座机号码;d.根据所述不完整座机号码的对应公司的公司名称或公司地址,获取所述对应公司的经纬度信息,并根据所述经纬度信息获取所述对应公司归属的国家或城市或地区;e.根据所述国内区号映射表和/或所述国际区号映射表进行查找所述对应公司的国际区号和/或国内区号;f.将所述国际区号和/或国内区号添加至所述不完整座机号码中。2.根据权利要求1所述的一种基于网络爬虫的公司座机号码清洗方法,其特征在于:所述的步骤a中,进一步将所述国内区号映射表和所述国际区号映射表合并为通用区号映射表,所述通用区号映射表以国家和城市/地区为键、国际区号和国内区号为值。3.根据权利要求1所述的一种基于网络爬虫的公司座机号码清洗方法,其特征在于:所述的步骤b中,所述联系数据还包括:移动电话号码、联系人、公司网站中的一个以上;并可根据所述移动电话号码或者所述联系人或者所述公司网站对所述公司座机号码进行验证。4.根据权利要求1或2或3所述的一种基于网络爬虫的公司座机号码清洗方法,其特征在于:所述的步骤c中,判断所述公司座机号码是否包含国际区号和/或国内区号,进一步包括:c1.将所述公司座机号码逐字切分,并通过正则表达式提取出数字,将所述数字重新拼接成字符串;c2.判断所述字符串是否包含国际区号,若否,则将所述公司座机号码判定为不完整座机号码;和/或,c3.判断所述字符串是否包含国内区号,若否,则将所述公司座机号码判定为不完整座机号码。5.根据权利要求4所述的一种基于网络爬虫的公司座机号码清洗方法,其特征在于:所述的步骤c2中,是通过提取所述字符串的前两位数字进行判断该两位数字是否为国际区号,若否,则将所述公司座机号码判定为不完整座机号码;所述的步骤c...
【专利技术属性】
技术研发人员:陈鑫,肖龙源,蔡振华,李稀敏,刘晓葳,谭玉坤,
申请(专利权)人:厦门快商通信息技术有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。