基于网络爬虫的公司座机号码清洗方法及系统技术方案

技术编号:20797148 阅读:18 留言:0更新日期:2019-04-06 10:45
本发明专利技术公开了一种基于网络爬虫的公司座机号码清洗方法及系统,其通过爬虫获取预设范围的国家或城市或地区的区号,建立国内区号映射表和/或国际区号映射表;并通过爬虫获取所需公司的联系数据;然后判断公司座机号码是否包含国际区号和/或国内区号,若是,则结束;若否,则得到不完整座机号码;根据不完整座机号码的对应公司的公司名称或公司地址,获取对应公司的经纬度信息,并根据经纬度信息获取对应公司归属的国家或城市或地区;根据国内区号映射表和/或国际区号映射表进行查找对应公司的国际区号和/或国内区号;最后将国际区号和/或国内区号添加至不完整座机号码中,能够自动筛选不完整座机号码并对其进行补全完善,效率更高。

Cleaning Method and System of Company Airline Number Based on Web Crawler

The invention discloses a method and system for cleaning company's landline number based on network crawler, which obtains the area numbers of countries or cities or regions in the preset range by crawler, establishes the domestic area number mapping table and/or the international area number mapping table, obtains the contact data of the company needed by crawler, and then determines whether the company landline number contains the international area number and/or the domestic area number, if. Yes, it ends; if not, it obtains the incomplete seat number; obtains the longitude and latitude information of the corresponding company according to the company name or company address of the corresponding company with incomplete seat number, and obtains the country or city or region where the corresponding company belongs according to the longitude and latitude information; and searches the international area number and/or the international area number mapping table of the corresponding company according to the domestic area number mapping table and/or the international area number mapping table. / Finally, adding international and/or domestic area codes to incomplete machine numbers can automatically screen incomplete machine numbers and complete them, which is more efficient.

【技术实现步骤摘要】
基于网络爬虫的公司座机号码清洗方法及系统
本专利技术涉及网络信息处理
,特别是一种基于网络爬虫的公司座机号码清洗方法及其应用该方法的系统。
技术介绍
随着互联网技术的发展,搜索引擎已经成为人们获取信息的重要方式。现有的搜索引擎都是基于通称为网络爬虫(Crawler)的技术实现。爬虫工作原理是搜索引擎定期执行网络爬虫程序,从作为搜索树根的指定初始URL列表开始访问这些URL定位的网页资源,获取网页信息,包括标题、描述HTML网页文档属性的Meta标签等,并从这些信息中提取关键词,添加到搜索时用的数据库中,以及从这些信息中提取指向网页资源的URL并将这些新提取的URL作为起点开始新一轮的访问处理,通过这种访问处理的循环得到一个定期更新的综合性的搜索数据库,当用户向搜索引擎提供关键字后,搜索引擎通过检索搜索数据库,按排名规则向用户返回搜索成果,完成一次搜索过程。但是,网络爬虫抓取时,难以删选自己想要的有价值的信息。通常还需要爬虫工程师在爬完网站数据之后对这些数据做清洗操作。例如,通过爬虫获取到的公司联系数据主要包括:行业、公司名称、电话号码、联系人、地址、公司网站,其中,电话号码通常需要人工去识别。电话号码包括座机号码和手机号码,座机号码经常没有区号。搜索区号通常需要知道当前电话的公司的地址,接着到搜索引擎上查找该市的区号,这一过程往往需要花费十多秒的时间,如果只是一个号码就还好,但是如果是成千上万个号码,将造成人力物力的极大浪费。
技术实现思路
本专利技术为解决上述问题,提供了一种基于网络爬虫的公司座机号码清洗方法及系统,能够实现对座机号码的自动补全,效率更高。为实现上述目的,本专利技术采用的技术方案为:一种基于网络爬虫的公司座机号码清洗方法,其包括以下步骤:a.通过爬虫获取预设范围的国家或城市或地区的区号,以所述城市或地区为键、国内区号为值,建立国内区号映射表;和/或,以所述国家为键、国际区号为值,建立国际区号映射表;b.通过爬虫获取所需公司的联系数据,所述联系数据包括:公司名称或公司地址、公司座机号码;c.判断所述公司座机号码是否包含国际区号和/或国内区号,若是,则结束;若否,则得到不完整座机号码;d.根据所述不完整座机号码的对应公司的公司名称或公司地址,获取所述对应公司的经纬度信息,并根据所述经纬度信息获取所述对应公司归属的国家或城市或地区;e.根据所述国内区号映射表和/或所述国际区号映射表进行查找所述对应公司的国际区号和/或国内区号;f.将所述国际区号和/或国内区号添加至所述不完整座机号码中。优选的,所述的步骤a中,进一步将所述国内区号映射表和所述国际区号映射表合并为通用区号映射表,所述通用区号映射表以国家和城市/地区为键、国际区号和国内区号为值。优选的,所述的步骤b中,所述联系数据还包括:移动电话号码、联系人、公司网站中的一个以上;并可根据所述移动电话号码或者所述联系人或者所述公司网站对所述公司座机号码进行验证。优选的,所述的步骤c中,判断所述公司座机号码是否包含国际区号和/或国内区号,进一步包括:c1.将所述公司座机号码逐字切分,并通过正则表达式提取出数字,将所述数字重新拼接成字符串;c2.判断所述字符串是否包含国际区号,若否,则将所述公司座机号码判定为不完整座机号码;和/或,c3.判断所述字符串是否包含国内区号,若否,则将所述公司座机号码判定为不完整座机号码。进一步的,所述的步骤c2中,是通过提取所述字符串的前两位数字进行判断该两位数字是否为国际区号,若否,则将所述公司座机号码判定为不完整座机号码;所述的步骤c3中,若所述字符串的前两位数字是国际区号,则进一步判断该两位数字后面的三位数字或四位数字是否为国内区号,若否,则将所述公司座机号码判定为不完整座机号码;所述的步骤c3中,若所述字符串的前两位数字不是国际区号,则进一步判断所述字符串的前三位数字或前四位数字是否为国内区号,若否,则将所述公司座机号码判定为不完整座机号码。优选的,还进一步根据重新拼接的字符串的长度对所述公司座机号码的有效性进行验证;若所述字符串包含国际区号,则根据去除所述国际区号后的字符串的长度对所述公司座机号码的有效性进行验证;和/或,若所述字符串包括国内区号,则根据去除所述国内区号后的字符串的长度对所述公司座机号码的有效性进行验证;若所述公司座机号码为有效号码,则执行步骤d、e、f;若所述公司座机号码为无效号码,则将该号码进行过滤清洗。优选的,所述的步骤d中进一步包括:d1.根据所述公司名称或所述公司地址,利用正向地理编码获取所述不完整座机号码的对应公司的经纬度信息;d2.根据所述经纬度信息,利用逆向地理编码获取所述经纬度信息对应的国家或城市或地区。对应的,本专利技术还提供一种基于网络爬虫的公司座机号码清洗系统,其包括:爬虫模块,用于获取预设范围的国家或城市或地区的区号,以及获取所需公司的联系数据,所述联系数据包括:公司名称或公司地址、公司座机号码;映射模块,其以所述城市或地区为键、国内区号为值,建立国内区号映射表;和/或,以所述国家为键、国际区号为值,建立国际区号映射表;座机号码清洗模块,其通过判断所述公司座机号码是否包含国际区号和/或国内区号,若是,则结束;若否,则得到不完整座机号码;定位模块,其根据所述不完整座机号码的对应公司的公司名称或公司地址,获取所述对应公司的经纬度信息,并根据所述经纬度信息获取所述对应公司归属的国家或城市或地区;座机号码完善模块,其通过所述映射表模块的所述国内区号映射表和/或所述国际区号映射表进行查找所述对应公司的国际区号和/或国内区号,并将所述国际区号和/或国内区号添加至所述不完整座机号码中。本专利技术的有益效果是:(1)本专利技术通过预先建立区号映射表,并根据公司的联系数据进行区域定位并从区号映射表中查找对应区号,从而实现对座机号码的自动补全,无需耗费人力物力进行人工补全,效率更高;(2)本专利技术通过对公司座机号码进行逐字切分和字符串提取,再通过重新拼接的字符串进行判断是否为不完整座机号码,从而实现自动筛选不完整座机号码;(3)本专利技术还进一步根据字符串的长度对公司座机号码的有效性进行验证,从而能够快速区分有效号码和无效号码,并仅对有效的不完整号码进行补全,而对无效的不完整号码进行过滤,减少无效数据。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合具体实施例对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本专利技术的一种基于网络爬虫的公司座机号码清洗方法,其包括以下步骤:a.通过爬虫获取预设范围的国家或城市或地区的区号,以所述城市或地区为键、国内区号为值,建立国内区号映射表;和/或,以所述国家为键、国际区号为值,建立国际区号映射表;b.通过爬虫获取所需公司的联系数据,所述联系数据包括:公司名称或公司地址、公司座机号码;c.判断所述公司座机号码是否包含国际区号和/或国内区号,若是,则结束;若否,则得到不完整座机号码;d.根据所述不完整座机号码的对应公司的公司名称或公司地址,获取所述对应公司的经纬度信息,并根据所述经纬度信息获取所述对应公司归属的国家或城市或地区;e.根据所述国内区号映射表和/或所述国际区号映射表进行查找本文档来自技高网...

【技术保护点】
1.一种基于网络爬虫的公司座机号码清洗方法,其特征在于,包括以下步骤:a.通过爬虫获取预设范围的国家或城市或地区的区号,以所述城市或地区为键、国内区号为值,建立国内区号映射表;和/或,以所述国家为键、国际区号为值,建立国际区号映射表;b.通过爬虫获取所需公司的联系数据,所述联系数据包括:公司名称或公司地址、公司座机号码;c.判断所述公司座机号码是否包含国际区号和/或国内区号,若是,则结束;若否,则得到不完整座机号码;d.根据所述不完整座机号码的对应公司的公司名称或公司地址,获取所述对应公司的经纬度信息,并根据所述经纬度信息获取所述对应公司归属的国家或城市或地区;e.根据所述国内区号映射表和/或所述国际区号映射表进行查找所述对应公司的国际区号和/或国内区号;f.将所述国际区号和/或国内区号添加至所述不完整座机号码中。

【技术特征摘要】
1.一种基于网络爬虫的公司座机号码清洗方法,其特征在于,包括以下步骤:a.通过爬虫获取预设范围的国家或城市或地区的区号,以所述城市或地区为键、国内区号为值,建立国内区号映射表;和/或,以所述国家为键、国际区号为值,建立国际区号映射表;b.通过爬虫获取所需公司的联系数据,所述联系数据包括:公司名称或公司地址、公司座机号码;c.判断所述公司座机号码是否包含国际区号和/或国内区号,若是,则结束;若否,则得到不完整座机号码;d.根据所述不完整座机号码的对应公司的公司名称或公司地址,获取所述对应公司的经纬度信息,并根据所述经纬度信息获取所述对应公司归属的国家或城市或地区;e.根据所述国内区号映射表和/或所述国际区号映射表进行查找所述对应公司的国际区号和/或国内区号;f.将所述国际区号和/或国内区号添加至所述不完整座机号码中。2.根据权利要求1所述的一种基于网络爬虫的公司座机号码清洗方法,其特征在于:所述的步骤a中,进一步将所述国内区号映射表和所述国际区号映射表合并为通用区号映射表,所述通用区号映射表以国家和城市/地区为键、国际区号和国内区号为值。3.根据权利要求1所述的一种基于网络爬虫的公司座机号码清洗方法,其特征在于:所述的步骤b中,所述联系数据还包括:移动电话号码、联系人、公司网站中的一个以上;并可根据所述移动电话号码或者所述联系人或者所述公司网站对所述公司座机号码进行验证。4.根据权利要求1或2或3所述的一种基于网络爬虫的公司座机号码清洗方法,其特征在于:所述的步骤c中,判断所述公司座机号码是否包含国际区号和/或国内区号,进一步包括:c1.将所述公司座机号码逐字切分,并通过正则表达式提取出数字,将所述数字重新拼接成字符串;c2.判断所述字符串是否包含国际区号,若否,则将所述公司座机号码判定为不完整座机号码;和/或,c3.判断所述字符串是否包含国内区号,若否,则将所述公司座机号码判定为不完整座机号码。5.根据权利要求4所述的一种基于网络爬虫的公司座机号码清洗方法,其特征在于:所述的步骤c2中,是通过提取所述字符串的前两位数字进行判断该两位数字是否为国际区号,若否,则将所述公司座机号码判定为不完整座机号码;所述的步骤c...

【专利技术属性】
技术研发人员:陈鑫肖龙源蔡振华李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通信息技术有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1