一种对通信号码的处理方法及装置制造方法及图纸

技术编号:13903200 阅读:120 留言:0更新日期:2016-10-26 00:15
本发明专利技术实施例公开了一种对通信号码的处理方法及装置,其中,所述方法包括:调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;若验证结果为搜索到通信号码,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。采用本发明专利技术,能够快速、准确地确定出包括通信号码及其附属特征的号码信息,方便后续快速地完成黄页数据库的更新。

【技术实现步骤摘要】

本专利技术涉及信息处理
,尤其涉及一种对通信号码的处理方法及装置
技术介绍
世界上第一本黄页电话号簿在美国问世,至今已有100多年的历史,黄页是国际通用按企业性质和产品类别编排的工商电话号码薄。黄页电话号薄中一般包括名称、电话号码等信息。历史上黄页的信息来源于各种渠道,如统计部门、管理部门、海关、商务部、工商局、行业协会、金融机构、企业信息出版物等。传统的黄页电话号薄一般是由相应的电信运营商根据安装电话时用户上报的装机用户资料进行收录并更新的。受装机用户资料的限制,传统的黄页电话号薄更新速度慢,通信号码数据的容量也受到限制。
技术实现思路
本专利技术实施例提供一种对通信号码的处理方法及装置,可通过网络搜索的方式快速获取号码信息,以便于进行黄页电话号薄的更新。为了解决上述技术问题,本专利技术实施例提供了一种对通信号码的处理方法,包括:调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。相应地,本专利技术实施例还提供了一种对通信号码的处理装置,包括:网络爬虫模块;调用模块,用于调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;号码提取验证模块,用于根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;生成模块,用于若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。本专利技术实施例能够基于指定的网络来搜索可以作为通信号码的字符串,并基于本专利技术实施例设置的字典树对这些字符串的每一个字符进行验证,能够快速、准确地确定出包括通信号码及其附属特征的号码信息,方便后续快速地完成黄页数据库的更新。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例的一种网络结构示意图;图2是本专利技术实施例的一种字典树的结构示意图;图3是本专利技术实施例的一种对通信号码的处理方法的流程示意图;图4是本专利技术实施例的另一种对通信号码的处理方法的流程示意图;图5是本专利技术实施例的对号码字符串进行采集及验证的方法流程示意图;图6是本专利技术实施例的一种对通信号码的处理装置的结构示意图;图7是本专利技术实施例的另一种对通信号码的处理装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例能够通过仅在指定的有限网站内,由网络爬虫模块进行字符搜索和网页下载,并按照预置的字典树对搜索下载到的网页中的网页文本进行字符串搜索和验证,一旦验证出搜索到的字符串为通信号码时,则可以根据该字符串以及其所在的网站页面,进一步提取该字符串的附属特征,例如名称、地址、其他通信方式(如即时通信联系方式),得到关于该通信号码的号码信息,以便于最终得到关于该通信号码的电话黄页,并记录到对应的黄页数据库中。具体请参见图1,是本专利技术实施例的一种网络结构示意图,本专利技术实施例对通信号码的处理可以由一台服务器执行,或多台服务器构成的服务器组执行。当然,也可以由其他的能够进行网络搜索以及数据处理的智能设备来执行。如图1所示,在网站搜索名录中可以记录多个黄页网站或者其他的可能存在大量通信联系方式的网站。可以通过人工整理的方式,整理收集目前互联网上存在通信号码的网站,这些网站按性质可以分为多种:政府机构网站、公司企业官网、地区生活网站以及社区论坛网站等。在分好类之后加入到所述网站搜索名录当中提供给网络爬虫模块搜索、号码提取验证模块采集提取其中的号码信息。具体的,配置在网站搜索名录中的网站主要是指纯域名的网站,例如,可以为:http://a.b.com/x/y.htm,而非增加了后缀的http://a.b.com/x/y/1000.htm等网站。现有的传统网络爬虫等搜索模块,比如搜索引擎的爬虫,它们抓取范围覆盖全网,遇到网页中的超链接基本都会进行跟踪爬取,网页中大部分内容都是其采集对象,然后再经过分析整理后形成内容摘要。本专利技术实施例的所述网络爬虫模块主要用于进行网站页面的通信号码搜索,并且所述网络爬虫模块被配置为根据预置的网站搜索名录中记录的网站确定目标网站进行搜索;和/或,所述网络爬虫模块被配置为禁止执行跨域名搜索。也就是说,首先,本专利技术实施例的网络爬虫模块在遇到链接时会检测是否属于跨域链接,只在预先规定的域名或者站点下爬行,对于一些友情交换链接或站外的链接不会跟踪,可避免了不必要的资源消耗。具体的,调用网络爬虫模块在目标网站的站点内进行字符
搜索和网页下载主要包括:调用网络爬虫模块在所述目标网站上进行字符搜索和网页下载;提取所述目标网站上包括的该目标网站的域名内链接网站,并在所述域名内链接网站上进行字符搜索和网页下载。另外,为了减小对号码信息的来源网站的记录,可以将在所述目标网站上进行字符搜索后得到的号码信息和在所述域名内链接网站进行字符搜索得到的号码信息标记为所述目标网站的号码信息。也就是说,在某个目标网站站点内搜索到的所有号码信息,其来源网站均记录为所述目标网站,而非该目标网站下的域名内链接网站。其次,如果在所述目标网站的站点内进行字符搜索时,若没有验证得到通信号码的页面超过预设的页面数阈值,则将所述目标网站配置为停止执行字符搜索的网站。网络爬虫模块在爬取站点内的链接时,会将路径进行聚类分析统计,如果发现某条路径下无通信号码的页面超过阈值,则放弃搜索这条路径,如,从http://a.b.com/x/y/1.htm到http://a.b.com/x/y/1000.htm都未发现号码,则以后http://a.b.com/x/y这条路径开头的链接都不再进行爬取,相当于一种剪枝策略大大节省了站点爬取时间。对于网络爬虫模块搜索到的字符的验证,本专利技术实施例设置了关于数字的字典Trie树。具体如图2所示,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数,还包括电话号码的编号规则特征。在字典树种,可以分为固定号码子树和移动手机号码子树。将各地区号和各手机段号加入到前缀Trie树中,除去区号/段号剩下的号码部分形成压缩的后继分支和叶子节点完成Trie树构造本文档来自技高网
...

【技术保护点】
一种对通信号码的处理方法,其特征在于,包括:调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。

【技术特征摘要】
1.一种对通信号码的处理方法,其特征在于,包括:调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。2.如权利要求1所述的方法,其特征在于,所述网络爬虫模块被配置为根据预置的网站搜索名录中记录的网站确定目标网站进行搜索;和/或,所述网络爬虫模块被配置为禁止执行跨域名搜索。3.如权利要求1所述的方法,其特征在于,还包括:获取已生成的关于所述字符串的所有号码信息;当生成的关于所述字符串的号码信息包括多个时,计算各个号码信息之间的相似度;将相似度大于预设的第一阈值的号码信息进行合并处理,根据合并后的号码信息确定出关于所述字符串的电话黄页。4.如权利要求2所述的方法,其特征在于,所述网站搜索名录中记录的网站设置有优先级,所述方法还包括:获取已生成的关于所述字符串的所有号码信息;当生成的关于所述字符串的号码信息有多个、且两个号码信息之间的相似度小于预设的第二阈值时,确定相似度小于预设的第二阈值的各号码信息对应的网站;获取各确定的网站对应的优先级,根据其中的优先级高的网站所对应的号码信息确定出关于所述字符串的电话黄页。5.如权利要求3或4所述的方法,其特征在于,还包括:判断预置的黄页数据库中是否已存在关于所述字符串的电话黄页;若是,则将所述预置的黄页数据库中已存在的关于所述字符串的电话黄页,更新为所述确定的关于所述字符串的电话黄页;若否,则将所述确定的关于所述字符串的电话黄页记录到所述预置的黄页数据库中。6.如权利要求1-4任一项所述的方法,其特征在于,所述调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载,包括:调用网络爬虫模块在所述目标网站上进行字符搜索和网页下载;提取所述目标网站上包括的该目标网站的域名内链接网站,并在所述域名内链接网站上进行字符搜索和网页下载。7.如权利要求6所述的方法,其特征在于,还包括:将在所述目标网站上进行字符搜索后得到的号码信息和在所述域名内链接网站进行字符搜索得到的号码信息标记为所述目标网站的号码信息。8.如权利要求6所述的方法,其特征在于,还包括:在所述目标网站的站点内进行字符搜索时,若没有验证得到通信号码的页面超过预设的页面数阈值,则将所述目标网站配置为停止执行字符搜索的网站。9.如权利要求1-4任一项所述的方法,其特征在于,所述在所述目标网站的站点内获取该字符串的附属特征,包括以下步骤中任一个或多个:根据预置的关键字对所述字符串在目标网络站点内所在的网页进行检索,获取该字符串的附属特征;检测所述字符串在目标网站站点内所在网页中的上下文信息,根据检测的上下文信息获取该字符串的附属特征;根据超文本标记语言HTML标签语义,并根据所述字符串在目标网站站点内所在网页中所在的标签,获取该字符串的附属特征。10.如权利要求1-4任一项所述的方法,其特征在于,所述根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,包括:读取在所述目标网站的站点内搜索并下载到的网页文本,将在该文本中搜索并读取的字符作为目标字符;在预置的记录数字的字典树中,根据该目标字符选择对应的子树进行检索,并判断基于该子树的查找转移是否成功,若是,进一步判断转移成功的树节点是否为叶子节点,若否,则读取下一字符,并将读取的下一字符作为目标字符,重复本步骤直至判断结果为转移成功的树节点为叶子节点;当判断结果为转移成功的树节点为叶子节点时,则确定验证结果为各个作为目标字符的字符所组成的字符串为通信号码。11.如权利要求10所述的方法,其特征在于,将读取的字符作为目标字符,包括:判断读取的字符是否为指定的分隔符;若是,则跳过该读取的字符,若否,则将该读取的字符作为目标字符。12.一种...

【专利技术属性】
技术研发人员:王逐尘
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1