【技术实现步骤摘要】
本专利技术涉及信息处理
,尤其涉及一种对通信号码的处理方法及装置。
技术介绍
世界上第一本黄页电话号簿在美国问世,至今已有100多年的历史,黄页是国际通用按企业性质和产品类别编排的工商电话号码薄。黄页电话号薄中一般包括名称、电话号码等信息。历史上黄页的信息来源于各种渠道,如统计部门、管理部门、海关、商务部、工商局、行业协会、金融机构、企业信息出版物等。传统的黄页电话号薄一般是由相应的电信运营商根据安装电话时用户上报的装机用户资料进行收录并更新的。受装机用户资料的限制,传统的黄页电话号薄更新速度慢,通信号码数据的容量也受到限制。
技术实现思路
本专利技术实施例提供一种对通信号码的处理方法及装置,可通过网络搜索的方式快速获取号码信息,以便于进行黄页电话号薄的更新。为了解决上述技术问题,本专利技术实施例提供了一种对通信号码的处理方法,包括:调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。相应地,本专利技术实施例还提供了一种对通信号码的处理装置,包括:网络爬虫模块;调用模块,用于调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;号码提取验证模块,用于根据预置的记录数字的字典树,对在所述目标网站的 ...
【技术保护点】
一种对通信号码的处理方法,其特征在于,包括:调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。
【技术特征摘要】
1.一种对通信号码的处理方法,其特征在于,包括:调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载;根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,所述字典树是根据通信号码的号码特征进行设置的,所述号码特征至少包括通信号码的位数;若验证结果为在所述网页文本内搜索到作为通信号码的字符串,则在所述目标网站的站点内获取该字符串的附属特征,根据搜索到的附属特征和所述字符串,生成关于所述字符串的号码信息。2.如权利要求1所述的方法,其特征在于,所述网络爬虫模块被配置为根据预置的网站搜索名录中记录的网站确定目标网站进行搜索;和/或,所述网络爬虫模块被配置为禁止执行跨域名搜索。3.如权利要求1所述的方法,其特征在于,还包括:获取已生成的关于所述字符串的所有号码信息;当生成的关于所述字符串的号码信息包括多个时,计算各个号码信息之间的相似度;将相似度大于预设的第一阈值的号码信息进行合并处理,根据合并后的号码信息确定出关于所述字符串的电话黄页。4.如权利要求2所述的方法,其特征在于,所述网站搜索名录中记录的网站设置有优先级,所述方法还包括:获取已生成的关于所述字符串的所有号码信息;当生成的关于所述字符串的号码信息有多个、且两个号码信息之间的相似度小于预设的第二阈值时,确定相似度小于预设的第二阈值的各号码信息对应的网站;获取各确定的网站对应的优先级,根据其中的优先级高的网站所对应的号码信息确定出关于所述字符串的电话黄页。5.如权利要求3或4所述的方法,其特征在于,还包括:判断预置的黄页数据库中是否已存在关于所述字符串的电话黄页;若是,则将所述预置的黄页数据库中已存在的关于所述字符串的电话黄页,更新为所述确定的关于所述字符串的电话黄页;若否,则将所述确定的关于所述字符串的电话黄页记录到所述预置的黄页数据库中。6.如权利要求1-4任一项所述的方法,其特征在于,所述调用网络爬虫模块在目标网站的站点内进行字符搜索和网页下载,包括:调用网络爬虫模块在所述目标网站上进行字符搜索和网页下载;提取所述目标网站上包括的该目标网站的域名内链接网站,并在所述域名内链接网站上进行字符搜索和网页下载。7.如权利要求6所述的方法,其特征在于,还包括:将在所述目标网站上进行字符搜索后得到的号码信息和在所述域名内链接网站进行字符搜索得到的号码信息标记为所述目标网站的号码信息。8.如权利要求6所述的方法,其特征在于,还包括:在所述目标网站的站点内进行字符搜索时,若没有验证得到通信号码的页面超过预设的页面数阈值,则将所述目标网站配置为停止执行字符搜索的网站。9.如权利要求1-4任一项所述的方法,其特征在于,所述在所述目标网站的站点内获取该字符串的附属特征,包括以下步骤中任一个或多个:根据预置的关键字对所述字符串在目标网络站点内所在的网页进行检索,获取该字符串的附属特征;检测所述字符串在目标网站站点内所在网页中的上下文信息,根据检测的上下文信息获取该字符串的附属特征;根据超文本标记语言HTML标签语义,并根据所述字符串在目标网站站点内所在网页中所在的标签,获取该字符串的附属特征。10.如权利要求1-4任一项所述的方法,其特征在于,所述根据预置的记录数字的字典树,对在所述目标网站的站点内搜索并下载到的网页的网页文本进行通信号码搜索和验证,包括:读取在所述目标网站的站点内搜索并下载到的网页文本,将在该文本中搜索并读取的字符作为目标字符;在预置的记录数字的字典树中,根据该目标字符选择对应的子树进行检索,并判断基于该子树的查找转移是否成功,若是,进一步判断转移成功的树节点是否为叶子节点,若否,则读取下一字符,并将读取的下一字符作为目标字符,重复本步骤直至判断结果为转移成功的树节点为叶子节点;当判断结果为转移成功的树节点为叶子节点时,则确定验证结果为各个作为目标字符的字符所组成的字符串为通信号码。11.如权利要求10所述的方法,其特征在于,将读取的字符作为目标字符,包括:判断读取的字符是否为指定的分隔符;若是,则跳过该读取的字符,若否,则将该读取的字符作为目标字符。12.一种...
【专利技术属性】
技术研发人员:王逐尘,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。