通过黄页信息提取电话号码的方法及云端服务器技术

技术编号:10753956 阅读:136 留言:0更新日期:2014-12-11 11:26
本发明专利技术提供一种通过黄页信息提取电话号码的方法及云端服务器,所述方法包括:根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;接收多个客户端发送的电话号码,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;根据所述电话号码,与所述电话号码对应的黄页信息,生成黄页数据库;其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。该方法解决了用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息,进而判断该号码的安全性,并做出恰当的处理。

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种通过黄页信息提取电话号码的方法及云端服务器,所述方法包括:根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;接收多个客户端发送的电话号码,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;根据所述电话号码,与所述电话号码对应的黄页信息,生成黄页数据库;其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。该方法解决了用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息,进而判断该号码的安全性,并做出恰当的处理。【专利说明】通过黄页信息提取电话号码的方法及云端服务器
本专利技术涉及通信技术,尤其涉及一种通过黄页信息提取电话号码的方法及云端服务器。
技术介绍
随着通信技术的发展,被叫用户并不能够直接根据号码直接判断来电者的身份和其他资料,如此导致无法分出骚扰电话或者具有正当用意的电话,进而无法对陌生号码做出恰当的判断。 现有技术中,在进行来电显示或去电显示时,一般是根据本地通讯录中保存的联系人信息来获取的,或者是一些企业电话的拥有者为自己的电话号码设置的相关联的信息,并进行展现给用户。但是有些来电或者去电对应的电话号码可能是某快餐店的客户电话、某快递公司的客服电话或者一些企业的电话等。对于这些电话而言,用户不会将其作为联系人将相关信息保存在通讯录中,且这些电话的拥有者一般也不会自己的电话号码设置相关联的信息。 鉴于此,如何使用户在拨打陌生号码或者接听陌生号码的过程中获知该号码的黄页信息成为当前需要解决的技术问题。
技术实现思路
本专利技术提供了一种通过黄页信息提取电话号码的方法及云端服务器,使得用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息。 第一方面,本专利技术提供一种通过黄页信息提取电话号码的方法,包括: 根据预设的训练号码,建立获取黄页信息的至少一个模型/规则; 接收多个客户端发送的电话号码,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息; 根据所述电话号码,与所述电话号码对应的黄页信息,生成黄页数据库; 其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。 可选的,所述黄页信息包括:电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址; 所述电话号码包括:移动电话号码、固定电话号码和公共服务类的电话号码; 所述训练号码包括:移动电话号码、固定电话号码和公共服务类的电话号码; 所述电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页、和/或高流量网站的网页。 可选的,根据预设的训练号码,建立获取黄页信息的至少一个模型/规则,包括: 针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息; 搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息; 将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配; 如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性; 根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。 可选的,所述搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息,包括: 采用网络爬虫获取出现所述训练号码的网页的统一资源定位符URL,根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页; 根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容; 对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息。 可选的,所述根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容,包括: 在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容; 或者, 采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容; 或者, 采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容。 可选的,所述对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息,包括: 对每一个训练号码,对该训练号码的网页中的文本内容进行分词处理,采用条件随机场算法获取所述分词处理后的文本内容的关键词/关键信息。 可选的,所述方法还包括: 定期更新所述训练号码的数量及所述训练号码所对应的黄页信息; 相应地,根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。 第二方面,本专利技术还提供一种显示电话号码黄页信息的方法,包括: 对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码; 如果目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则从云端服务器获取所述目标电话号码的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息; 在所述终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。 可选的,所述目标电话号码的黄页信息包括: 目标电话号码所登记的个人或商店名称、行业分类、所述目标电话号码、和/或网站铭牌地址。 第三方面,本专利技术还提供一种云端服务器,包括: 模型建立模块,用于根据预设的训练号码,建立获取黄页信息的至少一个模型/规则; 黄页信息获取模块,用于接收多个客户端发送的电话号码,采用所述模型建立模块建立的至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息; 数据库生成模块,用于根据所述电话号码,与所述黄页信息获取模块获取的该电话号码的黄页信息,生成黄页数据库; 其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。 可选的,所述黄页信息包括: 电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址; 所述电话号码包括:移动电话号码、固定电话号码和公共服务类的电话号码; 所述训练号码包括:移动电话号码、固定电话号码和公共服务类的电话号码; 所述电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页、和/或高流量网站的网页。 可选的,所述模型建立模块,具体用于 针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息; 搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息; 将所述关键词与所述特征词进行匹配,或,将所述特征信息本文档来自技高网...
通过黄页信息提取电话号码的方法及云端服务器

【技术保护点】
一种通过黄页信息提取电话号码的方法,其特征在于,包括:根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;接收多个客户端发送的电话号码,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;根据所述电话号码,与所述电话号码对应的黄页信息,生成黄页数据库;其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。

【技术特征摘要】

【专利技术属性】
技术研发人员:周楠谢冉李振博常富洋
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1