识别电话号码的方法及装置制造方法及图纸

技术编号:12743093 阅读:39 留言:0更新日期:2016-01-21 10:26
本发明专利技术提供了一种识别电话号码的方法及装置。该方法包括:获取原始待识别电话号码串;对所述原始待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串;从初始位置起,根据符合电话号码格式的划分规则对所述目标待识别电话号码串进行划分,得到第一指定位数的号码串;识别出所述第一指定位数的号码串对应的电话号码的类别。本发明专利技术实施例结合不同类别的电话号码具有的特征,采用不同类别的电话号码对应的电话号码格式的划分规则对目标待识别电话号码串进行划分,根据划分得到的第一指定位数的号码串识别出其对应的电话号码的类别,实现对不同类别的电话号码的有效识别。

【技术实现步骤摘要】

本专利技术涉及互联网应用
,特别是一种识别电话号码的方法及装置
技术介绍
POI (Point of Interest),即兴趣点,是整个地图导航产业的基石,尤其在当前移 动互联网时代,地图信息数据就变得更加不可或缺了。海量网页中包含大量的POI信息,每 个POI信息包含名称、地址、经炜度、电话号码等信息,不同网页的POI数据质量层次不齐, 而电话作为联系兴趣点的重要方式,其准确性是衡量一个POI数据质量的重要指标。 海量网页中包含了数以亿计的POI信息,电话号码的呈现方式也复杂多样,同一 个POI信息可能会包含多个固定电话或者移动电话,并且交错合并到一起。此外,从互联网 中提取的POI信息可能存在大量的错误的数据,POI的电话号码也是如此,而错误的电话号 码在应用时会给用户带来体验上的伤害,所以如何准确地识别出网页POI信息中的电话号 码成为目前亟待解决的技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上 述问题的识别电话号码的方法及相应的装置。 依据本专利技术的一方面,提供了一种识别电话号码的方法,包括: 获取原始待识别电话号码串; 对所述原始待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理 后的目标待识别电话号码串; 从初始位置起,根据符合电话号码格式的划分规则对所述目标待识别电话号码串 进行划分,得到第一指定位数的号码串; 识别出所述第一指定位数的号码串对应的电话号码的类别。 可选地,在识别出所述第一指定位数的号码串对应的电话号码的类别之后,还包 括: 若存在剩余的待识别电话号码串,则再次执行预处理操作、划分操作以及识别操 作,直至剩余的待识别电话号码串被全部识别完。 可选地,识别出所述第一指定位数的号码串对应的电话号码的类别,包括: 判断所述第一指定位数的号码串是否满足第一类别电话号码的属性特征; 若是,则根据所述第一类别电话号码的属性特征,对所述第一指定位数的号码串 进行补全,得到所述第一指定位数的号码串对应的电话号码。 可选地,在判断所述第一指定位数的号码串是否满足第一类别电话号码的属性特 征之后,还包括: 若所述第一指定位数的号码串不满足第一类别电话号码的属性特征,则选取新的 符合电话号码格式的划分规则对所述目标待识别电话号码串重新进行划分,得到第二指定 位数的号码串; 判断所述第二指定位数的号码串是否满足第二类别电话号码的属性特征; 若是,则根据所述第二类别电话号码的属性特征,对所述第二指定位数的号码串 进行补全,得到所述第二指定位数的号码串对应的电话号码。 可选地,根据所述第二类别电话号码的属性特征,对所述第二指定位数的号码进 行补全,包括: 根据所述第二类别电话号码的属性特征,确定至少两个探测位数; 分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果; 根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第二指 定位数的号码串进行补全。 可选地,分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切 分结果,包括: 对于各个探测位数,利用该探测位数对所述目标待识别电话号码串的、所述第二 指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码; 比较所述第一切分号码和所述第二切分号码,确定两者对应位置上号码相同的位 数,作为该探测位数对应的切分结果。 可选地,根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所 述第二指定位数的号码串进行补全,包括: 比较所述各个探测位数对应的号码相同的位数; 从所述各个探测位数中,选取对应号码相同的位数最大的作为最优探测位数; 对所述第二指定位数的号码串补全所述最优探测位数。 可选地,对所述原始待识别电话号码串进行与电话号码格式相关的预处理操作, 得到处理后的目标待识别电话号码串,包括: 确定所述原始待识别电话号码串中是否包含指定的分隔符; 若所述原始待识别电话号码串中包含指定的分隔符,则按照该分隔符切分所述原 始待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。 可选地,所述指定的分隔符包括下列至少之一:顿号、逗号、分号、斜杠、反斜杠、竖 杆。 可选地,在得到切分后的至少两个目标待识别电话号码串之后,还包括: 对于各个目标待识别电话号码串,确定该目标待识别电话号码串的头部是否具有 国家区号; 若是,则去除该目标待识别电话号码串头部的国家区号。 可选地,在去除该目标待识别电话号码串头部的国家区号之后,还包括: 分析去除了国家区号之后的所述目标待识别电话号码串; 若所述目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充 该地区区号使其完整; 若所述目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地 区区号进行去重处理。 可选地,若所述目标待识别电话号码串的头部具有地区区号; 从初始位置起,根据符合电话号码格式的划分规则对所述目标待识别电话号码串 进行划分,得到第一指定位数的号码串,包括: 从初始位置起,根据符合电话号码格式的划分规则,对除去头部的地区区号后的 所述目标待识别电话号码串进行划分,得到第一指定位数的号码串。 可选地,根据所述第一类别电话号码的属性特征,对所述第一指定位数的号码串 进行补全,包括: 根据所述第一类别电话号码的属性特征,确定对所述第一指定位数的号码串进行 补全的补全位数; 从所述目标待识别电话号码串的、所述第一指定位数的号码串对应的划分位置 起,截取所述补全位数的号码; 将所述补全位数的号码附加在所述第一指定位数的号码串的末尾。 可选地,所述获取原始待识别电话号码串,包括: 从网页中获取兴趣点POI信息; 从所述POI信息中提取原始待识别电话号码串。 可选地,在补全得到所述第一指定位数或所述第二指定位数的号码串对应的电话 号码之后,还包括: 输出补全得到所述第一指定位数或所述第二指定位数的号码串对应的电话号码。 依据本专利技术的另一方面,还提供了一种识别电话号码的装置,包括: 获取模块,适于获取原始待识别电话号码串; 预处理模块,适于对所述原始待识别电话号码串进行与电话号码格式相关的预处 理操作,得到处理后的目标待识别电话号码串; 划分模块,适于从初始位置起,根据符合电话号码格式的划分规则对所述目标待 识别电话号码串进行划分,得到第一指定位数的号码串; 识别模块,适于识别出所述第一指定位数的号码串对应的电话号码的类别。 可选地,所述装置还包括: 递归模块,适于在所述识别模块识别出所述第一指定位数的号码串对应的电话号 码的类别之后,若存在剩余的待识别电话号码串,则触发所述预处理模块再次执行预处理 操作、所述划分模块再次执行划分操作以及所述识别模块再次执行识别操作,直至剩余的 待识别电话号码串被全部识别完。 可选地,所述识别模块还适于: 判断所述第一指定位数的号码串是否满足第一类别电话号码的属性特征; 若是,则根据所述第一类别电话号码的属性特征,对所述第一指定位数的号码串 进行补全,得到所述第一指定位数的号码串对应的电话号码。 可选地,所述划分模块,还适于在所述识别模块判断所述第一指定位数的号码串 是否满足第一类别电话号码的属性特征之后,若所述本文档来自技高网...

【技术保护点】
一种识别电话号码的方法,包括:获取原始待识别电话号码串;对所述原始待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串;从初始位置起,根据符合电话号码格式的划分规则对所述目标待识别电话号码串进行划分,得到第一指定位数的号码串;识别出所述第一指定位数的号码串对应的电话号码的类别。

【技术特征摘要】

【专利技术属性】
技术研发人员:马健
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1