当前位置: 首页 > 专利查询>陈包容专利>正文

从文本中抽取电话号码的方法技术

技术编号:21361686 阅读:42 留言:0更新日期:2019-06-15 09:23
本发明专利技术涉及计算机信息处理技术领域,且公开了从文本中抽取电话号码的方法,包括以下步骤,预先创建专用数据库群;针对已获得的文本内容进行分词,获得分词数据集;针对分词数据集,按照以下规则分步抽取其中的电话号码:检索分词数据集中不低于三个阿拉伯数字的连续组合字符串并将数字汇总成数字文本组合;从数字文本组合的第一个阿拉伯数字开始检索首个数字和其右侧的数字的连续序列组合;最后,根据预先创建的专用数据库群推测和抽取电话号码。本发明专利技术通过对文本内容获得分词数据集并从中筛选数字文本组合,分别按照手机号码与固定电话号码的格式进行逐条匹配性筛选,使得从文本内容中获取的电话号码更加精准,用户可使用性程度高。

Method of Extracting Telephone Numbers from Text

The invention relates to the field of computer information processing technology, and discloses a method of extracting telephone numbers from text, including the following steps: creating a special database group beforehand; partitioning the text content to obtain the participle data set; and extracting telephone numbers step by step according to the following rules for the participle data set: retrieving no less than three A's in the participle data set Lastly, the telephone number is inferred and extracted according to the pre-created special database group. The invention obtains the word segmentation data set from the text content and filters the combination of digital text, and filters the phone number and fixed telephone number according to the format of mobile phone number and fixed telephone number one by one, so that the phone number obtained from the text content is more accurate and the user's usability is high.

【技术实现步骤摘要】
从文本中抽取电话号码的方法
本专利技术涉及计算机信息处理
,具体为从文本中抽取电话号码的方法。
技术介绍
文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科。文本数据挖掘处理的数据类型是文本数据,属于数据挖掘的一个分支,与机器学习、自然语言处理、数理统计等学科具有紧密联系。文本挖掘在很多应用中都扮演重要角色,例如数据采集、信息抽取(例如互联网搜索)等。文本信息抽取是文本数据挖掘的一个基础技术。文本信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成,例如句子、段落、篇章,文本信息则是由一些小的、具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的联系方式、邮箱地址、社交号码、短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。抽取文本数据中的手机和座机号码,以便于用户对文本中的手机和座机号码进行存储、转发或拨号时,免于用户临时记忆号码的麻烦,目前,对于文本中的号码抽取,通过阿拉伯数字识别提取,默认为电话号码,该技术方案实现,精准率比较低,会导致提取信息出错、用户无法使用的问题。
技术实现思路
针对
技术介绍
中提出的现有技术问题,本专利技术提供了从文本中抽取电话号码的方法,旨在解决上述
技术介绍
中提出的电话号码识别抽取存在的精准率较低、提取信息出错、用户无法使用的问题。本专利技术提供如下技术方案:从文本中抽取电话号码的方法,包括以下步骤:S1、预先创建专用数据库群;S2、针对已获得的文本内容进行分词,获得分词数据集;S3、针对所述分词数据集,按照以下规则分步抽取其中的电话号码:首先,检索所述分词数据集中不低于三个阿拉伯数字的连续组合字符串并将数字汇总成数字文本组合;然后,从所述数字文本组合的第一个阿拉伯数字开始检索首个数字和其右侧的数字的连续序列组合;最后,根据预先创建的专用数据库群推测和抽取电话号码。优选的,所述专用数据库群包括电话号码前缀库、电话号码国际区号库、手机号码组成规则库、固定电话号码组成规则库、特殊号码库、间隔符号库、正常空格的数目阈值规则库,所述手机号码组成规则库包括手机号段部分和手机号码部分,所述固定电话号码组成规则库包括固定电话区号部分和固定电话号码部分。优选的,所述根据预先创建的专用数据库群推测和抽取电话号码包括,根据预先创建的专用数据库群中的特殊号码库,检索匹配是否为特殊号码,若是则抽取为特殊号码;否则,继续推测和抽取手机号码或固定电话号码。优选的,所述推测和抽取手机号码按以下规则进行,是否为电话号码前缀+电话号码国际区号+手机号段+手机号码部分的序列组合,若是,则抽取为手机号码;是否为电话号码国际区号+手机号段+手机号码部分的序列组合,若是,则抽取为手机号码;是否为手机号段+手机号码部分的序列组合,若是,则抽取为手机号码。优选的,所述推测和抽取固定电话号码按以下规则进行,是否为电话号码前缀+电话号码国际区号+固定电话区号+固定电话号码部分的序列组合,若是,则抽取为固定电话号码;是否为电话号码前缀+电话号码国际区号+去掉第一个零的固定电话区号+固定电话号码部分的序列组合,若是,则抽取为固定电话号码;是否为电话号码国际区号+固定电话区号+固定电话号码部分的序列组合,若是,则抽取为固定电话号码;是否为电话号码国际区号+去掉第一个零的固定电话区号+固定电话号码部分的序列组合,若是,则抽取为固定电话号码;是否为固定电话区号+固定电话号码部分的序列组合,若是,则抽取为固定电话号码。优选的,所述正常空格的数目阈值规则库包括:用户自定义设定空格字符数量阈值,根据两个规则判断空格数目是否正常;若电话号码文本中的空格字符数量低于设定的数目阈值,默认为合法正常的空格,系统自动删除空格;若电话号码文本中的空格字符数量高于设定的数目阈值,则默认为不合法不正常的空格,系统不予计算。优选的,所述正常空格的数目阈值规则库和间隔符号库还用于辅助生成所述数字文本组合,包括:阿拉伯数字之间允许有低于所述正常空格的数目阈值规则库中用户自定义设定空格字符数量阈值的空格,以及所述间隔符库中的间隔符,如有,系统自动删除所述空格和间隔符,将剩下的数字汇总成数字文本组合;阿拉伯数字之间有高于所述正常空格的数目阈值规则库中用户自定义设定空格字符数量阈值的空格,则系统自动将所述空格两侧的数字组合切分为单独的数字文本组合。优选的,步骤S2中,已获得的所述文本内容为电子格式的面向计算机信息处理的文字组合。优选的,所述专用数据库群中的所有数据库均支持用户自定义增减数据。本专利技术具备以下有益效果:1、本专利技术通过对文本内容获得分词数据集并从中筛选数字文本组合,分别按照手机号码与固定电话号码的格式进行逐条匹配性筛选,使得从文本内容中获取的电话号码更加精准,用户可使用性程度高。2、本专利技术通过将专用数据库群的建立和数字文本组合的筛选采用同一规则库数据,可保证检索匹配过程的正常进行,保证电话号码抽取的精准率,同时可有效提高系统匹配运行的效率。附图说明图1为本专利技术方法流程框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,从文本中抽取电话号码的方法,包括以下步骤:S1、预先创建专用数据库群;S2、针对已获得的文本内容进行分词,获得分词数据集;S3、针对分词数据集,按照以下规则分步抽取其中的电话号码:首先,检索分词数据集中不低于三个阿拉伯数字的连续组合字符串并将数字汇总成数字文本组合;然后,从数字文本组合的第一个阿拉伯数字开始检索首个数字和其右侧的数字的连续序列组合;最后,根据预先创建的专用数据库群推测和抽取电话号码。通过对数字文本组合与专用数据库群的检索比对,对直接提取的数字串进行再筛选,以获到符合电话号码格式的可用电话号码,抽取结果的精准率高,获得的电话号码信息可用性程度高。其中,专用数据库群包括电话号码前缀库、电话号码国际区号库、手机号码组成规则库、固定电话号码组成规则库、特殊号码库、间隔符号库、正常空格的数目阈值规则库,手机号码组成规则库包括手机号段部分和手机号码部分,固定电话号码组成规则库包括固定电话区号部分和固定电话号码部分。其中,电话号码前缀库包括【00】、【*】、【+】等;电话号码国际区号是指国际电信联盟根据E.164标准分配给各国或特殊行政区的代码,包括86、886、852等;特殊号码库包括119、120、114、95555、95511、10000等;间隔符号库包括【-】、【_】、【\】、【/】、【——】、【*】、【#】、【~】等;手机号段部分包括133、149、153、173、177、180、181、189、191、199、130、131、132、145、155、156、166、171、175、176、185、186、134、135、136、137、138、139、147、150、151、152、157、158、159、172、178、182、183、184、187、本文档来自技高网...

【技术保护点】
1.从文本中抽取电话号码的方法,其特征在于,包括以下步骤:S1、预先创建专用数据库群;S2、针对已获得的文本内容进行分词,获得分词数据集;S3、针对所述分词数据集,按照以下规则分步抽取其中的电话号码:首先,检索所述分词数据集中不低于三个阿拉伯数字的连续组合字符串并将数字汇总成数字文本组合;然后,从所述数字文本组合的第一个阿拉伯数字开始检索首个数字和其右侧的数字的连续序列组合;最后,根据预先创建的专用数据库群推测和抽取电话号码。

【技术特征摘要】
1.从文本中抽取电话号码的方法,其特征在于,包括以下步骤:S1、预先创建专用数据库群;S2、针对已获得的文本内容进行分词,获得分词数据集;S3、针对所述分词数据集,按照以下规则分步抽取其中的电话号码:首先,检索所述分词数据集中不低于三个阿拉伯数字的连续组合字符串并将数字汇总成数字文本组合;然后,从所述数字文本组合的第一个阿拉伯数字开始检索首个数字和其右侧的数字的连续序列组合;最后,根据预先创建的专用数据库群推测和抽取电话号码。2.根据权利要求1所述的从文本中抽取电话号码的方法,其特征在于:所述专用数据库群包括电话号码前缀库、电话号码国际区号库、手机号码组成规则库、固定电话号码组成规则库、特殊号码库、间隔符号库、正常空格的数目阈值规则库,所述手机号码组成规则库包括手机号段部分和手机号码部分,所述固定电话号码组成规则库包括固定电话区号部分和固定电话号码部分。3.根据权利要求2所述的从文本中抽取电话号码的方法,其特征在于:所述根据预先创建的专用数据库群推测和抽取电话号码包括,根据预先创建的专用数据库群中的特殊号码库,检索匹配是否为特殊号码,若是则抽取为特殊号码;否则,继续推测和抽取手机号码或固定电话号码。4.根据权利要求3所述的从文本中抽取电话号码的方法,其特征在于:所述推测和抽取手机号码按以下规则进行,是否为电话号码前缀+电话号码国际区号+手机号段+手机号码部分的序列组合,若是,则抽取为手机号码;是否为电话号码国际区号+手机号段+手机号码部分的序列组合,若是,则抽取为手机号码;是否为手机号段+手机号码部分的序列组合,若是,则抽取为手机号码。5.根据权利要求3所述的从文本中抽取电话号码的方法,其特征在于:所述推测和抽取固定电话号码按以下规则进行,是否为电话号码前缀+电话号码国际区号+固定电话区号+固定电话号...

【专利技术属性】
技术研发人员:陈包容
申请(专利权)人:陈包容
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1