一种识别手机号的方法、装置、设备和介质制造方法及图纸

技术编号:26479260 阅读:67 留言:0更新日期:2020-11-25 19:23
本发明专利技术提供一种识别手机号的方法、装置、设备和介质,方法包括:S1、获取数据源,所述数据源为文件内无固定格式要求的文档文件,所述文档文件为excel文件、word文件或PDF文件;S2、确定文档文件的扫描范围;S3、获取所述扫描范围内的文字和/或图像,所述图像包括由纸件文件经扫描或拍照并插入至文档文件内的图像,若获取到图像,则利用训练库采用Tess4J的Tesseract.doOCR方法将图像转换成对应的文字;S4、根据正则匹配规则对文字进行匹配,识别出手机号码。本发明专利技术可以对文件内无固定格式要求的文档文件的手机号码进行识别,包括识别由纸件文件经扫描或拍照并插入至文档文件内的图像上的手机号码。

【技术实现步骤摘要】
一种识别手机号的方法、装置、设备和介质
本专利技术涉及计算机
,特别涉及一种手机号进行识别的方法、装置、设备和介质,可以对非标准格式文档上的手机号进行识别。
技术介绍
在实践应用中,很多情况会通过Excel来记录批量的手机号,比如通讯运营商面向用户的问卷调查表,目前电脑系统可以直接识别到手机号,进而对手机号进行发送短信等操作。但是存在如下不足:(1)大多只能识别固定格式Excel文档,若格式发生变化,则需要线下人员先手动整理成标准Excel格式文件才可以进行识别,从而严重降低了工作效率;(2)无法进行图片识别,比如Excel原始电子数据丢失或者难以获得,只有纸质版的数据,经拍照或扫描后形成图片放入Excel文件中,则无法进行识别;(3)每次且只能是单页识别,且识别后无法对手机号进行分类统计,既不能实现有效号码与无效号码的分类,也不能实现不同地区号码的分类。于20190906公开的,公开号为CN110210488A的中国专利技术揭示了一种快递运单上条形码和手机号的识别方法,包括:获取待处理图片,待处理图片包括本文档来自技高网...

【技术保护点】
1.一种识别手机号的方法,其特征在于:包括下述步骤:/nS1、获取数据源,所述数据源为文件内无固定格式要求的文档文件,所述文档文件为excel文件、word文件或PDF文件;/nS2、确定文档文件的扫描范围:/n若是excel文件,通过Apache POI技术捕捉到每页内容占据的行和列,从而确定扫描范围;/n若是word文件或PDF文件,所有页面即为扫描范围;/nS3、获取所述扫描范围内的文字和/或图像,所述图像包括由纸件文件经扫描或拍照并插入至文档文件内的图像,若获取到图像,则利用训练库采用Tess4J的Tesseract.doOCR方法将图像转换成对应的文字;/nS4、根据正则匹配规则对文...

【技术特征摘要】
1.一种识别手机号的方法,其特征在于:包括下述步骤:
S1、获取数据源,所述数据源为文件内无固定格式要求的文档文件,所述文档文件为excel文件、word文件或PDF文件;
S2、确定文档文件的扫描范围:
若是excel文件,通过ApachePOI技术捕捉到每页内容占据的行和列,从而确定扫描范围;
若是word文件或PDF文件,所有页面即为扫描范围;
S3、获取所述扫描范围内的文字和/或图像,所述图像包括由纸件文件经扫描或拍照并插入至文档文件内的图像,若获取到图像,则利用训练库采用Tess4J的Tesseract.doOCR方法将图像转换成对应的文字;
S4、根据正则匹配规则对文字进行匹配,识别出手机号码。


2.根据权利要求1所述的一种识别手机号的方法,其特征在于:若所述文档文件为excel文件,并包括一个以上的待识别的sheet页,则:
所述步骤S2具体是:循环excel文件的待识别的sheet页,使用ApachePOI技术捕捉每个待识别的sheet页中的最小行列和最大行列,从而确定文档文件的扫描范围;
所述步骤S4中具体是:根据正则匹配规则对文字进行匹配,分别识别出每个待识别的sheet页中的手机号码和无效号码,将识别出的手机号码存放于一对应的识别结果sheet页中,然后还对每个识别结果sheet页中手机号码的数量进行统计。


3.根据权利要求2所述的一种识别手机号的方法方法,其特征在于:还包括步骤:
S5、发送短信至识别出的手机号码,然后将成功发送短信的手机号码按识别结果sheet页进行统计,且统计后还通过饼图或柱状图进行分类显示。


4.根据权利要求1所述的一种识别手机号的方法方法,其特征在于:
所述步骤S2中,确定文档文件的扫描范围具体是:
若是excel文件,通过ApachePOI技术捕捉到每页内容占据的行和列,从而确定扫描范围;
若是word文件或PDF文件,所有页面即为扫描范围;
所述步骤S3中,获取所述扫描范围内的文字和/或图像具体是:
若是excel文件,根据行数进行sheet页文件的行列扫描,获取到sheet页中所有文字,对于每页内容中的图片,则用ApachePOI的XSSFDrawing对象获取到所有图片的图片流进行存储;
若是word文件,则利用ApachePOI的WordExtractor对象进行word文件内容的获取,对于每页内容中的图片,则利用ApachePOI的XWPFDocument对象的getParagraphs()函数进行获取;
若是PDF文件,则通过第三方工具包FreeSpire.PDFforJava调用函数extractText()和extractImages()分别进行文字和图片的获取;
所述步骤S4中,所...

【专利技术属性】
技术研发人员:黄家昌黄民杨辉邱道椿
申请(专利权)人:福建亿能达信息技术股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1