自动提取网址并自动打开网页的方法技术

技术编号:5350651 阅读:594 留言:0更新日期:2012-04-11 18:40
本发明专利技术揭示了一种自动提取网址并自动打开网页的方法,所述方法包括如下步骤:使用光学字符识别技术识别图像中的文字,并自动判断识别出来的文字中是否包含网址;如果包含网址则自动打开浏览网页的软件,自动连接网络并打开所述网址指向的网页。本发明专利技术提出的结合光学字符识别技术自动提取网址并自动打开网页的方法,使得用户可以通过拍摄打印在各种材料上的网址来自动打开所述网址指向的网页;该方法提高了人们使用互联网的便利性。

【技术实现步骤摘要】

本专利技术属于文字识别
,涉及一种打开网页的方法,尤其涉及一种结合光 学字符识别技术。
技术介绍
目前摄像头已经在手机和微机中广泛使用,利用图像处理和光学字符识别(OCR, Optical Character Recognition)的原理,对相机拍摄或扫描仪扫描得到的图像进行处理 和识别,获取图像中的文字的技术也已得到广泛使用,典型的如用手机中自带的相机拍摄 名片的图像,通过图像处理和OCR技术识别出其中的文字来,并提取其中包含的姓名,电话 等有用信息加入到地址簿中去。利用图像处理和光学字符识别技术来拍摄识别文字一般会有错误,对扫描的图 像,因为图像很清楚错误会比较少,而对相机拍摄的图像,由于环境光线,拍摄时的聚焦,抖 动等问题的存在不可避免地会造成图像的质量下降,进而造成OCR识别出来的文字中错误 会比扫描的图像OCR出来的文字中错误多很多。而从光学字符技术的基本原理来说,对同 类的,或者说拍摄质量相似的图像而言,需要进行辨别的不同字符的数量越多,错误可能性 越大,比如说,在同样的图像上,如果只需要识别“0”到“9” 10个数字字符,其准确率会高 于需要识别包括“0”到“9” 10个数字字符和“A”到“Z”在内的26个英文字符一共36个 字符的准确率。也就是说,如果我们事先知道需要用OCR技术进行识别的文字的类型,就可 以利用这个信息来限制需要OCR识别的字符个数,从而提高识别的准确率,减少出错的可 能。比如说,如果我们事先知道需要识别的就是电话号码,那么我们在使用OCR技术进行识 别的时候就可以只识别能合法出现在电话号码中的字符,从而提高识别的准确率。另一个 方面,由于OCR技术识别出来的文字不可避免地会存在错误,所以一般都会利用其他的信 息对识别的结果进行后处理,起到矫正错误的作用。这个方面常用的方法包括里利用英文 字典来校正英文OCR识别的结果,利用中文中的出现频率较高的词语,以及利用中文的上 下文关系来校正汉字OCR识别的结果。如果事先知道需要用OCR技术进行识别的文字的类 型,同样可以提高对识别结果的后处理的准确率,比如说,如果我们事先知道需要识别的一 行文字是email或网址,就可以根据email或网址的构成规则,常见字符串如“.com”等来对 OCR识别的结果进行校正,从而提高识别的准确率,如果我们事先知道需要识别的一行文字 是地址,就可以根据地址中的高频词语和上下文关系来提高识别的准确率。互联网已经成为人们在日常生活中不可缺少的一部分,手机等各种电子设备上一 般都带有浏览网页的软件,如微软的internet explorer,目前要利用这些浏览网页的软件 来打开网页,有两种方式,一种方式是对已经存储在电子设备上的网址,可以点击该网址而 自动启动浏览网页的软件并连接网络打开该网址指向的网页。另一种方式是先人工打开浏 览网页的软件,然后手工输入要打开的网址。人们在日常生活中经常会看到打印在纸张上的网址,如广告宣传页上印的公司或 产品的网址等等。用户看到这些文字描述的网址以后经常需要打开这些网页看看。而在目前的方式下,用户只能先打开电子设备上自带的浏览网页的软件,然后在地址栏中手工输 入印刷品上的网址。这给用户带来了不便。
技术实现思路
本专利技术所要解决的技术问题是提供一种, 可提高人们访问互联网的便利性。为解决上述技术问题,本专利技术采用如下技术方案一种,所述方法包括如下步骤使用光学字符识别技术识别图像中的文字,并自动判断识别出来的文字中是否包 含网址;如果包含网址则自动打开浏览网页的软件,自动连接网络并打开所述网址指向的 网页。作为本专利技术的一种优选方案,所述方法具体包括如下步骤步骤101,获取图像;步骤102,用户指定图像中特定区域;步骤103,分析并识别所指定图像区域中的文字;步骤104,判断所识别出来的文字中是否包含网址;如果答案为是,则转到步骤 105 ;否则转到步骤106 ;步骤105,自动打开浏览网页的软件,连接到互联网,并自动打开所述网址指向的 网页;步骤106,结束。作为本专利技术的一种优选方案,所述步骤101中,通过摄像单元拍摄或者扫描仪扫 描获取图像,或者通过存储载体复制得到;或者通过摄像单元无需拍摄,仅获取预览图像;所述步骤102中,用户指定图像中特定区域包括图像本身的全部区域,或者包括 用户选定的图像的一部分;所述步骤103中,分析并识别所指定图像区域中的文字,查找图像区域中的文字, 并利用OCR技术进行识别。作为本专利技术的一种优选方案,所述步骤102中,用户指定图像中特定区域包括图 像本身的全部区域,或者包括用户用一个矩形框限定的属于图像一部分的矩形区域。作为本专利技术的一种优选方案,所述步骤104中,判断所识别出来的文字中是否包 含网址的方法如下针对常见的网址表示方式建立匹配的模版;将识别出来的字符串与建立的各模板进行匹配,若匹配成功,返回答案为是;否则 返回答案为否。作为本专利技术的一种优选方案,所述步骤105中,在连接到互联网之前,先将识别后 的网址呈现给用户查看,经过用户确认或修改后,再自动打开浏览网页的软件,连接到互联 网,并自动打开所述网址指向的网页。一种,所述方法包括如下步骤步骤201,获取图像;步骤202,用户指定图像中特定区域;步骤203,分析并识别所指定图像区域中的文字;步骤204,判断所识别出来的文字中是否包含网址;如果答案为是,则转到步骤 205 ;否则转到步骤208 ;步骤205,提示用户识别出来的文字中包含网址,由用户选择是否打开网页;如果 答案为是,则转到步骤206,否则转到步骤208 ;步骤206,已知需要识别的文字是网址,对所述指定图像区域中的文字进行重新识 别;步骤207,自动打开浏览网页的软件,连接到互联网,并自动打开所述网址指向的 网页;步骤208,结束。作为本专利技术的一种优选方案,所述步骤201中,通过摄像单元拍摄或者扫描仪扫 描获取图像,或者通过存储载体复制得到;或者通过摄像单元无需拍摄,仅获取预览图像;所述步骤202中,用户指定图像中特定区域包括图像本身的全部区域,或者包括 用户选定的图像的一部分;所述步骤203中,分析并识别所指定图像区域中的文字,查找图像区域中的文字, 并利用OCR技术进行识别。作为本专利技术的一种优选方案,所述步骤202中,用户指定图像中特定区域包括图 像本身的全部区域,或者包括用户用一个矩形框限定的属于图像一部分的矩形区域。作为本专利技术的一种优选方案,所述步骤207中,判断所识别出来的文字中是否包 含网址的方法如下针对常见的网址表示方式建立匹配的模版;将识别出来的字符串与建 立的各模板进行匹配,若匹配成功,返回答案为是;否则返回答案为否。本专利技术的有益效果在于本专利技术提出的结合光学字符识别技术自动提取网址并自 动打开网页的方法,使得用户可以通过拍摄打印在各种材料上的网址来自动打开所述网址 指向的网页;该方法提高了人们使用互联网的便利性。附图说明图1为实施例一中本专利技术自动打开网页方法的流程图。图2为实施例二中本专利技术自动打开网页方法的流程图。具体实施例方式下面结合附图详细说明本专利技术的优选实施例。实施例一请参阅图1,本专利技术揭示了一种,所述方法包 括如下步骤步骤101获取图像。可通过摄像单元拍摄或者扫描仪扫描获取图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:镇立新罗希平陈青山曹超阳
申请(专利权)人:上海合合信息科技发展有限公司
类型:发明
国别省市:31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1