当前位置: 首页 > 专利查询>杨志远专利>正文

一种自动识别地址信息的方法技术

技术编号:7700419 阅读:192 留言:0更新日期:2012-08-23 05:48
本发明专利技术公开了一种自动识别地址信息的方法,通过将预先建立的信息点数据库中的地址数据与待识别文字进行匹配来查找待识别文字中的地址信息,能够保证识别结果准确无误。通过将具体地址与文字索引相关联,可以自动识别出来文字索引标识的地址,并且将该文字索引所关联的具体地址信息提供给用户,极大的方便了用户使用。

【技术实现步骤摘要】

本专利技术涉及一种文字识别
,具体涉及一种从文字内容中提取地址信息的方法。
技术介绍
随着互联网应用的快速发展,从计算机浏览器和移动设备上的文字内容中提取各种联系信息的需求越来越大,例如从所述文字内容中提取电话号码,电子邮件或地址信息。各种联系信息的准确提取能够使用户的互联网应用更方便、更丰富。现有的从文字内容中自动识别地址信息的方法,主要是通过对待识别文字内容进行语义分析,从而提取出其中包含有诸如“**路**号”的特定字符的地址信息。例如,当待识别文字内容中包含“路、街道、街”等词,同时后面还包括数字以及“号”的时候,将其作为地址信息提取出来。现有识别方法需要较强的语义分析功能,但识别效果又往往受待分析文字特点的限制,往往不能对地址信息进行准确地识别。并且,现有识别方法也仅能识别到类似于“某某路128号”这样标准表达的地址信息,对于该地址对应的“某某咖啡馆”这样的人们常用地址信息简称却无法识别。因此,需要提供一种全新的从文字内容中自动识别地址信息的方法。
技术实现思路
本专利技术提供,通过将预设的信息点数据库中的地址与待识别文字进行匹配,从而能够快速准确的找到待识别文字中包含的地址信息,方便用户使用。本专利技术提供的自动识别地址信息的方法,包括如下步骤获取待识别文字;将待识别文字与预先设置的信息点数据库中的信息点数据进行匹配,以判断所述待识别文字中是否包含与所述信息点数据相同的文字。其中,所述信息点数据包括文字索引和与所述文字索引相对应的具体地址;所述匹配步骤为将所述待识别文字与所述文字索引进行匹配。具体的,所述匹配步骤包括以标点符号为分隔点对所述待识别文字进行分节;将每一节待识别文字与信息点数据库中的文字索引进行匹配。具体的,所述信息点数据库包括双字索引库,所述双字索引库的文字索引包含至少两个汉字。其中所述双字索引库的文字索引包括第一级索引和第二级索引,所述第一级索引对应多个第二级索引,所述第二级索引与所述具体地址一一对应。优选的,所述第一级索引的内容为所述第二级索引的前两个字。所述信息点数据库还可以包括外文索引库和/或单字索引库;其中外文索引库的文字索引为英文字母或数字,单字索引库的文字索引为单个汉字且该单个汉字不能为所述双字索引库的文字索引的首字。更进一步地,所述待识别文字为移动终端上或计算机浏览器上显示的文字信息,则所述自动识别地址信息的方法还包括在所显示的文字信息上对识别到的文字进行注释,并设置超链接。具体的,所述注释为下列方式中的一种或者几种高亮显示、反色显示、下划线。所述超链接为下列链接中的一种或者几种-所述超链接连接到地图,并在地图上显示该文字对应的具体地址; -所述超链接连接到移动设备的导航软件,直接将该代表地址信息的文字所对应的具体地址设为导航目的地,进入路线引导;-所述超链接连接到计算机的通信程序,将该代表地址信息的文字和/或其对应的具体地址发送到移动设备;-所述超链接连接到移动设备的即时通信程序,将该代表地址信息的文字和/或其对应的具体地址发送到其他移动设备;-所述超链接连接到微博,通过微博可以分享该文字对应的具体地址;-所述超链接连接到搜索引擎,通过搜索引擎搜索该文字对应的具体地址和/或所述具体地址的周边设施。更进一步地,用户或运营商都可以向所述信息点数据库中不断添加信息点数据,以丰富和完善所述信息点数据库。需要对用户添加的信息点数据的真实性和合法性进行审核,将审核通过的信息点数据加到信息点数据库中,避免信息点数据库中出现错误的或者不合法的地址位置数据。本专利技术提供的自动识别地址信息的方法,通过将预先建立的信息点数据库中的地址数据与待识别文字进行匹配来查找待识别文字中的地址信息,不受当前语义识别方法的限制,快速且准确地识别出人们日常生活中常用的地址信息简称。通过将具体地址与文字索引相关联,还能进一步自动识别出所述地址信息简称对应的具体地址。本专利技术所述方法与计算机浏览器和移动终端的短信、微博、导航等应用相结合,能为用户提供丰富、便利的应用体验。附图说明图I为本专利技术实施例所述的自动识别地址信息的流程图;图2为本专利技术实施例所述的单字索引库示意图;图3为本专利技术实施例所述的外文索引库示意图;图4为本专利技术实施例所述的双字二级索引库示意图;图5为本专利技术实施例所述的具体匹配过程示意图。具体实施例方式下面结合附图对本专利技术的具体实施方式进行进一步说明。本专利技术提供一种从移动终端或计算机浏览器的文字信息中自动识别地址信息的方法,如图I中所示,包括步骤101,获取待识别文字。所述待识别文字可以为移动终端的文字信息;当用户通过移动终端浏览短信、彩信、邮件、SNS的短信或者微博时候,用户所浏览的信息的文字部分即为所述移动终端文字信息。移动终端通过后台进程对所述移动终端文字信息进行捕获,获得待识别文字。可替换地,当用户通过计算机浏览器浏览互联网网页的时候,所述待识别文字可以为用户正在浏览的网页的文字部分。计算机通过后台进程对所浏览的网页文字进行捕获,获得待识别文字。步骤102,将待识别文字中的内容与预先设置的信息点数据库中的信息点数据进行匹配。如果匹配成功,则继续步骤103,否则结束。具体的,所述信息点数据库中的信息点数据包括文字索引部分以及对应的具体地址部分。在日常生活中,人们常用某个简称来指代一具体地址,因此本专利技术将日常生活中常用地址信息的简称作为文字索引,在信息点 数据库中同时保存所述文字索引以及所述文字索引所指代的具体地址。例如,在本专利技术的信息点数据库中,一条信息点数据的文字索引为“北大”,其对应的具体地址为“北京市海淀区颐和园路5号”;或者一条信息点数据的文字索引为“五道口华联”,其对应的具体地址为“北京市海淀区成府路28号”。在将待识别文字与信息点数据进行匹配时,只需将所述待识别文字与信息点数据库中的文字索引进行匹配。如果匹配成功,则表示待识别文字中含有与信息点数据库中的文字索引(即,常用地址信息的简称)相同的文字。通过匹配,能够快速且准确地识别出人们常用的地址信息的简称,而不仅仅局限于包括了诸如“**区**路**号”的特定字符的地址信息。所述信息点数据库预先建立于网络侧服务器端,以方便所有与网络侧服务器端联网的用户都可以使用该信息点数据库。步骤103,对识别到的代表地址信息的文字进行注释,设置超链接。具体的,所述注释可以为下列方式中的一个或者多个下划线、高亮显示、反色显示等,便于用户注意地址信息。当然,所述注释还可以为其他方式,只要能够使被注释的文字与其他文字能够区别开即可。具体的,所述超链接可以包括下列链接中的一个或者多个所述超链接连接到地图,并在地图上显示该代表地址信息的文字和/或其对应的具体地址;所述超链接连接到移动设备的导航软件,直接将该代表地址信息的文字所对应的具体地址设为导航目的地,进入路线引导;所述超链接连接到计算机的通信程序,将该代表地址信息的文字和/或其对应的具体地址发送到移动设备;所述超链接连接到移动设备的诸如短信的即时通信程序,将该代表地址信息的文字和/或其对应的具体地址发送到其他移动设备;所述超链接连接到微博,通过微博可以分享该代表地址信息的文字和/或其对应的具体地址;所述超链接连接到搜索引擎,通过搜索引擎搜索该代表地址信息的文字和/或其对应的具体地址,进而可以查本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种自动识别地址信息的方法,包括步骤 获取待识别文字; 将待识别文字与预先设置的信息点数据库中的信息点数据进行匹配,以判断所述待识别文字中是否包含与所述信息点数据相同的文字; 其中,所述信息点数据包括文字索引和与所述文字索引相对应的具体地址;所述匹配步骤为将所述待识别文字与所述文字索引进行匹配。2.根据权利要求I所述的自动识别地址信息的方法,其中所述待识别文字为移动終端上或计算机浏览器上显示的文字信息,所述方法进ー步包括步骤 在所显示的文字信息上对识别到的文字进行注释,并设置超链接。3.根据权利要求I或2所述的自动识别地址信息的方法,所述匹配步骤包括 以标点符号为分隔点对所述待识别文字进行分节; 将每ー节待识别文字与信息点数据库中的文字索引进行匹配。4.根据权利要求I至3之任一所述的自动识别地址信息的方法,其中所述信息点数据库包括双字索引库,所述双字索引库的文字索引包含至少两个汉字。5.根据权利要求4所述的自动识别地址信息的方法,其中所述双字索引库的文字索引包括第一级索引和第二级索引,所述第一级索引对应多个第二级索引,所述第二级索引与具体地址——对应; 其中,与同一第一级索引相对应的多个第二级索引在首位具有两个相同的汉字,且所述同一第一级索引即为所述两个相同的汉字。6.根据权利要求5所述的自动识别地址信息的方法,所述匹配步骤包括 将待识别文字与第一级索引进行匹配; 如待识别文字包含与第一级索引相同的文字,将所述待识别文字与所述第一级索引对应的多个第二级索引依次进行匹配。7.根据权利要求6...

【专利技术属性】
技术研发人员:杨志远
申请(专利权)人:杨志远
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1