基于多约束推理的互联网地理位置信息规范化方法技术

技术编号：11364328 阅读：63 留言：0更新日期：2015-04-29 14:42

本发明专利技术提供一种基于多约束推理的互联网地理位置信息规范化方法，首先利用爬虫从互联网上挖掘需要的原始文本地理信息，然后利用自定义的地理规范化模型，对从互联网中获取的零散的、不易理解的地理信息进行规范化，将他们进行分词，按照规范化的格式进行存储，最后结合贝叶斯公式进行计算判断信息的可信度，进行信息库的更新，使已经建立的规范化的地理文本信息库不断的完善和充实，信息的准确性和可靠性不断的提升。本发明专利技术提出了基于多约束的贝叶斯算法，提高了地理信息的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于多约束推理的互联网地理位置信息规范化方法
本专利技术涉及地理位置信息消歧领域，具体涉及基于多约束推理的互联网地理位置信息规范化方法。
技术介绍
科技的不断发展，人们对生活中各个方面的需求不断提升，服务化社会成为未来发展的趋势。作为服务化中的一种形式，当今地理信息位置服务是通过国家地理信息普查、实地勘察等方式获取数据建立一个标准的中文地址库，然后通过匹配进行信息返回。然而，这种形式存在随着社会的不断发展居民区、道路等因素的不断变化，为标准参考数据集的建立带来障碍。面对这个问题，将互联网看成信息量大，并且不断更新的大型数据库。从互联网中挖掘出相关的地理文本信息弥补地理信息服务中面临的主要问题。互联网的不断发展，网络上正误交织的地理文本信息与日俱增，如何从这些纷繁复杂的信息中，辨别出相对于用户需要的信任度比较高的信息，构建一个正确性相对比较高的地理信息库，在当今地理信息位置服务方面变得十分必要，一个基于多约束推理的地理信息挖掘算法随着用户的需要而产生。兰州大学的杜萍博士将地理本体与中文地名识别与抽取有机结合在一起，重点研究消除地名歧义，设计了一种基于本体的地名识别与抽取框架，并且实现了地名识别与抽取系统，这里只是重点消除歧义并没有综合判断获得的信息的正误。国内外目前有关地理文本信息挖掘方面的研究主要集中在如何有效的主题信息，并没有对所挖掘的地理信息进行有效的判断实现真正意义上的地理信息挖掘。
技术实现思路
本专利技术要解决的技术问题是：提供一种基于多约束推理的互联网地理位置信息规范化方法，本专利技术为解决上述技术问题所采取的技术方案为：一种基于多约束推理的互联网...

【技术保护点】
一种基于多约束推理的互联网地理位置信息规范化方法，其特征在于：它包括以下步骤：S1、通过网络爬虫从互联网上爬取原始地理位置信息，建立原始地理位置信息的语料库；S2、对S1的语料库进行统计，建立行政区划、电话、邮编之间的地址关系，得到规范的地理文本信息，规范化模型为省+市+县+乡镇+村+路；S3、利用建立的地址关系、语料库统计的词频进行地址分词。

【技术特征摘要】
1.一种基于多约束推理的互联网地理位置信息规范化方法，其特征在于：它包括以下步骤：S1、通过网络爬虫从互联网上爬取原始地理位置信息，建立原始地理位置信息的语料库；S2、对S1的语料库进行统计，建立行政区划、电话、邮编之间的地址关系，得到规范的地理文本信息，规范化模型为省+市+县+乡镇+村+路；S3、利用建立的地址关系、语料库统计的词频进行地址分词；S4、定期或不定期的从互联网上获取原始地理位置信息，按S2方法得到规范的地理文本信息，利用贝叶斯算法，对规范的地理文本信息进行推理判断，如果存在有歧义的地址，则对该地址进行...

【专利技术属性】
技术研发人员：李晓林，魏运运，张彦铎，卢涛，段艳会，张玉敏，黄爽，万永静，杨威，
申请(专利权)人：武汉工程大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人