地名地址识别方法技术

技术编号：14805630 阅读：39 留言：0更新日期：2017-03-15 00:17

本发明专利技术提出一种地名地址识别方法，包括：设置一地名词典库以及一地址要素库，所述地名词典库中存储多个地名，所述地址要素库存储多个地址要素；根据预设的切分长度对待识别的未登录地址进行切分，获取匹配子串；将切分获得的所述匹配子串与所述地名词典库中的地名进行匹配；将匹配成功的匹配子串与所述地址要素库中的地址要素进行比对；将比对结果中存在一致地址要素的匹配子串确定为识别出的地名地址。本发明专利技术引入地名地址要素的概念，通过检查地名地址要素的完整性和处理不能识别的地址名称，建立基于地址要素的未登录地址名称识别机制，进一步改进分词算法，达到精确切分地名地址串的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机领域，特别涉及一种地名地址识别方法。
技术介绍
在汉语中，词是最小的能够独立活动的有意义的语言单位。中文分词是按照特定的规范将汉语中连续的字序列切分为合理的词序列的过程，它是中文信息处理的基础。常用的分词算法有机械分词法和统计分词法。按照匹配方向前者又分为正向最大匹配法、逆向最大匹配法和双向最大匹配法。以上算法从不同侧面(解决未登录词、歧义分析和分词效率)优化了中文分词算法。地名地址分词是中文分词在地名地址中的应用。它是将地名地址串拆分成若干地理要素的过程。地名地址分词广泛应用于信息检索、中文地理编码和地址信息识别等多方面。一个地名地址分词算法好不好，关键看该算法对词典未登录词的识别能力。由于我国地址名称多，词典无法覆盖全国地址名称，因此算法对未登录地址名称的识别能力成为分词算法的瓶颈，解决算法对未登录地址名称的识别问题成为分词的首要问题。
技术实现思路
本专利技术实施例的目的是提供一种地名地址识别方法，以解决现有的地址识别方法识别能力低的问题。本专利技术实施例提出一种地名地址识别方法，包括：设置一地名词典库以及一地址要素库，所述地名词典库中存储多个地名，所述地址要素库存储多个地址要素；根据预设的切分长度对待识别的未登录地址进行切分，获取匹配子串；将切分获得的所述匹配子串与所述地名词典库中的地名进行匹配；将匹配成功的匹配子串与所述地址要素库中的地址要素进行比对；将比...

【技术保护点】
一种地名地址识别方法，其特征在于，包括：设置一地名词典库以及一地址要素库，所述地名词典库中存储多个地名，所述地址要素库存储多个地址要素；根据预设的切分长度对待识别的未登录地址进行切分，获取匹配子串；将切分获得的所述匹配子串与所述地名词典库中的地名进行匹配；将匹配成功的匹配子串与所述地址要素库中的地址要素进行比对；将比对结果中存在一致地址要素的匹配子串确定为识别出的地名地址。

【技术特征摘要】
1.一种地名地址识别方法，其特征在于，包括：
设置一地名词典库以及一地址要素库，所述地名词典库中存储多个地名，所述地址要
素库存储多个地址要素；
根据预设的切分长度对待识别的未登录地址进行切分，获取匹配子串；
将切分获得的所述匹配子串与所述地名词典库中的地名进行匹配；
将匹配成功的匹配子串与所述地址要素库中的地址要素进行比对；
将比对结果中存在一致地址要素的匹配子串确定为识别出的地名地址。
2.如权利要求1所述的地名地址识别方法，其特征在于，
所述地名地址识别方法还包括：设置一特殊符号词典库，所述特殊符号词典库中存储
多个特殊符号；
所述根据预设的切分长度对待识别的未登录地址进行切分，获取匹配子串的步骤之前
包括：将待识别的未登录地址与所述特殊符号词典库进行匹配，去除待识别的未登录地址
中的特殊符号。
3.如权利要求1所述的地名地址识别方法，其特征在于，所述根据预设的切分长度对待
识别的未登录地址进行切分，获取匹配子串的步骤中，采用正向最大匹配法对待识别的未
登录地址进行分词。
4.如权利要求1所述的地名地址识别方法，其特征在于，所述地名词典库中包括词典正
文、词索引表以及首字散列表。
5.如权利要求4所述的地名地址识别方法，其特征在于，所述词典正文包括常用汉语词
条、数字词条和地名地址词条。
6.如权利要求1所述的地名地址识别方法...

【专利技术属性】
技术研发人员：梁丰，王遵义，翁时锋，
申请(专利权)人：浙江万里学院，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人