地名地址识别方法技术

技术编号:14805630 阅读:39 留言:0更新日期:2017-03-15 00:17
本发明专利技术提出一种地名地址识别方法,包括:设置一地名词典库以及一地址要素库,所述地名词典库中存储多个地名,所述地址要素库存储多个地址要素;根据预设的切分长度对待识别的未登录地址进行切分,获取匹配子串;将切分获得的所述匹配子串与所述地名词典库中的地名进行匹配;将匹配成功的匹配子串与所述地址要素库中的地址要素进行比对;将比对结果中存在一致地址要素的匹配子串确定为识别出的地名地址。本发明专利技术引入地名地址要素的概念,通过检查地名地址要素的完整性和处理不能识别的地址名称,建立基于地址要素的未登录地址名称识别机制,进一步改进分词算法,达到精确切分地名地址串的目的。

【技术实现步骤摘要】

本专利技术涉及计算机领域,特别涉及一种地名地址识别方法
技术介绍
在汉语中,词是最小的能够独立活动的有意义的语言单位。中文分词是按照特定的规范将汉语中连续的字序列切分为合理的词序列的过程,它是中文信息处理的基础。常用的分词算法有机械分词法和统计分词法。按照匹配方向前者又分为正向最大匹配法、逆向最大匹配法和双向最大匹配法。以上算法从不同侧面(解决未登录词、歧义分析和分词效率)优化了中文分词算法。地名地址分词是中文分词在地名地址中的应用。它是将地名地址串拆分成若干地理要素的过程。地名地址分词广泛应用于信息检索、中文地理编码和地址信息识别等多方面。一个地名地址分词算法好不好,关键看该算法对词典未登录词的识别能力。由于我国地址名称多,词典无法覆盖全国地址名称,因此算法对未登录地址名称的识别能力成为分词算法的瓶颈,解决算法对未登录地址名称的识别问题成为分词的首要问题。
技术实现思路
本专利技术实施例的目的是提供一种地名地址识别方法,以解决现有的地址识别方法识别能力低的问题。本专利技术实施例提出一种地名地址识别方法,包括:设置一地名词典库以及一地址要素库,所述地名词典库中存储多个地名,所述地址要素库存储多个地址要素;根据预设的切分长度对待识别的未登录地址进行切分,获取匹配子串;将切分获得的所述匹配子串与所述地名词典库中的地名进行匹配;将匹配成功的匹配子串与所述地址要素库中的地址要素进行比对;将比对结果中存在一致地址要素的匹配子串确定为识别出的地名地址。依照本专利技术较佳实施例所述的地名地址识别方法,所述地名地址识别方法还包括:设置一特殊符号词典库,所述特殊符号词典库中存储多个特殊符号;所述根据预设的切分长度对待识别的未登录地址进行切分,获取匹配子串的步骤之前包括:将待识别的未登录地址与所述特殊符号词典库进行匹配,去除待识别的未登录地址中的特殊符号。依照本专利技术较佳实施例所述的地名地址识别方法,所述根据预设的切分长度对待识别的未登录地址进行切分,获取匹配子串的步骤中,采用正向最大匹配法对待识别的未登录地址进行分词。依照本专利技术较佳实施例所述的地名地址识别方法,所述地名词典库中包括词典正文、词索引表以及首字散列表。依照本专利技术较佳实施例所述的地名地址识别方法,所述词典正文包括常用汉语词条、数字词条和地名地址词条。依照本专利技术较佳实施例所述的地名地址识别方法,所述将切分获得的所述匹配子串与所述地名词典库中的地名进行匹配的步骤之后包括:判断匹配子串长度是否大于两个字的字符长度,若否,则将匹配子串的终止位减去一个字的字符长度,并返回前一步骤与所述地名词典库中的地名进行匹配。依照本专利技术较佳实施例所述的地名地址识别方法,所述判断匹配子串长度是否大于两个字的字符长度的步骤之后包括:若匹配子串长度大于两个字的字符长度,则将匹配子串切分单个字。依照本专利技术较佳实施例所述的地名地址识别方法,所述将匹配成功的匹配子串与所述地址要素库中的地址要素进行比对的步骤包括:判断匹配子串是否以地址要素结束词为结尾;若判断匹配子串是以地址要素结束词为结尾,则判断匹配子串是否等于地址要素结束词;若匹配子串不是等于地址要素结束词,则将当下匹配子串确认为地名地址。依照本专利技术较佳实施例所述的地名地址识别方法,所述判断匹配子串是否等于地址要素结束词的步骤之后包括:若匹配子串不是等于地址要素结束词,则判断当下匹配子串是否为地名地址串的第一个词,若是,则将当下匹配子串确认为地名地址。依照本专利技术较佳实施例所述的地名地址识别方法,将比对结果中存在一致地址要素的匹配子串确定为识别出的地名地址的步骤包括:将比对结果中的匹配子串中非完整的地址要素词进行合并。相对于现有技术,本专利技术的有益效果是:本专利技术引入地名地址要素的概念,通过检查地名地址要素的完整性和处理不能识别的地址名称,建立基于地址要素的未登录地址名称识别机制,进一步改进分词算法,达到精确切分地名地址串的目的。附图说明图1为本专利技术实施例的一种地名地址识别方法的流程图;图2为本专利技术实施例的另一种地名地址识别方法的流程图。具体实施方式有关本专利技术的前述及其他
技术实现思路
、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本专利技术为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本专利技术加以限制。请参见图1,其为本专利技术实施例的一种地名地址识别方法的流程图,其包括以下步骤:S11,设置一地名词典库以及一地址要素库,所述地名词典库中存储多个地名,所述地址要素库存储多个地址要素。S12,根据预设的切分长度对待识别的未登录地址进行切分,获取匹配子串。S13,将切分获得的所述匹配子串与所述地名词典库中的地名进行匹配。S14,将匹配成功的匹配子串与所述地址要素库中的地址要素进行比对。S15,将比对结果中存在一致地址要素的匹配子串确定为识别出的地名地址。词典库是机械分词法的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本专利技术可以采用基于整词二分的分词词典结构。该词典结构可以分为词典正文、词索引表和首字散列表三级。词典正文是以词为单位的有序表,词索引表是指向词典正文中每个词的指针表,首字散列表是每个词的首字组成的有序表。通过首字散列表的哈希定位和词索引表确定指定词在词典正文中的位置范围,进而在词典正文中通过整词二分进行定位。词典正文可以包括常用汉语词条、数字词条和地名地址词条。常用汉语词条收录中文词语,用于识别地址中的常用词语。数字词条收录了汉字、罗马数字、阿拉伯数字等。地名地址词条包含省(直辖市)、省会(地级市)、区(县、市)和特有地名路名。此外,本专利技术还可以单独建立特殊符号词典库,用于解析地名地址中的符号。因为地址用法习惯的不同,在登记地名地址的过程中可能会出现用符号代替汉字或用符号划分地理要素名称的现象。如“城里大街342#”中的“#”,又如“哈尔滨市哈双北路天然家园小区7号楼8—1—2层”中的“—”。本专利技术可以依据国家代码中心组织机构地址数据,总结归纳特殊符号,在分词前先解析去除特殊符号,以达到进一步精确切分地名地址串的目的。本专利技术所述的地址要素是指在某一限定区域内,可以指定某一具体范围的地址。一个地址由一个或多个地址要素组成,每个地址要素为地址串中的一个相对独立的部分。地址要素具有一定的规律性,一般以省、市、区、县、镇、社区本文档来自技高网
...

【技术保护点】
一种地名地址识别方法,其特征在于,包括:设置一地名词典库以及一地址要素库,所述地名词典库中存储多个地名,所述地址要素库存储多个地址要素;根据预设的切分长度对待识别的未登录地址进行切分,获取匹配子串;将切分获得的所述匹配子串与所述地名词典库中的地名进行匹配;将匹配成功的匹配子串与所述地址要素库中的地址要素进行比对;将比对结果中存在一致地址要素的匹配子串确定为识别出的地名地址。

【技术特征摘要】
1.一种地名地址识别方法,其特征在于,包括:
设置一地名词典库以及一地址要素库,所述地名词典库中存储多个地名,所述地址要
素库存储多个地址要素;
根据预设的切分长度对待识别的未登录地址进行切分,获取匹配子串;
将切分获得的所述匹配子串与所述地名词典库中的地名进行匹配;
将匹配成功的匹配子串与所述地址要素库中的地址要素进行比对;
将比对结果中存在一致地址要素的匹配子串确定为识别出的地名地址。
2.如权利要求1所述的地名地址识别方法,其特征在于,
所述地名地址识别方法还包括:设置一特殊符号词典库,所述特殊符号词典库中存储
多个特殊符号;
所述根据预设的切分长度对待识别的未登录地址进行切分,获取匹配子串的步骤之前
包括:将待识别的未登录地址与所述特殊符号词典库进行匹配,去除待识别的未登录地址
中的特殊符号。
3.如权利要求1所述的地名地址识别方法,其特征在于,所述根据预设的切分长度对待
识别的未登录地址进行切分,获取匹配子串的步骤中,采用正向最大匹配法对待识别的未
登录地址进行分词。
4.如权利要求1所述的地名地址识别方法,其特征在于,所述地名词典库中包括词典正
文、词索引表以及首字散列表。
5.如权利要求4所述的地名地址识别方法,其特征在于,所述词典正文包括常用汉语词
条、数字词条和地名地址词条。
6.如权利要求1所述的地名地址识别方法...

【专利技术属性】
技术研发人员:梁丰王遵义翁时锋
申请(专利权)人:浙江万里学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1