当前位置: 首页 > 专利查询>福州大学专利>正文

中文地址识别系统技术方案

技术编号:19822040 阅读:40 留言:0更新日期:2018-12-19 14:47
本发明专利技术涉及一种中文地址识别系统,包括:数据预处理模块、地址标准化模块、地址清洗模块、关系构建模块以及地址管理模块。数据预处理模块将源地址数据输入后进行预处理,并粗分成词。地址标准化模块通过Trie树结构与正则匹配方式对有效地址进行十级地址标准化处理。地址清洗模块包括地址补全和地址去重。关系构建模块包括地址标签识别与人群关系构建。地址管理模块包括地址模型管理和地址库管理。本发明专利技术通过结合Trie树与有限自动机能有效提高中文地址标准化分级的准确率,对于庞大的地址数据有较快的处理速率,对于相似地址的智能识别也有较高的准确率,并能根据地址信息获取人群关系。

【技术实现步骤摘要】
中文地址识别系统
本专利技术涉及一种中文地址识别系统。
技术介绍
在地理信息系统中,地理编码技术有着广泛的应用。地理编码过程中,最核心的是地址匹配技术,地址匹配技术的好坏,直接影响到地理编码的准确性和效率。全文索引、中文分词、分级别匹配和模糊地址匹配是目前常用的地址匹配算法。陈细谦等尝试在地址标准化过程中通过错误总结和使用有限状态机实现地址的规范化,由于错误类型的复杂性,使得实际中总匹配率只有50%左右;孙亚夫等提出利用最大正向匹配算法在进行分词的同时查询判断地址要素,但地址匹配过分依赖词库,对于未登记的地址和包含干扰词的地址匹配率较低;孙存群等提出分级地址库模型,减少了维护分词的步骤,简化了实现流程,林澍哲提出分词和地址加权的匹配模型,减少了数据冗余,提高了匹配兼容性,但由于两者过分依赖数据库查询,性能不高;张作华等尝试先进行地址分词再按照不同公式进行数据库查询来减少查询次数,由于地址级别的复杂性,地址到公式的转换仍然是个比较困难的问题;程昌秀等用基于规则的模糊中文分词进行地址匹配,由于地址级别的跳跃不规律,规则很难做到通用。以上研究提出了很多地址匹配方法,但由于地址命名多样化,地本文档来自技高网...

【技术保护点】
1.一种中文地址识别系统,其特征在于,包括:数据预处理模块;将源地址数据输入后进行预处理,并粗分成词;地址标准化模块;对于行政区域地址数据,利用 Trie 树结构寻找标准的前4级地址特征,得到相应行政区域包含的分级标注地址;对于非标准库内的地址数据,使用基于正则匹配的地址分级识别方法,进行关键字提取,使用有限状态自动机按照地址标注等级的跳转规则验证提取后地址的有效性;地址清洗模块;地址清洗模块包括地址补全和地址去重;所述地址补全采用基于相似地址的相应部分进行补全,实现详细地址规范化;所述地址去重对同一人的多个地址进行去重,保留不同的地址以及统计每条地址的使用次数;关系构建模块;关系构建模块包括...

【技术特征摘要】
1.一种中文地址识别系统,其特征在于,包括:数据预处理模块;将源地址数据输入后进行预处理,并粗分成词;地址标准化模块;对于行政区域地址数据,利用Trie树结构寻找标准的前4级地址特征,得到相应行政区域包含的分级标注地址;对于非标准库内的地址数据,使用基于正则匹配的地址分级识别方法,进行关键字提取,使用有限状态自动机按照地址标注等级的跳转规则验证提取后地址的有效性;地址清洗模块;地址清洗模块包括地址补全和地址去重;所述地址补全采用基于相似地址的相应部分进行补全,实现详细地址规范化;所述地址去重对同一人的多个地址进行去重,保留不同的地址以及统计每条地址的使用次数;关系构建模块;关系构建模块包括地址标签识别与人群关系构建;所述地址标签识别将地址通过一API获取其地址标签并存入数据库;所述人群关系构建依据地址标签与人群关系的映射表确定人群关系;地址标签及人群关系构建的结果均存入数据库;地址管理模块;地址管理模块包括地址模型管理和地址库管理;地址模型管理对Trie树模型创建、存储、导入以及查询;地址库管理模块对MongoDB数据库的插入、查询、修改和删除。2.根据权利要求1所述的中文地址识别系统,其特征在于,所述数据预处理模块对输入的邮递源地址数据进行去除噪声地址、去除地址中的特殊符号处理,排除无效或是不可识别的地址,然后再由HanLP切词工具将余下的有效地址粗分成词。3.根据权利要求1所述的中文地址识别系统,其特征在于,所述地址标准化模块通过Trie树结构与正则匹配方式对有效地址进行十级地址标准化处理,包括:前四级的标准行政地址的标准化和后六级的详细地址的标准化;通过对标准的四级地址分词构建Trie树,输出Trie树模型并保存到数据库中;对于输入的待分级识别的样本数据,通过分词再导入Tire树模型进行模糊匹配识别出前四级的标准行政地址,而后再导入有限状态自动机进行正则匹配出后六级的详细地址,最后合并输出地址的十级标注。4.根据权利要求3所述的中文地址识别系统,其特征在于,所述前四级的标准行政地址利用识别搜索算法在Trie树中进行识别,所述识别搜索算法按照如下步骤...

【专利技术属性】
技术研发人员:郭文忠陈立群郭昆陈羽中
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1