A Chinese address segmentation storage method based on dictionary, input the address string to be processed, record it as STR, its string length is l character, import it into dictionary odict; use forward maximum matching method to process the address string str, Obtain the forwardset; then, use the reverse maximum matching method to process the address string STR to obtain the reverseset; then, compare the forwardset with the address string in the reverseset, and the result of the comparison is stored in the preset; at the same time, divide the level of address elements, use the keyword corresponding to the level to match the content of the preset The expected level is stored in the result result. The calculation word segmentation result of the invention has small ambiguity and high system storage rate.
【技术实现步骤摘要】
一种基于词典的中文地址分词存储方法
本专利技术涉及地理信息领域,计算机应用领域,尤其涉及的是一种基于词典的中文地址分词存储方法。
技术介绍
近年来随着我国信息化进程的加快,每天都会有海量的地址数据产生。现今电商行业的大力发展,使得地址数据必须提供给物流公司运输和配送,保障物流配送的效率得到提升,达到降低物流公司配送难度的目的,进而在一定程度上解决货物堆积、配送错误和能源消耗等成本问题,其中地址分词存储是实现物流货物正确配送的基础。用户真实地址信息结构复杂,信息中会包含中文、数字、英文字母、符号四大信息,而在某些层次上没有明显规则的地址信息会让人产生误解,比如中国各地使用习惯复杂多变且带有较重地方特色的地理编码、地址描述数据结构错综复杂、词语随意性较强且不遵循统一的语法规则,因为这些特殊情况下我们有必要再次审核地址信息是否正确填写。随着城市化程度增大且暂无统一标准命名规则,地址信息的含歧义性分词与不恰当存储,对GIS系统是在系统计算资源利用率与系统有效性能率上都造成了一定的影响,而现有的中文地址处理方面还存在着 ...
【技术保护点】
1.一种基于词典的中文地址分词存储方法,其特征在于,所述中文地址分词存储方法包括以下步骤:/n1)输入待处理的地址串,记为Str,其地址串长度为L,导入词典ODict,其中存储着真实的词表,保存着大量标准的行政地区词语;/n2)首先使用正向最大匹配方法对地址串Str进行处理,过程如下:/n2.1)将地址串Str的左侧第一个文字的索引设为m,初始值为0,依次对应文字递增1,滑动窗口宽度W
【技术特征摘要】
1.一种基于词典的中文地址分词存储方法,其特征在于,所述中文地址分词存储方法包括以下步骤:
1)输入待处理的地址串,记为Str,其地址串长度为L,导入词典ODict,其中存储着真实的词表,保存着大量标准的行政地区词语;
2)首先使用正向最大匹配方法对地址串Str进行处理,过程如下:
2.1)将地址串Str的左侧第一个文字的索引设为m,初始值为0,依次对应文字递增1,滑动窗口宽度Ws默认为8,窗口从左向右计数,窗口最小滑动的步长宽度为3;
2.2)在地址串上从左向右滑动窗口,取其内容与词典ODict做匹配,直至将字符串Str处理完成;
2.3)若存在一样的文字串则将其存入集合ForwardSet,假如不存在,则考虑Ws与Wm的关系;
2.3.1)若Ws>Wm则将Ws减1,回2.2)继续操作;
2.3.2)若Ws<Wm则将m加1,回2.2)继续操作;
3)其次使用逆向最大匹配方法对地址串Str进行处理,过程如下:
3.1)将字符串Str的右侧第一个文字的索引设为n,初始值为L-1,依次对应文字递减1,滑动窗口宽度Ws默认为8,窗口从右向左计数,窗口最小滑动宽度Wm为3;
3.2)在地址串上从右向左滑动窗口,取其内容与词典ODict做匹配,直至将字符串Str处理完成;
3.3)若存在一样的地址串则将其存入集合ReverseSet,假如不存在,则考虑Ws与Wm的关系;
3.3.1)若...
【专利技术属性】
技术研发人员:张贵军,张晨,陈芳,卢升荣,秦子豪,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。