一种中文地址处理方法及系统技术方案

技术编号：14684641 阅读：129 留言：0更新日期：2017-02-22 18:15

本发明专利技术适用于数据处理领域，提供了一种中文地址处理方法及系统，包括：通过N种预设算法获取待分词地址的N个第一分词集合，每一种预设算法分别基于一类字符统计特征对待分词地址进行分词；通过分词合并算法对N个第一分词集合进行汇总，获取第二分词集合；通过分词矫正算法对出现分词异常状况的第二分词集合进行处理，得到第三分词集合；将第三分词集合中以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并，得到第二分词结果；第一分词结果与第二分词结果的集合输出为待分词地址的最终分词结果。本发明专利技术实施例能够逐级调整不符合实际语义的分词，提高对地址词的识别精度，解决了现有的分词方法分词准确率低问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据处理领域，尤其涉及一种中文地址处理方法及系统。
技术介绍
在日常生产与生活中，地址是最常见的使用自然语言描述地理位置的参考系统之一。在GIS(GeographicInformationSystem，地理信息系统)中，地址编码(Geocoding)是对地址描述的信息进行空间定位，建立起空间信息与非空间信息之间联系的过程。城市地址编码的核心技术包括地址要素解析。它是将自然语言描述的一条完整地址拆分为一组具有明确空间范围的地址要素的过程，这个过程可以被看作是一种特定的中文地址分词任务。在地址自动解析方面，中文地址通常运用自然语言进行描述，各个词之间不存在自然的分隔符，而且中文地址描述手段多样化，存在人名、地名和机构名等多层嵌套的现象。中文地址的要素解析问题，已成为中文地址地理编码的最大障碍之一。目前常用的中文地址分词算法有机械分词法、统计分词法和理解分词方法。机械分词法是按照一定的策略将待分析的汉字串与地址词典库中的词条进行匹配，若在词典中找到某个字符串，则识别为一个词。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配。统计表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。这种精度还远远不能满足实际的需要。统计分词法以概率论为理论基础，将汉语上下文中汉字组合串的出现抽象成随机过程。在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。但是此类方法果经常会得到一些共现频度高、但并不是词的常用字组，对地址词的识别精度差，时空开销大。理解分词方法基本思想是分词同时进行句法、语义分析，利用句...
一种中文地址处理方法及系统

【技术保护点】
一种中文地址处理方法，其特征在于，包括：通过N种预设算法获取待分词地址的N个第一分词集合，所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词；通过分词合并算法对所述N个第一分词集合进行汇总处理，获取第二分词集合；通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理，以获取第三分词集合；在所述第三分词集合中，将以地址要素结尾的分词作为第一分词结果，将以非地址要素结尾的分词进行矫正及合并处理，得到第二分词结果；将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果；其中，所述N为大于1的整数。

【技术特征摘要】
1.一种中文地址处理方法，其特征在于，包括：通过N种预设算法获取待分词地址的N个第一分词集合，所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词；通过分词合并算法对所述N个第一分词集合进行汇总处理，获取第二分词集合；通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理，以获取第三分词集合；在所述第三分词集合中，将以地址要素结尾的分词作为第一分词结果，将以非地址要素结尾的分词进行矫正及合并处理，得到第二分词结果；将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果；其中，所述N为大于1的整数。2.如权利要求1所述的方法，其特征在于，通过第一预设算法获取待分词地址的一个第一分词集合包括：根据M个预设的固定字长分词算法，获取所述待分词地址的M个第一分词候选集；所述M个第一分词候选集分别对应M个第二分词候选集，对于每个所述第一分词候选集中的每个分词，判断所述分词、所述分词的前邻接词以及所述分词的后邻接词在地址库中的词频大小，将其中所述词频最大的分词存入对应的所述第二分词候选集；在所述M个第二分词候选集中获取词频最大的第一共字分词，并与所述M个第二分词候选集中除所述第一共字分词外的字符共同输出为一个第一分词集合；其中，所述M为大于1的整数，所述第一共字分词为所述待分词地址中的同一字符在所述M个第二分词候选集中构成的不同分词。3.如权利要求1所述的方法，其特征在于，通过第二预设算法获取待分词地址的一个第一分词集合包括：在待分词地址中，依次获取每个字符的所述字分词趋势值，所述字分词趋势值用于表明一个字符与前后相邻字符结合为一个分词的趋势程度；当所述字符的所述字分词趋势值为零时，以所述字符为拆分点，将所述字符及所述字符前面的多个连续字符作为一个分词，并将所述分词添加到第一分词集合中；其中，所述多个连续字符的所述字分词趋势值为非零值。4.如权利要求1所述的方法，其特征在于，所述通过分词合并算法对所述N个第一分词集合进行汇总处理，获取第二分词集合包括：在所述N个第一分词集合中，获取地址库中词频最大的第二共字分词，并与所述N个第一分词集合中除所述第二共字分词外的字符共同输出至第三分词候选集，所述第二共字分词为所述待分词地址中的同一字符在所述N个第一分词集合中构成的不同分词；若所述第三分词候选集不包含有连续的单字符时，所述第三分词候选集直接输出，得到第二分词集合；若所述第三分词候选集中含有连续的单字符时，将所述连续的单字符进行合并处理，得到连续单字符分词；所述词频最大的第二共字分词、所述连续单字符分词与其余字符的集合输出为第二分词集合；在所述第三分词候选集中，除所述第二共字分词以及所述连续的单字符外的所有字符为所述其余字符。5.如权利要求1所述的方法，其特征在于，所述通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理，以获取第三分词集合包括：若所述第二分词集合中含有非连续的单字符时，对于每一个所述非连续单字符，进行如下操作：将所述非连续单字符与所述非连续单字符的前邻接词结合，得到第一单字符分词；将所述非连续单字符与所述非连续单字符的后邻接词结合，得到第二单字符分词；判断所述第一单字符分词和所述第二单字符分词在地址库中出现词频的大小，将其中词频较大的单字符分词输出为单字符分词结...

【专利技术属性】
技术研发人员：贺彪，王维，郭仁忠，陈学业，王伟玺，李晓明，李威阳，张钰，李霖，
申请(专利权)人：深圳市数字城市工程研究中心，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人