一种中文地址处理方法及系统技术方案

技术编号:14684641 阅读:129 留言:0更新日期:2017-02-22 18:15
本发明专利技术适用于数据处理领域,提供了一种中文地址处理方法及系统,包括:通过N种预设算法获取待分词地址的N个第一分词集合,每一种预设算法分别基于一类字符统计特征对待分词地址进行分词;通过分词合并算法对N个第一分词集合进行汇总,获取第二分词集合;通过分词矫正算法对出现分词异常状况的第二分词集合进行处理,得到第三分词集合;将第三分词集合中以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并,得到第二分词结果;第一分词结果与第二分词结果的集合输出为待分词地址的最终分词结果。本发明专利技术实施例能够逐级调整不符合实际语义的分词,提高对地址词的识别精度,解决了现有的分词方法分词准确率低问题。

【技术实现步骤摘要】

本专利技术属于数据处理领域,尤其涉及一种中文地址处理方法及系统
技术介绍
在日常生产与生活中,地址是最常见的使用自然语言描述地理位置的参考系统之一。在GIS(GeographicInformationSystem,地理信息系统)中,地址编码(Geocoding)是对地址描述的信息进行空间定位,建立起空间信息与非空间信息之间联系的过程。城市地址编码的核心技术包括地址要素解析。它是将自然语言描述的一条完整地址拆分为一组具有明确空间范围的地址要素的过程,这个过程可以被看作是一种特定的中文地址分词任务。在地址自动解析方面,中文地址通常运用自然语言进行描述,各个词之间不存在自然的分隔符,而且中文地址描述手段多样化,存在人名、地名和机构名等多层嵌套的现象。中文地址的要素解析问题,已成为中文地址地理编码的最大障碍之一。目前常用的中文地址分词算法有机械分词法、统计分词法和理解分词方法。机械分词法是按照一定的策略将待分析的汉字串与地址词典库中的词条进行匹配,若在词典中找到某个字符串,则识别为一个词。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配。统计表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。这种精度还远远不能满足实际的需要。统计分词法以概率论为理论基础,将汉语上下文中汉字组合串的出现抽象成随机过程。在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。但是此类方法果经常会得到一些共现频度高、但并不是词的常用字组,对地址词的识别精度差,时空开销大。理解分词方法基本思想是分词同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象,理解分词方法需要使用大量语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。综上,现有的中文地址分词算法存在对地址词的识别精度差及分词准确率低的问题。
技术实现思路
有鉴于此,本专利技术实施例提供了一种中文地址处理方法及系统,以解决现有的分词法对地址词的识别精度差及分词准确率低问题。本专利技术实施例是这样实现的,一种中文地址处理方法,包括:通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词;通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合;通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合;在所述第三分词集合中,将以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并处理,得到第二分词结果;将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果;其中,所述N为大于1的整数。本专利技术实施例的另一目的在于提供一种中文地址处理系统,包括:获取单元,用于通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词;合并单元,用于通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合;矫正单元,用于通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合;结果显示单元,用于在所述第三分词集合中,将以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并处理,得到第二分词结果;将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果;其中,所述N为大于1的整数。在本专利技术实施例中,通过对应于N个统计特征类型的N个预设算法,分别获取待分词地址的N个第一分词集合后,对N个第一分词集合进行合并、间接矫正以及保留包含地址要素的分词等多层次处理,能够逐级调整不符合语义的分词,进一步提高了地址词的识别精度,解决了现有分词法分词准确率较低的问题。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的中文地址处理方法的实现流程图;图2是本专利技术实施例提供的中文地址处理方法的逻辑流程图;图3是本专利技术优选实施例提供的中文地址处理方法S101的一个具体实现流程图;图4是本专利技术优选实施例提供的中文地址处理方法S101的另一具体实现流程图;图5是本专利技术实施例提供的中文地址处理方法S102的具体实现流程图;图6是本专利技术实施例提供的中文地址处理方法S103的具体实现流程图;图7是本专利技术实施例提供的中文地址处理方法S103的具体实施示例图;图8是本专利技术实施例提供的中文地址处理方法的实现示例图;图9是本专利技术实施例提供的中文地址处理系统的结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。作为本专利技术的一个实施例,图1示出了本专利技术实施例提供的中文地址处理方法的实现流程,详述如下:在S101中,通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词。例如,若三类字符统计特征分别为a、b和c,则预设算法也为三个,分别为A、B和C。且每个预设算法与每个统计特征的类型一一对应,即A与a对应,B与b对应,C与c对应,所述算法为针对统计特征的类型而设置的一种处理流程。利用数理统计方法对一个地址中的汉字字符进行研究时,以字符、词语为基本单位,考察与它们相联系的某个特征,研究有关特征在样本参考数据中的分布情况,则所要考察的特征即为字符的统计特征,是对字词进行统计考察的指标。统计特征包括但不限于字频、词频、互信息等特征类型。字频和词频表示对于某个选定的中文字或中文词,其在数据样本中出现的频率。对于包含有固定中文字数的数据样本,某个选定的中文字或中文词在样本中出现的次数越多,则该中文字和中文词的字频或词频越大。互信息,用于度量两个对象之间的相互性,作为词和类别之间的测度,如果某个词属于该类别的话,则它们的互信息量最大,因而适用于对地址中的字符进行归类分词。设两个随机变量为(X,Y)的联合分布为p(X,Y),边际分布分别为p(X)和p(Y),则互信息I(X:Y)是联合分布p(X,Y)与乘积分布p(X)p(Y)的相对熵,即所述预设算法用于获取待分词地址的第一分词集合,即对待分词地址执行基础、初步的分词处理,故所述预设算法可以是现有常规的分词算法。以常规的分词算法作为本专利技术实施例中的第一个处理步骤,将待分词地址拆分成多个分词,所述多个分词的集合输出为第一分词集合。在S102中,通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合。因S101中的每个预设算法均能获取一个待分词地址的第一分词集合,在多个预设算法的情况下,能够获取到待分词地址的多个第一分词集合。为了输出一个待分词地址的最终分词结果,在多个第一分词集合存在的条件下,通过合理的分词合并算法,使多个集合转为成一个本文档来自技高网
...
一种中文地址处理方法及系统

【技术保护点】
一种中文地址处理方法,其特征在于,包括:通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词;通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合;通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合;在所述第三分词集合中,将以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并处理,得到第二分词结果;将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果;其中,所述N为大于1的整数。

【技术特征摘要】
1.一种中文地址处理方法,其特征在于,包括:通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词;通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合;通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合;在所述第三分词集合中,将以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并处理,得到第二分词结果;将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果;其中,所述N为大于1的整数。2.如权利要求1所述的方法,其特征在于,通过第一预设算法获取待分词地址的一个第一分词集合包括:根据M个预设的固定字长分词算法,获取所述待分词地址的M个第一分词候选集;所述M个第一分词候选集分别对应M个第二分词候选集,对于每个所述第一分词候选集中的每个分词,判断所述分词、所述分词的前邻接词以及所述分词的后邻接词在地址库中的词频大小,将其中所述词频最大的分词存入对应的所述第二分词候选集;在所述M个第二分词候选集中获取词频最大的第一共字分词,并与所述M个第二分词候选集中除所述第一共字分词外的字符共同输出为一个第一分词集合;其中,所述M为大于1的整数,所述第一共字分词为所述待分词地址中的同一字符在所述M个第二分词候选集中构成的不同分词。3.如权利要求1所述的方法,其特征在于,通过第二预设算法获取待分词地址的一个第一分词集合包括:在待分词地址中,依次获取每个字符的所述字分词趋势值,所述字分词趋势值用于表明一个字符与前后相邻字符结合为一个分词的趋势程度;当所述字符的所述字分词趋势值为零时,以所述字符为拆分点,将所述字符及所述字符前面的多个连续字符作为一个分词,并将所述分词添加到第一分词集合中;其中,所述多个连续字符的所述字分词趋势值为非零值。4.如权利要求1所述的方法,其特征在于,所述通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合包括:在所述N个第一分词集合中,获取地址库中词频最大的第二共字分词,并与所述N个第一分词集合中除所述第二共字分词外的字符共同输出至第三分词候选集,所述第二共字分词为所述待分词地址中的同一字符在所述N个第一分词集合中构成的不同分词;若所述第三分词候选集不包含有连续的单字符时,所述第三分词候选集直接输出,得到第二分词集合;若所述第三分词候选集中含有连续的单字符时,将所述连续的单字符进行合并处理,得到连续单字符分词;所述词频最大的第二共字分词、所述连续单字符分词与其余字符的集合输出为第二分词集合;在所述第三分词候选集中,除所述第二共字分词以及所述连续的单字符外的所有字符为所述其余字符。5.如权利要求1所述的方法,其特征在于,所述通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合包括:若所述第二分词集合中含有非连续的单字符时,对于每一个所述非连续单字符,进行如下操作:将所述非连续单字符与所述非连续单字符的前邻接词结合,得到第一单字符分词;将所述非连续单字符与所述非连续单字符的后邻接词结合,得到第二单字符分词;判断所述第一单字符分词和所述第二单字符分词在地址库中出现词频的大小,将其中词频较大的单字符分词输出为单字符分词结...

【专利技术属性】
技术研发人员:贺彪王维郭仁忠陈学业王伟玺李晓明李威阳张钰李霖
申请(专利权)人:深圳市数字城市工程研究中心
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1