一种中文地址识别方法及设备技术

技术编号:22186081 阅读:48 留言:0更新日期:2019-09-25 03:37
本发明专利技术实施例提供一种中文地址识别方法及设备。所述方法包括获取有序词项序列和地址模型;地址模型包括地址要素层以及识别函数;根据拼接规则从有序词项序列拼接得到待识别词;并得到识别状态;依次调用层级高于识别状态显示的层级的地址要素层的识别函数,与待识别词进行匹配;若匹配成功,则将已识别地址要素记录;更新所述识别状态,并得到新的待识别词,再对新的待识别词进行匹配,直到有序词项序列为空则判定本次匹配成功结束,本发明专利技术实施例通过构建包括地址要素层的地址模型,以及每个地址要素层的识别函数,分别对从有序词项序列中提取出的词项拼接得到待识别词进行识别,从而能够更加快速、准确得从待识别文本中得到正确的中文地址。

A Chinese Address Recognition Method and Equipment

【技术实现步骤摘要】
一种中文地址识别方法及设备
本专利技术涉及生物计算机
,尤其涉及一种中文地址识别方法及设备。
技术介绍
在房地产相关的业务系统中,房屋的地理位置是一个非常重要的信息维度,在按地理位置进行的房屋查找筛选、数据统计、挖掘分析等业务处理过程中,常常要处理大量的地址信息,而这些地址信息大都是以文本形式存放在数据库中,并不能直接进行处理和计算。因此,中文地址信息标准化建模是地址信息处理的重要步骤,而地址建模过程中地址元素识别的准确度将直接影响到后续业务处理的正确性。现在技术中常见的方法有,基于正则表达式的匹配算法、基于关联规则的方法、地址要素层级模型为核心的地址匹配方法、基于自然语义理解的方法。基于正则表达式的方法,实现起来最简单,但效果也最差,因为算法完全是建立在字符串比较的基础之上,没办法识别地址要素层级,很难对地址消歧,匹配准确率低,稳定性差,只能匹配一些简单模式的地址。在基于关联规则的算法中,是通过计算地址要素联系的频率实现关联。其算法主要包括两大块:首先是在地址数据集中找出高频地址要素组;其次是从这些高频地址要素组中产生关联规则。关联规则挖掘的方法运用到对地址模型自适应构建,可以把两个前后出现频率高的地址要素看作高频地址要素组,地址要素出现的频率称为支持度。首先找出地址数据集中所有的地址要素组,然后在这些地址要素组之间计算关联规则。然而基于的算法需要大量的地址数据集进行训练,因此无法进行冷启动。并且关联规则方法是基于最小支持度和最小信赖度来挖掘地址要素之间的联系,末达到阈值的要素联系是不会被提取出来的,就会造成一些低频抽取模型的地址无法识别。以地址要素层级为核心的地址匹配方法认为地址要素都有存在层次级别属性,每一类地址要素的属性都有唯一的级别值。这类方法对地址的描述要求符合等级规则,地址要素对应的级别要按照升序排列。在实现中,首先要创建一个符合地址分级模型的地名库,并在此基础上通过地址串的拆分和匹配来完成地址标准化编码工作,这种方法最大的困难需要人工维护的方式来建设最新数据量巨大的基础地址库。基于自然语言理解方面的地址匹配研究,就是利用自然语言理解这一人工智能领域新技术来建立新的中文地址匹配算法。由于机械分词的主要缺点在于它不是从理解语义的角度出发,而是采用机械的字符串匹配方式来实现地址匹配,所以无未能处理采用非结构化形式的自然语言描述的中文地址,此时就要采用自然语言理解的地址匹配方法。但该类方法的缺点是对训练集数据依赖性较高,实话前需要进行大量的地址训练,无法冷启动。由于地址名词本身具有的复杂性和多样性,各地的地址使用习惯复杂多变,除了国家统计局对县及县以上行政地址的代码和名称有明确规定外,其它级别的地址信息由于数量繁多、结构复杂,长期以来按照属地化管理等原因造成了地名、地址的使用均带有较重的地方特色,没有形成统一的地址编码和命名规范,也就是没有一个统一的模式可以匹配。另外,由于中文词语是由字组成的,切分的时候情况就要复杂得多,这也为地址要素识别带来许多问题。再加上人们在输入地址时常常省略特征词,造成名词边界的界定困难。而同一个名词也可能出现在不同地址的不同级别要素中。可见,现有技术并没有一个有效的方式来对中文地址进行精确的识别。
技术实现思路
本专利技术实施例提供一种中文地址识别方法及设备,用以解决现有技术中并没有一个有效的方式来对中文地址进行精确的识别的问题。第一方面,本专利技术实施例提供了一种中文地址识别方法,包括:获取有序词项序列和与所述序词项序列对应的地址模型;其中,所述有序词项序列包括按预设顺序排列的复数个词项,所述地址模型包括由低到高排列的预设总层级数的地址要素层,以及每个地址要素层的识别函数;根据预设的拼接规则,从所述有序词项序列中提取出位于开始的至少一个词项,拼接得到待识别词;并根据所述地址模型,得到所述地址模型的识别状态,所述识别状态用于显示所述地址模型中匹配成功的地址要素层中的最高层级;根据所述层级由低到高,依次调用所述层级高于所述识别状态显示的层级的地址要素层的识别函数,分别与所述待识别词进行匹配;若任一识别函数匹配成功,则将与所述识别函数对应的地址要素层标记为匹配成功,并将匹配得到的已识别地址要素记录到所述地址要素层中;根据当前的地址模型,更新所述识别状态,并根据当前的有序词项序列得到新的待识别词,再根据当前的识别状态对新的待识别词进行匹配,直到所述有序词项序列为空,或者直到最高层级的地址要素层匹配成功,则判定本次匹配成功结束。第二方面,本专利技术实施例还提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线;其中,所述处理器、存储器、通信接口通过所述通信总线完成相互间的通信;所述通信接口用于该电子设备的通信设备之间的信息传输;所述存储器存储有可被所述处理器执行的计算机程序指令,所述处理器调用所述程序指令能够执行如下方法:获取有序词项序列和与所述序词项序列对应的地址模型;其中,所述有序词项序列包括按预设顺序排列的复数个词项,所述地址模型包括由低到高排列的预设总层级数的地址要素层,以及每个地址要素层的识别函数;根据预设的拼接规则,从所述有序词项序列中提取出位于开始的至少一个词项,拼接得到待识别词;并根据所述地址模型,得到所述地址模型的识别状态,所述识别状态用于显示所述地址模型中匹配成功的地址要素层中的最高层级;根据所述层级由低到高,依次调用所述层级高于所述识别状态显示的层级的地址要素层的识别函数,分别与所述待识别词进行匹配;若任一识别函数匹配成功,则将与所述识别函数对应的地址要素层标记为匹配成功,并将匹配得到的已识别地址要素记录到所述地址要素层中;根据当前的地址模型,更新所述识别状态,并根据当前的有序词项序列得到新的待识别词,再根据当前的识别状态对新的待识别词进行匹配,直到所述有序词项序列为空,或者直到最高层级的地址要素层匹配成功,则判定本次匹配成功结束。第三方面,本专利技术实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:获取有序词项序列和与所述序词项序列对应的地址模型;其中,所述有序词项序列包括按预设顺序排列的复数个词项,所述地址模型包括由低到高排列的预设总层级数的地址要素层,以及每个地址要素层的识别函数;根据预设的拼接规则,从所述有序词项序列中提取出位于开始的至少一个词项,拼接得到待识别词;并根据所述地址模型,得到所述地址模型的识别状态,所述识别状态用于显示所述地址模型中匹配成功的地址要素层中的最高层级;根据所述层级由低到高,依次调用所述层级高于所述识别状态显示的层级的地址要素层的识别函数,分别与所述待识别词进行匹配;若任一识别函数匹配成功,则将与所述识别函数对应的地址要素层标记为匹配成功,并将匹配得到的已识别地址要素记录到所述地址要素层中;根据当前的地址模型,更新所述识别状态,并根据当前的有序词项序列得到新的待识别词,再根据当前的识别状态对新的待识别词进行匹配,直到所述有序词项序列为空,或者直到最高层级的地址要素层匹配成功,则判定本次匹配成功结束。本专利技术实施例提供的中文地址识别方法及设备,通过构建包括预设总层级数地址要素层的地址模型,以及每个地址要素层的识别函数,分别对从有序词项序列中提取出的词项拼接得到待识别本文档来自技高网
...

【技术保护点】
1.一种中文地址识别方法,其特征在于,包括:获取有序词项序列和与所述序词项序列对应的地址模型;其中,所述有序词项序列包括按预设顺序排列的复数个词项,所述地址模型包括由低到高排列的预设总层级数的地址要素层,以及每个地址要素层的识别函数;根据预设的拼接规则,从所述有序词项序列中提取出位于开始的至少一个词项,拼接得到待识别词;并根据所述地址模型,得到所述地址模型的识别状态,所述识别状态用于显示所述地址模型中匹配成功的地址要素层中的最高层级;根据所述层级由低到高,依次调用所述层级高于所述识别状态显示的层级的地址要素层的识别函数,分别与所述待识别词进行匹配;若任一识别函数匹配成功,则将与所述识别函数对应的地址要素层标记为匹配成功,并将匹配得到的已识别地址要素记录到所述地址要素层中;根据当前的地址模型,更新所述识别状态,并根据当前的有序词项序列得到新的待识别词,再根据当前的识别状态对新的待识别词进行匹配,直到所述有序词项序列为空,或者直到最高层级的地址要素层匹配成功,则判定本次匹配成功结束。

【技术特征摘要】
1.一种中文地址识别方法,其特征在于,包括:获取有序词项序列和与所述序词项序列对应的地址模型;其中,所述有序词项序列包括按预设顺序排列的复数个词项,所述地址模型包括由低到高排列的预设总层级数的地址要素层,以及每个地址要素层的识别函数;根据预设的拼接规则,从所述有序词项序列中提取出位于开始的至少一个词项,拼接得到待识别词;并根据所述地址模型,得到所述地址模型的识别状态,所述识别状态用于显示所述地址模型中匹配成功的地址要素层中的最高层级;根据所述层级由低到高,依次调用所述层级高于所述识别状态显示的层级的地址要素层的识别函数,分别与所述待识别词进行匹配;若任一识别函数匹配成功,则将与所述识别函数对应的地址要素层标记为匹配成功,并将匹配得到的已识别地址要素记录到所述地址要素层中;根据当前的地址模型,更新所述识别状态,并根据当前的有序词项序列得到新的待识别词,再根据当前的识别状态对新的待识别词进行匹配,直到所述有序词项序列为空,或者直到最高层级的地址要素层匹配成功,则判定本次匹配成功结束。2.根据权利要求1所述的中文地址识别方法,其特征在于,所述方法还包括:若所有的识别函数均匹配失败,则将所述待识别词命名为未识别词;根据所述拼接规则,从所述有序词项序列中提取出位于开始的至少一个词项,拼接到所述未识别词后得到新的待识别词,再根据当前的识别状态对新的待识别词进行匹配;相应地,所述方法还包括:在将所述待识别词命名为未识别词后,若此时,所述有序词项序列为空,则判定本次匹配失败结束。3.根据权利要求2所述的中文地址识别方法,其特征在于,所述地址模型将所有的地址要素层分为预设第一层级数的行政地址要素层和预设第二层级数的详细地址要素层;其中,所述总层级数等于所述第一层级数与第二层级数的和,所述行政地址要素层的层级低于所述详细地址要素层的层级;相应地,所述根据所述层级由低到高,依次调用所述层级高于所述识别状态的地址要素层的识别函数,分别与所述待识别词进行匹配,具体为:若所述识别状态显示为初始状态,或显示的层级为行政地址要素层,则根据所述层级由低到高,依次调用所述层级高于所述识别状态显示的层级的行政地址要素层的识别函数,分别与所述待识别词进行匹配:若所有的识别函数均匹配失败,则将所述识别状态设为行政区划匹配结束,再根据当前的识别状态对当前的待识别词进行匹配;相应地,所述根据当前的地址模型,更新所述识别状态,具体为:根据当前的地址模型中已经匹配成功的地址要素层中的最高层级,更新所述识别状态,若所述识别状态为最高层级的行政地址要素层,则将所述识别状态设为所述行政区划匹配结束;相应地,所述方法还包括:若所述识别状态显示为行政区划匹配结束,则根据所述层级由低到高,依次调用所有的详细地址要素层的识别函数,分别与所述待识别词...

【专利技术属性】
技术研发人员:詹青
申请(专利权)人:北京贝壳时代网络科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1