一种中文地址识别方法及设备技术

技术编号：22186081 阅读：48 留言：0更新日期：2019-09-25 03:37

本发明专利技术实施例提供一种中文地址识别方法及设备。所述方法包括获取有序词项序列和地址模型；地址模型包括地址要素层以及识别函数；根据拼接规则从有序词项序列拼接得到待识别词；并得到识别状态；依次调用层级高于识别状态显示的层级的地址要素层的识别函数，与待识别词进行匹配；若匹配成功，则将已识别地址要素记录；更新所述识别状态，并得到新的待识别词，再对新的待识别词进行匹配，直到有序词项序列为空则判定本次匹配成功结束，本发明专利技术实施例通过构建包括地址要素层的地址模型，以及每个地址要素层的识别函数，分别对从有序词项序列中提取出的词项拼接得到待识别词进行识别，从而能够更加快速、准确得从待识别文本中得到正确的中文地址。

A Chinese Address Recognition Method and Equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种中文地址识别方法及设备
本专利技术涉及生物计算机
，尤其涉及一种中文地址识别方法及设备。
技术介绍
在房地产相关的业务系统中，房屋的地理位置是一个非常重要的信息维度，在按地理位置进行的房屋查找筛选、数据统计、挖掘分析等业务处理过程中，常常要处理大量的地址信息，而这些地址信息大都是以文本形式存放在数据库中，并不能直接进行处理和计算。因此，中文地址信息标准化建模是地址信息处理的重要步骤，而地址建模过程中地址元素识别的准确度将直接影响到后续业务处理的正确性。现在技术中常见的方法有，基于正则表达式的匹配算法、基于关联规则的方法、地址要素层级模型为核心的地址匹配方法、基于自然语义理解的方法。基于正则表达式的方法，实现起来最简单，但效果也最差，因为算法完全是建立在字符串比较的基础之上，没办法识别地址要素层级，很难对地址消歧，匹配准确率低，稳定性差，只能匹配一些简单模式的地址。在基于关联规则的算法中，是通过计算地址要素联系的频率实现关联。其算法主要包括两大块：首先是在地址数据集中找出高频地址要素组；其次是从这些高频地址要素组中产生关联规则。关联规则挖掘的方法运用到对地址模型自适应构建，可以把两个前后出现频率高的地址要素看作高频地址要素组，地址要素出现的频率称为支持度。首先找出地址数据集中所有的地址要素组，然后在这些地址要素组之间计算关联规则。然而基于的算法需要大量的地址数据集进行训练，因此无法进行冷启动。并且关联规则方法是基于最小支持度和最小信赖度来挖掘地址要素之间的联系，末达到阈值的要素联系是不会被提取出来的，就会造成一些低频抽取模型的地址无法识别。以地址要...

【技术保护点】
1.一种中文地址识别方法，其特征在于，包括：获取有序词项序列和与所述序词项序列对应的地址模型；其中，所述有序词项序列包括按预设顺序排列的复数个词项，所述地址模型包括由低到高排列的预设总层级数的地址要素层，以及每个地址要素层的识别函数；根据预设的拼接规则，从所述有序词项序列中提取出位于开始的至少一个词项，拼接得到待识别词；并根据所述地址模型，得到所述地址模型的识别状态，所述识别状态用于显示所述地址模型中匹配成功的地址要素层中的最高层级；根据所述层级由低到高，依次调用所述层级高于所述识别状态显示的层级的地址要素层的识别函数，分别与所述待识别词进行匹配；若任一识别函数匹配成功，则将与所述识别函数对应的地址要素层标记为匹配成功，并将匹配得到的已识别地址要素记录到所述地址要素层中；根据当前的地址模型，更新所述识别状态，并根据当前的有序词项序列得到新的待识别词，再根据当前的识别状态对新的待识别词进行匹配，直到所述有序词项序列为空，或者直到最高层级的地址要素层匹配成功，则判定本次匹配成功结束。

【技术特征摘要】
1.一种中文地址识别方法，其特征在于，包括：获取有序词项序列和与所述序词项序列对应的地址模型；其中，所述有序词项序列包括按预设顺序排列的复数个词项，所述地址模型包括由低到高排列的预设总层级数的地址要素层，以及每个地址要素层的识别函数；根据预设的拼接规则，从所述有序词项序列中提取出位于开始的至少一个词项，拼接得到待识别词；并根据所述地址模型，得到所述地址模型的识别状态，所述识别状态用于显示所述地址模型中匹配成功的地址要素层中的最高层级；根据所述层级由低到高，依次调用所述层级高于所述识别状态显示的层级的地址要素层的识别函数，分别与所述待识别词进行匹配；若任一识别函数匹配成功，则将与所述识别函数对应的地址要素层标记为匹配成功，并将匹配得到的已识别地址要素记录到所述地址要素层中；根据当前的地址模型，更新所述识别状态，并根据当前的有序词项序列得到新的待识别词，再根据当前的识别状态对新的待识别词进行匹配，直到所述有序词项序列为空，或者直到最高层级的地址要素层匹配成功，则判定本次匹配成功结束。2.根据权利要求1所述的中文地址识别方法，其特征在于，所述方法还包括：若所有的识别函数均匹配失败，则将所述待识别词命名为未识别词；根据所述拼接规则，从所述有序词项序列中提取出位于开始的至少一个词项，拼接到所述未识别词后得到新的待识别词，再根据当前的识别状态对新的待识别词进行匹配；相应地，所述方法还包括：在将所述待识别词命名为未识别词后，若此时，所述有序词项序列为空，则判定本次匹配失败结束。3.根据权利要求2所述的中文地址识别方法，其特征在于，所述地址模型将所有的地址要素层分为预设第一层级数的行政地址要素层和预设第二层级数的详细地址要素层；其中，所述总层级数等于所述第一层级数与第二层级数的和，所述行政地址要素层的层级低于所述详细地址要素层的层级；相应地，所述根据所述层级由低到高，依次调用所述层级高于所述识别状态的地址要素层的识别函数，分别与所述待识别词进行匹配，具体为：若所述识别状态显示为初始状态，或显示的层级为行政地址要素层，则根据所述层级由低到高，依次调用所述层级高于所述识别状态显示的层级的行政地址要素层的识别函数，分别与所述待识别词进行匹配：若所有的识别函数均匹配失败，则将所述识别状态设为行政区划匹配结束，再根据当前的识别状态对当前的待识别词进行匹配；相应地，所述根据当前的地址模型，更新所述识别状态，具体为：根据当前的地址模型中已经匹配成功的地址要素层中的最高层级，更新所述识别状态，若所述识别状态为最高层级的行政地址要素层，则将所述识别状态设为所述行政区划匹配结束；相应地，所述方法还包括：若所述识别状态显示为行政区划匹配结束，则根据所述层级由低到高，依次调用所有的详细地址要素层的识别函数，分别与所述待识别词...

【专利技术属性】
技术研发人员：詹青，
申请(专利权)人：北京贝壳时代网络科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人