一种地名识别方法技术

技术编号：20273051 阅读：30 留言：0更新日期：2019-02-02 03:51

本发明专利技术涉及一种地名识别方法，属于信息技术领域。本发明专利技术首先建立行政区划数据库和常见地名数据库作为基础数据库；接着对大量含有地名的语料库进行统计分析，得到基于统计的地名识别模型；然后对待识别的字符串利用基础数据库进行首次地名识别；接着利用基于规则的方法进行二次地名识别；最后利用统计好的地名识别模型进行第三次地名识别，得到地名识别的最终结果。本发明专利技术通过将统计模型和规则识别进行结合，解决了传统的地名识别技术规则的可移植性差，对地名的识别存在歧义，从而使得地名识别结果准确率低的现象，以提高地名识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种地名识别方法
本专利技术涉及一种地名识别方法，属于信息

技术介绍
命名实体识别是信息抽取的一项子任务，其目的是从海量的文本数据中抽取出指定的实体。在自然语言处理应用领域中，命名实体识别是信息检索、机器翻译、情感分析等多项自然语言处理应用的基础任务，而地名识别是命名实体识别的一个子问题，因此，对它的研究具有重要意义和价值。一般地，地名语义复杂，地名的用字又具有很大的任意性，所以传统的地名识别技术不能有效地识别出新词；同时，由于地名数量众多、没有形态上的特征、规律各异等特点，所以传统的基于规则的地名识别技术由于可移植性差，会使得对地名的识别会变得不够准确，以上所述都会给地名识别造成困难。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足，提供一种地名识别方法，将统计模型和规则识别进行结合，解决了传统的地名识别技术规则的可移植性差，对地名的识别存在歧义，从而使得地名识别结果准确率低的现象，以提高地名识别的准确性。本专利技术的技术方案是：一种地名识别方法，首先建立行政区划数据库和常见地名数据库作为基础数据库；接着对大量含有地名的语料库进行统计分析，得到基于统计的地名识别模型；然后对待识别的字符串利用基础数据库进行首次地名识别；接着利用基于规则的方法进行二次地名识别；最后利用统计好的地名识别模型进行第三次地名识别，得到地名识别的最终结果。具体步骤为：①建立行政区划数据库和常见地名数据库。②对大量含有地名的语料进行统计分析，得到基于统计的地名识别模型。③对待识别的字符串利用基础数据库进行首次地名识别。④利用基于规则的方法进行二次地名识别。⑤...

【技术保护点】
1.一种地名识别方法，其特征在于：①建立行政区划数据库和常见地名数据库；②对大量含有地名的语料进行统计分析，得到基于统计的地名识别模型；③对待识别的字符串利用基础数据库进行首次地名识别；④利用基于规则的方法进行二次地名识别；⑤利用统计好的地名识别模型进行第三次地名识别，得到地名识别的最终结果；⑥通过人工筛选得到地名识别的最终结果。

【技术特征摘要】
1.一种地名识别方法，其特征在于：①建立行政区划数据库和常见地名数据库；②对大量含有地名的语料进行统计分析，得到基于统计的地名识别模型；③对待识别的字符串利用基础数据库进行首次地名识别；④利用基于规则的方法进行二次地名识别；⑤利用统计好的地名识别模型进行第三次地名识别，得到地名识别的最终结果；⑥通过人工筛选得到地名识别的最终结果。2.根据权利要求1所述的地名识别方法，其特征在于：步骤②所述的基于统计的地名识别模型要提取的特征有：地名用字概率以及地名前后字或词的词性特征。3.根据权利要求2所述的地名识别方法，其特征在于：所述的地名用字概率通过训练地名语料库后统计得到，具体实现为：将地名语料库中的地名按字切分，得到一个由字组成的集合A，再统计每个字出现的频率，即为概率，最后按照频率的大小进行排序，取前m个为地名用字概率大的字，作为后续地名识别的依据，所述地名用字概率的计算公式为：其中，pi为第i个字出现的概率，n为集合A中的字的总个数，wi为地名语料库中第i个字出现的次数；所述的门限m通过大量实验后得到。4.根据权利要求2所述的地名识别方法，其特征在于：提取所述的地名前后字或词的词性特征的具体实现为：首先对地名前后字或词进行词性标注，再分别计算地名前面的词的词性出现的概率p(q)、地名后面的词的词性出现的概率p(h)以及地名前后的词的词性出现的条件概率p(q|h)，所述的p(q)、p(h)、p(q|h)可利用每个词性出现的频率表示，计算公式为：其中，z为词性的总个数，q、h分别为地名前、后词性出现的次数，p(h|q)为在前一个词性确定的情况下前一个词性出现的概率，可通过训练样...

【专利技术属性】
技术研发人员：龙华，吴睿，熊新，邵玉斌，杜庆治，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人