一种地理信息领域的关键字提取的方法及装置制造方法及图纸

技术编号：7242303 阅读：219 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种地理信息领域的关键字提取的方法及装置，属于电数字数据处理技术领域，该方法包括：步骤1、利用中文分词工具对地理信息数据库中的待处理数据进行分词处理；步骤2、以分词得到的短语为最小粒度单元，并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字；步骤3、根据候选关键字的类型，将候选关键字记录到与类型对应的数据词典中。将中文分词与N-gram模型相结合的关键字的提取方法，保存并充分利用历史处理过程中的数据，能兼顾地理信息领域中关键字提取的效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于电数字数据处理
，尤其涉及一种地理信息领域的关键字提取的方法及装置。
技术介绍
兴趣点(Ρ0Ι，Point Of Interest)是指可查找、可定位的包含衣食住行等附属社会信息的点要素。在POI生产过程中，通常采用基于领域关键字词典的命名实体识别、POI 数据自动分类等技术辅助人工进行处理，以大幅提高生产效率。领域关键字的提取是构建领域关键字词典的重要环节。目前，常用的关键字提取方法主要有基于中文分词的关键字提取方法和基于 N-gram模型的关键字提取方法。但现有的关键字提取方法存在以下问题1)基于中文分词的关键字提取方法，主要问题是对POI名称数据切分过于细碎，导致长度上不能满足领域关键字的要求，造成准确率低；2)基于N-gram(N个连续符号的序列)模型的关键字提取方法，是大词汇连续语音识别中常用的一种语言模型，由于获取的是以单个字为最小粒度单元组合而成，会造成无效的噪声数据过多，导致处理速度慢。由此可知，现有的关键字提取方法由于没有考虑到地理信息领域中数据的特性，导致现有的关键字提取方法在地理信息领域中适应性不强。
技术实现思路
为了解决上述问题，本专利技术的目的是提供一种地理信息领域的关键字提取的方法及装置，通过基于中文分词与N-gram模型相结合的候选关键字的提取，能兼顾地理信息领域中关键字提取的效率和准确率。为了达到上述目的，本专利技术提供一种地理信息领域的关键字提取的方法，所述提取方法包括步骤1、利用中文分词工具对地理信息数据库中的待处理数据进行分词处理；步骤2、以分词得到的短语为最小粒度单元，并结合N-gram模型获...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：陈小宾，申排伟，杜宇程，
申请(专利权)人：北京四维图新科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人