一种地理信息领域的关键字提取的方法及装置制造方法及图纸

技术编号:7242303 阅读:219 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种地理信息领域的关键字提取的方法及装置,属于电数字数据处理技术领域,该方法包括:步骤1、利用中文分词工具对地理信息数据库中的待处理数据进行分词处理;步骤2、以分词得到的短语为最小粒度单元,并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字;步骤3、根据候选关键字的类型,将候选关键字记录到与类型对应的数据词典中。将中文分词与N-gram模型相结合的关键字的提取方法,保存并充分利用历史处理过程中的数据,能兼顾地理信息领域中关键字提取的效率和准确率。

【技术实现步骤摘要】

本专利技术属于电数字数据处理
,尤其涉及一种地理信息领域的关键字提取的方法及装置
技术介绍
兴趣点(Ρ0Ι,Point Of Interest)是指可查找、可定位的包含衣食住行等附属社会信息的点要素。在POI生产过程中,通常采用基于领域关键字词典的命名实体识别、POI 数据自动分类等技术辅助人工进行处理,以大幅提高生产效率。领域关键字的提取是构建领域关键字词典的重要环节。目前,常用的关键字提取方法主要有基于中文分词的关键字提取方法和基于 N-gram模型的关键字提取方法。但现有的关键字提取方法存在以下问题1)基于中文分词的关键字提取方法,主要问题是对POI名称数据切分过于细碎, 导致长度上不能满足领域关键字的要求,造成准确率低;2)基于N-gram(N个连续符号的序列)模型的关键字提取方法,是大词汇连续语音识别中常用的一种语言模型,由于获取的是以单个字为最小粒度单元组合而成,会造成无效的噪声数据过多,导致处理速度慢。由此可知,现有的关键字提取方法由于没有考虑到地理信息领域中数据的特性, 导致现有的关键字提取方法在地理信息领域中适应性不强。
技术实现思路
为了解决上述问题,本专利技术的目的是提供一种地理信息领域的关键字提取的方法及装置,通过基于中文分词与N-gram模型相结合的候选关键字的提取,能兼顾地理信息领域中关键字提取的效率和准确率。为了达到上述目的,本专利技术提供一种地理信息领域的关键字提取的方法,所述提取方法包括步骤1、利用中文分词工具对地理信息数据库中的待处理数据进行分词处理;步骤2、以分词得到的短语为最小粒度单元,并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字;步骤3、根据所述候选关键字的类型,将所述候选关键字记录到与所述类型对应的数据词典中。优选的,在所述步骤1之前,所述提取方法还包括对所述地理信息数据库中待处理数据进行格式的规范化处理。优选的,在对所述待处理数据进行格式的规范化处理之前,所述方法还包括判断是否处理完所述地理信息数据库中所有待处理数据;如果处理完,则统计每个所述候选关键字的词频,并忽略所述词频低于预设词频阈值的候选关键字,然后执行所述步骤3 ;若没有处理完,则从所述地理信息数据库中获取下一条待处理数据,然后返回所述步骤1。优选的,所述步骤3之前,所述方法还包括判断当前的所述候选关键字是否已经存在于历史数据词典中,若是,则忽略当前的所述候选关键字,获取下一个候选关键字;否则,保存当前的所述候选关键字,然后执行所述步骤3。优选的,所述历史数据词典中包括噪声数据和/或已提取的关键字数据。优选的,所述候选关键字的类型包括名称关键字、行业特点关键字、功能特征关键字和噪声数据。优选的,所述将所述候选关键字记录到与所述类型对应的数据词典中的步骤具体为将所述名称关键字记录到名称关键字的数据词典中;将所述行业特点关键字记录到行业特点关键字的数据词典中;将所述功能特征关键字记录到功能特征关键字的数据词典中;和/或将所述噪声数据记录到噪声数据词典中。为了达到上述目的,本专利技术还提供一种地理信息领域的关键字提取的装置,所述装置包括中文分词模块,用于利用中文分词工具对地理信息数据库中的待处理数据进行分词处理;候选关键字获取模块,用于以分词得到的短语为最小粒度单元,并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字;关键字提取模块,用于根据所述候选关键字的类型,将所述候选关键字记录到与所述类型对应的数据词典中。优选的,所述装置还包括词频统计模块,分别与所述候选关键字获取模块和所述关键字提取模块连接,用于统计所述候选关键字获取模块获取的候选关键字的词频,并将所述词频大于等于预设词频阈值的关键字发送给所述关键字提取模块。优选的,所述装置还包括历史数据词典构建模块,与所述关键字提取模块连接,用于根据关键字的类型获取关键字数据和/或噪声数据,并构建历史数据词典。由上述技术方案可知,在本实施例中首先基于中文分词对地理信息领域中的数据进行分词处理,然后以分词得到的短语为最小粒度单元,运用N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字,再从候选关键字中提取用户希望得到的关键字。因此本实施例中的技术方案与仅采用基于中文分词的关键字提取方法相比,避免了分词时对地理信息领域中数据切分细碎,长度上不能满足领域关键字提取的要求的问题,因此通过本实施例提取的关键字的召回率更高;本实施例中的技术方案与单独基于N-gram模型的关键字提取方法相比,避免了处理大量无效的噪声数据,因此,运行速度更快、效率更高;另外,还可充分利用历史数据词典中记录的噪声数据和已提取的关键字数据,能够避免噪声数据和已提取的关键字数据的重复处理,因此,运行速度更快。总之,本实施例中的提取关键字能兼顾效率、召回率及准确率,能更好地满足地理信息领域中关键字提取的要求。附图说明图1为本专利技术的实施例中地理信息领域的关键字提取的方法流程图;图2为本专利技术的实施例中利用中文分词和N-gram模型相结合的POI关键字提取的流程图;图3为本专利技术的实施例中地理信息领域的关键字提取的装置框图。 具体实施例方式在本实施例中,首先利用中文分词对地理信息数据库中的数据进行分词处理,然后以分词得到的短语为最小粒度单元,并结合N-gram模型获取长度不超过预设的关键字最大长度的所有候选关键字,最后根据候选关键字的类型,将候选关键字记录到与类型对应的数据词典中,通过利用中文分词与N-gram模型相结合的候选关键字的提取方式,能兼顾地理信息领域中关键字提取的效率和准确率。为了使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术实施例做进一步详细地说明。在此,本专利技术的示意性实施例及说明用于解释本专利技术,但并不作为对本专利技术的限定。参见图1,为本专利技术的实施例中地理信息领域的关键字提取的方法流程图,具体步骤如下步骤101、对地理信息数据库中待处理数据进行格式的规范化处理,然后执行步骤 102 ;由于地理信息数据库中待处理数据的格式可能不规范,因此,可对待处理数据进行格式的规范化处理,以规范数据格式。比如去除待处理数据中的空格、括号等。当然本步骤为可选步骤。步骤102、判断是否处理完地理信息数据库中所有待处理数据,若是,执行步骤 108;否则,执行步骤103;也就是,当处理完地理信息数据库中所有待处理数据,则可进行候选关键字的词频统计;否则,继续对待处理数据进行分词处理,以获得候选关键字。步骤103、从地理信息数据库中获取下一条待处理数据,然后执行步骤104 ;步骤104、利用中文分词工具对地理信息数据库中的待处理数据进行分词处理,然后执行步骤105 ;在本实施例中,可利用现有的中文分词对地理信息数据库中的待处理数据进行分词处理,得到的最小粒度单元为短语,其中短语之间可用空格作为分隔符。例如待处理数据为“北京盛唐文化传播责任有限公司”,经过本步骤处理后,得到的结果是“北京盛唐文化传播责任有限公司”,当然在本实施例中并不限定分隔符的具体表现形式。步骤105、以分词得到的短语为最小粒度单元,并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字,然后返回步骤106 ;也就是,应用本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:陈小宾申排伟杜宇程
申请(专利权)人:北京四维图新科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术