一种基于模糊字典树的地理词汇快速抽取方法技术

技术编号：15542725 阅读：71 留言：0更新日期：2017-06-05 11:33

本发明专利技术公开了一种基于模糊字典树的地理词汇快速抽取方法，包括地理信息本体入库、生成基于拼音、字缺失的Trie节点、根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制、提供地理词汇的相似度实现抽取结果评分排序、快速抽取位置描述中的所有基础位置概念对象等5个步骤；本发明专利技术基于Trie实现了一种基础位置概念对象的高效抽取方法，实现融合特定位置概念类型的模糊、漏字等情况，利于解决针对位置描述定位的相关问题。

A fast method of geographic vocabulary extraction based on Fuzzy dictionary tree

The invention discloses a fuzzy dictionary tree fast extraction method based on geographic terms, including geographic information ontology generation based on Pinyin, word storage, deletion of Trie nodes, according to geographical location based concept annotation for fine-grained search and fuzzy search control, provide geographic lexical similarity extraction results score sort, quick draw position the description of all the basic concepts of object position in 5 steps; the invention realizes efficient Trie extraction method is a basic concept of object position based on fuzzy fusion, location specific concept types of missing words, to solve the problems related to location location description.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模糊字典树的地理词汇快速抽取方法
本专利技术属于自然语言位置提取
，特别是涉及一种基于模糊字典树的地理词汇快速抽取方法。
技术介绍
位置描述概念根据其构成可进一步划分为：基础位置概念和复杂位置概念。在位置概念的基本结构组成中，包括地名、地址、POI以及相关的空间关系。地名的形成有文化、经济、政治等因素，会随着时间变化而变化；地址的形成符合行政的划分特征，是对于特定位置的结构化描述，是若干基础地名的组合，具有地域性特征；POI是商家或机构以简洁的形式传达尽量唯一的特征，包含类别、业务、地点等特征词汇；空间关系是地名、地址和POI的组合，表达地理实体间的关系，反映地理实体和位置信息的描述、关联与计算，是空间认知的体现。尽管没有唯一的区分特征，人们在形成概念的过程中依然遵循一定的标准进行地名的分类，模型的粒度越细，表达能力越强，也越可能与实际产生偏差。地名概念的构成较为简单，其只包含对应的实体名称词汇及特征词两个基础位置概念；地址的概念构成一般包含包含行政区、街道巷、小区、门楼址、以及某个标志物的名称，其从结构上本身呈现出很明显的层次化特征。由于地址的标准化形式，其也是在日常通信交流以及行政管理过程中最为常见的一种位置表达形式。广义的位置模型由多源的位置信息组成，由于位置可以以多种形式出现，建立一个针对位置描述定位的通用位置概念模型十分困难，因此在考虑地名地址概念的建模中，应侧重于位置描述的定位，围绕位置概念的基本结构进行概念的构建，分析位置概念的词汇构成，融入对于位置定位计算中需要的语义和空间信息。
技术实现思路
为了解决上述技术问题，本专利技术将位...
一种基于模糊字典树的地理词汇快速抽取方法

【技术保护点】
一种基于模糊字典树的地理词汇快速抽取方法，其特征在于，包括以下步骤：步骤1：地理信息本体入库；步骤2：生成基于拼音、字缺失的Trie节点；步骤3：根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制；步骤4：提供地理词汇的相似度实现抽取结果评分排序；步骤5：快速抽取位置描述中的所有基础位置概念对象。

【技术特征摘要】
1.一种基于模糊字典树的地理词汇快速抽取方法，其特征在于，包括以下步骤：步骤1：地理信息本体入库；步骤2：生成基于拼音、字缺失的Trie节点；步骤3：根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制；步骤4：提供地理词汇的相似度实现抽取结果评分排序；步骤5：快速抽取位置描述中的所有基础位置概念对象。2.根据权利要求1所述的基于模糊字典树的地理词汇快速抽取方法，其特征在于，步骤2的具体实现包括以下子步骤：步骤2.1：输入基础位置概念对象k、文本w、类型序号c；基础位置概念其对应位置概念的原子组成词汇的概念表达，其只有一个固有属性“word”，代表词汇的字符串形式；步骤2.2：根据一个字符长度阈值hm对w进行判断，若w字符长度大于选定阈值hm，则取局部的删除参数m定为1，否则为0；步骤2.3：将w类型转换为半角形式；步骤2.4：获取文本w并使之对应于每一个汉字的拼音集合P；步骤2.5：根据m值分情况讨论；若m＝0，递归调用addWordToTree方法将k加入trie，默认传入trie的根节点Troot；若m＞0，排列组合获取并遍历删除后的文本集合Wd，将对象删除处以占位符“##”替代，形成新文本w’与k组合，递归调用addWordToTree方法加入trie。3.根据权利要求2所述的基于模糊字典树的地理词汇快速抽取方法，其特征在于，步骤2.5中所述的addWordToTree方法，具体实现包括以下子步骤：步骤2.5.1：输入节点v、文本w、拼音列表P、当前位置i、位置概念对象c及其类型；步骤2.5.2：判断i的位置；若i不处于P最后位置，则执行下述步骤2.5.3；若i处于P最后位置，则执行下述步骤2.5.5；步骤2.5.3：节点搜寻，找到v对应拼音pi的子节点vpi；步骤2.5.4：判断子节点vpi是否存在；若vpi不存在，则创建新节点，将i前进一位，并回转执行所述步骤2.5.2；若vpi存在，则找到拼音列表子节点，并回转执行所述步骤2.5.2；步骤2.5.5：若i处于P末端，将对象插入节点的对象列表O中。4.根据权利要求1所述的基于模糊字典树的地理词汇快速抽取方法，其特征在于，步骤3的具体实现包括以下子步骤：步骤3.1：输入原始位置描述D，是否模糊搜索f；步骤3.2：将D转换为半角形式；步骤...

【专利技术属性】
技术研发人员：佘冰，呙维，朱欣焰，王绪滢，胡涛，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人