当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于模糊字典树的地理词汇快速抽取方法技术

技术编号:15542725 阅读:71 留言:0更新日期:2017-06-05 11:33
本发明专利技术公开了一种基于模糊字典树的地理词汇快速抽取方法,包括地理信息本体入库、生成基于拼音、字缺失的Trie节点、根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制、提供地理词汇的相似度实现抽取结果评分排序、快速抽取位置描述中的所有基础位置概念对象等5个步骤;本发明专利技术基于Trie实现了一种基础位置概念对象的高效抽取方法,实现融合特定位置概念类型的模糊、漏字等情况,利于解决针对位置描述定位的相关问题。

A fast method of geographic vocabulary extraction based on Fuzzy dictionary tree

The invention discloses a fuzzy dictionary tree fast extraction method based on geographic terms, including geographic information ontology generation based on Pinyin, word storage, deletion of Trie nodes, according to geographical location based concept annotation for fine-grained search and fuzzy search control, provide geographic lexical similarity extraction results score sort, quick draw position the description of all the basic concepts of object position in 5 steps; the invention realizes efficient Trie extraction method is a basic concept of object position based on fuzzy fusion, location specific concept types of missing words, to solve the problems related to location location description.

【技术实现步骤摘要】
一种基于模糊字典树的地理词汇快速抽取方法
本专利技术属于自然语言位置提取
,特别是涉及一种基于模糊字典树的地理词汇快速抽取方法。
技术介绍
位置描述概念根据其构成可进一步划分为:基础位置概念和复杂位置概念。在位置概念的基本结构组成中,包括地名、地址、POI以及相关的空间关系。地名的形成有文化、经济、政治等因素,会随着时间变化而变化;地址的形成符合行政的划分特征,是对于特定位置的结构化描述,是若干基础地名的组合,具有地域性特征;POI是商家或机构以简洁的形式传达尽量唯一的特征,包含类别、业务、地点等特征词汇;空间关系是地名、地址和POI的组合,表达地理实体间的关系,反映地理实体和位置信息的描述、关联与计算,是空间认知的体现。尽管没有唯一的区分特征,人们在形成概念的过程中依然遵循一定的标准进行地名的分类,模型的粒度越细,表达能力越强,也越可能与实际产生偏差。地名概念的构成较为简单,其只包含对应的实体名称词汇及特征词两个基础位置概念;地址的概念构成一般包含包含行政区、街道巷、小区、门楼址、以及某个标志物的名称,其从结构上本身呈现出很明显的层次化特征。由于地址的标准化形式,其也是在日常通信交流以及行政管理过程中最为常见的一种位置表达形式。广义的位置模型由多源的位置信息组成,由于位置可以以多种形式出现,建立一个针对位置描述定位的通用位置概念模型十分困难,因此在考虑地名地址概念的建模中,应侧重于位置描述的定位,围绕位置概念的基本结构进行概念的构建,分析位置概念的词汇构成,融入对于位置定位计算中需要的语义和空间信息。
技术实现思路
为了解决上述技术问题,本专利技术将位置描述概念模型与解析技术相结合,利用位置概念蕴含语义信息,以知识抽取替代通用的中文分词阶段,提出一种基于模糊字典树的地理词汇快速抽取方法,基于Trie实现融合特定位置概念类型的模糊、漏字等情况,将位置概念根据地理词汇组成划分,抽取位置描述中的基础位置概念对象。本专利技术所采用的技术方案是:一种基于模糊字典树的地理词汇快速抽取方法,包括以下步骤:步骤1:地理信息本体入库;步骤2:生成基于拼音、字缺失的Trie节点;步骤3:根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制;步骤4:提供地理词汇的相似度实现抽取结果评分排序;步骤5:快速抽取位置描述中的所有基础位置概念对象。作为优选,步骤2的具体实现包括以下子步骤:步骤2.1:输入基础位置概念对象k、文本w、类型序号c;基础位置概念其对应位置概念的原子组成词汇的概念表达,其只有一个固有属性“word”,代表词汇的字符串形式。步骤2.2:根据一个字符长度阈值hm对w进行判断,若w字符长度大于选定阈值hm,则取局部的删除参数m定为1,否则为0;步骤2.3:将w类型转换为半角形式;步骤2.4:获取文本w并使之对应于每一个汉字的拼音集合P;步骤2.5:根据m值分情况讨论;若m=0,递归调用addWordToTree方法将k加入trie,默认传入trie的根节点Troot;若m>0,排列组合获取并遍历删除后的文本集合Wd,将对象删除处以占位符“##”替代,形成新文本w’与k组合,递归调用addWordToTree方法加入trie。作为优选,步骤2.5中所述的addWordToTree方法,具体实现包括以下子步骤:步骤2.5.1:输入节点v、文本w、拼音列表P、当前位置i、位置概念对象c及其类型;步骤2.5.2:判断i的位置;若i不处于P最后位置,则执行下述步骤2.5.3;若i处于P最后位置,则执行下述步骤2.5.5;步骤2.5.3:节点搜寻,找到v对应拼音pi的子节点vpi;步骤2.5.4:判断子节点vpi是否存在;若vpi不存在,则创建新节点,将i前进一位,并回转执行所述步骤2.5.2;若vpi存在,则找到拼音列表子节点,并回转执行所述步骤2.5.2;步骤2.5.5:若i处于P末端,将对象插入节点的对象列表O中。作为优选,步骤3的具体实现包括以下子步骤:步骤3.1:输入原始位置描述D,是否模糊搜索f;步骤3.2:将D转换为半角形式;步骤3.3:初始化词汇对象输出集合R并索引节点栈Q,对应D的各索引号,以根节点作为节点,构建节点元素集合qi加入Q;步骤3.4:从Q中取出一个元素q,判断是否为空;若是,则回转执行步骤3.3:若否,则继续执行下述步骤3.4;步骤3.4:判断对应位置描述的起始位置psq是否超出|D|;若是,流程结束,未搜索到满足条件的词汇;若否,则继续执行下述步骤3.5;步骤3.5:取D处于psq的拼音,从当前节点vp的边Mvp中寻找精确节点vp’,用占位符“##”从Mvp获取模糊节点vp”,将vp’和vp”放入待处理集合V’;步骤3.6:遍历V’,取某节点v,构建新索引节点为对应描述位置的起始位置;为对应描述位置的终止位置;步骤3.7:判断节点p′是否在栈Q中存在;若是,则回转执行步骤3.3;若否,则将p′加入Q;并继续执行下述步骤3.8;步骤3.8:判断叶节点的对象列表Ov是否为空;若是,则回转执行步骤3.3;若否,则继续执行下述步骤3.9;步骤3.9:判断f是否为真;若是,则继续执行下述步骤3.10;如否,则继续执行下述步骤3.11;步骤3.10:遍历当前包含具体信息的集合Ov,并判断对象o位置概念类型模糊标签是否正确;若对象o位置概念类型模糊标签正确,则用o建立或更新R中对应包含起始与终止位置的集合的词汇对象;若错误,对比原始字符串w与对应的位置描述D[psq,peq];步骤3.11:遍历Ov,按步骤1.10中非模糊标签的形式判断字符串是否相等,并更新R;步骤3.12:对象输出集合R进行评分。作为优选,步骤4的具体实现包括以下子步骤:步骤4.1:若查询词汇t与原始词汇o长度(n)相同,逐字符比较,分数公式为:集合n1为逐字符比较过程中相同的字符集合,n2为字符不同但拼音相同的集合,n3为剩余字符集合;a、b、c为三者的权重得分;步骤4.2:若t与o长度不同,但差距仅为删除距离,则构建并遍历删除集合Od,得出每个词汇odi与t的匹配分数Scorei,最大值作为最终匹配分值。本专利技术基于Trie实现了一种基础位置概念对象的高效抽取方法,实现融合特定位置概念类型的模糊、漏字等情况,利于解决针对位置描述定位的相关问题。附图说明图1:本专利技术实施例的地址概念构成示意图;图2:本专利技术实施例的LO-Trie构成示意图;图3:本专利技术实施例的流程图;图4:本专利技术实施例的以递归调用形式将节点加入到trie中流程图;图5:本专利技术实施例的递归式LO-Trie的搜索流程图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。请见图1,本专利技术实施例中,地址一般包含行政区、街道巷、小区、门楼址及某标志物的名称,结构上呈现层次化特征。位置概念的层次分类将空间认知中的位置概念进行系统性的归类,是对位置描述进行概念建模的基础。概念根据其构成划分为:基础位置概念和复杂位置概念。基础位置概念对应位置概念的原子组成词汇的概念表达。如行政区词汇“湖北”,特征词词汇“省”,POI通名词汇“商店”,连接词汇“和”,本文档来自技高网...
一种基于模糊字典树的地理词汇快速抽取方法

【技术保护点】
一种基于模糊字典树的地理词汇快速抽取方法,其特征在于,包括以下步骤:步骤1:地理信息本体入库;步骤2:生成基于拼音、字缺失的Trie节点;步骤3:根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制;步骤4:提供地理词汇的相似度实现抽取结果评分排序;步骤5:快速抽取位置描述中的所有基础位置概念对象。

【技术特征摘要】
1.一种基于模糊字典树的地理词汇快速抽取方法,其特征在于,包括以下步骤:步骤1:地理信息本体入库;步骤2:生成基于拼音、字缺失的Trie节点;步骤3:根据地理基础位置概念标注实现细粒度的搜寻中模糊搜索的控制;步骤4:提供地理词汇的相似度实现抽取结果评分排序;步骤5:快速抽取位置描述中的所有基础位置概念对象。2.根据权利要求1所述的基于模糊字典树的地理词汇快速抽取方法,其特征在于,步骤2的具体实现包括以下子步骤:步骤2.1:输入基础位置概念对象k、文本w、类型序号c;基础位置概念其对应位置概念的原子组成词汇的概念表达,其只有一个固有属性“word”,代表词汇的字符串形式;步骤2.2:根据一个字符长度阈值hm对w进行判断,若w字符长度大于选定阈值hm,则取局部的删除参数m定为1,否则为0;步骤2.3:将w类型转换为半角形式;步骤2.4:获取文本w并使之对应于每一个汉字的拼音集合P;步骤2.5:根据m值分情况讨论;若m=0,递归调用addWordToTree方法将k加入trie,默认传入trie的根节点Troot;若m>0,排列组合获取并遍历删除后的文本集合Wd,将对象删除处以占位符“##”替代,形成新文本w’与k组合,递归调用addWordToTree方法加入trie。3.根据权利要求2所述的基于模糊字典树的地理词汇快速抽取方法,其特征在于,步骤2.5中所述的addWordToTree方法,具体实现包括以下子步骤:步骤2.5.1:输入节点v、文本w、拼音列表P、当前位置i、位置概念对象c及其类型;步骤2.5.2:判断i的位置;若i不处于P最后位置,则执行下述步骤2.5.3;若i处于P最后位置,则执行下述步骤2.5.5;步骤2.5.3:节点搜寻,找到v对应拼音pi的子节点vpi;步骤2.5.4:判断子节点vpi是否存在;若vpi不存在,则创建新节点,将i前进一位,并回转执行所述步骤2.5.2;若vpi存在,则找到拼音列表子节点,并回转执行所述步骤2.5.2;步骤2.5.5:若i处于P末端,将对象插入节点的对象列表O中。4.根据权利要求1所述的基于模糊字典树的地理词汇快速抽取方法,其特征在于,步骤3的具体实现包括以下子步骤:步骤3.1:输入原始位置描述D,是否模糊搜索f;步骤3.2:将D转换为半角形式;步骤...

【专利技术属性】
技术研发人员:佘冰呙维朱欣焰王绪滢胡涛
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1