当前位置: 首页 > 专利查询>武汉大学专利>正文

基于语义位置模型的位置信息结构化提取方法及系统技术方案

技术编号:11211060 阅读:165 留言:0更新日期:2015-03-26 20:34
一种基于语义位置模型的位置信息结构化提取方法及系统,包括基于语义位置模型构建位置基础概念本体、位置实体概念本体,并填充本体实例;对位置基础概念本体和位置实体概念本体进行分类,建立对应的位置结构概念本体;自动化映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,规则类具有继承性和贪婪性;规则类实例化之后成为规则对象,将所有规则类实例化,最终生成规则集合;对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;针对每个规则组,进一步建立概念本体和规则之间的倒排索引;进行位置描述图匹配,利用规则匹配算法进行匹配完成位置信息的结构化提取。

【技术实现步骤摘要】
基于语义位置模型的位置信息结构化提取方法及系统
本专利技术属于自然语言位置提取
,特别是涉及一种基于语义位置模型的位置信息结构化提取方法及系统。
技术介绍
自然语言位置提取技术是自然语言理解领域一直以来的重点研宄问题之一,其主要内容是对位置名称和位置关系的识别,主要有两种方法:一种是基于正则表达式规则的方法,另一种是地理信息抽取(Geographical informat1n retrieval)方法。 基于正则表达式规则的方法需要建立地理命名实体或地名的语料库和构造规则,采用规则匹配的方式进行识别,对概念构造规则要求严格,能够提高抽取结果的准确率,但其缺点也比较明显。一是由于一般正则表达式规则只能对字符串信息进行匹配,难以灵活的融入地名实体和关系词汇之间的语义关系。其二,规则本身难以处理嵌套的空间关系、地名,在编写规则时,很容易出现组合爆炸问题,换言之,由于规则之间缺乏层次关系,编写足够保证查全率的规则十分困难。其三,正则表达式规则使用独立的匹配软件模块,其从语法和软件实现角度都难以和模糊位置识别方法有效的进行结合。其四,在规则数量较多时,且需要解析匹配较细尺度的地名如街道、P0I时,编译完成后的规则会非常庞大,系统效率极速降低。最后由于本身规则数量较多,且正则表达式语法在匹配较复杂的句法时语法非常复杂,难以编写和维护,这样也很难保证位置信息的查全率。P0I是兴趣点,一般而言,每个P0I包含四方面信息,名称、类别、经度、玮度。 地理信息抽取方法则一般针对篇章级文本进行处理,其基本思路是利用自然语言处理的一些通用工具如命名实体识别、词性标注等对文本进行处理,由于这些通用工具并不针对位置提取领域,需要进行大量的后处理对前期提取的地理实体进行修正,常用的方法包括边界扩张、元规则地名重构、词性判别、类型传播(Lieberman and Samet 2011),最后一个步骤是进行地名歧义消解和定位。针对短语级的描述信息,其相比长文本一般需要更精确地提取和定位,局部语句的句法结构变化方式比一般的篇章文本中更为复杂,在近两年也引起了该领域一些研宄者的注意。如Gelernter and Balaji (2013)从微博信息中进行街道级别位置的定位,使用机器学习方法对于英文的缩写问题进行判别。针对空间关系的提取也有研宄者提出三元组的方式进行提取(Khan et al.2013) ο针对中文泛在信息的位置解析匹配工作开展的较晚,中文因为其语法结构跟英语等有明显的不同,研宄者一般还需要采取预先分词的方式进行处理,而分词由于切分歧义,本身也会引入错误,会给后期处理带来进一步的问题。
技术实现思路
针对上述问题,本专利技术提出一种基于语义位置模型的位置信息结构化提取技术方案,能有效提高自然语言位置提取效率和准确率,支持灵活定义规则语句,从而实现简单和复杂句法模式的匹配。 本专利技术技术方案提供一种基于语义位置模型的位置信息结构化提取方法,包括以下步骤:步骤1,基于语义位置模型构建位置基础概念本体、位置实体概念本体,并填充本体实例;所述位置基础概念本体为地理实体的基本组成部分对应的概念本体,所述位置实体概念本体为地理实体的概念本体; 步骤2,对位置基础概念本体和位置实体概念本体进行分类,针对每一个位置实体概念本体建立对应的位置结构概念本体;所述位置结构概念本体为位置实体概念本体具体组成方式的句法模式表达; 步骤3,自动化映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,规则类具有继承性和贪婪性;继承性支持规则的多级扩展,顶层父类定义规则类的基本方法和属性,子类根据该类对应的位置实体概念本体定义相应的方法和属性;贪婪标性包括设置一组贪婪标注,分为自贪婪标注、组贪婪标注和优先级贪婪标注; 自贪婪标注是指在匹配过程中,若句子同时被多个规则匹配,则舍弃其中匹配字数较少的规则,取匹配字数最多的规则作为最终匹配结果; 组贪婪标注是指在匹配过程中,若句子同时被多个规则组匹配,则选取规则组中规则成员最齐全的规则组作为最终匹配结果; 优先级贪婪标注是指在匹配过程中,若句子中的部分内容同时被多个规则匹配,则取优先级最高的规则作为这部分内容的匹配结果; 步骤4,规则类实例化之后成为规则对象,将所有规则类实例化,最终生成规则集合; 步骤5,对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;所述规则检索依赖图是统计规则集合中每条规则包含的位置基础概念本体和对应的位置实体概念本体信息,以及规则之间的依赖关系,根据这些信息对规则集合进行分类,重新划分为若干个规则组,形成的图状数据结构; 步骤6,针对每个规则组,进一步建立概念本体和规则之间的倒排索引; 步骤7,进行位置描述图匹配,以任意自然语言文本位置描述语句作为输入,并利用语义位置模型知识库对自然语言文本位置描述语句进行位置基础概念本体实例或别名的提取工作; 步骤8,将原始的自然语言文本位置描述语句和步骤7所得位置基础概念本体实例作为输入,并利用规则匹配算法进行匹配,完成位置信息的结构化提取。 而且,所述的步骤8的规则匹配算法包括以下子步骤, 步骤8.1,初始化生成一张匹配图,将位置基础概念本体实例作为概念节点插入到相应的原子词节点中,原子词节点对应基础概念本体实例; 步骤8.2,对每一个位置概念基础本体实例,从规则检索依赖图中查找匹配规则组进行匹配; 步骤8.3,接下来进行规则生长,在规则组内部利用相应倒排索引提取可能匹配的规则集,用规则集中每条规则进行匹配,找到符合规则的路径,根据该路径将匹配到的位置实体概念本体实例作为概念节点插入到相应的原子词节点中; 步骤8.4,规则生长完成后进行规则压抑,包括进行位置实体概念本体实例相应概念节点的剪除,若该节点违反了规则定义的贪婪规则,则将该节点剪除,剪除完成后,匹配图生成完成; 步骤8.5,根据匹配图的边权值转换为节点权重进行分值计算,对各概念节点和原子词节点给出评分; 步骤8.6,对匹配图进行K最短路径搜索,完成后根据概念节点转换成为最终的匹配树,完成位置信息的结构化提取。 而且,步骤8.5中的分值计算,包括针对原子词节点,计两个原子词节点间的边权值为2,1个原子词节点和1个概念节点的边权值为0 ;对于概念节点,其权值为所对应的概念匹配分值T,表达如下, T = a X Tvalid+b X T加 de+c X Tclass 其中,Tvalid是指概念节点的有效性评分,通过计算总字数与有效字数比值得出;Τη(Λ是指概念节点的子节点数评分,为该概念节点的子节点数N的反比1/Ν ^&^是指概念节点的概念类评分;a,b, c为预设的权值。 本专利技术还相应提供一种基于语义位置模型的位置信息结构化提取系统,包括以下模块:本体构建模块,用于基于语义位置模型构建位置基础概念本体、位置实体概念本体,并填充本体实例;所述位置基础概念本体为地理实体的基本组成部分对应的概念本体,所述位置实体概念本体为地理实体的概念本体; 分类构建模块,用于对位置基础概念本体和位置实体概念本体进行分类,针对每一个位置实体概念本体建立对应的位置结构概念本体;所述位置结本文档来自技高网
...

【技术保护点】
一种基于语义位置模型的位置信息结构化提取方法,其特征在于,包括以下步骤:步骤1,基于语义位置模型构建位置基础概念本体、位置实体概念本体,并填充本体实例;所述位置基础概念本体为地理实体的基本组成部分对应的概念本体,所述位置实体概念本体为地理实体的概念本体;步骤2,对位置基础概念本体和位置实体概念本体进行分类,针对每一个位置实体概念本体建立对应的位置结构概念本体;所述位置结构概念本体为位置实体概念本体具体组成方式的句法模式表达;步骤3,自动化映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,规则类具有继承性和贪婪性;继承性支持规则的多级扩展,顶层父类定义规则类的基本方法和属性,子类根据该类对应的位置实体概念本体定义相应的方法和属性;贪婪标性包括设置一组贪婪标注,分为自贪婪标注、组贪婪标注和优先级贪婪标注;自贪婪标注是指在匹配过程中,若句子同时被多个规则匹配,则舍弃其中匹配字数较少的规则,取匹配字数最多的规则作为最终匹配结果;组贪婪标注是指在匹配过程中,若句子同时被多个规则组匹配,则选取规则组中规则成员最齐全的规则组作为最终匹配结果;优先级贪婪标注是指在匹配过程中,若句子中的部分内容同时被多个规则匹配,则取优先级最高的规则作为这部分内容的匹配结果;步骤4,规则类实例化之后成为规则对象,将所有规则类实例化,最终生成规则集合;步骤5,对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;所述规则检索依赖图是统计规则集合中每条规则包含的位置基础概念本体和对应的位置实体概念本体信息,以及规则之间的依赖关系,根据这些信息对规则集合进行分类,重新划分为若干个规则组,形成的图状数据结构;步骤6,针对每个规则组,进一步建立概念本体和规则之间的倒排索引;步骤7,进行位置描述图匹配,以任意自然语言文本位置描述语句作为输入,并利用语义位置模型知识库对自然语言文本位置描述语句进行位置基础概念本体实例或别名的提取工作;步骤8,将原始的自然语言文本位置描述语句和步骤7所得位置基础概念本体实例作为输入,并利用规则匹配算法进行匹配,完成位置信息的结构化提取。...

【技术特征摘要】
1.一种基于语义位置模型的位置信息结构化提取方法,其特征在于,包括以下步骤: 步骤1,基于语义位置模型构建位置基础概念本体、位置实体概念本体,并填充本体实例;所述位置基础概念本体为地理实体的基本组成部分对应的概念本体,所述位置实体概念本体为地理实体的概念本体; 步骤2,对位置基础概念本体和位置实体概念本体进行分类,针对每一个位置实体概念本体建立对应的位置结构概念本体;所述位置结构概念本体为位置实体概念本体具体组成方式的句法模式表达; 步骤3,自动化映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,规则类具有继承性和贪婪性;继承性支持规则的多级扩展,顶层父类定义规则类的基本方法和属性,子类根据该类对应的位置实体概念本体定义相应的方法和属性;贪婪标性包括设置一组贪婪标注,分为自贪婪标注、组贪婪标注和优先级贪婪标注; 自贪婪标注是指在匹配过程中,若句子同时被多个规则匹配,则舍弃其中匹配字数较少的规则,取匹配字数最多的规则作为最终匹配结果; 组贪婪标注是指在匹配过程中,若句子同时被多个规则组匹配,则选取规则组中规则成员最齐全的规则组作为最终匹配结果; 优先级贪婪标注是指在匹配过程中,若句子中的部分内容同时被多个规则匹配,则取优先级最高的规则作为这部分内容的匹配结果;步骤4,规则类实例化之后成为规则对象,将所有规则类实例化,最终生成规则集合;步骤5,对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;所述规则检索依赖图是统计规则集合中每条规则包含的位置基础概念本体和对应的位置实体概念本体信息,以及规则之间的依赖关系,根据这些信息对规则集合进行分类,重新划分为若干个规则组,形成的图状数据结构; 步骤6,针对每个规则组,进一步建立概念本体和规则之间的倒排索引; 步骤7,进行位置描述图匹配,以任意自然语言文本位置描述语句作为输入,并利用语义位置模型知识库对自然语言文本位置描述语句进行位置基础概念本体实例或别名的提取工作;步骤8,将原始的自然语言文本位置描述语句和步骤7所得位置基础概念本体实例作为输入,并利用规则匹配算法进行匹配,完成位置信息的结构化提取。2.根据权利要求1所述基于语义位置模型的位置信息结构化提取方法,其特征在于:所述的步骤8的规则匹配算法包括以下子步骤, 步骤8.1,初始化生成一张匹配图,将位置基础概念本体实例作为概念节点插入到相应的原子词节点中,原子词节点对应基础概念本体实例; 步骤8.2,对每一个位置概念基础本体实例,从规则检索依赖图中查找匹配规则组进行匹配;步骤8.3,接下来进行规则生长,在规则组内部利用相应倒排索引提取可能匹配的规则集,用规则集中每条规则进行匹配,找到符合规则的路径,根据该路径将匹配到的位置实体概念本体实例作为概念节点插入到相应的原子词节点中; 步骤8.4,规则生长完成后进行规则压抑,包括进行位置实体概念本体实例相应概念节点的剪除,若该节点违反了规则定义的贪婪规则,则将该节点剪除,剪除完成后,匹配图生成完成;步骤8.5,根据匹配图的边权值转换为节点权重进行分值计算,对各概念节点和原子词节点给出评分; 步骤8.6,对匹配图进行K最短路径搜索,完成后根据概念节点转换成为最终的匹配树,完成位置信息的结构化提取。3.根据权利要求2所述基于语义位置模型的位置信息结构化提取方法,其特征在于:步骤8.5中的分值计算,包括针对原子词节点,计两个原子词节点间的边权值为2,1个原子词节点和1个概念节点的边权值为0 ;对于概念节点,其权值为所对应的概念匹配分值T,表达如下, T = a X Tvalid+b X Tnode+c X Tclass 其中,Tvalid是指概念节点的有效性评分,通过计算总字数与有效字数比值得出;Τη_是指概念节点的子节点数评分,为该概念节点的子节点数Ν的反比1/N 是指概念节点的概念类评分;a,b, c为预设的权值。4.一种基于语义位置模型的位置信息结构化提取系统,其特征在于,包括以下模块:...

【专利技术属性】
技术研发人员:呙维朱欣焰佘冰樊亚新
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1