当前位置: 首页 > 专利查询>武汉大学专利>正文

基于位置描述的显著性结构的位置概念结构化提取方法技术

技术编号:15650079 阅读:222 留言:0更新日期:2017-06-17 03:00
本发明专利技术公开了一种基于位置描述的显著性结构的位置概念结构化提取方法,首先基于位置描述结构本体建模,总结位置概念显著性结构,自定义显著性语法语言,程序初始化时读取并生成相应的类;然后自动化映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,最终生成规则集合;接着对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;最后以任意自然语言文本位置描述语句和原始的自然语言文本位置描述语句作为输入,利用基于位置描述显著性结构的规则匹配算法进行匹配,通过打分排序完成位置信息的结构化提取。本发明专利技术显著性结构是对地名结构语义信息知识表达的一种补充和优化,有利于提高匹配结果的准确性。

【技术实现步骤摘要】
基于位置描述的显著性结构的位置概念结构化提取方法
本专利技术属于自然语言位置提取
,特别是涉及一种基于位置显著性描述的位置概念结构化提取方法。
技术介绍
多源异构地名数据大量增加,为了对不同来源不同结构的位置数据进行共享和集成,并根据位置名称检索精确获取准备的查询结果,需要从人们认知习惯角度出发,对大量标准及非标准地名描述进行分析,总结位置名称结构特征和空间关系,对地名结构语义信息进行概念和形式化表达,实现位置概念结构化建模。在此基础上要对位置名称和位置关系识别进而获得精确的位置概念描述,需要利用位置概念匹配的解析方式对位置概念模型化实例依照相应组合对象级规则进行处理,实现位置概念对象的高效抽取,获取准确的位置概念类型。由于实际的位置描述中可能出现表达错误、知识库不完备等原因,通过位置概念匹配方法得到的地名描述对象中,有许多程序是中间结果或者相对于其他结果此结果不够显著的代表此位置概念。一般的位置概念匹配只能对字符串信息进行匹配,难以灵活地融入地名实体和关系词汇之间的语义关系,更忽略了人们对地名的认知情况和对地名的描述习惯。此外,在规则数量较多且匹配细尺度的地名时,匹配效率很低,因此需要定义地名描述的显著性结构来对位置概念匹配生成的不显著匹配结果进行粗过滤。显著性结构是对地名结构语义信息知识表达的一种补充和优化,也是对地名结构的约束,有效提高了匹配结果的准确性,使其更符合人们认知和描述习惯。
技术实现思路
为了解决上述技术问题,本专利技术提出了一种基于位置描述显著性结构的位置概念结构化提取方法,对程序解析匹配的不显著性结果进行过滤,得到更能显著性代表位置概念及符合人们认知习惯的位置描述,有效提高匹配结果的准确性。本专利技术所采用的技术方案是:一种基于位置描述的显著性结构的位置概念结构化提取方法,其特征在于,包括以下步骤:步骤1:基于位置描述结构本体建模,总结位置概念显著性结构及其顺序,自定义显著性语法语言,在程序初始化时读取并生成相应的类;实现显著性结构打分方法构建,为同一位置概念的不同显著性结构表达寻求一个最佳匹配结果,获得位置描述模型;步骤2:映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,最终生成规则集合;位置概念本体代表与位置有关对象的基本组成和层次关系,分为位置基础概念本体和位置实体概念本体,其中位置实体概念本体对应实际的空间实体或空间关系;位置结构概念本体是对位置实体概念本体具体组成方式的句法模式表达,其代表了这个位置实体概念本体的组成规则;步骤3:对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;步骤4:以任意自然语言文本位置描述语句和原始的自然语言文本位置描述语句作为输入,利用基于位置描述显著性结构的规则匹配算法进行匹配,通过打分排序完成位置信息的结构化提取。本专利技术提出的基于位置描述显著性结构的位置概念结构化提取方法中,显著性结构是对地名结构语义信息知识表达的一种补充和优化,是对地名结构的一种约束,有利于提高匹配结果的准确性;对程序解析匹配生成的不显著匹配结果进行过滤,得到更能显著代表位置概念以及符合人们认知习惯的位置描述。附图说明图1为本专利技术实施的流程图;图2为本专利技术实施中显著性结构规则匹配算法流程图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。请见图1,本专利技术提供的一种基于位置描述的显著性结构的位置概念结构化提取方法,包括以下步骤:步骤1,基于位置描述结构本体建模,总结位置概念显著性结构及其顺序,自定义显著性语法语言,在程序初始化时读取并生成相应的类;实现显著性结构打分方法构建,为同一位置概念的不同显著性结构表达寻求一个最佳匹配结果。本体建模工具使用的是protégé目前使用最为广泛的本体编辑器,若同类多个地名描述文本中有一个地名描述比其他的地名描述更能体现此类地名概念,则称此地名描述最显著,即显著性最高。自定义的语法语言将其描述,使用文本格式进行存储,在程序初始化时被程序读取,并生成相应的类。本文位置概念基础词汇和句法模式由分析大量案件位置描述总结而成。建立行政区划、江川湖泊、道路、POI、地址等各类地名实体以及各类空间关系的基础和实体位置概念具体实施时,可以由该领域技术人员对现有自然语言文本数据分析获取其描述语句,构建位置描述模型,总结当前数据对应的概念显著性结构。由于一般的规则匹配结果存在许多不合理的或人们不常用的地名描述结构,为了对规则解析匹配结果进行优化,需要在对象位置概念建模的基础上进一步考虑人们对地名的认知情况与描述习惯,用自定义语法语言进行描述。如下为POI、地名和地址的显著性结构语法定义示例:POI显著性结构语法定义示例:SalientStructPOI_L1_1forPOI{SearchCondition:P_L1_1;//查询条件ObjectScoreFunction:EDistance();ObjectFilterFunction:LCS(0.5,1,0.3);};SearchConditionP_L1_1forPOI{specialName;//特名restrictions(class=GeoNameRestrictions|QualifierTypeRestrictions|OrderRestrictions|PartRestrictions);//限定条件};上述代码定义了POI的一个显著性集合,SalientStruct表示POI_L1_1为显著性结构,此显著性结构集合的名字定义为POI_L1_1,此类中包含了一个查询条件P_L1_1和两个约束性函数:打分约束函数EDistance()与过滤约束函数LCS(0.5,1,0.3)。在查询条件P_L1_1中,定义了此显著性结构是由特名(specialName)和限定条件(restrictions)构成。其中的限定条件又是由地名限定概念(GeoNameRestrictions)、修饰类型限定概念(QualifierTypeRestrictions)、顺序限定概念(OrderRestrictions)和部分词汇限定(PartRestrictions)组成。地名显著性结构语法定义示例:SalientStructGeoName_G2_2forTraCityRoadName{SearchCondition:G2_2;ObjectScoreFunction:EDistance();ObjectFilterFunction:LCS(0.5,1,0.3);};SearchConditionG2_2forTraCityRoadName{roadFeaWordRs;//道路特征词};上述代码定义了简单地名中道路名概念TraCityRoadName的一个显著性集合,SalientStruct表示GeoName_G2_2为显著性结构,此显著性结构集合的名字定义为GeoName_G2_2,此类中包含一个查询条件G2_2和两个约束条件:打分约束条件EDistance()与过滤约束条件LCS(0.5,1,0.3)。在查询条件G2_2中,定义了道路特征词roadFe本文档来自技高网...
基于位置描述的显著性结构的位置概念结构化提取方法

【技术保护点】
一种基于位置描述的显著性结构的位置概念结构化提取方法,其特征在于,包括以下步骤:步骤1:基于位置描述结构本体建模,总结位置概念显著性结构及其顺序,自定义显著性语法语言,在程序初始化时读取并生成相应的类;实现显著性结构打分方法构建,为同一位置概念的不同显著性结构表达寻求一个最佳匹配结果,获得位置描述模型;步骤2:映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,最终生成规则集合;位置概念本体代表与位置有关对象的基本组成和层次关系,分为位置基础概念本体和位置实体概念本体,其中位置实体概念本体对应实际的空间实体或空间关系;位置结构概念本体是对位置实体概念本体具体组成方式的句法模式表达,其代表了这个位置实体概念本体的组成规则;步骤3:对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;步骤4:以任意自然语言文本位置描述语句和原始的自然语言文本位置描述语句作为输入,利用基于位置描述显著性结构的规则匹配算法进行匹配,通过打分排序完成位置信息的结构化提取。

【技术特征摘要】
1.一种基于位置描述的显著性结构的位置概念结构化提取方法,其特征在于,包括以下步骤:步骤1:基于位置描述结构本体建模,总结位置概念显著性结构及其顺序,自定义显著性语法语言,在程序初始化时读取并生成相应的类;实现显著性结构打分方法构建,为同一位置概念的不同显著性结构表达寻求一个最佳匹配结果,获得位置描述模型;步骤2:映射位置结构概念本体生成规则类,每一条规则类对应一个位置实体概念本体,最终生成规则集合;位置概念本体代表与位置有关对象的基本组成和层次关系,分为位置基础概念本体和位置实体概念本体,其中位置实体概念本体对应实际的空间实体或空间关系;位置结构概念本体是对位置实体概念本体具体组成方式的句法模式表达,其代表了这个位置实体概念本体的组成规则;步骤3:对规则集合进行分类,重新划分为若干个规则组,形成规则检索依赖图;步骤4:以任意自然语言文本位置描述语句和原始的自然语言文本位置描述语句作为输入,利用基于位置描述显著性结构的规则匹配算法进行匹配,通过打分排序完成位置信息的结构化提取。2.根据权利要求1所述的基于位置描述的显著性结构的位置概念结构化提取方法,其特征在于,步骤3中所述对规则集合进行分类,是利用规则分组依赖图,首先对所有节点之间依赖关系建立节点,然后采用贪婪的形式建立规则组,通过规则组的依赖关系合并存在交叉依赖的规则组;其中,每个节点对应一个规则集合,节点之间依赖关系是指上层的规则组中的与下层规则组中的存在交集,且上层的规则组中的与下层规则组中的不存在交集。3.根据权利要求1所述的基于位置描述的显著性结构的位置概念结构化提取方法,其特征在于,步骤4中所述基于位置描述显著性结构的规则匹配算法进行匹配,其具体实现包括以下子步骤:步骤4.1:输入位置基础概念本体的S实例、原子概念集W,将作为位置基础概念本体的S和原子概念集合W进行匹配,得出结果集合G;其中,原子概念集是位置基础概念本体对应语义位置的原子组成词汇的集合;将位置基础概念本体的S实例和W进行匹配,根据规则匹配生成匹配树集,将匹配树与相应概念的显著性结构进行选择、过滤和查询,获取具备显著特征的候选假...

【专利技术属性】
技术研发人员:朱欣焰呙维佘冰胡涛顾芷宁
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1