遥感数据检索自然语言的处理方法及装置制造方法及图纸

技术编号:8682859 阅读:218 留言:0更新日期:2013-05-09 02:47
本发明专利技术公开了一种遥感数据检索自然语言的处理方法及装置,该方法包括步骤:S1,切分用户的查询语句,从中提取得到待处理关键词;S2,对所述待处理关键词进行语义挖掘,得到标准格式的关键词组;S3,对所述关键词组进行语义分析,得到条件组,以用作检索遥感数据的条件。利用本发明专利技术对遥感数据的自然查询语言进行处理,可克服一般自然语言处理方法解析不足的缺点,能有效地“理解”自然查询语句并将其转化为符合用户意图的查询条件组,从而解决现有技术中存在的前述问题。

【技术实现步骤摘要】

本专利技术涉及遥感数据检索领域,尤其涉及一种遥感数据检索自然语言的处理方法及装置能够应用于面向自然语言的遥感数据检索系统。
技术介绍
自然语言相对于受控语言,是未经过加工和规范化处理的人类语言。面向自然语言的查询系统能够允许用户不受专业术语的约束,直接使用字、词、句子甚至段落等自然语言表达提问,完成信息的查询检索。该查询方式有利于非专业人员的信息检索,为信息检索系统更好地应用普及提供了技术支持。目前,遥感数据查询一般是系统提供一个图形化的查询界面,用户根据需求在其上直接选择如采集时间、经纬度、卫星名、传感器名等查询参数,系统按照选定的参数进行查询。这种方法简单、直观但也限制了用户的需求。当用户的查询需求界面选择没有或满足不了时,如查询用于“土壤湿度分析”的遥感数据,用户只能先将该应用需求转换成为一系列的元数据信息,再在查询界面进行条件设置才能达到查询目的,这就要求用户具有遥感专业背景,还要对数据库内部结构有一定的了解。为数据库建立一个自然语言检索的接口可以突破这些局限,使遥感数据为更多的非专业用户所用,该接口将用户输入的自然查询语句转化成数据库结构化的查询语言,其过程就包括将用户的应用需求转换成元数据信息。然而,由于自然语言的复杂性,如何正确、充分的理解自然查询语句是面向自然语言检索系统亟待解决的重要问题之一。特别是当自然语言检索系统应用于某一专业领域时,一般的自然语言处理技术并不能很好地挖掘、理解出与专业领域相关的用户检索需求。
技术实现思路
本专利技术的目的在于提供一种遥感数据检索自然语言的处理方法及装置以进一步为遥感数据检索系统建立自然语言检索接口。利用本专利技术对遥感数据的自然查询语言进行处理,可克服一般自然语言处理方法解析不足的缺点,能有效地“理解”自然查询语句并将其转化为符合用户意图的查询条件组,从而解决现有技术中存在的前述问题。为了实现上述目的,本专利技术采用的技术方案如下:一种遥感数据检索自然语言的处理方法,包括以下步骤:SI,切分用户的查询语句,从中提取得到待处理关键词;S2,对所述待处理关键词进行语义挖掘,得到标准格式的关键词组;S3,对所述关键词组进行语义分析,得到条件组,以用作检索遥感数据的条件。优选的,SI具体为对用户查询语句进行分词和词性标注,并从切分出的词中筛选出与遥感数据属性有关的部分,作为关键词。优选的,SI包括以下步骤:SI I,建立遥感专业术语词典RSDic ;S12,利用正则表达式从所述查询语句中匹配提取得到待处理关键词;和/或利用ICTCLAS2012汉语分词软件和所述遥感专业术语词典RSDic从所述查询语句中提取得到待处理关键词。优选的,所述利用正则表达式匹配提取得到的待处理关键词包括:时间、经纬度和比例尺中的一种或几种;所述利用ICTCLAS2012汉语分词软件和所述遥感专业术语词典RSDic从所述查询语句中提取得到的待处理关键词包括:卫星、传感器、空间区域和应用中的一种或几种。优选的,S12后还包括以下步骤:S13,把从所述查询语句中提取出的所有关键词表示为一 N元组:vKeyWord(ffl, W2,..., WN)其中W为关键词KeyWordS14,把任何一个KeyWord都由五元组来描述:Keyfford(Word, Attribute, No, SameFlag, WordDB)其中Word是关键词,Attribute是关键词的词性,No表示关键词在源语句中的词序,SameFlag值为I或O,表示上下文中是否存在跟Word词性相同的词,WordDB是Word对应的遥感数据库语义。优选的,S2包括以下步骤:S21,建立遥感数据库语义词典DBDic ;利用本体编辑工具Prot6g6构建遥感应用本体知识库RSAO ;S22,基于所述遥感数据库语义词典DBDic对SI中提取得到的所述关键词进行正规化和归一化处理,得到所述关键词的标准格式的遥感数据库语义S23,根据所述遥感应用本体知识库RSAO中的事件应用信息与遥感数据元数据信息的对应关系,获得事件应用类关键词相应的元数据信息;S24,将得到的所述遥感数据库语义和所述元数据信息置于所述KeyWord的WordDB属性中;循环执行S22-S24,直到处理完从所述查询语句中提取出的所有关键词,形成关键词组。优选的,S3包括以下步骤:S31,对所述关键词组进行组合条件判断,将复杂查询语句拆分为符合用户查询意图的条件组;S32,对相邻的所述条件组进行正序比较和倒序比较,完善所述条件组。优选的,所述组合条件是目标关键词与相邻关键词Attribute不同且在非相邻的关键词中存在与目标关键词Attribute相同的词;所述组合条件判断具体为迭代判断关键词组vKeyWord是否符合所述组合条件,如符合,则以目标关键词为界将vKeyWord划分为多个条件组Wordlists (ffordlistI, Wordlist2,...),并将与目标关键词Attribute相同的关键词的SameFlag标记为I ;否则,判定源语句为简单句,系统将vKeyWord作为单一条件组ffordlist 返回。优选的,所述正序比较和倒序比较具体为:对已生成的Wordlists中相邻条件组进行正序和倒序比较,以Wordlistl,Wordlist2标识:按照词序,从前往后正序比较ffordlistl中SameFlag为I的关键词之前的关键词与Wordlist2关键词的Attribute是否相同,全部不同时将目标关键词加入WordliSt2中;然后按照相同的方法从后往前倒序比较Wordlist2的关键词与Wordlistl中SameFlag为I的关键词之后的所有关键词Attribute,从而完善 Wordlistl。一种遥感数据检索自然语言的处理装置,包括:关键词提取模块,用于切分用户的查询语句,从中提取得到待处理关键词;语义挖掘模块,用于对所述待处理关键词进行语义挖掘,得到标准格式的关键词组;语义分析模块,用于对所述关键词组进行语义分析,得到条件组,以用作检索遥感数据的条件。本专利技术的有益效果是:利用本专利技术的方法或装置对遥感数据的自然查询语言进行处理,可克服一般自然语言处理方法解析不足的缺点,能有效地“理解”自然查询语句并将其转化为符合用户意图的查询条件组。本专利技术根据遥感数据查询特点,从自然语言的词法分析和语义分析层面上,提出一种适用于遥感数据检索领域的自然语言处理方法,以充分理解用户查询语句。附图说明图1是本专利技术的遥感数据检索自然语言的处理方法的步骤流程示意图;图2是本专利技术的遥感数据检索自然语言的处理方法中关键词语义分析的流程示意图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示本专利技术公开了一种遥感数据检索自然语言的处理方法,包括以下步骤:SI,切分用户的查询语句,从中提取得到待处理关键词;S2,对所述待处理关键词进行语义挖掘,得到标准格式的关键词组;S3,对所述关键词组进行语义分析,得到条件组,以用作检索遥感数据的条件。以下对具体步骤进行详述:遥感数据检索自然语言处理方法是从自然查询语句中筛选出能反映用户查本文档来自技高网...

【技术保护点】
一种遥感数据检索自然语言的处理方法,其特征在于,包括以下步骤:S1,切分用户的查询语句,从中提取得到待处理关键词;S2,对所述待处理关键词进行语义挖掘,得到标准格式的关键词组;S3,对所述关键词组进行语义分析,得到条件组,将所述条件组用作检索遥感数据的条件。

【技术特征摘要】
1.一种遥感数据检索自然语言的处理方法,其特征在于,包括以下步骤: Si,切分用户的查询语句,从中提取得到待处理关键词; S2,对所述待处理关键词进行语义挖掘,得到标准格式的关键词组; S3,对所述关键词组进行语义分析,得到条件组,将所述条件组用作检索遥感数据的条件。2.根据权利要求1所述的遥感数据检索自然语言的处理方法,其特征在于,SI具体为对用户查询语句进行分词和词性标注,并从切分出的词中筛选出与遥感数据属性有关的部分,作为关键词。3.根据权利要求2所述的遥感数据检索自然语言的处理方法,其特征在于,SI包括以下步骤: SI I,建立遥感专业术语词典RSDic ; S12,利用正则表达式从所述查询语句中匹配提取得到待处理关键词; 和/或 利用ICTCLAS2012汉语分词软件和所述遥感专业术语词典RSDic从所述查询语句中提取得到待处理关键词。4.根据权利要求3所述的遥感数据检索自然语言的处理方法,其特征在于,所述利用正则表达式匹配提取得到的待处理关键词包括:时间、经纬度和比例尺中的一种或几种;所述利用ICTCLAS2012汉语分词软件和所述遥感专业术语词典RSDic从所述查询语句中提取得到的待处理关键词包括:卫星、传感器、空间区域和应用中的一种或几种。5.根据权利要求3所述的遥感数据检索自然语言的处理方法,其特征在于,S12后还包括以下步骤: S13,把从所述查询语句中提取出的所有关键词表示为一 N元组: vKeyfford(ffl, W2,..., WN) 其中W为关键词KeyWord S14,把任何一个KeyWord都由五元组来描述:Keyfford(Word, Attribute, No, SameFlag, WordDB) 其中Word是关键词,Attribute是关键词的词性,No表示关键词在源语句中的词序,SameFlag值为I或0,表示上下文中是否存在跟Word词性相同的词,WordDB是Word对应的遥感数据库语义。6.根据权利要求5所述的遥感数据检索自然语言的处理方法,其特征在于,S2包括以下步骤: S21,建立遥感数据库语义词典DBDic ;利用本体编辑工具Prot6g6构建遥感应用本体知识库RSAO ; S22,基于所述遥感数据库语义词典DBDic对SI中提取得到的所述关键词进行正规化和归一化处理,得到所述关键词的标准...

【专利技术属性】
技术研发人员:杨进宣萱刘建波刘士彬梁龙彬戴芹马彩虹张静段建波李信鹏屈倩刘巍
申请(专利权)人:中国科学院对地观测与数字地球科学中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1