一种局域网地质数据的检索与获取方法、装置制造方法及图纸

技术编号:20272423 阅读:203 留言:0更新日期:2019-02-02 03:37
本发明专利技术公开的一种局域网地质数据的检索与获取方法,包括:第一步,扫描局域网本地数据,生成原始数据集,再生成对应的数据索引;第二步,依据地质数据检索需求,对原始数据集在数据索引中进行标注,生成地质数据索引表;第三步,将地质数据索引表上传服务器生成地质数据库;第四步,对获得的关键词进行分词、语义识别、匹配字符串、解析后得到相应的关联词;第五步,依据获得的关键词和关联词,访问地质数据库进行检索后返回匹配结果。通过本发明专利技术的方法,实现了局域网内计算机形成集中式索引信息存储与搜索,极大的提升了检索速度,又可以解决单个计算机无法满足存储庞大的地质数据的问题。

【技术实现步骤摘要】
一种局域网地质数据的检索与获取方法、装置
本专利技术涉及信息检索数据的
,尤其涉及在局域网中进行地质数据的扫描、标引、检索、提取及传输的

技术介绍
对于地质相关的科研院所或机关单位,广泛存在于其局域网中的地质数据不仅具有大数据的通用特点(规模性、多样性、价值性、高速性),也具有地质领域数据自身的特点。一方面,局域网地质数据主要存储在地质研究、生产、使用相关单位的局域网计算机中,具有数据专业价值高(例如高价值的遥感数据或地质三维模型数据)、数据类型多样(例如图片、文本、视频等)、文件格式复杂(例如各类地质专业软件形成的特定格式数据)、数据信息量大以及主要在局域网内流动(一般是由于数据的保密性以及专业性导致)等特点。另一方面,局域网地质数据在本地计算机中操作频繁,但其数据文件相关属性信息不能有效记录,导致大量地质数据只有产生数据的本人能找到,数据发现难度较大。例如,如果不记得数据在本地计算机中存储位置,一般只能采用全盘检索文件名的方法查找。这种方法不仅查找效率低、速度慢,也因为文件名信息的缺失或变更常常难以找到。此外,不同计算机之间的互相访问也存在限制,往往只能通过人工的索取和拷贝。甚至经常面临着“我不知道别人有没有我需要的数据,别人也不知道我有什么数据”的问题,严重阻碍了地质数据的发现与共享。局域网中本地计算机存储的数据繁杂,随着使用的积累,会不断的产生新数据。这些数据基本都是按照文件夹以及文件名称按照个人的分类与使用习惯进行存储。由于上述原因,导致局域网地质数据存储分散,数据量巨大且不断增长。因成本及权限、保密管理等问题,难以通过一台服务器建立关系数据库,通过存储全部数据来解决局域网地质数据存储、检索等问题。若每一次检索任务都通过局域网访问各计算机进行全盘扫描,则数据的检索效率低下,难以便捷、高效且全面的获取到需求数据。如何快速的在局域网中检索到所需地质数据,是局域网地质大数据检索与获取的主要任务。
技术实现思路
本专利技术公开了一种分布式检索、集中查询的局域网地质数据的方法,实现了数据检索、筛选、传输与获取,实现非结构、半结构化文本数据的检索和共享。本专利技术公开的一种局域网地质数据的检索与获取方法,包括:第一步,扫描局域网本地数据,生成原始数据集,再生成对应的数据索引;第二步,依据地质数据检索需求,对原始数据集在数据索引中进行标注,生成地质数据索引表;第三步,将地质数据索引表上传服务器生成地质数据库;第四步,对获得的关键词进行分词、语义识别、匹配字符串、解析后得到相应的关联词;第五步,依据获得的关键词和关联词,访问地质数据库进行检索后返回匹配结果。通过本专利技术的方法,可以解决局域网内的计算机地质数据的海量性、复杂性以及存储混乱性等问题。每台计算机建立并共享了数据索引表,实现了局域网内计算机形成集中式索引信息存储与搜索,可避免每次数据查找都全面搜索存储硬盘,极大的提升了检索速度。局域网内计算机分布式的数据存储,又可以解决单个计算机无法满足存储庞大的地质数据的问题。附图说明图1是局域网地质数据的检索与获取流程图。图2是生成原始数据集流程图。图3是局域网地质数据的检索与获取装置图。图4是分词和语义识别图。图5是存储在MySQL数据库中数据索引表示图。图6是OWL格式的本体模型内容示例图。具体实施方式确定地质数据本体中主要关联的关系如下:(1)等同关系(Equivalentto),用来描述同级地质概念或实例之间的等价关系。等价关系主要情况如下:同一概念的不同命名;俗称与学名;同一概念的不同译名;简称与全称;全译名与外文缩写词等,如“鄂”与“湖北省”;(2)上下位关系(Subclassof/Superclassof),用来描述地理概念之间的层级关系,包括从属关系(即部分与整体之间的关系)、继承关系(也称父子关系,即类与子类之间的关系),如“基础地质”与“第四纪地质”;(3)交叉关系(Crossingrelations),有且只有部分内涵相同的两个概念间的关系称为交叉关系,如“破碎带蚀变岩型金银矿”与“蚀变破碎岩型铅锌银矿”。(4)概念实例关系(Members),用来描述地质概念与相应实例之间的关系,如“湖泊”与实例“青海湖”;(5)空间关系(Spatialrelations),空间关系是指事物之间的位置关系。空间关系主要包括:相交、相接、相离、包含、被包含、覆盖、被覆盖、重合等拓扑关系。此外空间关系中还有方位关系、距离关系等,但是与矿产资源预测相关的关系中,不需要如此详细的表达。实施例1结合附图1所示。1、扫描局域网本地数据,生成原始数据集,再生成对应的数据索引扫描局域网本地数据,通过正向提取和反向过滤生成原始数据集,再生成对应的数据索引。(1)利用Everything.dll类库对局域网本地硬盘数据进行扫描,获得本地硬盘全部已有文件数据信息。(2)正向提取,是依据扫描获得的文件名称、格式、内容,对文件进行判断,判断文件是否属于地质数据,如果是,存入原始数据集;如果否,放弃文件。(3)反向过滤,是依据扫描获得的文件进行排除隐藏文件和目录、排除系统文件和目录、排除自定义文件和目录,将过滤后的数据存入原始数据集。(4)依据原始地质数据集,再生成对应的数据索引。2、依据地质数据检索需求,对原始数据集在数据索引中进行标注,生成地质数据索引表。标注原始地质数据集中每一个文件的信息:名称、后缀名(文件格式)、内容、大小、创建时间、以及属性信息、地质区域、地址数据类型、地质年代,生成地质数据索引表。例如,当检索数据需要统计数据的区域时(如省、市、区域等),则可以对数据标注对应的行政区域或地质区域。当后续按照区域检索数据时,可以直接通过本标注项检索到对应数据。例如一个数据名称“铜陵铜矿点分布图”的图片格式数据,从名称中无法直接得出该数据属于安徽省数据。对该数据的区域数据项标注“安徽”,则在检索安徽数据时,可以直接得出该数据是与安徽有关的数据。3、将地质数据索引表上传服务器生成地质数据库。因为局域网文件索引表数据量规模较小,且经过标注后都是结构化数据,因此本方法采用MySQL数据库作为服务器的地质数据库。该类型数据库支持SQL查询语言,可以从客户端便捷、快速的对索引数据表进行检索、插入、编辑等操作,如图5所示。先根据标注需求,将原始地质数据集中每一个文件的信息设置映射到数据库中(即数据索引表模板与数据存储模板一致)。当标注时,将标注信息先存入数据索引表中,最后将数据索引表上传、存储至服务器的数据库中。4、对获得的关键词进行分词、语义识别、匹配字符串与解析后得到相应的关联词(1)分词对获得的关键词利用结巴分词或搜狗分词的分词功能进行分词,分词过程主要包括去标点符号、词性标注并按照词典进行分词。为了提高分词正确率,针对地质词汇,在结巴分词或搜狗分词的词库中补充地质术语库(由地质叙词表和主要地质领域标准术语组成)。例如对于“铜陵铜矿”关键词,用结巴分词库、搜狗分词库的分词功能访问词典中的地质术语,实现对其进行专业分词,得到“铜陵”和“铜矿”。(2)语义识别、解析关联词对分词得到“铜陵”和“铜矿”进行语义识别。通过读取地质本体模型(指已编制好的地质知识模型),获得每个词汇的相关词、以及词与词之间的关系,例如得到与“铜陵”本文档来自技高网
...

【技术保护点】
1.一种局域网地质数据的检索与获取方法,其特征在于,包括:第一步,扫描局域网本地数据,生成原始数据集,再生成对应的数据索引;第二步,依据地质数据检索需求,对原始数据集在数据索引中进行标注,生成地质数据索引表;第三步,将地质数据索引表上传服务器生成地质数据库;第四步,对获得的关键词进行分词、语义识别、匹配字符串、解析后得到相应的关联词;第五步,依据获得的关键词和关联词,访问地质数据库进行检索后返回匹配结果。

【技术特征摘要】
1.一种局域网地质数据的检索与获取方法,其特征在于,包括:第一步,扫描局域网本地数据,生成原始数据集,再生成对应的数据索引;第二步,依据地质数据检索需求,对原始数据集在数据索引中进行标注,生成地质数据索引表;第三步,将地质数据索引表上传服务器生成地质数据库;第四步,对获得的关键词进行分词、语义识别、匹配字符串、解析后得到相应的关联词;第五步,依据获得的关键词和关联词,访问地质数据库进行检索后返回匹配结果。2.根据权利要求1所述的方法,其特征在于,所述的扫描局域网本地数据是利用Everything.dll类库对局域网本地数据扫描。3.根据权利要求1所述的方法,其特征在于,所述生成原始数据集是通过正向提取和反向过滤生成原始数据集;所述的正向提取是依据扫描获得的文件名称、格式、内容,对文件进行判断,判断文件是否属于地质数据,如果是,存入原始数据集;如果否,放弃文件;所述的反向过滤是依据扫描获得的文件进行排除隐藏文件和目录、排除系统文件和目录、排除自定义文件和目录,将过滤后的数据存入原始数据集。4.根据权利要求1所述的方法,其特征在于,所述对原始数...

【专利技术属性】
技术研发人员:吴永亮陈建平奚镜伦
申请(专利权)人:中国地质大学北京
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1