一种非涉密环境下涉密地理数据的高效检测发现系统技术方案

技术编号:14504335 阅读:80 留言:0更新日期:2017-01-31 12:17
本发明专利技术公开了一种非涉密环境下涉密地理数据的高效检测发现系统,先粗后细策略和多线程扫描模型,地理数据识别过程中采用了“先粗后细”策略,兼顾了查全和查准两方面,“先粗后细”的搜索策略过滤出可疑文件类型列表;然后,对文件名或路径名关键字和敏感词关键字筛查;最后,按不同文件类型对数据文件进行深入分析,同时,采用“邮递员”多线程扫描模型,将筛选、分析、评级、保存等过程并行,提升数据文件的扫描速度。本发明专利技术立足非涉密环境下单机或局域网内涉密地理数据的快速扫描、判别、提取与处理的需求,建立地理数据涉密特征库和判定特征库,可同时深度遍历扫描多种数据,可显著降低时间成本,提高效率。

【技术实现步骤摘要】

本专利技术涉及一种检测发现系统,具体是一种非涉密环境下涉密地理数据的高效检测发现系统
技术介绍
信息安全是当今网络化时代、信息化时代人们普遍关注的一个重要问题。涉密地理数据是国家重要的战略性信息资源,广泛应用于经济建设、社会发展、国防建设各领域,特别是测绘、地质、矿产、林业、军事等行业,一旦出现泄露将严重危及经济安全和国家安全。目前,各行业的测绘相关企事业单位在涉密测绘成果的存储、分发、使用等方面依然存在一定安全隐患,一旦泄密,会造成严重后果。因此,应需要加强对非涉密环境下的涉密地理数据的检测与发现,快速区分普通文件与涉密地理数据。常见的基于倒排索引的搜索技术仅适用于文本型地理信息(如地名文本文件),对于以二进制格式存在的地理数据文件和地理数据库,如何快速地发现其中蕴含的地理对象并进行内容分析,是一个较大的技术难点;同时,地理空间信息的涉密判定一方面要考虑数据文件的格式、名称等基本特征,但更重要的是要根据数据文件的内容。根据文件格式对地理空间数据进行判定本身就非常困难,而根据内容进行判定则难度更大。据不完全统计,目前地理数据专有格式已有逾百种,而且还存在大量易于与其他文件混淆的通用格式。进而言之,在两者基础上还存在众多的地理空间数据衍生格式。随着技术的发展,地理数据的存储形式越来越多,数据量也越来越大,文件格式多种多样,涉密地理数据涵盖矢量、栅格、地名地址、数据库等多种格式,多为非结构化和半结构化,对地理数据的检查的要求也越来越高。当前对地理信息数据的分析与检索主要是基于地理信息语义分析技术,包括常见的语义分析、词法分析、句法分析等分析技术,还包含了面向地理对象的语义分析(相似度、相关度)和多模式地理信息解析与自动分类等技术。而就地理信息语义分析方面,其研究重点主要集中在基于自然语言分析的相似性计算和基于本体论思想的语义分类,而顾及地理信息空间特征、时间特征和尺度特征的研究成果(理论、模型和软件)还非常少,无法有效满足大规模地理信息数据分析和处理的需要。一方面,单一的方法识别地理信息的准确性较低,需要结合多种方法以精准识别地理信息。另一方面,如何将进一步提高地理信息识别的效率是需要进一步解决的问题。常见的保密检查软件多基于涉密关键词索引的搜索技术,仅适用于txt、doc、pdf等文档。与之相比,本专利技术更侧重非涉密环境下地理涉密数据的高效检测发现,参照国家测绘行业标准,结合涉密数据使用与检查经验,针对矢量数据和栅格数据的涉密特征,同时以地理空间数据有其特定的数据本体和语义描述为基础,从语义的层面上设计建立基于专家知识的标靶库和涉密规则库,快速甄别地理涉密数据,分析涉密风险并判定风险等。现有技术不足主要有以下几个方面:(1)缺乏针对地理信息数据的检测现有技术较多的是实现对文本类型数据(如Office、PDF、TXT等)的涉密关键字审查,而地理信息数据多以二进制数据格式存储为主,以文本格式存储的极少,现有技术并不支持对于多种地理信息数据格式的检测。特别是地理空间数据具有空间特征、属性特征、时间特征,包括矢量数据结构、栅格数据结构、三维数据结构等,含有空间拓扑信息、专题属性信息,分类编码、数据分层、空间坐标系、元数据、空间索引等特性,而且文件格式众多。现有的技术并不支持对于多种地理信息数据格式的甄别及检测。(2)缺乏有效的涉密特征库和判定规则库现有涉密检查软件主要是采用关键词模式匹配算法,基于特征匹配,常用的模式匹配算法思想主要有基于字符比较、基于自动机、基于hash查找、基于位逻辑运算和基于Tries树型结构搜索。没有基于专家知识建立针对涉密地理数据的特征库和涉密判定规则库。(3)缺少对局域网环境下的支持传统单机版检查工具虽能有效完成深度性检测,但缺少对多网络环境下的支持,特别是在有限的检查时间内,针对众多的单机终端的安全检查缺乏时效性,而且耗时长、人员投入大,无法完成海量数据中快速涉密扫描,更无法形成有效的数据统计分析。
技术实现思路
本专利技术的目的在于提供一种非涉密环境下涉密地理数据的高效检测发现系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种非涉密环境下涉密地理数据的高效检测发现系统,分为四个步骤:(1)先粗后细策略和多线程扫描模型,地理数据识别过程中采用了“先粗后细”策略,兼顾了查全和查准两方面,“先粗后细”的搜索策略过滤出可疑文件类型列表:然后,对文件名或路径名关键字和敏感词关键字筛查;最后,按不同文件类型对数据文件进行深入分析,同时,采用“邮递员”多线程扫描模型,将筛选、分析、评级、保存等过程并行,提升数据文件的扫描速度;(2)建立涉密特征库和判定规则库,识别涉密地理数据,需要整理和收集地理数据格式、研究基本比例尺地形图命名规则、归纳总结地理数据涉密特征、涉密关键词,建立地理数据涉密特征库包括敏感词库、地名库和人工鉴定经验库,涉密特征库具有扩展性,支持涉密特征的补充更新,并支持针对不同类型文件提供不同数据引擎,实现文件内容分析功能,涉密判断规则库是在涉密特征库的基础上,对各项具体评价指标进行打分和加权统计,建立涉密风险等级评价规则,规则库中要涵括示例排除库建立常用GIS软件的示例数据档案,从而排除非涉密样例数据的干扰,提高检索效率;(3)可疑文件风险评级模型,涉密风险扫描判定模块是涉密地理数据发现与检查的核心,在地理数据扫描过程中,运用“层次分析法”理论,基于地理数据涉密特征库进行深入分析各数据类型的涉密特征,将数据的风险级别按照不同特征自上而下地分解成若干指标层次,依据涉密风险判定规则库,建立针对各可疑文件类型的不同的风险评级流程,将半定性、半定量的问题转化为定量计算问题,最终通过逐层比较各种关联涉密特征的重要性来为软件上实现可疑数据的判断、分级提供定量的依据;(4)数码照片与扫描图件区分,栅格数据是地理数据的重要组织部分,特别是栅格数据中的影像和扫描图件数据,但局域网机器中普遍存在的数码照片对涉密检查造成极大的干扰,为提高涉密风险扫描的速度和准确度,需要分别总结数码照片和扫描图件的特征,将采用头文件分析和频率域分析两种方法区分数码照片、扫描图件,“头文件分析”方法是通过软件读取数码照片、扫描图件和影像图件的头文件信息,依据头文件属性字段的不同,可迅速将数码照片、扫描图件、影像图件区分开,对于头文件缺失的栅格数据文件,采用“频率域分析”的方法对栅格数据进行傅立叶变换,然后比对栅格数据的频率特征,与扫描图件或计算机输出本文档来自技高网
...

【技术保护点】
一种非涉密环境下涉密地理数据的高效检测发现系统,其特征在于,分为四个步骤:(1)先粗后细策略和多线程扫描模型,地理数据识别过程中采用了“先粗后细”策略,兼顾了查全和查准两方面,“先粗后细”的搜索策略过滤出可疑文件类型列表;然后,对文件名或路径名关键字和敏感词关键字筛查;最后,按不同文件类型对数据文件进行深入分析,同时,采用“邮递员”多线程扫描模型,将筛选、分析、评级、保存等过程并行,提升数据文件的扫描速度;(2)建立涉密特征库和判定规则库,识别涉密地理数据,需要整理和收集地理数据格式、研究基本比例尺地形图命名规则、归纳总结地理数据涉密特征、涉密关键词,建立地理数据涉密特征库包括敏感词库、地名库和人工鉴定经验库,涉密特征库具有扩展性,支持涉密特征的补充更新,并支持针对不同类型文件提供不同数据引擎,实现文件内容分析功能,涉密判断规则库是在涉密特征库的基础上,对各项具体评价指标进行打分和加权统计,建立涉密风险等级评价规则,规则库中要涵括示例排除库建立常用GIS软件的示例数据档案,从而排除非涉密样例数据的干扰,提高检索效率;(3)可疑文件风险评级模型,涉密风险扫描判定模块是涉密地理数据发现与检查的核心,在地理数据扫描过程中,运用“层次分析法”理论,基于地理数据涉密特征库进行深入分析各数据类型的涉密特征,将数据的风险级别按照不同特征自上而下地分解成若干指标层次,依据涉密风险判定规则库,建立针对各可疑文件类型的不同的风险评级流程,将半定性、半定量的问题转化为定量计算问题,最终通过逐层比较各种关联涉密特征的重要性来为软件上实现可疑数据的判断、分级提供定量的依据;(4)数码照片与扫描图件区分,栅格数据是地理数据的重要组织部分,特别是栅格数据中的影像和扫描图件数据,但局域网机器中普遍存在的数码照片对涉密检查造成极大的干扰,为提高涉密风险扫描的速度和准确度,需要分别总结数码照片和扫描图件的特征,将采用头文件分析和频率域分析两种方法区分数码照片、扫描图件,“头文件分析”方法是通过软件读取数码照片、扫描图件和影像图件的头文件信息,依据头文件属性字段的不同,可迅速将数码照片、扫描图件、影像图件区分开,对于头文件缺失的栅格数据文件,采用“频率域分析”的方法对栅格数据进行傅立叶变换,然后比对栅格数据的频率特征,与扫描图件或计算机输出的地图数据相比,数码照片包括随机噪声,用是否包括随机噪声这一特征区分二者。...

【技术特征摘要】
1.一种非涉密环境下涉密地理数据的高效检测发现系统,其特征在于,分为四个步骤:
(1)先粗后细策略和多线程扫描模型,地理数据识别过程中采用了“先粗后细”策略,
兼顾了查全和查准两方面,“先粗后细”的搜索策略过滤出可疑文件类型列表;然后,对
文件名或路径名关键字和敏感词关键字筛查;最后,按不同文件类型对数据文件进行深入
分析,同时,采用“邮递员”多线程扫描模型,将筛选、分析、评级、保存等过程并行,
提升数据文件的扫描速度;(2)建立涉密特征库和判定规则库,识别涉密地理数据,需
要整理和收集地理数据格式、研究基本比例尺地形图命名规则、归纳总结地理数据涉密特
征、涉密关键词,建立地理数据涉密特征库包括敏感词库、地名库和人工鉴定经验库,涉
密特征库具有扩展性,支持涉密特征的补充更新,并支持针对不同类型文件提供不同数据
引擎,实现文件内容分析功能,涉密判断规则库是在涉密特征库的基础上,对各项具体评
价指标进行打分和加权统计,建立涉密风险等级评价规则,规则库中要涵括示例排除库建
立常用GIS软件的示例数据档案,从而排除非涉密样例数据的干扰,提高检索效率;(3)
可疑文件风险评级模型,涉密风险扫描判定模块是涉密地理数据发现与检查的核心,在地
理数据扫描过程中,运用“层次分析法”理论,基于地理数据涉密特征库进行深入分析各
数据类型的涉密特征,将数据的风险级别按照不同特征自上而下地分解成若干指标层次,
依据涉密风险判定规则库,建立针对各可疑文件类型的不同的风险评级流程,将半定性、
半定量的问题转化为定...

【专利技术属性】
技术研发人员:许礼林
申请(专利权)人:国信司南北京地理信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1