一种基于Spark互联网涉密地图检测算法制造技术

技术编号:20545887 阅读:43 留言:0更新日期:2019-03-09 18:49
本发明专利技术涉及一种基于Spark的互联网涉密地图检测算法,属于大数据技术应用、自然语言处理领域。该方法首先通过数据预处理,对地图中文本数据进行中文分词,提取地图文件特征词;然后进行文本特征提取,主要提取特征词与敏感词汇相似度、特征词在文本中的权重、特征词在POI文本中的位置属性、特征词对应敏感词汇在敏感词库中的权值四种特征;最后,通过前面提取的特征,经过统计计算得到相应地图文件敏感度。本发明专利技术结合互联网地图文件数据爬取方法,能够实现互联网涉密地图自动检测,加快对互联网问题地图检测效率,减轻人工检测互联网地图压力。

A Classified Map Detection Algorithms Based on Spark Internet

The invention relates to an Internet secret map detection algorithm based on Spark, which belongs to the field of large data technology application and natural language processing. Firstly, through data preprocessing, Chinese word segmentation is carried out on the map text data to extract the feature words of map documents; then, text feature extraction is carried out, which mainly extracts four features: similarity between feature words and sensitive words, weight of feature words in text, position attribute of feature words in POI text, weight value of feature words corresponding to sensitive words in sensitive lexicon. Based on the features extracted before, the sensitivity of the corresponding map file is obtained by statistical calculation. The invention combines the method of data crawling of Internet map files to realize the automatic detection of Internet-related maps, speed up the detection efficiency of Internet problem maps, and reduce the pressure of manual detection of Internet maps.

【技术实现步骤摘要】
一种基于Spark互联网涉密地图检测算法
本专利技术属于大数据技术应用、自然语言处理领域,主要涉及互联网地图敏感信息检测方法,是一种基于Spark互联网涉密地图检测算法研究。
技术介绍
随着互联网与信息技术的迅速发展,电子地图服务已经成为人们生活中不可获缺的一部分,然而网络中出现大量的电子地图,在给人们生活提供便利的同时,也出现了一些不容忽视的问题。比如,国家地理信息的安全性问题,2015年9月,国家测绘地理信息局检查国内外大型商业网站、论坛、微博中的地理信息1.3万多条,发现存在“问题地图”服务275个,“问题地图”图片321个,违规兴趣点(pointofinterest,POI)标注2336个。地图涉密的主要载体是地图中违规标注POI信息,POI包含名称、经纬度等信息,一个POI可以表示一栋房子、一间商铺,同样可以表示为一个军事基地、军事禁区等。因此如果电子地图中标注了涉密POI信息,并公布在互联网上,将会严重损害国家利益,危害国家安全。针对互联网地图涉密性检测,有研究通过结合矢量数字地图中的敏感位置信息量、敏感符号信息量、敏感几何信息量、敏感拓扑信息量、敏感注记信息量以及敏感属性信息量综合计算得到矢量数字地图的敏感信息量,从而评估数字地图的敏感等级。也有研究通过考虑计算地图中的POI敏感度来衡量地图文件的敏感值,从行政管理和软件识别技术两个方面提出了相应的解决方案。目前国内涉密地图检测研究还比较少,但是,在敏感词检测方面有许多相关研究,例如有通过建立敏感词库,中文分词,串匹配检测邮件中敏感词,从而判定邮件的敏感等级。也有人提出通过提取话题文本特征词,结合敏感词汇库基于条件随机场检测模型,对待测文档的特征项进行敏感性标注,以及提出基于核方法的敏感信息检测模型。上述方法对于地图各属性信息量提取比较困难,地图敏感性检测难度大。而且,上述对于邮件或文档敏感性检测,主要是通过特征词与敏感词的直接匹配方式检测,但这种方式会存在敏感词覆盖不全面或者近义词无法识别的问题。因此,我们提出通过计算特征词与敏感词的相似度,来计算特征词语的敏感性。由于,我们的检测对象是地图中的POI短文本,所以根据地点POI属性另外提取3种特征,特征词在文本中的权重、特征词在POI文本中的位置属性以及特征词对应敏感词汇在敏感词库中的权值,通过上述的4种特征联合计算地图POI的敏感度。另外,互联网地图文件一般会带有一些附属信息,这也作为一种地图涉密性检测的属性。随着互联网技术的飞速发展,各行各业数据呈现爆发式增长,相应的网络中地图数据也在迅速增长,使用传统的单机处理模式已经无法满足需求。分布式处理技术极大的推动了大数据的分析和处理,Spark和Hadoop是目前比较流行的分布式并行计算框架。我们采用Spark作为涉密地图检测的大数据处理框架,因为Spark不仅具有Hadoop中MapReduce的优点,还是基于内存计算,并且具有调度优化机制和更加丰富的算子表达式,人们基于Spark也做了许多相关研究。通过考虑地图中标注地点POI和地图文件附属信息,分别提取文本的敏感信息,最后综合计算地图文件的敏感等级。本文提出一种基于Spark的互联网涉密地图检测算法,不仅提高了地图检测的准确性,同时提高了地图检测的时间性能。
技术实现思路
本专利技术解决的技术问题:本专利技术针对互联网电子地图附属信息以及地图标注地点信息的相关特性,提出一种互联网地图涉密检测算法模型。通过考虑电子地图附属信息和地图标注地点的敏感度来衡量地图的敏感等级,由于目前互联网中包含大量的地图数据,为了提高地图检测算法的性能,我们将检测算法在Spark处理框架上实现,并行化处理地图数据,实现一种高效准确的涉密地图检测模型。本专利技术的技术方案是:本专利技术对地图文件的处理主要分为三部分:数据预处理,文本特征提取,地图敏感度计算。数据预处理主要是对从互联网上获取到的不同格式地图文件解析,得到地图文件中地点POI和互联网上对地图描述的附属信息。文本特征提取主要是对地图附属信息和地图文件中POI文本进行特征提取,主要提取4部分特征:1.特征词与敏感词词汇的相似度,通过词汇相似度计算,可以解决敏感词库不全面以及同义词无法识别的情况。2.特征词在文本中的权重,不同的词语在文本中有不同的权重,也就是文本中的关键词所占权值最大,最能代表文本的意义,所以我们通过计算特征词在文本中的权重,衡量词语所代表的敏感度特征。3.特征词在POI文本中的位置属性,在POI地点位置信息中,特征词在POI文本的位置对于地点是否为敏感地点也有一定的影响。4.特征词对应敏感词汇在敏感词库中的权值,不同的敏感地点具有的敏感度也不相同,比如军事基地敏感度比基础设施敏感度高,所以我们也提取相应敏感词的权值作为特征。通过上述提取的4种特征,通过统计方式计算地图文件的敏感值,然后算法根据检测地图文件数据集敏感值由高到低顺序输出。由于互联网上存在大量地图数据,为了提高检测算法的处理性能,我们将算法在Spark并行处理框架上运算。附图说明图1是本专利技术的系统架构图;图2是本专利技术的总体流程图;具体实施方式为了更好的说明本专利技术的内容,以下参考说明书附图并根据实例对本专利技术的具体实施作进一步的阐述。如图1(算法架构)所示为本专利技术提出的算法是在Spark计算框架上执行的,数据存储、算法执行都是在Spark框架上执行。如图2所示为本专利技术的总体流程图,包括:获取构建敏感词库,数据预处理模块,数据特征提取模块,地图文件敏感度计算模块,基于Spark互联网涉密地图检测算法共四大模块。以下具体说明本专利技术的详细实施过程。S1:构建敏感词库。地图敏感度计算主要是通过提取特征词与敏感词的相似度,因此敏感词库的好坏对涉密地图检测算法具有重大的影响。我们首先定义单个敏感词的敏感词库S={s1,s2,...,sn},然而由于我们对地图中文本数据进行中文分词后,文本都被划分为了词语,而且存在部分涉密的地点也会被划分为不敏感的词语,例如“中国火箭研究基地”,这个文本被中文分词后会划分为“中国”、“火箭”、“研究”、“基地”四个词语,这四个词语独立检测不存在涉密情况,但是国家的火箭研究基地这种POI是不允许直接标注在地图文件上的。对于这种POI我们采用组合敏感词进行检测,即定义一种组合敏感词的敏感词库和我们在构建敏感词库时,根据敏感词代表地点的敏感性不同,对该敏感词输入对应的权重V={υ1,υ2,...,υn},υi表示敏感词对应的权重。S2:数据预处理。互联网上存在多种格式的地图文件,例如jpg,dwg,mapInfo等格式。我们使用M=(P,F)表示一种格式的地图文件,P表示地图中的POI标注地点集合,F表示地图文件的附属信息,其中P={p1,p2,......,pn},pi表示地图中一个标注地点。我们定义MS(pi)表示标注地点pi的敏感度,MS(P)和MS(F)分别表示地图标注地点敏感度和地图附属信息的敏感度。通过计算地图POI信息和地图附属信息的敏感度综合计算得到地图文件的敏感信息,为计算地图POI和附属信息的敏感度,首先对数据进行预处理,数据预处理模块主要是对文本进行中文分词。本文使用的中文分词方法是Spark上开源的Ansj进行中文分词。Ansj基于n-Gram,C本文档来自技高网
...

【技术保护点】
1.一种基于Spark的互联网涉密地图检测算法,主要分为数据预处理模块,互联网地图文件主要带有涉密信息的载体有地图文件附属信息和地图文件中的POI标注信息,地图文件附属信息主要是发布数据的人对地图文件的描述信息,地图POI标注地点主要是地图中的地点位置名称;敏感词库的构建模块,敏感词库对于特征词敏感度提取有重要的作用,而且有些地点信息可能是组合词语才具有敏感性,单独考虑一个词语时不具有敏感性。文本特征提取模块,通过提取特征词与敏感词汇相似度,特征词在文本中的权重,特征词在POI文本中的位置属性,特征词对应敏感词汇在敏感词库中的权值。根据特征词敏感度以及对应特征词在文本中属性,构建相应地图文件的敏感性。地图文件敏感度计算模块,通过前面提取特征词特征,通过统计方式计算地图文件敏感度。涉密地图检测算法,首先提取地图文件文本数据,使用自然处理算法提取文本特征,根据提取特征词敏感度联合计算出相应地图文件的敏感值。

【技术特征摘要】
1.一种基于Spark的互联网涉密地图检测算法,主要分为数据预处理模块,互联网地图文件主要带有涉密信息的载体有地图文件附属信息和地图文件中的POI标注信息,地图文件附属信息主要是发布数据的人对地图文件的描述信息,地图POI标注地点主要是地图中的地点位置名称;敏感词库的构建模块,敏感词库对于特征词敏感度提取有重要的作用,而且有些地点信息可能是组合词语才具有敏感性,单独考虑一个词语时不具有敏感性。文本特征提取模块,通过提取特征词与敏感词汇相似度,特征词在文本中的权重,特征词在POI文本中的位置属性,特征词对应敏感词汇在敏感词库中的权值。根据特征词敏感度以及对应特征词在文本中属性,构建相应地图文件的敏感性。地图文件敏感度计算模块,通过前面提取特征词特征,通过统计方式计算地图文件敏感度。涉密地图检测算法,首先提取地图文件文本数据,使用自然处理算法提取文本特征,根据提取特征词敏感度联合计算出相应地图文件的敏感值。2.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于所述敏感词库的构建方法具体为:算法检测对象主要是地图文件,所以敏感词的类别主要是国家不宜公开地点信息词语,例如一些军事基地,大型国家基础设施地点。而且通过我们对地图POI观察有些敏感信息不是通过单个敏感词涉密,而是通过组合词语的方式,比如一个地点信息中出现“火箭”这个词语可能并不会存在涉密情况,但是如果地点信息中还包含“研究基地”这样的词语,那就有可能会存在涉密的情况。所以,我们在构建敏感词库时,不只是构建单个词语的敏感词库,还要定义一种组合词语的敏感词库,通过这两种敏感词库的构建,更加全面的检测地图中的敏感地点信息。3.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于提取数据预处理后特征词的敏感度,通过计算特征词与敏感词的相似度量化特征词的敏感值,如果特征词与敏感词完全一致则量化特征词的敏感度为1,对于特征词与敏感词相似度达到一定阈值,则认为该特征词的敏感度为该相似值。通过计算特征词与敏感词的相似度计算,解决敏感词库覆盖不完全或者近义词无法识别的现象。通过计算特征词与敏感词的...

【专利技术属性】
技术研发人员:胡敏崔永胜黄宏程
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1