The invention relates to an Internet secret map detection algorithm based on Spark, which belongs to the field of large data technology application and natural language processing. Firstly, through data preprocessing, Chinese word segmentation is carried out on the map text data to extract the feature words of map documents; then, text feature extraction is carried out, which mainly extracts four features: similarity between feature words and sensitive words, weight of feature words in text, position attribute of feature words in POI text, weight value of feature words corresponding to sensitive words in sensitive lexicon. Based on the features extracted before, the sensitivity of the corresponding map file is obtained by statistical calculation. The invention combines the method of data crawling of Internet map files to realize the automatic detection of Internet-related maps, speed up the detection efficiency of Internet problem maps, and reduce the pressure of manual detection of Internet maps.
【技术实现步骤摘要】
一种基于Spark互联网涉密地图检测算法
本专利技术属于大数据技术应用、自然语言处理领域,主要涉及互联网地图敏感信息检测方法,是一种基于Spark互联网涉密地图检测算法研究。
技术介绍
随着互联网与信息技术的迅速发展,电子地图服务已经成为人们生活中不可获缺的一部分,然而网络中出现大量的电子地图,在给人们生活提供便利的同时,也出现了一些不容忽视的问题。比如,国家地理信息的安全性问题,2015年9月,国家测绘地理信息局检查国内外大型商业网站、论坛、微博中的地理信息1.3万多条,发现存在“问题地图”服务275个,“问题地图”图片321个,违规兴趣点(pointofinterest,POI)标注2336个。地图涉密的主要载体是地图中违规标注POI信息,POI包含名称、经纬度等信息,一个POI可以表示一栋房子、一间商铺,同样可以表示为一个军事基地、军事禁区等。因此如果电子地图中标注了涉密POI信息,并公布在互联网上,将会严重损害国家利益,危害国家安全。针对互联网地图涉密性检测,有研究通过结合矢量数字地图中的敏感位置信息量、敏感符号信息量、敏感几何信息量、敏感拓扑信息量、敏感注记信息量以及敏感属性信息量综合计算得到矢量数字地图的敏感信息量,从而评估数字地图的敏感等级。也有研究通过考虑计算地图中的POI敏感度来衡量地图文件的敏感值,从行政管理和软件识别技术两个方面提出了相应的解决方案。目前国内涉密地图检测研究还比较少,但是,在敏感词检测方面有许多相关研究,例如有通过建立敏感词库,中文分词,串匹配检测邮件中敏感词,从而判定邮件的敏感等级。也有人提出通过提取话题文本特征词, ...
【技术保护点】
1.一种基于Spark的互联网涉密地图检测算法,主要分为数据预处理模块,互联网地图文件主要带有涉密信息的载体有地图文件附属信息和地图文件中的POI标注信息,地图文件附属信息主要是发布数据的人对地图文件的描述信息,地图POI标注地点主要是地图中的地点位置名称;敏感词库的构建模块,敏感词库对于特征词敏感度提取有重要的作用,而且有些地点信息可能是组合词语才具有敏感性,单独考虑一个词语时不具有敏感性。文本特征提取模块,通过提取特征词与敏感词汇相似度,特征词在文本中的权重,特征词在POI文本中的位置属性,特征词对应敏感词汇在敏感词库中的权值。根据特征词敏感度以及对应特征词在文本中属性,构建相应地图文件的敏感性。地图文件敏感度计算模块,通过前面提取特征词特征,通过统计方式计算地图文件敏感度。涉密地图检测算法,首先提取地图文件文本数据,使用自然处理算法提取文本特征,根据提取特征词敏感度联合计算出相应地图文件的敏感值。
【技术特征摘要】
1.一种基于Spark的互联网涉密地图检测算法,主要分为数据预处理模块,互联网地图文件主要带有涉密信息的载体有地图文件附属信息和地图文件中的POI标注信息,地图文件附属信息主要是发布数据的人对地图文件的描述信息,地图POI标注地点主要是地图中的地点位置名称;敏感词库的构建模块,敏感词库对于特征词敏感度提取有重要的作用,而且有些地点信息可能是组合词语才具有敏感性,单独考虑一个词语时不具有敏感性。文本特征提取模块,通过提取特征词与敏感词汇相似度,特征词在文本中的权重,特征词在POI文本中的位置属性,特征词对应敏感词汇在敏感词库中的权值。根据特征词敏感度以及对应特征词在文本中属性,构建相应地图文件的敏感性。地图文件敏感度计算模块,通过前面提取特征词特征,通过统计方式计算地图文件敏感度。涉密地图检测算法,首先提取地图文件文本数据,使用自然处理算法提取文本特征,根据提取特征词敏感度联合计算出相应地图文件的敏感值。2.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于所述敏感词库的构建方法具体为:算法检测对象主要是地图文件,所以敏感词的类别主要是国家不宜公开地点信息词语,例如一些军事基地,大型国家基础设施地点。而且通过我们对地图POI观察有些敏感信息不是通过单个敏感词涉密,而是通过组合词语的方式,比如一个地点信息中出现“火箭”这个词语可能并不会存在涉密情况,但是如果地点信息中还包含“研究基地”这样的词语,那就有可能会存在涉密的情况。所以,我们在构建敏感词库时,不只是构建单个词语的敏感词库,还要定义一种组合词语的敏感词库,通过这两种敏感词库的构建,更加全面的检测地图中的敏感地点信息。3.根据权利要求1所述的一种基于Spark的互联网涉密地图检测算法,其特征在于提取数据预处理后特征词的敏感度,通过计算特征词与敏感词的相似度量化特征词的敏感值,如果特征词与敏感词完全一致则量化特征词的敏感度为1,对于特征词与敏感词相似度达到一定阈值,则认为该特征词的敏感度为该相似值。通过计算特征词与敏感词的相似度计算,解决敏感词库覆盖不完全或者近义词无法识别的现象。通过计算特征词与敏感词的...
【专利技术属性】
技术研发人员:胡敏,崔永胜,黄宏程,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。