一种基于语义的地理标注内容安全检查方法及装置制造方法及图纸

技术编号:10367288 阅读:203 留言:0更新日期:2014-08-28 11:10
一种基于语义的地理标注内容安全检查方法及装置,属于地理信息技术领域。本发明专利技术充分利用关键词匹配、特征提取、语义相似度计算及规则匹配等关键技术,在构建地理信息标注内容安全分类体系、禁用词库、白名单库及审图规则库的基础上,实现禁用词匹配、标注自动分类、白名单过滤及地图公开表示规则检查为一体的地理标注内容安全检查方法,有效提高地理标注内容的检查效率和准确性,为保障国家地理信息安全提供技术支持。

【技术实现步骤摘要】
一种基于语义的地理标注内容安全检查方法及装置
本专利技术属于地理信息
,具体涉及一种对于地理标注内容进行安全检查的方法和装置,尤其是,结合了语义判别与审图规则对地理标注内容进行安全检查的方法和装置。
技术介绍
近年来,随着互联网、云计算、物联网、VGI等新技术的不断发展和日趋成熟,以及人们对地理信息需求越来越强烈,互联网已经成为了地理信息共享、传播和应用的主要平台。网络地理标注(PointofInterest:POI)则是目前最具有代表性的与互联网结合并应用到大众生活中的地理信息产品,其作为一个带位置信息的综合信息,能够通过在地图上直观地标注现实世界的实体及其相关属性,主要包括名称、类别、经度、纬度等信息,为人们的生活带来极大的便利。为了快速抢占这一机遇,谷歌地图、微软地图、雅虎地图、MapABC、MapBar、天地图等众多地理信息服务网站都推出了地理信息查询和用户标注等相关功能。这种地理信息网站信息容量巨大、内容增长迅速、地理信息与位置信息关联度高,已经成为信息社会重要的信息资源发布与交流平台。然而网络地理信息标注在为给人们生活带来巨大方便的同时,地理信息的安全隐患也随之而来。由于地理标注与位置信息关系密切、上传用户的安全意识不高、数据量过于庞大等原因,使得大量涉及国家安全和社会稳定等方面的内容敏感的地理标注信息也出现在网络上,对国家地理信息安全提出了严重威胁和重大挑战。因此,对地理标注内容安全检查技术要求也越来越高、越来越迫切,但目前的地理标注内审审查方法无法满足现实的需求,主要表现在以下几个方面:(1)现阶段地理标注内容审查还需要大量的人工研判与干预,由于目前互联网地图服务商生产的地理标注数据量日益丰富,大型地图服务商的地理标注数据量达到千万级别,因此,对地理标注内容的人工检查已经无法满足要求;(2)现阶段地理标注内容审查时间周期比较长,不能实时地进行研判,由于互联网用户数量庞大、标注行为频繁,因此,对于敏感标注信息的有效识别和应急处理能力亟待加强;(3)互联网涉密地理信息内容判定困难,现阶段地理标注内容审查技术尚无法满足大规模互联网地理内容分析与信息提取的需求。现有的方法一般为基于敏感词的地理标注内容检查方法,通过构建地理标注内容的敏感词库,然后利用关键词过滤方法进行地理标注内容的安全检查。这类方法的不足表现为结果多且相关性低,其主要缺点可归纳为以下三点:(1)检查结果准确性低:由于匹配过程仅仅基于敏感词的包含与否,无法从语义的层面上进行全方位地匹配,使得检查结果中存在很多噪声信息;(2)检查结果召回率不高:由于匹配结果太过依赖敏感词库的构建,一旦敏感词库中包含的敏感词语不全,检查结果就会出现大面积的遗漏;(3)没有考虑审图规则过滤:由于审图规则并不是通过关键词进行表达,而是通过一定的数字规则、组合规则等继续表示,使得基于关键词的内容检查方法无法与审图规则相结合。应当指出,测绘地理信息事业的快速发展,地图审查的工作量日益增大,从地图审查中心成立之初的2002年审查量750余件到2012年审查量3630余件,10年间地图审查的工作量增长近5倍。多年以来,凭借人工肉眼进行地图技术审查的方法既费时又费力,已很难满足地图审核申请人对测绘地理信息行政主管部门的期望,很难满足行政许可法提出的提高行政许可效率的要求。特别是,国家测绘地理信息局颁发的《公开地图内容表示若干规定》中指出,公开地图和地图产品上不得表示下列内容:●国防、军事设施,及军事单位;●未经公开的港湾、港口、沿海潮浸地带的详细性质,火车站内站线的具体线路配置状况;●航道水深、船闸尺度、水库库容、输电线路电压等精确数据,桥梁、渡口、隧道的结构形式和河底性质;●未经国家有关部门批准公开发表的各项经济建设的数据等;●未公开的机场(含民用、军民合用机场)和机关、单位;●其他涉及国家秘密的内容。如何将上述各种审图规定进行规则化,然后充分利用相关规则进行辅助审图,是实现电子化自动审图技术中关键因素。现阶段的审图技术中并没用有效结合审图规则,而只是将其作为人工审图的辅助材料,进行人工审图确认与分析。因此,如何能够在无人工预先干预的情况下,能够实现地理标注(PointofInterest:POI)内容的自动安全检查,实现海量地理标注中涉密的地理标注对象自动、快速的发现和筛选,为地理标注内容的电子化审查提供技术支撑,有效保障国家地理信息安全,成为现有技术亟需解决的技术问题。
技术实现思路
本专利技术针对现阶段地理标注内容安全审查的需要,结合中文文本分词、语义分析、相似度计算、规则匹配等关键技术,提出一种基于语义与审图规则结合的地理标注内容安全检查方法及装置。为达此目的,本专利技术采用以下技术方案:一种基于语义的地理标注内容安全检查方法,包括如下步骤:S110,禁用词匹配步骤:构建地理标注内容禁用词库,并利用中文文本匹配方法,有效进行地理标注内容中名称信息和描述信息的关键词匹配与查找,实现基于禁用词库的地理标注涉密内容的自动发现;S120,标注自动分类步骤:针对地理标注的内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类规则和特征向量;然后根据地理标注的名称信息和描述信息,提取地理标注内容的语义特征向量,再利用语义相似度计算方法,实现基于语义的网络地理标注内容的自动分类计算;S130:白名单过滤步骤根据标注自动分类步骤所匹配的部分涉密类型,从该类型中取出相应的白名单对象库,然后根据地理标注的名称信息与白名单对象库中的标注对象名称的相似度计算,通过与设定相似度阈值进行比较,实现白名单过滤功能;S140,地图公开表示规则检查步骤根据相应的规则要求,将其中的各种规则要求进行数字化表达,并利用正向表达式配准及规则匹配等技术,实现地理标注的公开地图内容表示规定检查,确保地理标注内容可公开性。优选地,所述禁用词匹配步骤包括如下子步骤:S111:从地理标注内容中提取名称信息和描述信息,融合形成一段描述地理标注内容的文本信息;S112:利用中文文本匹配方法对所述文本信息与所述禁用词库进行关键词匹配;S113:如果匹配成功,说明该条地理标注内容中包含涉密信息,则将该条地理标注收录到质疑地理标注数据库中;否则,进入标注自动分类步骤进行进一步检查。优选地,所述标注自动分类步骤包括如下子步骤:S121:针对地理标注内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类的分类规则和特征向量;S122:利用文中分词技术,对地理标注的名称信息进行分词处理,将其分为不可再分的词语粒度单元;S123:根据各个分词单元的词性特征,对名称信息进行角色标注,确定各词语在整个名称信息中的地位;S124:根据角色标注选定名称信息的中心词,再利用基于中心词的剪枝算法,剔除不具有实际意义的词语标注;S125:根据各个分词单元离中心词的距离,设置相关语义权重,计算名称信息的语义相似度;S126:通过比较地理标注的名称信息与分类体系中各个类别的相似度值,选择匹配最佳的地理标注类型,进行涉密类型判断,实现基于语义的地理标注内容的自动分类:如果匹配的类型为完全涉密类,则将该条地理标注收录到质疑地理标注数据库中;如果匹配的类型为本文档来自技高网
...
一种基于语义的地理标注内容安全检查方法及装置

【技术保护点】
一种基于语义的地理标注内容安全检查方法,包括如下步骤:S110,禁用词匹配步骤:构建地理标注内容禁用词库,并利用中文文本匹配方法,有效进行地理标注内容中名称信息和描述信息的关键词匹配与查找,实现基于禁用词库的地理标注涉密内容的自动发现;S120,标注自动分类步骤:针对地理标注的内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类规则和特征向量;然后根据地理标注的名称信息和描述信息,提取地理标注内容的语义特征向量,再利用语义相似度计算方法,实现基于语义的网络地理标注内容的自动分类计算;S130:白名单过滤步骤根据标注自动分类步骤所匹配的部分涉密类型,从该类型中取出相应的白名单对象库,然后根据地理标注的名称信息与白名单对象库中的标注对象名称的相似度计算,通过与设定相似度阈值进行比较,实现白名单过滤功能;S140,地图公开表示规则检查步骤根据相应的规则要求,将其中的各种规则要求进行数字化表达,并利用正向表达式配准及规则匹配等技术,实现地理标注的公开地图内容表示规定检查,确保地理标注内容可公开性。

【技术特征摘要】
1.一种基于语义的地理标注内容安全检查方法,包括如下步骤:S110,禁用词匹配步骤:构建地理标注内容禁用词库,并利用中文文本匹配方法,有效进行地理标注内容中名称信息和描述信息的关键词匹配与查找,实现基于禁用词库的地理标注涉密内容的自动发现;S120,标注自动分类步骤:针对地理标注的内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类规则和特征向量;然后根据地理标注的名称信息和描述信息,提取地理标注内容的语义特征向量,再利用语义相似度计算方法,实现基于语义的网络地理标注内容的自动分类计算;S130:白名单过滤步骤根据标注自动分类步骤所匹配的部分涉密类型,从该类型中取出相应的白名单对象库,然后根据地理标注的名称信息与白名单对象库中的标注对象名称的相似度计算,通过与设定相似度阈值进行比较,实现白名单过滤功能;S140,地图公开表示规则检查步骤根据相应的规则要求,将其中的各种规则要求进行数字化表达,并利用正向表达式配准及规则匹配技术,实现地理标注的公开地图内容表示规定检查,确保地理标注内容可公开性。2.根据权利要求1所述基于语义的地理标注内容安全检查方法,其特征在于:所述禁用词匹配步骤包括如下子步骤:S111:从地理标注内容中提取名称信息和描述信息,融合形成一段描述地理标注内容的文本信息;S112:利用中文文本匹配方法对所述文本信息与所述禁用词库进行关键词匹配;S113:如果匹配成功,说明该地理标注内容中包含涉密信息,则将该地理标注内容收录到质疑地理标注数据库中;否则,进入标注自动分类步骤进行进一步检查。3.根据权利要求1所述基于语义的地理标注内容安全检查方法,其特征在于:所述标注自动分类步骤包括如下子步骤:S121:针对地理标注内容、类别及属性,构建地理标注内容分类体系,并针对分类体系中的各个地理信息标注类别,设定语义分类的分类规则和特征向量;S122:利用文中分词技术,对地理标注的名称信息进行分词处理,将其分为不可再分的词语粒度单元;S123:根据各个分词单元的词性特征,对名称信息进行角色标注,确定各词语在整个名称信息中的地位;S124:根据角色标注选定名称信息的中心词,再利用基于中心词的剪枝算法,剔除不具有实际意义的词语标注;S125:根据各个分词单元离中心词的距离,设置相关语义权重,计算名称信息的语义相似度;S126:通过比较地理标注的名称信息与分类体系中各个类别的相似度值,选择匹配最佳的地理标注类型,进行涉密类型判断,实现基于语义的地理标注内容的自动分类:如果匹配的类型为完全涉密类,则将该地理标注收录到质疑地理标注数据库中;如果匹配的类型为完全公开类,则将该地理标注收录到可公开地理标注数据库中;如果匹配的类型为部分涉密类,则进入白名单过滤步骤继续进行进一步检查。4.根据权利要求1所述基于语义的地理标注内容安全检查方法,其特征在于:所述白名单过滤步骤包括如下子步骤:S131:根据地理标注内容自动分类的结果,即根据标注自动分类步骤所匹配的部分涉密类型,读取该类型相应...

【专利技术属性】
技术研发人员:罗安刘纪平王勇张福浩王亮董春
申请(专利权)人:中国测绘科学研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1