The invention discloses a method and a device for detecting the source code data of a multi-stage filtration, the device comprises: a file type detection and filtering module, used to determine whether an input file for the specified file type; lexical analysis lexical extraction filtering module, the file mark and determine the corresponding weight, calculate the weighted sum of the weighted score, judgment the sum of scores exceeds the specified threshold; syntax analysis from the text filtering module, the file interception of the specified length as suspicious text, including the extraction of suspicious text in grammatical phrases and expressions, judge the phrases and expressions of the source code of the importance of semantic analysis; semantic feature extraction filter module, the text the semantic features, and specifies the core source code similarity analysis; containing source code contains the source of data protection module. The data files of the program are sensitive data protection; the passive code marking module is used for the passive code marking of the file. Through the above scheme, the accuracy of the source code detection is improved, and the security protection of the source code is strengthened.
【技术实现步骤摘要】
本专利技术涉及源代码数据检测
,具体涉及一种多级过滤的源代码数据检测方法及装置。
技术介绍
作为研发设计企业,设计文档、图纸和源代码等数据是企业的核心智慧资产,也是企业的核心竞争力所在,对这些核心数据进行有效管控是企业信息安全工作的重中之重。其中源代码数据由于以文本文件或文本片段的形式存在,更易混杂或嵌入在常规的文本文件中,进而发生流失、泄密或非受控扩散等危害企业信息安全的情况。这些源代码数据丢失的情况大多发生原因是企业内部人员的无意操作,也有少数来自内部人员的故意泄密和企业外部的恶意攻击。这些数据丢失情况的发生,对于研发设计企业可能会带来灾难性的后果。因此企业需要对源代码数据的分布、存储、流转、外发进行全方位的管控,而源代码数据检测方法是实现这些管控的基础。数据安全管控技术的发展经历了DSM(数据加密软件)、DSA(数据安全隔离)、DLP(数据泄漏防护)三个阶段。在进行源代码数据的保护时,因为源代码的进程调用十分复杂,如果进行加密,极易损坏代码或影响系统性能,所以DSM并不适用于源代码数据的保护。目前主要采用的源代码防护都是基于DSA或DLP的。DSA并不对源代码进行加密,而是保证源代码仅在隔离出的数据安全区域中流转,在未获审批允许时,不能进行任何形式的外发和外传。DLP摆脱了DSM的敏感数据“全加密”和DSA的“全隔离”的囚笼式信息安全管控策略,通过对文件的分类分级,实现了对敏感数据的网络防护和终端防护。而DLP的核心功能是对文件或数据流的内容进行识别,通过识别来实现对数据丢失的防控。基于源代码数据检测的结果,DLP的源代码管控可以实现敏感代码 ...
【技术保护点】
一种多级过滤的源代码数据检测方法,该方法包括以下步骤:(1)文件类型检测过滤,包括:判断输入文件是否为指定文件类型,如果是,将该文件判定为包含源代码数据的文件,转入步骤(5),否则转入步骤(2);(2)词法分析过滤,包括:将所述文件统一转换成标准文件,提取所述标准文件中的词法记号,并为不同词法记号建立相应的权重,根据所述权重计算所述文件中词法记号的加权得分总和,判断所述加权得分总和是否超过指定阈值,如果是,将该文件判定为包含源代码数据的文件,转入步骤(5),否则转入步骤(3);(3)语法分析过滤,包括:从所述文件截取指定长度的文本作为可疑文本,提取所述可疑文本中包含的语法短语和表达式,判断所述语法短语或表达式对于源代码构成的重要程度是否超过指定阈值,如果是,将该文件判定为包含源代码数据的文件,转入步骤(5),否则转入步骤(4);(4)语义分析过滤,包括:提取所述文本的语义特征,将其与指定核心源代码的语义特征进行相似性分析,如果相似,将该文件判定为包含源代码数据的文件,转入步骤(5),否则转入步骤(6);(5)对包含源程序数据的文件做敏感数据保护,结束检测;(6)对所述文件做无源代码标记 ...
【技术特征摘要】
1.一种多级过滤的源代码数据检测方法,该方法包括以下步骤:(1)文件类型检测过滤,包括:判断输入文件是否为指定文件类型,如果是,将该文件判定为包含源代码数据的文件,转入步骤(5),否则转入步骤(2);(2)词法分析过滤,包括:将所述文件统一转换成标准文件,提取所述标准文件中的词法记号,并为不同词法记号建立相应的权重,根据所述权重计算所述文件中词法记号的加权得分总和,判断所述加权得分总和是否超过指定阈值,如果是,将该文件判定为包含源代码数据的文件,转入步骤(5),否则转入步骤(3);(3)语法分析过滤,包括:从所述文件截取指定长度的文本作为可疑文本,提取所述可疑文本中包含的语法短语和表达式,判断所述语法短语或表达式对于源代码构成的重要程度是否超过指定阈值,如果是,将该文件判定为包含源代码数据的文件,转入步骤(5),否则转入步骤(4);(4)语义分析过滤,包括:提取所述文本的语义特征,将其与指定核心源代码的语义特征进行相似性分析,如果相似,将该文件判定为包含源代码数据的文件,转入步骤(5),否则转入步骤(6);(5)对包含源程序数据的文件做敏感数据保护,结束检测;(6)对所述文件做无源代码标记,结束检测。2.根据权利要求1所述的方法,所述步骤(1)中所述输入文件为:本地进行存储或网络外发的文件。3.根据权利要求1所述的方法,所述词法记号包括:特定程序设计语言中的关键字、标识符、算符和界符。4.根据权利要求1所述的方法,所述步骤(3)从所述文件截取指定长度的可疑文本具体包括:根据执行所述数据检测方法的装置性能,确定所述指定长度,并截取所述权重大于指定阈值的词法记号后所述指定长度的文本作为可疑文本,截取的该可疑文本包含该词法记号。5.根据权利要求4所述的方法,所述步骤(3)中提取所述可疑文本中包含的语法短语和表达式具体包括:对所述可疑文本进行语法分析,将相邻的词法记号组合成符合程序设计语言规则的语法短语和表达式。6.根据权利要求4或5所述的方法,所述判断所述语法短语或表达式对于源代码构成的重要程度具体为:根据所述语法短语在语法树中的层级,判断其重要程度,根据所述表达式的运算复杂度,判断其重要程度。7.根据权利要求1所述的方法,所述步骤(4)中利用关键字词频统计或局部敏感哈希(LSH)方法提取所述标准文件的语义特征,将所述指定核心源代码的语义特征构造成敏...
【专利技术属性】
技术研发人员:邸宏宇,王志海,魏效征,张静,何晋昊,喻波,安鹏,
申请(专利权)人:北京明朝万达科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。