一种大数据安全防护方法及系统技术方案

技术编号:26066171 阅读:29 留言:0更新日期:2020-10-28 16:39
本发明专利技术涉及数据安全处理技术领域,涉及一种大数据安全防护方法及系统。在该方法中,首先提取目标脚本文件中的文本特征信息和代码编写逻辑,其次通过筛选得到的目标信息字段来获取目标脚本文件的待分析源代码,然后构建待分析源代码的代码序列并查询得到目标代码序列从而确定目标脚本文件是第一脚本文件还是第二脚本文件。最后基于目标脚本文件的类别选用不同的识别方法来识别目标脚本文件是否为数据爬虫。本发明专利技术通过对脚本文件的源码以及编写逻辑进行分析,能够根据分析和识别得到的结果从源码层面来判断脚本文件是否为数据爬虫,从而可以快速、准确地识别出数据爬虫,对数据爬虫进行拦截或者销毁,确保设备间的数据交互的安全性和隐私性。

【技术实现步骤摘要】
一种大数据安全防护方法及系统
本专利技术涉及数据安全处理
,具体而言,特别涉及一种大数据安全防护方法及系统。
技术介绍
数据爬虫是一种按照设定的方式或者逻辑自动地采集网页数据或者设备数据的软件程序或者脚本文件。数据爬虫通常可以用来进行数据分析,例如,先通过对数据进行清洗、抽取和转换,从而将数据做成标准化的数据,然后进行数据分析和挖掘,以获取数据的商业价值。由此可见,数据爬虫在一定程度上具有可取之处。然而,随着现代社会的数据安全意识的增强,个人或者企业并不希望自身的用户数据或者行为数据随意地被数据爬虫所爬取,否则会导致一些隐私数据的丢失或者泄露。因此,在一些数据交互场景下,需要对数据爬虫进行拦截或者销毁。但是现如今的数据爬虫技术具有一定的隐蔽性,在进行数据交互时,数据服务器很难发现数据爬虫的存在。
技术实现思路
为改善相关技术中存在的上述技术问题,本专利技术提供了一种大数据安全防护方法及系统。第一方面,提供一种大数据安全防护方法,应用于与智能终端通信的数据服务器,所述方法包括:基于确定出的目标脚本文件对应的源码集合和文件结构数据,对所述目标脚本文件进行识别,以提取所述目标脚本文件中包括的文本特征信息以及代码编写逻辑;其中,所述目标脚本文件为所述数据服务器中的第一脚本文件或者所述智能终端中的第二脚本文件,所述文本特征信息是所述源码集合中的源代码的文本特征,所述代码编写逻辑与所述文件结构数据之间存在对应关系,所述对应关系用于表征所述源代码的编写逻辑;通过筛选得到的所述文本特征信息中相对于所述代码编写逻辑存在调试标识的目标信息字段,获取所述目标脚本文件中代码唯一标识符不随所述目标信息字段的调整次数而更新的目标源代码,以作为所述目标脚本文件的待分析源代码;构建所述待分析源代码的代码序列,从预设的序列集合中查询出与所述代码序列的匹配率最高的目标代码序列,根据所述目标代码序列唯一对应的签名信息确定所述代码序列对应的所述目标脚本文件是第一脚本文件还是第二脚本文件;若所述目标脚本文件是所述第一脚本文件,则确定所述目标脚本文件在设定时段内的运行记录,根据所述运行记录识别所述目标脚本文件是否为数据爬虫;若所述目标脚本文件是所述第二脚本文件,则根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数,基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫。可选地,确定所述目标脚本文件在设定时段内的运行记录,根据所述运行记录识别所述目标脚本文件是否为数据爬虫,包括:从所述数据服务器的运行日志文件中提取与所述目标脚本文件对应的在设定时段内的运行记录;其中,所述设定时段根据所述数据服务器的运行日志文件的更新频率确定;获取所述运行记录的记录信息的时刻分布列表以及各记录信息;根据所述记录信息的时刻分布列表判定所述运行记录是否存在可调信息类别和不可调信息类别;其中,所述可调信息类别用于表征记录信息中的记录签名可修改,所述不可调信息类别用于表征记录信息中的记录签名为固定签名;若判定出所述运行记录存在所述可调信息类别和所述不可调信息类别,依据所述运行记录在所述可调信息类别下的记录信息及其信息权限请求次数确定所述运行记录在所述不可调信息类别下的各记录信息与所述运行记录在所述可调信息类别下的各记录信息之间的安全性评价系数;其中,所述安全性评价系数用于表征所述可调信息类别和所述不可调类别下的记录信息之间的可转移性;将所述运行记录在所述不可调信息类别下的与在所述可调信息类别下的记录信息之间的安全性评价系数超过设定系数的记录信息转移所述可调信息类别下;确定所述可调信息类别下的记录信息的第一特征聚类轨迹以及所述不可调信息类别下记录信息的第二特征聚类轨迹,按照将所述第一特征聚类轨迹和所述第二特征聚类轨迹进行对比,得到所述第一特征聚类轨迹和所述第二特征聚类轨迹的重合度;在所述重合度低于设定阈值时判定所述目标脚本文件为数据爬虫。可选地,所述方法还包括:对所述运行日志文件所在的存储区进行划分,得到第一存储区和第二存储区;其中,所述第一存储区和所述第二存储区互相独立,所述第一存储区用于存储除所述第一脚本文件之外的文件对应的日志文件,所述第二存储区用于存储所述第二脚本文件的日志文件;对所述第一脚本文件进行数字签名标记,并在获取到所述数据服务器产生的实时日志文件时判断所述实时日志文件是否存在所述数字签名;若存在,则将所述实时日志文件存入所述第二存储区,若不存在,则将所述实时日志文件存入所述第一存储区。可选地,根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数,基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫,包括:接收到所述文件传输协议后确定所述文件传输协议的加密协议字段,并基于所述加密协议字段进行所述第二脚本文件的第一时序参数抽取;其中,所述加密协议字段为所述文件传输协议中与所述数据服务器相关的通信协议的加密逻辑信息;将所述第一时序参数与预设参数集中的各第二时序参数进行时序特征对比;其中,如果所述第一时序参数为多个,则通过以下方式进行时序特征对比:按照预先为各第一时序参数设置的权重等级,进行将每个第一时序参数分别与每个第二时序参数进行时序特征对比,得到特征对比结果,如果该特征对比结果表征所述第一时序参数在该第二时序参数所处的时段内为稳定,则将所述第一时序参数与下一个第二时序参数进行时序特征对比;如果所述第一时序参数与每个第二时序参数的特征对比结果表征所述第一时序参数在每个第二时序参数所处的时段内为稳定,则将所述第一时序参数导入预设的参数列表中;将所述参数列表中的第一时序参数按照时序特征维度的大小顺序进行排序得到排序序列;确定所述排序序列的序列结构信息,并以所述序列结构信息对所述排序序列中的每个第一时序参数进行关键值提取,将提取出的关键值整合为时序稳定参数;确定所述时序稳定参数在所述第二脚本文件中的多个映射参数值;根据所述多个映射参数值得到所述第二脚本文件的时序描述信息;根据所述时序描述信息确定所述第二脚本文件的运行轨迹,在所述运行轨迹中出现离散节点时,确定所述第二脚本文件为数据爬虫。可选地,所述方法还包括:提取所述第二脚本文件的执行指令代码;其中,所述智能终端通过调用所述执行指令代码实现所述第二脚本文件的;解析所述执行指令代码得到多个代码权限信息;其中,每个代码权限信息对应所述智能终端中的其中一类用户数据;确定出所述智能终端中隐私数据标识对应的用户数据的目标代码权限信息,对所述目标代码权限信息设置动态校验码;其中,所述智能终端在调用所述目标代码权限信息对应的指令代码时,通过所述动态校验码与所述数据服务器之间进行安全性验证。可选地,构建所述待分析源代码的代码序列,包括:获取待分析源代码的源代码标签对应的标签移植信息及所述源代码标签的版本更新信息,所述版本更新信息表示所述待分析源代码的源代码标签的标签有效时长;生成本文档来自技高网...

【技术保护点】
1.一种大数据安全防护方法,其特征在于,应用于与智能终端通信的数据服务器,所述方法包括:/n基于确定出的目标脚本文件对应的源码集合和文件结构数据,对所述目标脚本文件进行识别,以提取所述目标脚本文件中包括的文本特征信息以及代码编写逻辑;其中,所述目标脚本文件为所述数据服务器中的第一脚本文件或者所述智能终端中的第二脚本文件,所述文本特征信息是所述源码集合中的源代码的文本特征,所述代码编写逻辑与所述文件结构数据之间存在对应关系,所述对应关系用于表征所述源代码的编写逻辑;/n通过筛选得到的所述文本特征信息中相对于所述代码编写逻辑存在调试标识的目标信息字段,获取所述目标脚本文件中代码唯一标识符不随所述目标信息字段的调整次数而更新的目标源代码,以作为所述目标脚本文件的待分析源代码;/n构建所述待分析源代码的代码序列,从预设的序列集合中查询出与所述代码序列的匹配率最高的目标代码序列,根据所述目标代码序列唯一对应的签名信息确定所述代码序列对应的所述目标脚本文件是第一脚本文件还是第二脚本文件;/n若所述目标脚本文件是所述第一脚本文件,则确定所述目标脚本文件在设定时段内的运行记录,根据所述运行记录识别所述目标脚本文件是否为数据爬虫;/n若所述目标脚本文件是所述第二脚本文件,则根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数,基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫。/n...

【技术特征摘要】
1.一种大数据安全防护方法,其特征在于,应用于与智能终端通信的数据服务器,所述方法包括:
基于确定出的目标脚本文件对应的源码集合和文件结构数据,对所述目标脚本文件进行识别,以提取所述目标脚本文件中包括的文本特征信息以及代码编写逻辑;其中,所述目标脚本文件为所述数据服务器中的第一脚本文件或者所述智能终端中的第二脚本文件,所述文本特征信息是所述源码集合中的源代码的文本特征,所述代码编写逻辑与所述文件结构数据之间存在对应关系,所述对应关系用于表征所述源代码的编写逻辑;
通过筛选得到的所述文本特征信息中相对于所述代码编写逻辑存在调试标识的目标信息字段,获取所述目标脚本文件中代码唯一标识符不随所述目标信息字段的调整次数而更新的目标源代码,以作为所述目标脚本文件的待分析源代码;
构建所述待分析源代码的代码序列,从预设的序列集合中查询出与所述代码序列的匹配率最高的目标代码序列,根据所述目标代码序列唯一对应的签名信息确定所述代码序列对应的所述目标脚本文件是第一脚本文件还是第二脚本文件;
若所述目标脚本文件是所述第一脚本文件,则确定所述目标脚本文件在设定时段内的运行记录,根据所述运行记录识别所述目标脚本文件是否为数据爬虫;
若所述目标脚本文件是所述第二脚本文件,则根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数,基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫。


2.如权利要求2所述的大数据安全防护方法,其特征在于,确定所述目标脚本文件在设定时段内的运行记录,根据所述运行记录识别所述目标脚本文件是否为数据爬虫,包括:
从所述数据服务器的运行日志文件中提取与所述目标脚本文件对应的在设定时段内的运行记录;其中,所述设定时段根据所述数据服务器的运行日志文件的更新频率确定;
获取所述运行记录的记录信息的时刻分布列表以及各记录信息;根据所述记录信息的时刻分布列表判定所述运行记录是否存在可调信息类别和不可调信息类别;其中,所述可调信息类别用于表征记录信息中的记录签名可修改,所述不可调信息类别用于表征记录信息中的记录签名为固定签名;
若判定出所述运行记录存在所述可调信息类别和所述不可调信息类别,依据所述运行记录在所述可调信息类别下的记录信息及其信息权限请求次数确定所述运行记录在所述不可调信息类别下的各记录信息与所述运行记录在所述可调信息类别下的各记录信息之间的安全性评价系数;其中,所述安全性评价系数用于表征所述可调信息类别和所述不可调类别下的记录信息之间的可转移性;
将所述运行记录在所述不可调信息类别下的与在所述可调信息类别下的记录信息之间的安全性评价系数超过设定系数的记录信息转移所述可调信息类别下;
确定所述可调信息类别下的记录信息的第一特征聚类轨迹以及所述不可调信息类别下记录信息的第二特征聚类轨迹,按照将所述第一特征聚类轨迹和所述第二特征聚类轨迹进行对比,得到所述第一特征聚类轨迹和所述第二特征聚类轨迹的重合度;在所述重合度低于设定阈值时判定所述目标脚本文件为数据爬虫。


3.如权利要求2所述的大数据安全防护方法,其特征在于,所述方法还包括:
对所述运行日志文件所在的存储区进行划分,得到第一存储区和第二存储区;其中,所述第一存储区和所述第二存储区互相独立,所述第一存储区用于存储除所述第一脚本文件之外的文件对应的日志文件,所述第二存储区用于存储所述第二脚本文件的日志文件;
对所述第一脚本文件进行数字签名标记,并在获取到所述数据服务器产生的实时日志文件时判断所述实时日志文件是否存在所述数字签名;若存在,则将所述实时日志文件存入所述第二存储区,若不存在,则将所述实时日志文件存入所述第一存储区。


4.如权利要求1所述的大数据安全防护方法,其特征在于,根据接收到的与所述第二脚本文件对应的文件传输协议确定所述第二脚本文件的时序稳定参数,基于所述时序稳定参数识别所述目标脚本文件是否为数据爬虫,包括:
接收到所述文件传输协议后确定所述文件传输协议的加密协议字段,并基于所述加密协议字段进行所述第二脚本文件的第一时序参数抽取;其中,所述加密协议字段为所述文件传输协议中与所述数据服务器相关的通信协议的加密逻辑信息;
将所述第一时序参数与预设参数集中的各第二时序参数进行时序特征对比;其中,如果所述第一时序参数为多个,则通过以下方式进行时序特征对比:按照预先为各第一时序参数设置的权重等级,进行将每个第一时序参数分别与每个第二时序参数进行时序特征对比,得到特征对比结果,如果该特征对比结果表征所述第一时序参数在该第二时序参数所处的时段内为稳定,则将所述第一时序参数与下一个第二时序参数进行时序特征对比;如果所述第一时序参数与每个第二时序参数的特征对比结果表征所述第一时序参数在每个第二时序参数所处的时段内为稳定,则将所述第一时序参数导入预设的参数列表中;
将所述参数列表中的第一时序参数按照时序特征维度的大小顺序进行排序得到排序序列;确定所述排序序列的序列结构信息,并以所述序列结构信息对所述排序序列中的每个第一时序参数进行关键值提取,将提取出的关键值整合为时序稳定参数;
确定所述时序稳定参数在所述第二脚本文件中的多个映射参数值;根据所述多个映射参数值得到所述第二脚本文件的时序描述信息;根据所述时序描述信息确定所述第二脚本文件的运行轨迹,在所述运行轨迹中出现离散节点时,确定所述第二脚本文件为数据爬虫。


5.如权利要求4所述的大数据安全防护方法,其特征在于,所述方法还包括:
提取所述第二脚本文件的执行指令代码;其中,所述智能终端通过调用所述执行指令代码实现所述第二脚本文件的;
解析所述执行指令代码得到多个代码权限信息;其中,每个代码权限信息对应所述智能终端中的其中一类用户数据;
确定出所述智能终端中隐私数据标识对应的用户数据的目标代码权限信息,对所述目标代码权限信息设置动态校验码;其中,所述智能终端在调用所述目标代码权限信息对应的指令代码时,通过所述动态校验码与所述数据服务器之间进行安全性验证。


6.如权利要求1所述的大数据安全防护方法,其特征在于,构建所述待分析源代码的代码序列...

【专利技术属性】
技术研发人员:梁玉娣梁燕明
申请(专利权)人:广州智云尚大数据科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1