数据处理方法、数据处理装置和计算机可读存储介质制造方法及图纸

技术编号:22056117 阅读:25 留言:0更新日期:2019-09-07 15:33
本公开提供了一种用于获取同源数据的数据处理方法、装置和计算机可读存储介质。该数据处理方法包括:获取源数据的多条源特征信息;获取与多条源特征信息的每一条具有直接或间接相关性的多条相关特征信息,生成相关特征信息集;获取多条源特征信息和相关特征信息集中的每一条之间的相似度;以及确定与源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息,与一条或多条相关标识信息对应的一条或多条数据为源数据的同源数据。本公开基于源数据的标识信息、静态信息以及动态行为信息执行源数据特征的关联扩散,最终获取在静态信息和行为信息上都与源数据满足相似度要求的同源数据,实现了高效和准确的同源数据挖掘。

Data Processing Method, Data Processing Device and Computer Readable Storage Media

【技术实现步骤摘要】
数据处理方法、数据处理装置和计算机可读存储介质
本公开涉及数据处理领域,更具体地,本公开涉及一种用于获取同源数据的数据处理方法、数据处理装置和计算机可读存储介质。
技术介绍
随着互联网和大数据技术的飞速发展,数据呈爆炸性增长,人类已经从信息时代步入大数据时代。在大数据时代,针对数据来源的分析与溯源,对于数据的利用和数据的安全有着至关重要的意义。例如,在涉及信息安全的应用场景中,当出现潜在的或者正在进行恶意攻击的数据(诸如,恶意代码或者木马程序)时,需要对该数据的来源进行分析与挖掘,以便及时发现源自同一来源(即,攻击者)的其他恶意的同源数据。当前,针对恶意数据的同源数据的挖掘通常依赖于基于逆向工程的非自动化手段。先根据源数据访问的域名或IP地址找到访问该域名或IP的其他数据,对源数据和其他数据的消息摘要算法(md5)信息进行逆向工程,分析其在文件名、代码段、变量命名等方面的相似度。最终根据md5的相似度,确定可能的同源数据。这样的同源数据挖掘方法仅仅依赖于源数据的md5的静态信息,自动化程序低、计算量大、并且难以找出与源数据具有深层次关联的同源数据。
技术实现思路
鉴于上述问题而提出了本公开。本公开提供了一种用于获取同源数据的数据处理方法、数据处理装置和计算机可读存储介质。根据本公开的一个方面,提供了一种数据处理方法,包括:获取源数据的多条源特征信息;获取与所述多条源特征信息的每一条具有直接或间接相关性的多条相关特征信息,生成相关特征信息集;获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度,所述源特征信息包括所述源数据的标识信息、静态信息以及动态行为信息,并且所述相关特征信息包括相关数据的相关标识信息、相关静态信息以及相关动态行为信息;以及确定与所述源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息,与所述一条或多条相关标识信息对应的一条或多条相关数据为所述源数据的同源数据。此外,根据本公开的一个方面的数据处理方法,其中,所述获取源数据的多条源特征信息包括:获取所述源数据经由散列处理后生成的散列值作为所述标识信息;分析所述源数据的程序数据库文件和读写机制,获取所述静态信息;以及监测所述源数据的网络访问行为,获取所述动态行为信息。此外,根据本公开的一个方面的数据处理方法,其中,所述获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息包括:以所述源数据的标识信息作为根节点,并且以所述源数据的静态信息以及动态行为信息的每一条作为第1层节点,从所述第1层节点起,获取与第(N-1)层节点中的一个节点具有相关性的相关特征信息作为第N层节点中的一个节点,N为大于等于2的预定层数阈值。此外,根据本公开的一个方面的数据处理方法,其中,所述获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息还包括:基于预定过滤条件,对从所述第1层节点到所述第N层节点中的每一个节点进行过滤,移除噪声节点;以所述根节点到所述第N层节点中的剩余非噪声节点作为所述多条源特征信息以及所述多条相关特征信息。此外,根据本公开的一个方面的数据处理方法,其中,所述获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度包括:基于所述根节点到所述第N层节点中的所有节点构造邻接矩阵,所述邻接矩阵的矩阵元表示所述所有节点的节点对之间的直接相关性;以及基于所述所有节点中的一个节点与其相邻节点的相似度,以及所述所有节点中的另一个节点与其相邻节点的相似度,确定所述所有节点中的一个节点与所述所有节点中的另一个节点之间的相似度。此外,根据本公开的一个方面的数据处理方法,还包括:接收作为可疑数据的所述源数据;在虚拟执行环境中监测所述源数据,以获取所述获取源数据的多条源特征信息;确定所述源数据以及所述同源数据是否为恶意数据;以及当所述源数据以及所述同源数据为恶意数据时,发布指示所述源数据以及所述同源数据为恶意数据的信息。此外,根据本公开的一个方面的数据处理方法,还包括:显示所述源数据以及所述同源数据之间的相关路径图。根据本公开的另一个方面,提供了一种数据处理装置,包括:源特征信息获取单元,用于获取源数据的多条源特征信息;相关特征信息获取单元,用于获取与所述多条源特征信息的每一条具有直接或间接相关性的多条相关特征信息,生成相关特征信息集;相似度获取单元,用于获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度,所述源特征信息包括所述源数据的标识信息、静态信息以及动态行为信息,并且所述相关特征信息包括相关数据的相关标识信息、相关静态信息以及相关动态行为信息;以及同源数据确定单元,用于确定与所述源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息,与所述一条或多条相关标识信息对应的一条或多条相关数据为所述源数据的同源数据。此外,根据本公开的另一个方面的数据处理装置,其中,所述源特征信息获取单元用于:获取所述源数据经由散列处理后生成的散列值作为所述标识信息;分析所述源数据的程序数据库文件和读写机制,获取所述静态信息;以及监测所述源数据的网络访问行为,获取所述动态行为信息。此外,根据本公开的另一个方面的数据处理装置,其中,所述相关特征信息获取单元用于:以所述源数据的标识信息作为根节点,并且以所述源数据的静态信息以及动态行为信息的每一条作为第1层节点,从所述第1层节点起,获取与第(N-1)层节点中的一个节点具有相关性的相关特征信息作为第N层节点中的一个节点,N为大于等于2的预定层数阈值。此外,根据本公开的另一个方面的数据处理装置,其中,所述相关特征信息获取单元还用于:基于预定过滤条件,对从所述第1层节点到所述第N层节点中的每一个节点进行过滤,移除噪声节点;以所述根节点到所述第N层节点中的剩余非噪声节点作为所述多条源特征信息以及所述多条相关特征信息。此外,根据本公开的另一个方面的数据处理装置,其中,所述相似度获取单元用于:基于所述根节点到所述第N层节点中的所有节点构造邻接矩阵,所述邻接矩阵的矩阵元表示所述所有节点的节点对之间的直接相关性;以及基于所述所有节点中的一个节点与其相邻节点的相似度,以及所述所有节点中的另一个节点与其相邻节点的相似度,确定所述所有节点中的一个节点与所述所有节点中的另一个节点之间的相似度。此外,根据本公开的另一个方面的数据处理装置,还包括:数据接收单元,用于接收作为可疑数据的所述源数据;恶意数据确定单元,用于确定所述源数据以及所述同源数据是否为恶意数据;以及信息发布单元,用于当所述源数据以及所述同源数据为恶意数据时,发布指示所述源数据以及所述同源数据为恶意数据的信息,其中,所述源特征信息获取单元在虚拟执行环境中监测所述源数据,以获取所述获取源数据的多条源特征信息。此外,根据本公开的另一个方面的数据处理装置,还包括:显示单元,用于显示所述源数据以及所述同源数据之间的相关路径图。根据本公开的又一个方面,提供了一种数据处理设备,包括:处理器;以及存储器,用于存储计算机程序指令;其中,当所述计算机程序指令由所述处理器加载并运行时,所述处理器执行一种数据处理方法,包括:获取源数据的多条源特征信息;获取与所述多条源特征信息的每一条具有直接或间接相关性的多条相关特征信本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:获取源数据的多条源特征信息;获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息,生成相关特征信息集;获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度,所述源特征信息包括所述源数据的标识信息、静态信息以及动态行为信息,并且所述相关特征信息包括相关数据的相关标识信息、相关静态信息以及相关动态行为信息;以及确定与所述源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息,与所述一条或多条相关标识信息对应的一条或多条相关数据为所述源数据的同源数据。

【技术特征摘要】
1.一种数据处理方法,包括:获取源数据的多条源特征信息;获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息,生成相关特征信息集;获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度,所述源特征信息包括所述源数据的标识信息、静态信息以及动态行为信息,并且所述相关特征信息包括相关数据的相关标识信息、相关静态信息以及相关动态行为信息;以及确定与所述源数据的标识信息的相似度大于预定相似度阈值的一条或多条相关标识信息,与所述一条或多条相关标识信息对应的一条或多条相关数据为所述源数据的同源数据。2.如权利要求1所述的数据处理方法,其中,所述获取源数据的多条源特征信息包括:获取所述源数据经由散列处理后生成的散列值作为所述标识信息;分析所述源数据的程序数据库文件和读写机制,获取所述静态信息;以及监测所述源数据的网络访问行为,获取所述动态行为信息。3.如权利要求1所述的数据处理方法,其中,所述获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息包括:以所述源数据的标识信息作为根节点,并且以所述源数据的静态信息以及动态行为信息的每一条作为第1层节点,从所述第1层节点起,获取与第(N-1)层节点中的一个节点具有相关性的相关特征信息作为第N层节点中的一个节点,N为大于等于2的预定层数阈值。4.如权利要求3所述的数据处理方法,其中,所述获取与所述多条源特征信息的每一条具有相关性的多条相关特征信息还包括:基于预定过滤条件,对从所述第1层节点到所述第N层节点中的每一个节点进行过滤,移除噪声节点;以所述根节点到所述第N层节点中的剩余非噪声节点作为所述多条源特征信息以及所述多条相关特征信息。5.如权利要求3或4的所述的数据处理方法,其中,所述获取所述多条源特征信息的每一条和所述相关特征信息集中的每一条之间的相似度包括:基于所述根节点到所述第N层节点中的所有节点构造邻接矩阵,所述邻接矩阵的矩阵元表示所述所有节点的节点对之间的直接相关性;以及基于所述所有节点中的一个节点与其相邻节点的相似度,以及所述所有节点中的另一个节点与其相邻节点的相似度,确定所述所有节点中的一个节点与所述所有节点中的另一个节点之间的相似度。6.如权利要求1到4的任一项所述的数据处理方法,还包括:接收作为可疑数据的所述源数据;在虚拟执行环境中监测所述源数据,以获取所述获取源数据的多条源特征信息;确定所述源数据以及所述同源数据是否为恶意数据;以及当所述源数据以及所述同源数据为...

【专利技术属性】
技术研发人员:魏向前李成俊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1