用于从多域收集数据的方法、装置和计算机程序制造方法及图纸

技术编号:30219602 阅读:19 留言:0更新日期:2021-09-29 09:38
本发明专利技术涉及一种用于在数据收集装置中从多域收集数据的方法。该方法包括:步骤A,从可通过搜索引擎访问的通用网络收集数据;步骤B,从无法通过通用网络浏览器访问但可通过预设特定软件访问的暗网站点收集数据;以及步骤C,将所收集到的数据以预设格式进行标准化,并且生成针对所收集到的数据的元数据。生成针对所收集到的数据的元数据。生成针对所收集到的数据的元数据。

【技术实现步骤摘要】
【国外来华专利技术】用于从多域收集数据的方法、装置和计算机程序


[0001]本专利技术涉及一种用于收集和处理数据的方法。更具体地,本专利技术涉及一种用于收集和处理关于多域中的任意对象的大量数据的系统,该多域包括通用表层网络(surface web)以及需要访问权限的不可见网络。

技术介绍

[0002]近年来,随着互联网技术的发展,基于虚拟世界的信息泛滥。然而,可以通过通用浏览器中的搜索引擎访问的站点仅仅是整个网络环境中的冰山一角。存在连接到互联网但需要访问权限的深网(Deep Web)以及无法通过通用浏览器访问但可以使用特定软件访问的匿名暗网(Dark Web)。
[0003]暗网是指存在于加密网络上并且无法使用通用浏览器访问的特定类别的站点。暗网上的许多站点基于Tor(洋葱网络(Onion Network))网络。自2010年以来发展迅速的Tor网络是一种应用用户匿名技术的网络,并且正在成为使用加密货币(cryptocurrency)的诸如以下的各种非法交易的温床:武器交易、毒品交易、器官交易、黑客工具销售、黑客技术共享、个人信息交易和色情销售。
[0004]在Tor网络中,网络中的节点用作网络路由器,并且特定节点的地址信息分布和存储在网络中的其它节点中。由于Tor浏览器经由多个节点随机提供到目的地的连接,因此Tor网络具有无法追踪服务供应商和用户之间的连接路径的特性。

技术实现思路

[0005]本专利技术的目的在于提供一种收集和处理关于通用表层网络以及需要访问权限的不可见网络中的任意对象的大量数据的方法。
[0006]根据本专利技术的实施例,一种在数据收集装置中从多域收集数据的方法包括:步骤A,从可通过搜索引擎访问的通用网络收集数据;步骤B,从无法通过通用网络浏览器访问但可通过预设特定软件访问的暗网站点收集数据;以及步骤C,将收集到的数据以预设格式进行标准化,并且生成针对收集到的数据的元数据。
[0007]根据本专利技术,可以在互联网环境中收集可通过通用网络浏览器访问的通用数据以及可通过特殊浏览器访问的特殊数据。此外,根据本专利技术,存在通过处理基于多域收集的大量数据来分析信息相关性的效果。
附图说明
[0008]图1是用于描述根据本专利技术的实施例的收集多域中的大量数据并分析收集到的数据之间的相关性的系统的操作的示图。
[0009]图2A是用于描述根据本专利技术的实施例的收集Tor网络中的数据的系统的配置的示图。
[0010]图2B是用于描述根据本专利技术的另一实施例的收集Tor网络中的数据的系统的配置
的示图。
[0011]图3是用于描述根据本专利技术的实施例的收集Tor网络的数据的过程的示图。
具体实施方式
[0012]本专利技术不限于下面描述的具体实施方式,并且显而易见的是,在不脱离本专利技术的技术主旨的范围内,可以进行各种修改。在描述实施例时,将省略本专利技术所属
中公知的并且与本专利技术技术主旨没有直接关系的
技术实现思路
的描述。
[0013]同时,在附图中,相同的组件由相同的附图标记表示。在附图中,一些组件可能被夸大、省略或示意性地示出。这是为了通过省略与本专利技术的主旨无关的不必要描述来清楚地描述本专利技术的主旨。
[0014]图1是用于描述根据本专利技术的实施例的收集多域中的大量数据并分析收集到的数据之间的相关性的系统的操作的示图。
[0015]参照图1,根据本专利技术的实施例的系统可以包括通用数据收集模块110、特殊数据收集模块120、数据库125、数据处理模块130和知识图谱创建模块140。
[0016]通用数据收集模块110执行收集在通用网络环境中发布的数据的功能。根据本专利技术的优选实施例,通用数据收集模块可以通过对与犯罪或威胁相关的信息源进行加权来收集数据。
[0017]例如,在收集与诸如恶意代码、色情和个人信息交易的非法交易相关的数据时,通用数据收集模块110可以以收集与非法交易相关的通用站点上记录的电子邮件账户、链接到电子邮件账户的SNS账户、SNS账户帖子上记录的其它电子邮件账户或者网页和帖子上记录的比特币交易地址的方式来收集关于非法交易的信息119。在稍后将描述的数据处理模块130和知识图谱创建模块140中提炼(refine)收集到的信息以推断其含义或关系。
[0018]同时,可以考虑收集恶意代码二进制数据的情况。根据常规的安全解决方案,以代理的形式在客户端安装安全程序,并且当恶意代码被引入客户端装置时,安全程序收集恶意代码。
[0019]然而,由于最近的恶意代码往往针对少数特定的用户,因此存在安全程序难以以常规方式收集所有恶意代码的问题。此外,根据常规方法,存在用户装置被感染之后才收集恶意代码二进制数据的问题。
[0020]因此,为了解决上述问题,本专利技术的目的在于提供一种在客户端感染恶意代码之前检测和收集恶意软件的方法。为此,根据本专利技术的实施例,通用数据收集模块110和/或特殊数据收集模块120可以收集数据源113和种子数据116,并且使用数据源113和种子数据116直接从恶意代码分布(malicious code distribution)和/或控制服务器收集恶意代码二进制数据119。
[0021]更具体地,通用数据收集模块可以首先创建可在通用网络环境中访问的可信的数据源113的列表。数据源可以包括例如国内和国外安全公司和安全组织所运行的站点、博客、报告和SNS账户。
[0022]此后,通用数据收集模块110可以爬取与该数据源的列表相对应的网页中存在的所有URL链接,以收集恶意代码的种子数据116。
[0023]恶意代码的种子数据可以大致划分为两种类型。
[0024]第一种子数据是危害指标(indicator),并且是指用作网络或装置的操作系统中发现的网络入侵事件的指标或证据的数据。根据本专利技术的实施例,可以通过第一种子数据来识别某个装置是否感染了恶意代码。
[0025]第二种子数据可以是与控制服务器的DNS相关的数据,该控制服务器控制具有命令与控制(Command&Control,C&C)基础架构的恶意代码。具有C&C基础架构的恶意代码以二进制形式存储控制服务器的域地址或包括域地址生成例程(routine),并且以不断改变映射到域的IP地址的方式运行。以这种方式,恶意代码控制服务器在不重新分布恶意代码二进制文件的情况下运行以更改C&C。
[0026]根据本专利技术实施例的第一种子数据可以包括例如恶意软件的名称、恶意软件的哈希值(md5、sha1、sha256等)、控制恶意代码的命令与控制(C&C)的IP地址、域地址和域地址生成例程、恶意软件所创建的文件的名称和类型、恶意软件的源代码和运行、以及恶意代码的通信消息上发现的签名,诸如唯一的消息结构、开发者ID、代码片段的重用日志等。根据本专利技术的实施例的第一种子数据除了上述示例之外,还可以包括能够指定任意恶意软件的所有数据。
[0027]对于第一种子数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在数据收集装置中收集数据的方法,包括:步骤A,使用分布式爬虫从暗网站点收集数据,所述暗网站点属于通过随机连接执行网络路由功能的至少一个或多个网络节点来建立通道的网络,所述暗网无法通过通用网络浏览器访问但能够通过预设的特定软件访问;以及步骤B,将所收集到的数据以预设格式进行标准化,并且生成针对所收集到的数据的元数据,其中所述步骤A包括:收集网络的域信息;识别所收集到的域是否已经变化,并且将被识别为最近注册的域优先分配给所述分布式爬虫;以及通过处理所述网络节点中的所述分布式爬虫的请求,运行执行所述路由功能的多个所述网络节点,并且从与任意域相对应的暗网收集数据。2.根据权利要求1所述的方法,进一步包括:步骤C,创建基于知识的图谱,基于标准化数据和所述元数据来更新所述基于知识的图谱,并且基于所述基于知识的图谱来跟踪犯罪。3.根据权利要求1所述的方法,在所述步骤A之前,进一步包括:创建能够在记录了关于恶意代码的可靠信息的通用网络环境中访问的数据源列表;通过爬取与所述数据源列表相对应的网页中存在的URL链接,收集作为网络或装置的操作系统中的恶意代码攻击的指标的第一种子数据;通过监控被映射到从数据源收集的域的IP地址,或者监控所述第一种子数据中...

【专利技术属性】
技术研发人员:徐尚德尹昶勋李承炫
申请(专利权)人:艾斯图文莱博有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1