评估网域名称的方法及其伺服器技术

技术编号:24091915 阅读:31 留言:0更新日期:2020-05-09 08:27
本发明专利技术提供一种评估网域名称的方法及其伺服器。所述方法包括:取得原始网域名称,并将原始网域名称区分为多个部分;取出前述部分中的特定部分,其中特定部分包括字元;将字元编码为编码数据;将编码数据填补至特定长度;将填补后的编码数据投影至多个嵌入向量;将前述嵌入向量依序输入长短期存储模型中的多个单元,以产生结果向量;以及通过全连接层及特定函数将结果向量转换为预测机率。

Methods for evaluating domain names and their servers

【技术实现步骤摘要】
评估网域名称的方法及其伺服器
本专利技术涉及一种评估网域名称的方法及其伺服器,尤其涉及一种评估网域名称是否为由网域生成演算(DomainGenerationAlgorithm,DGA)所产生的机率的方法及其伺服器。
技术介绍
当骇客(hacker)意图攻击某些装置时,其将尝试各种可能方式以将病毒(例如,Bot病毒)植入受害者的装置中,进而感染受害者的装置。当骇客掌控多个受感染的装置时,就能形成一个殭尸网络(botnet),并在需要的时候对目标发动攻击(例如,分散式阻断服务攻击(distributeddenial-of-serviceattack,DDosattack)。在潜伏期时,Bot病毒需要与命令与控制(CommandandControl,C2)伺服器保持联系,以更新最新版的指令,并让骇客能精准掌握Bot病毒的数量与状态。为了提高Bot病毒回报的成功率,以及避免C2伺服器确切的IP位置被发现,骇客将运用DGA以动态产生联络用的网域名称(domainname),以让bot病毒得以不断尝试通过合法的网域名称系统(DomainNameSystem,DNS)服务与C2伺服器连接,进而提升整体殭尸网络的寿命。现今DNS已成为上网不可或缺的服务,因此多数的单位或使用者并不会特别关注DNS查询的流量与内容。Domain-flux即针对此一漏洞,在Bot无法连到预设的伺服器时,使其不断地连接由DGA所产生的网域名称。因此,只要骇客成功注册其中的一个网域名称,最终Bot必定可以连接上C2伺服器。由于DGA演算能在短时间内产生大量的网域名称,因而使得传统以网域名称为防堵基础的黑名单机制失效。即便相关网管人员仍能通过一些细微的线索来推测哪些网域名称可能是由DGA所产生的(例如,网域名称多为无意义的字串、网域名称过长…等),但由于DNS的流量通常很大,难以逐项检查。并且,DGA的种类繁多,其中有些演算产生的隐性特征更是难以用人眼判断。
技术实现思路
有鉴于此,本专利技术提出的评估网域名称的方法及其伺服器可用于预测所输入的原始网域名称为DGA演算所产生的机率,进而早期发现哪些网域名称可能有问题。本专利技术提供一种评估网域名称的方法,包括:取得一原始网域名称,并将原始网域名称区分为多个部分;取出前述部分中的一特定部分,其中特定部分包括至少一字元;将至少一字元编码为至少一编码数据;将至少一编码数据填补至一特定长度;将填补后的至少一编码数据投影至多个嵌入向量,其中填补后的至少一编码数据一对一地对应于前述嵌入向量;将前述嵌入向量依序输入一长短期存储模型中的多个单元,以产生一结果向量;以及通过一全连接层及一特定函数将结果向量转换为一预测机率。本专利技术提供一种伺服器,其包括存储电路及处理器。存储电路存储多个模块。处理器耦接存储电路,存取前述模块以执行以下步骤:取得一原始网域名称,并将原始网域名称区分为多个部分;取出前述部分中的一特定部分,其中特定部分包括至少一字元;将至少一字元编码为至少一编码数据;将至少一编码数据填补至一特定长度;将填补后的至少一编码数据投影至多个嵌入向量,其中填补后的至少一编码数据一对一地对应于前述嵌入向量;将前述嵌入向量依序输入一长短期存储模型中的多个单元,以产生一结果向量;以及通过一全连接层及一特定函数将结果向量转换为一预测机率。基于上述,本专利技术提出的评估网域名称方法及其伺服器可利用训练好的长短期存储(LongShortTermMemory,LSTM)模型来识别哪些网域名称可能是骇客使用DGA所产生的网域名称,进而让相关人员可及早采取相应的防备措施。为让本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。附图说明图1是类神经网络及深度学习神经网络的示意图;图2是递归神经网络的示意图;图3是依据本专利技术的一实施例示出的LSTM模型单元的示意图;图4是依据本专利技术的一实施例示出的伺服器功能方块图;图5是依据本专利技术的一实施例示出的评估网域名称的方法流程图;图6是依据本专利技术的一实施例示出的对原始网域名称进行预处理的示意图;图7是依据图6示出的嵌入层示意图;图8是依据图7示出的LSTM层示意图;图9是依据图8示出的全连接层及特定函数的示意图。附图标记说明311:遗忘阀312:输入阀313:输出阀400:伺服器402:存储电路404:处理器611:原始网域名称612:特定部分612a、612b、612c、612d、612e、612f:字元613a、613b、613c、613d、613e、613f:编码数据614:填补后的编码数据910:全连接层920:特定函数C1-C75:单元S510~S570:步骤V1-V75:输出向量VM:结果向量X1-X75:嵌入向量Z:参考值具体实施方式概略而言,本专利技术提出的方法可先基于深度学习的技术而以大量的训练数据来训练LSTM模型,再将未知的网域名称输入至LSTM模型中,以利用LSTM模型预测此未知网域名称为DGA所产生的机率。深度学习(Deeplearning)是机器学习的其中一个分支,由多层类神经网络(Neuralnetwork)建构而成。请参照图1,其是类神经网络及深度学习神经网络的示意图。如图1所示,上述类神经网络是一种模仿生物神经系统的数学模型,其通常具有数个阶层,而每个阶层中包含多个神经元(neuron)。每个神经元会先将上一层神经元的输入值乘以权重后加总,并在经过激活函数(Activationfunction)的转换后,输出至下一层。整个类神经网络的训练过程,就是为了找到最佳的权重(weight)设定,使输出结果趋近于最佳化目标。通过将数据经过多个处理层(layer)中的线性或非线性转换,能够自动获取出可以代表数据特性的特征。因此,只要架构与参数设定得宜,类神经网络的特征获取(Featureextraction)能力不仅可以省去专家进行特征工程所需花费的时间,还可以在以往机器学习一直无法突破的应用上,得到非常优异的表现,因此成为了现今最热门的研究领域之一。请参照图2,其是递归神经网络(RecurrentNeuralNetworks,RNN)的示意图。有别于一般的类神经网络,图2所示的RNN是一种可以存储的神经网络。具体而言,在一般的类神经网络中,神经元的信息只能完全由当下输入的数据贡献,但RNN除了让神经元与当下输入的数据连接之外,同时也跟过去的神经元连接,使得神经元能保有前面的存储。然而,当传统的RNN当往前连接的网络愈长时,反向传播(backpropagation)时的梯度(gradient)就愈小,因而产生梯度消失(gradientvanish)的问题,导致学习效果变差。因此,传统RNN很难学习太久之前的存储,而LSTM模型则可用于改善此问题。请本文档来自技高网
...

【技术保护点】
1.一种评估网域名称的方法,包括:/n取得原始网域名称,并将所述原始网域名称区分为多个部分;/n取出所述多个部分中的特定部分,其中所述特定部分包括至少一字元;/n将所述至少一字元编码为至少一编码数据;/n将所述至少一编码数据填补至特定长度;/n将填补后的所述至少一编码数据投影至多个嵌入向量,其中填补后的所述至少一编码数据一对一地对应于所述多个嵌入向量;/n将所述多个嵌入向量依序输入长短期存储模型中的多个单元,以产生结果向量;以及/n通过全连接层及特定函数将所述结果向量转换为预测机率。/n

【技术特征摘要】
1.一种评估网域名称的方法,包括:
取得原始网域名称,并将所述原始网域名称区分为多个部分;
取出所述多个部分中的特定部分,其中所述特定部分包括至少一字元;
将所述至少一字元编码为至少一编码数据;
将所述至少一编码数据填补至特定长度;
将填补后的所述至少一编码数据投影至多个嵌入向量,其中填补后的所述至少一编码数据一对一地对应于所述多个嵌入向量;
将所述多个嵌入向量依序输入长短期存储模型中的多个单元,以产生结果向量;以及
通过全连接层及特定函数将所述结果向量转换为预测机率。


2.根据权利要求1所述的方法,其中所述多个部分由次级网域名称、通用顶级网域名称、国家和地区顶级域名称及所述特定部分组成。


3.根据权利要求1所述的方法,其中各所述编码数据为数字。


4.根据权利要求1所述的方法,其中所述特定长度大于36,且将所述至少一编码数据填补至所述特定长度的步骤包括:
计算所述至少一编码数据的长度与所述特定长度之间的差值;以及
在所述至少一编码数据之前填补至少一特定数字,其中所述至少一特定数字的数量等于所述差值。


5.根据权利要求1所述的方法,其中所述多个单元依序串接,且所述多个单元中的第i个单元接收所述多个嵌入向量中的第i个嵌入向量及第(i-1)个单元的输出向量,并据以产生所述第i个单元的输出向量,其中i介于2及(N-1)之间,N为所述多个单元的总数。


6.根据权利要求5所述的方法,其中所述多个单元的第N个单元接收所述多个嵌入向量中的第N个嵌入向量及第(N-1)个单元的输出向量,并据以产生所述第N个单元的输出向量以作为所述结果向量。


7.根据权利要求1所述的方法,其中所述特定函数为Sigmoid函数,且通过所述全连接层及所述特定函数将所述结果向量转换为所述预测机率的步骤包括:
通过所述全连接层将所述结果向量映射为参考值;以及
通过所述Sigmoid函数将所述参考值转换为所述预测机率。


8.根据权利要求1所述的方法,其中所述预测机率代表原始网域名称是由网域生成演算所产生的机率。


9.一种...

【专利技术属性】
技术研发人员:林品铨吴君勉吴侑峻孙明功张宗铨曾奕中黄琼莹
申请(专利权)人:安碁资讯股份有限公司
类型:发明
国别省市:中国台湾;71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1