一种基于特征分类的诈骗网站识别方法技术

技术编号:20425376 阅读:25 留言:0更新日期:2019-02-23 08:34
本发明专利技术涉及网络安全技术领域,尤其涉及一种基于特征分类的诈骗网站识别方法。该方法包括以下步骤:将采集到的多个网站分别标识为安全网站和诈骗网站;将安全网站和诈骗网站中的文档分别标识为安全文档和诈骗文档;计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量,并根据词组的卡方统计量筛选得到敏感词组;计算出各文档中出现的每个敏感词组的正反向词频,作为各文档的特征向量;根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。本发明专利技术以安全网站和诈骗网站中文档的特征向量作为样本,得到用于识别网站是否为诈骗网站的BP神经网络模型,方法简单、操作方便,具有网站识别准确率高的优点。

【技术实现步骤摘要】
一种基于特征分类的诈骗网站识别方法
本专利技术涉及网络安全
,尤其涉及一种基于特征分类的诈骗网站识别方法。
技术介绍
随着互联网的快速发展,网站的规模达到海量级别。非正常、诈骗的网站数量也逐渐增多,非正常网站包括恶意网站、钓鱼网站、诈骗网站等,一般用于发布虚假中奖信息、虚假新闻、虚假招聘信息,获取用户个人隐私等,给人们和社会带来的危害不容忽视。非正常网站作为对网络安全的最大威胁之一,在网络安全中,对其进行识别是确保网络安全的重中之重。现有的网站监测或者识别技术主要是通过维护黑名单来判断用户访问的网站是否为恶意、钓鱼、诈骗网站,这种方法需要极高的人工成本进行筛选;另一种网站识别方法是通过URL(UniformResoureLocator,统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址)特征,其识别速度快,能主动发现非正常网站,但由于URL包含的信息有限,仅从URL并不能很好的判断出一个网站属于非正常网站还是正常网站,所以现在也有一些基于网站内容的网站识别方法。基于内容的网站分类涉及到文本分类,现有的文本分类技术主要流程为提取敏感关键词,计算文本中关键词的TF-IDF(termfrequency–inversedocumentfrequency,是一种用于信息检索与数据挖掘的常用加权技术)作为特征向量,然后用SVM(SupportVectorMachine,支持向量机)训练这些特征向量生成分类模型。基于这种分类模型对网站进行识别的方法存在准确率较低、误判率较高的缺点。因此,急需一种基于特征分类的诈骗网站识别方法。
技术实现思路
本专利技术提供了一种基于特征分类的诈骗网站识别方法,用于识别网站是否为诈骗网站,以解决现有技术中网站识别方法准确率低、误判率高的问题。本专利技术提供了一种基于特征分类的诈骗网站识别方法,包括以下步骤:将采集到的多个网站分别标识为安全网站和诈骗网站;将安全网站和诈骗网站中的文档分别标识为安全文档和诈骗文档;计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量,并根据词组的卡方统计量筛选得到敏感词组;计算出各文档中出现的每个敏感词组的正反向词频,作为各文档的特征向量;根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。进一步地,计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量,并根据词组的卡方统计量筛选得到敏感词组的步骤包括以下步骤:对各文档中的词组进行过滤;计算出各文档中过滤后的词组分别出现在安全网站和诈骗网站中的卡方统计量,并根据词组的卡方统计量筛选得到敏感词组。进一步地,对各文档中的词组进行过滤的步骤包括以下步骤:将各文档中的文本分别分成多个词组;对各文档中的词组进行过滤。进一步地,对各文档中的词组进行过滤的方法为:删掉停用词,停用词包括介词、语气助词。进一步地,根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型的步骤包括以下步骤:将所有文档的特征向量进行归一化处理;根据归一化处理后所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。进一步地,计算词组的卡方统计量的公式为:其中,w为词组,c为安全网站和诈骗网站中的任一,A为w出现在类别为c中的文档数,B为w出现在类别不为c中的文档数,C为w不出现在类别为c中的文档数,D为w不出现在类别不为c中的文档数,N为文档总数,χ2(w,c)为w在c中的卡方统计量。进一步地,计算敏感词组的正反向词频的公式为:TF-IDFw=TFw×IDFw(3)其中,w为词组,TFw为w的词频,IDFw为w的逆向文件词频,TF-IDFw为w的正反向词频。进一步地,还包括步骤:采集多个网站,并将各网站中每一层页面的文本作为一个文档进行存储。进一步地,采集的每个网站至少包括一个文档。进一步地,若词组的卡方统计量在预设排名内,则选取该词组为敏感词组。本专利技术提供的基于特征分类的诈骗网站识别方法,与现有技术相比具有以下进步:(1)以预先采集的安全网站和诈骗网站及其包含的文档为数据源,筛选出文档中的敏感词组,再利用敏感词组计算出各文档的特征向量,以所有文档的特征向量作为样本对BP神经网络模型进行训练,最终得到用于识别网站是否为诈骗网站的BP神经网络模型,方法简单、操作方便、易于实施,具有网站识别准确率高的优点。(2)在计算词组卡方统计量之前,先对各文档中的词组进行过滤,去除掉一些无用的词组,提高后续模型训练的工作效率,有利于提高最终BP神经网络模型建立的准确度和可靠度。(3)在训练BP神经网络模型之前,首先对所有文档的特征向量进行归一化处理,消弭误差,使最终得到的BP神经网络模型更加符合需求,易于推广和使用。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例中基于特征分类的诈骗网站识别方法的步骤图;图2为本专利技术实施例步骤300具体实施时的步骤图;图3为本专利技术实施例步骤500具体实施时的步骤图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。本实施例提供了一种基于特征分类的诈骗网站识别方法。如图1,本实施例提供了一种基于特征分类的诈骗网站识别方法,包括以下步骤:步骤200、将采集到的多个网站分别标识为安全网站和诈骗网站;步骤300、将安全网站和诈骗网站中的文档分别标识为安全文档和诈骗文档;步骤400、计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量,并根据词组的卡方统计量筛选得到敏感词组;步骤500、计算出各文档中出现的每个敏感词组的正反向词频,作为各文档的特征向量;步骤600、根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。本实施例的基于特征分类的诈骗网站识别方法,以预先采集的安全网站和诈骗网站及其包含的文档为数据源,筛选出文档中的敏感词组,再利用敏感词组计算出各文档的特征向量,以所有文档的特征向量作为样本对BP(backpropagation)神经网络模型(一种按照误差逆向传播算法训练的多层前馈神经网络)进行训练,最终得到用于识别网站是否为诈骗网站的BP神经网络模型,方法简单、操作方便本文档来自技高网
...

【技术保护点】
1.一种基于特征分类的诈骗网站识别方法,其特征在于,包括以下步骤:将采集到的多个网站分别标识为安全网站和诈骗网站;将安全网站和诈骗网站中的文档分别标识为安全文档和诈骗文档;计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量,并根据词组的卡方统计量筛选得到敏感词组;计算出各文档中出现的每个敏感词组的正反向词频,作为各文档的特征向量;根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。

【技术特征摘要】
1.一种基于特征分类的诈骗网站识别方法,其特征在于,包括以下步骤:将采集到的多个网站分别标识为安全网站和诈骗网站;将安全网站和诈骗网站中的文档分别标识为安全文档和诈骗文档;计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量,并根据词组的卡方统计量筛选得到敏感词组;计算出各文档中出现的每个敏感词组的正反向词频,作为各文档的特征向量;根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。2.根据权利要求1所述的基于特征分类的诈骗网站识别方法,其特征在于,计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量,并根据词组的卡方统计量筛选得到敏感词组的步骤包括以下步骤:对各文档中的词组进行过滤;计算出各文档中过滤后的词组分别出现在安全网站和诈骗网站中的卡方统计量,并根据词组的卡方统计量筛选得到敏感词组。3.根据权利要求2所述的基于特征分类的诈骗网站识别方法,其特征在于,对各文档中的词组进行过滤的步骤包括以下步骤:将各文档中的文本分别分成多个词组;对各文档中的词组进行过滤。4.根据权利要求3所述的基于特征分类的诈骗网站识别方法,其特征在于,对各文档中的词组进行过滤的方法为:删掉停用词,停用词包括介词、语气助词。5.根据权利要求1所述的基于特征分类的诈骗网站识别方法,其特征在于,根据所有文档的特征向...

【专利技术属性】
技术研发人员:高勇孙志猛刘善武李进孟繁瑞赵龙斌刘志会柴军民孙涛郝振江夏光升
申请(专利权)人:山东省通信管理局国家计算机网络与信息安全管理中心山东分中心天津市国瑞数码安全系统股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1