一种基于特征分类的诈骗网站识别方法技术

技术编号：20425376 阅读：25 留言：0更新日期：2019-02-23 08:34

本发明专利技术涉及网络安全技术领域，尤其涉及一种基于特征分类的诈骗网站识别方法。该方法包括以下步骤：将采集到的多个网站分别标识为安全网站和诈骗网站；将安全网站和诈骗网站中的文档分别标识为安全文档和诈骗文档；计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量，并根据词组的卡方统计量筛选得到敏感词组；计算出各文档中出现的每个敏感词组的正反向词频，作为各文档的特征向量；根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。本发明专利技术以安全网站和诈骗网站中文档的特征向量作为样本，得到用于识别网站是否为诈骗网站的BP神经网络模型，方法简单、操作方便，具有网站识别准确率高的优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征分类的诈骗网站识别方法
本专利技术涉及网络安全
，尤其涉及一种基于特征分类的诈骗网站识别方法。
技术介绍
随着互联网的快速发展，网站的规模达到海量级别。非正常、诈骗的网站数量也逐渐增多，非正常网站包括恶意网站、钓鱼网站、诈骗网站等，一般用于发布虚假中奖信息、虚假新闻、虚假招聘信息，获取用户个人隐私等，给人们和社会带来的危害不容忽视。非正常网站作为对网络安全的最大威胁之一，在网络安全中，对其进行识别是确保网络安全的重中之重。现有的网站监测或者识别技术主要是通过维护黑名单来判断用户访问的网站是否为恶意、钓鱼、诈骗网站，这种方法需要极高的人工成本进行筛选；另一种网站识别方法是通过URL(UniformResoureLocator，统一资源定位符，是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址)特征，其识别速度快，能主动发现非正常网站，但由于URL包含的信息有限，仅从URL并不能很好的判断出一个网站属于非正常网站还是正常网站，所以现在也有一些基于网站内容的网站识别方法。基于内容的网站分类涉及到文本分类，现有的文本分类技术主要流程为提取敏感关键词，计算文本中关键词的TF-IDF(termfrequency–inversedocumentfrequency，是一种用于信息检索与数据挖掘的常用加权技术)作为特征向量，然后用SVM(SupportVectorMachine，支持向量机)训练这些特征向量生成分类模型。基于这种分类模型对网站进行识别的方法存在准确率较低、误判率较高的缺点。因此，急需一种基于特征分类的诈骗...

【技术保护点】
1.一种基于特征分类的诈骗网站识别方法，其特征在于，包括以下步骤：将采集到的多个网站分别标识为安全网站和诈骗网站；将安全网站和诈骗网站中的文档分别标识为安全文档和诈骗文档；计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量，并根据词组的卡方统计量筛选得到敏感词组；计算出各文档中出现的每个敏感词组的正反向词频，作为各文档的特征向量；根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。

【技术特征摘要】
1.一种基于特征分类的诈骗网站识别方法，其特征在于，包括以下步骤：将采集到的多个网站分别标识为安全网站和诈骗网站；将安全网站和诈骗网站中的文档分别标识为安全文档和诈骗文档；计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量，并根据词组的卡方统计量筛选得到敏感词组；计算出各文档中出现的每个敏感词组的正反向词频，作为各文档的特征向量；根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。2.根据权利要求1所述的基于特征分类的诈骗网站识别方法，其特征在于，计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量，并根据词组的卡方统计量筛选得到敏感词组的步骤包括以下步骤：对各文档中的词组进行过滤；计算出各文档中过滤后的词组分别出现在安全网站和诈骗网站中的卡方统计量，并根据词组的卡方统计量筛选得到敏感词组。3.根据权利要求2所述的基于特征分类的诈骗网站识别方法，其特征在于，对各文档中的词组进行过滤的步骤包括以下步骤：将各文档中的文本分别分成多个词组；对各文档中的词组进行过滤。4.根据权利要求3所述的基于特征分类的诈骗网站识别方法，其特征在于，对各文档中的词组进行过滤的方法为：删掉停用词，停用词包括介词、语气助词。5.根据权利要求1所述的基于特征分类的诈骗网站识别方法，其特征在于，根据所有文档的特征向...

【专利技术属性】
技术研发人员：高勇，孙志猛，刘善武，李进，孟繁瑞，赵龙斌，刘志会，柴军民，孙涛，郝振江，夏光升，
申请(专利权)人：山东省通信管理局，国家计算机网络与信息安全管理中心山东分中心，天津市国瑞数码安全系统股份有限公司，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人