The invention relates to the technical field of network security, in particular to a fraudulent website recognition method based on feature classification and emotional semantic analysis. The method includes the following steps: adding emotional identification to each word in the collected website text, and emotional identification is either positive or negative; converting the word sequence into the vector of words as the feature vector; using the long-term and short-term memory network to train all the feature vectors to get the classification model of emotional analysis used to identify whether the website is a fraudulent website. The method uses BP neural network model to identify the collected websites first, and only when the collected websites are fraudulent websites, can the collected websites be judged based on emotional analysis, which is conducive to reducing the rate of misjudgement, improving the accuracy of website identification, improving user experience and saving time.
【技术实现步骤摘要】
一种基于特征分类和情感语义分析的诈骗网站识别方法
本专利技术涉及网络安全
,尤其涉及一种基于特征分类和情感语义分析的诈骗网站识别方法。
技术介绍
随着近年来国内互联网的发展,网站的数量日益增多。非正常、不安全的网站数量也逐渐增多,而且让人难以分辨,非正常网站包括恶意网站、钓鱼网站、诈骗网站等,一般用于发布虚假中奖信息、虚假新闻、虚假招聘信息,获取用户个人隐私等,给人们和社会带来的危害不容忽视。非正常网站作为对网络安全的最大威胁之一,在网络安全中,对其进行识别是确保网络安全的重中之重。现有的网站监测或者识别技术主要是通过维护黑名单来判断用户访问的网站是否为恶意、钓鱼、诈骗网站,这种方法需要极高的人工成本进行筛选;另一种网站识别方法是通过URL(UniformResoureLocator,统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址)特征,其识别速度快,能主动发现非正常网站,但由于URL包含的信息有限,仅从URL并不能很好的判断出一个网站属于非正常网站还是正常网站,所以现在也有一些基于网站内容的网站识别方法。基于内容的网站分类涉及到文本分类,现有的文本分类技术主要流程为提取敏感关键词,计算文本中关键词的TF-IDF(termfrequency–inversedocumentfrequency,是一种用于信息检索与数据挖掘的常用加权技术)作为特征向量,然后用SVM(SupportVectorMachine,支持向量机)训练这些特征向量生成分类模型。但是在实际情况中,有些安全、正常网站中也包含有同样的 ...
【技术保护点】
1.一种基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,包括以下步骤:为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;将词的序列转换为词的向量,作为特征向量;使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。
【技术特征摘要】
1.一种基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,包括以下步骤:为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;将词的序列转换为词的向量,作为特征向量;使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。2.根据权利要求1所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,还包括步骤:将采集的网站中的文本输入训练好的BP神经网络模型,若输出结果为诈骗网站,则将采集的网站中的文本分成多个词,为采集的网站文本中的每一个词添加情感标识。3.根据权利要求2所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,训练BP神经网络模型包括以下步骤:将采集到的多个网站分别标识为安全网站和诈骗网站;将安全网站和诈骗网站中的文本分别标识为安全文本和诈骗文本;计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词;计算出各文本中出现的每个敏感词的正反向词频,作为各文本的特征向量;根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。4.根据权利要求3所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词的步骤包括以下步骤:将各文本分别分成多个词;对各文本中的词进行过滤;计算出各文本中过滤后的词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词。5.根据权利要求4所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,对各文本中的词进行过滤的方法为:删掉停用词,停用词包括介词、语气助词。6.根据权利...
【专利技术属性】
技术研发人员:高勇,孙志猛,刘善武,李进,孟繁瑞,赵龙斌,刘志会,柴军民,孙涛,郝振江,夏光升,
申请(专利权)人:山东省通信管理局,国家计算机网络与信息安全管理中心山东分中心,天津市国瑞数码安全系统股份有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。