一种基于特征分类和情感语义分析的诈骗网站识别方法技术

技术编号:20622793 阅读:83 留言:0更新日期:2019-03-20 14:31
本发明专利技术涉及网络安全技术领域,尤其涉及一种基于特征分类和情感语义分析的诈骗网站识别方法。该方法包括以下步骤:为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;将词的序列转换为词的向量,作为特征向量;使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。本发明专利技术利用BP神经网络模型先对采集到的网站进行识别,只有在采集到的网站是诈骗网站的情况下,才对采集到的网站进行基于情感分析的判断,有利于降低误判率,提高网站识别准确率,还有利于提高用户体验,节约时间。

A Fraud Web Site Recognition Method Based on Feature Classification and Emotional Semantic Analysis

The invention relates to the technical field of network security, in particular to a fraudulent website recognition method based on feature classification and emotional semantic analysis. The method includes the following steps: adding emotional identification to each word in the collected website text, and emotional identification is either positive or negative; converting the word sequence into the vector of words as the feature vector; using the long-term and short-term memory network to train all the feature vectors to get the classification model of emotional analysis used to identify whether the website is a fraudulent website. The method uses BP neural network model to identify the collected websites first, and only when the collected websites are fraudulent websites, can the collected websites be judged based on emotional analysis, which is conducive to reducing the rate of misjudgement, improving the accuracy of website identification, improving user experience and saving time.

【技术实现步骤摘要】
一种基于特征分类和情感语义分析的诈骗网站识别方法
本专利技术涉及网络安全
,尤其涉及一种基于特征分类和情感语义分析的诈骗网站识别方法。
技术介绍
随着近年来国内互联网的发展,网站的数量日益增多。非正常、不安全的网站数量也逐渐增多,而且让人难以分辨,非正常网站包括恶意网站、钓鱼网站、诈骗网站等,一般用于发布虚假中奖信息、虚假新闻、虚假招聘信息,获取用户个人隐私等,给人们和社会带来的危害不容忽视。非正常网站作为对网络安全的最大威胁之一,在网络安全中,对其进行识别是确保网络安全的重中之重。现有的网站监测或者识别技术主要是通过维护黑名单来判断用户访问的网站是否为恶意、钓鱼、诈骗网站,这种方法需要极高的人工成本进行筛选;另一种网站识别方法是通过URL(UniformResoureLocator,统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址)特征,其识别速度快,能主动发现非正常网站,但由于URL包含的信息有限,仅从URL并不能很好的判断出一个网站属于非正常网站还是正常网站,所以现在也有一些基于网站内容的网站识别方法。基于内容的网站分类涉及到文本分类,现有的文本分类技术主要流程为提取敏感关键词,计算文本中关键词的TF-IDF(termfrequency–inversedocumentfrequency,是一种用于信息检索与数据挖掘的常用加权技术)作为特征向量,然后用SVM(SupportVectorMachine,支持向量机)训练这些特征向量生成分类模型。但是在实际情况中,有些安全、正常网站中也包含有同样的关键词和相似的词频,如“反诈骗联盟”等,由于网站中含有“诈骗”这个非安全网站的敏感词语,现有的网站识别模型也会把正常网站识别为诈骗网站。因此,为了提高网站识别的准确率,降低误判率,急需一种基于特征分类和情感语义分析的诈骗网站识别方法。
技术实现思路
本专利技术提供了一种基于特征分类和情感语义分析的诈骗网站识别方法,以解决现有技术中网站识别方法误判率高的问题。本专利技术提供了一种基于特征分类和情感语义分析的诈骗网站识别方法,包括以下步骤:为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;将词的序列转换为词的向量,作为特征向量;使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。进一步地,还包括步骤:将采集的网站中的文本输入训练好的BP神经网络模型,若输出结果为诈骗网站,则将采集的网站中的文本分成多个词,为采集的网站文本中的每一个词添加情感标识。进一步地,训练BP神经网络模型包括以下步骤:将采集到的多个网站分别标识为安全网站和诈骗网站;将安全网站和诈骗网站中的文本分别标识为安全文本和诈骗文本;计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词;计算出各文本中出现的每个敏感词的正反向词频,作为各文本的特征向量;根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。进一步地,计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词的步骤包括以下步骤:将各文本分别分成多个词;对各文本中的词进行过滤;计算出各文本中过滤后的词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词。进一步地,对各文本中的词进行过滤的方法为:删掉停用词,停用词包括介词、语气助词。进一步地,根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型的步骤包括以下步骤:将所有文本的特征向量进行归一化处理;根据所有归一化处理后文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。进一步地,计算词的卡方统计量的公式为:其中,w为词,c为安全网站和诈骗网站中的任一,A为w出现在类别为c中的文本数,B为w出现在类别不为c中的文本数,C为w不出现在类别为c中的文本数,D为w不出现在类别不为c中的文本数,N为文本总数,χ2(w,c)为w在c中的卡方统计量。进一步地,计算敏感词的正反向词频的公式为:TF-IDFw=TFw×IDFw(3)其中,w为词,TFw为w的词频,IDFw为w的逆向文件词频,TF-IDFw为w的正反向词频。进一步地,为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一的步骤包括以下步骤:对多个词进行筛选,将出现次数小于预设频率的词删除;为筛选后的每个词添加情感标识,情感标识为积极和消极中的任一。进一步地,使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型的步骤包括以下步骤:将所有特征向量进行归一化处理;使用长短期记忆网络对所有归一化处理后的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。本专利技术提供的基于特征分类和情感语义分析的诈骗网站识别方法,与现有技术相比具有以下进步:(1)先为采集到的网站中的每一个词添加情感标识,再使用长短期记忆网络对特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型,利用该情感分析分类模型对网站进行识别的结果准确率高、误判率低,且具有结构简单、操作方便的优点。(2)利用BP神经网络模型先对采集到的网站进行识别,只有在采集到的网站是诈骗网站的情况下,才对采集到的网站进行基于情感分析的判断,有利于降低误判率,提高网站识别准确率,还有利于提高用户体验,节约时间。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例中基于特征分类和情感语义分析的诈骗网站识别方法的步骤图;图2为本专利技术实施例中训练BP神经网络模型的步骤图;图3为本专利技术实施例中步骤130具体实施时的步骤图;图4为本专利技术实施例中步骤150具体实施时的步骤图;图5为本专利技术实施例中步骤200具体实施时的步骤图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。本实施例提供了一种基于特征分类和情感语义分析的诈骗网站识别方法。如图1,本实施例的基于特征分类和情感语义分析的诈骗网站识别方法,包括以下步骤:步骤200、本文档来自技高网
...

【技术保护点】
1.一种基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,包括以下步骤:为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;将词的序列转换为词的向量,作为特征向量;使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。

【技术特征摘要】
1.一种基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,包括以下步骤:为采集的网站文本中的每一个词添加情感标识,情感标识为积极和消极中的任一;将词的序列转换为词的向量,作为特征向量;使用长短期记忆网络对所有的特征向量进行训练,得到用于识别网站是否为诈骗网站的情感分析分类模型。2.根据权利要求1所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,还包括步骤:将采集的网站中的文本输入训练好的BP神经网络模型,若输出结果为诈骗网站,则将采集的网站中的文本分成多个词,为采集的网站文本中的每一个词添加情感标识。3.根据权利要求2所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,训练BP神经网络模型包括以下步骤:将采集到的多个网站分别标识为安全网站和诈骗网站;将安全网站和诈骗网站中的文本分别标识为安全文本和诈骗文本;计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词;计算出各文本中出现的每个敏感词的正反向词频,作为各文本的特征向量;根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。4.根据权利要求3所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词的步骤包括以下步骤:将各文本分别分成多个词;对各文本中的词进行过滤;计算出各文本中过滤后的词分别出现在安全网站和诈骗网站中的卡方统计量,并根据词的卡方统计量筛选得到敏感词。5.根据权利要求4所述的基于特征分类和情感语义分析的诈骗网站识别方法,其特征在于,对各文本中的词进行过滤的方法为:删掉停用词,停用词包括介词、语气助词。6.根据权利...

【专利技术属性】
技术研发人员:高勇孙志猛刘善武李进孟繁瑞赵龙斌刘志会柴军民孙涛郝振江夏光升
申请(专利权)人:山东省通信管理局国家计算机网络与信息安全管理中心山东分中心天津市国瑞数码安全系统股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1