一种用于公众有害信息的识别方法技术

技术编号:24456544 阅读:34 留言:0更新日期:2020-06-10 15:43
本发明专利技术公开了一种用于公众有害信息的识别方法,所述识别方法包括如下步骤,S1、利用已知的各种类型的有害页面和正常页面组成第一训练数据集;S2、分解所述第一训练数据集中的各个数据,构建第一DOM树;S3、使用第一训练数据集中的各个数据在所述第一DOM树上循环遍历,根据第一训练数据集中数据的特征获取第一模型,根据第一训练数据集中数据的文字内容获取第二模型,根据第一训练数据集中数据的文字内容的特征获取第三模型;S4、利用未知网页组成第二训练数据集;等步骤。优点是:识别方法综合运用机器学习以及深度学习技术对未知页面中的文字进行判别,对信息进行多重识别,提高了识别准确率;此外,对于疑似有害页面可以做出预警,方便人工审查。

A recognition method for public harmful information

【技术实现步骤摘要】
一种用于公众有害信息的识别方法
本专利技术涉及互联网有害信息识别领域,尤其涉及一种用于公众有害信息的识别方法。
技术介绍
随着互联网技术的发展,越来越多的用户可以通过PC、手机、PAD等终端接入互联网。由于普通互联网用户不具备专业的技术知识,所以很容易受到有害信息的侵蚀,比如正常网页跳转到欺诈页面、网页中隐藏赌博链接、非法广告信息等。此外,极少部分别有用心的作者还会通过互联网散播色情、涉政、敏感等非法信息,从中牟利。因此,如何识别以上有害信息,净化网络成为目前的重点。目前互联网中针对有害信息的识别比较常用的手段有:1.添加关键词,通过关键词匹配的形式来进行识别和过滤。2.利用常用的机器学习方法训练色情、宗教、血腥等有害信息模型,然后进行预测。以上两种方法能解决部分问题,但无法覆盖复杂多样的互联网数据。比如,关键词匹配无法适应文字适度变换的情况,针对某个关键词,想要扩大识别范围只能穷举所有的变换,效率低下;训练色情、宗教等分类模型只考虑到HTML中的文字,对于HTML中含有恶意跳转代码或者隐藏信息无能为力。r>
技术实现思路
...

【技术保护点】
1.一种用于公众有害信息的识别方法,其特征在于:所述识别方法包括如下步骤,/nS1、利用已知的各种类型的有害页面和正常页面组成第一训练数据集;/nS2、分解所述第一训练数据集中的各个数据,构建第一DOM树;/nS3、使用第一训练数据集中的各个数据在所述第一DOM树上循环遍历,根据第一训练数据集中数据的特征获取第一模型,根据第一训练数据集中数据的文字内容获取第二模型,根据第一训练数据集中数据的文字内容的特征获取第三模型;/nS4、利用未知网页组成第二训练数据集;/nS5、分解所述第一训练数据集中的各个数据,构建第二DOM树;/nS6、使用第二训练数据集中的各个数据在所述第二DOM树上循环遍历,将...

【技术特征摘要】
1.一种用于公众有害信息的识别方法,其特征在于:所述识别方法包括如下步骤,
S1、利用已知的各种类型的有害页面和正常页面组成第一训练数据集;
S2、分解所述第一训练数据集中的各个数据,构建第一DOM树;
S3、使用第一训练数据集中的各个数据在所述第一DOM树上循环遍历,根据第一训练数据集中数据的特征获取第一模型,根据第一训练数据集中数据的文字内容获取第二模型,根据第一训练数据集中数据的文字内容的特征获取第三模型;
S4、利用未知网页组成第二训练数据集;
S5、分解所述第一训练数据集中的各个数据,构建第二DOM树;
S6、使用第二训练数据集中的各个数据在所述第二DOM树上循环遍历,将第二训练数据集中数据的特征作为所述第一模型的输入,获取第一结果;将第二训练数据集中数据的文字内容作为第二模型的输入,获取第二结果;将第二训练数据集中数据的文字内容的特征作为第三模型的输入,获取第三结果;通过判定第一结果、第二结果和第三结果,进而获取未知页面是否是有害页面。


2.根据权利要求1所述的用于公众有害信息的识别方法,其特征在于:按照HTMLDTD4.0规范分解第一训练数据集和第二训练集,分别获取第一DOM树和第二DOM树。


3.根据权利要求2所述的用于公众有害信息的识别方法,其特征在于:步骤S3具体包括如下内容,
S31、将所述第一训练数据集中的各个数据在所述第一DOM树上进行循环遍历,抽取并计算第一训练数据集中各个数据的设定数量的特征,组成维数为设定数量的特征向量,利用机器学习算法对所述特征向量进行训练,获取第一模型;
S32、将第一训练数据集中的各个数据在所述第一DOM树上进行遍历,得到所有数据的文字内容,对文字内容进行文本处理之后,获取第一保留数据;利用TF-IDF选取所述第一保留数据中的特征,并采用LogisticsRegression进行分类训练,获取第二模型;用Word2Vector对所述第一保留数据进行向量化,用Text-CNN进行分类训练,获取第三模型。


4.根据权利要求3所述的用于公众有害信息的识别方法,其特征在于:步骤S6具体包括两种判定方式,分别为,
A、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历,抽取并计算第二训练数据集中各个数据的设定数量的特征,组成维数为设定数量的第二特征向量,将所述第二向量作为所述第一模型的输入,获取第一结果,判断第一结果是否为存在有害特征,若是,则判定未知网页为有害网页,若否,则判定未知网页为正常网页;
B、将第二训练数据集中的各个数据在所述第二DOM树上进行循环遍历,得到所有数据的文字内容,记为第一文本信息;对所述第一文本信息进行拼音转汉字操作之后,去掉其中的符号,记为第二文本信息;将所述第一文本信息和所述第二文本信息合并为目标文本信息;
加载有害信息拼音库,建立对应的Double-ArrayTrie树,对所述第二文本信息进行汉字转拼音操作,利用Double-ArrayTrie树进行多模匹配,若匹配成功,则判定未知页面为疑似有害网页;否则,执行后续操作;
将所述目标文本信息经过文本处理之后,获取第二保留数据,采用第二模型的特征词表对第二保留数据进行向量化,并将向量化...

【专利技术属性】
技术研发人员:王礼鑫郭西念
申请(专利权)人:中国搜索信息科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1