非法网站/APP自动识别方法、系统和电子装置制造方法及图纸

技术编号：27311006 阅读：39 留言：0更新日期：2021-02-10 09:34

一种非法网站/APP自动识别方法、系统和电子装置。所述非法网站/APP的自动识别方法包括：对于APP先对目标APP进行抓包，获取目标APP的请求网站，而对于请求网站则直接根据预定算法提取目标网站的文本特征；对提取的文本特征进行文本分类，将文本分类属于不合法的目标网站/APP认定为非法网站/APP。本发明专利技术通过自动化页面请求分析与机器学习模型组合，将网页文本和网站结构进行分类，从而将非法网站以及APP进行识别，可以对非法网站进行安全预警以及安全攻防，能替代人工对非法APP进行标注，可以减少人工误判。少人工误判。少人工误判。

全部详细技术资料下载

【技术实现步骤摘要】
非法网站/APP自动识别方法、系统和电子装置

[0001]本专利技术涉及计算机信息处理领域，具体而言，涉及一种非法网站和/或非法APP的自动识别方法、系统、电子设备及处理器可读存储介质。

技术介绍

[0002]随着网络技术的发展和智能手机的推广使用，网站和APP成为网络流量的主要节点，而其中一些非法网站和非法APP的出现，影响了用户的正常体验，甚至导致其出现隐私泄露和财产损失。
[0003]现有技术中，对于非法网站和非法APP(赌博、传销、色情)主要是通过人工制订黑名单来进行确定，这样会导致标记非法网站、非法APP效率低下、滞后，有很多非法的网站/APP不能及时识别。另外，采用人工输入的黑名单方式也会造成人工的浪费，以及对非法网站/APP的判断出错。

技术实现思路

[0004]有鉴于此，本专利技术的主要目的在于提供一种非法网站和/或非法APP的自动识别方法、系统、电子设备及可读存储介质，以期至少部分地解决上述技术问题。
[0005]为了实现上述技术目的，作为本专利技术的第一方面，提出了一种非法...

【技术保护点】

【技术特征摘要】
1.一种非法网站的自动识别方法，其特征在于，包括以下步骤：根据预定算法提取目标网站的文本特征；对提取的文本特征进行文本分类，将文本分类属于不合法的目标网站认定为非法网站。2.根据权利要求1所述的方法，其特征在于，对于目标网站或获取了请求网站的目标APP，均根据其网址获取返回的HTML页面，然后通过解析算法提取结构化信息，并从中提取文本特征。3.根据权利要求求1～2任一项所述的方法，其特征在于，通过解析算法提取结构化信息的步骤中，通过预定的规则将<p>标签中的不是非法网站的信息剔除掉，以便后续进行文本分类。4.根据权利要求求1～3任一项所述的方法，其特征在于，对提取的文本特征进行文本分类的步骤中，使用深度学习技术来实现文本分类。5.根据权利要求1～4任一项所述的方法，其特征在于，所述深度学习技术采用朴素贝叶斯算法、逻辑回归算法、决策树算法和/或支持向量机算法来实现二元分类。6.一种非法APP的自动识别方法，其特征在于，包括以下步骤：...

【专利技术属性】
技术研发人员：程群，张涵，
申请(专利权)人：上海淇玥信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人