一种反非法诱导活动方法、系统及存储介质技术方案

技术编号:35219109 阅读:14 留言:0更新日期:2022-10-15 10:35
本发明专利技术公开了一种反非法诱导活动方法、系统及存储介质,其中方法包括:利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据;对所采集的数据进行预处理,并对预处理后的数据进行特征提取;采集URL维度数据及社交维度数据,并利用提取的特征、URL维度数据及社交维度数据构建网址信誉度模型。本发明专利技术利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据,数据较为全面,以此为基础进行数据预处理及特征提取,而后结合URL维度数据及社交维度数据进行网址信誉度模型构建,提高了所构建模型的准确度,进而提高了反非法诱导活动效果。效果。效果。

【技术实现步骤摘要】
一种反非法诱导活动方法、系统及存储介质


[0001]本专利技术涉及反非法诱导活动
,尤其涉及的是一种反非法诱导活动方法、系统及存储介质。

技术介绍

[0002]对于反非法诱导活动工作而言,从涉非法诱导活动大数据中提取准确的非法诱导活动行为特征极为重要,申请公布号CN108156336A的专利技术专利申请公开了基于多特征加权模型分析话单号码的控制系统,包括:数据源,用于提供主叫号码、被叫号码和号码通话详情记录;号码特征分析模块,号码特征分析模块与数据源相连,号码特征分析模块用于分析主叫号码的行为特征和被叫号码的行为特征,并得到号码行为特征话单;非法诱导活动主叫分析模块,非法诱导活动主叫分析模块与号码特征分析模块、数据源相连,在非法诱导活动主叫分析模块内设有多特征加权模型模块,多特征加权模型模块包括属性特征分析模块、行为特征分析模块、非法诱导活动场景分析模块、属性特征分析模块、行为特征分析模块、非法诱导活动场景分析模块用于实现对号码行为特征话单中的号码进行多特征匹配,根据多特征匹配信息获得普通主叫号码和非法诱导活动主叫号码;易感被叫分析模块,易感被叫分析模块与非法诱导活动主叫分析模块、数据源相连,易感被叫分析模块用于分析非法诱导活动主叫号码和被叫号码的通话规律并获得被叫号码中的易感被叫号码和普通被叫号码。
[0003]CN108156333A所公开的防止非法诱导活动的控制系统虽然可以从属性特征、行为特征及非法诱导活动场景特征多个维度对电话非法诱导活动的非法诱导活动人员身份进行识别,但对于当前利用多方工具且以网络为主的非法诱导活动方式而言,反非法诱导活动效果较差。
[0004]申请公布号为CN113098870A的专利技术专利申请公开了一种网络非法诱导活动检测方法、装置、电子设备及存储介质,其中方法包括:获取目标网络非法诱导活动案件中,受害人在案件过程中的历史网络交互数据,其中,所述目标网络非法诱导活动案件为长时、多线上交互类型的非法诱导活动案件;对各所述目标网络非法诱导活动案件的历史网络交互数据进行特征抽取,形成与至少一个历史非法诱导活动网站匹配的网站特征信息库;获取至少一个监控用户在监控时间区间内的网络访问数据;将所述网络访问数据与所述网站特征信息库进行比对,检测在监控时间区间内访问疑似非法诱导活动网站次数超过设定门限阈值的疑似受害用户;其中,所述疑似非法诱导活动网站与所述历史非法诱导活动网站的网站特征信息满足预设的相似条件。
[0005]CN113098870A所公开的网络非法诱导活动检测方法虽然可以从历史网络交互数据中对网站非法诱导活动特征进行提取,但数据较为单一,特征提取准确度相对较低,对于当前利用多方工具且以网络为主的非法诱导活动方式而言,反非法诱导活动效果同样较差。
[0006]可见,现有技术还有待于改进和发展。

技术实现思路

[0007]鉴于上述现有技术的不足,本专利技术的目的在于提供一种反非法诱导活动方法、系统及存储介质,旨在解决现有技术对当前利用多方工具且以网络为主的非法诱导活动方式而言,反非法诱导活动效果较差的问题。
[0008]本专利技术的技术方案如下:
[0009]一种反非法诱导活动方法,其包括:
[0010]利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据,网址页面静态数据包括:文本信息、静态图片信息及跳转链接,网址页面动态数据包括:动态图片信息、JS内容及SWF内容;
[0011]对所采集的数据进行预处理,并对预处理后的文本信息进行黑白关键词提取及文本SIM Hash指纹特征提取,对预处理后的图片信息进行OCR模式识别特征提取及pHash相似度提取,对预处理后的JS内容进行静态指纹特征提取,对预处理后的SWF内容进行SWF特征提取;
[0012]采集URL维度数据,并利用提取的特征及URL维度数据构建网址信誉度模型;所述URL维度数据包括:URL特征标签、用户标记标签、域名历史信誉、Web服务器信誉、Whois信息信誉、网站备案信息、PR或ALEX信息。
[0013]上述方案的效果在于:对于一个网页而言,包含以下元素:文本、静态图片(JPG及PNG等)、动态图片(GIF及SVG等)、跳转链接(导航栏等)、JS内容(JavaScript是一种基于对象和事件驱动并具有相对安全性的客户端脚本语言,同时也是一种广泛用于客户端Web开发的脚本语言,常用来给HTML网页添加动态功能,比如响应用户的各种操作)及SWF内容(SWF是动画设计软件Flash的专用格式,是一种支持矢量和点阵图形的动画文件格式,被广泛应用于网页设计,动画制作等领域,swf文件通常也被称为Flash文件)。本专利技术利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据,对于同一网页的内容而言,采集的数据较为全面;但对于非法诱导活动行为而言,通常是跨页面操作的,在实现页面之间跳转的时候,经常要使用一些URL,因此本专利技术还采集URL维度数据,结合网页静态内容、动态内容所提取的特征及URL维度数据进行网址信誉度模型构建,提高了所构建模型的准确度,提高了非法诱导活动行为识别的准确度,进而提高了反非法诱导活动效果。
[0014]在进一步地优选方案中,所述采集URL维度数据,并利用提取的特征及URL维度数据构建网址信誉度模型的步骤具体为:采集URL维度数据及网页传播数据,并利用提取的特征、URL维度数据及网页传播数据构建网址信誉度模型。
[0015]上述方案的效果在于:当前的非法诱导活动方式多数利用多方工具且以网络为主,因此网页在社交软件的传播数据对于网址信誉度模型的构建较为关键,本专利技术利用网页传播数据对网址信誉度模型进行辅助性构建,进一步提高了所构建模型的准确度,提高了非法诱导活动行为识别的准确度。
[0016]在进一步地优选方案中,所述网页传播数据包括:网页传播设备信誉数据、IPC信誉数据、网页传播热度及网页传播广度。
[0017]上述方案的效果在于:IPC(Internet Content Provider,即网络内容提供商),网页传播设备信誉、IPC信誉、传播热度及传播广度是网页传播数据的几个重要因素,本专利技术
采集这几个方面的数据可解决网页本身数据不足以构建高准确度网址信誉度模型的问题。
[0018]在进一步地优选方案中,所述采集URL维度数据及网页传播数据,并利用提取的特征、URL维度数据及网页传播数据构建网址信誉度模型的步骤具体为:采集URL维度数据、网页传播数据及网页信誉数据,并利用提取的特征、URL维度数据、网页传播数据及网页信誉数据构建网址信誉度模型。
[0019]上述方案的效果在于:非法诱导活动群体通常先电话群呼撒网,而后添加受害者社交软件账号,通过社交软件播放语音给受害者洗脑,最后发送虚假链接完成非法诱导;整个过程涉及到的作案工具有:电话/虚拟电话、社交软件及虚假链接多方工具,因此本专利技术还采用网页信誉数据对网址信誉度模型进行辅助性构建,进一步提高了所构建模型的准确度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种反非法诱导活动方法,其特征在于,包括:利用静态内容爬虫技术及动态Webkit蜜罐技术分别采集网址页面静态数据及动态数据,网址页面静态数据包括:文本信息、静态图片信息及跳转链接,网址页面动态数据包括:动态图片信息、JS内容及SWF内容;对所采集的数据进行预处理,并对预处理后的文本信息进行黑白关键词提取及文本SIM Hash指纹特征提取,对预处理后的图片信息进行OCR模式识别特征提取及pHash相似度提取,对预处理后的JS内容进行静态指纹特征提取,对预处理后的SWF内容进行SWF特征提取;采集URL维度数据,并利用提取的特征及URL维度数据构建网址信誉度模型;所述URL维度数据包括:URL特征标签、用户标记标签、域名历史信誉、Web服务器信誉、Whois信息信誉、网站备案信息、PR或ALEX信息。2.根据权利要求1所述的反非法诱导活动方法,其特征在于,所述采集URL维度数据,并利用提取的特征及URL维度数据构建网址信誉度模型的步骤具体为:采集URL维度数据及网页传播数据,并利用提取的特征、URL维度数据及网页传播数据构建网址信誉度模型。3.根据权利要求2所述的反非法诱导活动方法,其特征在于,所述网页传播数据包括:网页传播设备信誉数据、IPC信誉数据、网页传播热度及网页传播广度。4.根据权利要求3所述的反非法诱导活动方法,其特征在于,所述采集URL维度数据及网页传播数据,并利用提取的特征、URL维度数据及网页传播数据构建网址信誉度模型的步骤具体为:采集URL维度数据、网页传播数据及网页信誉数据,并利用提取的特征、URL维度数据、网页传播数据及网页信誉数据构建网址信誉度模型。5.根据权利要求4所述的反非法诱导活动方法,其特征在于,所述网页信誉数据包括:垃圾短信、Spam邮件、恶意PE、恶意APK、非法诱导活动电话及IM垃圾...

【专利技术属性】
技术研发人员:马庆贺高磊
申请(专利权)人:深圳安巽科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1