一种网站画像方法技术

技术编号:16761423 阅读:58 留言:0更新日期:2017-12-09 05:22
一种网站画像方法涉及信息技术领域,尤其是网络管控方向的技术领域。本发明专利技术通过对爬虫数据、域名注册数据、网站接入数据、域名权威解析数据、DNS日志数据、网站备案数据、黑名单及违法违规数据、网络安全事件数据、诈骗网站信息库、恶意网站信息库数据进行有效聚合,打破数据孤岛,提炼出网站在世界范围内的影响力排名、在中国范围内影响力排名、违规历史、网站年龄、备案状态、所属行业等属性,作为网站画像模型的输入,最后形成影响力指数、违规风险指数、所属行业等完整画像。

A method of Web portraits

A method of Web portraits involves the field of information technology, especially the technical field of the direction of network control and control. The present invention through effective aggregation of crawler data, domain name registration data, website access data, domain authority analytical data, DNS data, site record data, blacklist and illegal data, network security event data, fraud website information database, information database data into a malicious web site, break the data island, refine the influence in the website in the world rankings, ranking and influence in the China within the scope of history, age, record of illegal site status, industry attributes, as the site of portrait model input, and finally the formation of influence index, risk index, illegal industry complete portrait.

【技术实现步骤摘要】
一种网站画像方法
本专利技术涉及信息
,尤其是互联网管控方向的

技术介绍
目前,存在各种各样与网站相关的孤立数据源。如何整合这些数据源,进行聚合分析,建立网站画像模型,提炼出对网站的全方位画像,就成为行业监管部门关注的焦点。通过行业监管部门的现有系统或技术手段可以拿到爬虫数据、域名注册数据、网站接入数据、域名权威解析数据、DNS日志数据、网站备案数据、违法违规及黑名单数据、网络安全事件数据、诈骗网站信息库数据、恶意网站信息库数据等。但各个数据源之间都是孤立的,存在数据孤岛问题。本专利技术通过聚合多个数据源,打破数据孤岛,形成一个针对网站的360度视觉,包括他们行为和事件的实时分析,形成对网站的精准、丰富的画像。同时结合机器学习,对画像后的网站进行进一步分析与预测,为行业监管部门的工作提供重要参考。本专利技术涉及的数据源说明:爬虫数据:通过网络爬虫可以获取网站内容数据,并对内容进行分类,获取网站所属行业信息;域名注册信息:获得域名注册信息,例如注册时间、过期时间、注册人等;网站接入数据:获得网站接入IP、接入商、接入机房等信息;域名权威解析数据:获得域名权威解析信息,例本文档来自技高网...
一种网站画像方法

【技术保护点】
一种网站画像方法,其特征在于包括以下步骤:数据源采集与融合,数据挖掘,网站画像;数据源采集与融合步骤对爬虫数据、域名注册数据、网站接入数据、域名权威解析数据、DNS日志数据、网站备案数据、黑名单及违法违规数据、网络安全事件数据、诈骗网站信息库、恶意网站信息库数据进行有效聚合,打破数据孤岛;数据挖掘步骤根据网站状态、解析状态、网站年龄、网站注册商变化频度、网站接入商变化频度、网站权威解析商变化频度、网站备案状态、网站诈骗史、网站违规史、网站是否进入黑名单、网站是否存在恶意行为、网站接入信息和注册人信息真实性作为输入项进行建模,形成网站的综合信用指数;数据挖掘步骤对网站的访问量信息进行排名,同时结...

【技术特征摘要】
1.一种网站画像方法,其特征在于包括以下步骤:数据源采集与融合,数据挖掘,网站画像;数据源采集与融合步骤对爬虫数据、域名注册数据、网站接入数据、域名权威解析数据、DNS日志数据、网站备案数据、黑名单及违法违规数据、网络安全事件数据、诈骗网站信息库、恶意网站信息库数据进行有效聚合,打破数据孤岛;数据挖掘步骤根据网站状态、解析状态、网站年龄、网站注册商变化频度、网站接入商变化频度、网站权威解析商变化频度、网站备案状态、网站诈骗史、网站违规史、网站是否进入黑名单、网站是否存在恶意行为、网站接入信息和注册人信息真实性作为输入项进行建模,形成网站的综合信用指数;数据挖掘步骤对网站的访问量信息进行排名,同时结合网站存活时间、网站年龄等作为输入,形成网站的影响力指数;网站画像步骤生成网站特征标签进行标记,综合网站特征标签以及综合信用指数、影响力指数,形成对网站的全方位画像;一种网站画像方法,其具体实施步骤如下:1).数据源采集与融合(1)采集爬虫数据:通过网络爬虫可以获取网站内容数据,并对内容进行分类,获取网站所属行业信息,并分析网站是否存在挂马;(2)采集域名注册信息:获取域名注册信息,包括注册时间、过期时间、注册单位、地址、域名状态;(3)采集网站接入数据:获取网站接入IP、接入商、接入机房信息;(4)采集域名权威解析数据:获取域名权威解析信息,包括IP地址、解析状态、托管起止时间等;(5)采集DNS日志数据:通过在DNS节点部署探针,对流量进行镜像,采集UDP协议的响应包,并从数据中提取DNS六元组,DNS六元组包括:别名记录CNAME、源IP、目的IP、解析IP、域Domain,访问时间;(6)采集网站备案数据:获取网站备案单位名称、地址、备案状态;(7)采集违法违规及黑名单网站数据:获取违法违规及黑名单网站信息;(8)建立网络安全事件信息库:获取存在网络安全问题的网站列表信息;(9)建立诈骗网站信息库:获取目前已知的诈骗网站列表;(10)建立恶意网站信息库:获取恶意网站信息列表;2).数据挖掘(1)综合爬虫数据、域名注册信息、网站接入数据、域名权威解析数据、DNS日志数据、网站备案数据、违法违规及黑名单网站数据、网络安全事件信息库、诈骗网站信息库、恶意网站信息库形成完整的网站信息库;(2)将完整的网站信息库中的数据进行核验比对,将核验存...

【专利技术属性】
技术研发人员:林飞程红赵喜荣梁浩毛俊
申请(专利权)人:北京亚鸿世纪科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1