【技术实现步骤摘要】
一种基于网页内容的应用识别方法
[0001]本专利技术涉及油田网络数据处理
,特别涉及一种基于网页内容的应用识别方法。
技术介绍
[0002]近年来,随着胜利油田信息化建设步伐的加快,越来越多的油田相关应用部署在局域网上,对于油田网络管理人员,由于应用系统IP变化频繁,很难发现局域网上所有的应用系统,所以很难监测某些应用是否存在问题。研究如何提高局域网上的应用系统发现率,可以减少管理人员人工筛查量,提升工作效率,对于油田应用统一管理和维护具有重要作用。
[0003]应用发现技术是解决企业内部网络应用管理问题的关键技术,一方面可以发现隐藏应用,提高管理人员的工作效率,另一方面可以发现存在的不合理应用,进一步规范网络空间,提升应用服务器效率。
[0004]目前,对于网络中应用发现主要通过对抓取流量分析的方式,需要用户使用特定仪器抓取网关路由器上流经的流量数据,对流量数据中的报文数据通过分类技术进行甄别,但是这种方法需要特定仪器且对应用发现的识别率低。
[0005]现有应用发现技术主要利用网络流量信息 ...
【技术保护点】
【技术特征摘要】
1.一种基于网页内容的应用发现方法,其特征在于,该方法包括以下步骤:步骤1,获取油田局域网中的网页链接;步骤2,对所述网页链接进一步爬取获取网页内容;步骤3,对所述网页内容提取特征;步骤4,建立网页分类模型,为网络管理人员提供辅助决策信息。2.根据权利要求1所述的基于网页内容的应用发现方法,其特征在于,所述步骤1中所述获取油田局域网中的网页链接,具体包括:运行针对油田局域网的网页链接发现爬虫程序;在油田局域网内爬取尽可能多的网页链接;将爬取到的网页链接数据保存到本地。3.根据权利要求1所述的基于网页内容的应用发现方法,其特征在于,在步骤2中,所述对所述网页链接进一步爬取获取网页内容具体包括:对所有网页链接进行二次爬取,提取网页内文本和图片信息,保存到本地。4.根据权利要求1所述的基于网页内容的应用发现方法,其特征在于,在步骤3中,所束缚对所述网...
【专利技术属性】
技术研发人员:任恩茂,杨耀忠,刘宝军,董琰,史纪强,刘磊,谢丽娟,苗勇,
申请(专利权)人:中国石油化工股份有限公司胜利油田分公司物探研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。