一种基于自学习的深度报文解析系统技术方案

技术编号:22534878 阅读:23 留言:0更新日期:2019-11-13 11:02
本发明专利技术公开了一种基于自学习的深度报文解析系统,属于数据处理技术领域,包括:生成端和运行端,生成端包括:第一采集模块,第一解析模块,第一学习模块,第一学习模块具体包括:训练单元;上述技术方案的有益效果是:通过增加学习中枢,能够对现有网络环境中的数据进行机器学习,并把学习成果变为特征模型反馈到现有的特征库中,使特征库具备了自我更新的能力,且能与应用程序的更新速度保持同步,解决了现有技术中特征库维护量大,消耗的人力和资源大的问题,同时系统通过学习、反馈、再学习的过程,不断对现有的特征库进行自我优化,从而大大提高了特征识别的精确度。

A deep message parsing system based on self-learning

The invention discloses a deep message analysis system based on self-learning, belonging to the technical field of data processing, including: generation end and operation end, generation end including: first acquisition module, first analysis module, first learning module, and the first learning module specifically including: training unit; the beneficial effect of the above technical scheme is: through adding Learning Center, the existing network can be The data in the network environment is used for machine learning, and the learning results are transformed into feature models and fed back to the existing feature library, which enables the feature library to have the ability of self updating and keep pace with the update speed of the application program, and solves the problems of large maintenance and consumption of human and resources in the existing technology. At the same time, the system uses the process of learning, feedback and relearning To improve the accuracy of feature recognition, we constantly optimize the existing feature library.

【技术实现步骤摘要】
一种基于自学习的深度报文解析系统
本专利技术涉及数据处理
,尤其涉及一种基于自学习的深度报文解析系统。
技术介绍
DPI(深度报文解析)是一种基于数据包的深度检测技术,针对不同的网络应用层载荷进行深度检测,通过对报文的有效载荷检测决定其合法性,DPI深度报文解析系统在现有网络环境中广泛使用,该系统主要用于识别应用程序,识别虚拟身份,识别网络内容,对网络进行流量监控等
现在的互联网环境中,手机和电脑的应用程序种类繁多,层出不穷且更新速度快,特征库的更新无法保持同步,各应用程序之间进行网络通讯产生的数据量巨大,对其进行深度报文解析需要投入大量的人力进行特征库的更新和维护,耗费大量的人力资源的同时数据提取的精确度也并不是很高。
技术实现思路
根据现有技术中存在的上述问题,提供一种具备自我学习功能的深度报文解析系统,通过增加学习中枢,能够对现有网络环境中的数据进行机器学习,并把学习成果变为特征模型反馈到现有的特征库中,使特征库具备了自我更新的能力,且能与应用程序的更新速度保持同步,解决了现有技术中特征库维护量大,消耗的人力和资源大的问题,同时系统通过学习、反馈、再学习的过程,不断对现有的特征库进行自我优化,从而大大提高了特征识别的精确度。上述技术方案具体包括:一种基于自学习的深度报文解析系统,其中包括生成端和运行端,所述生成端连接所述运行端,所述生成端包括:第一采集模块,用于抓取网络中的数据报文;第一解析模块,连接所述第一采集模块,所述第一解析模块根据一预设的第一特征库对所述数据报文进行特征标记,并根据标记结果对所述数据报文进行分类存储,输出一分类结果;第一学习模块,连接所述第一解析模块,所述第一学习模块包括:训练单元,用于根据所述分类结果,将分类存储且进行特征标记的所述数据报文作为训练数据,对一特征识别模型进行第一机器学习,以形成并保存一包括所述数据报文的数据特征的第二特征库,应用所述第二特征库可对所述数据报文进行特征识别;所述运行端中包括:第二采集模块,用于抓取网络中的数据报文;第二解析模块,连接所述第二采集模块,读取所述生成端保存的所述第二特征库,对所述第二采集模块抓取的所述数据报文进行特征解析,并输出解析结果;输出模块,连接所述第二解析模块,用于将所述解析结果输出给用户使用。优选地,其中,所述第一学习模块还包括:清洗单元,连接所述训练单元,用于对所述分类结果进行数据清洗。优选地,其中,所述第一特征库为现有的DNS特征库。优选地,其中,所述第二解析模块根据所述第二特征库对所述第二采集模块抓取的所述数据报文进行特征标记,并根据标记结果对所述数据报文进行分类,输出为所述解析结果。优选地,其中,所述运行端还包括:第二学习模块,连接所述第二解析模块,根据所述解析结果,将实际识别得到的所述数据报文的所述数据特征加入所述第一特征库中,并根据所述第一特征库,实时对所述特征识别模型进行第二机器学习,以更新所述第二特征库。优选地,其中,所述第二机器学习为监督学习方式和\或强化学习方式。优选地,其中,所述第一机器学习为无监督学习方式。优选地,其中,所述第二特征库为应用程序特征库。优选地,其中,所述训练单元采用聚类算法对所述特征识别模型进行所述第一机器学习。优选地,其中,所述第二学习模块采用分类算法对所述特征识别模型进行第二机器学习。上述技术方案的有益效果是:提供一种具备自我学习功能的深度报文解析系统,通过增加学习中枢,能够对现有网络环境中的数据进行机器学习,并把学习成果变为特征模型反馈到现有的特征库中,使特征库具备了自我更新的能力,且能与应用程序的更新速度保持同步,解决了现有技术中特征库维护量大,消耗的人力和资源大的问题,同时系统通过学习、反馈、再学习的过程,不断对现有的特征库进行自我优化,从而大大提高了特征识别的精确度。附图说明图1是本专利技术的较佳实施例中,一种基于自学习的深度报文解析系统结构示意图;图2是本专利技术的较佳实施例中,于图1的基础上,第一学习模块的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面结合附图和具体实施例对本专利技术作进一步说明,但不作为本专利技术的限定。一种基于自学习的深度报文解析系统,如图1所示,其中包括生成端1和运行端2,生成端1连接运行端2,生成端1包括:第一采集模块10,用于抓取网络中的数据报文;第一解析模块11,连接第一采集模块10,第一解析模块11根据一预设的第一特征库对所述数据报文进行特征标记,并根据标记结果对所述数据报文进行分类存储,输出一分类结果;第一学习模块12,连接第一解析模块11,如图2所示,第一学习模块12具体包括:训练单元121,用于根据所述分类结果,将分类存储且进行特征标记的所述数据报文作为训练数据,对一特征识别模型进行第一机器学习,以形成并保存一包括所述数据报文的数据特征的第二特征库,应用所述第二特征库可对所述数据报文进行特征识别;所述运行端2中包括:第二采集模块20,用于抓取网络中的数据报文;第二解析模块21,连接第二采集模块20,读取生成端1保存的第二特征库,对第二采集模块20抓取的数据报文进行特征解析,并输出解析结果;输出模块22,连接第二解析模块21,用于将解析结果输出给用户使用。在本专利技术的一个具体实施例中,生成端1负责根据已有的特征库学习并建立新的特征库,该学习建立过程具体包括:第一步,在已有的深度报文解析服务器的基础上,使用现有的DNS特征库,对第一采集模块10抓取的网络中的数据报文进行DNS特征标记,并根据标记结果和目的IP地址对采集到的数据流进行分类存储。第二步,在第一学习模块12中,预先通过无监督学习算法建立一无监督学习模型,该无监督学习模型用于对采集到的数据基于进行相应的训练。第三步,将第一步分类存储的数据结果导入学习中枢也就是第一学习模块12中进行学习训练,该学习训练过程基于第二步过程中建立的无监督学习模型进行。第四步,经过第一学习模块12的训练后,生成一训练好的计算机应用程序特征库,并将该特征库导入特征库集。在本专利技术的较佳实施例中,第一学习模块12还包括:清洗单元120,连接训练单元121,用于对所述分类结果进行数据清洗。在本专利技术的一个具体实施例中,第一学习模块12还具有数据清洗的功能,用于发现并纠正分类后的数据结果中可识别的错误,其中包括:检查数据的一致性,处理数据中的无效值和缺失值,删除重复的信息等内容。在本专利技术的较佳实施例中,所述第一特征库为现有的DNS特征库。在本专利技术的较佳实施例中,第二解析模块21根据第二特征库对第二采集模块20抓取的数据报文进行特征标记,并根据标记结果对数据报文进行分类,输出为解析结果。在本专利技术的较佳实施例中,运行端2还包括:第二学习模块23,连接第二解析模块21,根据所述解析结果,将实际识别得到的所述数据报文的所述数据特征加入所述第一特征库中,并根据所述第一特征库实时对所述特征识别模型进行第本文档来自技高网...

【技术保护点】
1.一种基于自学习的深度报文解析系统,其特征在于,包括生成端和运行端,所述生成端连接所述运行端,所述生成端包括:第一采集模块,用于抓取网络中的数据报文;第一解析模块,连接所述第一采集模块,所述第一解析模块根据一预设的第一特征库对所述数据报文进行特征标记,并根据标记结果对所述数据报文进行分类存储,输出一分类结果;第一学习模块,连接所述第一解析模块,所述第一学习模块包括:训练单元,用于根据所述分类结果,将分类存储且进行特征标记的所述数据报文作为训练数据,对一特征识别模型进行第一机器学习,以形成并保存一包括所述数据报文的数据特征的第二特征库,应用所述第二特征库可对所述数据报文进行特征识别;所述运行端中包括:第二采集模块,用于抓取网络中的数据报文;第二解析模块,连接所述第二采集模块,读取所述生成端保存的所述第二特征库,对所述第二采集模块抓取的所述数据报文进行特征解析,并输出解析结果;输出模块,连接所述第二解析模块,用于将所述解析结果输出给用户使用。

【技术特征摘要】
1.一种基于自学习的深度报文解析系统,其特征在于,包括生成端和运行端,所述生成端连接所述运行端,所述生成端包括:第一采集模块,用于抓取网络中的数据报文;第一解析模块,连接所述第一采集模块,所述第一解析模块根据一预设的第一特征库对所述数据报文进行特征标记,并根据标记结果对所述数据报文进行分类存储,输出一分类结果;第一学习模块,连接所述第一解析模块,所述第一学习模块包括:训练单元,用于根据所述分类结果,将分类存储且进行特征标记的所述数据报文作为训练数据,对一特征识别模型进行第一机器学习,以形成并保存一包括所述数据报文的数据特征的第二特征库,应用所述第二特征库可对所述数据报文进行特征识别;所述运行端中包括:第二采集模块,用于抓取网络中的数据报文;第二解析模块,连接所述第二采集模块,读取所述生成端保存的所述第二特征库,对所述第二采集模块抓取的所述数据报文进行特征解析,并输出解析结果;输出模块,连接所述第二解析模块,用于将所述解析结果输出给用户使用。2.根据权利要求1所述的基于自学习的深度报文解析系统,其特征在于,所述第一学习模块还包括:清洗单元,连接所述训练单元,用于对所述分类结果进行数据清洗。3.根据权利要求1所述的基于自学习的深度报文解析系统,其特征在于,所述第一特征库为现...

【专利技术属性】
技术研发人员:裴亚可曹瑜
申请(专利权)人:上海寰创通信科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1