一种字符串匹配库获取网络流量业务分析方法及装置制造方法及图纸

技术编号:24333890 阅读:64 留言:0更新日期:2020-05-29 21:13
本发明专利技术提供了一种字符串匹配库获取方法及装置,包括:获取互联网用户历史上网流量信息;分析每条用户历史上网流量信息,得出第一历史字符串集,所述第一历史字符串集包括第一历史字符串;将所述第一历史字符串集中相同的第一历史字符串合并,将合并的第一历史字符串使用流量相加,得出第二历史字符串集,所述第二历史字符串集包括第二历史字符串;对得出的第二历史字符串依据流量大小进行排名;分析所述第二历史字符串对应业务;将所述第二历史字符串对应业务标记在第二历史字符串上,生成第三历史字符串集;将第三历史字符串集作为字符串匹配库。本发明专利技术提供了一种网络流量业务分析方法及装置,用于快速识别出用户流量信息对应的具体业务。

An analysis method and device for obtaining network traffic from string matching database

【技术实现步骤摘要】
一种字符串匹配库获取网络流量业务分析方法及装置
本专利技术涉及通信领域,尤其涉及一种字符串匹配库获取网络流量业务分析方法及装置。
技术介绍
近年来,随着互联网的迅猛发展,越来越多的新型网络应用逐渐兴起,网络规模不断扩大,为了满足人们日常工作和生活的需求,网络组成也越来越复杂。网络流量业务分析是通信领域的重要分支。互联网流量的深入分析研究对于网络扩容和优化、网络安全、上层用户行为分析等具有重要意义。近年来,互联网的持续演进和发展给流网络流量业务分析带来新的问题和挑战。时至今日,互联网流量业务识别分析的方法已比较成熟,但传统深度报文检测(DPI,DeepPacketInspection)技术业务识别只识别用户使用什么应用程序(APP,Application),并不能具体识别用户使用APP的具体操作行为。例如传统DPI能识别出用户在观看爱奇艺视频,但对于用户具体的行为,如浏览片源、观看影片的类型、观看影片时的清晰度等这些详细信息,往往没有做具体识别。因此,本领域亟需一种字符串匹配库获取网络流量业务分析方法及装置。因此,有鉴于此,提出本专利技术。
技术实现思路
本专利技术的目的在于提供一种字符串匹配库获取网络流量业务分析方法及装置,以解决上述至少一个技术问题。本专利技术一方面提供了一种字符串匹配库获取方法,包括:获取互联网用户历史上网流量信息;分析每条用户历史上网流量信息,删除所述每条用户历史上网流量信息中的默认值,得出第一历史字符串集,所述第一历史字符串集包括第一历史字符串;将所述第一历史字符串集中相同的第一历史字符串合并为一条,将合并的第一历史字符串使用流量相加,得出第二历史字符串集,所述第二历史字符串集包括第二历史字符串;对得出的第二历史字符串依据流量大小进行排名;分析所述第二历史字符串对应业务;将所述第二历史字符串对应业务标记在第二历史字符串上,生成第三历史字符串集;将第三历史字符串集作为字符串匹配库。采用上述方案,快速对所述互联网用户历史上网流量信息进行加工,提取出有效样本,减少样本数量,提高加工速度,减少需要分析对应业务时需要分析的样本数量,一方面提高了样本分析速度,提高工作效率,另一方面为后期在字符串匹配库匹配时需要检索的样本数量,通过对第二历史字符串依据流量大小进行排名,分析出流量占比,流量占比大的,被匹配到的概率大,再次提高后期在字符串匹配库匹配时的效率。进一步地,所述删除所述每条用户历史上网流量信息中的默认值包括,删除所述每条用户历史上网流量信息中的用户个人信息,所述用户个人信息包括用户账户和密码。采用上述方案,剔除所述用户流量信息中的用户个人信息,使说所述用户流量信息仅能提取出所述用户流量信息中的业务信息,提高所述第一流量字符串中的信息与业务对应的相关度,避免用户个人信息对业务分析的影响。进一步地,所述第一历史字符串包括第一历史子字符,所述将所述第一历史字符串集中相同的第一历史字符串合并为一条包括,将所述第一历史子字符相同的第一历史字符串合并。进一步地,所述将所述第一历史子字符相同的第一历史字符串合并包括,分析所述第一历史字符串的第一历史子字符数量;分析所述第一历史字符串的第一历史子字符类型;分析所述第一历史字符串的第一历史子字符排列方法;将第一历史字符串集中对以上三项均满足的第一历史字符串合并,生成第二历史字符串集,所述第二历史字符串包括合并和未合并的第一历史字符串。采用上述方案,对合并的方法清楚简单,通过对子字符的分析,准确的将对应同一业务的第一历史字符串合并,一方面减少了合并难度,另一方面提升了合并准确性,避免将不同业务的第一历史字符串合并,造成系统错误。优选地,所述对得出的第二历史字符串依据流量大小进行排名包括,依据第二历史字符串的流量,按照从大到小的方式将第二历史字符串进行排列。采用上述方案,对于第二历史字符中占流量较多的在后期被检索到的概率较大,提高后期检索效率,提高工作效率。进一步地,所述分析所述第二历史字符串对应业务包括,获取所述第二历史字符串;判断所述第二历史字符串是否为互联网协议(IP,InternetProtocol)形式域名,若否,读取域名的备案信息库中信息或域名对应网页内容中信息,若是,读取域名对应网页内容中信息;通过备案信息库中信息或网页内容中信息,获取相应报文;通过报文确定所述第二历史字符串对应业务。采用上述方案,解决了对于IP形式域名难以识别的问题,对于非IP形式域名采取两种可行的方式分析域名对应业务,又通过报文确定对应业务,精确分析出各种形式域名对应的业务,精确可靠,提高业务分析准确度。本专利技术另一方面提供了一种网络流量业务分析方法,包括:接收用户流量信息;分析用户流量信息,删除所述用户流量信息中的默认值,得出第一流量字符串;判断字符串匹配库中是否存在与所述第一流量字符串匹配的第二流量字符串;若是,接收与所述第一流量字符串匹配的第二流量字符串;确定所述第二流量字符串对应业务;确定所述第一流量字符串对应业务,确定所述用户流量信息对应业务;若否,判断所述第一流量字符串是否为互联网协议(IP,InternetProtocol)形式域名;若是,读取域名对应网页内容中信息;若否,读取域名的备案信息库中信息或域名对应网页内容中信息,通过备案信息库中信息或网页内容中信息,获取相应报文;通过报文确定所述第一流量字符串对应业务。采用上述方案,将所述用户流量信息中的默认值去除,加强所述流量信息的识别度,是用户流量信息更加具体,通过与所述第二流量字符串进行匹配,通过已知的第二流量字符串,通过识别所述第二流量字符串对应的业务,可以快速识别出用户流量信息对应的具体业务,能够方便快捷识别用户具体业务,提高识别准确性。进一步地,所述通过报文确定所述第一流量字符串对应业务还包括,记录所述第一流量字符串和所述第一流量字符串对应业务,并添加进所述字符串匹配库中。采用上述方案,增大所述字符串匹配库容量,方便下一次匹配,提高工作效率。优选地,所述删除所述用户流量信息中的默认值包括,删除所述用户流量信息中的用户个人信息,所述用户个人信息包括用户账户和密码。采用上述方案,剔除所述用户流量信息中的用户个人信息,使说所述用户流量信息仅能提取出所述用户流量信息中的业务信息,提高所述第一流量字符串中的信息与业务对应的相关度,避免用户个人信息对业务分析的影响。进一步地,所述第一流量字符串包括第一流量子字符,所述第二流量字符串包括第二流量子字符,所述判断字符串匹配库中是否存在与所述第一流量字符串匹配的第二流量字符串包括,将第一流量子字符与第二流量子字符相匹配。优选地,所述将第一流量子字符与第二流量子字符相匹配包括:分析所述第一流量字符串的第一流量子字符数量,筛选本文档来自技高网...

【技术保护点】
1.一种字符串匹配库获取方法,其特征在于,包括:/n获取互联网用户历史上网流量信息;/n分析每条用户历史上网流量信息,删除所述每条用户历史上网流量信息中的默认值,得出第一历史字符串集,所述第一历史字符串集包括第一历史字符串;/n将所述第一历史字符串集中相同的第一历史字符串合并为一条,将合并的第一历史字符串使用流量相加,得出第二历史字符串集,所述第二历史字符串集包括第二历史字符串;/n对得出的第二历史字符串依据流量大小进行排名;/n分析所述第二历史字符串对应业务;/n将所述第二历史字符串对应业务标记在第二历史字符串上,生成第三历史字符串集;/n将第三历史字符串集作为字符串匹配库。/n

【技术特征摘要】
1.一种字符串匹配库获取方法,其特征在于,包括:
获取互联网用户历史上网流量信息;
分析每条用户历史上网流量信息,删除所述每条用户历史上网流量信息中的默认值,得出第一历史字符串集,所述第一历史字符串集包括第一历史字符串;
将所述第一历史字符串集中相同的第一历史字符串合并为一条,将合并的第一历史字符串使用流量相加,得出第二历史字符串集,所述第二历史字符串集包括第二历史字符串;
对得出的第二历史字符串依据流量大小进行排名;
分析所述第二历史字符串对应业务;
将所述第二历史字符串对应业务标记在第二历史字符串上,生成第三历史字符串集;
将第三历史字符串集作为字符串匹配库。


2.根据权利要求1所述的字符串匹配库获取方法,其特征在于,所述第一历史字符串包括第一历史子字符,所述将所述第一历史字符串集中相同的第一历史字符串合并为一条包括,将所述第一历史子字符相同的第一历史字符串合并。


3.根据权利要求2所述的字符串匹配库获取方法,其特征在于,所述将所述第一历史子字符相同的第一历史字符串合并包括,
分析所述第一历史字符串的第一历史子字符数量;
分析所述第一历史字符串的第一历史子字符类型;
分析所述第一历史字符串的第一历史子字符排列方法;
将第一历史字符串集中对所述第一历史子字符数量、第一历史子字符类型和第一历史子字符排列方法均满足的第一历史字符串合并,生成第二历史字符串集,所述第二历史字符串包括合并和未合并的第一历史字符串。


4.根据权利要求2或3所述的字符串匹配库获取方法,其特征在于,所述分析所述第二历史字符串对应业务包括,
获取所述第二历史字符串;
判断所述第二历史字符串是否为IP形式域名,
若否,读取域名的备案信息库中信息或域名对应网页内容中信息,
若是,读取域名对应网页内容中信息;
通过备案信息库中信息或网页内容中信息,获取相应报文;
通过报文确定所述第二历史字符串对应业务。


5.一种网络流量业务分析方法,其特征在于,包括:
接收用户流量信息;
分析用户流量信息,删除所述用户流量信息中的默认值,得出第一流量字符串;
判断字...

【专利技术属性】
技术研发人员:齐凯魏强赵伟李现强
申请(专利权)人:北京浩瀚深度信息技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1