一种URL日志存储方法及装置制造方法及图纸

技术编号:18497357 阅读:24 留言:0更新日期:2018-07-21 20:18
本申请提供一种URL日志存储方法,所述方法包括:获取至少一条待存储的URL日志;对于任意一条URL日志,从所述URL日志中提取预设的URL日志字段所对应的字段值;在预设的URL日志字段表中查找所提取的字段值;在预设的URL日志字段表中查找到所提取的字段值的情况下,在预设的URL日志字段表中获取所提取的字段值所对应的代号,其中所获取的代号占用的存储空间小于所提取的字段值占用的存储空间;将所述URL日志中对应的字段值替换所获取的代号后,对经过替换的待存储的URL日志进行存储。

A URL log storage method and device

The present application provides an URL log storage method, which includes: obtaining at least one URL log to be stored; extracting the value of the default field value of the default URL log field from the URL log for any URL log; finding the extracted field values in the default URL log field table; in the default URL log. In the field table, in the case of the value of the extracted field, the code corresponding to the value of the extracted field is obtained in the default URL log field table, in which the storage space of the acquired symbol occupancy is less than the storage space occupied by the extracted field values; and the value of the field value of the corresponding field in the URL log is replaced with the code name obtained. After that, we store the replaced URL log to be stored.

【技术实现步骤摘要】
一种URL日志存储方法及装置
本申请涉及计算机
,尤其涉及一种URL日志存储方法及装置。
技术介绍
URL(UniformResourceLocator,统一资源定位符),其在用户访问Internet时发挥着极其重要的作用。随着互联网技术的高速发展,每天产生了大量的URL日志,例如常见的上网看新闻、查资料、网购、收发邮件、网页游戏等,这些行为都会产生大量的URL日志,而这些大量的URL日志往往需要存储在安全审计系统中,其中URL日志字段主要包括:访问时间、用户上网账号、用户IP地址、Web服务器IP地址、网站域名、网站URL、网站标题、网页标题等字段。由于URL日志数量庞大,特别是在需要存储所有URL日志的情况下,需要合理的存储方式将URL日志进行存储,否则可能会造成存储空间的浪费。
技术实现思路
有鉴于此,本申请提供一种URL日志存储方法及装置。具体地,本申请是通过如下技术方案实现的:一种URL日志存储方法,所述方法包括:获取至少一条待存储的URL日志;对于任意一条URL日志,从所述URL日志中提取预设的URL日志字段所对应的字段值;在预设的URL日志字段表中查找所提取的字段值;在预设的URL日志字段表中查找到所提取的字段值的情况下,在预设的URL日志字段表中获取所提取的字段值所对应的代号,其中所获取的代号占用的存储空间小于所提取的字段值占用的存储空间;将所述URL日志中对应的字段值替换所获取的代号后,对经过替换的待存储的URL日志进行存储。一种URL日志存储装置,所述装置包括:日志获取单元,用于获取至少一条待存储的URL日志;字段值提取单元,用于对于任意一条URL日志,从所述URL日志中提取预设的URL日志字段所对应的字段值;字段值查找单元,用于在预设的URL日志字段表中查找所提取的字段值;代号获取单元,用于在预设的URL日志字段表中查找到所提取的字段值的情况下,在预设的URL日志字段表中获取所提取的字段值所对应的代号,其中所获取的代号占用的存储空间小于所提取的字段值占用的存储空间;日志存储单元,用于将所述URL日志中对应的字段值替换所获取的代号后,对经过替换的待存储的URL日志进行存储。本申请通过分布式存储,即单独存储预设的URL日志字段所对应的字段值,对于重复的字段值只存储一份,URL日志中只存储对应的代号,解决了因URL日志数量过大造成存储空间浪费的问题,可以有效的节约存储空间。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本申请一示例性实施例示出的一种安全审计系统中URL日志统计示意图;图2是本申请一示例性实施例示出的URL日志存储方法的一种实施流程图;图3是本申请一示例性实施例示出的一种URL日志字段表示意图;图4是本申请一示例性实施例示出的一种URL日志分布式存储示意图;图5是本申请一示例性实施例示出的URL日志存储装置的一种结构示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。首先对本申请实施例提供的一种URL日志存储方法进行说明,该方法可以包括以下步骤:获取至少一条待存储的URL日志;对于任意一条URL日志,从所述URL日志中提取预设的URL日志字段所对应的字段值;在预设的URL日志字段表中查找所提取的字段值;在预设的URL日志字段表中查找到所提取的字段值的情况下,在预设的URL日志字段表中获取所提取的字段值所对应的代号,其中所获取的代号占用的存储空间小于所提取的字段值占用的存储空间;将所述URL日志中对应的字段值替换所获取的代号后,对经过替换的待存储的URL日志进行存储。在
技术介绍
中提到,例如常见的上网看新闻、查资料、网购、收发邮件、等行为都会产生大量的URL日志,而且这些大量的URL日志往往需要存储到安全审计系统中。如图1所示的一示例性安全审计系统中URL日志统计示意图,其中URL日志字段可以包括:访问时间、用户上网账号、用户IP地址、Web服务器IP、网站域名、网站URL、网站标题、网页标题等字段。由于URL日志数量庞大,本申请通过分布式存储,即单独存储预设的URL日志字段所对应的字段值,对于重复的字段值只存储一份,其中预设的URL日志字段可以是上述所说URL日志字段包括的任意一种或几种的组合,例如可以为网站域名字段,也可以为网站域名字段、用户上网账号字段、终端设备信息字段三者的组合,本申请在此并不做限定。URL日志中只存储对应的代号,其中所述代号是按照特定算法生成的,由此可以有效的节约存储空间。具体的在URL日志存储的过程中,首先是获取至少一条待存储的URL日志;对于任意一条URL日志,从所述URL日志中提取预设的URL日志字段所对应的字段值,例如可以获取上述所说的网站域名字段对应的字段值,也可以获取网站域名字段、用户上网账号字段、终端设备信息字段三者各自对应的字段值;在预设的URL日志字段表中查找所提取的字段值,维护所述预设的URL日志字段表;在预设的URL日志字段表中查找到所提取的字段值的情况下,在预设的URL日志字段表中获取所提取的字段值对应的代号,其中所获取的代号占用的存储空间小于所提取的字段值占用的存储空间;在预设的URL日志字段表中查找不到所提取的字段值的情况下,在预设的URL日志字段表中添加所提取的字段值,并按照特定算法为所添加的字段值生成对应的代号;将所述URL日志中对应的字段值替换所获取的代号后,对经过替换的待存储的URL日志进行存储。当进行日志查询时,获取所存储的URL日志;从所述URL日志中提取代号;从所述预设的URL日志字段表中,获取预设的URL日志字段所对应的字段值与代号的对应关系;根据所提取的代号以及获取到的对应关系,将所述URL日志的代号还原至对应的字段值,以此完成对URL日志的查询。为了对本申请进一步说明,提供下列实施例进行说明,如图2所示,为本申请URL日志存储方法的一种实施流程图,其具体可以包括以下步骤:S101,获取至少一条待存储的URL日志;在一实施例中,由于用户上网看新闻、查资本文档来自技高网
...

【技术保护点】
1.一种URL日志存储方法,其特征在于,所述方法包括:获取至少一条待存储的URL日志;对于任意一条URL日志,从所述URL日志中提取预设的URL日志字段所对应的字段值;在预设的URL日志字段表中查找所提取的字段值;在预设的URL日志字段表中查找到所提取的字段值的情况下,在预设的URL日志字段表中获取所提取的字段值所对应的代号,其中所获取的代号占用的存储空间小于所提取的字段值占用的存储空间;将所述URL日志中对应的字段值替换所获取的代号后,对经过替换的待存储的URL日志进行存储。

【技术特征摘要】
1.一种URL日志存储方法,其特征在于,所述方法包括:获取至少一条待存储的URL日志;对于任意一条URL日志,从所述URL日志中提取预设的URL日志字段所对应的字段值;在预设的URL日志字段表中查找所提取的字段值;在预设的URL日志字段表中查找到所提取的字段值的情况下,在预设的URL日志字段表中获取所提取的字段值所对应的代号,其中所获取的代号占用的存储空间小于所提取的字段值占用的存储空间;将所述URL日志中对应的字段值替换所获取的代号后,对经过替换的待存储的URL日志进行存储。2.根据权利要求1所述的方法,其特征在于,所述预设的URL日志字段包括:任意一个URL日志字段或多个URL日志字段。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:在预设的URL日志字段表中查找不到所提取的字段值的情况下,在预设的URL日志字段表中添加所提取的字段值。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:按照特定算法为所添加的字段值生成对应的代号。5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:当进行日志查询时,从所述预设的URL日志字段表中,获取预设的URL日志字段所对应的字段值与代号的对应关系。6.一种URL日志存储装置,其特征在于,所述装置包括:日志获取单元,用于获取至...

【专利技术属性】
技术研发人员:魏方征林子澜汪庆权
申请(专利权)人:杭州迪普科技股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1