一种日志检索方法、装置、设备及介质制造方法及图纸

技术编号:33923289 阅读:16 留言:0更新日期:2022-06-25 21:21
本申请公开了一种日志检索方法、装置、设备及介质,包括:获取原始日志,并利用预设划分方法将原始日志的统一资源定位符划分为各token,并基于统一资源定位符和各token创建数据库;利用预设分类方法对数据库中各token进行分类,以得到不同种类的token,并基于不同种类的token和数据库中的所有token确定出每种token的逆向词频;基于每种token的逆向词频确定出符合业务需求的各目标token,并将各目标token和各目标token对应的原始日志保存至数据库;利用数据库对预设模型进行训练,以得到训练后模型,然后获取目标统一资源定位符,并基于训练后模型确定出与目标统一资源定位符对应的原始日志。通过本申请的上述技术方案,能够进一步提高日志检索的准确性,并有效增加日志检索的效率。日志检索的效率。日志检索的效率。

【技术实现步骤摘要】
一种日志检索方法、装置、设备及介质


[0001]本专利技术涉及大数据日志分析领域,特别涉及一种日志检索方法、装置、设备及介质。

技术介绍

[0002]目前,在Web(World Wide Web,全球广域网)应用系统中,通常需要记录业务访问历史数据,一般是以访问日志形式记录。访问日志中一般要包括:时间、客户端IP(Internet Protocol,网际互连协议)、访问域名、访问URL(Uniform Resource Locator,统一资源定位符)等等。访问日志存储系统要求提供必要的检索能力,例如按照时间、客户端IP、域名、URL等检索。海量访问日志下的URL检索,相比其他条件检索的复杂度更高,其检索算法至关重要。目前常见的检索算法通常基于哈希散列、红黑树字典树等经典算法的优化,其数据预处理和实时检索的效率和开销存在较大瓶颈,并且无法针对特定Web应用系统的访问日志进行自动的效率优化。
[0003]由上可见,在日志检索的过程中,如何增加日志检索的效率,提高日志检索的准确性是本领域有待解决的问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种日志检索方法、装置、设备及介质,能够有效增加日志检索的效率,提高日志检索的准确性。其具体方案如下:
[0005]第一方面,本申请公开了一种日志检索方法,包括:
[0006]获取原始日志,并利用预设划分方法将所述原始日志的统一资源定位符划分为各token,并基于所述统一资源定位符和所述各token创建数据库;
[0007]利用预设分类方法对所述数据库中各token进行分类,以得到不同种类的token,并基于所述不同种类的token和所述数据库中的所有token确定出每种token的逆向词频;
[0008]基于所述每种token的逆向词频确定出符合业务需求的各目标token,并将所述各目标token和所述各目标token对应的原始日志保存至所述数据库;
[0009]利用所述数据库对预设模型进行训练,以得到训练后模型,然后获取目标统一资源定位符,并基于所述训练后模型确定出与所述目标统一资源定位符对应的原始日志。
[0010]可选的,所述利用预设划分方法将所述原始日志的统一资源定位符划分为各token,包括:
[0011]从所述原始日志的统一资源定位符中确定出目标字符的位置;其中,所述目标字符包括斜线“/”、问号“?”以及连接符“&”;
[0012]基于所述目标字符的位置对所述原始日志的统一资源定位符进行分割,以得到各token。
[0013]可选的,所述基于所述不同种类的token和所述数据库中的所有token确定出每种token的逆向词频,包括:
[0014]确定出每种token的数量,并统计出所述数据库中所有token的数量;
[0015]分别计算出所述每种token的数量与所述所有token的数量的比值,以得到每种token的词频,并基于所述每种token的词频确定出每种token的逆向词频。
[0016]可选的,所述基于所述每种token的逆向词频确定出符合业务需求的各目标token,包括:
[0017]利用所述数据库中所有token的数量以及所述每种token的数量确定出所述每种token分别对应的预设阈值;
[0018]按照预设排列方法并利用所述每种token的逆向词频对所述每种token进行排列,然后基于添加排位序号的每种token和所述预设阈值确定出符合业务需求的各目标token。
[0019]可选的,所述基于添加排位序号的每种token和所述预设阈值确定出符合业务需求的各目标token,包括:
[0020]分别判断所述添加排位序号的token的逆向词频是否小于相应的预设阈值,若所述添加排位序号的token的逆向词频小于相应的预设阈值,则分别将所述添加排位序号的token确定为符合业务需求的各目标token。
[0021]可选的,所述将所述各目标token和所述各目标token对应的原始日志保存至所述数据库,包括:
[0022]将所述各目标token与所述各目标token对应的原始日志进行关联,并将关联后的所述各目标token与所述各目标token对应的原始日志保存至所述数据库中的预设关联列表。
[0023]可选的,所述基于所述训练后模型确定出与所述目标统一资源定位符对应的原始日志,包括:
[0024]基于所述训练后模型从所述预设关联列表中确定出与所述目标统一资源定位符对应的各目标token;
[0025]利用所述预设关联列表确定出与所述各目标token对应的各原始日志。
[0026]第二方面,本申请公开了一种日志检索装置,包括:
[0027]数据库创建模块,用于获取原始日志,并利用预设划分方法将所述原始日志的统一资源定位符划分为各token,并基于所述统一资源定位符和所述各token创建数据库;
[0028]逆向词频确定模块,用于利用预设分类方法对所述数据库中各token进行分类,以得到不同种类的token,并基于所述不同种类的token和所述数据库中的所有token确定出每种token的逆向词频;
[0029]目标token确定模块,用于基于所述每种token的逆向词频确定出符合业务需求的各目标token,并将所述各目标token和所述各目标token对应的原始日志保存至所述数据库;
[0030]日志确定模块,用于利用所述数据库对预设模型进行训练,以得到训练后模型,然后获取目标统一资源定位符,并基于所述训练后模型确定出与所述目标统一资源定位符对应的原始日志。
[0031]第三方面,本申请公开了一种电子设备,包括:
[0032]存储器,用于保存计算机程序;
[0033]处理器,用于执行所述计算机程序,以实现前述公开的日志检索方法。
[0034]第四方面,本申请公开了一种计算机存储介质,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的日志检索方法的步骤。
[0035]可见,本申请提供了一种日志检索方法,包括获取原始日志,并利用预设划分方法将所述原始日志的统一资源定位符划分为各token,并基于所述统一资源定位符和所述各token创建数据库;利用预设分类方法对所述数据库中各token进行分类,以得到不同种类的token,并基于所述不同种类的token和所述数据库中的所有token确定出每种token的逆向词频;基于所述每种token的逆向词频确定出符合业务需求的各目标token,并将所述各目标token和所述各目标token对应的原始日志保存至所述数据库;利用所述数据库对预设模型进行训练,以得到训练后模型,然后获取目标统一资源定位符,并基于所述训练后模型确定出与所述目标统一资源定位符对应的原始日志。本申请通过计算原始日志的每种token的逆向词频,然后确定出目标token并保存至数据库,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志检索方法,其特征在于,包括:获取原始日志,并利用预设划分方法将所述原始日志的统一资源定位符划分为各token,并基于所述统一资源定位符和所述各token创建数据库;利用预设分类方法对所述数据库中各token进行分类,以得到不同种类的token,并基于所述不同种类的token和所述数据库中的所有token确定出每种token的逆向词频;基于所述每种token的逆向词频确定出符合业务需求的各目标token,并将所述各目标token和所述各目标token对应的原始日志保存至所述数据库;利用所述数据库对预设模型进行训练,以得到训练后模型,然后获取目标统一资源定位符,并基于所述训练后模型确定出与所述目标统一资源定位符对应的原始日志。2.根据权利要求1所述的日志检索方法,其特征在于,所述利用预设划分方法将所述原始日志的统一资源定位符划分为各token,包括:从所述原始日志的统一资源定位符中确定出目标字符的位置;其中,所述目标字符包括斜线“/”、问号“?”以及连接符“&”;基于所述目标字符的位置对所述原始日志的统一资源定位符进行分割,以得到各token。3.根据权利要求1所述的日志检索方法,其特征在于,所述基于所述不同种类的token和所述数据库中的所有token确定出每种token的逆向词频,包括:确定出每种token的数量,并统计出所述数据库中所有token的数量;分别计算出所述每种token的数量与所述所有token的数量的比值,以得到每种token的词频,并基于所述每种token的词频确定出每种token的逆向词频。4.根据权利要求3所述的日志检索方法,其特征在于,所述基于所述每种token的逆向词频确定出符合业务需求的各目标token,包括:利用所述数据库中所有token的数量以及所述每种token的数量确定出所述每种token分别对应的预设阈值;按照预设排列方法并利用所述每种token的逆向词频对所述每种token进行排列,然后基于添加排位序号的每种token和所述预设阈值确定出符合业务需求的各目标token。5.根据权利要求4所述的日志检索方法,其特征在于,所述基于添加排位序号的每种token和所述预设阈值确定出符合业务...

【专利技术属性】
技术研发人员:郭晓徐静
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1