一种基于标注的日志分类的方法和装置制造方法及图纸

技术编号:17097491 阅读:43 留言:0更新日期:2018-01-21 09:20
本发明专利技术公开了一种基于标注的日志分类的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:抓取日志;对所述日志的统一资源定位符进行标注;将标注的日志进行存储。该实施方式将抓取到的日志进行标注之后存储,实现了对抓取的日志的分类,进而测试人员可以快速查找到测试所需的搜索词或者URL,减少测试人员收集数据的工作量。并且保证数据的真实可靠性,进而可提高测试质量。

A method and device for log classification based on annotation

The invention discloses a method and device for log classification based on annotation, which relates to the field of computer technology. A specific implementation of the method includes grabbing logs, annotated the unified resource locator for the log, and storing the annotated logs. This implementation will store the logs captured after grabbing, and achieve the classification of the captured logs, so that testers can quickly find the search words or URL needed to test, and reduce the workload of data collection by testers. And the real reliability of the data is guaranteed, and the quality of the test can be improved.

【技术实现步骤摘要】
一种基于标注的日志分类的方法和装置
本专利技术涉及计算机
,尤其涉及一种基于标注的日志分类的方法和装置。
技术介绍
为了优化搜索引擎召回的质量以及提高GMV(GrossMerchandiseVolume成交总额),搜索引擎每天都有大量新功能或者优化提测需要上线。目前搜索引擎功能的测试,使用的是端到端的黑盒测试,测试输入是搜索最原始的搜索请求,其中以URL(UniformResourceLocator统一资源定位符)的形式输入,测试验证的输出是搜索引擎最后的召回结果,其中以JSON(JavaScriptObjectNotationJS对象标记)串的形式输出。不同的功能需要使用不同的URL,目前进行测试时需要测试人员自己构造URL集合。在该过程中,测试人员需要从相应类目下挑选搜索词或者依赖经验猜测搜索词,然后到搜索页进行搜索,通过对搜索结果的判断以及参数的添加构造出URL集合。该方法不仅存在搜索词收集不全的问题,不能保证构造出的URL集合跟线上真实用户的搜索请求一致,覆盖不到真实用户的情况。而且通过这种方法构造的URL集合具有跟新功能不直接相关的URL参数(通用参数)单一的特点,进本文档来自技高网...
一种基于标注的日志分类的方法和装置

【技术保护点】
一种基于标注的日志分类的方法,其特征在于,包括:抓取日志;对所述日志的统一资源定位符进行标注;将标注的日志进行存储。

【技术特征摘要】
1.一种基于标注的日志分类的方法,其特征在于,包括:抓取日志;对所述日志的统一资源定位符进行标注;将标注的日志进行存储。2.根据权利要求1所述的方法,其特征在于,所述抓取日志包括:统计抓取的渠道;从所述渠道的搜索引擎入口抓取日志。3.根据权利要求1所述的方法,其特征在于,还包括:所述抓取日志之后,对所述日志进行过滤。4.根据权利要求3所述的方法,其特征在于,对所述日志进行过滤包括:根据所述日志的统一资源定位符中的参数确定出干扰请求的日志以及不关注的请求的日志;去掉所述干扰请求的日志和不关注的请求的日志;并且,去掉所述日志的统一资源定位符中对搜索功能没有影响的参数;根据所述日志的统一资源定位符的参数的关系对日志进行合并。5.根据权利要求3所述的方法,其特征在于,对所述日志进行过滤还包括:根据所述日志的统一资源定位符的参数key,汇总出所有的搜索词以及所述搜索词的频次;以及统计所述日志的统一资源定位符的频次。6.根据权利要求1所述的方法,其特征在于,还包括:对所述日志的统一资源定位符进行标注之前,将所述日志的统一资源定位符进行回放;进而,根据所述日志的统一资源定位符的参数以及回放的结果,对所述日志的统一资源定位符进行标注。7.根据权利要求6所述的方法,其特征在于,根据所述日志的统一资源定位符的参数以及回放的结果,对所述日志的统一资源定位符进行标注包括:根据所述日志的统一资源定位符的参数确定所述日志的搜索词、搜索词的频次、统一资源定位符的频次;根据回放的结果确定出所述日志的高相关分类;将所述搜索词、搜索词的频次、统一资源定位符的频次以及高相关分类标记在所述日志上。8.根据权利要求1所述的方法,其特征在于,还包括:对所述日志的统一资源定位符进行标注之后,以及将标注的日志进行存储之前,按照所述标注以及所述统一资源定位符的参数,对日志进行分类和统计处理。9.一种基于标注的日志分类的装置,其特征在于,包括:抓取模块,用于抓取日志;标注模块,用于对所述抓取模块抓取的日志的统一资源定位符进行标注;存储模块,用于将所述标注模块标注的日志进行存储。10.根据...

【专利技术属性】
技术研发人员:刁芹李友科张凤娜
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1