一种问题定位方法和装置制造方法及图纸

技术编号:27877237 阅读:17 留言:0更新日期:2021-03-31 00:57
本发明专利技术公开了一种问题定位方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据有标签和无标签的日志样本集得到训练集,对问题分类模型进行第一训练;以预设数量问题场景的日志作为检验集,对第一训练后的问题分类模型进行一致性评价,根据一致性评价结果,对第一训练后的问题分类模型进行第二训练,重复一致性评价和第二训练过程,直到最终一致性评价结果满足预设条件时得到训练好的问题分类模型,用以确定待定位问题的日志数据中的问题类别。该实施方式能实现对bug的自动准确定位和归类,帮助测试人员避免低级问题,增强测试人员独立性,为开发人员节省修复问题的成本,且对测试资源要求不高,计算代价小,自适应能力强。

【技术实现步骤摘要】
一种问题定位方法和装置
本专利技术涉及计算机
,尤其涉及一种问题定位方法和装置。
技术介绍
目前大多测试环境后台bug(问题)定位是测试人员手动搜索日志定位问题,通常情况下对于bug的定位依赖于测试人员本身的技术水平和经验积累,当测试人员无法定位bug时则会将异常日志截图给研发进行处理,开发人员需要分析代码进行定位,当一个系统由多人负责且逻辑复杂时将大大增加问题定位的难度和成本。因此,测试环境的后台bug自动定位显得尤为重要。现有的基于路径分析和迭代蜕变测试的bug检测主要基于白盒准则使测试用例实现全路径覆盖进行bug检测,该方法需要对测试用例不断迭代,对测试资源要求较高;而基于BP(backpropagation,反向传播)神经网络的软件故障定位模型,算法计算代价高,自适应能力较差;源代码与缺陷报告的文本相似性的排序方法没有充分利用源码的结构信息,bug定位的准确率较低,由此衍生的基于代码结构信息的软件缺陷定位方法,虽然准确率有一定的提升,但其仍然偏向于开发人员对于代码逻辑、结构、框架的缺陷诊断,可以应用在开发的自测环节,也可以应用在测试人员提交了具体bug后的代码分析,针对在测试环境自动定位bug的方法尚未涉及。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:在测试环境无法自动准确地定位bug,且存在对测试资源要求较高、算法计算代价高、自适应能力较差等缺陷。
技术实现思路
有鉴于此,本专利技术实施例提供一种问题定位方法和装置,能够实现对bug的自动准确定位和归类,帮助测试人员避免一些低级问题,增强测试人员的独立性,也为开发人员节省修复问题的成本,且对测试资源要求不高,计算代价小,自适应能力强。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种问题定位方法。一种问题定位方法,包括:根据有标签的第一日志样本集和无标签的第二日志样本集得到训练集,对问题分类模型进行第一训练,所述标签用于指示问题类别;以预设数量问题场景的日志作为检验集,利用所述检验集对第一训练后的问题分类模型进行一致性评价,并根据一致性评价结果,对所述第一训练后的问题分类模型进行第二训练,重复所述一致性评价和所述第二训练的过程,直到最终的一致性评价结果满足预设条件时,不再继续所述第二训练,得到训练好的问题分类模型;将待定位问题的日志数据输入所述训练好的问题分类模型,以确定所述日志数据中的问题类别。可选地,所述问题分类模型为聚类模型,根据有标签的第一日志样本集和无标签的第二日志样本集得到训练集,对问题分类模型进行第一训练的步骤,包括:根据所述第一日志样本集确定多个初始聚类中心,计算所述第一日志样本集、所述第二日志样本集中各日志样本到各所述初始聚类中心的欧式距离,以对所述各日志样本聚类,并重新确定每个聚类的聚类中心;对上述的计算所述欧式距离、对所述各日志样本聚类以及重新确定所述聚类中心的过程不断迭代,直到第k+1次迭代得到的欧式距离之和与第k次迭代得到的欧式距离之和的差值小于设定的精度时,停止所述迭代,以完成所述第一训练,所述欧式距离之和为当次迭代后,所述各日志样本到各聚类中心的欧式距离的加和。可选地,利用所述检验集对第一训练后的问题分类模型进行一致性评价,并根据一致性评价结果,对所述第一训练后的问题分类模型进行第二训练的步骤,包括:利用所述第一训练后的问题分类模型,对所述检验集中的日志聚类,得到问题聚类结果;利用所述问题聚类结果,与所述检验集中日志的问题分类预期结果,生成交叉分类表;根据所述交叉分类表计算一致性系数,所述一致性系数体现了所述问题聚类结果与所述问题分类预期结果的一致性;如果所述一致性系数不满足所述预设条件,则将所述问题聚类结果与所述问题分类预期结果不一致的所述检验集中日志加入所述训练集,对所述第一训练后的问题分类模型进行第二训练。可选地,有标签的第一日志样本集和无标签的第二日志样本集通过如下方式得到:从有效日志样本集中提取出存在缺陷关键字的多个异常日志样本,所述异常日志样本是存在问题的有效日志样本;对各异常日志样本分别提取缺陷关键字的多个特征,并对每一特征进行标量化和规格化处理,得到对应每一异常日志样本的特征向量;根据已知问题类别的异常日志样本的特征向量得到所述第一日志样本集,根据未知问题类别的异常日志样本的特征向量得到所述第二日志样本集。可选地,还包括:配置需要监控日志的系统,以从所述系统采集日志;对采集到的日志进行过滤,以得到包括多个有效日志样本的所述有效日志样本集。根据本专利技术实施例的另一方面,提供了一种问题定位装置。一种问题定位装置,包括:第一训练模块、一致性评价模块、第二训练模块、问题类别预测模块,其中:所述第一训练模块,用于根据有标签的第一日志样本集和无标签的第二日志样本集得到训练集,对问题分类模型进行第一训练,所述标签用于指示问题类别;所述一致性评价模块,用于以预设数量问题场景的日志作为检验集,利用所述检验集对第一训练后的问题分类模型进行一致性评价;所述第二训练模块,用于根据一致性评价结果,对所述第一训练后的问题分类模型进行第二训练;通过所述一致性评价模块、所述第二训练模块重复所述一致性评价和所述第二训练的过程,直到最终的一致性评价结果满足预设条件时,不再继续所述第二训练,得到训练好的问题分类模型;所述问题类别预测模块,用于将待定位问题的日志数据输入所述训练好的问题分类模型,以确定所述日志数据中的问题类别。可选地,所述问题分类模型为聚类模型,所述第一训练模块还用于:根据所述第一日志样本集确定多个初始聚类中心,计算所述第一日志样本集、所述第二日志样本集中各日志样本到各所述初始聚类中心的欧式距离,以对所述各日志样本聚类,并重新确定每个聚类的聚类中心;对上述的计算所述欧式距离、对所述各日志样本聚类以及重新确定所述聚类中心的过程不断迭代,直到第k+1次迭代得到的欧式距离之和与第k次迭代得到的欧式距离之和的差值小于设定的精度时,停止所述迭代,以完成所述第一训练,所述欧式距离之和为当次迭代后,所述各日志样本到各聚类中心的欧式距离的加和。可选地,所述一致性评价模块还用于:利用所述第一训练后的问题分类模型,对所述检验集中的日志聚类,得到问题聚类结果;利用所述问题聚类结果,与所述检验集中日志的问题分类预期结果,生成交叉分类表;根据所述交叉分类表计算一致性系数,所述一致性系数体现了所述问题聚类结果与所述问题分类预期结果的一致性;如果所述一致性系数不满足所述预设条件,则将所述问题聚类结果与所述问题分类预期结果不一致的所述检验集中日志加入所述训练集,以由所述第二训练模块对所述第一训练后的问题分类模型进行第二训练。可选地,还包括训练集生成模块,用于得到有标签的第一日志样本集和无标签的第二日志样本集,其中:从有效日志样本集中提取出存在缺陷关键字的多个异常日志样本,所述异常日志样本是存在问题的有效日志样本;对各异常日志样本分别提取缺陷关键字的多个特征,并对每一特征进行标量化和规格化处理,得到对应每一异常日志样本的特征向量;根据已知问题类别的异常日志样本文档来自技高网...

【技术保护点】
1.一种问题定位方法,其特征在于,包括:/n根据有标签的第一日志样本集和无标签的第二日志样本集得到训练集,对问题分类模型进行第一训练,所述标签用于指示问题类别;/n以预设数量问题场景的日志作为检验集,利用所述检验集对第一训练后的问题分类模型进行一致性评价,并根据一致性评价结果,对所述第一训练后的问题分类模型进行第二训练,重复所述一致性评价和所述第二训练的过程,直到最终的一致性评价结果满足预设条件时,不再继续所述第二训练,得到训练好的问题分类模型;/n将待定位问题的日志数据输入所述训练好的问题分类模型,以确定所述日志数据中的问题类别。/n

【技术特征摘要】
1.一种问题定位方法,其特征在于,包括:
根据有标签的第一日志样本集和无标签的第二日志样本集得到训练集,对问题分类模型进行第一训练,所述标签用于指示问题类别;
以预设数量问题场景的日志作为检验集,利用所述检验集对第一训练后的问题分类模型进行一致性评价,并根据一致性评价结果,对所述第一训练后的问题分类模型进行第二训练,重复所述一致性评价和所述第二训练的过程,直到最终的一致性评价结果满足预设条件时,不再继续所述第二训练,得到训练好的问题分类模型;
将待定位问题的日志数据输入所述训练好的问题分类模型,以确定所述日志数据中的问题类别。


2.根据权利要求1所述的方法,其特征在于,所述问题分类模型为聚类模型,
根据有标签的第一日志样本集和无标签的第二日志样本集得到训练集,对问题分类模型进行第一训练的步骤,包括:
根据所述第一日志样本集确定多个初始聚类中心,计算所述第一日志样本集、所述第二日志样本集中各日志样本到各所述初始聚类中心的欧式距离,以对所述各日志样本聚类,并重新确定每个聚类的聚类中心;
对上述的计算所述欧式距离、对所述各日志样本聚类以及重新确定所述聚类中心的过程不断迭代,直到第k+1次迭代得到的欧式距离之和与第k次迭代得到的欧式距离之和的差值小于设定的精度时,停止所述迭代,以完成所述第一训练,所述欧式距离之和为当次迭代后,所述各日志样本到各聚类中心的欧式距离的加和。


3.根据权利要求1所述的方法,其特征在于,利用所述检验集对第一训练后的问题分类模型进行一致性评价,并根据一致性评价结果,对所述第一训练后的问题分类模型进行第二训练的步骤,包括:
利用所述第一训练后的问题分类模型,对所述检验集中的日志聚类,得到问题聚类结果;
利用所述问题聚类结果,与所述检验集中日志的问题分类预期结果,生成交叉分类表;
根据所述交叉分类表计算一致性系数,所述一致性系数体现了所述问题聚类结果与所述问题分类预期结果的一致性;
如果所述一致性系数不满足所述预设条件,则将所述问题聚类结果与所述问题分类预期结果不一致的所述检验集中日志加入所述训练集,对所述第一训练后的问题分类模型进行第二训练。


4.根据权利要求1所述的方法,其特征在于,有标签的第一日志样本集和无标签的第二日志样本集通过如下方式得到:
从有效日志样本集中提取出存在缺陷关键字的多个异常日志样本,所述异常日志样本是存在问题的有效日志样本;
对各异常日志样本分别提取缺陷关键字的多个特征,并对每一特征进行标量化和规格化处理,得到对应每一异常日志样本的特征向量;
根据已知问题类别的异常日志样本的特征向量得到所述第一日志样本集,根据未知问题类别的异常日志样本的特征向量得到所述第二日志样本集。


5.根据权利要求4所述的方法,其特征在于,还包括:配置...

【专利技术属性】
技术研发人员:魏乔
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1