【技术实现步骤摘要】
一种针对于缺陷报告的多标签标记方法
本专利技术涉及计算机
,具体涉及一种针对于缺陷报告的多标签标记方法。
技术介绍
缺陷报告在软件开发中起着重要作用,日益成熟的缺陷跟踪系统随着对缺陷报告管理能力的不断提升,也为现代软件开发提供了更加便捷的缺陷报告整理服务。例如,多合一编码社区GitHub,已将基于Git版本控制系统与一个轻量级的缺陷跟踪系统集成在一起,提供便捷的编码服务。这个缺陷报告跟踪系统有助于为许多开源项目记录数以千计的缺陷报告。缺陷报告跟踪系统的一项非常重要的功能是为缺陷报告分配标签。缺陷报告的标签有助于帮助开发者对缺陷报告进行快速地分类或标识。在实际的项目中,缺陷报告常常包含多个标签。例如,报告记录了一个后端相关的错误,因此它应该同时具有“bug”和“backend”标签。人工为缺陷报告标记标签常常耗费人力,且容易造成漏标、误标。自动化的标记方法将能够有效地提供更可靠的标记能力。然而,现有自动化标记技术中,对缺陷报告添加多标签的方法主要是使用多个单标签进行多次二分类预测,以达到预 ...
【技术保护点】
1.一种针对于缺陷报告的多标签标记方法,其特征在于,包括以下步骤:/n步骤1:构建缺陷报告数据集,根据缺陷报告数据集构建用户指定待选标签集合,根据用户指定待选标签集合构建初始多标签训练数据集,根据缺陷报告已有标签情况通过人工补全方法进行第一轮标签补全得到第一轮补全后的多标签训练数据集,使用二分类预测方法自动第二轮标签补全得到第二轮补全后的多标签训练数据集,根据缺陷报告标题与内容单词情况通过人工补全方法进行第三轮标签补全得到最终多标签训练数据集;/n步骤2:构建基于快速文本分类器算法的文本多类别分类器模型,结合最终多标签训练数据集进行多轮批次的训练,得到训练后的文本多分类模型 ...
【技术特征摘要】
1.一种针对于缺陷报告的多标签标记方法,其特征在于,包括以下步骤:
步骤1:构建缺陷报告数据集,根据缺陷报告数据集构建用户指定待选标签集合,根据用户指定待选标签集合构建初始多标签训练数据集,根据缺陷报告已有标签情况通过人工补全方法进行第一轮标签补全得到第一轮补全后的多标签训练数据集,使用二分类预测方法自动第二轮标签补全得到第二轮补全后的多标签训练数据集,根据缺陷报告标题与内容单词情况通过人工补全方法进行第三轮标签补全得到最终多标签训练数据集;
步骤2:构建基于快速文本分类器算法的文本多类别分类器模型,结合最终多标签训练数据集进行多轮批次的训练,得到训练后的文本多分类模型作为训练后缺陷报告标签预测器;
步骤3:使用训练后缺陷报告标签预测器为缺陷报告进行多标签标记,收集缺陷报告中的用户反馈以及时更新预测模型。
2.根据权利要求1所述的针对于缺陷报告的多标签标记方法,其特征在于:
步骤1所述构建缺陷报告数据集为:
所述缺陷报告数据集为:
S={s1,s2,...,sN}
其中,N为收集到的缺陷报告样本的数量;
缺陷报告数据集中第i个缺陷报告样本为:
si=(titlei,bodyi,labelseti),i∈[1,N]
其中,titlei为缺陷报告数据集中第i个缺陷报告的标题,bodyi为缺陷报告数据集中第i个缺陷报告的报告主体,labelseti为缺陷报告数据集中第i个缺陷报告的标签集合;
缺陷报告数据集中第i个缺陷报告样本的标签集合为:
其中,Mi表示缺陷报告数据集中第i个缺陷报告的标签集合中标签的数量,表示为缺陷报告数据集中第i个缺陷报告的标签集合中第j个标签的小写表示;
步骤1所述根据缺陷报告数据集构建用户指定待选标签集合为:
遍历缺陷报告数据集内所有缺陷报告样本,取所有缺陷报告样本的标签集合的并集,得到缺陷报告数据集上的所有标签集合为:
其中,Q为缺陷报告数据集上的所有标签集合中互不相同的样本标签的个数,L0内的任意标签对满足labelp≠labelq,p≠q;
用户从L0中指定R个互不相同的标签作为用户指定待选标签集合,具体定义为:
其中,代表第k个待选标签;
上述用户指定的待选标签集合将被作为多标签预测方法的预测目标;
步骤1所述根据用户指定待选标签集合构建初始多标签训练数据集为:
对于缺陷报告数据集中的每个缺陷报告样本si=(titlei,bodyi,labelseti),i∈[1,N],构建对应的初始多标签训练样本
其中,
对于若labelseti中含有第k个待选标签那么否则通过构建初始多标签训练数据集Dataset0:
其中,Dataset0表示初始多标签训练数据集;
步骤1所述根据缺陷报告已有标签情况通过人工补全方法进行第一轮标签补全得到第一轮补全后的多标签训练数据集为:
首先,对于缺陷报告数据集上的所有标签集合中的每个标签即labelk,k∈[1,Q],统计数据集中包含该标签的样本的个数labelcntk;
对于缺陷报告数据集上的所有标签集合L0中的每个标签labelk∈{label1,label2,...,labelQ},取按数据集中包含每个标签的样本个数递减排名前P位的标签构成高频标签集合Ltop:
将高频标签集合即Ltop标签交付给Θ名研究者(Θ≥10)开展人工补全;
要求研究者彼此独立地从高频标签集合Ltop中选取与待选标签集合Ltgt中每个待选标签在单词语义上近似或在软件工程中属于该待选标签概念的所有高频标签
对于第个研究者给第k个待选标签选取的关联标签集合定义为:
其中,为中关联标签的个数;
将所有研究者为相同待选标签标注的关联标签集合求并集,得到每个待选标签关联的附属标签集;
对于第k个待选标签的附属标签集sublabelsetk定义为:
其中,代表第k个待选标签的附属标签,Uk代表第k个待选标签的附属标签的数量;
对于si=(titlei,bodyi,labelseti),i∈[1,N]和Dataset0中的每个数据样本构建
其中,
对于若缺陷报告si的labelseti中含有sublabelsetk中的任意一个标签,那么否则
将构成第一轮补全后的多标签训练数据集即:
其中,Dataset1为第一轮补全后的多标签训练数据集;
步骤1所述使用二分类预测方法自...
【专利技术属性】
技术研发人员:谢晓园,陈崧强,苏宇辉,晋硕,姬渊翔,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。