The invention discloses a defect report assignment method based on mixed reduction of high-dimensional data, which comprises the following steps: S1: obtaining the fault text information, fault meta information and fault trigger time information of defect report from the defect report system; S2: defining the defect report as text, selecting the word segments that can represent the text information, and adopting word segmentation, word deletion, word stemming and vector space The representation method standardizes the defect report. S3: Based on the differential evolution algorithm, feature selection, instance selection and the combination of them are used to reduce the defect report data. S4: reading the developer's participation information of the defect report, screening the developers who have processed the bug report with the same product information, and classifying the defect report again. S5: when there is a bug report that has not been When the classified defect report is submitted, the data reduction strategy combined with the participation of developers is used to classify it, and appropriate developers are assigned to handle the defect report.
【技术实现步骤摘要】
一种基于高维数据混合约简的缺陷报告指派方法
本专利技术涉及bug报告分派
,尤其涉及一种基于高维数据混合约简的缺陷报告指派方法。
技术介绍
软件项目的bug修复在软件维护中占有重要地位。目前缺陷报告自动指派是解决bug修复问题的高效经济方式。缺陷报告指派基于文本分类技术为一个新的缺陷报告分类,匹配一个开发人员进行bug修复。而bug数据的大规模和低质量两个特点降低了软件维护过程中bug仓库的使用效率,影响了新缺陷报告的有效指派。对此,在现有技术结合特征选择和实例选择技术去除了冗余和非信息的缺陷报告和单词,实现了数据约简,这样可以从历史bug数据集中提取属性,利用提取的属性对bug数据集进行二值分类器训练,预测了新的缺陷报告应用特征选择和实例选择的顺序。上述方法中结合特征选择和实例选择对缺陷报告数据进行属性约简的方法得到了规模较小、质量较高的缺陷报告,并且提出了一个应用特征选择和实例选择的顺序的预测模型。但它的属性约简方法的缺陷报告指派准确度并不高,不能有效的约简缺陷报告数据,适用性不强。另外,它的缺陷报告指派只是基于文 ...
【技术保护点】
1.一种基于高维数据混合约简的缺陷报告指派方法,其特征在于包括如下步骤:/nS1:从缺陷报告系统中获取缺陷报告的故障文本信息、故障元信息和故障触发时间信息,将获取的信息定义为缺陷报告数据集,其中缺陷报告数据集还包括缺陷报告的对应开发人员信息;/nS2:将缺陷报告定义为文本,选择能表现文本信息的词段,并采用分词、去停词、词干化和向量空间表示方法对缺陷报告进行标准化处理,获得每条缺陷报告的单词向量形式,将缺陷报告数据集转化为一个词矩阵;/nS3:基于差分进化算法采用特征选择、实例选择和二者相结合的方式对缺陷报告进行数据约简;/nS4:读取缺陷报告的开发人员参与度信息,筛选处理过 ...
【技术特征摘要】
1.一种基于高维数据混合约简的缺陷报告指派方法,其特征在于包括如下步骤:
S1:从缺陷报告系统中获取缺陷报告的故障文本信息、故障元信息和故障触发时间信息,将获取的信息定义为缺陷报告数据集,其中缺陷报告数据集还包括缺陷报告的对应开发人员信息;
S2:将缺陷报告定义为文本,选择能表现文本信息的词段,并采用分词、去停词、词干化和向量空间表示方法对缺陷报告进行标准化处理,获得每条缺陷报告的单词向量形式,将缺陷报告数据集转化为一个词矩阵;
S3:基于差分进化算法采用特征选择、实例选择和二者相结合的方式对缺陷报告进行数据约简;
S4:读取缺陷报告的开发人员参与度信息,筛选处理过具有相同产品信息的bug报告的开发人员,对缺陷报告进行再次分类;
S5:当有未被分类的缺陷报告提交时,使用结合开发人员参与度的数据约简策略为其分类,分配合适的开发人员处理该缺陷报告。
2.根据权利要求1所述的一种基于高维数据混合约简的缺陷报告指派方法,其特征还在于:其中特征选择的方式为在样本的特征空间...
【专利技术属性】
技术研发人员:郭世凯,王佳慧,郑圣杰,陈荣,李辉,唐文君,
申请(专利权)人:大连海事大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。