一种基于双通道卷积神经网络的重复缺陷报告检测方法技术

技术编号：21999919 阅读：35 留言：0更新日期：2019-08-31 05:19

本发明专利技术涉及一种基于双通道卷积神经网络的重复缺陷报告检测方法，包括三个步骤，数据准备、建立CNN模型和待预测缺陷报告预测；在数据准备，对重复报告有用的字段，从缺陷报告中提取出来，对每一个报告，结构化信息和非结构化信息一起放入一个文本发明专利技术档中，经过预处理，每个由文本表示的报告被转化成一个单通道矩阵，把单通道矩阵组合成双通道矩阵，然后把一部分作为训练集，剩下的部分作为验证集。在CNN模型建立，以训练集为输入训练模型。在待预测缺陷报告预测阶段，训练好的模型加载预测一个未知缺陷报告与已知缺陷报告组成的缺陷报告对的相似度，这个相似度是一个表示缺陷报告对重复可能性的概率。本发明专利技术方法具有较高的预测准确性。

A Repeated Defect Reporting Detection Method Based on Two-Channel Convolutional Neural Network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双通道卷积神经网络的重复缺陷报告检测方法
本专利技术涉及软件测试
，特别涉及一种基于双通道卷积神经网络的重复缺陷报告检测方法。
技术介绍
现代软件项目使用如Bugzilla[17]的缺陷跟踪系统来存储和管理缺陷报告。软件开发人员，软件测试人员和终端用户在遇到软件问题时，提交缺陷报告来描述这些问题。缺陷报告可以帮助指导软件维护和修复工作。随着软件系统的发展，每天都会有数百个缺陷报告被提交。当超过一个人提交缺陷报告来描述一个相同的bug时，重复缺陷报告就产生了。因为缺陷报告总是用自然语言描述，因此同一个bug也很可能以不同的形式描述。因为缺陷报告数量庞大，手动检测重复缺陷报告是一个艰难的工作。此外，因为缺陷报告以自然语言描述，提供一个标准模版也是不实际的。因此，重复缺陷报告的自动检测是一件有意义的工作，它可以避免多次修复同一个bug。今年来，许多重复缺陷报告自动检测技术被提出来以解决这个问题。这些方法可以被粗略地分为信息检索和机器学习两个方向。信息检索方法，它通常计算两个缺陷报告在文本上的相似度，即专注于根据文本描述来计算相似度。例如Hiew使用VSM(VectorSpaceModel)建立了一个模型，它将一个报告计算为一个具有TF-IDF(TermFrequency-InverseDocumentFrequency)术语加权方案的向量。基于VSM，Runeson等人首次运用自然语言处理技术来检测重复缺陷报告。Wang等人认为仅仅考虑自然语言信息不能很好地解决这个问题，因此他们还将执行信息作为一个特征来进行重复报告检测。然而，仅仅只有一小部分报告...

【技术保护点】
1.一种基于双通道卷积神经网络的重复缺陷报告检测方法，其特征在于：包括如下步骤：S100：数据准备S101：提取软件的缺陷报告，所有缺陷报告均由结构化信息和非结构化信息组成，对于每一个缺陷报告，将所有结构化信息和非结构化信息放入一个单独的文本专利技术档中；S102：对于每一个缺陷报告，进行预处理步骤，包括分词、提取词干、去除停用词和大小写转化；S103：预处理后，所有缺陷报告中的词被组合成一个语料库，在语料库上使用现有的Word2vec并选择CBOW模型，获得每一个词的向量表示，即得到每个缺陷报告的二维矩阵表示，称为缺陷报告的二维单通道矩阵；根据提取软件的缺陷报告时，该软件缺陷跟踪系统给出的已知信息(这个配对的信息是数据集中的，是由创建数据集的人处理得到的)，将两个缺陷报告组成的缺陷报告对通过二维双通道矩阵表示，所述二维双通道矩阵由所述两个缺陷报告对应的二维单通道矩阵组合而成，然后给该双通道矩阵它打上重复或者不重复的标签；将所有打上标签的双通道矩阵，分为训练集和验证集；S200：建立CNN模型S201：将训练集和验证集中的所有双通道矩阵一起输入CNN模型；S202：在第一个卷积层中，设置...

【技术特征摘要】
1.一种基于双通道卷积神经网络的重复缺陷报告检测方法，其特征在于：包括如下步骤：S100：数据准备S101：提取软件的缺陷报告，所有缺陷报告均由结构化信息和非结构化信息组成，对于每一个缺陷报告，将所有结构化信息和非结构化信息放入一个单独的文本发明档中；S102：对于每一个缺陷报告，进行预处理步骤，包括分词、提取词干、去除停用词和大小写转化；S103：预处理后，所有缺陷报告中的词被组合成一个语料库，在语料库上使用现有的Word2vec并选择CBOW模型，获得每一个词的向量表示，即得到每个缺陷报告的二维矩阵表示，称为缺陷报告的二维单通道矩阵；根据提取软件的缺陷报告时，该软件缺陷跟踪系统给出的已知信息(这个配对的信息是数据集中的，是由创建数据集的人处理得到的)，将两个缺陷报告组成的缺陷报告对通过二维双通道矩阵表示，所述二维双通道矩阵由所述两个缺陷报告对应的二维单通道矩阵组合而成，然后给该双通道矩阵它打上重复或者不重复的标签；将所有打上标签的双通道矩阵，分为训练集和验证集；S200：建立CNN模型S201：将训练集和验证集中的所有双通道矩阵一起输入CNN模型；S202：在第一个卷积层中，设置个卷积核其中d是卷积核的长度，kw是卷积核的宽度；在第一次卷积后，双通道矩阵的两个通道就合并成一个了，第一层卷积公式为：其中C1表示第一个卷积层的输出，i表示第一个卷积层输入I1的第i个通道，j1表示输入的第j1行，b1表示偏移量，f1表示非线性的激活函数，给定输入的长度l(l＝nw)，填充值P＝0和步长S＝1，输出的长度O1可以被计算为：第一个卷积层的输出形状为将第一个卷积层的输出形状重塑成然后再卷积，在第二个卷积层，又设置了三种大小的卷积核每种卷积核个，第二层卷积的公式为：其中C2表示第二个卷积层的输出，j2表示第二个卷积层输入I2的第j2行，b2表示偏移量，f2表示非线性的激活函数，在这次卷积之后，会得到三种形状为的特征图，其中O2可以根据l(l＝O1)和不同的卷积核长度d，按...

【专利技术属性】
技术研发人员：徐玲，何健军，帅鉴航，杨梦宁，张小洪，洪明坚，葛永新，杨丹，王洪星，黄晟，陈飞宇，
申请(专利权)人：重庆大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人