一种基于DBM深度学习的众包缺陷分类方法技术

技术编号:32752487 阅读:61 留言:0更新日期:2022-03-20 09:02
本发明专利技术披露了一种基于DBM深度学习的众包缺陷分类方法,其是对在众包场景下测试工人提交的测试报告,对测试报告中的文本描述和图片分别进行数据预处理得到文本数据和图像数据;然后进行多模态数据特征的提取与融合,借助深度玻尔兹曼机,对所述文本数据和图像数据进行特征融合,且输出得到文本和图像的合成向量;最后是训练分类模型,包括将所述合成向量输入到SVM支持向量机中,直接输出预定义好的分类结果。本发明专利技术可以更加精准地对众包测试场景下的Bug报告进行特征融合,Bug分类,从而有效进行任务分配,提高了众包测试场景下Bug分类的准确率,降低了人工审核的压力,提高了人工审核的效率。核的效率。核的效率。

【技术实现步骤摘要】
一种基于DBM深度学习的众包缺陷分类方法


[0001]本专利技术属于软件测试与深度学习分类领域,尤其涉及一种基于DBM深度学习的众包缺陷分类方法的技术。

技术介绍

[0002]随着各类企业产品的快速发展,产品功能越来越复杂。为了保证产品质量和用户体验,企业对产品测试的需求也在不断的增加。在这种背景下,众包测试通过云平台招募互联网中的未知大众执行软件测试任务,以获取真实的用户体验,以其省钱、省时、高效的特点被市场采纳,得以迅速发展。在众包测试中,众包测试工人通过模拟真实的用户使用场景进行测试,这种云平台的优势使得众包测试可以在满足条件的任意环境下开展,促使了测试报告规模的剧增。Bug是指软件或程序中隐藏的错误、缺陷、漏洞或问题。Bug可能导致应用无法正常使用或存在严重的安全隐患。为了提升Bug的修复效率,众包测试报告通常需要经过专家审核后,划分为不同的类别以判断报告的严重程度并推荐合适的开发人员。例如,功能错误(程序中存在未实现功能或功能错误)的严重程度远大于用户体验问题(能够提升用户体验的优化建议),应优先修复。另外,为了节省成本,大多数的众包测试工人都是非专业的测试人员,仅依靠测试人员进行Bug分类难以保障分类的准确性。
[0003]目前,针对众包测试Bug分类这一领域,学术界和工业界已经有了较为成熟的研究和应用。由于众包测试中存在多模态数据(来源和形式不同的数据称为多模态数据,众包测试报告中常见的数据模态包括文本、图像等),大多数传统的做法是通常将Bug报告中的文本和图像分别处理后再进行加权(如通过朴素贝叶斯、KNN(k

nearest neighbor,K最近邻)、SVM(support vector machines,支持向量机)、RNN(循环神经网络)处理文本分类,通过KNN、CNN(convolutional neural network,卷积神经网络,一种被广泛应用于图像识别领域的深度学习算法)处理图像分类)。然而,在一份由文本和图像信息组成的多模态报告中,文本和图像通常描述相同的Bug,具有极强的关联性。这样分别处理后进行加权的做法难以捕捉的多模态数据之间的内在联系,一定程度上影响分类准确率另一方面,未来本专利技术可能在Bug报告的描述中引入其他的模态信息,如视频信息,日志信息等。由于不同模态的信息处理方式不同,如果每次都对不同模态的信息都要分别进行处理,这种方式无疑是非常低效的,并且不同模态信息之间的内在联系也会更加难以挖掘。

技术实现思路

[0004]本专利技术通过提供一种基于DBM深度学习的众包缺陷分类方法,用于解决众包测试场景下非专业测试工人提交的大量测试报告分类难的问题,提高分类效率,降低人工审核压力。
[0005]本专利技术通过下述技术方案来实现本专利技术目的:一种基于DBM深度学习的众包缺陷分类方法,该众包缺陷分类方法是对在众包场景下测试工人提交的测试报告,对测试报告中的文本描述和图片分别进行数据预处理得到文本数据和图像数据;然后进行多模态数据
特征的提取与融合,即借助DBM(Deep Boltzmann Machine,深度玻尔兹曼机,一种特殊构造的深度神经网络,常用于特征抽取和融合)对所述文本数据和图像数据进行特征融合,且输出得到文本和图像的合成向量;最后是训练分类模型,包括将所述合成向量输入到SVM中,直接输出预定义好的分类结果,所述预定义好的分类结果包含了不正常退出、数据错误、功能错误、页面布局错误、用户体验、和性能问题六大类别;所述深度玻尔兹曼机是以受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)为基础的深度学习模型,由多层受限玻尔兹曼机叠加而成的,受限玻尔兹曼机是通过输入数据集学习概率分布的随机生成神经网络,为双层神经网络,即只有一个可见层和一个隐藏层,而所述深度玻尔兹曼机具有多层隐单元层,即除了输入的可见层和输出层外的其他所有层;所述深度玻尔兹曼机用于结合不同模态的数据特征来创建融合数据的表征,能够同时对文本数据和图像数据进行压缩,得到测试报告信息的有效表示;所述深度玻尔兹曼机是从每个数据模态的条件分布中取样,即使在某些数据模态缺失的情况下也可以完成特征表示。
[0006]进一步地,所述文本描述预处理:首先进行清洗,清洗掉非常规字符,非常规字符包括数字、英文、标点,其次采用jieba结巴,进行分词与去除停用词。分词即将语句拆分成词汇,去除停用词即去除对文本分析没有帮助的词,包括连词、虚词、语气词,最后通过TF

IDF进行词频统计,TF是指词频,IDF是指逆文本频率指数;所述图片预处理:首先对图片进行尺寸调整,屏蔽掉图像像素特征的差异,之后进行滤波处理,平滑图像,去除噪音。
[0007]进一步地,所述多模态数据特征的提取与融合包括下列步骤:首先,以所述文本数据和图像数据作为可见层数据,所述可见层数据是指输入神经网络的用户可见的神经网络层,通过对比散列算法提取出隐单元层的特征向量,最后,形成一个多模态的DBM网络,所述多模态的DBM网络包括文本DBM网络模型和图像DBM网络模型,在所述文本DBM网络模型和图像DBM网络模型的基础上增加一层二进制神经网络层进行结合,即将文本和图像模态的特征一起映射到该层二进制神经网络层上,这一层也作为整个模型的最终输出层再使用反向传播算法寻找最优解,作为分类结果,所述反向传播算法是适合于多层神经元网络的一种学习算法,通过反馈的方式从输出层倒推输入层,直到网络输入层达到预定的目标范围,所述最优解是指经过反向传播后误差值最小的参数;所述玻尔兹曼机是一种基于能量的模型,其对应的联合概率分布为:其中,能量E越小,对应状态的概率越大,Z是归一化因子,用作归一化,包含三层隐藏层的深度玻尔兹曼机,联合概率分布为:其能量形式如下:其中,E为可见层与输入层之间的能量函数;表示可见输入层,T表示转置,表示隐藏层,表示整个模型的参数;v∈{0,1},为可见节点状态;∈{0,1},为第一层隐
单元状态;为第一组单元连接权值;∈{0,1},为第二层隐单元状态;为第二组单元连接权值;∈{0,1},为第三层隐单元状态;为第三组单元连接权值;联合概率分布表示映射到某一合成向量上的概率,能量E确保模型稳定性,最终输出得到所述文本和图像的合成向量。
[0008]进一步地,所述TF

IDF是一种用于信息检索与数据挖掘的常用加权技术,某一特定词语的IDF逆文本频率 (IDF) :某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到;其中,分母之所以要加1,是为了避免分母为0;如果包含词条w的文档越少,IDF越大,则说明词条具有很好的类别区分能力,而TF

IDF实际上等于TF与IDF的乘积:。
[0009]本专利技术具有下列技术效果:本专利技术针对于现有技术存在的问题,为了提高Bug分类(包含不正常退出、数据错误、功能错误、页面布局错误、用户体验、和性能问题六种类别)的准确率,本专利技术的技术方案针对众包测试下的Bug分类场本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DBM深度学习的众包缺陷分类方法,其特征在于,该众包缺陷分类方法是对众包场景下测试工人提交的测试报告,对所述测试报告中的文本描述和图片分别进行数据预处理得到文本数据和图像数据;然后进行多模态数据特征的提取与融合,即通过DBM深度玻尔兹曼机对所述文本数据和图像数据进行特征融合,且输出得到文本和图像的合成向量;最后是训练分类模型,包括将所述合成向量输入到SVM支持向量机中,直接输出预定义好的分类结果,所述预定义好的分类结果包含了不正常退出、数据错误、功能错误、页面布局错误、用户体验、和性能问题六大类别;所述深度玻尔兹曼机是以受限玻尔兹曼机为基础的深度学习模型,由多层受限玻尔兹曼机叠加而成,受限玻尔兹曼机是通过输入数据集学习概率分布的随机生成神经网络,为双层神经网络,即只有一个可见层和一个隐藏层,而所述深度玻尔兹曼机具有多层隐单元层,即除了输入的可见层和输出层外的其他所有层;所述深度玻尔兹曼机用于结合不同模态的数据特征来创建融合数据的表征,能够同时对文本数据和图像数据进行压缩,得到测试报告信息的有效表示;所述深度玻尔兹曼机是从每个数据模态的条件分布中取样,即使在某些数据模态缺失的情况下也可以完成特征表示。2.根据权利要求1所述的基于DBM深度学习的众包缺陷分类方法,其特征在于,所述文本描述进行预处理是:首先进行清洗,清洗掉非常规字符,非常规字符包括数字、英文、标点,其次采用jieba结巴,进行分词与去除停用词,分词即将语句拆分成词汇,去除停用词即去除对文本分析没有帮助的词,包括连词、虚词、语气词,最后通过TF

IDF进行词频统计,TF是指词频,IDF是指逆文本频率指数;所述图片进行预处理是:首先对图片进行尺寸调整,屏蔽掉图像像素特征的差异,之后进行滤波处理,平滑图像,去除噪音。3.根据权利要求1所述的基于DBM深度学习的众包缺陷分类方法,其特征在于,所述多模态数据特征的提取与融合包括下列步骤:首先,以所述文本数据和图像数据作为可见层数据,所述可见层数据是指输入...

【专利技术属性】
技术研发人员:杨鹏张晋桂余明辉赵聚雪王瑾陈振宇
申请(专利权)人:广东拓思软件科学园有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1