一种基于DBM深度学习的众包缺陷分类方法技术

技术编号：32752487 阅读：61 留言：0更新日期：2022-03-20 09:02

本发明专利技术披露了一种基于DBM深度学习的众包缺陷分类方法，其是对在众包场景下测试工人提交的测试报告，对测试报告中的文本描述和图片分别进行数据预处理得到文本数据和图像数据；然后进行多模态数据特征的提取与融合，借助深度玻尔兹曼机，对所述文本数据和图像数据进行特征融合，且输出得到文本和图像的合成向量；最后是训练分类模型，包括将所述合成向量输入到SVM支持向量机中，直接输出预定义好的分类结果。本发明专利技术可以更加精准地对众包测试场景下的Bug报告进行特征融合，Bug分类，从而有效进行任务分配，提高了众包测试场景下Bug分类的准确率，降低了人工审核的压力，提高了人工审核的效率。核的效率。核的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于DBM深度学习的众包缺陷分类方法

[0001]本专利技术属于软件测试与深度学习分类领域，尤其涉及一种基于DBM深度学习的众包缺陷分类方法的技术。

技术介绍

[0002]随着各类企业产品的快速发展，产品功能越来越复杂。为了保证产品质量和用户体验，企业对产品测试的需求也在不断的增加。在这种背景下，众包测试通过云平台招募互联网中的未知大众执行软件测试任务，以获取真实的用户体验，以其省钱、省时、高效的特点被市场采纳，得以迅速发展。在众包测试中，众包测试工人通过模拟真实的用户使用场景进行测试，这种云平台的优势使得众包测试可以在满足条件的任意环境下开展，促使了测试报告规模的剧增。Bug是指软件或程序中隐藏的错误、缺陷、漏洞或问题。Bug可能导致应用无法正常使用或存在严重的安全隐患。为了提升Bug的修复效率，众包测试报告通常需要经过专家审核后，划分为不同的类别以判断报告的严重程度并推荐合适的开发人员。例如，功能错误（程序中存在未实现功能或功能错误）的严重程度远大于用户体验问题（能够提升用户体验的优化建议），应优先修复。另外，为了节省成本，大多数的众包测试工人都是非专业的测试人员，仅依靠测试人员进行Bug分类难以保障分类的准确性。
[0003]目前，针对众包测试Bug分类这一领域，学术界和工业界已经有了较为成熟的研究和应用。由于众包测试中存在多模态数据（来源和形式不同的数据称为多模态数据，众包测试报告中常见的数据模态包括文本、图像等），大多数传统的做法是通常将Bug报告中的文本和图像分别处理后再进行加权（如通过朴素贝...

【技术保护点】

【技术特征摘要】
1.一种基于DBM深度学习的众包缺陷分类方法，其特征在于，该众包缺陷分类方法是对众包场景下测试工人提交的测试报告，对所述测试报告中的文本描述和图片分别进行数据预处理得到文本数据和图像数据；然后进行多模态数据特征的提取与融合，即通过DBM深度玻尔兹曼机对所述文本数据和图像数据进行特征融合，且输出得到文本和图像的合成向量；最后是训练分类模型，包括将所述合成向量输入到SVM支持向量机中，直接输出预定义好的分类结果，所述预定义好的分类结果包含了不正常退出、数据错误、功能错误、页面布局错误、用户体验、和性能问题六大类别；所述深度玻尔兹曼机是以受限玻尔兹曼机为基础的深度学习模型，由多层受限玻尔兹曼机叠加而成，受限玻尔兹曼机是通过输入数据集学习概率分布的随机生成神经网络，为双层神经网络，即只有一个可见层和一个隐藏层，而所述深度玻尔兹曼机具有多层隐单元层，即除了输入的可见层和输出层外的其他所有层；所述深度玻尔兹曼机用于结合不同模态的数据特征来创建融合数据的表征，能够同时对文本数据和图像数据进行压缩，得到测试报告信息的有效表示；所述深度玻尔兹曼机是从每个数据模态的条件分布中取样，即使在某些数据模态缺失的情况下也可以完成特征表示。2.根据权利要求1所述的基于DBM深度学习的众包缺陷分类方法，其特征在于，所述文本描述进行预处理是：首先进行清洗，清洗掉非常规字符，非常规字符包括数字、英文、标点，其次采用jieba结巴，进行分词与去除停用词，分词即将语句拆分成词汇，去除停用词即去除对文本分析没有帮助的词，包括连词、虚词、语气词，最后通过TF
‑
IDF进行词频统计，TF是指词频，IDF是指逆文本频率指数；所述图片进行预处理是：首先对图片进行尺寸调整，屏蔽掉图像像素特征的差异，之后进行滤波处理，平滑图像，去除噪音。3.根据权利要求1所述的基于DBM深度学习的众包缺陷分类方法，其特征在于，所述多模态数据特征的提取与融合包括下列步骤：首先，以所述文本数据和图像数据作为可见层数据，所述可见层数据是指输入...

【专利技术属性】
技术研发人员：杨鹏，张晋桂，余明辉，赵聚雪，王瑾，陈振宇，
申请(专利权)人：广东拓思软件科学园有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人