一种基于自然语言处理的众包测试报告相似度检测的方法技术

技术编号：31157896 阅读：22 留言：0更新日期：2021-12-04 09:56

一种基于自然语言处理的众包测试报告相似度检测的方法，采用自然语言处理技术检测众包工人提交的复杂测试报告的相似度，其中功能是对众测报告进行中文分词、去停用词等预处理，将预处理完之后的词组表示的句子利用Word2Vec技术表示为词向量，选取余弦相似度的度量方式计算词向量之间的距离，采用根据先前大量众测报告数据训练的语义模型进行训练，再将各词向量作为K-Means聚类分析的输入，对各个词向量进行聚类分析，根据设定的相似度阈值将相似的报告归为同一类，可以较为准确的衡量众包测试报告之间的相似度。众包测试报告之间的相似度。众包测试报告之间的相似度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言处理的众包测试报告相似度检测的方法

[0001]本专利技术属于软件工程领域，是自然语言处理在软件工程领域的应用，用于检测代码相似度。

技术介绍

[0002]相似众包测试报告检测是提高众测报告利用率，减少测试人员阅读重复报告的工作量的关键技术。众包测试报告是众包工人完成发起者制定的任务之后反馈给测试人员的结果，测试人员依据众测报告指导Bug的复现和定位。如果众测报告中有大量的重复内容描述的是相同的Bug内容，测试人员在阅读前无法预先得知该份报告描述的Bug是否是之前已提到过的，因此测试人员需要浪费大量的时间在阅读重复报告上，这对于测试人员复现和定位Bug没有任何的帮助。因此研究人员非常关注检测相似众包测试报告的问题，以帮助提高众包测试报告的有效性。
[0003]众包测试报告相似可能会有以下两种原因导致：
[0004]1)原因一：由于每个众包工人都会参与所有的测试任务，因此难免会出现多个众包工人发现相同的Bug，对于同一Bug多个工人会采用类似的词汇和句子去形容，因此这样就导致了多份众测报告中的重复内容。
[0005]2)原因二：由于众包测试提供金钱激励，因此会存在某些恶意工人抄袭他人测试报告骗取奖励的行为。
[0006]对于原因二所导致的众包测试报告通常相似度非常高，大部分的文本内容完全相同，因此传统的文本相似度分析对于相似报告的检测效果比较好。但针对原因一，多份测试报告中只是词语和句子意思相近，并不完全相同。针对这种原因所导致的相似众包测试报告，传统的纯文本相似度分析的...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的众包测试报告相似度检测的方法，其特征是构建众包测试语料库，在众包测试语料库的基础上训练有监督的语义模型，利用语料词、停用词和近义词库进行输入预处理，利用Word2Vec技术计算报告对应的词嵌入向量，选取特征向量化，通过余弦相似度作为度量计算报告相似度，采用K-means进行聚类分析，最终得到高相似度的报告类簇。2.根据权利要求1所描述的一种基于自然语言处理的众包测试报告相似度检测的方法，其特征是构建众包测试语料库，在众包测试语料库的基础上训练有监督的语义模型，主要通过以下几个步骤进行划分：1)首先，基于以往的大量众包测试报告数据挑选典型的Bug场景，针对每一特定场景首先由专家团队给出该Bug的典型描述，并且收集针对该场景的两类描述。第一类描述与典型描述内容不完全相同，但通过意思相近的表述都很好的阐明了该场景下的Bug的具体表现；第二类描述与典型描述有大部分的文本内容相同，但通过修改少量的内容(如主语，谓语)描述了完全不同的Bug；2)针对上述收集的数据，构建众包测试的专有名词语料库，总结众包测试近义词库；3)针对上述收集的数据，人为标记描述之间相似与否，基于神经网络的计算模型，训练众包测试报告语义模型；通过多次迭代与调整参数，在测试集上达到理想的检测效果，则训练完成语义模型。3.根据权利要求1所描述的一种基于自然语言处理的众包测试报告相似度检测的方法，其特征是利用语料词、停用词和近义词库进行输入预处理并利用Word2Vec技术计算报告对应的词嵌入向量；将输入的众包测试报告首先进行预处理，通过之前总结好的停用词表，对众包测试...

【专利技术属性】
技术研发人员：房春荣，曹振飞，王旭，虞圣呈，恽叶霄，李彤宇，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人