基于AP近邻传播算法的众包测试报告聚类方法技术

技术编号:31311267 阅读:26 留言:0更新日期:2021-12-12 21:43
本发明专利技术公开了一种基于AP近邻传播算法的众包测试报告聚类方法。本发明专利技术首先利用自然语言处理技术抽取关键词,并利用同义词林将相同或相近的词替换为同一个词,有效解决不同词语引起的语义偏差问题。然后采用非对称相似度策略计算测试报告之间的相似度,该策略能有效克服测试报告长度差异较大情况下相似度计算不准确问题。最后,利用AP近邻传播聚类算法对测试报告进行聚类。通过本发明专利技术方法能提高众包测试报告聚类效果,开发者仅需要从每个簇中选择一个测试报告进行审查,极大地降低了开发者审查时间,对软件维护具有非常重要的意义。对软件维护具有非常重要的意义。对软件维护具有非常重要的意义。

【技术实现步骤摘要】
基于AP近邻传播算法的众包测试报告聚类方法


[0001]本专利技术涉及软件维护领域,尤其涉及一种基于AP近邻传播算法的众包测试报告聚类方法。

技术介绍

[0002]在众包测试(crowdsourced testing)中,众包工人(crowd workers)帮助开发者执行测试并提交测试报告,开发者需要对提交的测试报告进行人工审查,根据测试报告的描述内容,确定软件出现问题的源文件并进行修复。在软件维护中,众包测试报告是一种非常重要的资源,它能帮助开发者改善软件系统,提高软件质量。与传统的软件测试相比,众包测试有着明显的优势。首先,众包测试招聘的不仅仅是专业的测试人员,还包括终端用户进行测试,能获得更加真实的用户体验信息。其次,众包测试招聘的众包工人数量巨大,他们能提供各种不同类型的测试环境。最后,在一些特定的场景中,如移动应用测试,众包工人能够在任何时间任何地点进行测试,能极大地提高软件测试效率。
[0003]在移动应用众包测试中,测试任务常常需要在较短的时间内完成,所有工人被要求同时执行测试并提交测试报告。为了追求利益或者其他目的,工本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于AP近邻传播算法的众包测试报告聚类方法,其特征在于包括如下步骤:步骤(1)从数据集中获取测试报告集合TR=(TR1,TR2,...,TR
n
),n为测试报告数量,将每个样本表示成TR
i
=<id,summary,input>,i=1,2,...,n,其中id表示测试报告编号,summary表示测试报告中的软件缺陷描述信息,input表示测试报告中测试输入信息;步骤(2)对每个样本TR
i
中的中文文本内容summary和input进行预处理;经过预处理后每个样本表示为TR
i
=<id,preSummary,preInput>,其中preSummary和preInput分别表示预处理后的缺陷描述信息和测试输入信息;步骤(3)向量表示:将每个测试报告表示成向量形式:TR
i
=(v
i1
,v
i2
,...,v
im
),v
im
为测试报告中单词W
m
的权重,m为所有测试报告包含的单词的个数;步骤(4)建立非对称相似度矩阵:对于测试报告TR
i
和TR
j
,假设其包含的相同的词集合为s,那么如果s在TR
i
的比重较高,则TR
i
对TR
j
的相似度较高,同理,如果s在TR
i
的比重较低,则TR
i
对TR
i
的相似度较低;基于这种特性,非对称相似度的定义为:其中s(i,j)表示测试报告TR
i
到TR
j
的相似度,v
ik
表示单词k在测试报告TR
i
中的权重;步骤(5)初始化AP近邻传播算法的相关参数,包括当前迭代次数t、最大迭代次数maxIterNum、阻尼因子λ、聚类中心未发生变化的最大代数stableNum、聚类中心未发生变化的当前连续代数δ,测...

【专利技术属性】
技术研发人员:陈信孙添俞东进程世超
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1