一种基于语义相似度的中文众包测试报告聚类方法技术

技术编号:28873039 阅读:38 留言:0更新日期:2021-06-15 23:06
本发明专利技术公开了一种基于语义相似度的中文众包测试报告聚类方法,包括:输入中文测试报告集,剔除无效测试报告,并将有效测试报告进行分句处理,得到测试报告句子对数据集;构建测试报告句子对训练集对语义相似度模型进行训练,得到语义相似度计算模型;将测试报告句子对数据集输入至语义相似度计算模型中进行语义相似度计算,得到测试报告相似度矩阵;设置测试项目预期的bug数量,根据测试报告相似度矩阵进行谱聚类,得到测试报告类簇;根据测试报告类簇对测试报告相似度矩阵进行分解,得到每个类簇的测试报告相似度矩阵,计算每类簇中累计相似度得分Top‑5的测试报告作为最终输出结果。提高了众包测试平台测试报告审查自动化流程,有效提升了测试报告审查效率。

【技术实现步骤摘要】
一种基于语义相似度的中文众包测试报告聚类方法
本专利技术涉及通信
,尤其涉及一种基于语义相似度的中文众包测试报告聚类方法。
技术介绍
在众包软件测试过程中,众包工人发现并提交软件使用过程中出现的问题,撰写称测试报告提交给被测试方用以换取报酬。一个众包测试项目通常会收到成百上千份的测试报告,有研究指出在提交的软件问题报告中,仅有不到50%的报告揭示的是软件真实存在的缺陷,平均82%的众测报告是重复的。如果包含大量重复和假阳性的报告集由被测试方手动检查,这将会耗费大量的时间和人力测试成本。因此,高效且自动化的去除出重复报告和假阳性报告是非常有必要的。众包软件测报告形式的多样性由测试报告提交方式的多样性决定。收集到的报告内容可能包含文本描述,堆栈信息或程序截图中的一种或者多种。绝大多数测试报告都包含有文本描述,叙述了问题的表现形式或问题出现前的软件的操作步骤。这些极其关键的信息帮助开发人员区分和定位软件缺陷,同样将用于自动化分析测试报告。现有的大部分基于文本特征进行的报告分类的方法都是抽取关键词来构建报告的文本特征。但是,针对中本文档来自技高网...

【技术保护点】
1.一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,包括:/n输入中文测试报告集,剔除无效测试报告,并将有效测试报告进行分句处理,得到测试报告句子对数据集;/n利用测试报告句子对训练集对语义相似度模型进行训练,得到语义相似度计算模型;/n将测试报告句子对数据集输入至语义相似度计算模型中进行语义相似度计算,得到测试报告相似度矩阵;/n设置测试项目预期的bug数量,根据测试报告相似度矩阵进行谱聚类,得到测试报告类簇;/n根据测试报告类簇对测试报告相似度矩阵进行分解,得到每个类簇的测试报告相似度矩阵,计算每类簇中累计相似度得分大于设定阈值的测试报告作为最终输出结果。/n

【技术特征摘要】
1.一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,包括:
输入中文测试报告集,剔除无效测试报告,并将有效测试报告进行分句处理,得到测试报告句子对数据集;
利用测试报告句子对训练集对语义相似度模型进行训练,得到语义相似度计算模型;
将测试报告句子对数据集输入至语义相似度计算模型中进行语义相似度计算,得到测试报告相似度矩阵;
设置测试项目预期的bug数量,根据测试报告相似度矩阵进行谱聚类,得到测试报告类簇;
根据测试报告类簇对测试报告相似度矩阵进行分解,得到每个类簇的测试报告相似度矩阵,计算每类簇中累计相似度得分大于设定阈值的测试报告作为最终输出结果。


2.根据权利要求1所述的一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,输入中文测试报告集,剔除无效测试报告的方法包括:
若中文测试报告中测试用例字段或者结果描述字段缺失,视为无效报告;
由正则表达式“(测试|执行|实施)+(通过|正常|无误|成功)+”匹配到测试报告视为无效报告;
由正则表达式“(没有|未|无|没)(发现|检测|检查)?(任何|一个|几个)?(错误|缺陷|bug|漏洞|问题)+”匹配到测试报告视为无效报告;
由正则表达式“(无|pass|ok)$”匹配到测试报告视为无效报告。


3.根据权利要求1所述的一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,将有效测试报告进行分句处理包括:
使用正则表达式对有效测试报告的测试用例描述和结果描述字段进行分句。


4.根据权利要求3所述的一种基于语义相似度的中文众包测试报告聚类方法,其特征在于,句子划分的正则表达式为:
单句结束符:如果被单句正则表达式“([。!?;\?])([^”’])”切分,视为一个完整句子;
英文省略符:如果被英文省略号正则表达式“(\.{6})([^”’;]”切分,视为一个完整句子;

【专利技术属性】
技术研发人员:黄松陈浩史涯晴郑长友王梅娟吴开舜刘语婵骆润
申请(专利权)人:中国人民解放军陆军工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1