一种基于源代码文件依赖关系的软件缺陷定位系统技术方案

技术编号：27204412 阅读：32 留言：0更新日期：2021-01-31 12:22

本发明专利技术通过人工智能领域的方法，实现了一种基于源代码文件依赖关系的软件缺陷定位系统，系统分为输入、运算、输出三个模块，输入模块用于导入缺陷报告和源码文件，输出模块用于将源码文件按照相关性得分排序后对外输出，运算模块采用DependLoc框架，由三个子模块组成，CNN4TFIDF模型子模块根据缺陷报告和源码文件的TF

全部详细技术资料下载

【技术实现步骤摘要】
一种基于源代码文件依赖关系的软件缺陷定位系统

[0001]本专利技术涉及人工智能领域，尤其涉及一种基于源代码文件依赖关系的软件缺陷定位系统。

技术介绍

[0002]开源软件通常使用缺陷追踪系统(如Bugzilla和JIRA)对缺陷进行记录，每天都有大量的缺陷报告提交。缺陷报告中包含对缺陷的描述，失效时的相关程序状态、日志等。因此，研究人员试图根据提交的缺陷报告，自动定位到出错的程序实体。基于缺陷报告的缺陷定位可被看作是一个查询问题，即对于给定的缺陷报告(查询)，需要从应用的所有源代码文件(文档)中找到可能出错的文件，并将可疑的源码文件按照出错的可能性进行排名。近些年来，围绕缺陷报告进行定位的研究工作主要可划分为两类：采用信息检索技术和采用深度学习技术。
[0003]基于信息检索的缺陷定位的相关研究工作可从信息检索的三个要素进行分类：检索模型、文档(表示)、以及查询(表示)。多数研究工作关注于如何利用或优化信息检索模型来提高缺陷定位的准确性。其中，对于缺陷定位，向量空间模型(VSM)已被证明效果优于其他常用信息检索模型。BugLocator是利用VSM 的代表性研究工作。该工作利用TF-IDF分别将缺陷报告和源代码文件向量化，然后通过计算余弦相似度来衡量它们之间的相似性。BugLocator在VSM的基础上还考虑了源代码文件大小(即文件越大，出错的可能性越高)，和已被修复缺陷的修复信息(即如果两个缺陷报告相似度较高，那它们可能需要修复相似的文件)。
[0004]基于深度学习的缺陷定位为基于信息检索的定位...

【技术保护点】

【技术特征摘要】
1.一种基于源代码文件依赖关系的软件缺陷定位系统，其特征在于：系统分为输入、运算、输出三个模块，其中所述输入模块用于导入缺陷报告和源码文件，所述运算模块采用DependLoc框架，由三个子模块CNN4TFIDF模型子模块、片段RefHI编码器子模块和CNN4RefHI子模块组成，具体地：CNN4TFIDF模型子模块根据缺陷报告和源码文件的TF-IDF向量，以卷积神经网络的方法捕获文本相似度、源码文件长度以及相似缺陷报告等特征；片段RefHI编码器子模块首先在将所述缺陷报告和源码文件拆分成等大小的片段，片段词汇通过词嵌入并输入卷积神经网络一，若词嵌入的向量维度为k，一条语句包含n个词汇，则将n
×
k维的向量输入所述卷积神经网络一，令所述卷积神经网络一的卷积核高度为k
h
，k
h
为正整数，则卷积核大小为k
h
×
k，可同时设置多个不同规格的卷积核，即卷积核的高度k
h
可同时设置为多个值，常用的值包括3、4、5，然后对不同卷积核大小得到的结果进行最大池化操作，再将最大池化后的结果进行拼接，最后，所述卷积神经网络一通过两个全连接层输出一个n
HI
维向量，同时构建文件依赖图，进而结合所述基于文件依赖图，采用一种基于文件依赖图的定制化蚁群算法来模拟可能的文件引用路径，得到反应每个文件被引用的次数的引用热度值，并将所述引用热度值划定引用热度区间，利用引用热度区间向量的构建方法得到片段RefHI向量，将缺陷报告和源码文件编码成具有源码依赖关系特征的向量；CNN4RefHI子模块基于缺陷报告和源码文件的RefHI向量它们之间的相关性得分；所述输出模块用于将源码文件按照相关性得分排序后对外输出。2.如权利要求1所述的一种基于源代码文件依赖关系的软件缺陷定位系统，其特征在于：所述CNN4TFIDF模型子模块针对输入的缺陷报告和源码文件，根据源代码文件的词汇空间，所述词汇空间大小为N，N为正整数，生成两个N维的TF-IDF向量，将缺陷报告和源码文件的TF-IDF向量合并为2
×
N维张量作为卷积神经网络模型的输入，并设定卷积核的大小为2
×
k
w
，k
w
为所述卷积核宽度，所述卷积核个数为k
n
，进行卷积运算后得到(N-k
w
+1)维的向量，设定池化窗口大小为p，完成最大池化操作后，得到用于与所述CNN4RefHI子模块的输出拼接并融合的，尺寸为k
n
×
((N-k
w
+1)/p)的输出向量，k
w
、k
n
、p均为正整数。3.如权利要求2所述的一种基于源代码文件依赖关系的软件缺陷定位系统，其特征在于：所述片段RefHI编码器子模块采用的所述一种基于文件依赖图的定制化蚁群算法具体实现方式为：首先，定义蚁群算法中每只蚂蚁的能量，并设定路径集合初始化为空，所述文件依赖图中所有节点作为起始节点集合，从所述起始节点集合中随机选择一个节点作为起始，若当前节点的出度为0，则重新从所述起始节点集合中随机选择一个节点作为起始；否则，蚂蚁从当前节点的出节点中随机选择一个节点作为下一步，如果所述下一步未被访问，即不在所述路径集合中，则所述下一步加入所述路径集合；如果所述下一步已被访问，即在所述路径集合中，且所述下一步的出节点中仍有节点未被访问，则所述下一步加入所述路径集合；如果所述下一步已被访问，且所述下一步的所有出节点均被访问过，则蚂蚁停止；同时设置检查下一步的出节点是否均被访问过的机制来避免环形依赖导致的无限循环，收集所述路径集合后，每个文件被引用的次数...

【专利技术属性】
技术研发人员：孙海龙，刘旭东，袁薇，齐斌航，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人