【技术实现步骤摘要】
基于半监督概率潜在语义分析的软件变更日志分类方法
本专利技术属于计算机信息技术及软件工程
,尤其涉及一种基于半监督概率潜在语义分析的软件变更日志分类方法。
技术介绍
目前,在计算机领域中,通常会对已经处理的操作进行记录,生成处理日志,用于后续能够从记录的处理日志中了解已经进行的操作情况,以及还可以根据记录的处理日志确定相应的后续操作策略。在计算机软件的运行、管理和维护过程中,往往因为软件存在BUG、错误或者缺陷需要对软件进行修复处理,或者为了适应新的环境或新的需求而对软件新增软件功能或软件特征,或者为了提高软件的可读性、可重用性、可维护性等而需要对软件进行重新编辑或重新构建(也称为软件重构)。这些操作,都会对使得软件代码程序发生变更,相应地,也会产生软件变更日志,以便于后期对计算机软件的管理和维护过程中,能够根据软件变更日志了解软件的变更历史,从而能够对软件所出现问题加以统计、定位处理,进而对软件产品的质量指标、生命周期、运行风险等进行分析。而软件的日志数据库中,软件变更日志可能数量众多,要根据软件变更日志进行软件相关分析,就必须要对软件变更日志加以分类,以 ...
【技术保护点】
基于半监督概率潜在语义分析的软件变更日志分类方法,其特征在于,包括如下步骤:A)根据先验知识,划分变更日志类别,并确定每个变更日志类别对应的关键单词,将各个变更日志类别对应的全部关键单词的集合作为单词字典;所述单词字典中每个变更日志类别对应的一个关键单词,是根据先验知识对属于相应变更日志类别的软件变更日志进行词干提取所获得的词干中的一个单词;所述变更日志类别具体划分为三类,即:第1个变更日志类别z1:修复软件损坏、错误或缺陷所产生的软件变更日志;第2个变更日志类别z2:新增软件功能或软件特征所产生的软件变更日志;第3个变更日志类别z3:对软件进行重新编辑或重新构建所产生的软 ...
【技术特征摘要】
1.基于半监督概率潜在语义分析的软件变更日志分类方法,其特征在于,包括如下步骤:A)根据先验知识,划分变更日志类别,并确定每个变更日志类别对应的关键单词,将各个变更日志类别对应的全部关键单词的集合作为单词字典;所述单词字典中每个变更日志类别对应的一个关键单词,是根据先验知识对属于相应变更日志类别的软件变更日志进行词干提取所获得的词干中的一个单词;所述变更日志类别具体划分为三类,即:第1个变更日志类别z1:修复软件损坏、错误或缺陷所产生的软件变更日志;第2个变更日志类别z2:新增软件功能或软件特征所产生的软件变更日志;第3个变更日志类别z3:对软件进行重新编辑或重新构建所产生的软件变更日志;B)获取若干个属于上述三个变更日志类别且所属变更日志类别已知的软件变更日志作为训练样本,所有训练样本的集合作为训练数据库;分别统计训练数据库中属于第k个变更日志类别zk的训练样本个数nk,k∈{1,2,…,K},K为变更日志类别数,即K=3,并对训练数据库中每个训练样本分别进行词干提取处理,得到每个训练样本的词干中所包含的各个单词;C)建立单词字典中的关键单词、软件变更日志与变更日志类别之间的概率潜在语义分析模型:其中,P(wj|zk)表示单词字典中第j个关键单词wj与第k个变更日志类别zk的概率关系,k∈{1,2,3};P(zk|di)表示第k个变更日志类别zk与第i个软件变更日志di的概率关系;P(di)表示第i个软件变更日志di相对于训练数据库的单词数量概率,即ni表示第i个软件变更日志di的词干中所包含的单词数,Nbace表示训练数据库中所有训练样本的词干所包含的单词数量总和;D)构造概率潜在语义分析模型的似然函数L:其中,i∈{1,2,…,M},M表示软件变更日志的总数量;j∈{1,2,…,N},N表示单词字典中关键单词的总数量;n(wj,di)表示单词字典中第j个关键单词wj在软件变更日志di中出现的次数;E)将训练数据库中的每个训练样本分别作为软件变更日志di代入到步骤D构造的似然函数L中,采用期望最大化算法,对单词字典中各个关键单词wj与各个变更日志类别zk的概率关系以及各个变更日志类别zk与作为软件变更日志di的各个训练样本的概率关系进行求解;将期望最大化算法收敛求解所得的单词字典中各个关键单词wj与各个变更日志类别zk的概率关系标记为Pc(wj|zk),将期望最大化算法收敛求解所得的各个变更日志类别zk与作为软件变更日志di的各个训练样本的概率关系标记为Pc(zk|di),j∈{1,2,…,N},i∈{1,2,…,M},k∈{1,2,…,K};并分别计算每个变更日志类别zk的样本中心概率关系,其中,第k个变更日志类别zk的样本中心概率关系为:此时软件变更日志的总数量M取值为训练数据库中训练样本的总数量;该步骤具体为:e1)将训练数据库中的每个训练样本分别作为软件变更日志di代入到步骤D构造的似然函数L中,i∈{1,2,…,M},此时软件变更日志的总数量M取值为训练数据库中训练样本的总数量;对第k个变更日志类别zk与作为软件变更日志di的训练样本的概率关系P(zk|di)的初始取值进行随机取值,对单词字典中第j个关键单词wj与第k个变更日志类别zk的概率关系P(wj|zk)的初始取值为:其中,nk表示训练数据库中属于第k个变更日志类别zk的训练样本个数,k∈{1,2,3};nj,k表示单词字典中第j个关键单词wj在训练数据库中属于第k个变更日志类别zk的训练样本中所出现的次数;e2)在期望最大化算法的E-step中,根据当前概率关系P(wj|zk)和概率关系P(zk|di)的取值,分别计算各个变更日志类别zk的条件分布概率P(zk|di,wj),k∈{1,2,…,K}:e3)在期望最大化算法的M-step中,利用步骤e2得到的条件分布概率P(zk|di,wj),分别针对单词字典中的各个关键单词wj,j∈{1,2,…,N},训练数据库中作为软件变更日志di的各个训练样本,i∈{1,2,…,M},以及各个变更日志类别zk,k∈{1,2,…,K},对概率关系P(wj|zk)和概率关系P(zk|di)的取值进行更新:
【专利技术属性】
技术研发人员:张小洪,鄢萌,傅颖,徐玲,杨梦宁,洪明坚,葛永新,杨丹,
申请(专利权)人:重庆大学,
类型:发明
国别省市:重庆;85
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。