【技术实现步骤摘要】
基于主题模型和卷积神经网络的issue标签分类方法
[0001]本专利技术属于软件工程的开发和维护领域,具体涉及一种基于主题模型和卷积神经网络的issue标签分类方法。
技术介绍
[0002]GitHub是目前非常流行的项目开发合作交流与分享平台之一,通过使用Wiki和git来帮助开发人员协调开发,提高工作效率。到目前为止,github拥有超过1200万个开源项目,而且这个数字还在不断增长。
[0003]在软件项目的生命周期中,维护是一项至关重要的任务。首先,源代码应保持最新,并消除性能和正确性方面的任何潜在缺陷。另一方面,维护人员必须投入尽可能少的时间和精力来解决上述任务,以保持软件维护的低成本。issue跟踪系统是维护人员实现严格而有效的软件演化任务的重要手段。在issue跟踪系统中,维护人员报告问题单或潜在问题,对其进行管理并跟踪其进度。
[0004]GitHub提供了一个集成的轻量级issue跟踪系统,问题提交者只需要提供一个简短的文本摘要(包含一个标题和一个可选的描述),便能够向github上托管的 ...
【技术保护点】
【技术特征摘要】
1.一种基于主题模型和卷积神经网络的issue标签分类方法,其特征在于:对issue数据集进行数据处理,接着对文本进行LDA模型提取主题以及主题下的单词集合;接着自定义主题并统计相应主题下的单词集合;接着构建主题单词词典后完成向量拼接;最后应用random over
‑
sampling examples技术平衡训练集,采用卷积神经网络模型训练分类issue。2.根据权利要求1所描述的一种基于主题模型和卷积神经网络的issue标签分类方法,其特征包括以下几个步骤:1)对issue数据集进行数据清洗,提取处理成符合需求的数据集;2)基于LDA主题模型,把issue的标题和描述信息的主题以概率分布的形式给出,得到主题以及主题下的单词集合,再融合自定义主题下的单词集合,构成最终的主题单词库;3)将主题向量和词向量进行融合,形成最终的输入向量,并对数据集进行再平衡,采用random over
‑
sampling examples优化输入,提高模型分类效果;4)基于卷积神经网络,输入融合向量,卷积层特征提取,池化层降低维度的同时保持主要特征,softmax输出每个类别的概率,模型训练后10折交叉验证验证标签分类效果。3.根据权利要求2所述的基于主题模型和卷积神经网络的issue标签分类方法,其特征是步骤1)中,issue数据集中存在其他语言的文本,需要删除,保证是纯英文文本;接着issue的标题和描述中存在链接,代码片段以及表情符号,进行删除;接着对缩写词进行扩展,方便主题相关词汇识别;最后词标记化将句子划分为单个单词。4.根据权利要求2所述的基于主题模型和卷积神经网络的issue标签分类方法,其特征是步骤2)中,对处理过后的文本输入LDA模型,提取主题以及主题下的单词;选定模型的参数即反应文本中隐含主题的先验分布α,反应隐含主题下词的先验分...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。