基于主题模型和卷积神经网络的issue标签分类方法技术

技术编号:32833101 阅读:29 留言:0更新日期:2022-03-26 20:49
本发明专利技术公开了一种基于主题模型和卷积神经网络的issue标签分类方法,包括以下步骤:1)数据收集:通过GitHub Archive获取需要的issue数据作为数据集;2)数据处理:对收集到的issue文本进行数据清洗;3)LDA提取主题与词语:对每个issue的文本进行LDA模型处理;4)自定义主题:自定义主题,并统计相应主题下的高频单词;5)主题融合:将LDA和自定义主题结合,构建主题单词词典;6)向量拼接:将词向量和主题向量拼接;7)数据再平衡:应用数据再平衡技术平衡训练集;8)模型训练:采用卷积神经网络对issue进行识别分类;本发明专利技术是一种基于主题模型和卷积神经网络的issue标签分类方法,实现了issue标签的自动分类识别。现了issue标签的自动分类识别。现了issue标签的自动分类识别。

【技术实现步骤摘要】
基于主题模型和卷积神经网络的issue标签分类方法


[0001]本专利技术属于软件工程的开发和维护领域,具体涉及一种基于主题模型和卷积神经网络的issue标签分类方法。

技术介绍

[0002]GitHub是目前非常流行的项目开发合作交流与分享平台之一,通过使用Wiki和git来帮助开发人员协调开发,提高工作效率。到目前为止,github拥有超过1200万个开源项目,而且这个数字还在不断增长。
[0003]在软件项目的生命周期中,维护是一项至关重要的任务。首先,源代码应保持最新,并消除性能和正确性方面的任何潜在缺陷。另一方面,维护人员必须投入尽可能少的时间和精力来解决上述任务,以保持软件维护的低成本。issue跟踪系统是维护人员实现严格而有效的软件演化任务的重要手段。在issue跟踪系统中,维护人员报告问题单或潜在问题,对其进行管理并跟踪其进度。
[0004]GitHub提供了一个集成的轻量级issue跟踪系统,问题提交者只需要提供一个简短的文本摘要(包含一个标题和一个可选的描述),便能够向github上托管的项目报告一个新问题。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于主题模型和卷积神经网络的issue标签分类方法,其特征在于:对issue数据集进行数据处理,接着对文本进行LDA模型提取主题以及主题下的单词集合;接着自定义主题并统计相应主题下的单词集合;接着构建主题单词词典后完成向量拼接;最后应用random over

sampling examples技术平衡训练集,采用卷积神经网络模型训练分类issue。2.根据权利要求1所描述的一种基于主题模型和卷积神经网络的issue标签分类方法,其特征包括以下几个步骤:1)对issue数据集进行数据清洗,提取处理成符合需求的数据集;2)基于LDA主题模型,把issue的标题和描述信息的主题以概率分布的形式给出,得到主题以及主题下的单词集合,再融合自定义主题下的单词集合,构成最终的主题单词库;3)将主题向量和词向量进行融合,形成最终的输入向量,并对数据集进行再平衡,采用random over

sampling examples优化输入,提高模型分类效果;4)基于卷积神经网络,输入融合向量,卷积层特征提取,池化层降低维度的同时保持主要特征,softmax输出每个类别的概率,模型训练后10折交叉验证验证标签分类效果。3.根据权利要求2所述的基于主题模型和卷积神经网络的issue标签分类方法,其特征是步骤1)中,issue数据集中存在其他语言的文本,需要删除,保证是纯英文文本;接着issue的标题和描述中存在链接,代码片段以及表情符号,进行删除;接着对缩写词进行扩展,方便主题相关词汇识别;最后词标记化将句子划分为单个单词。4.根据权利要求2所述的基于主题模型和卷积神经网络的issue标签分类方法,其特征是步骤2)中,对处理过后的文本输入LDA模型,提取主题以及主题下的单词;选定模型的参数即反应文本中隐含主题的先验分布α,反应隐含主题下词的先验分...

【专利技术属性】
技术研发人员:张卫丰徐俊辉
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1