【技术实现步骤摘要】
开源社区中辅助工具停用的预测方法及装置
本专利技术涉及计算机科学
,尤其涉及一种开源社区中辅助工具停用的预测方法及装置。
技术介绍
开源社区又称开放源代码社区,是根据相应的开源软件许可证协议公布软件源代码的平台,同时也是开发人员自由学习交流的空间。典型的开源软件社区有GitHub、开源中国等,其中GitHub是全球最大的开源软件项目托管平台。现有的研究表明项目使用开源社区中的辅助工具是一个普遍现象,并且辅助工具停用也是一个重要现象,但仍具有以下缺陷:现有技术中选取的用于开源社区辅助工具停用预测的相关信息较少,导致对大量辅助工具停用预测得到的预测结果准确率低;开源社区项目对辅助工具使用/停用情况较为模糊,现有技术提出的模型无法准确合理的预测辅助工具停用现象的发生。
技术实现思路
鉴于上述的分析,本专利技术实施例旨在提供一种开源社区中辅助工具停用的预测方法,用以解决现有的方法中获取的特征较少造成无法准确合理的预测辅助工具停用的问题。一方面,本专利技术实施例提供了一种开源社区中辅助工具停用 ...
【技术保护点】
1.一种开源社区中辅助工具停用的预测方法,其特征在于,包括如下步骤:/n获取开源社区中的项目数据和项目使用辅助工具的数据,得到历史数据集;/n基于所述历史数据集提取项目使用辅助工具的有效特征,生成特征向量,并基于所述特征向量得到输入矩阵;/n基于所述输入矩阵及XGBoost算法分类器构建辅助工具停用预测模型PATPredict;/n利用所述辅助工具停用预测模型PATPredict对目标项目使用的目标辅助工具进行停用预测,得到停用预测结果。/n
【技术特征摘要】
1.一种开源社区中辅助工具停用的预测方法,其特征在于,包括如下步骤:
获取开源社区中的项目数据和项目使用辅助工具的数据,得到历史数据集;
基于所述历史数据集提取项目使用辅助工具的有效特征,生成特征向量,并基于所述特征向量得到输入矩阵;
基于所述输入矩阵及XGBoost算法分类器构建辅助工具停用预测模型PATPredict;
利用所述辅助工具停用预测模型PATPredict对目标项目使用的目标辅助工具进行停用预测,得到停用预测结果。
2.根据权利要求1所述的开源社区中辅助工具停用的预测方法,其特征在于,从项目属性、项目使用目标辅助工具的效果、辅助工具属性和项目使用辅助工具的特点四个维度提取所述历史数据集的有效特征。
3.根据权利要求2所述的开源社区中辅助工具停用的预测方法,其特征在于,基于所述项目属性维度提取的有效特征包括:项目使用的编程语言、项目是否为组织项目、项目是否有wiki介绍网站、项目是否有官方网站、项目在GitHub是否有主页、项目年龄、项目创建年份,项目包含的开源许可证、未停用辅助工具的项目描述的最大文本相似度、未停用辅助工具的项目描述的平均文本相似度、停用辅助工具的项目描述的最大文本相似度、停用辅助工具的项目描述的平均文本相似度;
基于所述项目使用目标辅助工具的效果维度提取的有效特征包括:项目使用辅助工具执行结果的成功占比、失败占比、错误占比、辅助工具执行状态为pending占任务数量的比例、辅助工具执行的最长任务时间、平均任务时间、项目使用辅助工具的commit数量、贡献请求数量、项目包含辅助工具名称关键字的贡献请求数量、项目贡献者数量;
基于所述辅助工具属性维度提取的有效特征包括:辅助工具名称、辅助工具类别、辅助工具是否在GitHub商店中注册;
基于所述项目使用辅助工具的特点维度提取的有效特征包括:项目使用的辅助工具数量、项目停用的辅助工具数量。
4.根据权利要求1所述的开源社区中辅助工具停用的预测方法,其特征在于,基于所述输入矩阵及XGBoost算法构建辅助工具停用预测模型PATPredict,包括如下步骤:
为所述输入矩阵添加项目是否停用辅助工具的标签,所述标签包括停用和不停用;
将所述输入矩阵及对应的标签输入XGBoost算法分析器进行模型训练,得到辅助工具停用预测模型PATPredict。
5.根据权利要求1所述的开源社区中辅助工具停用的预测方法,其特征在于,利用所述辅助工具停用预测模型PATPredict对目标项目使用的辅助工具进行停用预测,得到停用预测结果,包括如下步骤:
获取所述目标项目对应的项目数据及目标项目使用辅助工具的数据,得到待预测历史数据集;
基于所述待预测历史数据集提取目标项目使用辅助工具的有效特征,生成待预测特征向量,并基于所述待预测特征向量得到待预测输入矩阵;
将所述待预测输入矩阵输入辅助工具停用预测模型PATPredict,...
【专利技术属性】
技术研发人员:蒋竞,刘征宇,王鑫,张莉,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。