【技术实现步骤摘要】
基于深度学习的开源社区发展评价方法及系统
[0001]本专利技术涉及开源社区评估
,具体地说是基于深度学习的开源社区发展评价方法及系统。
技术介绍
[0002]随着深度学习技术的快速发展,以及互联网和云计算时代海量数据和高效计算能力的支撑,以CNN卷积神经网络、RNN循环神经网络等为代表的深度学习技术,通过训练构建得到类似人脑结构的大规模神经网络,在计算机视觉、语音识别、自然语言理解等领域取得了突破性进展,正在给整个社会带来颠覆性的变化。
[0003]近年来,新一代信息技术发展迅速,开源的重要价值也愈发凸显,无论是操作系统、数据库,还是云计算、大数据、人工智能,众多商业软件均基于开源构建,开源软件已成为全球软件产业创新源泉和“标准件库”,其中,开源社区是开源软件与传统闭源软件最大的不同,也是开源软件能否获得成功最关键的因素,开源社区作为资源集聚的平台,通过连接全球开发者与使用者、合作伙伴在社区进行协作,来共同推动开源软件的发展。
[0004]开源社区的开放治理一直是开源领域关注的焦点,如何能更好的发挥社区的力量,实现开源项目的商业价值和社会价值,是对于社区运营者的挑战,而对于开源社区发展情况的准确评价,是改进社区治理方式、提升运营效率的前提。但目前开源社区发展成熟度的评价,大多是基于代码托管平台提供的用户数量、star数量、fork数量、issue数量等表面数据来进行评估,利用这些指标形成的评价结果,常常与社区实际发展情况有很大的偏差,特别是难以避免社区运营者恶意刷star数量、fork数量的状 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的开源社区发展评价方法,其特征在于包括如下步骤:基于神经网络模型构建开源社区特征生成器OSC
‑
GenFv,所述开源社区特征生成器OSC
‑
GenFv用于对多个数据源的评价数据进行特征提取和特征融合,得到特征向量OSC
‑
Vect;构建开源社区画像模型OSC
‑
Snap
‑
Profiler,所述开源社区画像模型OSC
‑
Snap
‑
Profiler用于基于特征向量OSC
‑
Vect对开源社区进行数据画像,输出开源社区的数据标签和量化评分OSC
‑
Tag;基于多头自注意力机制的卷积神经网络模型构建开源社区分析器OSC
‑
Analysis,所述开源社区分析器OSC
‑
Analysis用于基于特征向量序列OSC
‑
Seq对开源社区进行分析,所述特征向量序列OSC
‑
Seq为由基于时间顺序的特征向量OSC
‑
Vect组成;构建开源社区发展评价画像模型OSC
‑
Profiler,所述开源社区发展评价画像模型OSC
‑
Profiler与所述开源社区分析器OSC
‑
Analysis配合,用于基于开源社区分析器OSC
‑
Analysis的输出对开源社区进行数据画像,输出开源社区的数据标签以及量化评分OSC
‑
Tag;构建开源社区发展预测器OSC
‑
Predict,所述开源社区预测器与所述开源社区分析器OSC
‑
Analysis配合,用于基于开源社区分析器OSC
‑
Analysis的输出对开源社区的发展趋势进行预测,预测输出下一个时间点的特征向量OSC
‑
Next
‑
Vect;构建开源社区发展优化器OSC
‑
Optimize,所述开源社区发展优化器OSC
‑
Optimize用于基于当前开源社区对应的特征向量OSC
‑
Vect以及数据画像OSC
‑
Tag,对开源社区的发展进行优化,输出改进优化策略;基于时间从多个数据源收集用于评价开源社区的历史评价数据,并对开源社区的发展情况标注标签,基于所述历史评价数据和标签,通过梯度下降优化算法对所述开源社区特征生成器OSC
‑
GenFv、开源社区画像模型OSC
‑
Snap
‑
Profiler、开源社区分析器OSC
‑
Analysis、开源社区发展评价画像模型OSC
‑
Profiler、开源社区发展预测器OSC
‑
Predict以及开源社区发展优化器OSC
‑
Optimize进行模型训练;基于设定的时间点从多个数据源收集评价数据,以所述评价数据为输入,通过所述训练后的开源社区特征生成器OSC
‑
GenFv、开源社区画像模型、开源社区分析器OSC
‑
Analysis、开源社区发展评价画像模型OSC
‑
Profiler、开源社区发展预测器OSC
‑
Predict以及开源社区发展优化器OSC
‑
Optimize对开源社区进行评价指导,得到所述开源社区的改进优化策略。2.根据权利要求1所述的基于深度学习的开源社区发展评价方法,其特征在于所述多个数据源包括:开源社区的代码托管平台,所述开源社区的代码托管平台对应的评价数据包括通用数据指标Git
‑
Index以及代码托管平台日志文本数据Git
‑
Log,所述通用数据指标Git
‑
Index包括star数量、fork数量、Issue数量、Merge数量、贡献者数量、文档数量、依赖库数量以及更新频率;开源社区的管网,所述开源社区的管网对应的评价行数据包括网站文档数据、新闻数据、讨论组数据以及wiki数据;开源社区的互联网搜索,所述开源社区的互联网搜索对应的评价数据为基于关键字
OSC
‑
Search、利用多家搜索引擎获得的查询结果;开源社区的媒体讨论,所述开源社区的媒体讨论对应的评价数据为对开源社区的社交媒体讨论数据OSC
‑
Social。3.根据权利要求2所述的基于深度学习的开源社区发展评价方法,其特征在于所述开源社区特征生成器OSC
‑
GenFv包括:代码平台相关数据特征向量生成器Git
‑
GenFv,所述代码平台相关数据特征向量生成器Git
‑
GenFv包括数据归一化模块、基于Bert的语义模型和时间序列的特征提取器以及融合模块,所述数据归一化模块用于对通用数据指标Git
‑
Index进行数据归一化处理、得到特征向量,所述特征提取器用于对代码托管平台日志文本数据Git
‑
Log进行特征提取、得到特性向量,所述融合模块用于将数据归一化模块和特征提取器输出的特征向量进行融合,得到最终的特征向量Git
‑
Vect;开源项目官网相关数据特征向量生成器Website
‑
GenFv,所述开源项目官网相关数据特征向量生成器Website
‑
GenFv为基于语言模型的文本识别神经网络模型,用于对数据源为开源社区的管网的评价数据进行特征提取,得到特征向量Website
‑
Vect;互联网搜索相关数据特征向量生成器Search
‑
GenFv,所述互联网搜索相关数据特征向量生成器Search
‑
GenFv用于基于文本识别语义提取模型对数据源为开源社区的互联网搜索的评价数据进行特征提取,得到特征向量Search
‑
Vect;社交媒体相关数据特征向量生成器Social
‑
GenFv,所述社交媒体相关数据特征向量生成器Social
‑
GenFv用于基于文本识别及情感分析的神经网络模型对数据源为开源社区的媒体讨论的评价数据进行特征提取,得到特征向量Social
‑
Vect;特性向量融合器OSC
‑
FusFv,所述特性向量融合器OSC
‑
FusFv通过全连接层的方式将所述特征向量Git
‑
Vect、特征向量Website
‑
Vect、特征向量Search
‑
Vect、以及特征向量Social
‑
Vect进行融合,并添加时间戳生成特征向量OSC
‑
Vect。4.根据权利要求3所述的基于深度学习的开源社区发展评价方法,其特征在于基于所述历史评价数据和标签,依次对所述开源社区特征生成器OSC
‑
GenFv和开源社区画像模型OSC
‑
Snap
‑
Profiler进行参数优化、对所述开源社区分析器OSC
‑
Analysis和开源社区发展评价画像模型OSC
‑
Profiler进行参数优化、对所述开源社区发展预测器OSC
‑
Predict进行参数优化、以及对所述开源社区发展优化器OSC
‑
Optimize进行参数优化;对所述开源社区特征生成器OSC
‑
GenFv和开源社区画像模型OSC
‑
Snap
‑
Profiler进行参数优化,包括如下步骤:将所述开源社区特征生成器OSC
‑
GenFv与所述的开源社区画像模型OSC
‑
Snap
‑
Profiler连接,基于获取的通用数据指标Git
‑
Index、设置所述的数据归一化模块的数据归一化计算方式,基于BERT现有通用模型设置特征提取器初始化参数,初始化融合模块,固定特征向量Website
‑
Vect、Search
‑
Vect和Social
‑
Vect的参数值,基于标注标签,采用梯度下降优化算法,训练所述代码平台相关数据特征向量生成器Git
‑
GenFv、特征融合器OSC
‑
FusFv和开源社区画像模型OSC
‑
Snap
‑
Profiler;固定所述的代码平台相关数据特征向量生成器Git
‑
GenFv的模型参数以及特征向量Search
‑
Vect和Social
‑
Vect的参数值,基于标注标签,采用梯度下降优化算法,训练所述开源项目官网相关数据特征向量生成器Website
‑
GenFv、融合器OSC
‑
FusFv和开源社区画像模
型OSC
‑
Snap
‑
Profiler;固定所述代码平台相关数据特征向量生成器Git
‑
GenFv和所述开源项目官网相关数据特征向量生成器Website
‑
GenFv的模型参数,并固定特征向量Social
‑
Vect的参数值,基于标注标签,采用梯度下降优化算法,训练所述互联网搜索相关数据特征向量生成器Search
‑
GenFv、融合器OSC
‑
FusFv和开源社区画像模型OSC
‑
Snap
‑
Profiler;固定所述代码平台相关数据特征向量生成器Git
‑
GenFv、开源项目官网相关数据特征向量生成器Website
‑
GenFv、以及互联网搜索相关数据特征向量生成器Search
‑
GenFv的模型参数,基于标注标签,采用梯度下降优化算法,训练所述社交媒体相关数据特征向量生成器Social
‑
GenFv、融合器OSC
‑
FusFv和开源社区画像模块OSC
‑
Snap
‑
Profiler;将所述开源社区特征生成器OSC
‑
GenFv与所述的开源社区画像模型OSC
‑
Snap
‑
Profiler连接,基于标注标签,采用梯度下降优化算法对所述所述开源社区特征生成器OSC
‑
GenFv与所述的开源社区画像模型OSC
‑
Snap
‑
Profiler进行训练,得到训练后开源社区特征生成器OSC
‑
GenFv和开源社区画像模型OSC
‑
Snap
‑
Profiler;对所述开源社区分析器OSC
‑
Analysis和开源社区发展评价画像模型OSC
‑
Profiler进行模型训练,包括如下步骤:以历史评价数据为输入,基于所述训练开源社区特征生成器OSC
‑
GenFv和开源社区画像模型OSC
‑
Snap
‑
Profiler生成特征向量OSC
‑
Vect,并根据时间推进生成特征向量OSC
‑
Vect的向量序列OSC
‑
Seq;基于所述开源社区画像模型OSC
‑
Snap
‑
Profiler设置所述的开源社区发展评价画像模型OSC
‑
Profiler的模型初始化参数;将所述开源社区分析器OSC
‑
Analysis和所述开源社区发展评价画像模型OSC
‑
Profiler连接;以历史评价数据为输入,基于所述训练开源社区特征生成器OSC
‑
GenFv和开源社区画像模型OSC
‑
Snap
‑
Profiler生成特征向量OSC
‑
Vect,并根据时间推进生成特征向量OSC
‑
Vect的向量序列OSC
‑
Seq;将所述向量序列OSC
‑
Seq作为输入,基于标注标签,采用梯度下降优化算法对所述开源社区分析器OSC
‑
Analysis和所述开源社区发展评价画像模型OSC
‑
Profiler进行训练,得到序训练后的开源社区分析器OSC
‑
Analysis和所述开源社区发展评价画像模型OSC
‑
Profiler;对所述开源社区发展预测器OSC
‑
Predict进行训练,包括如下步骤:固定所述开源社区分析器OSC
‑
Analysis的模型参数,将所述开源社区分析器OSC
‑
Analysis和所述的开源社区发展预测器OSC
‑
Predict连接起来,构成一个模型网络;以历史评价数据为输入,基于所述训练开源社区特征生成器OSC
‑
GenFv和开源社区画像模型OSC
‑
Snap
‑
Profiler生成特征向量OSC
‑
Vect,并根据时间推进生成特征向量OSC
‑
Vect的向量序列OSC
‑
Seq;以所述向量序列OSC
‑
Seq为输入,通过所述开源社区分析器OSC
‑
Analysis模型参数和所述开源社区发展预测器OSC
‑
Predict来生成下一时间点的特征向量OSC
‑
Next
‑
Vect,计算两者误差,并将误差反向传播,更新开源社区发展预测器OSC
‑
Predict的模型参数,得到训练后开源社区发展预测器OSC
‑
Predict;
对所述开源社区发展优化器OSC
‑
Optimize进行模型训练,包括如下步骤:根据开源社区运营情况,设定多种改进优化策略;以获取的训练数据为输入,通过训练后的开源社区特征提取器OSC
‑
GenFv生成特性向量OSC
‑
Vect,并基于训练后的开源社区分析器OSC
‑
Analysis和开源社区发展评价画像模型OSC
‑
Profiler对开源社区进行数据画像,得到开源社区的数据标签及量化评分OSC
‑
Tag;根据开源社区的数据标签及量化评分OSC
‑
Tag,设定期待优化的标签及量化评分,并标注相应的改进优化策略;采用梯度下降优化算法对所述开源社区发展优化器OSC
‑
Optimize进行模型训练,得到训练后的开源社区发展优化器OSC
‑
Optimize。5.根据权利要求4所述的基于深度学习的开源社区发展评价方法,其特征在于基于设定的时间点从多个数据源收集评价数据,以所述评价数据为输入,通过所述训练后的开源社区特征生成器OSC
‑
GenFv、开源社区画像模型、开源社区分析器OSC
‑
Analysis、开源社区发展评价画像模型OSC
‑
Profiler、开源社区发展预测器OSC
‑
Predict以及开源社区发展优化器OSC
‑
Optimize对开源社区进行评价指导,得到所述开源社区的改进优化策略,包括如下步骤:基于设置的时间点,从多个数据源获取评价数据;对于所述多个数据源获取的评价数据,通过训练后的开源社区特征生成器OSC
‑
GenFv进行特征提取和特征融合,得到特征向量OSC
‑
Vect;按照时间点推荐,生成所述特征向量OSC
‑
Vect的特征向量序列OSC
‑
Seq;以所述特征向量序列OSC
‑
Seq为输入,通过训练后的开源社区分析器OSC
‑
Analysis和开源社区发展评价画像模型OSC
‑
Profiler对所述开源社区进行数据画像,生成开源社区的数据标签及量化评分OSC
‑
Tag;以所述特征向量序列OSC
‑
Seq为输入,通过训练后的开源社区分析器OSC
‑
Analysis和开源社区发展预测器OSC
‑
Predict来生成未来时刻的特征向量OSC
‑
Next
‑
Vect,并以所述特征向量OSC
‑
Next
‑
Vect作为输入,通过所述训练后的开源社区分析器OSC
‑
Analysis和开源社区发展评价画像模型OSC
‑
Profiler持续为开源社区进行数据画像分析,生成开源社区的数据标签及量化评分OSC
‑
Tag;结合所述两方的社区画像,按时间顺序输出一系列开源社区的数据标签及量化评分OSC
‑
Tag,用于开源社区当前及未来的发展评价;模拟开源社区发展场景,生成多种开源社区未来发展评价方向;基于时间顺序的开源社区特征向量OSC
‑
Vect以及对社区画像得到的开源社区的数据标签及量化评分OSC
‑
Tag,通过训练后的开源社区发展优化器OSC
‑
Optimize对开源社区进行优化,生成改进优化策略;定期获取来自多个数据源的评价数据,持续优化开源社区特征生成器OSC
‑
GenFv、开源社区画像模型、开源社区分析器OSC
‑
Analysis、开源社区发展评价画像模型OSC
‑
Profiler、开源社区发展预测器OSC
‑
Predict以及开源社区发展优化器OSC
‑<...
【专利技术属性】
技术研发人员:孙善宝,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。