基于深度学习的开源社区发展评价方法及系统技术方案

技术编号:35477899 阅读:18 留言:0更新日期:2022-11-05 16:27
本发明专利技术公开了基于深度学习的开源社区发展评价方法及系统,属于开源社区评估技术领域,要解决的技术问题为如何有效利用深度学习技术,基于开源社区运营数据并融合社交媒体、搜索引擎等外部互联网关联数据,对开源社区发展进行更加合理准确的评价并提出指导建议。包括如下步骤:基于时间从多个数据源收集用于历史评价数据,并对开源社区的发展情况标注标签,通过梯度下降优化算法对开源社区特征生成器、开源社区画像模型、开源社区分析器、开源社区发展评价画像模型、开源社区发展预测器以及开源社区发展优化器进行模型训练;基于设定的时间点从多个数据源收集评价数据,以所述评价数据为输入,通过训练后的模型对开源社区进行评价指导。评价指导。评价指导。

【技术实现步骤摘要】
基于深度学习的开源社区发展评价方法及系统


[0001]本专利技术涉及开源社区评估
,具体地说是基于深度学习的开源社区发展评价方法及系统。

技术介绍

[0002]随着深度学习技术的快速发展,以及互联网和云计算时代海量数据和高效计算能力的支撑,以CNN卷积神经网络、RNN循环神经网络等为代表的深度学习技术,通过训练构建得到类似人脑结构的大规模神经网络,在计算机视觉、语音识别、自然语言理解等领域取得了突破性进展,正在给整个社会带来颠覆性的变化。
[0003]近年来,新一代信息技术发展迅速,开源的重要价值也愈发凸显,无论是操作系统、数据库,还是云计算、大数据、人工智能,众多商业软件均基于开源构建,开源软件已成为全球软件产业创新源泉和“标准件库”,其中,开源社区是开源软件与传统闭源软件最大的不同,也是开源软件能否获得成功最关键的因素,开源社区作为资源集聚的平台,通过连接全球开发者与使用者、合作伙伴在社区进行协作,来共同推动开源软件的发展。
[0004]开源社区的开放治理一直是开源领域关注的焦点,如何能更好的发挥社区的力量,实现开源项目的商业价值和社会价值,是对于社区运营者的挑战,而对于开源社区发展情况的准确评价,是改进社区治理方式、提升运营效率的前提。但目前开源社区发展成熟度的评价,大多是基于代码托管平台提供的用户数量、star数量、fork数量、issue数量等表面数据来进行评估,利用这些指标形成的评价结果,常常与社区实际发展情况有很大的偏差,特别是难以避免社区运营者恶意刷star数量、fork数量的状况。在这种情况下,如何有效利用深度学习技术,基于开源社区运营数据并融合社交媒体、搜索引擎等外部互联网关联数据,对开源社区发展进行更加合理准确的评价并提出指导建议成为亟需解决的问题。

技术实现思路

[0005]本专利技术的技术任务是针对以上不足,提供基于深度学习的开源社区发展评价方法及系统,来解决如何有效利用深度学习技术,基于开源社区运营数据并融合社交媒体、搜索引擎等外部互联网关联数据,对开源社区发展进行更加合理准确的评价并提出指导建议的技术问题。
[0006]第一方面,本专利技术的一种基于深度学习的开源社区发展评价方法,包括如下步骤:
[0007]基于神经网络模型构建开源社区特征生成器OSC

GenFv,所述开源社区特征生成器OSC

GenFv用于对多个数据源的评价数据进行特征提取和特征融合,得到特征向量OSC

Vect;
[0008]构建开源社区画像模型OSC

Snap

Profiler,所述开源社区画像模型OSC

Snap

Profiler用于基于特征向量OSC

Vect对开源社区进行数据画像,输出开源社区的数据标签和量化评分OSC

Tag;
[0009]基于多头自注意力机制的卷积神经网络模型构建开源社区分析器OSC

Analysis,
所述开源社区分析器OSC

Analysis用于基于特征向量序列OSC

Seq对开源社区进行分析,所述特征向量序列OSC

Seq为由基于时间顺序的特征向量OSC

Vect组成;
[0010]构建开源社区发展评价画像模型OSC

Profiler,所述开源社区发展评价画像模型OSC

Profiler与所述开源社区分析器OSC

Analysis配合,用于基于开源社区分析器OSC

Analysis的输出对开源社区进行数据画像,输出开源社区的数据标签以及量化评分OSC

Tag;
[0011]构建开源社区发展预测器OSC

Predict,所述开源社区预测器与所述开源社区分析器OSC

Analysis配合,用于基于开源社区分析器OSC

Analysis的输出对开源社区的发展趋势进行预测,预测输出下一个时间点的特征向量OSC

Next

Vect;
[0012]构建开源社区发展优化器OSC

Optimize,所述开源社区发展优化器OSC

Optimize用于基于当前开源社区对应的特征向量OSC

Vect以及数据画像OSC

Tag,对开源社区的发展进行优化,输出改进优化策略;
[0013]基于时间从多个数据源收集用于评价开源社区的历史评价数据,并对开源社区的发展情况标注标签,基于所述历史评价数据和标签,通过梯度下降优化算法对所述开源社区特征生成器OSC

GenFv、开源社区画像模型OSC

Snap

Profiler、开源社区分析器OSC

Analysis、开源社区发展评价画像模型OSC

Profiler、开源社区发展预测器OSC

Predict以及开源社区发展优化器OSC

Optimize进行模型训练;
[0014]基于设定的时间点从多个数据源收集评价数据,以所述评价数据为输入,通过所述训练后的开源社区特征生成器OSC

GenFv、开源社区画像模型、开源社区分析器OSC

Analysis、开源社区发展评价画像模型OSC

Profiler、开源社区发展预测器OSC

Predict以及开源社区发展优化器OSC

Optimize对开源社区进行评价指导,得到所述开源社区的改进优化策略。
[0015]作为优选,所述多个数据源包括:
[0016]开源社区的代码托管平台,所述开源社区的代码托管平台对应的评价数据包括通用数据指标Git

Index以及代码托管平台日志文本数据Git

Log,所述通用数据指标Git

Index包括star数量、fork数量、Issue数量、Merge数量、贡献者数量、文档数量、依赖库数量以及更新频率;
[0017]开源社区的管网,所述开源社区的管网对应的评价行数据包括网站文档数据、新闻数据、讨论组数据以及wiki数据;
[0018]开源社区的互联网搜索,所述开源社区的互联网搜索对应的评价数据为基于关键字OSC

Search、利用多家搜索引擎获得的查询结果;
[0019]开源社区的媒体讨论,所述开源社区的媒体讨论对应的评价数据为对开源社区的社交媒体讨论数据OSC

Social。
[0020]作为优本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的开源社区发展评价方法,其特征在于包括如下步骤:基于神经网络模型构建开源社区特征生成器OSC

GenFv,所述开源社区特征生成器OSC

GenFv用于对多个数据源的评价数据进行特征提取和特征融合,得到特征向量OSC

Vect;构建开源社区画像模型OSC

Snap

Profiler,所述开源社区画像模型OSC

Snap

Profiler用于基于特征向量OSC

Vect对开源社区进行数据画像,输出开源社区的数据标签和量化评分OSC

Tag;基于多头自注意力机制的卷积神经网络模型构建开源社区分析器OSC

Analysis,所述开源社区分析器OSC

Analysis用于基于特征向量序列OSC

Seq对开源社区进行分析,所述特征向量序列OSC

Seq为由基于时间顺序的特征向量OSC

Vect组成;构建开源社区发展评价画像模型OSC

Profiler,所述开源社区发展评价画像模型OSC

Profiler与所述开源社区分析器OSC

Analysis配合,用于基于开源社区分析器OSC

Analysis的输出对开源社区进行数据画像,输出开源社区的数据标签以及量化评分OSC

Tag;构建开源社区发展预测器OSC

Predict,所述开源社区预测器与所述开源社区分析器OSC

Analysis配合,用于基于开源社区分析器OSC

Analysis的输出对开源社区的发展趋势进行预测,预测输出下一个时间点的特征向量OSC

Next

Vect;构建开源社区发展优化器OSC

Optimize,所述开源社区发展优化器OSC

Optimize用于基于当前开源社区对应的特征向量OSC

Vect以及数据画像OSC

Tag,对开源社区的发展进行优化,输出改进优化策略;基于时间从多个数据源收集用于评价开源社区的历史评价数据,并对开源社区的发展情况标注标签,基于所述历史评价数据和标签,通过梯度下降优化算法对所述开源社区特征生成器OSC

GenFv、开源社区画像模型OSC

Snap

Profiler、开源社区分析器OSC

Analysis、开源社区发展评价画像模型OSC

Profiler、开源社区发展预测器OSC

Predict以及开源社区发展优化器OSC

Optimize进行模型训练;基于设定的时间点从多个数据源收集评价数据,以所述评价数据为输入,通过所述训练后的开源社区特征生成器OSC

GenFv、开源社区画像模型、开源社区分析器OSC

Analysis、开源社区发展评价画像模型OSC

Profiler、开源社区发展预测器OSC

Predict以及开源社区发展优化器OSC

Optimize对开源社区进行评价指导,得到所述开源社区的改进优化策略。2.根据权利要求1所述的基于深度学习的开源社区发展评价方法,其特征在于所述多个数据源包括:开源社区的代码托管平台,所述开源社区的代码托管平台对应的评价数据包括通用数据指标Git

Index以及代码托管平台日志文本数据Git

Log,所述通用数据指标Git

Index包括star数量、fork数量、Issue数量、Merge数量、贡献者数量、文档数量、依赖库数量以及更新频率;开源社区的管网,所述开源社区的管网对应的评价行数据包括网站文档数据、新闻数据、讨论组数据以及wiki数据;开源社区的互联网搜索,所述开源社区的互联网搜索对应的评价数据为基于关键字
OSC

Search、利用多家搜索引擎获得的查询结果;开源社区的媒体讨论,所述开源社区的媒体讨论对应的评价数据为对开源社区的社交媒体讨论数据OSC

Social。3.根据权利要求2所述的基于深度学习的开源社区发展评价方法,其特征在于所述开源社区特征生成器OSC

GenFv包括:代码平台相关数据特征向量生成器Git

GenFv,所述代码平台相关数据特征向量生成器Git

GenFv包括数据归一化模块、基于Bert的语义模型和时间序列的特征提取器以及融合模块,所述数据归一化模块用于对通用数据指标Git

Index进行数据归一化处理、得到特征向量,所述特征提取器用于对代码托管平台日志文本数据Git

Log进行特征提取、得到特性向量,所述融合模块用于将数据归一化模块和特征提取器输出的特征向量进行融合,得到最终的特征向量Git

Vect;开源项目官网相关数据特征向量生成器Website

GenFv,所述开源项目官网相关数据特征向量生成器Website

GenFv为基于语言模型的文本识别神经网络模型,用于对数据源为开源社区的管网的评价数据进行特征提取,得到特征向量Website

Vect;互联网搜索相关数据特征向量生成器Search

GenFv,所述互联网搜索相关数据特征向量生成器Search

GenFv用于基于文本识别语义提取模型对数据源为开源社区的互联网搜索的评价数据进行特征提取,得到特征向量Search

Vect;社交媒体相关数据特征向量生成器Social

GenFv,所述社交媒体相关数据特征向量生成器Social

GenFv用于基于文本识别及情感分析的神经网络模型对数据源为开源社区的媒体讨论的评价数据进行特征提取,得到特征向量Social

Vect;特性向量融合器OSC

FusFv,所述特性向量融合器OSC

FusFv通过全连接层的方式将所述特征向量Git

Vect、特征向量Website

Vect、特征向量Search

Vect、以及特征向量Social

Vect进行融合,并添加时间戳生成特征向量OSC

Vect。4.根据权利要求3所述的基于深度学习的开源社区发展评价方法,其特征在于基于所述历史评价数据和标签,依次对所述开源社区特征生成器OSC

GenFv和开源社区画像模型OSC

Snap

Profiler进行参数优化、对所述开源社区分析器OSC

Analysis和开源社区发展评价画像模型OSC

Profiler进行参数优化、对所述开源社区发展预测器OSC

Predict进行参数优化、以及对所述开源社区发展优化器OSC

Optimize进行参数优化;对所述开源社区特征生成器OSC

GenFv和开源社区画像模型OSC

Snap

Profiler进行参数优化,包括如下步骤:将所述开源社区特征生成器OSC

GenFv与所述的开源社区画像模型OSC

Snap

Profiler连接,基于获取的通用数据指标Git

Index、设置所述的数据归一化模块的数据归一化计算方式,基于BERT现有通用模型设置特征提取器初始化参数,初始化融合模块,固定特征向量Website

Vect、Search

Vect和Social

Vect的参数值,基于标注标签,采用梯度下降优化算法,训练所述代码平台相关数据特征向量生成器Git

GenFv、特征融合器OSC

FusFv和开源社区画像模型OSC

Snap

Profiler;固定所述的代码平台相关数据特征向量生成器Git

GenFv的模型参数以及特征向量Search

Vect和Social

Vect的参数值,基于标注标签,采用梯度下降优化算法,训练所述开源项目官网相关数据特征向量生成器Website

GenFv、融合器OSC

FusFv和开源社区画像模
型OSC

Snap

Profiler;固定所述代码平台相关数据特征向量生成器Git

GenFv和所述开源项目官网相关数据特征向量生成器Website

GenFv的模型参数,并固定特征向量Social

Vect的参数值,基于标注标签,采用梯度下降优化算法,训练所述互联网搜索相关数据特征向量生成器Search

GenFv、融合器OSC

FusFv和开源社区画像模型OSC

Snap

Profiler;固定所述代码平台相关数据特征向量生成器Git

GenFv、开源项目官网相关数据特征向量生成器Website

GenFv、以及互联网搜索相关数据特征向量生成器Search

GenFv的模型参数,基于标注标签,采用梯度下降优化算法,训练所述社交媒体相关数据特征向量生成器Social

GenFv、融合器OSC

FusFv和开源社区画像模块OSC

Snap

Profiler;将所述开源社区特征生成器OSC

GenFv与所述的开源社区画像模型OSC

Snap

Profiler连接,基于标注标签,采用梯度下降优化算法对所述所述开源社区特征生成器OSC

GenFv与所述的开源社区画像模型OSC

Snap

Profiler进行训练,得到训练后开源社区特征生成器OSC

GenFv和开源社区画像模型OSC

Snap

Profiler;对所述开源社区分析器OSC

Analysis和开源社区发展评价画像模型OSC

Profiler进行模型训练,包括如下步骤:以历史评价数据为输入,基于所述训练开源社区特征生成器OSC

GenFv和开源社区画像模型OSC

Snap

Profiler生成特征向量OSC

Vect,并根据时间推进生成特征向量OSC

Vect的向量序列OSC

Seq;基于所述开源社区画像模型OSC

Snap

Profiler设置所述的开源社区发展评价画像模型OSC

Profiler的模型初始化参数;将所述开源社区分析器OSC

Analysis和所述开源社区发展评价画像模型OSC

Profiler连接;以历史评价数据为输入,基于所述训练开源社区特征生成器OSC

GenFv和开源社区画像模型OSC

Snap

Profiler生成特征向量OSC

Vect,并根据时间推进生成特征向量OSC

Vect的向量序列OSC

Seq;将所述向量序列OSC

Seq作为输入,基于标注标签,采用梯度下降优化算法对所述开源社区分析器OSC

Analysis和所述开源社区发展评价画像模型OSC

Profiler进行训练,得到序训练后的开源社区分析器OSC

Analysis和所述开源社区发展评价画像模型OSC

Profiler;对所述开源社区发展预测器OSC

Predict进行训练,包括如下步骤:固定所述开源社区分析器OSC

Analysis的模型参数,将所述开源社区分析器OSC

Analysis和所述的开源社区发展预测器OSC

Predict连接起来,构成一个模型网络;以历史评价数据为输入,基于所述训练开源社区特征生成器OSC

GenFv和开源社区画像模型OSC

Snap

Profiler生成特征向量OSC

Vect,并根据时间推进生成特征向量OSC

Vect的向量序列OSC

Seq;以所述向量序列OSC

Seq为输入,通过所述开源社区分析器OSC

Analysis模型参数和所述开源社区发展预测器OSC

Predict来生成下一时间点的特征向量OSC

Next

Vect,计算两者误差,并将误差反向传播,更新开源社区发展预测器OSC

Predict的模型参数,得到训练后开源社区发展预测器OSC

Predict;
对所述开源社区发展优化器OSC

Optimize进行模型训练,包括如下步骤:根据开源社区运营情况,设定多种改进优化策略;以获取的训练数据为输入,通过训练后的开源社区特征提取器OSC

GenFv生成特性向量OSC

Vect,并基于训练后的开源社区分析器OSC

Analysis和开源社区发展评价画像模型OSC

Profiler对开源社区进行数据画像,得到开源社区的数据标签及量化评分OSC

Tag;根据开源社区的数据标签及量化评分OSC

Tag,设定期待优化的标签及量化评分,并标注相应的改进优化策略;采用梯度下降优化算法对所述开源社区发展优化器OSC

Optimize进行模型训练,得到训练后的开源社区发展优化器OSC

Optimize。5.根据权利要求4所述的基于深度学习的开源社区发展评价方法,其特征在于基于设定的时间点从多个数据源收集评价数据,以所述评价数据为输入,通过所述训练后的开源社区特征生成器OSC

GenFv、开源社区画像模型、开源社区分析器OSC

Analysis、开源社区发展评价画像模型OSC

Profiler、开源社区发展预测器OSC

Predict以及开源社区发展优化器OSC

Optimize对开源社区进行评价指导,得到所述开源社区的改进优化策略,包括如下步骤:基于设置的时间点,从多个数据源获取评价数据;对于所述多个数据源获取的评价数据,通过训练后的开源社区特征生成器OSC

GenFv进行特征提取和特征融合,得到特征向量OSC

Vect;按照时间点推荐,生成所述特征向量OSC

Vect的特征向量序列OSC

Seq;以所述特征向量序列OSC

Seq为输入,通过训练后的开源社区分析器OSC

Analysis和开源社区发展评价画像模型OSC

Profiler对所述开源社区进行数据画像,生成开源社区的数据标签及量化评分OSC

Tag;以所述特征向量序列OSC

Seq为输入,通过训练后的开源社区分析器OSC

Analysis和开源社区发展预测器OSC

Predict来生成未来时刻的特征向量OSC

Next

Vect,并以所述特征向量OSC

Next

Vect作为输入,通过所述训练后的开源社区分析器OSC

Analysis和开源社区发展评价画像模型OSC

Profiler持续为开源社区进行数据画像分析,生成开源社区的数据标签及量化评分OSC

Tag;结合所述两方的社区画像,按时间顺序输出一系列开源社区的数据标签及量化评分OSC

Tag,用于开源社区当前及未来的发展评价;模拟开源社区发展场景,生成多种开源社区未来发展评价方向;基于时间顺序的开源社区特征向量OSC

Vect以及对社区画像得到的开源社区的数据标签及量化评分OSC

Tag,通过训练后的开源社区发展优化器OSC

Optimize对开源社区进行优化,生成改进优化策略;定期获取来自多个数据源的评价数据,持续优化开源社区特征生成器OSC

GenFv、开源社区画像模型、开源社区分析器OSC

Analysis、开源社区发展评价画像模型OSC

Profiler、开源社区发展预测器OSC

Predict以及开源社区发展优化器OSC
‑<...

【专利技术属性】
技术研发人员:孙善宝
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1