一种面向开源社区开发者的画像构建方法技术

技术编号:26791396 阅读:25 留言:0更新日期:2020-12-22 17:06
本发明专利技术提出了一种面向开源社区开发者的画像构建方法,包括以下步骤:从开源社区平台获取开发人员的相关数据,包括个人基本信息及代码仓库;根据获取的代码仓库,通过web数据分析获取开发人员的star/watch/fork数量、关注者以及活动,通过文本分析获取开发者的专长、编程风格,通过代码分析获取编程偏好和代码统计量;基于开发者画像模型,根据个人基本信息和上述分析所得的各类编程相关属性值,得到开发者画像。本发明专利技术可用于开源社区平台,平台的管理者及使用人员可以利用本发明专利技术构建开发者画像,并可以将所构建的画像直接显示在网页上。

【技术实现步骤摘要】
一种面向开源社区开发者的画像构建方法
本专利技术涉及画像构建,具体涉及一种面向开源社区开发者的画像构建方法。
技术介绍
开源社区平台正在蓬勃发展。截至2019年5月,GitHub报告拥有超过3700万用户和超过1亿个代码仓库(包括至少2800万个公开代码仓库)。开源平台成功的主要原因之一是它们为世界各地的开发人员提供了一种协作的方式。虽然我们都知道协作者之间的了解是成功协作的关键,但现有的开源平台并不能为开发人员提供足够的便于了解的信息以使其彼此快速了解。例如对于GitHub中开发人员的信息,可以将显示的信息大致分为三类。第一类主要是关于开发者的基本信息,例如,用户名、位置和组织。第二类概述了开发人员的代码仓库,例如,代码仓库、星号和固定的代码仓库的数量。第三类显示开发者的历史信息,即贡献活动。通过这些普遍的简单信息,我们可以粗略地了解开发人员。但却无法从现有开源社区平台上的这些概要信息中了解开发人员有关软件开发的特征,例如编程风格和专长领域。一种选择是,可以手动浏览所有开发人员的代码仓库来了解开发人员,但这既麻烦又费时。另一个好的选择本文档来自技高网...

【技术保护点】
1.一种面向开源社区开发者的画像构建方法,其特征在于,包括以下步骤:/n从开源社区平台获取开发人员的相关数据,包括个人基本信息及代码仓库;/n根据获取的代码仓库,通过web数据分析获取开发人员的star/watch/fork数量、关注者以及活动,通过文本分析获取开发者的兴趣、专长、编程风格,通过代码分析获取开发者的编程偏好和代码统计量;/n基于开发者画像模型,根据个人基本信息和上述分析所得的各类属性值,得到开发者画像。/n

【技术特征摘要】
1.一种面向开源社区开发者的画像构建方法,其特征在于,包括以下步骤:
从开源社区平台获取开发人员的相关数据,包括个人基本信息及代码仓库;
根据获取的代码仓库,通过web数据分析获取开发人员的star/watch/fork数量、关注者以及活动,通过文本分析获取开发者的兴趣、专长、编程风格,通过代码分析获取开发者的编程偏好和代码统计量;
基于开发者画像模型,根据个人基本信息和上述分析所得的各类属性值,得到开发者画像。


2.根据权利要求1所述的面向开源社区开发者的画像构建方法,其特征在于,所述通过web数据分析获取开发人员的star/watch/fork数量、关注者以及活动包括:
根据开发人员对代码仓库的贡献程度,将代码仓库中star/watch/fork的总数分配给开发人员,然后,通过将开发人员从所有代码仓库中获得的star/watch/fork的数量分别相加,得到开发人员的star/watch/fork数量;
开发人员的关注者以及活动从开源社区平台该开发人员的个人web页面直接获得。


3.根据权利要求1所述的面向开源社区开发者的画像构建方法,其特征在于,所述通过文本分析获取开发者的兴趣、专长、编程风格包括:
从开发人员的代码仓库,以及该开发人员所关注的其他开发人员的代码仓库中,获取README文件,利用自动摘要算法从README文件中获得第一摘要/关键字,作为开发人员的兴趣值;
提取开发人员代码仓库...

【专利技术属性】
技术研发人员:杨文华周宇黄志球张智轶
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1