当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于Star信息和README文档的开源社区相似仓库推荐方法技术

技术编号:21850862 阅读:37 留言:0更新日期:2019-08-14 00:23
本发明专利技术提出了一种基于开源社区仓库的Star信息和README文档来发掘并推荐高质量相似仓库的方法。该发明专利技术的创新在于如下三个方面:只推荐开源社区中优秀的相似项目仓库;突破了现有方法中的局限性,突破了开发语言的限制,可以进行跨语言比较、推荐;充分利用仓库自身的Star用户列表和README文档来发现仓库间的相似性。通过实验发现,本发明专利技术较现有方法,准确率更佳。

A Recommendation Method for Open Source Community Similar Warehouse Based on Star Information and README Document

【技术实现步骤摘要】
一种基于Star信息和README文档的开源社区相似仓库推荐方法
本专利技术属于计算机技术中的推荐系统领域,涉及开源社区中的项目仓库的相似度比较,尤其是对受欢迎的优秀仓库的相似仓库进行推荐。
技术介绍
开源软件平台越来越受到开发者的青睐,根据GitHub公布的数据,截至2017年11月11日,其上已经有超过五千两百万的项目,并且有两千四百万的开发人员在其上进行开发。同时,开源社区因其包含各式开源项目,也满足了开发人员对代码复用的需求,有超过一半的开源软件的代码文件被用在多个开源软件之中。这意味着开源社区之上的一大部分仓库是相似的。开源社区上的两个仓库如果他们的代码是相似的或者他们实现了相似的功能,那么就认为他们是相似的。那么,如何在数量庞大的仓库中找到真正相似的高质量的仓库,方便代码复用或是作为新项目的参考,便成为一个难题。现有的软件项目仓库推荐方法主要有以下几种:1)开源社区提供的仓库检索工具,2)Mudable,3)CLAN。开源社区会提供自己的检索工具,但是其提供的搜索引擎只能基于关键词进行搜索,只有当仓库名称中包含检索词的时候,才会返回结果。当仓库名称不包含检索词时就无法返回本文档来自技高网...

【技术保护点】
1.一种基于Star信息和README文档的开源社区相似仓库推荐方法,其特征是:使用开源社区项目仓库的Star用户列表和README文档,计算两个开源社区项目仓库的相似度,将与目标项目仓库相似度高的项目仓库推荐给开发者。

【技术特征摘要】
1.一种基于Star信息和README文档的开源社区相似仓库推荐方法,其特征是:使用开源社区项目仓库的Star用户列表和README文档,计算两个开源社区项目仓库的相似度,将与目标项目仓库相似度高的项目仓库推荐给开发者。2.依据权利要求1所述的两个开源社区项目仓库相似度来自于三个子指标即README文档的相似度、Star用户列表的相似度和用户关注R1,R2两个仓库的时间相似度。3.依据权利要求1所述的优秀项目仓库是开源社区内各开发语言中被开发者广泛关注、Star的项目仓库。4.依据权利要求2所述的README文档相似度计算,其特征是具体如下:1)对包括目标仓库在内的所有仓库的README文档进行分词处理,将README文档向量化;2)对分词结果列表计算词频TF和逆文档词频IDF,将TF与IDF整合,计算得出对应README文档向量的权重;3)通过向量权重计算得到两个README文档的相似度。5.依据权利要求2所述的Star用户列表的相似度计算,其特征是具体如下:1)获取目标仓库和候选优秀仓库Star用户列表中的每个用户,并获取用户Star的仓库列表;2)对两个项目仓库的所有Star用户进行配对(两个用户分别来自不同的项目仓库),对每一个用户配对,...

【专利技术属性】
技术研发人员:刘嘉刘锦涛方文强邹卫琴李玉莹陈振宇
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1