The invention discloses a method for finding experts in the field of social programming website based on this method, enter search keywords on the premise of a given user, the history of development project based on GitHub from all users in the field of search keywords, find experts and sort. The invention can GitHub data sets to model users in the domain specific programming ability based on the experts and found that a given domain, IT domain is the basis of online recruitment; the method of the invention in probability score, introduced a kind of restrictive assumptions, and to regular way to integrate the probability grading model, effective to improve the efficiency of search.
【技术实现步骤摘要】
本专利技术属于信息检索
,具体设计一种基于社会化编程网站的领域专家发现方法。
技术介绍
随着社交网络的发展,整合社交媒体与分布式版本控制系统的社会化编程网站(Social Coding Sites,SCS)正逐渐改变着传统的软件开发模式。GitHub作为目前最大、最受欢迎的社会化编程网站之一,记录了所有用户的操作记录,项目信息。自2008年上线以来,最近几年一直以加速的方式快速发展,据统计,截至2015年6月10日,GitHub上的注册用户及托管项目已分别达到11,610,094和20,598,603。在IT领域,程序员的招聘一直是一个高代价、困扰公司的难题,根据搜索关键字有效地搜索相关领域的编程人员,能够极大减少公司在招聘上的开销,并且能为公司的发展带来极大的价值。目前已有的招聘方式是基于LinkedIn来进行的,招聘方通过浏览应聘者在LinkedIn上传的简历来寻找合适的人员。但LinkedIn上的简历是需要应聘者去更新的,是“静态”的、不可信的。这样往往导致招聘方招不到合适的人员,或应聘者的能力与简历上的能力有较大的偏差。而GitHub能够为用户提供一个动态的、更加真实的编程能力的呈现。GitHub的核心思想是强调以协同开发为主。GitHub不仅记录了用户在GitHub上参与开发的项目以及贡献的具体代码,而且用户之间形成了一个协作开发网络。在GitHub上用户之间可以进行关注,用户对项目可以进行修改、提交、关注等操作。GitHub很好地刻画了用户的编程能力,从用户开发的项目以及贡献量来衡量一个人对知识的掌握程度正好弥补了招聘领域只看简历的不足 ...
【技术保护点】
一种基于社会化编程网站的领域专家发现方法,包括如下步骤:(1)对于社会化编程网站中的任一项目,从该项目的自述文件中抽取项目的描述文本,进而利用描述文本计算该项目与搜索关键词之间的语义相似度;依此遍历所有项目,组成项目与搜索关键词之间的语义相似度向量x0;(2)根据所述的语义相似度向量x0,建立以下目标函数Ω(x)并对其进行最小化求解,得到项目与搜索关键词之间的关联度向量x;Ω(x)=xT(I‑SR)x+μR||x‑x0||2其中:I为单位矩阵,SR为项目之间的相似度矩阵,μR为正则化因子,T表示转置;(3)根据公式计算出开发者在搜索关键词领域的专业度向量,该专业度向量中的每一元素值即对应各开发者在搜索关键词领域的专业分值,进而按专业分值从高到低对开发者进行排序展现;其中:QR为n维对角矩阵且其中第i行第i列对角线元素值即对应为第i个项目的质量,n为社会化编程网站中的项目总数,PRD为开发者与项目之间的关联矩阵。
【技术特征摘要】
1.一种基于社会化编程网站的领域专家发现方法,包括如下步骤:(1)对于社会化编程网站中的任一项目,从该项目的自述文件中抽取项目的描述文本,进而利用描述文本计算该项目与搜索关键词之间的语义相似度;依此遍历所有项目,组成项目与搜索关键词之间的语义相似度向量x0;(2)根据所述的语义相似度向量x0,建立以下目标函数Ω(x)并对其进行最小化求解,得到项目与搜索关键词之间的关联度向量x;Ω(x)=xT(I-SR)x+μR||x-x0||2其中:I为单位矩阵,SR为项目之间的相似度矩阵,μR为正则化因子,T表示转置;(3)根据公式计算出开发者在搜索关键词领域的专业度向量,该专业度向量中的每一元素值即对应各开发者在搜索关键词领域的专业分值,进而按专业分值从高到低对开发者进行排序展现;其中:QR为n维对角矩阵且其中第i行第i列对角线元素值即对应为第i个项目的质量,n为社会化编程网站中的项目总数,PRD为开发者与项目之间的关联矩阵。2.根据权利要求1所述的领域专家发现方法,其特征在于:所述的步骤(1)中从自述文件中抽取项目的描述文本,具体过程如下:首先,将自述文件分割成多段,其中对于markdown格式的自述文件,以markdown中特殊标签对其进行文本切割;对于纯文本格式的自述文件,取其中字符数小于40且全为字母的行为标题行,并以标题行对其进行文本切割;然后,取自述文件的前三段进行分析,若存在某段标题中含有description或feature,则抽取该段作为项目的描述文本,否则抽取第一段作为项目的描述文本...
【专利技术属性】
技术研发人员:吴健,万瑶,陈亮,梁婷婷,高维,应豪超,韩玉强,王皓然,邓水光,李莹,尹建伟,吴朝晖,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。