当前位置: 首页 > 专利查询>扬州大学专利>正文

面向多源软件开发数据融合的开发者画像建模方法技术

技术编号:16837039 阅读:41 留言:0更新日期:2017-12-19 19:41
本发明专利技术涉及面向多源软件开发数据融合的开发者画像建模方法。本发明专利技术从GitHub中的README.md、代码文本和Stack Overflow中Answers中的代码文本、Answers中的描述文本提取特征和API,计算出特征的相似度和API的相似度,再计算两者的综合相似度,并排序,综合相似度大于某一个值(θ)时,即认为GitHub的developer1与Stack Overflow的developer2为同一用户,把属于同一用户的数据进行融合,分别将开发者的技能、活动、开发者与代码的关系、开发者与开发者之间的关系挖掘出来,用画像综合表示出来。本发明专利技术克服了无法为全面完成软件工程任务提供推荐的缺陷。本发明专利技术利用多源数据,开发者与代码结合,对开发者的画像进行建模。

A method of developer image modeling for multi source software development data fusion

The invention relates to a developer image modeling method for multi source software development data fusion. The present invention from GitHub README.md, Stack Overflow and code text in the code in the Answers text, Answers described in the text feature extraction and API, calculate the similarity of feature similarity and API, and then calculate the similarity, and sorting the comprehensive similarity is greater than a certain value (0), i.e. that developer1 and Stack Overflow GitHub developer2 for the same user, the fusion of belonging to the same user data, respectively the developer's skills, activities, developers and code relations, the relationship between developers and developers excavated, with comprehensive portrait show. The invention overcomes the defects that can not provide recommendation for the complete completion of the software engineering task. The invention uses multi source data, and developers and code are combined to model the image of the developer.

【技术实现步骤摘要】
面向多源软件开发数据融合的开发者画像建模方法
本专利技术属于软件工程领域,特别涉及面向多源软件开发数据融合的开发者画像建模方法。
技术介绍
在软件工程中有各种类型的软件开发与维护任务,如软件开发、测试等等,各个开发者的技能、经验等方面各有不同,所以如何给开发者分配合理的任务,是软件开发和维护领域的一大难题。对开发者进行画像建模,可以解决这一难题,然而,基于单源数据的开发者画像建模方法不能全面刻画开发者的画像,该方法存在数据稀疏性问题,导致开发者的技能提取不全面,也只能发现开发者在单一网站中的活动,与开发者之间的显式关系,而面向多源软件开发数据融合的开发者画像建模方法克服了该方法的缺陷,充分全面地对软件开发者进行画像建模。在本专利技术作出之前,目前,已有一些技术用来对开发者画像建模,如Annie等人从开发知识、组织信息和通信网络三个方面对开发者的画像建模,同时阐述了开发者画像的潜在应用,个性化推荐和推荐开发者,另外还介绍了开发者画像的维护和存储。然而,这些技术只能片面的挖掘出开发者的专业知识、在同一组织中的职位、软件开发过程中的角色、与其他开发者在同一个工程中的交互信息,画像存在单一性本文档来自技高网...
面向多源软件开发数据融合的开发者画像建模方法

【技术保护点】
面向多源软件开发数据融合的开发者画像建模方法,其特征在于如下步骤:步骤1).收集GitHub中的数据,对GitHub的信息进行文本提取,提取所有项目中的README.md,将README.md进行自然语言处理,使用命名实体识别技术确定文本中的单词或者短语是否为特征,使用命名实体消歧技术确定特定单词或者短语所指的具体特征,提取到的单词或短语都为特征;对GitHub信息库中的信息进行文本提取,提取所有diff中的代码文本,使用文本信息预处理技术,如分词、词根还原、去掉停用词,提取代码文本中的API;步骤2).收集Stack Overflow中的数据,对Stack Overflow的信息进行文本提取...

【技术特征摘要】
1.面向多源软件开发数据融合的开发者画像建模方法,其特征在于如下步骤:步骤1).收集GitHub中的数据,对GitHub的信息进行文本提取,提取所有项目中的README.md,将README.md进行自然语言处理,使用命名实体识别技术确定文本中的单词或者短语是否为特征,使用命名实体消歧技术确定特定单词或者短语所指的具体特征,提取到的单词或短语都为特征;对GitHub信息库中的信息进行文本提取,提取所有diff中的代码文本,使用文本信息预处理技术,如分词、词根还原、去掉停用词,提取代码文本中的API;步骤2).收集StackOverflow中的数据,对StackOverflow的信息进行文本提取,提取Answers中的代码文本,使用文本信息预处理技术,如分词、词根还原、去掉停用词,提取代码文本中的API;对StackOverflow的信息进行文本提取,提取Answers中的描述文本,对Answers中的描述文本进行自然语言处理,使用命名实体识别技术确定文本中的单词或者短语是否为特征,使用命名实体消歧技术确定特定单词或者短语所指的具体特征,提取到的单词或短语都为特征;步骤3).经过步骤1)后得到的特征和经过步骤2)后得到的特征进行相似度计算;经过步骤1)后得到的API和经过步骤2)后得到的API进行相似度计算;步...

【专利技术属性】
技术研发人员:李斌丁佐琳孙小兵周澄
申请(专利权)人:扬州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1