The invention relates to a developer image modeling method for multi source software development data fusion. The present invention from GitHub README.md, Stack Overflow and code text in the code in the Answers text, Answers described in the text feature extraction and API, calculate the similarity of feature similarity and API, and then calculate the similarity, and sorting the comprehensive similarity is greater than a certain value (0), i.e. that developer1 and Stack Overflow GitHub developer2 for the same user, the fusion of belonging to the same user data, respectively the developer's skills, activities, developers and code relations, the relationship between developers and developers excavated, with comprehensive portrait show. The invention overcomes the defects that can not provide recommendation for the complete completion of the software engineering task. The invention uses multi source data, and developers and code are combined to model the image of the developer.
【技术实现步骤摘要】
面向多源软件开发数据融合的开发者画像建模方法
本专利技术属于软件工程领域,特别涉及面向多源软件开发数据融合的开发者画像建模方法。
技术介绍
在软件工程中有各种类型的软件开发与维护任务,如软件开发、测试等等,各个开发者的技能、经验等方面各有不同,所以如何给开发者分配合理的任务,是软件开发和维护领域的一大难题。对开发者进行画像建模,可以解决这一难题,然而,基于单源数据的开发者画像建模方法不能全面刻画开发者的画像,该方法存在数据稀疏性问题,导致开发者的技能提取不全面,也只能发现开发者在单一网站中的活动,与开发者之间的显式关系,而面向多源软件开发数据融合的开发者画像建模方法克服了该方法的缺陷,充分全面地对软件开发者进行画像建模。在本专利技术作出之前,目前,已有一些技术用来对开发者画像建模,如Annie等人从开发知识、组织信息和通信网络三个方面对开发者的画像建模,同时阐述了开发者画像的潜在应用,个性化推荐和推荐开发者,另外还介绍了开发者画像的维护和存储。然而,这些技术只能片面的挖掘出开发者的专业知识、在同一组织中的职位、软件开发过程中的角色、与其他开发者在同一个工程中的交互 ...
【技术保护点】
面向多源软件开发数据融合的开发者画像建模方法,其特征在于如下步骤:步骤1).收集GitHub中的数据,对GitHub的信息进行文本提取,提取所有项目中的README.md,将README.md进行自然语言处理,使用命名实体识别技术确定文本中的单词或者短语是否为特征,使用命名实体消歧技术确定特定单词或者短语所指的具体特征,提取到的单词或短语都为特征;对GitHub信息库中的信息进行文本提取,提取所有diff中的代码文本,使用文本信息预处理技术,如分词、词根还原、去掉停用词,提取代码文本中的API;步骤2).收集Stack Overflow中的数据,对Stack Overflo ...
【技术特征摘要】
1.面向多源软件开发数据融合的开发者画像建模方法,其特征在于如下步骤:步骤1).收集GitHub中的数据,对GitHub的信息进行文本提取,提取所有项目中的README.md,将README.md进行自然语言处理,使用命名实体识别技术确定文本中的单词或者短语是否为特征,使用命名实体消歧技术确定特定单词或者短语所指的具体特征,提取到的单词或短语都为特征;对GitHub信息库中的信息进行文本提取,提取所有diff中的代码文本,使用文本信息预处理技术,如分词、词根还原、去掉停用词,提取代码文本中的API;步骤2).收集StackOverflow中的数据,对StackOverflow的信息进行文本提取,提取Answers中的代码文本,使用文本信息预处理技术,如分词、词根还原、去掉停用词,提取代码文本中的API;对StackOverflow的信息进行文本提取,提取Answers中的描述文本,对Answers中的描述文本进行自然语言处理,使用命名实体识别技术确定文本中的单词或者短语是否为特征,使用命名实体消歧技术确定特定单词或者短语所指的具体特征,提取到的单词或短语都为特征;步骤3).经过步骤1)后得到的特征和经过步骤2)后得到的特征进行相似度计算;经过步骤1)后得到的API和经过步骤2)后得到的API进行相似度计算;步...
【专利技术属性】
技术研发人员:李斌,丁佐琳,孙小兵,周澄,
申请(专利权)人:扬州大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。