The invention relates to a clustering analysis method for software development activities based on event log, which belongs to the technical field of software engineering and process mining. Firstly, natural language processing technology is used to parse and extract feature words from event log data of software development process version control system. Then, software development activity log is vectorized based on Word2vec. Then, software development activity events after vectorization are clustered based on K_means clustering algorithm. Finally, the optimal clustering cluster number is obtained by contour coefficient method. Obtain software development activities and the relationship between events and activities. The invention can enhance the comprehensibility of software development event log, reveal the information contained in event log data, facilitate the discovery of software development activities, guide and standardize software development behavior, and provide technical support for software development.
【技术实现步骤摘要】
一种基于事件日志的软件开发活动聚类分析方法
本专利技术涉及一种基于事件日志的软件开发活动聚类分析方法,属于软件工程、过程挖掘
技术介绍
在软件开发过程中会产生一系列的软件开发活动和事件日志数据,这些不断增长的事件日志数据记录了软件开发活动实施的具体详情,对规避软件开发项目风险、提高软件开发项目成熟度和控制软件产品质量具有重要意义。然而,由于对事件日志数据重视程度不够、原始事件日志数据繁杂和难以被理解等原因,软件开发过程中的事件日志没有充分发挥其价值。利用过程挖掘的方法对软件开发活动进行挖掘与分析,将有助于揭示事件日志数据蕴含的信息,更好地理解、规范和指导软件开发行为,为软件开发提供技术支持。
技术实现思路
本专利技术要解决的技术问题是以软件开发过程中的事件日志数据为基础,提供一种基于事件日志的软件开发活动聚类分析方法。通过该方法可以增强软件开发事件日志的可理解性、便于发现软件开发活动及其关系并指导和规范软件开发行为。本专利技术的技术方案是:一种基于事件日志的软件开发活动聚类分析方法,利用自然语言处理技术对软件开发过程版本控制系统的事件日志数据进行文本解析和特征词提取,并基于word2vec实现软件开发活动事件日志向量化,然后基于K-means聚类算法对向量化后的软件开发活动事件进行聚类,并利用轮廓系数法得到最优聚类簇数,最终获得软件开发活动以及事件与活动的关联关系。Step1、事件日志特征词抽取;软件开发过程事件日志数据是一个扩展的XML文件存储格式,相关的节点及子节点记录了事件的id、作者、事件信息等数据。如,logentry属性节点表示事件信息, ...
【技术保护点】
1.一种基于事件日志的软件开发活动聚类分析方法,其特征在于:利用自然语言处理技术对软件开发过程版本控制系统的事件日志数据进行文本解析和特征词提取,并基于word2vec实现软件开发活动事件日志向量化,然后基于K‑means聚类算法对向量化后的软件开发活动事件进行聚类,并利用轮廓系数法得到最优聚类簇数,最终获得软件开发活动以及事件与活动的关联关系。
【技术特征摘要】
1.一种基于事件日志的软件开发活动聚类分析方法,其特征在于:利用自然语言处理技术对软件开发过程版本控制系统的事件日志数据进行文本解析和特征词提取,并基于word2vec实现软件开发活动事件日志向量化,然后基于K-means聚类算法对向量化后的软件开发活动事件进行聚类,并利用轮廓系数法得到最优聚类簇数,最终获得软件开发活动以及事件与活动的关联关系。2.根据权利要求1所述的基于事件日志的软件开发活动聚类分析方法,其特征在于具体步骤为:Step1、事件日志特征词抽取;Step1.1、解析xml文件,提取节点元素文本内容;Step1.2、去除停用词,保留实体词汇,所述停用词包括介词、形容词和副词,所述实体词汇包括动词和名词;Step1.3、把各种时态的词汇转化为一般形式,做词性还原;Step2、事件日志向量化;Step2.1、根据事件属性子节点与软件开发活动的相关性,分别对所属特征词赋不同权重值;Step2.2、通过调用Word2vec接口,构建ContinuousBag-of-WordsModel连续词袋模型,对软件开发事件日志特征词进行词向量训练;Step2....
【专利技术属性】
技术研发人员:唐明靖,文斌,王俊,陈建兵,邹伟,
申请(专利权)人:云南师范大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。