一种基于机器学习的源代码注释质量评估方法技术

技术编号：13841125 阅读：63 留言：0更新日期：2016-10-16 11:23

本发明专利技术涉及一种基于机器学习的源代码注释质量评估方法。该方法首先对原始的代码注释进行预处理，清洗掉干扰信息，然后利用特征项选择和提取技术生成特征向量，将不同类别的特征向量输入文本分类器进行训练和调优，使用了多种不同特性的分类器并最终进行分类器融合，得出较为完善和准确的质量评估分类结果。本发明专利技术填补了以往只分析代码质量而无注释质量分析方法的空白，克服了代码注释质量依靠个人经验和手工方式评估的低效、主观性强等问题，可用于分析和评估手工编写的代码注释、利用文档自动生成的注释以及挖掘工具自动生成注释等多种来源的注释质量，有效的保证了代码注释质量和可理解性，降低软件维护的成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习技术，特别涉及源代码注释质量评估方法，提出了一种实用的基于机器学习的源代码注释质量评估方法。
技术介绍
机器学习是一门多领域交叉学科，目前存在如下多种定义。机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。机器学习是对能通过经验自动改进的计算机算法的研究。机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。机器学习已经有了十分广泛的应用，例如数据挖掘、自然语言处理、搜索引擎等。源代码注释是为了提高源码可读性而进行的自然语言对应性文本描述，主要目的为了辅助程序员进行代码理解，提高软件系统的可维护性。源代码注释产生的途径多种多样，包括最基本的程序员手工编写、基于软件文档的工具自动生成、基于开放资源(如git log、开源社区和问答系统等)的自动提取和生成等，这些不同来源的注释均需要进行质量评估和度量。本专利技术涉及的机器学习技术主要包括特征项提取和文本分类，特征项提取具体包括针对注释的格式、自然语言专业词库和文本内容方面的特征抽象和计算，文本分类具体包括基于向量空间的k邻近(KNN)分类方法、朴素贝叶斯(NB)分类方法和支持向量机(SVM)分类方法。
技术实现思路
本专利技术的目的在于提供一种基于机器学习的源代码注释质量评估方法。通过这种方法可以高效的客观的评估人工标注的注释、基于文档生成的注释和自动挖掘的注释等不同来源的注释质量，为注释进行自动质量分级，支撑软件源代码的可维护性和可理解性。本专利技术的基于机器学习的源代码注释质量评估方法，包括三部分，如图1所示，第一部分是注释数...

【技术保护点】
一种基于机器学习的源代码注释质量评估方法，包括以下步骤：1)对源代码注释数据进行预处理，得到有效的纯文本注释信息；2)对预处理后的源代码注释数据进行特征提取，生成特征向量，并进行分类器训练；3)利用提取的特征向量，使用多种分类器对源代码注释数据进行质量分类，并将各分类器的质量分类结果进行融合，得出最终的源代码注释质量评估结果。

【技术特征摘要】
1.一种基于机器学习的源代码注释质量评估方法，包括以下步骤：1)对源代码注释数据进行预处理，得到有效的纯文本注释信息；2)对预处理后的源代码注释数据进行特征提取，生成特征向量，并进行分类器训练；3)利用提取的特征向量，使用多种分类器对源代码注释数据进行质量分类，并将各分类器的质量分类结果进行融合，得出最终的源代码注释质量评估结果。2.如权利要求1所述的方法，其特征在于，步骤1)所述预处理是对源代码注释数据进行清洗，过滤图片信息、格式和样式信息、超链接和无效字段。3.如权利要求2所述的方法，其特征在于，步骤1)所述预处理的具体步骤包括：1a)进入注释质量评估系统，检索是否已经完成注释数据预处理；1b)如果未完成注释数据清洗，进入1c)，否则进入1e)；1c)逐条去除格式、图片和停用词信息：i.逐条去除格式，包括字体字号等样式、空格和回车；ii.逐条去除图片信息，包括调用图、时序图和流程图；iii.去除超链接、英文单词和缩写；iv.去除标点符号并进行汉语分词，根据词库去除停用词；1d)将1c)处理得到的注释信息入库，分别录入质量评估数据库的路径和内容字段，进入1b)；1e)进入注释特征项提取。4.如权利要求1所述的方法，其特征在于，步骤2)所述特征提取包括格式相关特征项提取、对应性特征项提取、语言相关特征项提取、文本内容相关特征项提取。5.如权利要求4所述的方法，其特征在于，步骤2)进行特征提取的具体步骤包括：2a)选择训练样本，进行特征项提取和训练...

【专利技术属性】
技术研发人员：李斌，余海，贺也平，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人