一种软件文档中核心代码元素的挖掘方法及系统技术方案

技术编号：17779433 阅读：28 留言：0更新日期：2018-04-22 07:48

本发明专利技术涉及一种软件文档中核心代码元素的挖掘方法及系统。该方法包括：1)对待处理软件项目的软件文档和源代码进行收集，并解析所述软件文档和源代码，得到候选的文档‑代码关联关系集合；2)从候选文档‑代码关联关系的相关软件文档与软件代码中抽取文本和代码特征，并组织所述特征以构建软件文档中候选代码元素的特征向量；3)利用带有标注核心代码元素的训练数据的特征向量，通过调优模型参数得到分类学习模型，通过分类学习模型识别软件文档中的核心代码元素。该系统包括：软件文档与软件代码预处理模块、特征抽取模块、分类学习算法模块。本发明专利技术能够追踪并度量软件文档与软件代码间的关联关系，区分核心关联和噪音关联。

全部详细技术资料下载

【技术实现步骤摘要】
一种软件文档中核心代码元素的挖掘方法及系统
本专利技术涉及软件文档-代码关联关系追踪领域，尤其涉及一种软件文档中核心代码元素的挖掘方法及系统。
技术介绍
长期以来，软件可追踪性研究一直受到广泛的关注。研究者们试图通过挖掘软件代码与各类自然语言文档之间潜在的关联关系，建立软件文档与软件代码的可追踪性关联。这对于程序理解、需求工程、软件维护等多个方面均有重要意义。现有的软件文档与软件代码关联关系挖掘方法可以分为两类：一、基于信息检索的方法。该方法基本思想是把软件代码作为查询条件在候选软件文档中进行信息检索，根据相似度排序在满足一定要求(例如相似度阈值或相关程度排名)的软件文档与软件代码之间建立关联。二、基于程序分析技术的方法。该方法通过识别软件文档中出现的代码元素(例如类名、方法名等)，判断其所属的代码单元，并在软件文档和代码单元间建立可追踪性关联。如何基于上下文判断代码元素所属的代码单元(消歧)是该方法的重点。上述软件文档与软件代码关联关系挖掘方法存在以下问题：(1)第一类方法受限于软件代码中标识符的命名应该是自解释的，或存在足够的代码注释，对一些软件项目来说效果不能令人满意。一方面是因为这类方法将软件代码当作普通文本处理，在将其转化为特征向量的过程中，损失了大量软件代码特有的结构语义信息；另一方面是因为软件文档和代码中每个特征(代码元素)的重要程度与出现次数基本无关，而信息检索的基础是进行关键字匹配。如果软件文档中没有出现该关键字或关键词的词频不高，则可能导致检索效果不佳。此外，软件文档中更多可能使用同义词、近义词或缩写词，这也对信息检索方法的效果造成了比...
一种软件文档中核心代码元素的挖掘方法及系统

【技术保护点】
一种软件文档中核心代码元素的挖掘方法，其特征在于，包括以下步骤：1)对待处理软件项目的软件文档和源代码进行收集，并解析所述软件文档和源代码，得到候选的文档‑代码关联关系集合；2)从候选文档‑代码关联关系的相关软件文档与软件代码中抽取文本特征和代码特征，并组织所述特征以构建软件文档中候选代码元素的特征向量；3)将已标注核心代码元素的软件文档作为训练数据，构建特征向量，通过调优模型参数得到分类学习模型，通过分类学习模型识别待识别的软件文档中的核心代码元素。

【技术特征摘要】
1.一种软件文档中核心代码元素的挖掘方法，其特征在于，包括以下步骤：1)对待处理软件项目的软件文档和源代码进行收集，并解析所述软件文档和源代码，得到候选的文档-代码关联关系集合；2)从候选文档-代码关联关系的相关软件文档与软件代码中抽取文本特征和代码特征，并组织所述特征以构建软件文档中候选代码元素的特征向量；3)将已标注核心代码元素的软件文档作为训练数据，构建特征向量，通过调优模型参数得到分类学习模型，通过分类学习模型识别待识别的软件文档中的核心代码元素。2.如权利要求1所述的方法，其特征在于，步骤1)包括以下子步骤：1-1)对获取的软件文档进行解析：根据XML标签抽取软件文档中有意义的文本部分，构建软件文档对应的文档实体；对文档内容进行分段，并识别和标明文档中的代码片段和超链接；根据文档内容中存在的“<code>”和“</code>”识别文档中的代码片段；1-2)对获取的软件源代码进行解析：基于所获取的源代码，利用工具JDT，生成抽象语法树；遍历抽象语法树，获取软件项目的代码元素列表，基于代码元素之间的关联关系并构建代码结构图；1-3)基于程序语法规则和命名规则构建正则表达式，根据正则表达式从步骤1-1)中的软件文档实体中抽取近似代码元素，并将其和步骤1-2)中获取的代码元素列表进行匹配，若近似代码元素和某个代码元素相同，则建立相应文档实体与代码元素间的关联关系，得到候选文档-代码关联关系集合。3.如权利要求1所述的方法，其特征在于，步骤2)包括以下子步骤：2-1)从文档中提取特征，提取的特征包括：词频特征、代码元素在文档中的位置特征、文档中的特定句法、文档与代码元素注释的文本相似度、关联文档中代码元素的词频特征；2-2)从代码中提取特征，提取的特征包括：代码元素的类型、代码元素间的关联以及代码元素间的距离；2-3)基于从文档和代码中提取的特征，按照libSVM格式构建用于度量软件文档与软件代码间关联关系的特征向量。4.如权利要求1所述的方法，其特征在于，步骤3)包括以下子步骤：3-1)对每个标注好核心代码元素的文档，抽取文档和代码特征构建特征向量，输入基于决策树的分类模型进行学习，通过调优参数得到分类学习模型；3-2)基于分类学习模型识别软件文档的核心代码元素，当文档中某代码元素获取的度量值的排名超过阈值时，该代码元素为该文档的核心代码元素。5.一种软件文档中核心代码元素的挖掘系统，其特征在于，包括：软件文档与软件代码预处理模块，用于对待处理软件项目的软件文档和源代码进行收集，并解析所述软件文档和源代码，得到候选的文档-代码关联关系集合；特征抽取模块...

【专利技术属性】
技术研发人员：邹艳珍，曹英魁，谢冰，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人