一种基于最近邻算法的代码变更日志自动生成方法技术

技术编号：24010145 阅读：90 留言：0更新日期：2020-05-02 01:28

本发明专利技术公开了一种基于最近邻算法的代码变更日志自动生成方法，属于代码变更日志自动生成领域。该方法包括：输入数据的预处理、训练集数据预处理、通过词袋模型获取词频向量对的集合、通过KNN算法计算候选中间结果、计算BLEU‑4值，最终获得输出结果。该方法具有模型结构简单，解释性强，模型不需要训练，实际运行时间较NMT大大缩减，对噪声不敏感，鲁棒性强的特点。

An automatic generation method of code change log based on nearest neighbor algorithm

全部详细技术资料下载

【技术实现步骤摘要】
一种基于最近邻算法的代码变更日志自动生成方法
本专利技术属于代码变更日志自动生成领域，具体地涉及一种基于最近邻算法的代码变更日志自动生成方法。
技术介绍
目前，代码变更日志的技术已被广泛研究。DeltaDoc是将源代码的变更作为输入，通过符号执行的方法来获得路径谓词，然后使用一组预定义的规则和转换生成提交消息。ChangeScribe首先通过分析相应的源代码的变更和抽象语法树，以提取必要信息。然后它用提取的信息填充预定义的模板来作为本次提交的日志。NMT则首先将深度神经网络运用到其该领域，其做法是使用神经机器翻译算法自动从源码中生成精简的代码变更日志。但是目前代码克隆检测工具中普遍存在以下问题：(1)模型结构复杂，缺乏可解释性；(2)模型训练和运行时间花费大；(3)对噪声敏感，鲁棒性不强。
技术实现思路
本专利技术的对现有技术进行改进的目的，提供一种基于最近邻算法的代码变更日志自动生成方法。本专利技术是通过以下技术方案实现的：一种基于最近邻算法的代码变更日志自动生成...

【技术保护点】
1.一种基于最近邻算法的代码变更日志自动生成方法，其特征在于，具体包括以下步骤：/n步骤一：输入数据的预处理：每一个原始数据的提交都对应于一个diff文件，所述diff文件通过Git原生命令git diff获得，所述diff文件保存工作区中的当前文件和历史版本文件的差异内容。/n步骤二：训练集数据预处理：对步骤一所得diff文件进行训练，所述diff文件中包含工程的commit对，通过正则表达式过滤掉所述diff文件中的由集成开发工具自动生成的冗余信息的commit对或者缺失信息的commit对，最终获得训练集数据。每个commit对由diff文件和与之对应的commit message组成。...

【技术特征摘要】
1.一种基于最近邻算法的代码变更日志自动生成方法，其特征在于，具体包括以下步骤：
步骤一：输入数据的预处理：每一个原始数据的提交都对应于一个diff文件，所述diff文件通过Git原生命令gitdiff获得，所述diff文件保存工作区中的当前文件和历史版本文件的差异内容。
步骤二：训练集数据预处理：对步骤一所得diff文件进行训练，所述diff文件中包含工程的commit对，通过正则表达式过滤掉所述diff文件中的由集成开发工具自动生成的冗余信息的commit对或者缺失信息的commit对，最终获得训练集数据。每个commit对由diff文件和与之对应的commitmessage组成。
步骤三：通过词袋模型获取词频向量对的集合：将待生成日志diff文件通过词袋模型建立所述diff文件的词频向量对的集合。所述词频向量对表示为<d,ti>，其中d表示diff文件生成的词向量，ti表示训练集中第i个数据对应的词向量；词向量的维度记为n，diff文件的词汇表集合记为D,第i个数据对应词词频向量对的集合记为Ti，n＝|D∪Ti|。
步骤四：KNN算法计算候选中间结果：对步骤三中获得的词频向量对的集合分别做余弦相似度计算，获得相似度值，将相似度值最大的5个词频向量对作为候选中间结果：

【专利技术属性】
技术研发人员：蔡亮，张洋，鄢萌，刘忠鑫，夏鑫，李善平，王新宇，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人