一种基于LSTM自动补全代码的方法技术

技术编号：18657752 阅读：677 留言：0更新日期：2018-08-11 14:20

本发明专利技术提供了一种基于LSTM自动补全代码的方法，包括：源代码处理步骤，使用抽象语法树解析源代码；线下训练步骤，使用LSTM模型训练语言模型；线上代码补全步骤，根据训练过的语言模型补全代码。所述LSTM模型包括约束字符级LSTM和使用前上下文标识符编码器的标识符级LSTM。本发明专利技术实现了在编程过程中，任意地方输入任意字符都可以实现代码的自动补全，以及任意代码的推荐，并保证推荐过程的准确性。本发明专利技术的技术方案具有简单、快速的特点，能够较好地提高代码推荐的准确率和推荐效率。

A method of automatic completion code based on LSTM

The invention provides a method for automatically completing code based on LSTM, including: source code processing step, using abstract syntax tree to parse source code; offline training step, using LSTM model to train language model; online code completion step, completing code according to the trained language model. The LSTM model includes a constraint character level LSTM and an identifier level LSTM using a pre-context identifier encoder. The invention realizes the automatic completion of codes and the recommendation of arbitrary codes by inputting arbitrary characters at any place in the programming process, and ensures the accuracy of the recommendation process. The technical scheme of the invention is simple and fast, and can improve the accuracy and efficiency of code recommendation.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于LSTM自动补全代码的方法
本专利技术涉及计算机软件工程
，尤其是涉及一种基于LSTM自动补全代码的方法。
技术介绍
计算机自动生成代码是近年来软件工程的研究热点之一。代码自动生成极大的减少了程序员的工作量，提高了开发效率。随着开源社区的发展，我们可以通过分析大量的代码从而进行代码生成。代码自动生成的一大困难在于源代码本身具有诸多的约束和限制。近年来，在原有的基于组合优化方法进行程序综合研究的基础上，产生了一些新的基于机器学习技术进行程序生成的方法。按照所采取的技术及应用场景的不同，可将当前的程序生成方法分成两类：一类为基于程序输入输出结果的程序生成，一类为基于程序代码语言特性的代码生成。基于输入输出结果的程序综合主要基于机器学习模型，利用程序输入输出结果之间的对应关系构造训练数据集，并利用该数据集对机器学习模型进行训练，以达到在输入输出效果上模拟程序行为的目的。该类方法尤以基于深度神经网络的方法为代表。基于程序设计语言模型的程序生成主要利用程序设计语言自身所具有的的统计特性，通过对已有大量程序代码的学习建立相应程序设计语言的机器学习模型，并基于该模型在已有程序代码的基础上通过自动补全的方式生成新的代码。LSTM(LongShort-TermMemory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM已经在科技领域有了多种应用。基于LSTM的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。中国...

【技术保护点】
1.一种基于LSTM自动补全代码的方法，其特征在于，包括：源代码处理步骤，使用抽象语法树解析源代码；线下训练步骤，使用LSTM模型训练语言模型。线上代码补全步骤，根据训练过的语言模型补全代码。

【技术特征摘要】
1.一种基于LSTM自动补全代码的方法，其特征在于，包括：源代码处理步骤，使用抽象语法树解析源代码；线下训练步骤，使用LSTM模型训练语言模型。线上代码补全步骤，根据训练过的语言模型补全代码。2.根据权利要求1所述的基于LSTM自动补全代码的方法，其特征在于：在源代码处理步骤中，所述源代码被解析为不同形式，以获得代码的类、方法列表、代码标识符。3.根据权利要求1或2所述的基于LSTM自动补全代码的方法，其特征在于：所述LSTM模型包括约束字符级LSTM和使用前上下文标识符编码器的标识符级LSTM。4.根据权利要求3所述的基于LSTM自动补全代码的方法，其特征在于：使用LSTM模型引入解析源代码得到的标识符，并在不同场景中分别训练语言模型。5.根据权利要求2所述的基于LSTM自动补全代码的方法，其特征在于：所述LSTM模型为串联的两层LSTM模型，所述两侧LSTM模型位于隐藏层。6.根据权利要求3所述的基于LSTM自动补全代码的方法，其特征在于：所述约束字符级LSTM用于引入标识符以完成方法调用预测。7.根据权利要求6所述的基...

【专利技术属性】
技术研发人员：李戈，金芝，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人