一种基于代码中间表示的代码补全方法、装置及存储介质制造方法及图纸

技术编号：19056232 阅读：21 留言：0更新日期：2018-09-29 12:04

本发明专利技术实施例提供了一种基于代码中间表示的代码补全方法，包括：将代码库中的现有代码解析得到第一中间表达，并采用所述第一中间表达训练语言模型获取有效语言模型；将待推理的上下文转换成第二中间表达，采用搜索算法对所述第二中间表达进行搜索得到上下文；将所述上下文输入所述有效语言模型进行推理得到代码片段，对所述代码片段进行拟合得到补全代码。本发明专利技术实施例还提供了一种主动交互装置及非暂态可读存储介质，用来实现所述方法。本发明专利技术可以有效提高研发人员的代码开发效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于代码中间表示的代码补全方法、装置及存储介质
本专利技术实施例涉及软件分析及机器学习领域，尤其涉及一种基于代码中间表示的代码补全方法、装置及存储介质。
技术介绍
代码自动补全经过最近几年的发展，已经被广泛应用于提高软件开发效率的辅助技术，已经被主流IDE例如eclipse，IntelliJ集成，目前业界普遍根据被补全的内容将代码补全技术分成两类：1)补全一个API；2)补全任意一个token。国内外学者已提出许多代码补全的方法及技术并开发出相应的代码补全工具。具体来说如下：1)补全一个API：这种技术使用机器学习中的分类技术，在上下文信息中提取出特征，将API看做类别，进行分类训练，最后推理出正确的API，这种技术的优点是精度高，一般可以利用大量的上下文信息，缺点是被推理的内容仅仅局限于API，无法适配到推理任意代码。2)补全任意一个token：这种技术使用语言模型，将任意的token当成分类标签，能够推理出任意的代码token(单词)。这种技术的优点是能够推理任意代码，缺点是由于分类标签太多，精度很低，同时，由于一段代码经常由成百上千的token组成，目前的主流语言模型(RNN/LSTM)最多就能够处理10-15个token序列，根本无法处理代码中成百上千长度的token序列。基于上述情况，如何找到一种能够精确推理任意种类及长度的代码的方法，就成为业界亟待解决的问题。
技术实现思路
针对现有技术存在的上述问题，本专利技术实施例提供了一种基于代码中间表示的代码补全方法、装置及存储介质。一方面，本专利技术实施例提供了一种基于代码中间表示的代码补全方法，包括...

【技术保护点】
1.一种基于代码中间表示的代码补全方法，其特征在于，包括：将代码库中的现有代码解析得到第一中间表达，并采用所述第一中间表达训练语言模型获取有效语言模型；将待推理的上下文转换成第二中间表达，采用搜索算法对所述第二中间表达进行搜索得到上下文；将所述上下文输入所述有效语言模型进行推理得到代码片段，对所述代码片段进行拟合得到补全代码。

【技术特征摘要】
1.一种基于代码中间表示的代码补全方法，其特征在于，包括：将代码库中的现有代码解析得到第一中间表达，并采用所述第一中间表达训练语言模型获取有效语言模型；将待推理的上下文转换成第二中间表达，采用搜索算法对所述第二中间表达进行搜索得到上下文；将所述上下文输入所述有效语言模型进行推理得到代码片段，对所述代码片段进行拟合得到补全代码。2.根据权利要求1所述的方法，其特征在于，所述第一中间表达或第二中间表达的排列顺序与程序执行顺序一致。3.根据权利要求1所述的方法，其特征在于，所述将代码库中的现有代码解析得到第一中间表达，包括：将所述现有代码转换成语法树，遍历所述语法树，将语法树中同一层叶子节点与父节点合并得到合并后节点；从所述合并后节点中抽取与所述合并后节点的子节点不重复的信息形成token，所述token即为所述第一中间表达。4.根据权利要求1所述的方法，其特征在于，所述采用搜索算法对所述第二中间表达进行搜索得到上下文，包括：采用模糊搜索算法对所述第二中间表达进行搜索，得到与所述第二中间表达式具有相应相似度的代码。5.根...

【专利技术属性】
技术研发人员：姜宇，杨镒箫，顾明，孙家广，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人