代码补全模型训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:42787746 阅读:27 留言:0更新日期:2024-09-21 00:45
本发明专利技术提供一种代码补全模型训练方法、装置、电子设备和存储介质,属于代码补全技术领域,其中方法包括:获取待补全的开源的抽象语法树AST数据集;后序遍历AST数据集,得到AST数据集对应的后序序列数据集;基于AST数据集构建词汇表,基于词汇表对后序序列数据集进行转换,生成对应的后序索引序列数据集;确定AST数据集对应的层级序列数据集;基于后序索引序列数据集和层级序列数据集,得到AST建模数据,基于AST建模数据训练初始代码补全模型,训练完成后,得到代码补全模型。本发明专利技术能够提高代码补全模型预测的精度和准确率。

【技术实现步骤摘要】

本专利技术涉及代码补全,尤其涉及一种代码补全模型训练方法、装置、电子设备和存储介质


技术介绍

1、随着机器学习和人工智能技术的快速发展,代码补全模型的应用越来越广泛,采用代码补全模型进行代码预测,能够提升软件开发效率、减少编程错误。目前,在代码补全模型训练的过程中,仅采用先序遍历的方法进行抽象语法树(abstract syntax tree,ast)建模,会丢失ast结构信息,采用路径分解的方法进行ast建模,生成较多冗余路径,采用基于结构的遍历方法进行ast建模,引入额外的符号,导致ast序列的长度翻倍,影响模型训练的精度和准确率。


技术实现思路

1、本专利技术提供一种代码补全模型训练方法、装置、电子设备和存储介质,用以解决现有技术在代码补全模型训练的过程中,仅采用先序遍历的方法进行ast建模,会丢失ast结构信息,采用路径分解的方法进行ast建模,生成较多冗余路径,采用基于结构的遍历方法进行ast建模,引入额外的符号,导致ast序列的长度翻倍,影响模型训练的精度和准确率的缺陷。>

2、第一方面本文档来自技高网...

【技术保护点】

1.一种代码补全模型训练方法,其特征在于,包括:

2.根据权利要求1所述的代码补全模型训练方法,其特征在于,所述后序遍历所述AST数据集,得到所述AST数据集对应的后序序列数据集,包括:

3.根据权利要求1所述的代码补全模型训练方法,其特征在于,所述基于所述AST数据集构建词汇表,基于所述词汇表对所述后序序列数据集进行转换,生成对应的后序索引序列数据集,包括:

4.根据权利要求1所述的代码补全模型训练方法,其特征在于,所述确定所述AST数据集对应的层级序列数据集,包括:

5.根据权利要求1所述的代码补全模型训练方法,其特征在于,所述基于所述...

【技术特征摘要】

1.一种代码补全模型训练方法,其特征在于,包括:

2.根据权利要求1所述的代码补全模型训练方法,其特征在于,所述后序遍历所述ast数据集,得到所述ast数据集对应的后序序列数据集,包括:

3.根据权利要求1所述的代码补全模型训练方法,其特征在于,所述基于所述ast数据集构建词汇表,基于所述词汇表对所述后序序列数据集进行转换,生成对应的后序索引序列数据集,包括:

4.根据权利要求1所述的代码补全模型训练方法,其特征在于,所述确定所述ast数据集对应的层级序列数据集,包括:

5.根据权利要求1所述的代码补全模型训练方法,其特征在于,所述基于所述ast建模数据训练初始代码补全模型,包括:

6.根据权利要求1所述的代码补全模型训练方...

【专利技术属性】
技术研发人员:李林海邢明杰武延军李玲
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1