一种基于迭代对比学习的代码重排方法及系统技术方案

技术编号：37460097 阅读：28 留言：0更新日期：2023-05-06 09:32

本发明专利技术提出了一种基于迭代对比学习的代码重排方法及系统，包括：获取编程问题对应的待排序候选代码；利用程序转换技术扩增候选代码；将扩增后的候选代码输入至训练后的排序模型中，对每个代码进行排序；取所得序列中，排序得分最高的代码作为所述编程问题的最后推荐的代码。本发明专利技术通过迭代训练两个损失，即鉴别损失和对齐损失，能够发挥对比学习的能力增强代码排序模型的性能，相比于先前基于单元测试执行的方法，避免了执行代码执行的安全问题和用户提供单元测试的困难；相比于先前简单的基于分类的方法，迭代训练使得本发明专利技术的排序模型不仅注意代码的表现形式，更加习得代码的语义特征，进而排名更精确。进而排名更精确。进而排名更精确。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于迭代对比学习的代码重排方法及系统

[0001]本专利技术属于计算机
，尤其涉及一种基于迭代对比学习的代码重排方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]程序合成任务旨在自动生成满足问题规范的可执行计算机程序，因其对软件行业的重大影响而备受关注。现有的代码生成模型都采用了一种基于采样的策略来生成多样的解决方案，这可以显著提高生成正确代码的概率，例如，尽管在HumanEval数据集上Codex的pass@1 (仅产生一个候选答案的通过率) 仅仅可以达到33.5%，但是它的pass@100 (如果针对给定问题生成的100个解决方案中的一个或多个能够通过相应的测试用例，则认为通过) 可以达到 77.4%。然而，在实际代码生成应用中（如Copilot），让用户从许多外观相似且可能包含微妙错误的候选中选出正确解决方案却是不现实的，这一问题使我们必须探索如何给众多候选排序来帮助选择最好的解决方案，以弥补pass@1和pass@100的差距。
[0004]现有的代码候选排序的方法可以归纳为两类。一类是基于执行的方法。这种方法通过执行问题描述对应的单元测试重排候选代码。但是这一方法存在很大的问题：首先，由于环境依赖不满足、候选片段不完整以及执行模型生成的候选存在潜在的安全风险（读写磁盘）等问题，代码候选本身不被允许执行，在CoPilot这样的插件中采用基于执行的方法是不切实际的；其次，提供单元测试会给用户增加很多负担。另一类...

【技术保护点】

【技术特征摘要】
1.一种基于迭代对比学习的代码重排方法，其特征在于，包括：获取自然语言问题描述对应的待排序的原始候选代码；利用语义等价的程序转换程序技术扩增所述原始候选代码；将原始候选代码和扩增后的代码同时输入至训练后的排序模型中，对每个代码进行排序；取所得序列中，排序得分最高的原始候选代码作为所述自然语言问题描述的最后推荐的代码；所述排序模型的训练步骤包括：利用生成模型构建自然语言问题描述的原始代码集；分别利用语义等价的程序转换程序技术和错误注入的程序转换技术扩增原始代码集；利用错误注入的程序转换技术扩增原始代码集，包括：通过统计分析错误代码的常见异常类型，利用错误注入的程序转换技术为原始代码集中的正样本代码构建多个语义不同但表面形式相似的负样本代码；利用原始代码集以及扩增后的代码集对排序模型进行迭代对比训练，得到训练后的排序模型。2.如权利要求1所述的一种基于迭代对比学习的代码重排方法，其特征在于，所述利用生成模型构建自然语言问题描述的原始代码集，包括：使用生成模型为数据集中的每一个自然语言问题描述产生N个候选代码，使用对应的单元测试执行采样得到的候选代码来生成对应的标签，完全通过单元测试的候选代码被视为正样本，未能通过任一单元测试的样本被视为负样本。3.如权利要求1所述的一种基于迭代对比学习的代码重排方法，其特征在于，所述错误代码的常见异常类型包括：EOFError异常、Valueerror/TypeError异常、IndexError异常以及NameError异常。4.如权利要求3所述的一种基于迭代对比学习的代码重排方法，其特征在于，所述利用错误注入的程序转换技术为原始代码集中的正样本代码构建多个语义不同但表面形式相似的负样本代码，包括：针对EOFError异常：在正样本代码行中随机插入input输入语句，并保持转换后代码的可编译性来构建负样本代码;针对Valueerror/TypeError异常：随机更改正样本代码中函数调用时参数的顺序、随机更改操作符左右参数的顺序、增加或者减少函数调用时的参数以及增加或者减少赋值语句左侧变量的个数来构建负样本代码;针对IndexError异常:通过在正样本代码列表和字符串序列对象的下标索引上随机加或者减一个数来构建负样本代码；针对NameError异常：通过随机变换正样本代码中的变量名来构建负样本代码。5.如权利要求1所述的一种基于迭代对比学习的代码重排方法，其特征在于，利用语义等价的程序转换技术扩增原始代码集包括：利用死代码插入、...

【专利技术属性】
技术研发人员：聂帅怡，黄琨瑜，董颖佳，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人