样本数据的生成、神经网络的生成方法及装置制造方法及图纸

技术编号:33617419 阅读:19 留言:0更新日期:2022-06-02 00:35
本公开提供了一种样本数据的生成方法、神经网络的生成方法、装置、计算机设备及存储介质,其中,该样本数据的生成方法包括:获取利用高级语言编写的第一样本代码;将所述第一样本代码转换为预设中间语言编写的第二样本代码;对所述第一样本代码进行第一编码处理,得到第一样本数据;以及对所述第二样本代码进行第二编码处理,得到第二样本数据;基于所述第一样本数据、以及所述第二样本数据,生成所述第一样本代码对应的目标样本数据。样本代码对应的目标样本数据。样本代码对应的目标样本数据。

【技术实现步骤摘要】
样本数据的生成、神经网络的生成方法及装置


[0001]本公开涉及计算机
,具体而言,涉及一种样本数据的生成方法、神经网络的生成方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机和软件技术的快速发展,人们的生活已经享受到了互联网时代带来的便利,其中的软件技术是蕴含在千千万万程序员编写的代码之中。而如今人工智能的发展也使我们能够对代码这种形式的语言进行分析和处理,来更高效地进行代码的智能编程,例如代码应用程序编程接口(Application Programming Interface,API)挖掘、命名约定学习、错误定位、代码总结、注释生成、代码搜索、代码修复、编译器优化等等;对代码形式的语言进行分析和处理,需要预先将代码转换为特征表示,将转换为特征表示的代码作为样本数据,用于各种任务的监督数据;但是当前将代码转换为特征表示的方法存在包含的特征信息较少的问题。

技术实现思路

[0003]本公开实施例至少提供一种样本数据的生成方法、神经网络的生成方法、装置、计算机设备及存储介质。
[0004]第一方面,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种样本数据的生成方法,其特征在于,包括:获取利用高级语言编写的第一样本代码;将所述第一样本代码转换为预设中间语言编写的第二样本代码;对所述第一样本代码进行第一编码处理,得到第一样本数据;以及对所述第二样本代码进行第二编码处理,得到第二样本数据;基于所述第一样本数据、以及所述第二样本数据,生成所述第一样本代码对应的目标样本数据。2.根据权利要求1所述的方法,其特征在于,所述将所述第一样本代码转换为预设中间语言编写的第二样本代码,包括:基于所述高级语言和所述预设中间语言之间的转换关系,将所述第一样本代码转换为所述第二样本代码。3.根据权利要求1或2所述的方法,其特征在于,所述对所述第一样本代码进行第一编码处理,得到第一样本数据,包括:从所述第一样本代码中确定目标字符串,并将所述目标字符串转换为与所述目标字符串对应的标准字符串,得到转换后的第一样本代码;所述目标字符串包括:变量名和/或函数名;对所述转换后的第一样本代码进行分词处理,生成所述转换后的第一样本代码对应的第一字符串序列;对所述第一字符串序列进行第一编码处理,得到所述第一样本数据。4.根据权利要求3所述的方法,其特征在于,所述第一字符串序列中包括至少一个标准字符串;所述对所述第一字符串序列进行第一编码处理,得到所述第一样本数据,包括:从预先生成的第一编码表中,查询所述第一字符串序列中的各个标准字符串分别对应的第一编码值;基于所述第一字符串序列中的各个标准字符串分别对应的第一编码值,生成所述第一样本数据。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一字符串序列中的各个标准字符串分别对应的第一编码值,生成所述第一样本数据,包括:基于所述第一字符串序列中各个标准字符串分别对应的第一编码值,构成第一稀疏矩阵;将所述第一稀疏矩阵转换为预设维度的第一稠密矩阵;将所述第一稠密矩阵确定为所述第一样本数据。6.根据权利要求1

5任一项所述的方法,其特征在于,所述第二样本代码中包括:由所述中间语言构成的第二字符串序列;对所述第二样本代码进行第二编码处理,得到第二样本数据,包括:从预先生成的第二编码表中,查询所述第二字符串序列中的各个字符串分别对应的第二编码值;基于所述第二字符串序列中的各个字符串分别对应的第二编码值,生成所述第二样本数据。7.根据权利要求6所述的方法,其特...

【专利技术属性】
技术研发人员:张卓翼
申请(专利权)人:上海阵量智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1