一种数据处理方法和相关装置制造方法及图纸

技术编号:38625034 阅读:10 留言:0更新日期:2023-08-31 18:26
本申请实施例公开了一种数据处理方法和相关装置,在进行模型训练时先获取样本数据集,样本数据集包括多个样本代码描述信息,多个样本代码描述信息具有对应的样本源代码信息,代码描述信息是在搜索源代码时输入的信息。将多个样本代码描述信息分别作为目标样本代码描述信息,通过初始代码分析模型,确定该目标样本代码描述信息对应的待定源代码信息,根据待定源代码信息和目标样本代码描述信息所对应的目标样本源代码信息之间的差异调节初始代码分析模型的模型参数,得到代码分析模型,代码分析模型用于确定待分析代码描述信息对应的源代码信息,进而可以用于确定待分析代码描述信息所对应的源代码,通过模型分析的方式提高源代码搜索的准确度。式提高源代码搜索的准确度。式提高源代码搜索的准确度。

【技术实现步骤摘要】
一种数据处理方法和相关装置


[0001]本申请涉及数据处理
,特别是涉及一种数据处理方法和相关装置。

技术介绍

[0002]代码搜索已经成为现代软件开发不可或缺的一部分,近年来也越来越受到研究人员的关注。代码搜索属于软件工程和信息检索的交叉领域,其目标是利用信息检索及相关技术来提升算法的搜索性能。开发人员在执行代码搜索时,首先将查询语句输入代码搜索模型中,搜索模型随即会从代码库中找到与查询语句相关的源代码,并根据相关程度返回给开发人员。
[0003]相关技术中的代码搜索方法尽管在搜索相关代码时能够取得较好的效果,但是当搜索与本地编程语言相兼容的源代码时,搜索效果会急剧下降。这是因为代码时常演化,演化过程中被删除的和新增加的代码项对代码搜索的性能具有较大影响。

技术实现思路

[0004]为了解决上述技术问题,本申请提供了一种数据处理方法,通过该方法能够得到用于准确代码搜索的代码分析模型,提高代码搜索的准确度。
[0005]本申请实施例公开了如下技术方案:
[0006]第一方面,本申请实施例公开了一种数据处理方法,所述方法包括:
[0007]获取样本数据集,所述样本数据集包括多个样本代码描述信息,所述多个样本代码描述信息具有对应的样本源代码信息,所述样本代码描述信息用于描述源代码;
[0008]将所述多个样本代码描述信息分别作为目标样本代码描述信息,通过初始代码分析模型,确定所述目标样本代码描述信息对应的待定源代码信息;
[0009]根据所述待定源代码信息和所述目标样本代码描述信息所对应的目标样本源代码信息之间的差异,调节所述初始代码分析模型的模型参数,得到代码分析模型,所述代码分析模型用于确定待分析代码描述信息对应的源代码信息。
[0010]在一种可能的实现方式中,在所述获取样本数据集之前,所述方法还包括:
[0011]获取待分析源代码;
[0012]确定所述待分析源代码对应的方法名、API调用序列、代码项、演化代码项、代码注释和演化描述;
[0013]根据所述方法名、所述API调用序列、所述代码项和所述演化代码项,确定所述待分析源代码对应的源代码信息,根据所述代码注释和所述演化描述,确定所述待分析源代码对应的代码描述信息;
[0014]将所述待分析源代码对应的代码描述信息确定为所述样本代码描述信息,将所述待分析源代码对应的源代码信息确定为所述待分析源代码对应的代码描述信息的样本源代码信息。
[0015]在一种可能的实现方式中,所述确定所述目标样本代码描述信息对应的待定源代
码信息,包括:
[0016]根据所述目标样本代码描述信息生成待定代码描述向量;
[0017]生成源代码信息集合中的多个源代码信息分别对应的待定源代码向量,所述多个源代码信息中包括所述目标样本源代码信息;
[0018]将所对应待定源代码向量与所述待定代码描述向量之间余弦距离最短的源代码信息确定为所述待定源代码信息。
[0019]在一种可能的实现方式中,所述根据所述待定源代码信息和所述目标样本代码描述信息所对应的目标样本源代码信息之间的差异,调节所述初始代码分析模型的模型参数,包括:
[0020]根据所述待定源代码信息和所述目标样本代码描述信息所对应的目标样本源代码信息之间的差异,调节所述初始代码分析模型中用于生成源代码向量和代码描述向量的模型参数。
[0021]在一种可能的实现方式中,所述方法还包括:
[0022]获取所述待分析代码描述信息;
[0023]通过所述代码分析模型,生成所述待分析代码描述信息对应的代码描述向量;
[0024]确定源代码集合中的多个待搜索源代码分别对应的源代码信息;
[0025]通过所述代码分析模型,生成所述多个待搜索源代码对应的多个源代码信息分别对应的源代码向量;
[0026]将所述个待搜索源代码对应的多个源代码信息中,所对应源代码向量与所述代码描述向量之间余弦距离最短的源代码信息确定为所述待分析代码描述信息对应的源代码信息;
[0027]将所述待分析代码描述信息对应的源代码信息对应的源代码确定为所述待分析代码描述信息对应的源代码。
[0028]第二方面,本申请实施例公开了一种数据处理装置,所述装置包括第一获取单元、第一确定单元和调节单元:
[0029]所述第一获取单元,用于获取样本数据集,所述样本数据集包括多个样本代码描述信息,所述多个样本代码描述信息具有对应的样本源代码信息,所述样本代码描述信息用于描述源代码;
[0030]所述第一确定单元,用于将所述多个样本代码描述信息分别作为目标样本代码描述信息,通过初始代码分析模型,确定所述目标样本代码描述信息对应的待定源代码信息;
[0031]所述调节单元,用于根据所述待定源代码信息和所述目标样本代码描述信息所对应的目标样本源代码信息之间的差异,调节所述初始代码分析模型的模型参数,得到代码分析模型,所述代码分析模型用于确定待分析代码描述信息对应的源代码信息。
[0032]在一种可能的实现方式中,所述装置还包括第二获取单元、第二确定单元、第三确定单元和第四确定单元:
[0033]所述第二获取单元,用于获取待分析源代码;
[0034]所述第二确定单元,用于确定所述待分析源代码对应的方法名、API调用序列、代码项、演化代码项、代码注释和演化描述;
[0035]所述第三确定单元,用于根据所述方法名、所述API调用序列、所述代码项和所述
演化代码项,确定所述待分析源代码对应的源代码信息,根据所述代码注释和所述演化描述,确定所述待分析源代码对应的代码描述信息;
[0036]所述第四确定单元,用于将所述待分析源代码对应的代码描述信息确定为所述样本代码描述信息,将所述待分析源代码对应的源代码信息确定为所述待分析源代码对应的代码描述信息的样本源代码信息。
[0037]在一种可能的实现方式中,所述第一确定单元具体用于:
[0038]根据所述目标样本代码描述信息生成待定代码描述向量;
[0039]生成源代码信息集合中的多个源代码信息分别对应的待定源代码向量,所述多个源代码信息中包括所述目标样本源代码信息;
[0040]将所对应待定源代码向量与所述待定代码描述向量之间余弦距离最短的源代码信息确定为所述待定源代码信息。
[0041]在一种可能的实现方式中,所述调节单元具体用于:
[0042]根据所述待定源代码信息和所述目标样本代码描述信息所对应的目标样本源代码信息之间的差异,调节所述初始代码分析模型中用于生成源代码向量和代码描述向量的模型参数。
[0043]在一种可能的实现方式中,所述装置还包括第三获取单元、第一生成单元、第五确定单元、第二生成单元、第六确定单元和第七确定单元:
[0044]所述第三获取单元,用于获取所述待分析代码描述信息;
[0045]所述第一生成单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取样本数据集,所述样本数据集包括多个样本代码描述信息,所述多个样本代码描述信息具有对应的样本源代码信息,所述样本代码描述信息用于描述源代码;将所述多个样本代码描述信息分别作为目标样本代码描述信息,通过初始代码分析模型,确定所述目标样本代码描述信息对应的待定源代码信息;根据所述待定源代码信息和所述目标样本代码描述信息所对应的目标样本源代码信息之间的差异,调节所述初始代码分析模型的模型参数,得到代码分析模型,所述代码分析模型用于确定待分析代码描述信息对应的源代码信息。2.根据权利要求1所述的方法,其特征在于,在所述获取样本数据集之前,所述方法还包括:获取待分析源代码;确定所述待分析源代码对应的方法名、API调用序列、代码项、演化代码项、代码注释和演化描述;根据所述方法名、所述API调用序列、所述代码项和所述演化代码项,确定所述待分析源代码对应的源代码信息,根据所述代码注释和所述演化描述,确定所述待分析源代码对应的代码描述信息;将所述待分析源代码对应的代码描述信息确定为所述样本代码描述信息,将所述待分析源代码对应的源代码信息确定为所述待分析源代码对应的代码描述信息的样本源代码信息。3.根据权利要求2所述的方法,其特征在于,所述确定所述目标样本代码描述信息对应的待定源代码信息,包括:根据所述目标样本代码描述信息生成待定代码描述向量;生成源代码信息集合中的多个源代码信息分别对应的待定源代码向量,所述多个源代码信息中包括所述目标样本源代码信息;将所对应待定源代码向量与所述待定代码描述向量之间余弦距离最短的源代码信息确定为所述待定源代码信息。4.根据权利要求3所述的方法,其特征在于,所述根据所述待定源代码信息和所述目标样本代码描述信息所对应的目标样本源代码信息之间的差异,调节所述初始代码分析模型的模型参数,包括:根据所述待定源代码信息和所述目标样本代码描述信息所对应的目标样本源代码信息之间的差异,调节所述初始代码分析模型中用于生成源代码向量和代码描述向量的模型参数。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取所述待分析代码描述信息;通过所述代码分析模型,生成所述待分析代码描述信息对应的代码描述向量;确定源代码集合中的多个待搜索源代码分别对应的源代码信息;通过所述代码分析模型,生成所述多个待搜索源代码对应的多个源代码信息分别对应的源代码向量;将所述个待搜索源代码对应的多个源代...

【专利技术属性】
技术研发人员:蔡富祺麦林鑫张永颖谢维丹张梦雪
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1