基于代码命名规范与字节对编码结合的词表生成方法技术

技术编号：43804041 阅读：22 留言：0更新日期：2024-12-27 13:22

本公开提出一种基于代码命名规范与字节对编码结合的词表生成方法，该方法包括：通过预设代码命名规范对获取的样本代码进行分词得到第一序列；确定第一序列的多个单词对；判断多个单词对是否满足预设条件；如果多个单词对满足预设条件，则将第一序列确定为目标词表；如果多个单词对不满足预设条件，则从多个单词对中筛选出出现频率最高的目标单词对；基于目标单词对，对第一序列中的多个单词进行合并，得到第二序列；将第二序列作为新的第一序列，对新的第一序列重复执行确定出第一序列的多个单词对的步骤，直至多个单词对满足预设条件为止。本公开实施例能够有效减小词表的量级，降低模型训练和预测时的计算复杂度，进而提高代码补全模型的补全效率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及大语言模型，具体涉及一种基于代码命名规范与字节对编码结合的词表生成方法。

技术介绍

1、随着深度学习和大模型技术的发展，越来越多的人开始用深度学习或大模型技术解决软件开发场景下的代码补全任务。

2、现有的代码补全模型在分词过程中，一般采用空格或者符号间隔符进行分词得到词表，但这种分词方式容易出现以下问题：每个单词占用词表的一个位置，致使词表的量级过于庞大，会导致模型的计算复杂度提高。

3、因此，亟需一种基于代码命名规范与字节对编码结合的词表生成方法，以解决上述技术问题。

技术实现思路

1、有鉴于此，本公开提出了一种基于代码命名规范与字节对编码结合的词表生成方法，以解决相关技术中存在的由于词表的量级过于庞大，导致模型的计算复杂度提高的问题。

2、本公开第一方面实施例提出了一种基于代码命名规范与字节对编码结合的词表生成方法，所述方法包括：

3、通过预设代码命名规范对获取的样本代码进行分词，得到第一序列；所述第一序列包括多个单词；

4、确定所述第本文档来自技高网...

【技术保护点】

1.一种基于代码命名规范与字节对编码结合的词表生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，通过预设代码命名规范对获取的样本代码进行分词，得到第一序列，包括：

4.根据权利要求1或2所述的方法，其特征在于，确定所述第一序列的多个单词对，包括：

5.根据权利要求1或2所述的方法，其特征在于，在判断所述多个单词对是否满足预设条件之前，所述方法还包括：

6.根据权利要求1或2所述的方法，其特征在于，基于所述目标单词对，对所述第一序列中的多...

【技术特征摘要】

1.一种基于代码命名规范与字节对编码结合的词表生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，通过预设代码命名规范对获取的样本代码进行分词，得到第一序列，包括：

4.根据权利要求1或2所述的方法，其特征在于，确定所述第一序列的多个单词对，包括：

5.根据权利要求1或2所述的方法，其特征在于，在判断所述多个单词对是否满...

【专利技术属性】
技术研发人员：李戈，蒋思源，刘洋，
申请(专利权)人：北京硅心科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人