【技术实现步骤摘要】
本公开涉及大语言模型,具体涉及一种基于代码命名规范与字节对编码结合的词表生成方法。
技术介绍
1、随着深度学习和大模型技术的发展,越来越多的人开始用深度学习或大模型技术解决软件开发场景下的代码补全任务。
2、现有的代码补全模型在分词过程中,一般采用空格或者符号间隔符进行分词得到词表,但这种分词方式容易出现以下问题:每个单词占用词表的一个位置,致使词表的量级过于庞大,会导致模型的计算复杂度提高。
3、因此,亟需一种基于代码命名规范与字节对编码结合的词表生成方法,以解决上述技术问题。
技术实现思路
1、有鉴于此,本公开提出了一种基于代码命名规范与字节对编码结合的词表生成方法,以解决相关技术中存在的由于词表的量级过于庞大,导致模型的计算复杂度提高的问题。
2、本公开第一方面实施例提出了一种基于代码命名规范与字节对编码结合的词表生成方法,所述方法包括:
3、通过预设代码命名规范对获取的样本代码进行分词,得到第一序列;所述第一序列包括多个单词;
...【技术保护点】
1.一种基于代码命名规范与字节对编码结合的词表生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,通过预设代码命名规范对获取的样本代码进行分词,得到第一序列,包括:
4.根据权利要求1或2所述的方法,其特征在于,确定所述第一序列的多个单词对,包括:
5.根据权利要求1或2所述的方法,其特征在于,在判断所述多个单词对是否满足预设条件之前,所述方法还包括:
6.根据权利要求1或2所述的方法,其特征在于,基于所述目标单词对,
...【技术特征摘要】
1.一种基于代码命名规范与字节对编码结合的词表生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,通过预设代码命名规范对获取的样本代码进行分词,得到第一序列,包括:
4.根据权利要求1或2所述的方法,其特征在于,确定所述第一序列的多个单词对,包括:
5.根据权利要求1或2所述的方法,其特征在于,在判断所述多个单词对是否满...
【专利技术属性】
技术研发人员:李戈,蒋思源,刘洋,
申请(专利权)人:北京硅心科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。