当前位置: 首页 > 专利查询>易中华专利>正文

大模型的数据token化方法、装置及大模型训练方法制造方法及图纸

技术编号:42106310 阅读:24 留言:0更新日期:2024-07-25 00:30
本申请提供一种大模型的数据token化方法、装置及大模型训练方法,该方法包括按照预设的第一字节长度对目标数据从头进行分割,分割后形成的数据序列记为基元序列;遍历基元序列中的每一个数据基元,若基元序列中的第i个数据基元的二进制码值及第i+1个数据基元的二进制码值都位于预设的合并码值集合中,将第i个数据基元和第i+1个数据基元合并为基元组,记为基元组token;否则,将第i个数据基元视为一个token,记为基元token。该方法可以对数据基元进行合并,减小token化后token序列的长度,提高处理效率,能够提升模型的计算速度。同时,该方法不依赖token列表,具有通用性。

【技术实现步骤摘要】

本申请涉及人工智能领域,尤其涉及一种大模型的数据token化方法、装置及大模型训练方法


技术介绍

1、大模型一般指参数数量庞大、拥有大量神经元和层级结构的深度学习模型,例如针对文本数据(也称语料)的大型语言模型(large language model,llm)。在大模型的应用中,数据通常被切割为多个小片段,即标记(token),该过程称为token化。对于自然语言处理(natural language processing,nlp)模型如大型语言模型而言,token可以代表文本中最小的语义字符单元,如汉语中的单个汉字或者词语。所有可能的token去重后获得token列表,然后对列表中的token进行标签编码,每个token编码为一个唯一的整数,作为大模型输入嵌入表的嵌入索引。

2、一种常用的文本数据token化方法是,创建包括大量词汇的词表作为token列表,之后基于token列表对输入语料进行分词实现token化,例如“你非常nice”可以分割为“你,非常,nice”三个token。但是,该种方法通常需要创建条目数量庞大的词表,导致模型的本文档来自技高网...

【技术保护点】

1.一种大模型的数据token化方法,其特征在于,包括:

2.根据权利要求1所述的大模型的数据token化方法,其特征在于,

3.根据权利要求1所述的大模型的数据token化方法,其特征在于,

4.根据权利要求3所述的大模型的数据token化方法,其特征在于,

5.根据权利要求1所述的大模型的数据token化方法,其特征在于,所述第一字节长度大于或者等于1字节。

6.根据权利要求1所述的大模型的数据token化方法,其特征在于,所述按照预设的第一字节长度对目标数据从头进行分割,分割后形成的数据序列记为基元序列的步骤前,还包括:<...

【技术特征摘要】

1.一种大模型的数据token化方法,其特征在于,包括:

2.根据权利要求1所述的大模型的数据token化方法,其特征在于,

3.根据权利要求1所述的大模型的数据token化方法,其特征在于,

4.根据权利要求3所述的大模型的数据token化方法,其特征在于,

5.根据权利要求1所述的大模型的数据token化方法,其特征在于,所述第一字节长度大于或者等于1字节。

6.根据权利要求1所述的大模型的数据token化方法,其特征在于,所述按照预设的第一字节长度对目标数据从头进行分割,分割后形成...

【专利技术属性】
技术研发人员:易中华
申请(专利权)人:易中华
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1