【技术实现步骤摘要】
本申请涉及人工智能领域,尤其涉及一种大模型的数据token化方法、装置及大模型训练方法。
技术介绍
1、大模型一般指参数数量庞大、拥有大量神经元和层级结构的深度学习模型,例如针对文本数据(也称语料)的大型语言模型(large language model,llm)。在大模型的应用中,数据通常被切割为多个小片段,即标记(token),该过程称为token化。对于自然语言处理(natural language processing,nlp)模型如大型语言模型而言,token可以代表文本中最小的语义字符单元,如汉语中的单个汉字或者词语。所有可能的token去重后获得token列表,然后对列表中的token进行标签编码,每个token编码为一个唯一的整数,作为大模型输入嵌入表的嵌入索引。
2、一种常用的文本数据token化方法是,创建包括大量词汇的词表作为token列表,之后基于token列表对输入语料进行分词实现token化,例如“你非常nice”可以分割为“你,非常,nice”三个token。但是,该种方法通常需要创建条目数量庞
...【技术保护点】
1.一种大模型的数据token化方法,其特征在于,包括:
2.根据权利要求1所述的大模型的数据token化方法,其特征在于,
3.根据权利要求1所述的大模型的数据token化方法,其特征在于,
4.根据权利要求3所述的大模型的数据token化方法,其特征在于,
5.根据权利要求1所述的大模型的数据token化方法,其特征在于,所述第一字节长度大于或者等于1字节。
6.根据权利要求1所述的大模型的数据token化方法,其特征在于,所述按照预设的第一字节长度对目标数据从头进行分割,分割后形成的数据序列记为基元序列
...【技术特征摘要】
1.一种大模型的数据token化方法,其特征在于,包括:
2.根据权利要求1所述的大模型的数据token化方法,其特征在于,
3.根据权利要求1所述的大模型的数据token化方法,其特征在于,
4.根据权利要求3所述的大模型的数据token化方法,其特征在于,
5.根据权利要求1所述的大模型的数据token化方法,其特征在于,所述第一字节长度大于或者等于1字节。
6.根据权利要求1所述的大模型的数据token化方法,其特征在于,所述按照预设的第一字节长度对目标数据从头进行分割,分割后形成...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。