【技术实现步骤摘要】
本申请涉及大模型技术、文本处理领域,具体而言,涉及一种文本处理方法、电子设备及存储介质。
技术介绍
1、近年来,基于transformer的大语言模型,已经成为自然语言处理任务中较为先进的模型,然而,这些模型在处理长文本时面临固有的限制,也即,大语言模型的处理长度局限于在大模型预训练时预设的上下文窗口上,一旦超出该窗口,模型的性能就会迅速下降。
2、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请实施例提供了一种文本处理方法、电子设备及存储介质,以至少解决大模型在处理长文本时性能较低的技术问题。
2、根据本申请实施例的一个方面,提供了一种文本处理方法,包括:获取目标长度的待处理文本,其中,待处理文本包含多个字符;基于目标长度,确定待处理文本对应的目标基础频率;基于目标基础频率,生成多个字符对应的目标位置编码;基于目标位置编码对待处理文本进行处理,得到待处理文本对应的目标处理结果。
3、根据本申请实施例的另一方面,还提供了一种文本处理
...【技术保护点】
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述目标长度,确定所述待处理文本对应的目标基础频率,包括:
3.根据权利要求2所述的方法,其特征在于,利用频率预测模型基于所述目标长度,预测得到所述目标基础频率,包括:
4.根据权利要求2所述的方法,其特征在于,利用所述频率确定模块基于所述目标动量和所述预设基础频率,确定所述目标基础频率,包括:
5.根据权利要求2所述的方法,其特征在于,所述动量预测模块包括:两层全连接层、编码层和输出层,利用所述动量预测模块基于所述目标缩放因子和所述
...【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述目标长度,确定所述待处理文本对应的目标基础频率,包括:
3.根据权利要求2所述的方法,其特征在于,利用频率预测模型基于所述目标长度,预测得到所述目标基础频率,包括:
4.根据权利要求2所述的方法,其特征在于,利用所述频率确定模块基于所述目标动量和所述预设基础频率,确定所述目标基础频率,包括:
5.根据权利要求2所述的方法,其特征在于,所述动量预测模块包括:两层全连接层、编码层和输出层,利用所述动量预测模块基于所述目标缩放因子和所述预设长度对应的预设基础频率,预测得到所述目标长度对应的目标动量,包括:
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的方法,其...
【专利技术属性】
技术研发人员:陈官正,李昕,邴立东,
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。