【技术实现步骤摘要】
本专利技术的实施方式涉及大语言模型领域,更具体地,本专利技术的实施方式涉及一种词表变换方法、装置、设备及存储介质。
技术介绍
1、本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
2、近年来,随着自然语言处理(natural language processing,nlp)领域的飞速发展,大语言模型被发现有很强的能力,有许多大型公司和学术机构纷纷开源出自己预训练好的大语言模型,所以在开源模型上使用公司内部储备的数据语料继续进行预训练是一个成本更加可控,而且落地速度更快的方案。
3、但是众多开源的大语言模型用于构建词表的语料库仅包含少量的中文,因此这些模型往往对于中文的支持都非常薄弱,一个中文词汇往往需要被切分成多个词令牌(token)才能得以表示,这就导致其对于中文的编码解码速度非常慢,而且由于中文的切分粒度过细,也一定程度影响了在中文语料库上继续预训练的最终效果。
技术实现思路
1、为此,非常需要
...【技术保护点】
1.一种词表变换方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系,包括:
3.根据权利要求1所述的方法,其特征在于,所述确定所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系,包括:
4.根据权利要求2或3所述的方法,其特征在于,所述基于所述词对齐关系生成所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系,包括:
5.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述映射关系对所述语言模型中的词向量参数进行对
...【技术特征摘要】
1.一种词表变换方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系,包括:
3.根据权利要求1所述的方法,其特征在于,所述确定所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系,包括:
4.根据权利要求2或3所述的方法,其特征在于,所述基于所述词对齐关系生成所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系,包括:
5.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述映射关系对所述语言模型中的词向量参数进行对齐变换,包括:
6.根据权利要求5所述的方法,其特征在于,所述第一参数矩阵中每一参数的值为所述第一词表中每一词令牌的向量;所述第二参数矩阵中每一参数的值为所述第二...
【专利技术属性】
技术研发人员:吴丽鑫,程桥,黄瑾,段亦涛,
申请(专利权)人:网易有道信息技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。