词表变换方法、装置、设备及存储介质制造方法及图纸

技术编号:40041512 阅读:21 留言:0更新日期:2024-01-16 19:48
本发明专利技术的实施方式提供了一种词表变换方法、装置、设备及存储介质其中,所述方法包括:获取语言模型对应的第一词表;基于目标场景的语料库,构建第二词表;其中,所述第二词表至少包括所述第一词表中缺少的词令牌;确定所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系;基于所述映射关系对所述语言模型中的词向量参数进行对齐变换。这样,利用目标场景的语料库构建全新的第二词表,并通过对齐变换使得语言模型从之前的词表转换到适配目标场景的新词表上,从而加速该模型上对目标语言的编码解码速度,提升后续在目标场景的语料库上的预训练质量。

【技术实现步骤摘要】

本专利技术的实施方式涉及大语言模型领域,更具体地,本专利技术的实施方式涉及一种词表变换方法、装置、设备及存储介质


技术介绍

1、本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、近年来,随着自然语言处理(natural language processing,nlp)领域的飞速发展,大语言模型被发现有很强的能力,有许多大型公司和学术机构纷纷开源出自己预训练好的大语言模型,所以在开源模型上使用公司内部储备的数据语料继续进行预训练是一个成本更加可控,而且落地速度更快的方案。

3、但是众多开源的大语言模型用于构建词表的语料库仅包含少量的中文,因此这些模型往往对于中文的支持都非常薄弱,一个中文词汇往往需要被切分成多个词令牌(token)才能得以表示,这就导致其对于中文的编码解码速度非常慢,而且由于中文的切分粒度过细,也一定程度影响了在中文语料库上继续预训练的最终效果。


技术实现思路

1、为此,非常需要一种改进的词表变换方本文档来自技高网...

【技术保护点】

1.一种词表变换方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系,包括:

3.根据权利要求1所述的方法,其特征在于,所述确定所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述基于所述词对齐关系生成所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系,包括:

5.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述映射关系对所述语言模型中的词向量参数进行对齐变换,包括:...

【技术特征摘要】

1.一种词表变换方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系,包括:

3.根据权利要求1所述的方法,其特征在于,所述确定所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述基于所述词对齐关系生成所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系,包括:

5.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述映射关系对所述语言模型中的词向量参数进行对齐变换,包括:

6.根据权利要求5所述的方法,其特征在于,所述第一参数矩阵中每一参数的值为所述第一词表中每一词令牌的向量;所述第二参数矩阵中每一参数的值为所述第二...

【专利技术属性】
技术研发人员:吴丽鑫程桥黄瑾段亦涛
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1