【技术实现步骤摘要】
用于生成语言模型的方法、装置、电子设备和介质
[0001]本公开总体涉及人工智能领域,并且更具体地,涉及用于生成语言模型的方法
、
装置
、
电子设备和介质
。
技术介绍
[0002]大规模语言模型
(LLM)
是由具有许多参数
(
通常数十亿个权重或更多
)
的神经网络组成的语言模型,其能够学习到输入文本的潜在语义和语法结构,从而能够预测下一个词或下一段文本的概率分布
。
大规模语言模型的训练需要大量的文本数据
。
常见的训练数据来源包括互联网上的大规模文本语料库
、
书籍
、
新闻文章
、
百科等
。
通过在这些数据上进行大规模的无监督学习,语言模型可以捕捉到语言的规律
、
词汇的语义关系以及句子之间的联系
。
[0003]大规模语言模型在自然语言处理领域具有广泛的应用,包括机器翻译
、
文本
【技术保护点】
【技术特征摘要】
1.
一种用于生成语言模型的方法,包括:获取源语言模型的源词元表和候选词元表,所述源词元表中的词元包括第一语言的字符;针对候选词元表中的候选词元,确定所述候选词元是否包括第二语言的字符;响应于确定所述候选词元不包括所述第二语言的字符,更新所述候选词元表;以及基于所述源词元表和更新后的所述候选词元表,生成目标语言模型的目标词元表
。2.
根据权利要求1所述的方法,其中更新所述候选词元表包括:从所述候选词元表移除所述候选词元
。3.
根据权利要求1所述的方法,其中生成所述目标词元表包括:通过确定所述源词元表和所述更新后的候选词元表的并集,生成所述目标词元表
。4.
根据权利要求1所述的方法,还包括:通过利用源语言模型对所述更新后的候选词元表中的目标词元进行分词,生成源词元集合;基于所述源词元集合,利用所述源语言模型来生成源输入嵌入集合;基于所述源输入嵌入集合,生成目标输入嵌入;以及基于所述目标输入嵌入,生成所述目标语言模型
。5.
根据权利要求4所述的方法,其中生成所述目标输入嵌入包括:基于所述源输入嵌入集合中每个源输入嵌入的特定位置的值,确定所述目标输入嵌入的对应位置的值
。6.
根据权利要求5所述的方法,其中生成所述目标输入嵌入的所述特定位置的值包括:确定所述源输入嵌入集合中每个源输入嵌入的所述特定位置的值的加权平均值;以及基于所述加权平均值,确定所述目标词元嵌入的所述对应位置的值
。7.
根据权利要求4所述的方法,还包括:基于所述源词元集合,利用所述源语言模型来生成源输出嵌入集合,所述源输出嵌入集合中的源输出嵌入是与源输入词元的下一词元相对应的嵌入;基于所述源输出嵌入集合,生成目标输出嵌入,所述目标输出嵌入是与所述目标词元的下一词元相对应的嵌入;以及基于所述目标输入嵌入和所述目标输出嵌入,生成所述目标语言模型
。8.
根...
【专利技术属性】
技术研发人员:王嘉伟,杨一航,尤永健,张雨辰,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。