System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及大模型,尤其涉及一种词典融合方法、装置、电子设备及存储介质。
技术介绍
1、为了进一步贴合以中文为主体的应用场景,需要对开源模型和自研模型做中文对比实验,由于基座开源模型llama2主要是英文社区的开源项目,它能力强大但在中文上却表现欠佳。开源模型的tokenizer(分词器)主要用英文语料训练,只包含700个左右中文且均为单字,由于不在词表中的字都会被处理成3个字节,但是上述方法将汉字切碎后,分词器对语义反映很差,导致模型对中文的理解能力也非常有限;且每个汉字都需要更多个token来编码的话,会非常影响训练和推理效率。
2、相关技术提供给的方法包括:接收待识别句子,为句子中的每个字从词典中匹配相关的词汇;利用self-attention作为字词信息融合器来动态的学习字与对应的词之间的相关性权重,以融合字词信息;采用改进transformer层,在建模上下文的语义信息的同时,通过优化初始位置编码的方式融入位置信息;将学习得到的上下文表示输入到条件随机进行预测。
3、但是上述方法并没有针对性地提出关于中文词典融合的方法,通过上述方法不能提高模型对中文的理解能力,影响模型的推理效率和训练效率。
技术实现思路
1、为了解决上述技术问题中的至少一个,本公开提供了一种词典融合方法、装置、电子设备及存储介质。
2、一方面,提供了一种词典融合方法,所述词典融合方法包括:
3、接收用户输入的预训练语料,所述预训练语料为基于第一语言的预训练语
4、响应于用户输入的预训练语料,基于所述预训练语料训练第一分词器,得到第一语言分词器;将所述第一语言分词器的词表与第二语言分词器的词表进行融合,得到融合后的词典,其中,所述第二语言分词器为基于第二语言进行训练得到的分词器,所述第一语言与所述第二语言不同。
5、根据本公开一种可选的实施方式,基于所述预训练语料训练第一分词器,得到第一语言分词器,包括:
6、基于所述预训练语料得到预训练词语料,基于所述预训练词语料训练第一分词器,得到第一语言分词器。
7、根据本公开一种可选的实施方式,基于所述预训练语料得到预训练词语料,包括:
8、将所述预训练语料切分成预训练字语料,获取所述预训练字语料的出现频次;
9、基于所述预训练字语料的出现频次得到所述预训练词语料。
10、根据本公开一种可选的实施方式,基于所述预训练字语料的出现频次得到所述预训练词语料,包括:
11、获取相邻至少两个预训练字语料之间的出现频次,将相邻预训练字语料之间的出现频次在阈值范围内的预训练字语料进行组合,得到所述预训练词语料。
12、根据本公开一种可选的实施方式,将所述第一语言分词器的词表与第二语言分词器的词表进行融合,得到融合后的词典,包括:
13、将所述第一语言分词器的词表插入所述第二语言分词器的词表的最后一个词后面,得到融合后的词典。
14、根据本公开一种可选的实施方式,接收用户输入的预训练语料,包括:
15、接收用户输入的不同类型的语料,将所述不同类型的语料处理为相同格式的语料,作为所述预训练语料。
16、根据本公开一种可选的实施方式,将所述不同类型的语料处理为相同格式的语料,作为所述预训练语料,包括:
17、对不同类型的语料打标签,将打标签后不同类型的语料处理为相同格式的语料,其中所述预训练语料中包括所述标签。
18、根据本公开一种可选的实施方式,基于所述预训练语料,采用sentencepiece中的bpe算法训练第一分词器。
19、根据本公开一种可选的实施方式,将所述第一语言分词器的词表与第二语言分词器的词表进行融合,得到融合后的词典,包括:
20、采用sentence piece自带的add pieces方法,将所述第一语言分词器的词表加入到第二语言分词器的词表进行融合,得到融合后的词典。
21、另一方面,提供了一种词典融合装置,包括:
22、接收模块,接收模块接收用户输入的预训练语料,所述预训练语料为基于第一语言的预训练语料;
23、训练模块,训练模块响应于用户输入的预训练语料,基于所述预训练语料训练第一分词器,得到第一语言分词器;
24、融合模块,融合模块将所述第一语言分词器的词表与第二语言分词器的词表进行融合,得到融合后的词典,其中,所述第二语言分词器为基于第二语言进行训练得到的分词器,所述第一语言与所述第二语言不同。
25、还一方面,提供了一种电子设备,包括:
26、存储器,所述存储器存储执行指令;
27、处理器,所述处理器执行所述存储器存储的执行指令,实现上述中任一项所述的方法。
28、再一方面,提供了一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时实现上述中任一项所述的方法。
本文档来自技高网...【技术保护点】
1.一种词典融合方法,其特征在于,所述词典融合方法包括:
2.根据权利要求1所述的词典融合方法,其特征在于,基于所述预训练语料训练第一分词器,得到第一语言分词器,包括:
3.根据权利要求2所述的词典融合方法,其特征在于,基于所述预训练语料得到预训练词语料,包括:
4.根据权利要求3所述的词典融合方法,其特征在于,基于所述预训练字语料的出现频次得到所述预训练词语料,包括:
5.根据权利要求1至4任一所述的词典融合方法,其特征在于,将所述第一语言分词器的词表与第二语言分词器的词表进行融合,得到融合后的词典,包括:
6.根据权利要求1至4任一所述的词典融合方法,其特征在于,接收用户输入的预训练语料,包括:
7.根据权利要求6所述的词典融合方法,其特征在于,将所述不同类型的语料处理为相同格式的语料,作为所述预训练语料,包括:
8.一种词典融合装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行
...【技术特征摘要】
1.一种词典融合方法,其特征在于,所述词典融合方法包括:
2.根据权利要求1所述的词典融合方法,其特征在于,基于所述预训练语料训练第一分词器,得到第一语言分词器,包括:
3.根据权利要求2所述的词典融合方法,其特征在于,基于所述预训练语料得到预训练词语料,包括:
4.根据权利要求3所述的词典融合方法,其特征在于,基于所述预训练字语料的出现频次得到所述预训练词语料,包括:
5.根据权利要求1至4任一所述的词典融合方法,其特征在于,将所述第一语言分词器的词表与第二语言分词器的词...
【专利技术属性】
技术研发人员:王茜,赵金涛,孟振南,王倪东,丁辉,
申请(专利权)人:上海墨百意信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。