词表的构建方法、装置、存储介质及电子设备制造方法及图纸

技术编号:41580563 阅读:20 留言:0更新日期:2024-06-06 23:56
本发明专利技术公开了一种词表的构建方法、装置、存储介质及电子设备,涉及金融科技领域或其他相关领域。该方法包括:获取中文语料,并依据中文语料生成概率图模型,其中,中文语料包括多个类别的中文语料;依据概率图模型生成概率图模型对应的目标状态转移概率矩阵,并依据目标状态转移概率矩阵,从中文语料中确定多个常见词,其中,常见词为出现次数大于预设阈值的词语;基于大型语言模型从多个常见词中确定目标常见词,并依据目标常见词构建目标词表,其中,大型语言模型是依据对话样本数据训练得到的,目标词表用于构建目标领域的大型语言模型。本发明专利技术解决了现有技术中在构建词表时存在对中文分词的分词准确率较低的技术问题。

【技术实现步骤摘要】

本专利技术涉及金融科技领域或其他相关领域,具体而言,涉及一种词表的构建方法、装置、存储介质及电子设备


技术介绍

1、随着大型语言模型(llm)技术的发展,各类应用正在不断搭建,例如,金融机构中有基于llm的智能客服、产品推荐助手等应用。目前,llm模型在中文输入下的效果远不如英文,这是因为在将中文(或英文)文字输入大模型之前,需要有一个分词器(tokenizer)对完整的一句话进行分词,并转化为对应的数字id,才可以被模型理解。现有技术中的分词器对于中文分词的效果十分不好,在构建词表(即分词器)时,对中文分词的分词准确率较低。例如,对于“今天天气真好”,经tokenizer分词得到的结果为“今”、“天”、“天”、“气”、“真”、“好”,完全损失掉了中文词语的原有含义;而对于同样含义的英文“the weather isreally nice today”,经tokenizer分词得到的结果为“the”、“weather”、“is”、“really”、“nice”、“today”,完整的保留了英文的原有含义。中文词语原有含义信息损失,也会导致llm模型对于中本文档来自技高网...

【技术保护点】

1.一种词表的构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,依据所述中文语料生成概率图模型,包括:

3.根据权利要求1所述的方法,其特征在于,依据所述概率图模型生成所述概率图模型对应的目标状态转移概率矩阵,包括:

4.根据权利要求1所述的方法,其特征在于,依据所述目标状态转移概率矩阵,从所述中文语料中确定多个常见词,包括:

5.根据权利要求1所述的方法,其特征在于,基于大型语言模型从所述多个常见词中确定目标常见词,包括:

6.根据权利要求1所述的方法,其特征在于,依据所述目标常见词构建目标词表,包括:<...

【技术特征摘要】

1.一种词表的构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,依据所述中文语料生成概率图模型,包括:

3.根据权利要求1所述的方法,其特征在于,依据所述概率图模型生成所述概率图模型对应的目标状态转移概率矩阵,包括:

4.根据权利要求1所述的方法,其特征在于,依据所述目标状态转移概率矩阵,从所述中文语料中确定多个常见词,包括:

5.根据权利要求1所述的方法,其特征在于,基于大型语言模型从所述多个常见词中确定目标常见词,包括:

6.根据权利要求1所述的方法,其特征在于,依据所述目标常见词构建目标词表,包括:

7.根...

【专利技术属性】
技术研发人员:徐林嘉陈李龙袁如怡李睿琦
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1