【技术实现步骤摘要】
本专利技术涉及金融科技领域或其他相关领域,具体而言,涉及一种词表的构建方法、装置、存储介质及电子设备。
技术介绍
1、随着大型语言模型(llm)技术的发展,各类应用正在不断搭建,例如,金融机构中有基于llm的智能客服、产品推荐助手等应用。目前,llm模型在中文输入下的效果远不如英文,这是因为在将中文(或英文)文字输入大模型之前,需要有一个分词器(tokenizer)对完整的一句话进行分词,并转化为对应的数字id,才可以被模型理解。现有技术中的分词器对于中文分词的效果十分不好,在构建词表(即分词器)时,对中文分词的分词准确率较低。例如,对于“今天天气真好”,经tokenizer分词得到的结果为“今”、“天”、“天”、“气”、“真”、“好”,完全损失掉了中文词语的原有含义;而对于同样含义的英文“the weather isreally nice today”,经tokenizer分词得到的结果为“the”、“weather”、“is”、“really”、“nice”、“today”,完整的保留了英文的原有含义。中文词语原有含义信息损失,也会
...【技术保护点】
1.一种词表的构建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,依据所述中文语料生成概率图模型,包括:
3.根据权利要求1所述的方法,其特征在于,依据所述概率图模型生成所述概率图模型对应的目标状态转移概率矩阵,包括:
4.根据权利要求1所述的方法,其特征在于,依据所述目标状态转移概率矩阵,从所述中文语料中确定多个常见词,包括:
5.根据权利要求1所述的方法,其特征在于,基于大型语言模型从所述多个常见词中确定目标常见词,包括:
6.根据权利要求1所述的方法,其特征在于,依据所述目标常见词构
...【技术特征摘要】
1.一种词表的构建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,依据所述中文语料生成概率图模型,包括:
3.根据权利要求1所述的方法,其特征在于,依据所述概率图模型生成所述概率图模型对应的目标状态转移概率矩阵,包括:
4.根据权利要求1所述的方法,其特征在于,依据所述目标状态转移概率矩阵,从所述中文语料中确定多个常见词,包括:
5.根据权利要求1所述的方法,其特征在于,基于大型语言模型从所述多个常见词中确定目标常见词,包括:
6.根据权利要求1所述的方法,其特征在于,依据所述目标常见词构建目标词表,包括:
7.根...
【专利技术属性】
技术研发人员:徐林嘉,陈李龙,袁如怡,李睿琦,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。