System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 融合富语义信息的大语言模型的纠错方法及系统技术方案_技高网

融合富语义信息的大语言模型的纠错方法及系统技术方案

技术编号:40945232 阅读:2 留言:0更新日期:2024-04-18 15:02
本发明专利技术公开了一种融合富语义信息的大语言模型的纠错方法及系统,包括如下步骤:以简体中文编码表为基准构建中文富语义知识库;为大语言模型构建融合中文富语义知识库的上下文学习提示模板;大语言模型接收纠错任务后,根据上下文学习提示模板生成纠错任务的纠错提示、指令以及纠错任务中每个汉字在中文富语义知识库中的信息并将上述信息进行拼接,重新输入到大语言模型中,大语言模型根据拼接后的信息对纠错任务进行纠错,并输出纠错后的句子。本发明专利技术将中文的丰富语义融入大语言模型中,并为大语言模型的中文纠错任务制定特有的提示模板,提高了大语言模型在中文纠错任务上的泛化能力。

【技术实现步骤摘要】

本专利技术属于大语言模型的,具体涉及一种融合富语义信息的大语言模型的纠错方法。


技术介绍

1、目前,大规模语言模型(large language models,llms)已经成为自然语言处理领域的主流解决方案。这些模型利用强大的计算资源,在大规模无标签语料库上进行自监督学习,从而生成符合语料库分布的语言模型。通过迁移学习的方式,这些模型能够快速应用于各种下游应用场景。但大语言模型的预训练成本和微调(fine-tuning)成本都是比较昂贵的,并且现在很多大模型出于成本和商业考虑都不再开源参数。所以上下文学习(in-context learning)成为了目前大语言模型适应各种下游任务的主要方式,in-contextlearning不需要进行模型参数的反向传播,仅需要把少量标注样本放在输入文本的上下文中即可诱导大语言模型输出答案。

2、随着bert的发布,使用预训练语言模型(pretrained language model,plm)进行中文拼写纠错(chinese spell checking,csc)任务已成为主流方法,目前的研究大多集中在汉字在字形和发音方面的特殊特征,旨在通过结合字形和拼音信息来提高区分错误字符的能力。当前针对预训练语言模型的中文自动纠错模型,在纠正错误方面过分依赖于其训练数据集,这导致其在实际应用场景中的适用性受到限制。对于这些中文自动纠错模型来说,它们的泛化能力—即在各种不同情境下准确纠错的能力—依然是一个挑战。

3、当前的纠错模型主要是以英文为基础构建的,这些模型的架构和优化设计都是专门针对英语语言的特点而设计的。相应地,它们在对英语语言和文化的理解和掌握方面更为深入。虽然一些纠错模型已经在理解和生成中文内容方面取得了一定进展,但对于中文字形中富含的知识,目前的模型并没有很好的运用到。

4、中文作为中华文化的基因和核心,是中华文明传承和发展的重要工具。与英语相比,汉字作为一种象形文字延续了千年,具有丰富的语义特征。每个汉字都包含了繁体、字形(偏旁部首)、拼音和声调等特征。此外,中文还包含许多形声字,它们的读音和含义都隐含在偏旁部首中。例如,江、河、湖、海都含有部首“氵”,这些字都代表与水相关的实体。再比如,株、诛、铢、珠都有共同的声旁朱,所以这些字的读音相似。部分实际上,部首可以被看作是一种类别标签信息,它们作为对传统上下文语义特征的额外补充,具有重要的语义价值。

5、此外,字形还可以提供一些象征和修辞手法的线索。有些汉字的字形本身就具有象征意义,如“明”字由日(太阳)和月组合而成,表示明亮、光明的意思;“火”字由三个火焰组成,表示火的形态;“目”字表示眼睛的形状,表示与视觉有关的意义;“口”字表示嘴巴,也可以表示说话、言语的意思。这些会意字是汉字中常见且基础的构造方式,通过组合不同的意义部分形成新的词义,丰富了汉字的形态和含义。

6、字形和拼音是中文语言中的重要组成部分,它包含了丰富的语义和文化知识。通过认识和理解字形,我们可以获取汉字的含义、构造和演变,进而深入了解汉字之间的关系和语义联系。字形的重要性体现在多个层面。字形对于词语的理解至关重要。汉字是以字为基本单位构成词语的,而字形往往能够反映出词语的词性、词义和用法。通过理解字形,我们可以更准确地理解和使用词语,提高语言表达的准确性和质量。

7、除了字形层面的特征之外,中文还具有丰富的语素多样性、歧义性和结构多样性等特点。然而,在目前以英语为基础的大规模语言模型中,对这些特征的研究和利用并不充分。因此,对于中文纠错这个任务来说,理解和利用中文字形的知识可以提高对中文的理解和生成能力。然后,如何提高大语言模型对中文的理解从而提高其纠错能力时目前急需解决的技术问题。


技术实现思路

1、本专利技术的一个目的在于针对现有技术的不足之处,提供一种融合富语义信息的大语言模型的纠错方法,该方法将中文的丰富语义融入大语言模型中,并为大语言模型的中文纠错任务制定特有的提示模板,提高了大语言模型在中文纠错任务上的泛化能力。

2、为解决上述技术问题,本专利技术采用如下技术方案:

3、一种融合富语义信息的大语言模型的纠错方法,包括如下步骤:

4、步骤1、以简体中文编码表为基准构建中文富语义知识库;

5、步骤2、根据历史纠错任务为大语言模型构建融合中文富语义知识库的上下文学习提示模板;

6、步骤3、大语言模型接收纠错任务后,根据纠错任务结合上下文学习提示模板生成纠错任务的纠错提示、指令以及获取纠错任务中每个汉字在中文富语义知识库中的信息并将上述全部信息与纠错任务进行拼接,重新输入到大语言模型中,大语言模型根据拼接后的信息对纠错任务进行纠错,并输出纠错后的句子。

7、进一步地,步骤1中中文富语义知识库构建方法为:以gb2312简体中文编码表为基准,根据gb2312简体中文编码表进行中文信息的爬取,爬取的中文信息包括gb2312简体中文编码表中汉字以及每个汉字的多种关键属性,将爬取的中文信息以python字典的形式进行存储,得到中文富语义知识库。

8、进一步地,汉字的关键属性包括拼音、部首、总笔画数、部外笔画数、笔顺顺序、结构信息、汉字国标码、五笔码、仓颉码、郑码、四角码以及不同历史阶段的字形图片。

9、进一步地,python字典中的每个元素包括一个唯一的键key和对应的值value,在中文富语义知识库中,每个汉字存储为key,汉字所对应的多种关键属性存储为value,从而将每个汉字以及其所对应的多种关键属性以键值对key-value pairs的形式存储在python字典中。

10、进一步地,步骤2中,上下文学习提示模板的构建方法为:

11、首先,在提示模板中给出了大语言模型的身份和任务描述;

12、其次,给出大语言模型多个历史纠错例句、每个历史纠错例句对应的具体纠错指令、输出句子的长度限制以及纠错后的句子;

13、再次,在中文富语义语料库中找到历史纠错例句中每个汉字的关键属性;

14、最后,再将每个历史纠错例句的上述三部分信息进行拼接得到上下文学习提示模板。

15、进一步地,多个历史纠错例句至少包含一个语音错误、一个字形错误和一个不需要纠正的正确句子。

16、进一步地,采用哈希算法在python字典中找到每个汉字对应的关键属性。

17、进一步地,采用哈希算法在python字典中找到每个汉字对应的关键属性的方法为:

18、将句子中的每个字都在中文富语义知识库中通过哈希算法进行搜索,在搜索过程中,将每个汉字转换为一个哈希值,通过这个哈希值,与python字典中同样使用这个哈希值的汉字作为索引的信息,通过索引指向存储相应汉字信息的位置。

19、进一步地,步骤3中具体包括:

20、大语言模型接收到纠错任务后,根据大语言模型接收的纠错任务从上下文学习提示模板中历史纠错例句的任务本文档来自技高网...

【技术保护点】

1.一种融合富语义信息的大语言模型的纠错方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的融合富语义信息的大语言模型的纠错方法,其特征在于,步骤1中中文富语义知识库构建方法为:以GB2312简体中文编码表为基准,根据GB2312简体中文编码表进行中文信息的爬取,爬取的中文信息包括GB2312简体中文编码表中汉字以及每个汉字的多种关键属性,将爬取的中文信息以Python字典的形式进行存储,得到中文富语义知识库。

3.根据权利要求2所述的融合富语义信息的大语言模型的纠错方法,其特征在于,汉字的关键属性包括拼音、部首、总笔画数、部外笔画数、笔顺顺序、结构信息、汉字国标码、五笔码、仓颉码、郑码、四角码以及不同历史阶段的字形图片。

4.根据权利要求2所述的融合富语义信息的大语言模型的纠错方法,其特征在于,Python字典中的每个元素包括一个唯一的键key和对应的值value,在中文富语义知识库中,每个汉字存储为key,汉字所对应的多种关键属性存储为value,从而将每个汉字以及其所对应的多种关键属性以键值对key-value pairs的形式存储在Python字典中。

5.根据权利要求4所述的融合富语义信息的大语言模型的纠错方法,其特征在于,步骤2中,上下文学习提示模板的构建方法为:

6.根据权利要求5所述的融合富语义信息的大语言模型的纠错方法,其特征在于,多个历史纠错例句至少包含一个语音错误、一个字形错误和一个不需要纠正的正确句子。

7.根据权利要求5所述的融合富语义信息的大语言模型的纠错方法,其特征在于,采用哈希算法在Python字典中找到每个汉字对应的关键属性。

8.根据权利要求7所述的融合富语义信息的大语言模型的纠错方法,其特征在于,采用哈希算法在Python字典中找到每个汉字对应的关键属性的方法为:

9.根据权利要求5所述的融合富语义信息的大语言模型的纠错方法,其特征在于,步骤3中具体包括:

10.一种根据权利要求1-9任意一项所述的融合富语义信息的大语言模型的纠错方法的系统,其特征在于,包括:

...

【技术特征摘要】

1.一种融合富语义信息的大语言模型的纠错方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的融合富语义信息的大语言模型的纠错方法,其特征在于,步骤1中中文富语义知识库构建方法为:以gb2312简体中文编码表为基准,根据gb2312简体中文编码表进行中文信息的爬取,爬取的中文信息包括gb2312简体中文编码表中汉字以及每个汉字的多种关键属性,将爬取的中文信息以python字典的形式进行存储,得到中文富语义知识库。

3.根据权利要求2所述的融合富语义信息的大语言模型的纠错方法,其特征在于,汉字的关键属性包括拼音、部首、总笔画数、部外笔画数、笔顺顺序、结构信息、汉字国标码、五笔码、仓颉码、郑码、四角码以及不同历史阶段的字形图片。

4.根据权利要求2所述的融合富语义信息的大语言模型的纠错方法,其特征在于,python字典中的每个元素包括一个唯一的键key和对应的值value,在中文富语义知识库中,每个汉字存储为key,汉字所对应的多种关键属性存储为value,从而将每个汉字...

【专利技术属性】
技术研发人员:董明陈宇靖何婷婷
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1