【技术实现步骤摘要】
本专利技术属于自然语言处理,尤其涉及一种基于检索增强生成的中文拼写检查大语言模型纠错方法及系统。
技术介绍
1、中文拼写检查(csc)是自然语言处理(nlp)中的一项关键任务,目的是检测并纠正句子中存在的拼写错误,拼写错误根据来源不同分为:发音相似错误、字形相似错误,以及其他错误。中文拼写检查对于命名实体识别、光学字符识别,语音识别,机器翻译等下游nlp任务有着重要的辅助作用。近年来,随着机器学习尤其是深度学习的发展,csc的技术也发生了迭代和进步,目前主流的解决方案多是结合句子特征改进后的大型的预训练模型,这种方法存在泛化性不强的问题,模型在特定数据集上表现较好,在面对陌生的数据集时纠错性能下滑严重,一些研究人员认为,在预训练时模型学习到了通用的语法知识,在中文拼写检查数据集上微调时模型又学习到了大量的字符映射,而后者会损害前者的学习成果。因此基于大型语言模型(llms)强泛化性的特点,在参考先前的技术成果后,本项目设计了一套全新的中文拼写检查实现方法。
2、1.chinese spelling correction as
...【技术保护点】
1.一种基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,该方法包括:
2.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述S2具体包括:
3.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述提示工程是指导生成式人工智能解决方案生成所需输出的过程,尽管生成式人工智能试图模仿人类,但需要详细的说明才能创建高质量和相关的输出;可以选择最合适的格式、短语、单词和符号,以指导AI与用户进行更有意义的交互。
4.如权利要求1所述基于检索增强生成的中文拼写检查大语言
...【技术特征摘要】
1.一种基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,该方法包括:
2.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述s2具体包括:
3.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述提示工程是指导生成式人工智能解决方案生成所需输出的过程,尽管生成式人工智能试图模仿人类,但需要详细的说明才能创建高质量和相关的输出;可以选择最合适的格式、短语、单词和符号,以指导ai与用户进行更有意义的交互。
4.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述少样本提示是在有限的数据集上训练模型,使其能够在新的、相似但未见过的样本上做出良好的预测。
5.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述检索增强生成是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库;在llms本就强大的功能基础上,rag将其扩...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。