基于检索增强生成的语言模型中文拼写检查方法及系统技术方案

技术编号:42645383 阅读:47 留言:0更新日期:2024-09-06 01:40
本发明专利技术属于自然语言处理技术领域,公开了一种基于检索增强生成的大型语言模型中文拼写检查方法及系统,选择使用大型语言模型来进行中文拼写检查任务;从向量数据库中获取相关的外部知识作为模型执行任务的辅助示例;为大型语言模型设计了合适的提示词,并采用使用少样本提示的方法,将RAG手段获得的辅助案例作为少样本放到大型语言模型的历史对话中,通过少样本提示得到的大型语言模型就是纠错大型语言模型;交给判别大型语言模型进行判断;构建对应的数据集来进行相应的性能评估,丰富中文拼写检查领域的数据集多样性。本发明专利技术为大型语言模型进行此类自然语言处理任务提供了鲜明的案例,为中文拼写检查任务提供了全新的评测思路。

【技术实现步骤摘要】

本专利技术属于自然语言处理,尤其涉及一种基于检索增强生成的中文拼写检查大语言模型纠错方法及系统。


技术介绍

1、中文拼写检查(csc)是自然语言处理(nlp)中的一项关键任务,目的是检测并纠正句子中存在的拼写错误,拼写错误根据来源不同分为:发音相似错误、字形相似错误,以及其他错误。中文拼写检查对于命名实体识别、光学字符识别,语音识别,机器翻译等下游nlp任务有着重要的辅助作用。近年来,随着机器学习尤其是深度学习的发展,csc的技术也发生了迭代和进步,目前主流的解决方案多是结合句子特征改进后的大型的预训练模型,这种方法存在泛化性不强的问题,模型在特定数据集上表现较好,在面对陌生的数据集时纠错性能下滑严重,一些研究人员认为,在预训练时模型学习到了通用的语法知识,在中文拼写检查数据集上微调时模型又学习到了大量的字符映射,而后者会损害前者的学习成果。因此基于大型语言模型(llms)强泛化性的特点,在参考先前的技术成果后,本项目设计了一套全新的中文拼写检查实现方法。

2、1.chinese spelling correction as rephrasin本文档来自技高网...

【技术保护点】

1.一种基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,该方法包括:

2.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述S2具体包括:

3.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述提示工程是指导生成式人工智能解决方案生成所需输出的过程,尽管生成式人工智能试图模仿人类,但需要详细的说明才能创建高质量和相关的输出;可以选择最合适的格式、短语、单词和符号,以指导AI与用户进行更有意义的交互。

4.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征...

【技术特征摘要】

1.一种基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,该方法包括:

2.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述s2具体包括:

3.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述提示工程是指导生成式人工智能解决方案生成所需输出的过程,尽管生成式人工智能试图模仿人类,但需要详细的说明才能创建高质量和相关的输出;可以选择最合适的格式、短语、单词和符号,以指导ai与用户进行更有意义的交互。

4.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述少样本提示是在有限的数据集上训练模型,使其能够在新的、相似但未见过的样本上做出良好的预测。

5.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述检索增强生成是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库;在llms本就强大的功能基础上,rag将其扩...

【专利技术属性】
技术研发人员:董明程志伟何婷婷
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1