System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于检索增强生成的语言模型中文拼写检查方法及系统技术方案_技高网

基于检索增强生成的语言模型中文拼写检查方法及系统技术方案

技术编号:42645383 阅读:27 留言:0更新日期:2024-09-06 01:40
本发明专利技术属于自然语言处理技术领域,公开了一种基于检索增强生成的大型语言模型中文拼写检查方法及系统,选择使用大型语言模型来进行中文拼写检查任务;从向量数据库中获取相关的外部知识作为模型执行任务的辅助示例;为大型语言模型设计了合适的提示词,并采用使用少样本提示的方法,将RAG手段获得的辅助案例作为少样本放到大型语言模型的历史对话中,通过少样本提示得到的大型语言模型就是纠错大型语言模型;交给判别大型语言模型进行判断;构建对应的数据集来进行相应的性能评估,丰富中文拼写检查领域的数据集多样性。本发明专利技术为大型语言模型进行此类自然语言处理任务提供了鲜明的案例,为中文拼写检查任务提供了全新的评测思路。

【技术实现步骤摘要】

本专利技术属于自然语言处理,尤其涉及一种基于检索增强生成的中文拼写检查大语言模型纠错方法及系统。


技术介绍

1、中文拼写检查(csc)是自然语言处理(nlp)中的一项关键任务,目的是检测并纠正句子中存在的拼写错误,拼写错误根据来源不同分为:发音相似错误、字形相似错误,以及其他错误。中文拼写检查对于命名实体识别、光学字符识别,语音识别,机器翻译等下游nlp任务有着重要的辅助作用。近年来,随着机器学习尤其是深度学习的发展,csc的技术也发生了迭代和进步,目前主流的解决方案多是结合句子特征改进后的大型的预训练模型,这种方法存在泛化性不强的问题,模型在特定数据集上表现较好,在面对陌生的数据集时纠错性能下滑严重,一些研究人员认为,在预训练时模型学习到了通用的语法知识,在中文拼写检查数据集上微调时模型又学习到了大量的字符映射,而后者会损害前者的学习成果。因此基于大型语言模型(llms)强泛化性的特点,在参考先前的技术成果后,本项目设计了一套全新的中文拼写检查实现方法。

2、1.chinese spelling correction as rephrasing language model

3、该文章主要内容为:中文拼写检查(csc),旨在检测并纠正给定句子中潜在的拼写错误。当前最先进的方法将中文拼写检查视为序列标记任务,使用bert架构的模型在训练集上进行全样本微调。然而,研究人员注意到:将一个字符标记到另一个字符的过程中存在一个严重缺陷,即过度的注重字符错误而忽略了句子整体的语义,这与人类的思维方式相反,一般来讲,人类会先将看到的原始句子在脑海中进行理解,组织成自己熟悉的形式,再重新表述成完整的句子,而不是简单的在脑海中匹配先前记住的错误模式。深度学习模会型记住大量错误字符到正确字符的字符映射,这种反直觉的学习过程导致了模型泛化性和可迁移性的瓶颈。为了解决这个问题,研究人员提出了改写语言模型(relm),模型被训练为根据纠错前语句的部分字符来填充完整的纠错前语句,同时填写输出后语句。这种新颖的训练范例在微调和零样本中文拼写检查测试中达到了新的最先进的结果,优于现有的同类方法。

4、文章作者提出使用改写模型替换序列标注模型完成中文拼写检查中文拼写检查任务,改写模型包括两种实现方法,一种是基于大型语言模型的自回归生成架构,一种是基于bert的预置槽位架构。研究人员认为,大语言模型纠错结果的生成长度不可控,不具备更高的潜力,因此重点介绍了第二种解决方案。本项目的关注点在于第一种解决方案,同先前的研究有较大区别,在大型语言模型的基础上,采用检索增强生成(rag)和i迭代判别策略(ids)结合,规避大型语言模型在文本生成中的缺点,提高大型语言模型的竞争力。

5、2.on the(in)effectiveness of large language models for chinese textcorrection

6、该文章主要内容为:大型语言模型(llms)的发展和进步令整个人工智能界惊叹。受益于其新兴能力,大型语言模型吸引了越来越多的研究人员来研究他们在各种下游自然语言处理任务上的能力和表现。在惊叹大型语言模型在各种任务上令人难以置信的表现的同时,研究人员注意到大型语言模型还具有出色的多语言处理能力。因此,为了对大型语言模型的中文处理能力有更全面的认识,研究人员探究了大型语言模型在中文文本校正这种基础任务上的表现效果,这是一项基础且具有挑战性的中文nlp任务。具体来说,文本校正包括中文语法错误纠正(cgec)和中文拼写检查的两个主要的中文文本纠正场景。研会人员分析了以chatgpt为代表的现有llms的纠错能力,发现大型语言模型的文本校正能力与之前最先进的微调模型仍然存在一些差距,但在解决文本流畅性问题等方面表现出更大的优势。此外,研究人员观察到,随着校正任务难度的增加,大型语言模型的性能往往会比传统深度学习模型下降得更明显。研究人员认为,大型语言模型的中文校对正能力目前还不能适应实际的生产环境,如何促进大型语言模型在nlp领域内进一步落地还需要进一步研究。

7、文章中点明了大型语言模型在中文拼写检查领域具有不少潜力,同时也存在一些亟待解决的问题,研究人员使用少样本提示指导不同大型语言模型完成任务,纠错的结果表明了使用大型语言模型完成中文拼写检查是一个全新可行的解决方案,为中文拼写检查的后续研究开辟了全新的赛道。

8、3.cscd-ime:correcting spelling errors generated by pinyin ime

9、该文章主要内容为:中文拼写检查的任务内容是检测和纠正文本中存在的拼写纠错。由于拼音输入法具有十分广大的受众,语音相似的拼写错误在所有类型的拼写错误中占有相当高的比例。研究拼音输入法中的出现的拼写错误具有巨大的实用意义。研究人员首先提出了在拼音输入场景中收集到的中文拼写检查数据集(cscd-ime),数据来自新浪微博官方媒体贴子中的40,000个句子。除此之外,研究人员公布了一种通过模拟拼音输入法的键入过程自动构造大规模、高质量伪数据的新方法。文中在cscd-ime数据集上的一系列实验表明,cscd-ime数据集中的拼写错误具有独特的分布,也有足够的挑战性。


技术实现思路

1、针对现有技术存在的问题,本专利技术提供了一种基于检索增强生成的中文拼写检查大语言模型纠错方法。

2、本专利技术提供了一种基于检索增强生成的中文拼写检查大语言模型纠错方法完成中文拼写检查任务,该方法包括:

3、s1:使用大型语言模型来进行中文拼写检查任务;

4、s2:大型语言模型具有通用的知识体系和理解能力。在大模型完成特定领域的任务时,如果缺乏相关任务的信息和有关数据,模型在该任务上的性能可能会下降。本方案选择使用rag的策略,从向量数据库中获取相关的外部知识作为模型执行任务的辅助示例;

5、s3:根据中文拼写检查任务的任务目标和原则,本方案为大型语言模型设计了合适的提示词,并采用使用少样本提示的方法,将rag手段获得的辅助案例作为少样本提示语句放到大型语言模型的历史对话中进行基于prompt的少样本上下文学习,这样通过少样本提示得到的大型语言模型就是本方案中的纠错大型语言模型;

6、s4:为了控制大型语言模型的输出长度,同时改善纠错大型语言模型过度纠错和纠错不完全的情况,本方案利用提示工程和设计好的提示模板构建了判别大型语言模型,在纠错大型语言模型对句子进行纠错后,还需要交给判别大型语言模型进行判断,判别通过后纠错大型语言模型的纠错结果才能返回给用户,否则纠错-判别的过程会继续迭代到到预先设置的最大次数;

7、s5:构建自动语音识别和光学字符场景的评测数据集来进行纠错性能评估。

8、所述s2具体包括:

9、从csc领域已有的公开数据集中收集数据,数据在经过处理后会转成指定维度的向量,向量的转化中高纬度的句子语义信息映射到了低纬度的空间中本文档来自技高网...

【技术保护点】

1.一种基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,该方法包括:

2.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述S2具体包括:

3.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述提示工程是指导生成式人工智能解决方案生成所需输出的过程,尽管生成式人工智能试图模仿人类,但需要详细的说明才能创建高质量和相关的输出;可以选择最合适的格式、短语、单词和符号,以指导AI与用户进行更有意义的交互。

4.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述少样本提示是在有限的数据集上训练模型,使其能够在新的、相似但未见过的样本上做出良好的预测。

5.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述检索增强生成是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库;在LLMs本就强大的功能基础上,RAG将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。

6.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述S5具体包括:

7.一种实施如权利要求1-5任意一项所述基于检索增强生成的中文拼写检查大语言模型纠错方法的基于检索增强生成的中文拼写检查大语言模型纠错系统,其特征在于,该系统包括:

8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-6任意一项所述基于检索增强生成的大型语言模型中文拼写检查方法的步骤。

9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1-6任意一项所述基于检索增强生成的大型语言模型中文拼写检查方法的步骤。

10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述基于检索增强生成的中文拼写检查大语言模型纠错系统。

...

【技术特征摘要】

1.一种基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,该方法包括:

2.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述s2具体包括:

3.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述提示工程是指导生成式人工智能解决方案生成所需输出的过程,尽管生成式人工智能试图模仿人类,但需要详细的说明才能创建高质量和相关的输出;可以选择最合适的格式、短语、单词和符号,以指导ai与用户进行更有意义的交互。

4.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述少样本提示是在有限的数据集上训练模型,使其能够在新的、相似但未见过的样本上做出良好的预测。

5.如权利要求1所述基于检索增强生成的中文拼写检查大语言模型纠错方法,其特征在于,所述检索增强生成是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库;在llms本就强大的功能基础上,rag将其扩...

【专利技术属性】
技术研发人员:董明程志伟何婷婷
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1