基于小语言模型集群的自然语言问答方法、装置及介质制造方法及图纸

技术编号:39140208 阅读:10 留言:0更新日期:2023-10-23 14:54
本发明专利技术提供了一种基于小语言模型集群的自然语言问答方法、装置及介质,该方法包括:获取用户输入的自然语言问题,思考小语言模型将所述自然语言问题拆解为至少两个子任务;所述思考小语言模型根据子任务的类型,调度对应的中间小语言模型处理对应的子任务,以及生成对应的问答数据;回答小语言模型从所述思考小语言模型获取子任务,以及从中间小语言模型获取子任务对应的问答数据,整合所述子任务和所述问答数据,得到自然语言问题的答案。该方法用以将复杂任务拆解后通过已构建的小语言模型集群进行处理,所需计算资源少,大大减轻了训练成本。练成本。练成本。

【技术实现步骤摘要】
基于小语言模型集群的自然语言问答方法、装置及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于小语言模型集群的自然语言问答方法、装置及介质。

技术介绍

[0002]现有对复杂语言计算任务的方法多依赖大模型思维链(Chain of Thought,CoT),即通过训练语言模型的思考能力从而提高语言模型处理复杂任务的能力。现有技术存在的弊端,模型参数大,推理速度慢,微调数据集复杂的缺陷。因此,亟需提供一种新的自然语言问答方法,来解决上述问题。

技术实现思路

[0003]本专利技术的目的在于提供一种基于小语言模型集群的自然语言问答方法、装置及介质,用以将复杂任务拆解后通过已构建的小语言模型集群进行处理,所需计算资源少,大大减轻了训练成本。
[0004]第一方面,本专利技术实施例提供一种基于小语言模型集群的自然语言问答方法,该方法包括:获取用户输入的自然语言问题,思考小语言模型将所述自然语言问题拆解为至少两个子任务;所述思考小语言模型根据子任务的类型,调度对应的中间小语言模型处理对应的子任务,以及生成对应的问答数据;回答小语言模型从所述思考小语言模型获取子任务,以及从中间小语言模型获取子任务对应的问答数据,整合所述子任务和所述问答数据,得到自然语言问题的答案。
[0005]本专利技术实施例提供的基于小语言模型集群的自然语言问答方法的有益效果在于:将复杂任务拆解后通过已构建的小语言模型集群进行处理,所需计算资源少,大大减轻了训练成本。
[0006]在一种可能的实施方案中,获取用户输入的自然语言问题之前,还包括:构建通用小语言模型;针对指定子任务微调所述通用小语言模型,得到思考小语言模型、回答语言模型和至少一个中间小语言模型。
[0007]在另一种可能的实施方案中,针对指定子任务微调所述通用小语言模型,得到思考小语言模型、回答语言模型和至少一个中间小语言模型,包括:初始化通用小语言模型;针对指定子任务构建私有领域数据集,微调所述通用小语言模型,得到私有领域模型,对私有领域小语言模型微调来得到思考小语言模型、回答语言模型和至少一个中间小语言模型。
[0008]在其它可能的实施方案中,采用类transformer的GLM块来作为通用小语言模型的Backbone,采用Llm_head用于生成模型的映射部分。
[0009]在又一种可能的实施方案中,所述中间小语言模型包括:语法分析小语言模型、词性标注小语言模型、检索小语言模型、计算小语言模型中的至少一种。
[0010]第二方面,本专利技术实施例还提供一种基于小语言模型集群的自然语言问答装置,
该装置包括执行上述第一方面的任意一种可能的实施方式的方法的模块/单元。这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
[0011]第三方面,本专利技术实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质包括程序,当程序在终端设备上运行时,使得所述终端设备执行上述第一方面的任意一种可能的实施方式的方法。
[0012]第四方面,本专利技术实施例中还提供一种终端设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的程序,当所述程序被所述处理器执行时,使得所述终端设备实现如上述第一方面任意一实施例所述的方法。
[0013]第五方面,本专利技术实施例还提供一种计算机程序产品,当所述程序产品在终端设备上运行时,使得所述终端设备执行上述第一方面的任意一种可能的实施方式的方法。
[0014]关于上述第二方面至第五方面的有益效果可以参见上述第一方面中的描述。
附图说明
[0015]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本专利技术实施例提供的一种自然语言问答模型结构示意图;
[0017]图2为本专利技术实施例提供的另一种自然语言问答模型结构示意图;
[0018]图3为本专利技术实施例提供的一种基于小语言模型集群的自然语言问答方法流程示意图;
[0019]图4为本专利技术实施例提供的一种基于小语言模型集群的自然语言问答示例架构示意图;
[0020]图5为本专利技术实施例提供的自然语言问答模型的用户界面示意图;
[0021]图6为本专利技术实施例提供的一种终端设备结构示意图。
具体实施方式
[0022]本专利技术实施例涉及人工智能(artificial intelligence,AI)和机器学习(machine learning,ML)技术,基于人工智能中的深度学习网络和机器学习而实现方案。
[0023]机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
[0024]随着人工智能技术的不断发展,语言模型已经成为自然语言处理领域的重要研究方向。语言模型是指一种基于统计学和深度学习技术的模型,可以学习和模拟人类语言的行为和规律,从而实现对自然语言的有效理解和生成。在语言模型的研发和应用过程中,人们通常会将小规模的语言模型称为“小语言模型”,将大规模的语言模型称为“大语言模
型”。其中,大语言模型和小语言模型的主要区别如下:
[0025]首先,大语言模型和小语言模型在规模和功能上有明显的区别。大语言模型通常是指基于深度学习算法训练得到的、具有大规模参数规模的模型,能够处理自然语言理解的多种任务,如文本分类、情感分析、问答等。大语言模型具有更强的语言处理能力和更广泛的适用性,能够处理更复杂、更抽象的语言任务。而小语言模型则通常是指规模较小、参数数量较少的模型,其处理任务相对较为简单,通常用于处理一些特定的自然语言处理任务,如语法分析、词性标注、数学计算等。小语言模型通常具有更快的推理速度和更小的存储空间,能够在资源受限的场景下高效地处理自然语言任务。
[0026]其次,大语言模型和小语言模型的应用场景也不同。大语言模型适用于处理复杂、抽象的语言任务,例如自然语言理解、文本生成、对话系统等。而小语言模型则适用于处理特定任务或资源受限的场景,例如语音识别、机器翻译等。小语言模型可以在特定的领域或场景下实现高效的处理和响应,而大语言模型则可以在更广泛的领域和场景下实现更复杂、更抽象的语言处理任务。
[0027]此外,大语言模型和小语言模型在训练数据和计算资源上也有所不同。大语言模型需要大量的训练数据和计算资源,以便进行大规模的参数训练和优本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于小语言模型集群的自然语言问答方法,其特征在于,包括:获取用户输入的自然语言问题,思考小语言模型将所述自然语言问题拆解为至少两个子任务;所述思考小语言模型根据子任务的类型,调度对应的中间小语言模型处理对应的子任务,以及生成对应的问答数据;回答小语言模型从所述思考小语言模型获取子任务,以及从中间小语言模型获取子任务对应的问答数据,整合所述子任务和所述问答数据,得到自然语言问题的答案。2.根据权利要求1所述的方法,其特征在于,获取用户输入的自然语言问题之前,还包括:构建通用小语言模型;针对指定子任务微调所述通用小语言模型,得到思考小语言模型、回答语言模型和至少一个中间小语言模型。3.根据权利要求2所述的方法,其特征在于,针对指定子任务微调所述通用小语言模型,得到思考小语言模型、回答语言模型和至少一个中间小语言模型,包括:初始化通用小语言模型;针对指定子任务构建私有领域数据集,微调所述通用小语言模型,得到私有领域模型,对私有领域小语言模型微调来得到思考小语言模型、回答语言模型和至少一个中间小语言模型。4.根据权利要求1至3任一项所述的方法,其特征在于,采用类transformer的GLM块来作为通用小语言模型的Backbone,采用Llm_head用于生成模型的映射部分。5.根据权利要求1至3任一项所述的方法,其特征在于,所述中间小语言模型包括:语法分析小语言模型、词性标注小语言模型、检索小语言模型、计算小语言模型中的至少一种。6.一种基于小语言模型集群的自然语言问答装置,其特征在于...

【专利技术属性】
技术研发人员:董帅豪
申请(专利权)人:上海数珩信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1