基于小语言模型集群的自然语言问答方法、装置及介质制造方法及图纸

技术编号：39140208 阅读：10 留言：0更新日期：2023-10-23 14:54

本发明专利技术提供了一种基于小语言模型集群的自然语言问答方法、装置及介质，该方法包括：获取用户输入的自然语言问题，思考小语言模型将所述自然语言问题拆解为至少两个子任务；所述思考小语言模型根据子任务的类型，调度对应的中间小语言模型处理对应的子任务，以及生成对应的问答数据；回答小语言模型从所述思考小语言模型获取子任务，以及从中间小语言模型获取子任务对应的问答数据，整合所述子任务和所述问答数据，得到自然语言问题的答案。该方法用以将复杂任务拆解后通过已构建的小语言模型集群进行处理，所需计算资源少，大大减轻了训练成本。练成本。练成本。

全部详细技术资料下载

【技术实现步骤摘要】
基于小语言模型集群的自然语言问答方法、装置及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种基于小语言模型集群的自然语言问答方法、装置及介质。

技术介绍

[0002]现有对复杂语言计算任务的方法多依赖大模型思维链(Chain of Thought，CoT)，即通过训练语言模型的思考能力从而提高语言模型处理复杂任务的能力。现有技术存在的弊端，模型参数大，推理速度慢，微调数据集复杂的缺陷。因此，亟需提供一种新的自然语言问答方法，来解决上述问题。

技术实现思路

[0003]本专利技术的目的在于提供一种基于小语言模型集群的自然语言问答方法、装置及介质，用以将复杂任务拆解后通过已构建的小语言模型集群进行处理，所需计算资源少，大大减轻了训练成本。
[0004]第一方面，本专利技术实施例提供一种基于小语言模型集群的自然语言问答方法，该方法包括：获取用户输入的自然语言问题，思考小语言模型将所述自然语言问题拆解为至少两个子任务；所述思考小语言模型根据子任务的类型，调度对应的中间小语言模型处理对应的子任务，以及生成对应的问答数据；回答小语言模型从所述思考小语言模型获取子任务，以及从中间小语言模型获取子任务对应的问答数据，整合所述子任务和所述问答数据，得到自然语言问题的答案。
[0005]本专利技术实施例提供的基于小语言模型集群的自然语言问答方法的有益效果在于：将复杂任务拆解后通过已构建的小语言模型集群进行处理，所需计算资源少，大大减轻了训练成本。
[0006]在一种可能的实施方案中，...

【技术保护点】

【技术特征摘要】
1.一种基于小语言模型集群的自然语言问答方法，其特征在于，包括：获取用户输入的自然语言问题，思考小语言模型将所述自然语言问题拆解为至少两个子任务；所述思考小语言模型根据子任务的类型，调度对应的中间小语言模型处理对应的子任务，以及生成对应的问答数据；回答小语言模型从所述思考小语言模型获取子任务，以及从中间小语言模型获取子任务对应的问答数据，整合所述子任务和所述问答数据，得到自然语言问题的答案。2.根据权利要求1所述的方法，其特征在于，获取用户输入的自然语言问题之前，还包括：构建通用小语言模型；针对指定子任务微调所述通用小语言模型，得到思考小语言模型、回答语言模型和至少一个中间小语言模型。3.根据权利要求2所述的方法，其特征在于，针对指定子任务微调所述通用小语言模型，得到思考小语言模型、回答语言模型和至少一个中间小语言模型，包括：初始化通用小语言模型；针对指定子任务构建私有领域数据集，微调所述通用小语言模型，得到私有领域模型，对私有领域小语言模型微调来得到思考小语言模型、回答语言模型和至少一个中间小语言模型。4.根据权利要求1至3任一项所述的方法，其特征在于，采用类transformer的GLM块来作为通用小语言模型的Backbone，采用Llm_head用于生成模型的映射部分。5.根据权利要求1至3任一项所述的方法，其特征在于，所述中间小语言模型包括：语法分析小语言模型、词性标注小语言模型、检索小语言模型、计算小语言模型中的至少一种。6.一种基于小语言模型集群的自然语言问答装置，其特征在于...

【专利技术属性】
技术研发人员：董帅豪，
申请(专利权)人：上海数珩信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人