基于垂直领域大语言模型的行业标准数据处理方法及设备技术

技术编号:40945900 阅读:25 留言:0更新日期:2024-04-18 15:03
本发明专利技术涉及一种基于垂直领域大语言模型的行业标准数据处理方法及设备,该方法包括以下步骤:步骤S1,准备垂直领域待标注的行业标准文本;步骤S2,对待标注的行业标准文本进行人工标注;步骤S3,使用ChatGPT对标注好的行业标准文本进行清洗和预处理;步骤S4,使用微调技术对ChatGLM2‑6B进行训练;步骤S5,用python分段处理标注好的行业标准文本,并生成结构化数据集;步骤S6,基于结构化数据集对ChatGLM2‑6B模型进行LoRA微调;步骤S7,使用微调后的ChatGLM2‑6B模型制定行业标准。与现有技术相比,本发明专利技术具有提高行业标准制定的效率和适用范围广等优点。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,尤其是涉及一种基于垂直领域大语言模型的行业标准数据处理方法及设备


技术介绍

1、垂直领域大模型是指在特定的领域或行业中经过训练和优化的大型语言模型。与通用语言模型相比,垂直领域大模型更专注于某个特定领域的知识和技能,具备更高的领域专业性和实用性。

2、与通用大模型相比,垂直领域大模型具有以下优势:

3、1)领域专业性:垂直领域大模型经过专门的训练,能够更好地理解和处理特定领域的知识、术语和上下文。

4、2)高质量输出:由于在特定领域中进行了优化,垂直领域大模型在该领域的输出质量通常比通用大模型更高。

5、3)特定任务效果更好:对于特定领域的任务,垂直领域大模型通常比通用大模型表现更好。

6、行业标准是指在全国某个行业范围内统一的标准。当前,如电力和海洋领域这种单一行业的标准众多,涉及二者领域的标准制定约束多、难度大。随着人工智能技术的发展,垂直领域大语言模型的出现为解决这一问题提供了新的技术方案。

7、如何利用人工智能技术实现行业标准数据的自动处理技术本文档来自技高网...

【技术保护点】

1.一种基于垂直领域大语言模型的行业标准数据处理方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于垂直领域大语言模型的行业标准数据处理方法,其特征在于,所述的垂直领域待标注的行业标准文本包括垂直领域特定的标准和规范文档。

3.根据权利要求1所述的一种基于垂直领域大语言模型的行业标准数据处理方法,其特征在于,所述的垂直领域待标注的行业标准文本为纯文本格式。

4.根据权利要求1所述的一种基于垂直领域大语言模型的行业标准数据处理方法,其特征在于,所述的标注包括标注文本的大标题和小标题。

5.根据权利要求1所述的一种基于垂直领...

【技术特征摘要】

1.一种基于垂直领域大语言模型的行业标准数据处理方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于垂直领域大语言模型的行业标准数据处理方法,其特征在于,所述的垂直领域待标注的行业标准文本包括垂直领域特定的标准和规范文档。

3.根据权利要求1所述的一种基于垂直领域大语言模型的行业标准数据处理方法,其特征在于,所述的垂直领域待标注的行业标准文本为纯文本格式。

4.根据权利要求1所述的一种基于垂直领域大语言模型的行业标准数据处理方法,其特征在于,所述的标注包括标注文本的大标题和小标题。

5.根据权利要求1所述的一种基于垂直领域大语言模型的行业标准数据处理方法,其特征在于,所述的清洗和预处理具体为:

6.根据权利要求5所述的一种基于垂直领域大语言模型的行业标准数据处...

【专利技术属性】
技术研发人员:王琛罗祾齐晓曼赵琪华珉唐雪嵩
申请(专利权)人:国网上海市电力公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1