一种水土保持大语言模型数据集构建方法技术

技术编号:45864104 阅读:16 留言:0更新日期:2025-07-19 11:20
本发明专利技术涉及水土保持技术领域,特别是涉及一种利用大语言模型构建水土保持专业数据集的方法,包括如下步骤:S1、收集近十年水土保持方案、规划设计、法律法规及科研成果等文献资料。S2、利用文本解析接口将各类文档转换为统一格式文本数据库。S3、基于提示词簇调用大语言模型生成针对九大应用场景的专业问答对。S4、通过向量匹配技术检测数据重合度,实现数据集的自动化智能更新。通过此方法可以构建专业化的水土保持文本数据库,自动生成针对水土流失预测、措施布设、效益评估等场景的训练数据集,从而为水土保持大语言模型的优化提供高质量数据支撑。

【技术实现步骤摘要】

本专利技术涉及水土保持,具体涉及一种利用大语言模型技术构建水土保持专业数据集的方法。本专利技术还涉及人工智能技术在水土保持领域的应用,特别是在专业知识库构建和智能问答系统开发方面的应用。


技术介绍

1、随着人工智能技术的发展,大语言模型在各个专业领域的应用日益广泛。在水土保持领域,存在大量的专业文献资料、技术规范和实践经验,这些知识的有效整合和利用对提高水土保持工作效率具有重要意义。然而,目前存在以下技术问题:一是数据格式多样性问题:水土保持领域的专业资料格式多样,包括图片、pdf、word等多种格式,难以统一管理和利用。特别是历史资料中的扫描件和手写文档,其数字化和结构化处理存在较大困难;二是人工整理效率问题:现有的数据集构建方法主要依赖人工整理,不仅效率低下且质量参差不齐。专业人员需要投入大量时间进行资料筛选、整理和标注,且难以保证标注质量的一致性;三是专业场景覆盖不足:缺乏针对水土保持领域特定应用场景的专业问答数据集,现有通用数据集无法满足水土保持专业工作的需求,特别是在技术方案制定、效益评估等专业性较强的领域;四是更新维护机制缺失:数据集更新维护困本文档来自技高网...

【技术保护点】

1.一种水土保持大语言模型数据集构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种水土保持大语言模型数据集构建方法,其特征在于,所述九大应用场景包括:水土流失预测、水土保持措施布设、水土保持措施效益评估、基于python的水土保持相关计算代码脚本生成、水土保持法律法规咨询、水土保持方案编制辅助、水土保持科学研究辅助、水土保持本科生与研究生学习辅助、水土保持科普问答。

3.根据权利要求1所述的一种水土保持大语言模型数据集构建方法,其特征在于,所述数据解析步骤中的文本解析接口为字节跳动提供的PDF与图片型文本数据解析API,所述API用于搭建自动化文本...

【技术特征摘要】

1.一种水土保持大语言模型数据集构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种水土保持大语言模型数据集构建方法,其特征在于,所述九大应用场景包括:水土流失预测、水土保持措施布设、水土保持措施效益评估、基于python的水土保持相关计算代码脚本生成、水土保持法律法规咨询、水土保持方案编制辅助、水土保持科学研究辅助、水土保持本科生与研究生学习辅助、水土保持科普问答。

3.根据权利要求1所述的一种水土保持大语言模型数据集构建方法,其特征在于,所述数据解析步骤中的文本解析接口为字节跳动提供的pdf与图片型文本数据解析api,所述api用于搭建自动化文本解析流程。

4.根据权利要求1所述的一种水土保持大语言模型数据集构建方法,其特征在于,所述问答对生成步骤中使用的大语言模型为字节跳动的doubao-pro-128k大语言模型,所...

【专利技术属性】
技术研发人员:骆汉鞠孟辰赵浚棋刘芯唐凯金张一钞杨珂张庆宇
申请(专利权)人:西北农林科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1