一种面向科学领域大模型训练语料的可视化方法和系统技术方案

技术编号：43535828 阅读：34 留言：0更新日期：2024-12-03 12:19

本发明专利技术公开了一种面向科学领域大模型训练语料的可视化方法和系统，包括：在服务端将从对象存储服务器获取的markdown格式的科学领域大模型训练语料分段流式传输到客户端；在客户端对接收到的markdown文本中的富文本内容进行解析和渲染得到还原结果；在客户端生成markdown文本的PDF原文内容与还原结果的对比图，并在对比图上附加语料元数据、用户信息水印和语料质量评分。本发明专利技术能够高效、准确、安全地传输、解析、渲染和分享markdown格式的科学领域大模型训练语料，并将语料质量评估结果分享到内外部专家，从而帮助科学领域大模型训练提供高质量语料数据，提高科学领域大模型准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据可视化，具体涉及一种面向科学领域大模型训练语料的可视化方法和系统。

技术介绍

1、近年来，大语言模型在科学领域（ai4science，涵盖地质学、天文学、生物学等）的应用迅速崛起，成为推动科学研究与发现的关键力量，其能力主要取决于数据、算力和算法三大要素，其中数据是核心且基础性的因素，数据的质量和数量对大模型能力的提升至关重要。

2、科学领域大模型训练数据通常源自包含富文本内容（如文本、表格、公式、图片、列表、参考文献等）的pdf文档。然而，大模型无法直接解读pdf文档内容，需依赖ocr技术将其转化为易于大模型训练的markdown格式语料，这一转化过程需要确保markdown格式语料的质量与准确性，以最大化提升模型性能，避免负面影响。

3、目前，markdown格式训练语料的评估主要依赖人工对比，但这一方式效率低下，因为markdown格式对人类阅读并不友好，特别是科学领域大模型训练语料中的markdown文本，它们由grobid、nougat等ocr技术从pdf中解析而来，具有两大特点：一是...

【技术保护点】

1.一种面向科学领域大模型训练语料的可视化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向科学领域大模型训练语料的可视化方法，其特征在于，所述在服务端将从对象存储服务器获取的markdown格式的科学领域大模型训练语料分段流式传输到客户端，包括：

3.根据权利要求1所述的面向科学领域大模型训练语料的可视化方法，其特征在于，所述在客户端对接收到的markdown格式的科学领域大模型训练语料中的富文本内容进行解析和渲染得到还原结果，包括：

4.根据权利要求3所述的面向科学领域大模型训练语料的可视化方法，其特征在于，markdown抽象语法树中...

【技术特征摘要】

1.一种面向科学领域大模型训练语料的可视化方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的面向科学领域大模型训练语料的可视化方法，其特征在于，markdown抽象语法树中每个节点包含四个属性：类型、值、深度和孩子节点列表，树中节点间的关系包括用json中的数组表示的兄弟关系和用json中的父子键值对表示的父子关系。

5.根据权利要求3所述的面向科学领域大模型训练语料的可视化方法，其特征在于，预处理包括：过滤删除ocr算法在将pdf原文解析为markdown语料过程中加入的标识性内容。

6.根据权利要求3所述的面向科学领域大模型训练语料的可视...

【专利技术属性】
技术研发人员：苗宇，罗实，张德文，杨林瑶，陈红阳，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人