一种面向矿山行业大模型的文本数据去噪方法技术

技术编号:44546456 阅读:19 留言:0更新日期:2025-03-11 14:11
本申请提出一种面向矿山行业大模型的文本数据去噪方法,包括:确定知识文档中首页的排版状态;其中,知识文档是矿山行业知识库中的文档;确定知识文档的页眉坐标、知识文档中首页的页脚坐标及非首页的页脚坐标;根据页眉坐标和首页的页脚坐标,结合首页的排版状态,对首页进行裁剪,以使裁剪后的首页中只包含正文;根据页眉坐标和非首页的页脚坐标,对非首页进行裁剪,以使裁剪后的非首页中只包含正文。该方法可以剔除矿山行业知识库中的噪音数据,提升煤炭行业知识库的质量与准确性,提升煤炭行业高质量文本数据集的质量,减少噪音数据对模型性能的影响。

【技术实现步骤摘要】

本申请涉及矿山行业数据处理,尤其涉及一种面向矿山行业大模型的文本数据去噪方法


技术介绍

1、随着煤炭行业的快速发展和数字化转型的深入,煤炭行业知识库、行业文本高质量数据集的建设与应用变得日益重要。知识库作为存储、管理和利用行业知识的重要载体,对于提升煤炭企业的决策效率、优化生产流程、推动技术创新等方面具有不可替代的作用。

2、然而,由于数据来源的多样性、数据格式的复杂性等,不可避免地会混入各种噪音数据,会严重影响知识库的质量与准确性。因此,如何有效地剔除煤炭行业知识库中的噪音数据,提升知识库的质量与准确性、提升文本数据集的质量,是当前煤炭行业数字化转型过程中亟待解决的问题。


技术实现思路

1、本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此,本申请的第一个目的在于提出一种面向矿山行业大模型的文本数据去噪方法。

3、本申请的第二个目的在于提出一种面向矿山行业大模型的文本数据去噪装置。

4、本申请的第三个目的在于提出一种电子设备。

5本文档来自技高网...

【技术保护点】

1.一种面向矿山行业大模型的文本数据去噪方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,所述确定知识文档中首页的排版状态,包括:

3.如权利要求2所述的方法,其特征在于,所述首页图像的尺寸包括所述首页图像的长度和所述首页图像的宽度,所述根据所述首页底部的图像坐标及首页图像的尺寸,确定所述首页图像的裁剪范围,包括:

4.如权利要求2所述的方法,其特征在于,所述根据所述水平坐标直方图,确定所述首页的排版状态,包括:

5.如权利要求1所述的方法,其特征在于,确定所述知识文档的页眉坐标,包括:

<p>6.如权利要求1...

【技术特征摘要】

1.一种面向矿山行业大模型的文本数据去噪方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,所述确定知识文档中首页的排版状态,包括:

3.如权利要求2所述的方法,其特征在于,所述首页图像的尺寸包括所述首页图像的长度和所述首页图像的宽度,所述根据所述首页底部的图像坐标及首页图像的尺寸,确定所述首页图像的裁剪范围,包括:

4.如权利要求2所述的方法,其特征在于,所述根据所述水平坐标直方图,确定所述首页的排版状...

【专利技术属性】
技术研发人员:孙闯程健骆意杨培培贾琨周子博宋郑一凡方乾
申请(专利权)人:煤炭科学研究总院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1