基于多级分类标引的公文文档智能切片处理方法及系统技术方案

技术编号:46411110 阅读:6 留言:0更新日期:2025-09-16 19:58
本发明专利技术公开了基于多级分类标引的公文文档智能切片处理方法及系统,涉及公文文档切片处理技术领域,包括通过API接口获取公文文档的扫描件进行预处理,得到图像页面;使用PyTorch加载Swin‑B模型,并将图像页面作为输入,输出特征图进行划分,并定义为条带,利用平均池化操作压缩条带的高度维度,并结合L2范数计算条带的横向特征密度,使用网格生成法生成条带内像素点坐标,并通过poly2mask函数生成条带的空间掩膜,结合指示函数进行像素点筛选,计算距离权重,并构建加权核函数后结合特征密度,筛选有效条带;本发明专利技术显著提升了切片结果的完整性与准确性。

【技术实现步骤摘要】

本专利技术涉及公文文档切片处理,特别是基于多级分类标引的公文文档智能切片处理方法及系统


技术介绍

1、随着政务信息化建设的深入推进,海量公文文档以扫描图像形式在政务平台、政务服务网站及档案数字化系统中不断积累,这些文档具有格式多样、结构复杂、内容逻辑严谨的特点,其智能解析、结构化抽取及语义重构成为当前政务大数据管理中的关键环节之一,近年来,基于光学字符识别与自然语言处理技术的文档识别方法逐渐应用于政务文档的数字化流程中,尤其以tesseract、paddleocr的开源引擎为代表,结合图像预处理与规则引擎,在提升文本识别精度方面取得一定成果,同时,随着深度学习技术的发展,transformer类模型已在文档分类、篇章结构分析等任务中得到广泛应用,视觉transformer也逐步在图像语义识别中展现出卓越能力,推动了图文融合理解技术在结构化文档处理中的深入研究。

2、而现有的公文文档智能切片处理方法,依赖启发式规则或简单概率模型生成标签序列,未引入状态转移约束(如“标题”后需接“正文”而非“结尾”),导致分类结果逻辑混乱,并且依赖固定相似度阈值本文档来自技高网...

【技术保护点】

1.基于多级分类标引的公文文档智能切片处理方法,其特征在于:包括,

2.如权利要求1所述的基于多级分类标引的公文文档智能切片处理方法,其特征在于:所述提取视觉与文本特征向量进行拼接指使用Tesseract OCR提取候选边界框中的文本内容,并进行汇总,得到全局文本集合;

3.如权利要求2所述的基于多级分类标引的公文文档智能切片处理方法,其特征在于:所述使用余弦相似度计算概率分布相似度和基础值,利用Viterbi算法结合基础值进行优化,得到最优标签序列指使用余弦相似度公式,计算概率分布间的相似度,并使用网格搜索法设定权重后,再使用随机数生成器随机生成随机值,结合权重...

【技术特征摘要】

1.基于多级分类标引的公文文档智能切片处理方法,其特征在于:包括,

2.如权利要求1所述的基于多级分类标引的公文文档智能切片处理方法,其特征在于:所述提取视觉与文本特征向量进行拼接指使用tesseract ocr提取候选边界框中的文本内容,并进行汇总,得到全局文本集合;

3.如权利要求2所述的基于多级分类标引的公文文档智能切片处理方法,其特征在于:所述使用余弦相似度计算概率分布相似度和基础值,利用viterbi算法结合基础值进行优化,得到最优标签序列指使用余弦相似度公式,计算概率分布间的相似度,并使用网格搜索法设定权重后,再使用随机数生成器随机生成随机值,结合权重和相似度,计算基础值;

4.如权利要求3所述的基于多级分类标引的公文文档智能切片处理方法,其特征在于:所述计算每个子词的相似度,定义为注意力值进行聚类指将相似度组合为查询向量;

5.如权利要求4所述的基于多级分类标引的公文文档智能切片处理方法,其特征在于:所述生成段落切片点,并进行子词组合,得到切片后的文本内容指提取聚类结果中的子词,并按照原文字序列进行排列,依次检查子词所属的聚类标签是否与前一个子词相同,若不相同,记录...

【专利技术属性】
技术研发人员:冯洋张琦景重阳黄肖祥卢纯青游文强金腾
申请(专利权)人:湖北智凌数码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1