【技术实现步骤摘要】
本专利技术涉及公文文档切片处理,特别是基于多级分类标引的公文文档智能切片处理方法及系统。
技术介绍
1、随着政务信息化建设的深入推进,海量公文文档以扫描图像形式在政务平台、政务服务网站及档案数字化系统中不断积累,这些文档具有格式多样、结构复杂、内容逻辑严谨的特点,其智能解析、结构化抽取及语义重构成为当前政务大数据管理中的关键环节之一,近年来,基于光学字符识别与自然语言处理技术的文档识别方法逐渐应用于政务文档的数字化流程中,尤其以tesseract、paddleocr的开源引擎为代表,结合图像预处理与规则引擎,在提升文本识别精度方面取得一定成果,同时,随着深度学习技术的发展,transformer类模型已在文档分类、篇章结构分析等任务中得到广泛应用,视觉transformer也逐步在图像语义识别中展现出卓越能力,推动了图文融合理解技术在结构化文档处理中的深入研究。
2、而现有的公文文档智能切片处理方法,依赖启发式规则或简单概率模型生成标签序列,未引入状态转移约束(如“标题”后需接“正文”而非“结尾”),导致分类结果逻辑混乱,并
...【技术保护点】
1.基于多级分类标引的公文文档智能切片处理方法,其特征在于:包括,
2.如权利要求1所述的基于多级分类标引的公文文档智能切片处理方法,其特征在于:所述提取视觉与文本特征向量进行拼接指使用Tesseract OCR提取候选边界框中的文本内容,并进行汇总,得到全局文本集合;
3.如权利要求2所述的基于多级分类标引的公文文档智能切片处理方法,其特征在于:所述使用余弦相似度计算概率分布相似度和基础值,利用Viterbi算法结合基础值进行优化,得到最优标签序列指使用余弦相似度公式,计算概率分布间的相似度,并使用网格搜索法设定权重后,再使用随机数生成器随机
...【技术特征摘要】
1.基于多级分类标引的公文文档智能切片处理方法,其特征在于:包括,
2.如权利要求1所述的基于多级分类标引的公文文档智能切片处理方法,其特征在于:所述提取视觉与文本特征向量进行拼接指使用tesseract ocr提取候选边界框中的文本内容,并进行汇总,得到全局文本集合;
3.如权利要求2所述的基于多级分类标引的公文文档智能切片处理方法,其特征在于:所述使用余弦相似度计算概率分布相似度和基础值,利用viterbi算法结合基础值进行优化,得到最优标签序列指使用余弦相似度公式,计算概率分布间的相似度,并使用网格搜索法设定权重后,再使用随机数生成器随机生成随机值,结合权重和相似度,计算基础值;
4.如权利要求3所述的基于多级分类标引的公文文档智能切片处理方法,其特征在于:所述计算每个子词的相似度,定义为注意力值进行聚类指将相似度组合为查询向量;
5.如权利要求4所述的基于多级分类标引的公文文档智能切片处理方法,其特征在于:所述生成段落切片点,并进行子词组合,得到切片后的文本内容指提取聚类结果中的子词,并按照原文字序列进行排列,依次检查子词所属的聚类标签是否与前一个子词相同,若不相同,记录...
【专利技术属性】
技术研发人员:冯洋,张琦,景重阳,黄肖祥,卢纯青,游文强,金腾,
申请(专利权)人:湖北智凌数码科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。