【技术实现步骤摘要】
本专利技术涉及文档数据处理领域,具体涉及一种基于布局感知的文档合成方法及装置。
技术介绍
1、文档智能理解通过布局分析、目标检测、图像处理等技术,可以自动识别、分类和提取文档中的不同元素,理解文档中的语义和结构信息,推断出文档的意图和主题,并将其归纳为有用的知识和信息。随着信息爆炸式增长和大量数字化文档的产生,智能化地快速理解和利用文档内容变得越来越重要。传统的文本处理方法往往需要人工参与,耗时且容易出错。而文档智能理解技术能够自动地分析和理解文档内容,从中提取有用信息,提供高效的文档处理和管理方案。
2、但是在该技术研究过程中,存在着一些挑战和问题,比如:大数据依赖、结构和语义理解能力不足等。其中,大数据依赖是当前深度学习模型的共性问题。虽然现在有很多公开数据资源,但他们在内容和布局上存在较强的局限性,且数据量和多样性仍然欠缺,限制了文档智能理解研究领域的研究发展。此外,由于文档智能理解涵盖了多个任务和应用场景,不同任务和场景的数据需求也可能不同。但是搜集或构建丰富的真实文档需要大量的人力、物力等资源来支撑。因此,高真实度
...【技术保护点】
1.一种基于布局感知的文档合成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的方法,其特征在于,对生成的初始布局进行质量评估的步骤包括:
3.如权利要求2所述的方法,其特征在于,综合评价指标Q(L)的计算式如下:
4.如权利要求1所述的方法,其特征在于,对可用布局结构进行布局自动校正的步骤包括:对于单列布局,其自动校正步骤包括:
5.如权利要求1所述的方法,其特征在于,使用Python中的reportlab库来创建文档融合模板,按照元素的类别属性添加布局元素,根据元素的数值几何属性控制布局元素大小和位置。
...【技术特征摘要】
1.一种基于布局感知的文档合成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的方法,其特征在于,对生成的初始布局进行质量评估的步骤包括:
3.如权利要求2所述的方法,其特征在于,综合评价指标q(l)的计算式如下:
4.如权利要求1所述的方法,其特征在于,对可用布局结构进行布局自动校正的步骤包括:对于单列布局,其自动校正步骤包括:
5.如权利要求1所述的方法,其特征在于,使用python中的reportlab库来创建文档融合模板,按照元素的类别属性添加布局元素,根据元素的数值几何属性控制布局元素大小和位置。
6.如权利要求1所述的方法,其特征在于,目标输入约束与样本输入约束相同,包括字符个数、语言类型、文本主题...
【专利技术属性】
技术研发人员:李全刚,柳厅文,张志珂,郭一涵,黄琨,袁明欢,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。