基于融合视觉信息的文档目录智能生成方法及系统技术方案

技术编号：37345115 阅读：7 留言：0更新日期：2023-04-22 21:37

本发明专利技术涉及基于融合视觉信息的文档目录智能生成方法及系统，包括对上传的文件进行文本视觉识别，得到视觉信息；视觉信息包括文本行信息及坐标；将视觉信息输入第一文本分类模型，输出目标换行标签；根据目标换行标签对文本行信息进行段落版式复原，得到文档段落信息；基于文档段落信息进行文档目录识别并判断是否存在目录；若是，则将文档段落信息中的目录删除得到目标文档；若否，则将文档段落信息作为目标文档；基于目标文档进行目录标题识别，得到初定目录标题信息；将初定标题信息输入第二文本分类模型，以验证初定目录标题信息中的各目录标题是否均为标题标签；若是，则将初定目录标题信息进行目录结构化输出。本发明专利技术的目录生成准确度高。的目录生成准确度高。的目录生成准确度高。

全部详细技术资料下载

【技术实现步骤摘要】
基于融合视觉信息的文档目录智能生成方法及系统

[0001]本专利技术属于数据处理
，具体涉及基于融合视觉信息的文档目录智能生成方法及系统。

技术介绍

[0002]随着信息技术的迅速发展，每天都会产生大量的不同格式的文档，例如：Word文档、PDF文档、图片格式的文档，甚至是纸质文档。在阅读这些文档时，常常会使用目录来筛选或快速定位所需要的信息。但是实际中大多数的文档没有目录信息，此时如果依靠人工来手动生成，会耗费一定的时间成本，尤其是某一级标题下存在很多子标题的情况下，时间成本会线性增长。因此，亟需一种能快速准确的生成文档目录的方法，在保证准确性的前提下提高目录生成的效率。
[0003]近年来，随着计算机视觉和自然语言处理算法的突飞猛进，利用自然语言处理技术和计算机视觉相结合的算法来进行文档识别和理解成为趋势。基于此，提出了利用人工智能算法来对文档中目录智能识别并结构化的方法。目前，现有的目录自动生成技术主要有以下两种方式：
[0004]第一种方式只利用自然语言处理技术对文档的文本信息进行目录的识别，例如申请号分别为CN202210724595.X、CN201810717480.1、CN201910973998.6、CN202111420845.2公开的目录识别技术。该方式包含两种识别方案，一种方案首先确认文件目录的存在，通过对存在的多个目录页文本内容进行识别，得到目录的版式信息；然后对目录的版式信息进行去噪、分栏、去重等一系列操作得到目录结构。如果目录不存在，通过一些文件协议对字体的样式、粗细...

【技术保护点】

【技术特征摘要】
1.基于融合视觉信息的文档目录智能生成方法，其特征在于，包括以下步骤：S1、对上传的文件进行文本视觉识别，得到视觉信息；其中，视觉信息包括文本行信息及文本坐标；S2、将视觉信息输入第一文本分类模型，以输出目标换行标签；根据目标换行标签对文本行信息进行段落版式复原，得到文档段落信息；S3、基于文档段落信息进行文档目录识别并判断是否存在目录；若是，则将文档段落信息中的目录删除得到目标文档；若否，则将文档段落信息作为目标文档；S4、基于目标文档进行目录标题识别，得到初定目录标题信息；将初定标题信息输入第二文本分类模型，以验证初定目录标题信息中的各目录标题是否均为标题标签；若是，则转至步骤S5；S5、将初定目录标题信息进行目录结构化输出。2.根据权利要求1所述的基于融合视觉信息的文档目录智能生成方法，其特征在于，所述步骤S1中，利用OCR文本识别对上传的文件进行文本视觉识别。3.根据权利要求1所述的基于融合视觉信息的文档目录智能生成方法，其特征在于，所述第一文本分类模型为BERT模型；其中，第一文本分类模型的换行标签有四个：第一换行标签代表在文本行的开始位置添加换行符，作为段落的开始行；第二换行标签代表在文本行的末尾位置添加换行符，作为段落的结束行；第三换行标签代表在文本行的开始位置和末尾位置均添加换行符，作为单独的段落；第四换行标签代表文本行无需添加换行符，作为段落的正文行。4.根据权利要求1所述的基于融合视觉信息的文档目录智能生成方法，其特征在于，所述步骤S3中，文档目录识别的过程包括：将文档段落信息与目录标题规则库进行匹配，识别连续M行的目录标题；若每个目录标题在文档段落信息全文中出现的次数都大于1次，则将第一次出现的目录标题及其在全文中第二次出现的位置中间的内容识别为目录，其他部分的内容为正文；其中，M为大于5的整数。5.根据权利要求4所述的基于融合视觉信息的...

【专利技术属性】
技术研发人员：马富欣，
申请(专利权)人：杭州实在智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人