System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种PDF文档智能识别标注系统技术方案_技高网

一种PDF文档智能识别标注系统技术方案

技术编号:39975657 阅读:7 留言:0更新日期:2024-01-09 01:07
本发明专利技术涉及PDF文档处理领域,提供一种PDF文档智能识别标注系统,包括管理员模块、单位管理模块、标注员模块、PDF标注模块、光学字符识别模块和数据结构化模块;通过OCR识别和自然语言识别技术自动处理标注内容及图片并生成结构化数据,使标注后的定量结构数据可直接用于业务后续场景,无须人工处理标注内容;提供灵活的指标选择功能,可以满足不同场景下的标注需求;通过解析标注内容中的数值和单位,按照业务模型,自动形成结构化的数据,包括数值和单位,年份等所有需求方自定义的结构化字段;制定多重校验逻辑,对用户标注所形成的结构化数据进行校验,降低人工标注可能带来的误差。

【技术实现步骤摘要】

本专利技术涉及的主要包括电子数据处理、图像识别、人工智能以及pdf文档处理,这些涵盖了从pdf文档中提取特定指标、自动识别截图内容、生成结构化数据以及数据处理等方面的技术,具体地说是一种pdf文档智能识别标注系统。


技术介绍

1、pdf文档智能识别标注是指通过计算机视觉和自然语言处理技术,自动识别pdf文档中的内容,并根据内容的类型、语义和结构添加标注、注释或元数据信息的过程;pdf文档智能识别标注可以帮助用户更轻松地理解和管理pdf文档,提高文档的可用性和可搜索性。

2、现有技术在对pdf文件进行标注时,有以下几个缺点:

3、1.无法选择指标:现有的pdf标注软件,不支持选择指标,只能用户自己整理标注内容,这种方法的效率低下,尤其是在处理大量数据时,会浪费大量时间和精力。

4、2.出错率高:手动标注容易引入误差,尤其是在需要精确标注数值和单位时,这种误差可能来自于手动添加、手动识别等环节。

5、3.无法自动识别截图内容:现有技术无法准确地自动识别用户截取的图片内容,这限制了pdf文档标注的准确性和效率。

6、4.缺乏智能生成结构化数据的功能:现有技术无法自动将用户截取的图片内容转化为结构化数据,包括数值和单位,这使得数据处理和整理的效率低下。

7、其中中国专利公告号为:cn116070602a,公开了一种pdf文档智能标注与抽取方法,其步骤包括:1)利用文本抽取模块抽取pdf文档中的文字信息和文字位置坐标;2)利用智能标注模型对抽取出的所述文字信息进行标注;3)利用标注回显模块将实体信息和实体关系信息使用统一的格式放入数据库中并在pdf文档上回显,并根据预先定义的知识本体进行标注筛选;31)定义知识本体和关系;32)对定义的实体名和关系名进行向量化,基于向量的余弦相似度计算每一个名称对应的智能标注模型中标出的实体和关系;33)根据从pdf文档抽取的文字和文字坐标信息,将筛选出的实体和关系定位到在pdf上;34)在原始pdf上建立一个智能标注层,标注出实体类别和关系类别;上述专利技术能直接从pdf文档中抽取信息,训练模型,且使用主动学习的思想对不同科研领域进行领域模型训练并在原始pdf格式上进行结果回显;但上述专利技术仍然不具备智能生成结构化数据的功能,数据处理和整理的效率较低。

8、综上,因此本专利技术提供了一种pdf文档智能识别标注系统,以解决上述问题。


技术实现思路

1、本专利技术提供了一种pdf文档智能识别标注系统,通过结合图像识别和人工智能技术,开发了一种能够选择指标对pdf文档标注和截图,自动使用ocr技术在线识别截图内容,并使用自然语言识别技术智能生成结构化数据的标注系统,以解决现有技术中缺少智能生成结构化数据的功能等问题。

2、本专利技术的具体技术方案如下:

3、一种pdf文档智能识别标注系统,包括:

4、管理员模块,所述管理员模块用于进行标注任务的分配和管理,管理员可使用该模块进行标注任务的分配和管理,包括筛选任务、指定标注员、设置截止日期等;

5、单位管理模块,所述单位管理模块用于对pdf文档中的数值进行单位换算,管理员可使用该模块对pdf文档中的数值进行单位换算,可以将标注员标注时所产生的不同单位通过定义转换系数进行定量数据的转换,比如千港元、美元、港元分别定义837.33、6.5412、0.83733系数,转换成元;

6、标注员模块,所述标注员模块用于显示标注任务,标注员可在该模块中查看管理员分配给自己的标注任务及任务状态,任务数量,已标注的指标数量等;

7、pdf标注模块,所述pdf标注模块用于进行内容标注和截取pdf图片,标注员根据指标列表选择相应的指标在pdf文档进行内容标注或截图操作选取pdf文档中的内容;

8、光学字符识别模块,所述光学字符识别模块用于识别图片中的文字,并将识别的文字提取成文本内容,该模块通过光学字符识别(ocr)技术自动识别操作员截取的pdf区域的图片,并把图片中的内容提取成文本内容;

9、数据结构化模块,所述数据结构化模块用于智能生成结构化数据,该模块对pdf标注的文本内容或经过ocr识别提取的文本内容利用自然语言处理(nlp)技术,包括分词、实体识别、规则标记、关键字提取等技术,智能分析与处理文本,生成结构化数据,特别对于定量数据可以结构化,包括数值和单位等信息。

10、邮件模块,所述邮件模块用于生成和发送含有标注任务数量的邮件;

11、用户界面模块,所述用户界面模块用于生成用户操作界面,包括导航栏和分类选项,所述导航栏包括“报告列表”、“我的报告”和“单位管理”,所述分类选项包括“公司状态”、“报告时间”和“报告状态”;

12、所述pdf文档智能识别标注系统模块之间的功能交互关系如下:

13、所述管理员模块向标注员模块发送标注任务信息,所述标注员模块选择目标任务后进入pdf标注模块进行具体的标注操作,所述pdf标注模块将截取的图片发送给光学字符识别模块进行自动识别,所述光学字符识别模块将自动识别的文本内容发送给数据结构化模块,所述邮件模块发送的邮件在标注员模块中显示,所述用户界面模块将其他模块的内容可视化。

14、优选的一种技术方案,所述pdf文档智能识别标注系统还包括权限管理模块,所述权限管理模块用于管理用户的访问和操作权限,管理员可以管理用户和工作组的权限,以确保只有授权人员可以访问和管理标注任务信息。

15、优选的一种技术方案,所述管理员模块包括:

16、任务创建单元,所述任务创建单元用于创建标注任务,管理员可以创建新的标注任务,指定任务的类型、优先级、截止日期和相关信息,标注任务可以分配给系统的用户或特定的工作组;

17、任务监督单元,所述任务监督单元用于监督标注任务执行情况,管理员可以实时监督任务的执行情况,以便管理员随时了解任务的状态;

18、任务优先级管理单元,所述任务优先级管理单元用于对不同的标注任务设置不同的优先级,管理员可以为不同任务设置不同的优先级,以确保重要任务得到及时处理;

19、任务分配单元,所述任务分配单元用于分配标注任务,管理员可以根据需要将任务分配给不同的用户或工作组,或者重新分配任务以适应工作负荷和时间表;

20、任务报告单元,所述任务报告单元用于生成和分析标注任务报告,管理员可以查看任务完成情况的详细报告,以便进行绩效评估和决策制定;

21、历史记录单元,所述历史记录单元用于记录标注任务的历史信息,包括任务创建、分配、完成和修改记录,以便审计和追溯;

22、任务搜索和过滤单元,所述任务搜索和过滤单元用于查找和筛选特定类型的标注任务,管理员可以使用搜索和过滤功能来查找特定类型的任务或根据不同的标准进行任务筛选;

23、管理员模块的设计旨在提高任务管理的效率和透明度,以确保任务能够按时完成,为用户提供本文档来自技高网...

【技术保护点】

1.一种PDF文档智能识别标注系统,其特征在于,包括:

2.如权利要求1所述一种PDF文档智能识别标注系统,其特征在于,所述PDF文档智能识别标注系统还包括权限管理模块,所述权限管理模块用于管理用户的访问和操作权限。

3.如权利要求1所述一种PDF文档智能识别标注系统,其特征在于,所述管理员模块包括:

4.如权利要求1所述一种PDF文档智能识别标注系统,其特征在于,所述标注员模块包括:

5.如权利要求1所述一种PDF文档智能识别标注系统,其特征在于,所述PDF标注模块包括:

6.如权利要求1所述一种PDF文档智能识别标注系统,其特征在于,所述光学字符识别模块包括:

7.如权利要求1所述一种PDF文档智能识别标注系统,其特征在于,所述数据结构化模块包括:

8.如权利要求7所述一种PDF文档智能识别标注系统,其特征在于,所述文本预处理单元包括:

9.如权利要求7所述一种PDF文档智能识别标注系统,其特征在于,所述信息提取单元包括:

【技术特征摘要】

1.一种pdf文档智能识别标注系统,其特征在于,包括:

2.如权利要求1所述一种pdf文档智能识别标注系统,其特征在于,所述pdf文档智能识别标注系统还包括权限管理模块,所述权限管理模块用于管理用户的访问和操作权限。

3.如权利要求1所述一种pdf文档智能识别标注系统,其特征在于,所述管理员模块包括:

4.如权利要求1所述一种pdf文档智能识别标注系统,其特征在于,所述标注员模块包括:

5.如权利要求1所述一种pdf...

【专利技术属性】
技术研发人员:殷格非孔庆涛陈立杰康勃
申请(专利权)人:北京一标数字科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1