基于图像识别的文档解析方法、系统、装置及存储介质制造方法及图纸

技术编号:28942840 阅读:13 留言:0更新日期:2021-06-18 21:50
本发明专利技术涉及人工智能,提供一种基于图像识别的文档解析方法、系统、装置及存储介质,其中的方法对待解析文档进行预处理,以将待解析文档中的图像信息转换为文字信息;对预处理后的待解析文档进行初步解析,以将预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;基于各类型材料的标题确定预处理后的待解析文档的文档类型,并通过文档类型对预设的要素标签因子体系表进行查询,以获取与文档类型相对应的关键要素标签;基于关键要素标签,对预处理后的待解析文档进行要素提取,以提取关键解析要素,并根据关键解析要素形成关键要素表。本发明专利技术提供的技术方案既能够解决人工阅读文档、解析要素工作效率低的问题。

【技术实现步骤摘要】
基于图像识别的文档解析方法、系统、装置及存储介质
本专利技术涉及人工智能
,尤其涉及一种基于图像识别的文档解析方法、系统、装置及存储介质。
技术介绍
在现实生活中,对于一些文档,需要审阅人耐心地阅读其内容,以提取文档中的所需要素,实现对该类文件的人工解析;例如,在案件审理过程中,法官为了快速有效准确地审理案件,在对案件进行审理时,通常会对影响案件定性的关键要素及影响案件审理的程序性事项进行重点关注。然而,由于具体案例的细节各不相同,每个审理的案件之间都存在差异,这就意味着需要法官在每对一个案件进行审理时,都需要翻阅所有的案件材料(文档)进行仔细阅读,并对案件材料中的每个要素进行审核。显然,这样的操作会耗费法官大量的时间,工作效率低下。此外,由于在当前的文档解析(案件审理)过程中,审阅人(法官)人数都是有限的,因此几乎所有的审阅人都面临着案多、人少的处境。经实际统计显示,针对大部分案件来讲,案件需要阅读的主要核心要素(如当事人信息、诉讼请求、案件事实等)都是相较固定的,因此,对于一个案件来讲,法官的大部分阅卷工作都是重复且相似的。相对应地,对于一些类似的场景,如,理赔纠纷案件审理、文档保存查询等一系列文档查阅场景,均会遇到相同或相似的问题。基于以上技术问题,为节约审阅人员的阅卷时间,提高审阅人的审判质效,亟需一种高效的案件文档要素的自动解析方法。
技术实现思路
本专利技术提供一种基于图像识别的文档解析方法、系统、电子装置以及计算机存储介质,其主要目的在于解决人工阅读文档、解析要素工作效率低的问题。为实现上述目的,本专利技术提供一种基于图像识别的文档解析方法,该方法包括如下步骤:对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息;对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;基于各类型材料的标题确定所述预处理后的待解析文档的文档类型,并通过所述文档类型对预设的要素标签因子体系表进行查询,以获取与所述文档类型相对应的关键要素标签;基于所述关键要素标签,对所述预处理后的待解析文档进行要素提取,以提取关键解析要素,并根据所述关键解析要素形成关键要素表。对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息的过程包括:对所述待解析文档进行图像文字检测,以确定所述待解析文档中的文字区域;对所述文字区域进行文字识别,以将所述文字区域内的图像信息转换为文字信息。优选地,对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题的过程包括:通过预设切分模型对所述预处理后的待解析文档进行材料切分,以确定所述预处理后的待解析文档的各页的所属材料位置;其中,所述所属材料位置包括材料开始、材料中间以及材料结尾;基于各页的所属材料位置将所述预处理后的待解析文档切分为至少一个类型材料;通过预设的标题检出模型对各类型材料进行处理,以确定各类型材料的标题。优选地,通过预设切分模型对所述预处理后的待解析文档进行材料切分,以确定所述预处理后的待解析文档的各页的所属材料位置的过程包括:通过所述预设切分模型提取所述预处理后的待解析文档中各页的首尾行的行文字和行位置;将所述行文字和所述行位置进行特征提取,以获取与所述行文字对应的序列特征以及与所述行位置对应的位置特征;基于所述序列特征和所述位置特征确定所述预处理后的待解析文档的各页的所属材料位置。优选地,将所述行文字和所述行位置进行特征提取,以获取与所述行文字对应的序列特征以及与所述行位置对应的位置特征的过程包括:通过预设的WordEmbedding词嵌入模型对所述行文字进行语义表征,以将所述行文字转为数值型特征,并通过预设的LSTM网络对所述数值型特征进行序列特征提取,以提取与所述行文字对应的序列特征;通过预设的fullconnectedNetwork模型对所述行位置进行特征提取,以提取所述行位置对应的位置特征。优选地,基于所述序列特征和所述位置特征确定所述预处理后的待解析文档的各页的所属材料位置的过程包括;对所述序列特征和所述位置特征进行组合,以形成组合序列特征;将所述组合序列特征输入至预设的序列标注模型;所述序列标注模型输出相应的各页的所属材料位置;其中,所述序列标注模型的输出结果包括B、I、E以及S;其中,B为所述所属材料的起始页,I为所述所属材料中间页,E为所述所属材料结束页,S指所述所属材料为单页材料。优选地,基于所述关键要素标签,对所述预处理后的待解析文档进行要素提取,以提取关键解析要素的过程包括:基于所述关键要素标签通过命名实体识别方法提取所述预处理后的待解析文档中的实体型关键要素;并且,基于所述关键要素标签通过预设的正则表达式提取所述预处理后的待解析文档中的结构型关键要素。另一方面,本专利技术还提供一种基于图像识别的文档解析系统,一种基于图像识别的文档解析系统,其特征在于,所述系统包括:预处理单元,用于对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息;初步解析单元,用于对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;标签查询单元,用于基于各类型材料的标题确定所述预处理后的待解析文档的文档类型,并通过所述文档类型对预设的要素标签因子体系表进行查询,以获取与所述文档类型相对应的关键要素标签;要素提取单元,用于基于所述关键要素标签,对所述预处理后的待解析文档进行要素提取,以提取关键解析要素,并根据所述关键解析要素形成关键要素表。另一方面,本专利技术还提供一种电子装置,所述电子装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的基于图像识别的文档解析程序,所述基于图像识别的文档解析程序被所述处理器执行时实现如下步骤:对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息;对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;基于各类型材料的标题确定所述预处理后的待解析文档的文档类型,并通过所述文档类型对预设的要素标签因子体系表进行查询,以获取与所述文档类型相对应的关键要素标签;基于所述关键要素标签,对所述预处理后的待解析文档进行要素提取,以提取关键解析要素,并根据所述关键解析要素形成关键要素表。此外,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有基于图像识别的文档解析程序,所述基于图像识别的文档解析程序被处理器执行时,实现前述的基于图像识别的文档解析方法中的步骤。本专利技术提出的基于图像识别的文档解析方法、电子装置及计算机可读存储介质,通过自行设计一套案件卷宗解析方法,比起本文档来自技高网...

【技术保护点】
1.一种基于图像识别的文档解析方法,应用于电子装置,其特征在于,所述方法包括:/n对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息;/n对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;/n基于各类型材料的标题确定所述预处理后的待解析文档的文档类型,并通过所述文档类型对预设的要素标签因子体系表进行查询,以获取与所述文档类型相对应的关键要素标签;/n基于所述关键要素标签,对所述预处理后的待解析文档进行要素提取,以提取关键解析要素,并根据所述关键解析要素形成关键要素表。/n

【技术特征摘要】
1.一种基于图像识别的文档解析方法,应用于电子装置,其特征在于,所述方法包括:
对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息;
对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;
基于各类型材料的标题确定所述预处理后的待解析文档的文档类型,并通过所述文档类型对预设的要素标签因子体系表进行查询,以获取与所述文档类型相对应的关键要素标签;
基于所述关键要素标签,对所述预处理后的待解析文档进行要素提取,以提取关键解析要素,并根据所述关键解析要素形成关键要素表。


2.根据权利要求1所述的基于图像识别的文档解析方法,其特征在于,对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息的过程包括:
对所述待解析文档进行图像文字检测,以确定所述待解析文档中的文字区域;
对所述文字区域进行文字识别,以将所述文字区域内的图像信息转换为文字信息。


3.根据权利要求1所述的基于图像识别的文档解析方法,其特征在于,对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题的过程包括:
通过预设切分模型对所述预处理后的待解析文档进行材料切分,以确定所述预处理后的待解析文档的各页的所属材料位置;其中,所述所属材料位置包括材料开始、材料中间以及材料结尾;
基于各页的所属材料位置将所述预处理后的待解析文档切分为至少一个类型材料;
通过预设的标题检出模型对各类型材料进行处理,以确定各类型材料的标题。


4.根据权利要求3所述的基于图像识别的文档解析方法,其特征在于,通过预设切分模型对所述预处理后的待解析文档进行材料切分,以确定所述预处理后的待解析文档的各页的所属材料位置的过程包括:
通过所述预设切分模型提取所述预处理后的待解析文档中各页的首尾行的行文字和行位置;
对所述行文字和所述行位置进行特征提取,以获取与所述行文字对应的序列特征以及与所述行位置对应的位置特征;
基于所述序列特征和所述位置特征确定所述预处理后的待解析文档的各页的所属材料位置。


5.根据权利要求4所述的基于图像识别的文档解析方法,其特征在于,对所述行文字和所述行位置进行特征提取,以获取与所述行文字对应的序列特征以及与所述行位置对应的位置特征的过程包括:
通过预设的WordEmbedding词嵌入模型对所述行文字进行语义表征,以将所述行文字转为数值型特征,并通过预设的LSTM网络对所述数值型特征进行序列特征提取,以提取与所述行文字对应的序列特征;
通过预设的fullconnectedNetwork模型对所述行位置进行特征提取,以提取所述行位置对应的位置特征。


...

【专利技术属性】
技术研发人员:钟召昌
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1