一种标准文档数据的提取方法及装置制造方法及图纸

技术编号:35479156 阅读:16 留言:0更新日期:2022-11-05 16:29
本发明专利技术提供了一种标准文档数据的提取方法及装置。方法包括:通过获取标准文档数据并采用光学字符识别对所述标准文档数据进行文本识别处理;基于文本识别处理后的标准文档数据对光学字符识别所采用的字符库进行校正处理得到语言字库;基于所述语言字库以及预设的信息抽取模板对待提取的标准文档数据进行信息提取处理得到提取数据。本发明专利技术能够减少了人工处理标准文档数据的繁琐和不稳定性,提高数据提取的适用性。据提取的适用性。据提取的适用性。

【技术实现步骤摘要】
一种标准文档数据的提取方法及装置


[0001]本专利技术涉及数据提取
,具体而言,涉及一种标准文档数据的提取方法及装置。

技术介绍

[0002]随着互联网和多媒体技术的迅速发展,文档图像以其固有的优势,越来越多的在互联网上呈现。原始的文档图像中的字符是不能够直接复制和编辑的,需要对文档图像中的字符进行识别。目前常见的技术为光学字符识别(OpticalCharacterRecognition,简称OCR),光学字符识别是计算机视觉的一个研究分支,其目标是从图像中识别出字符,并保存为计算机文本数据。在票据识别、工业自动化等领域中都有广泛的应用。
[0003]光学字符识别方法通常是先从图像中检测字符位置,然后对各个字符位置进行字符识别,确定图像中所包含的字符。当前工业实验室的检测项目文件是基于国家、行业、企业等的各项标准而定,当文件的图像内容复杂时,光学字符识别方法通常无法准确地识别出图像中的字符内容,进而在信息提取时提取出错误信息,导致信息的识别过程和提取过程中还存在效率比较低的问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种标准文档数据的提取方法及装置,减少了人工处理的繁琐和不稳定性,提高数据提取的适用性。
[0005]第一方面,本专利技术提供了一种标准文档数据的提取方法,该方法包括:
[0006]获取标准文档数据并采用光学字符识别对所述标准文档数据进行文本识别处理;
[0007]基于文本识别处理后的标准文档数据对光学字符识别所采用的字符库进行校正处理得到语言字库;
[0008]基于所述语言字库以及预设的信息抽取模板对待提取的标准文档进行信息提取处理得到提取数据。
[0009]在一实施例中,在所述对待提取的标准文档数据进行信息提取处理得到提取数据之后,还包括:
[0010]将所述提取数据按照预设的数据结构字段进行存储。
[0011]在一实施例中,在所述对待提取的标准文档数据进行信息提取处理得到提取数据之后,还包括:
[0012]确定所述提取数据对应的数据标签;
[0013]获取用户端输入的搜索请求中包含的输入标签;
[0014]计算所述输入标签与数据标签的相似度;
[0015]基于所述相似度将数据标签对应的提取数据输出至用户端。
[0016]进一步的,所述采用光学字符识别对所述标准文档数据进行文本识别处理,包括:
[0017]将所述标准文档数据转换为图片数据;
[0018]采用光学字符识别对图片数据进行文本识别处理。
[0019]在一实施例中,在所述采用光学字符识别对图片数据进行文本识别处理之后,还包括:
[0020]对所述图片数据进行文本识别处理得到的文本识别数据进行校正处理。
[0021]进一步的,所述对所述图片数据进行文本识别处理得到的文本识别数据进行校正处理,包括:
[0022]确定所述文本识别数据中字符的字符特征,将所述字符特征与光学字符识别所采用的字符库进行比对;
[0023]在所述字符库中确定所述字符对应的相似候选字群并在所述相似候选字群中确定与所述字符的可信度最高的候选字符;
[0024]基于所述候选字符对所述字符进行调整。
[0025]第二方面,本专利技术提供了一种标准文档数据的提取装置,该装置包括:
[0026]文本识别单元,用于获取标准文档数据并采用光学字符识别对所述标准文档数据进行文本识别处理;
[0027]字符库单元,用于基于文本识别处理后的标准文档数据对光学字符识别所采用的字符库进行校正处理得到语言字库;
[0028]数据提取单元,用于基于所述语言字库以及预设的信息抽取模板对待提取的标准文档数据进行信息提取处理得到提取数据。
[0029]第三方面,本专利技术提供了一种打印机,该打印机包括:处理器;所述处理器用于上述标准文档数据的提取方法的步骤。
[0030]第四方面,本专利技术提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线;其中,
[0031]处理器、通信接口和存储器通过通信总线完成相互间的通信;
[0032]处理器用于调用存储器中的计算机指令,以执行上述的标准文档数据的提取方法的步骤。
[0033]第五方面,本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令被执行时使所述计算机执行上述的标准文档数据的提取方法的步骤。
[0034]本专利技术提出的标准文档数据的提取方法及装置,通过获取标准文档数据并采用光学字符识别对所述标准文档数据进行文本识别处理;基于文本识别处理后的标准文档数据对光学字符识别所采用的字符库进行校正处理得到语言字库;基于所述语言字库以及预设的信息抽取模板对待提取的标准文档数据进行信息提取处理得到提取数据。能够减少了人工处理标准文档数据的繁琐和不稳定性,提高数据提取的适用性。
[0035]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0036]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实
施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0037]图1为本专利技术提供的一种标准文档数据的提取方法的第一流程示意图。
[0038]图2为本专利技术提供的一种标准文档数据的提取方法的第二流程示意图。
[0039]图3为本专利技术提供的一种标准文档数据的提取方法的第三流程示意图。
[0040]图4为本专利技术提的一种供标准文档数据的提取方法中步骤S102的一种具体实施方式的流程示意图。
[0041]图5为本专利技术提供的一种标准文档数据的提取方法中步骤S102的另一种具体实施方式的流程示意图。
[0042]图6为本专利技术提供的一种标准文档数据的提取装置的结构示意图。
[0043]图7为本专利技术提供的电子设备的结构示意图。
具体实施方式
[0044]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0045]本专利技术实施例提供了一种标准文档数据的提取方法,参见图1所示,具体包含有如下内容:
[0046]S101:获取标准本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标准文档数据的提取方法,其特征在于,包括:获取标准文档数据并采用光学字符识别对所述标准文档数据进行文本识别处理;基于文本识别处理后的标准文档数据对光学字符识别所采用的字符库进行校正处理得到语言字库;基于所述语言字库以及预设的信息抽取模板对待提取的标准文档数据进行信息提取处理得到提取数据。2.根据权利要求1所述的标准文档数据的提取方法,其特征在于,在所述对待提取的标准文档数据进行信息提取处理得到提取数据之后,还包括:将所述提取数据按照预设的数据结构字段进行存储。3.根据权利要求1所述的标准文档数据的提取方法,其特征在于,在所述对待提取的标准文档数据进行信息提取处理得到提取数据之后,还包括:确定所述提取数据对应的数据标签;获取用户端输入的搜索请求中包含的输入标签;计算所述输入标签与数据标签的相似度;基于所述相似度将数据标签对应的提取数据输出至用户端。4.根据权利要求1所述的标准文档数据的提取方法,其特征在于,所述采用光学字符识别对所述标准文档数据进行文本识别处理,包括:将所述标准文档数据转换为图片数据;采用光学字符识别对图片数据进行文本识别处理。5.根据权利要求4所述的标准文档数据的提取方法,其特征在于,在所述采用光学字符识别对图片数据进行文本识别处理之后,还包括:对所述图片数据进行文本识别处理得到的文本识别数据进行校正处理。6.根据权利要求5所述的标准文档数据的提取方法,其特征在于,所述对所述图片数据进行文本识别处理得...

【专利技术属性】
技术研发人员:刘静许鹏黎清顾吕沙沙
申请(专利权)人:珠海联云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1