一种信息提取方法、装置、设备及存储介质制造方法及图纸

技术编号:36881798 阅读:12 留言:0更新日期:2023-03-15 21:13
本公开提供了一种信息提取方法、装置、设备及存储介质,所述方法包括:获取目标表单图像;识别目标表单图像中的预设文字;基于预设文字,从预设的表单模板库中确定出目标表单图像对应的目标类型表单模板;基于目标类型表单模板,提取目标表单图像中的目标文本内容;根据目标文本内容,确定目标表单图像对应的结构化数字表单。采用该方法,可以通过识别预设文字,利用预设文字先确定出目标表单图像对应的目标类型表单模板,然后根据目标类型表单模板更具针对性地提取到目标表单图像中的目标文本内容,这不仅提高了文本内容获取的效率还能够得到更加准确的结构化数字表单。够得到更加准确的结构化数字表单。够得到更加准确的结构化数字表单。

【技术实现步骤摘要】
一种信息提取方法、装置、设备及存储介质


[0001]本公开涉及信息推荐
,尤其涉及一种信息提取方法、装置、设备及存储介质。

技术介绍

[0002]患者的化验单、检测单和住院病历单等带有数据的表单通常蕴含着大量有价值的信息,往往需要由专业人员提取出其中的关键信息,进行结构化处理,便于医护人员阅读和进一步进行数据分析。
[0003]现有的提取表单中关键信息的方法通常包括人工提取方法和基于OCR(Optical Character Recognition,光学字符识别)的提取方法。其中,人工提取方法是通过专业人员人工筛选关键信息,并将筛选出的关键信息录入电子系统进行结构化。然而,由于不同医院的表单在版本和格式上各不相同,因此,通过人工筛选并录入关键信息的方式工作效率低下且出错率高。
[0004]基于OCR的提取方法是通过OCR模块识别表单中的文字,输出文本框坐标、文本内容和识别置信度;然后通过结构化处理模块将OCR模块输出内容恢复为表单中的表格结构,组织成表格形式的输出。然而,这种方式OCR模块的输出内容复杂,数据处理工作量大,出错率高。
[0005]因此,如何在提高提取表单信息的效率的同时降低信息提取的错误率,成为了一个亟待解决的问题。

技术实现思路

[0006]本公开提供了一种信息提取方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
[0007]根据本公开的第一方面,提供了一种信息提取方法,所述方法包括:
[0008]获取目标表单图像;<br/>[0009]识别所述目标表单图像中的预设文字;
[0010]基于所述预设文字,从预设的表单模板库中确定出所述目标表单图像对应的目标类型表单模板;
[0011]基于所述目标类型表单模板,提取所述目标表单图像中的目标文本内容;
[0012]根据所述目标文本内容,确定所述目标表单图像对应的结构化数字表单。
[0013]在一可实施方式中,在所述根据所述目标文本内容,确定所述目标表单图像对应的结构化数字表单之前,所述方法还包括:
[0014]根据预设文本处理模型对所述目标文本内容进行纠错处理,得到处理后的文本内容;
[0015]所述根据所述目标文本内容,确定所述目标表单图像对应的结构化数字表单,包括:
[0016]基于所述处理后的文本内容,确定所述目标表单图像对应的结构化数字表单。
[0017]在一可实施方式中,在所述基于所述处理后的文本内容,确定所述目标表单图像对应的结构化数字表单之后,所述方法还包括:
[0018]根据所述目标文本内容和所述处理后的文本内容,更新所述预设文本处理模型。
[0019]在一可实施方式中,所述预设文字为表征所述目标表单图像的所属机构的文字;
[0020]所述基于所述预设文字,从预设的表单模板库中确定所述目标表单图像对应的目标类型表单模板,包括:
[0021]根据所述预设文字确定所述目标表单图像对应的目标机构;
[0022]从预设的表单模板库中确定出所述目标机构对应的各个类型的表单模板;
[0023]根据所述预设文字,从所述各个类型的表单模板中确定所述目标表单图像对应的目标类型表单模板。
[0024]在一可实施方式中,所述基于所述目标类型表单模板,提取所述目标表单图像中的目标文本内容,包括:
[0025]基于所述目标类型表单模板中的关键字符,识别所述目标表单图像中与所述关键字符对应的目标字符;
[0026]提取所述目标表单图像中与所述目标字符对应的目标文本内容。
[0027]根据本公开的第二方面,提供了一种信息提取装置,所述装置包括:
[0028]图像获取模块,用于获取目标表单图像;
[0029]预设文字提取模块,用于识别所述目标表单图像中的预设文字;
[0030]表单类型确定模块,用于基于所述预设文字,从预设的表单模板库中确定出所述目标表单图像对应的目标类型表单模板;
[0031]文本内容提取模块,用于基于所述目标类型表单模板,提取所述目标表单图像中的目标文本内容;
[0032]表单确定模块,用于根据所述目标文本内容,确定所述目标表单图像对应的结构化数字表单。
[0033]在一可实施方式中,所述装置还包括:
[0034]文本纠错模块,用于根据预设文本处理模型对所述目标文本内容进行纠错处理,得到处理后的文本内容;
[0035]所述表单确定模块,具体用于基于所述处理后的文本内容,确定所述目标表单图像对应的结构化数字表单。
[0036]在一可实施方式中,所述装置还包括:
[0037]模型更新模块,用于根据所述目标文本内容和所述处理后的文本内容,更新所述预设文本处理模型。
[0038]根据本公开的第三方面,提供了一种电子设备,包括:
[0039]至少一个处理器;以及
[0040]与所述至少一个处理器通信连接的存储器;其中,
[0041]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
[0042]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
[0043]采用本公开的信息提取方法、装置、设备及存储介质,获取目标表单图像;识别目标表单图像中的预设文字;基于预设文字,从预设的表单模板库中确定出目标表单图像对应的目标类型表单模板;基于目标类型表单模板,提取目标表单图像中的目标文本内容;根据目标文本内容,确定目标表单图像对应的结构化数字表单。即可以通过识别预设文字,利用预设文字先确定出目标表单图像对应的目标类型表单模板,然后根据目标类型表单模板更具针对性地提取到目标表单图像中的目标文本内容,这不仅提高了文本内容获取的效率还能够得到更加准确的结构化数字表单。
[0044]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0045]通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
[0046]在附图中,相同或对应的标号表示相同或对应的部分。
[0047]图1示出了本公开实施例提供的信息提取方法的实现流程示意图;
[0048]图2示出了本公开提供的一种表单图像;
[0049]图3示出了本公开实施例提供的一种表单模板示意图;
[0050]图4示出了本公开实施例提供的一种结构化数字表单的示意图;
[0051]图5示出了本公开实施例提供的信息提取装置的结构示意图;
[0052]图6示出了本公开本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法,其特征在于,所述方法包括:获取目标表单图像;识别所述目标表单图像中的预设文字;基于所述预设文字,从预设的表单模板库中确定出所述目标表单图像对应的目标类型表单模板;基于所述目标类型表单模板,提取所述目标表单图像中的目标文本内容;根据所述目标文本内容,确定所述目标表单图像对应的结构化数字表单。2.根据权利要求1所述的方法,其特征在于,在所述根据所述目标文本内容,确定所述目标表单图像对应的结构化数字表单之前,所述方法还包括:根据预设文本处理模型对所述目标文本内容进行纠错处理,得到处理后的文本内容;所述根据所述目标文本内容,确定所述目标表单图像对应的结构化数字表单,包括:基于所述处理后的文本内容,确定所述目标表单图像对应的结构化数字表单。3.根据权利要求1所述的方法,其特征在于,在所述基于所述处理后的文本内容,确定所述目标表单图像对应的结构化数字表单之后,所述方法还包括:根据所述目标文本内容和所述处理后的文本内容,更新所述预设文本处理模型。4.根据权利要求1所述的方法,其特征在于,所述预设文字为表征所述目标表单图像的所属机构的文字;所述基于所述预设文字,从预设的表单模板库中确定所述目标表单图像对应的目标类型表单模板,包括:根据所述预设文字确定所述目标表单图像对应的目标机构;从预设的表单模板库中确定出所述目标机构对应的各个类型的表单模板;根据所述预设文字,从所述各个类型的表单模板中确定所述目标表单图像对应的目标类型表单模板。5.根据权利要求1所述的方法,其特征在于,所述基于所述目标类型表单模板,提取所述目标表单图像中的目标文本内容,包括:基于所述目标类型表单模...

【专利技术属性】
技术研发人员:姜梦娟熊峰魏承臻吴贵锋
申请(专利权)人:浙江海心智惠科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1