结构化文本的提取方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:33809529 阅读:25 留言:0更新日期:2022-06-16 10:18
本申请实施例公开了一种结构化文本的提取方法、装置、存储介质及计算机设备,涉及信息提取领域。本申请和现有技术中的OCR算法提取文本信息相比,OCR算法提取到的是非结构化文本,后续还需要利用正则表达式将非结构文本转换为结构化文本,而本申请预先设置目标字段,根据字段检测模型确定位置和字段识别模型直接生成结构化文本,可提高文本识别的速度和准确性,对文本发生重叠、模糊和遮挡的情况下,也能具有较高的抗干扰能力。能具有较高的抗干扰能力。能具有较高的抗干扰能力。

【技术实现步骤摘要】
结构化文本的提取方法、装置、存储介质及计算机设备


[0001]本申请涉及信息提取领域,尤其涉及一种结构化文本的提取方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着计算机视觉技术的发展,如何提取图像数据中的结构化文本是目前研究的热点。目前展开的票据识别、文档审阅、自动报销等相关研究中,从大量的图像数据中提取出结构化文本,也有着举足轻重的作用。目前业界提取结构化文本,主要基于通用OCR(Optical Character Recognition,光学字符识别))等方法,运用大量数据训练出OCR模型先进行文本的抽取得到字段值,然后通过正则表达式抽取出结构化文本。然而这种方法非常依赖于OCR的效果,,且在提取结构化文本时无法应用上原本图像的特征信息,如果图像中出现文字重叠、模糊等问题时使用OCR算法检测文本就很难有好的效果。

技术实现思路

[0003]本申请实施例提供了结构化文本的提取方法、装置、存储介质及计算机设备,可以解决现有技术中采用OCR模型生成结构化文本效率低和准确性差的问题。所述技术方案如下
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结构化文本的提取方法,其特征在于,包括:确定目标字段;根据所述目标字段关联的字段检测模型对待识别图像进行处理得到字段值位置信息;根据所述字段值位置信息对所述待识别图像进行截图得到字段值小图像;根据所述目标字段关联的字段识别模型对所述字段值小图像进行处理得到字段值;根据所述目标字段和所述字段值生成结构化文本。2.根据权利要求1或2所述的方法,其特征在于,还包括:获取所述字段值小图像中字段值的倾斜角度;根据所述倾斜角度进行角度校正。3.根据权利要求2所述的方法,其特征在于,基于Hough算法对所述字段值小图像进行角度校正。4.根据权利要求1或3所述的方法,其特征在于,所述字段值位置信息包括矩形框的长度、矩形框的高度和矩形框的中心点的坐标。5.根据权利要求4所述的方法,其特征在于,所述确定目标字段之前,还包括:确定目标字段关联的第一数据集;其中,所述第一数据集中的各个样本图像设置有标注框;对所述第一数据集进行训练得到字段检测模型;确定所述目标字段关联的第二数据集;其中,所述第二数据集的各个样本图像设置有所述目标字段的字段值;对所述第二数...

【专利技术属性】
技术研发人员:薛闯陈志衔朱莹莹张建冬陈家荣
申请(专利权)人:远光软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1