一种基于级联多任务学习的文本抽取方法技术

技术编号：37447106 阅读：13 留言：0更新日期：2023-05-06 09:19

本申请实施例涉及图像文本处理技术领域，公开了一种基于级联多任务学习的文本抽取方法，该方法首先通过对目标图像进行边界分割得到文本区，然后在文本区内随机建立参考坐标系，再基于参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P，最后再对文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息，在对图像文本进行模型识别时采用双向模型识别的方式进行，有效降低了模型识别过程中的词组联想、词组记忆等导致的识别错误，提高了文本提取效率以及提取准确率。提取准确率。提取准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于级联多任务学习的文本抽取方法

[0001]本专利技术涉及图像文本处理
，具体涉及一种基于级联多任务学习的文本抽取方法。

技术介绍

[0002]随着人工智能技术的发展，图像识别受到了越来越多的关注，并且其应用越来越广泛。如应用在远程或线上医疗领域，线上医生为进一步诊断需要了解患者的检验报告单，而医生通过图片直接查看报告单的效率较低并且再次编辑检验报告单的效率也较低，因此，通常需要将报告单图像中的文本进行提取形成可编辑的文本信息。现有的图像文本提取大多采用按规则顺序（单向）提取录入的方式进行，效率低且可能存在大量的录入错误。

技术实现思路

[0003]本专利技术的主要目的是提供一种基于级联多任务学习的文本抽取方法、电子设备及计算机可读存储介质，旨在解决现有技术中文本提取效率低以及提取准确率低的技术问题。
[0004]为实现上述目的，第一方面，本申请实施例中提供了一种基于级联多任务学习的文本抽取方法，所述基于级联多任务学习的文本抽取方法包括：获取待提取文本信息的目标图像，并对所述目标图像进行边界分割得到文本区，其中，所述文本区包括以文本起始位置和结束位置的连线为对角线组成的矩形区域；以第m行及第n列的文本中心为坐标原点对所述矩形区域建立第一参考坐标系，其中，m为小于或等于所述文本区内文本行数M的随机自然数，n为小于或等于所述文本区内文本列数N的随机自然数；基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P{（
‑
1，
‑
>2，文本1），...，(0，0，文本2)，（0，1，文本3），...，（M，N，文本Z）}；对所述文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息。
[0005]优选地，所述起始位置为紧靠第一列文本的假想竖线与紧靠第一行文本的假想横线的交点，所述结束位置为紧靠最后一列文本的假想竖线与紧靠最后一行文本的假想横线的交点。
[0006]优选地，所述基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P的步骤包括：对坐标系正方向的文本按照正序相邻位置逐一遍历识别得到正向文本向量集P1；对坐标系反方向的文本按照反序相邻位置逐一遍历识别得到反向文本向量集P2；对所述正向文本向量集P1及反向文本向量集P2进行并运算处理得到文本向量集P。
[0007]优选地，所述基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向
遍历识别得到文本向量集P的步骤之后还包括：对所述文本向量集P进行随机校验矫正并得到校验准确度；确定所述校验准确度大于或等于预设值，输出矫正后的文本向量集P。
[0008]优选地，所述对所述文本向量集P进行随机校验矫正并得到校验准确度的步骤包括：以第m
’
行及第n
’
列的文本中心为坐标原点对所述矩形区域建立第二参考坐标系，其中，m
’
为小于或等于所述文本区内文本行数M的随机自然数，n
’
为小于或等于所述文本区内文本列数N的随机自然数，并且m
’
与m不相等，n
’
与n不相等；基于所述第二参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P
’
{（
‑
1，
‑
2，文本1
’
），...，(0，0，文本2
’
)，（0，1，文本3
’
），...，（M，N，文本Z
’
）}；根据所述文本向量集P
’
对所述文本向量集P进行校验矫正。
[0009]优选地，所述根据所述文本向量集P
’
对所述文本向量集P进行校验矫正的步骤包括：获取第二参考坐标系与第一坐标系的随机变化步长（m
’‑
m，n
’‑
n）基于所述随机变化步长（m
’‑
m，n
’‑
n）对文本向量集P
’
内的独立文本向量进行向量加减运算得到文本向量集P
’’
；将文本向量集P
’’
与文本向量集P进行一一比对校验并矫正。
[0010]优选地，所述对所述文本向量集P进行随机校验矫正并得到校验准确度的步骤之后还包括：确定所述校验准确度小于预设值，对所述矫正后的文本向量集P进行镜像校验矫正，并输出镜像校验矫正的文本向量集P。
[0011]优选地，所述对所述文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息的步骤包括：对所述文本向量集P内的独立文本向量进行一级任务学习得到一级结构化文本，其中，所述一级任务学习包括基于所述第一参考系进行正序排列；对所述文本向量集P内的独立文本向量进行二级任务学习得到二级结构化文本，其中，所述二级任务学习包括对预设的特定文本进行特殊标记；对所述文本向量集P内的独立文本向量进行三级任务学习得到三级结构化文本，其中，所述三级任务学习包括对预设的隐私文本进行隐藏处理。
[0012]第二方面，本申请实施例中还提供了一种电子设备，包括：处理器及存储器；其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行第一方面所述的基于级联多任务学习的文本抽取方法。
[0013]第三方面，本申请实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述基于级联多任务学习的文本抽取方法的步骤。
[0014]区别于现有技术，本申请实施例提供的基于级联多任务学习的文本抽取方法，首先通过对目标图像进行边界分割得到文本区，然后在文本区内随机建立参考坐标系，再基于参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P，最后
再对文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息，也即，在对图像文本进行模型识别时采用双向模型识别的方式进行，有效降低了模型识别过程中词组联想、词组记忆等导致识别错误的影响，如此，有利于兼顾文本提取效率以及提取准确率，同时对文本向量集P进行多任务学习处理得到结构化文本信息，可根据用户需求直接获取用户所需要的文本信息，提高了文本信息的查阅及再编辑效率。
附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。
[0016]图1为本申请一些实施例中图像文本识别提取结构示意图；图2为本申请一些实施例中文本提取方法的流程示意图；图3为本申请一些实施例中方法步骤S300的具体方法流程示意图；图4本申请另一些实施例中文本提取方法的流程示意图；图5为本申请一些实施例中方法步骤S500的具体方法流本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于级联多任务学习的文本抽取方法，其特征在于，包括：获取待提取文本信息的目标图像，并对所述目标图像进行边界分割得到文本区，其中，所述文本区包括以文本起始位置和结束位置的连线为对角线组成的矩形区域；以第m行及第n列的文本中心为坐标原点对所述矩形区域建立第一参考坐标系，其中，m为小于或等于所述文本区内文本行数M的随机自然数，n为小于或等于所述文本区内文本列数N的随机自然数；基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P{（
‑
1，
‑
2，文本1），...，(0，0，文本2)，（0，1，文本3），...，（M，N，文本Z）}；对所述文本向量集P内的独立文本向量进行级联多任务学习得到结构化文本信息。2.如权利要求1所述的基于级联多任务学习的文本抽取方法，其特征在于，所述起始位置为紧靠第一列文本的假想竖线与紧靠第一行文本的假想横线的交点，所述结束位置为紧靠最后一列文本的假想竖线与紧靠最后一行文本的假想横线的交点。3.如权利要求2所述的基于级联多任务学习的文本抽取方法，其特征在于，所述基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P的步骤包括：对坐标系正方向的文本按照正序相邻位置逐一遍历识别得到正向文本向量集P1；对坐标系反方向的文本按照反序相邻位置逐一遍历识别得到反向文本向量集P2；对所述正向文本向量集P1及反向文本向量集P2进行并运算处理得到文本向量集P。4.如权利要求1所述的基于级联多任务学习的文本抽取方法，其特征在于，所述基于所述第一参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文本向量集P的步骤之后还包括：对所述文本向量集P进行随机校验矫正并得到校验准确度；确定所述校验准确度大于或等于预设值，输出矫正后的文本向量集P。5.如权利要求4所述的基于级联多任务学习的文本抽取方法，其特征在于，所述对所述文本向量集P进行随机校验矫正并得到校验准确度的步骤包括：以第m
’
行及第n
’
列的文本中心为坐标原点对所述矩形区域建立第二参考坐标系，其中，m
’
为小于或等于所述文本区内文本行数M的随机自然数，n
’
为小于或等于所述文本区内文本列数N的随机自然数，并且m
’
与m不相等，n
’
与n不相等；基于所述第二参考坐标系对文本区内的图像文本进行文本模型双向遍历识别得到文...

【专利技术属性】
技术研发人员：高辉，田剑，彭祖怡，陈明晖，黎健，
申请(专利权)人：湖南智警公共安全技术研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人