System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于自然语言处理领域,具体涉及一种基于ctpn和restnet50的图像敏感文字识别方法。
技术介绍
1、在敏感文字识别领域,整合ctpn、resnet50、bilstm以及ctc方法构建出一个全新的文字识别网络框架。这个方法致力于应对敏感信息的复杂语境,为敏感文字的准确辨识提供了全新的解决方案。
2、首先,ctpn作为文本行检测的核心组件,可以精准的定位文字位置。通过端到端的学习方式,ctpn能够生成准确的文本区域框,为后续处理步骤提供了可靠的文本位置信息。
3、其次,引入resnet50以提取图像中文本的语义特征。resnet50通过深度残差结构强大的特征提取能力,可以有效地捕捉到包含文本信息的语义上下文。这为文字的高效辨识提供了强大的支持。
4、接着,通过bilstm网络进行序列建模,进一步加强对文字信息上下文的识别能力。bilstm的双向循环结构使得系统能够更全面地考虑文本序列的前后关系,提高了对不同形式的文字信息的识别精度。
5、然后,引入ctc损失函数完成不定长文字的识别任务。ctc通过对序列标签和模型输出之间的对齐问题建模,有效地解决了识别文字长度不确定的问题。
6、最后,对识别出的文字判断是否包含敏感信息。
7、这个完整的框架为敏感文字识别提供了端到端的解决方案,实现了在复杂场景中对敏感信息进行准确、高效的识别。
技术实现思路
1、本专利技术提供了一种基于ctpn和resnet50的敏
2、为了实现这一目标,我们采用了以下技术方案:
3、1.一种基于ctpn和restnet50的图像敏感文字识别方法,其特征在于:首先,构建用于敏感文字识别检测的图像数据集,其中包括各类敏感文字图像。之后,输入的图像可以通过ctpn网络准确检测出文本区域,将每个文本区域输入到restnet50网络进行特征提取。使用bilstm来捕捉序列中的上下文信息,对每个文本区域的特征序列进行处理。使用ctc层对bilstm输出的序列进行文字识别。最终判断输出的文字中是否包含敏感信息。具体包括如下步骤:
4、步骤1、构建出用于敏感文字识别的数据集,其中包括各类敏感文字图像;
5、步骤2、训练ctpn和restnet50网络模型,使用迁移学习方法训练模型,得到训练好的模型参数;
6、步骤3、利用ctpn网络定位图像中文字的位置;
7、步骤4、利用restnet50神经网络模型将已经定位好的文本区域进行特征提取;
8、步骤5、使用bilstm来捕捉序列中的上下文信息,对每个文本区域的特征序列进行处理;
9、步骤6、使用ctc层对bilstm输出的序列进行文字识别;
10、步骤7、判断识别的文字中是否包含敏感信息。
11、所述步骤2的具体过程如下:
12、步骤2.1、在预训练阶段,使用大量无标注数据对网络进行训练,以此来定位文字位置、提取图像特征。
13、步骤2.2、在微调阶段、使用已经完成文字识别结果的数据对整个模型进行端到端的训练。
14、所述步骤3的具体过程如下:
15、步骤3.1、首先,对输入的图像进行初始化,将图像尺寸调整成统一大小;
16、步骤3.2、使用预训练的网络提取图像的卷积特征;
17、步骤3.3、在特征图上使用锚框生成文本区域的候选框。这些锚框覆盖了各种可能包含文本的区域。具体过程是:令a表示特征图上的一个锚点,hw表示一个预定义的高宽比,sk表示一个预定义的尺度,那么锚框宽度w和高度h可以由以下公式计算:
18、w=sk*hw#(1)
19、
20、步骤3.4、使用一个分类头来对每个锚框进行文本或非文本的分类。这是一个二元分类任务,判断每个锚框是否包含文本。这里使用到了交叉熵损失函数:
21、
22、在这个公式中ncls是文本的数量yi是锚框i的真实标签,其中1表示包含文本,0表示不包含文本,pi是模型对锚框i的文本或非文本的分类概率。
23、步骤3.5、使用回归头来对每个锚框进行边界框回归,精细调整锚框的位置,以更好地适应文本行的形状。使用smooth l1损失来调整锚框的位置,具体损失函数公式如下:
24、
25、其中nreg是文本数量,ti是锚框i的真实边界框偏移,是模型预测的边界框偏移。smoothl1(x)是smooth l1损失函数可以根据下面的公式定义:
26、
27、步骤3.6、对分类得分进行阈值筛选,选择高于阈值的锚框,并使用非极大值抑制去除重叠度较高的锚框,得到最终的文本区域提议。
28、所述步骤5的具体过程如下:
29、步骤5.1、在经过ctpn网络以及restnet50网络提取特征之后,会将提取到的文本区域送入bilstm进行序列处理;
30、步骤5.2、将每个文本区域的特征序列化,对于第i个文本区域,其序列特征为其中,xit是第i个文本区域在时间步t的特征,将其特征沿着序列进行排列;
31、步骤5.3、将序列化后的特征输入到bilstm网络中;
32、步骤5.4、bilstm将序列化的特征同时通过正向和反向的两个方向进行处理,这有助于捕捉序列中的前后关系;
33、步骤5.5、获取bilstm的隐藏状态输出。对于每个时间步,正向和反向都会输出一个隐藏状态。
34、正向传播计算的隐藏状态为:
35、
36、反向传播计算的隐藏状态为:
37、
38、步骤5.6、将正向和反向的隐藏状态进行合并,通常是通过连接两者的隐藏状态或取平均值;
39、合并正向和反向隐藏状态:
40、
41、步骤5.7、获得最终的输出序列其中hi包含了文本区域i的序列化特征。
42、本专利技术所带来的有益技术效果:
43、1.采用ctpn作为文本行检测的核心组件,实现了在各类复杂场景中对敏感文字的高效定位。ctpn生成的文本行区域准确且稳定,有效解决了传统方法中在不同光照和背景条件下提取文本的困难。
44、2.引入resnet50以提取图像中文本的语义特征。resnet50通过深度残差结构强大的特征提取能力,可以有效地捕捉到包含文本信息的语义上下文。这为文字的高效辨识提供了强大的支持。。
45、3.bilstm的引入有助于更好地捕捉文本序列中的长距离依赖关系,显著提升了系统对不同形式的敏感信息的准确性和鉴别力。
本文档来自技高网...【技术保护点】
1.一种基于CTPN和RestNet50的图像敏感文字识别方法,其特征在于:首先,构建用于敏感文字识别检测的图像数据集,其中包括各类敏感文字图像。之后,输入的图像可以通过CTPN网络准确检测出文本区域,将每个文本区域输入到RestNet50网络进行特征提取。使用BiLSTM来捕捉序列中的上下文信息,对每个文本区域的特征序列进行处理。使用CTC层对BiLSTM输出的序列进行文字识别。最终判断输出的文字中是否包含敏感信息。具体包括如下步骤:
2.根据权利要求1所述的基于CTPN和RestNet50的图像敏感文字识别方法,其特征在于,所述步骤2的具体过程如下:
3.根据权利要求1所述的基于CTPN和RestNet50的图像敏感文字识别方法,其特征在于,所述步骤3的具体过程如下:
4.根据权利要求1所述的基于CTPN和RestNet50的图像敏感文字识别方法,其特征在于,所述步骤5的具体过程如下:
【技术特征摘要】
1.一种基于ctpn和restnet50的图像敏感文字识别方法,其特征在于:首先,构建用于敏感文字识别检测的图像数据集,其中包括各类敏感文字图像。之后,输入的图像可以通过ctpn网络准确检测出文本区域,将每个文本区域输入到restnet50网络进行特征提取。使用bilstm来捕捉序列中的上下文信息,对每个文本区域的特征序列进行处理。使用ctc层对bilstm输出的序列进行文字识别。最终判断输出的文字中是否包含敏感信...
【专利技术属性】
技术研发人员:郑中华,胡淦,王文仲,
申请(专利权)人:安徽博约信息科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。