System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于RestNet50的文字识别方法技术_技高网

一种基于RestNet50的文字识别方法技术

技术编号:41348237 阅读:18 留言:0更新日期:2024-05-20 10:02
本发明专利技术提出了一种基于CTPN和RestNet50的图像敏感文字识别方法,属于图像文字识别领域。具体包括如下步骤:首先,构建用于敏感文字识别检测的图像数据集,其中包括各类敏感文字图像。之后,输入的图像可以通过CTPN网络准确检测出文本区域,将每个文本区域输入到RestNet50网络进行特征提取。使用BiLSTM来捕捉序列中的上下文信息,对每个文本区域的特征序列进行处理。使用CTC层对BiLSTM输出的序列进行文字识别。最终判断输出的文字中是否包含敏感信息。整个方法通过定位文字位置、特征提取、序列处理和不定长文本识别、判断是否包含敏感信息。在广泛采用的文字识别数据集中的实验结果显示,本方法在文字识别准确率上优于其他算法,这为本发明专利技术的有效性提供了有力的验证。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,具体涉及一种基于ctpn和restnet50的图像敏感文字识别方法。


技术介绍

1、在敏感文字识别领域,整合ctpn、resnet50、bilstm以及ctc方法构建出一个全新的文字识别网络框架。这个方法致力于应对敏感信息的复杂语境,为敏感文字的准确辨识提供了全新的解决方案。

2、首先,ctpn作为文本行检测的核心组件,可以精准的定位文字位置。通过端到端的学习方式,ctpn能够生成准确的文本区域框,为后续处理步骤提供了可靠的文本位置信息。

3、其次,引入resnet50以提取图像中文本的语义特征。resnet50通过深度残差结构强大的特征提取能力,可以有效地捕捉到包含文本信息的语义上下文。这为文字的高效辨识提供了强大的支持。

4、接着,通过bilstm网络进行序列建模,进一步加强对文字信息上下文的识别能力。bilstm的双向循环结构使得系统能够更全面地考虑文本序列的前后关系,提高了对不同形式的文字信息的识别精度。

5、然后,引入ctc损失函数完成不定长文字的识别任务。ctc通过对序列标签和模型输出之间的对齐问题建模,有效地解决了识别文字长度不确定的问题。

6、最后,对识别出的文字判断是否包含敏感信息。

7、这个完整的框架为敏感文字识别提供了端到端的解决方案,实现了在复杂场景中对敏感信息进行准确、高效的识别。


技术实现思路

1、本专利技术提供了一种基于ctpn和resnet50的敏感文字识别方法。该方法旨在克服传统敏感文字识别领域的不足,如复杂场景、不定长文本以及不同形式的敏感信息。该专利技术结合了文本行检测、深度特征提取、序列建模和不定长文本识别等关键技术,形成了一种全面、高效的敏感文字识别系统。

2、为了实现这一目标,我们采用了以下技术方案:

3、1.一种基于ctpn和restnet50的图像敏感文字识别方法,其特征在于:首先,构建用于敏感文字识别检测的图像数据集,其中包括各类敏感文字图像。之后,输入的图像可以通过ctpn网络准确检测出文本区域,将每个文本区域输入到restnet50网络进行特征提取。使用bilstm来捕捉序列中的上下文信息,对每个文本区域的特征序列进行处理。使用ctc层对bilstm输出的序列进行文字识别。最终判断输出的文字中是否包含敏感信息。具体包括如下步骤:

4、步骤1、构建出用于敏感文字识别的数据集,其中包括各类敏感文字图像;

5、步骤2、训练ctpn和restnet50网络模型,使用迁移学习方法训练模型,得到训练好的模型参数;

6、步骤3、利用ctpn网络定位图像中文字的位置;

7、步骤4、利用restnet50神经网络模型将已经定位好的文本区域进行特征提取;

8、步骤5、使用bilstm来捕捉序列中的上下文信息,对每个文本区域的特征序列进行处理;

9、步骤6、使用ctc层对bilstm输出的序列进行文字识别;

10、步骤7、判断识别的文字中是否包含敏感信息。

11、所述步骤2的具体过程如下:

12、步骤2.1、在预训练阶段,使用大量无标注数据对网络进行训练,以此来定位文字位置、提取图像特征。

13、步骤2.2、在微调阶段、使用已经完成文字识别结果的数据对整个模型进行端到端的训练。

14、所述步骤3的具体过程如下:

15、步骤3.1、首先,对输入的图像进行初始化,将图像尺寸调整成统一大小;

16、步骤3.2、使用预训练的网络提取图像的卷积特征;

17、步骤3.3、在特征图上使用锚框生成文本区域的候选框。这些锚框覆盖了各种可能包含文本的区域。具体过程是:令a表示特征图上的一个锚点,hw表示一个预定义的高宽比,sk表示一个预定义的尺度,那么锚框宽度w和高度h可以由以下公式计算:

18、w=sk*hw#(1)

19、

20、步骤3.4、使用一个分类头来对每个锚框进行文本或非文本的分类。这是一个二元分类任务,判断每个锚框是否包含文本。这里使用到了交叉熵损失函数:

21、

22、在这个公式中ncls是文本的数量yi是锚框i的真实标签,其中1表示包含文本,0表示不包含文本,pi是模型对锚框i的文本或非文本的分类概率。

23、步骤3.5、使用回归头来对每个锚框进行边界框回归,精细调整锚框的位置,以更好地适应文本行的形状。使用smooth l1损失来调整锚框的位置,具体损失函数公式如下:

24、

25、其中nreg是文本数量,ti是锚框i的真实边界框偏移,是模型预测的边界框偏移。smoothl1(x)是smooth l1损失函数可以根据下面的公式定义:

26、

27、步骤3.6、对分类得分进行阈值筛选,选择高于阈值的锚框,并使用非极大值抑制去除重叠度较高的锚框,得到最终的文本区域提议。

28、所述步骤5的具体过程如下:

29、步骤5.1、在经过ctpn网络以及restnet50网络提取特征之后,会将提取到的文本区域送入bilstm进行序列处理;

30、步骤5.2、将每个文本区域的特征序列化,对于第i个文本区域,其序列特征为其中,xit是第i个文本区域在时间步t的特征,将其特征沿着序列进行排列;

31、步骤5.3、将序列化后的特征输入到bilstm网络中;

32、步骤5.4、bilstm将序列化的特征同时通过正向和反向的两个方向进行处理,这有助于捕捉序列中的前后关系;

33、步骤5.5、获取bilstm的隐藏状态输出。对于每个时间步,正向和反向都会输出一个隐藏状态。

34、正向传播计算的隐藏状态为:

35、

36、反向传播计算的隐藏状态为:

37、

38、步骤5.6、将正向和反向的隐藏状态进行合并,通常是通过连接两者的隐藏状态或取平均值;

39、合并正向和反向隐藏状态:

40、

41、步骤5.7、获得最终的输出序列其中hi包含了文本区域i的序列化特征。

42、本专利技术所带来的有益技术效果:

43、1.采用ctpn作为文本行检测的核心组件,实现了在各类复杂场景中对敏感文字的高效定位。ctpn生成的文本行区域准确且稳定,有效解决了传统方法中在不同光照和背景条件下提取文本的困难。

44、2.引入resnet50以提取图像中文本的语义特征。resnet50通过深度残差结构强大的特征提取能力,可以有效地捕捉到包含文本信息的语义上下文。这为文字的高效辨识提供了强大的支持。。

45、3.bilstm的引入有助于更好地捕捉文本序列中的长距离依赖关系,显著提升了系统对不同形式的敏感信息的准确性和鉴别力。

本文档来自技高网...

【技术保护点】

1.一种基于CTPN和RestNet50的图像敏感文字识别方法,其特征在于:首先,构建用于敏感文字识别检测的图像数据集,其中包括各类敏感文字图像。之后,输入的图像可以通过CTPN网络准确检测出文本区域,将每个文本区域输入到RestNet50网络进行特征提取。使用BiLSTM来捕捉序列中的上下文信息,对每个文本区域的特征序列进行处理。使用CTC层对BiLSTM输出的序列进行文字识别。最终判断输出的文字中是否包含敏感信息。具体包括如下步骤:

2.根据权利要求1所述的基于CTPN和RestNet50的图像敏感文字识别方法,其特征在于,所述步骤2的具体过程如下:

3.根据权利要求1所述的基于CTPN和RestNet50的图像敏感文字识别方法,其特征在于,所述步骤3的具体过程如下:

4.根据权利要求1所述的基于CTPN和RestNet50的图像敏感文字识别方法,其特征在于,所述步骤5的具体过程如下:

【技术特征摘要】

1.一种基于ctpn和restnet50的图像敏感文字识别方法,其特征在于:首先,构建用于敏感文字识别检测的图像数据集,其中包括各类敏感文字图像。之后,输入的图像可以通过ctpn网络准确检测出文本区域,将每个文本区域输入到restnet50网络进行特征提取。使用bilstm来捕捉序列中的上下文信息,对每个文本区域的特征序列进行处理。使用ctc层对bilstm输出的序列进行文字识别。最终判断输出的文字中是否包含敏感信...

【专利技术属性】
技术研发人员:郑中华胡淦王文仲
申请(专利权)人:安徽博约信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1