基于Swin-Transformer的满文印刷体文档识别方法及系统技术方案

技术编号:46465862 阅读:4 留言:0更新日期:2025-09-23 22:28
本发明专利技术涉及一种基于Swin‑Transformer的满文印刷体文档识别方法及系统,属于光学字符识别技术领域。该方法通过数据预处理、Swin Transformer编码及解码器等步骤,实现了满文印刷体文档的高效识别。其中,数据预处理步骤对输入图像进行分割、线性映射及位置编码;Swin Transformer编码器采用窗口自注意力机制与移动窗口机制,有效捕获图像局部与跨窗口信息,并通过层次结构提取多尺度特征;解码器则基于编码器输出特征逐步解码,并集成特征提取分析模块以优化预测过程。本发明专利技术提出的Swin‑Manchu OCR模型在满文印刷体文档识别任务中准确率显著优于现有模型,具有广泛的应用前景。

【技术实现步骤摘要】

本专利技术涉及光学字符识别,具体是基于swin-transformer的满文印刷体文档识别方法及系统。


技术介绍

1、现有满文识别技术普遍依赖于字符分割策略,通过投影法或笔画生长法将满文图像划分为基本单元,即字符或笔画,继而应用简单的分类模型进行识别。此种方法旨在显著缩减所需训练数据规模的同时,提升识别过程的效能。然而满文具备复杂的词汇构成,这依然制约了其文字切割的准确性,并且当前尚无成熟的技术能够有效实现字符重组。

2、当前主导技术包括基于c-rnn的全词识别策略与基于transformer的全词识别策略。基于c-rnn的体系与基于transformer的架构已在多种语言的印刷文字识别任务中成功部署,并展现出显著的识别效能。然而,在印刷体满文识别的范畴内,缺乏相仿的研究,基于c-rnn与transformer的整词模型本质上即为一种编码器解码器架构的模型。c-rnn在提取图像特征方面表现出色,然而在捕捉语义序列方面,其性能不及transformer。尽管transformer解码器擅长处理序列数据,但它在有效提取图像细节方面存在局限。visi本文档来自技高网...

【技术保护点】

1.基于Swin-Transformer的满文印刷体文档识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于Swin-Transformer的满文印刷体文档识别方法,其特征在于,所述的输入满文整词图像,经过预处理,将图像分割成非重叠的图像块;对每个图像块进行线性映射,得到固定特征维度C的张量,包括:

3.根据权利要求2所述的基于Swin-Transformer的满文印刷体文档识别方法,其特征在于,所述的在每个图像块的张量上加上位置编码PE,包括:

4.根据权利要求1所述的基于Swin-Transformer的满文印刷体文档识别方法,其特征...

【技术特征摘要】

1.基于swin-transformer的满文印刷体文档识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于swin-transformer的满文印刷体文档识别方法,其特征在于,所述的输入满文整词图像,经过预处理,将图像分割成非重叠的图像块;对每个图像块进行线性映射,得到固定特征维度c的张量,包括:

3.根据权利要求2所述的基于swin-transformer的满文印刷体文档识别方法,其特征在于,所述的在每个图像块的张量上加上位置编码pe,包括:

4.根据权利要求1所述的基于swin-transformer的...

【专利技术属性】
技术研发人员:王玉茹朱三栋彭媛姜龙奎逯焱殷明浩
申请(专利权)人:东北师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1