【技术实现步骤摘要】
本专利技术涉及光学字符识别,具体是基于swin-transformer的满文印刷体文档识别方法及系统。
技术介绍
1、现有满文识别技术普遍依赖于字符分割策略,通过投影法或笔画生长法将满文图像划分为基本单元,即字符或笔画,继而应用简单的分类模型进行识别。此种方法旨在显著缩减所需训练数据规模的同时,提升识别过程的效能。然而满文具备复杂的词汇构成,这依然制约了其文字切割的准确性,并且当前尚无成熟的技术能够有效实现字符重组。
2、当前主导技术包括基于c-rnn的全词识别策略与基于transformer的全词识别策略。基于c-rnn的体系与基于transformer的架构已在多种语言的印刷文字识别任务中成功部署,并展现出显著的识别效能。然而,在印刷体满文识别的范畴内,缺乏相仿的研究,基于c-rnn与transformer的整词模型本质上即为一种编码器解码器架构的模型。c-rnn在提取图像特征方面表现出色,然而在捕捉语义序列方面,其性能不及transformer。尽管transformer解码器擅长处理序列数据,但它在有效提取图像细节方
...【技术保护点】
1.基于Swin-Transformer的满文印刷体文档识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于Swin-Transformer的满文印刷体文档识别方法,其特征在于,所述的输入满文整词图像,经过预处理,将图像分割成非重叠的图像块;对每个图像块进行线性映射,得到固定特征维度C的张量,包括:
3.根据权利要求2所述的基于Swin-Transformer的满文印刷体文档识别方法,其特征在于,所述的在每个图像块的张量上加上位置编码PE,包括:
4.根据权利要求1所述的基于Swin-Transformer的满文印刷体
...【技术特征摘要】
1.基于swin-transformer的满文印刷体文档识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于swin-transformer的满文印刷体文档识别方法,其特征在于,所述的输入满文整词图像,经过预处理,将图像分割成非重叠的图像块;对每个图像块进行线性映射,得到固定特征维度c的张量,包括:
3.根据权利要求2所述的基于swin-transformer的满文印刷体文档识别方法,其特征在于,所述的在每个图像块的张量上加上位置编码pe,包括:
4.根据权利要求1所述的基于swin-transformer的...
【专利技术属性】
技术研发人员:王玉茹,朱三栋,彭媛,姜龙奎,逯焱,殷明浩,
申请(专利权)人:东北师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。