一种基于卷积神经网络的水书手写文字识别方法技术

技术编号：24577913 阅读：93 留言：0更新日期：2020-06-21 00:39

一种基于卷积神经网络的水书手写文字识别方法，属于文字信息处理技术领域。包括以下步骤：1)进行水书文字数据集准备：将水书影印卷本的原始图片作为样本图片，对样本图片中的文字进行标注，制作数据集；2)进行水书文字数据集增强：为提高模型的鲁棒性，进行图片裁剪以扩增数据量，并加入随机噪声、进行色彩抖动以及PCA抖动对数据进行增强，增加数据样本的多样性，以应对复杂的识别场景；3)实验实施过程：为检验深度学习方法对水书文字识别适用与否，进行实例实验。将深度学习方法运用到水书手写文字的识别上，同时制作了适用于深度学习研究的水书文字数据集，数据集为页面数据集；注重页面图像文字的目标检测。

A method of handwritten character recognition based on convolution neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积神经网络的水书手写文字识别方法
本专利技术属于文字信息处理
，涉及一种非物质文化遗产水书文化，尤其是涉及一种基于卷积神经网络的水书手写文字识别方法。
技术介绍
水族是为数不多的拥有自己文字的少数民族之一，其语言被称为“泐睢”，与古汉字有紧密的历史渊源关系。水书是通过历代水书先生代代相传，内容涵盖了语言文字、天文历法、哲学思想、社会历史、宗教信仰和民族民俗等方面，至今仍在水族人民的社会生产生活中起着重要作用，被称为“活着的象形文字”。2006年，水书习俗经国务院批准列入第一批国家级非物质文化遗产名录。水书先生在水族社会中具有较高的社会地位，通常水书只传给本族男性，且人数极少，不会传给女性和外人。由于高速发展的经济和较滞后的水族民族传统文化保护工作，水书及其文化传统面临着被逐渐边缘化甚至失传的威胁。水书文字有象形字、指事字、会意字和假借字等，因部分文字类似汉字的反写、倒写、改写，外族人称为反书。经近些年水族学者研究，水书文字能够被识读的单字有500余字，含异体字在内则有2000余字。随着贵州大数据工程的建立以及少数民族文化保护的行动，水书于2015年7月19日完成了水书档案资源数据库建设，成果形式主要是将水书图像和水书善本以图片的形式进行保存，但信息化程度不高，对文字识别传承方面的关注还远远不够，需要进一步进行开发利用。近年来，文字的识别技术已相当成熟，特别是印刷体和标准手写体的汉字识别，已经实现了非常高的识别精准率。但是，相较于汉字识别技术，中国的少数民族文字识别明显落后于汉字识别，特...

【技术保护点】
1.一种基于卷积神经网络的水书手写文字识别方法，其特征在于包括以下步骤：/n1)进行水书文字数据集准备：将水书影印卷本的原始图片作为样本图片，对样本图片中的文字进行标注，制作数据集；/n2)进行水书文字数据集增强：为提高模型的鲁棒性，进行图片裁剪以扩增数据量，并加入随机噪声、进行色彩抖动以及PCA抖动对数据进行增强，增加数据样本的多样性，以应对复杂的识别场景；/n3)实验实施过程：为检验深度学习方法对水书文字识别适用与否，进行实例实验。/n

【技术特征摘要】
1.一种基于卷积神经网络的水书手写文字识别方法，其特征在于包括以下步骤：
1)进行水书文字数据集准备：将水书影印卷本的原始图片作为样本图片，对样本图片中的文字进行标注，制作数据集；
2)进行水书文字数据集增强：为提高模型的鲁棒性，进行图片裁剪以扩增数据量，并加入随机噪声、进行色彩抖动以及PCA抖动对数据进行增强，增加数据样本的多样性，以应对复杂的识别场景；
3)实验实施过程：为检验深度学习方法对水书文字识别适用与否，进行实例实验。

2.如权利要求1所述一种基于卷积神经网络的水书手写文字识别方法，其特征在于在步骤1)中，所述水书影印卷本采用《九星卷》、《九喷卷》、《阴阳五行卷》、《寅申卷》、《八探卷》、《正七卷》。

3.如权利要求1所述一种基于卷积神经网络的水书手写文字识别方法，其特征在于在步骤2)中，所述进行图片裁剪是将图片裁剪为1207×1803大小，以提高模型训练速度，同时扩大数据集中的图片数量，提高模型的鲁棒性。

4.如权利要求1所述一种基于卷积神经网络的水书手写文字识别方法，其特征在于在步骤2)中，所述加入随机噪声为高斯噪声、泊松噪声、椒盐噪声中的至少一种。

...

【专利技术属性】
技术研发人员：汤敏丽，刘向荣，谢少灵，
申请(专利权)人：厦门大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人