基于深度学习的中文纸质书籍阅读方法及设备方法及设备技术

技术编号：35188332 阅读：17 留言：0更新日期：2022-10-12 18:02

本发明专利技术提供了一种基于深度学习的中文纸质书籍阅读方法及设备方法及设备。所述方法包括：步骤S1至步骤S6。本发明专利技术通过OCR与语言合成技术将纸质书籍的文字转化为中文音频流，使得视障人士能够快速了解书籍的内容，极大满足了视障人士对文化知识的需求，也可用于帮助尚在识字的儿童阅读各类纸质书籍，提高儿童的知识文化水平。文化水平。文化水平。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的中文纸质书籍阅读方法及设备方法及设备

[0001]本专利技术实施例涉及图像识别
，尤其涉及一种基于深度学习的中文纸质书籍阅读方法及设备方法及设备。

技术介绍

[0002]光学字符识别(Optical Character Recognition，OCR)技术是指通过电子设备(例如扫描仪或数码相机)获得纸质文档的图像，将图像中的字符串按一定方式切分成多个子图，然后按一定方法分别对切分后的子图进行文字识别，得到纸质文档中的文字的技术。现有的OCR技术因为待识别图片中文字大小、文字数量等因素，只能较为准确地识别身份证、银行卡等文字较大、文字数量较少的图片，但是对图书资料的识别效果较差。现有的OCR技术在处理纸质图书这类具有较小文字和较多文字的图片时及其容易出现识别不清、识别混淆的情况，对于有阅读需求的视力障碍人群也难以使用。因此，开发一种基于深度学习的中文纸质书籍阅读方法及设备方法及设备，可以有效克服上述相关技术中的缺陷，就成为业界亟待解决的技术问题。

技术实现思路

[0003]针对现有技术存在的上述问题，本专利技术实施例提供了一种基于深度学习的中文纸质书籍阅读方法及设备方法及设备。
[0004]第一方面，本专利技术的实施例提供了一种基于深度学习的中文纸质书籍阅读方法及设备方法，包括：S1、OCR深度学习模型的训练，采集不同大小不同类型的图书文字图片，对图书文字图片进行去噪和二值化处理后生成训练样本集，利用训练样本集对文本检测深度学习模型和文本识别深度学习模型进行深度学习训练，得到...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的中文纸质书籍阅读方法及设备方法，其特征在于，包括：S1、OCR深度学习模型的训练，采集不同大小不同类型的图书文字图片，对图书文字图片进行去噪和二值化处理后生成训练样本集，利用训练样本集对文本检测深度学习模型和文本识别深度学习模型进行深度学习训练，得到文本检测深度学习模型和文本识别深度学习模型，将两个模型结合得到OCR深度学习模型；S2、中文语音合成模型的训练，采用包含文本标签的中文语音数据作为语言合成模型的训练样本集，通过所述训练样本集并采用有监督学习的训练方法对模型进行训练，得到中文语音合成模型；S3、图像获取，利用摄像头设备通过无线传输或有线传输获取清晰的纸质图书的正面页面的图像；S4、图像预处理，调整图像的对比度和亮度至预设程度；对图像采用高斯滤波器去除高斯噪声，使用双峰进行图像二值化处理，使图像转化为灰度图；对图像进行边缘检测获取图像的边缘图像，计算边缘图像的倾角，根据倾角校正边缘图像的角度使图像垂直于整张图片；计算边缘图像与整体图片边缘的距离，根据所述距离调整边缘图像的位置，使边缘图像位于正中央得到预处理图像；S5、双页图书的判断及分割，根据预处理图像的大小获取图像的中线，计算中线区域的平均灰度值，根据中线区域的平均灰度值判断图书是否为双页；若图书为双页则将其沿中线进行分割得到两张图像后执行步骤S6，若为单页则直接执行步骤S6；S6、对预处理后的图像文字识别，利用OCR深度学习模型对图像进行识别并输出结果。2.根据权利要求1所述的基于深度学习的中文纸质书籍阅读方法及设备方法，其特征在于，步骤S1中的OCR深度学习模型的训练，包括：S1.1、利用训练样本集对开源的文本检测深度学习预训练模型加以训练，得到文本检测深度学习模型；S1.2、利用文本检测深度学习模型在训练样本集上进行预测，得到的预测集作为新的训练样本集；S1.3、利用新的训练样本集对开源的文本识别深度学习预训练模型加以训练，得到文本识别深度学习模型。3.根据权利要求2所述的基于深度学习的中文纸质书籍阅读方法及设备方法，其特征在于，步骤S2中的采用有监督学习的训练方法对模型进行训练，包括：S2.1、获取所述包含文本标签的中文语音数据；S2.2、将所述包含文本标签的中文语音数据输入待训练的语言合成模型，以有监督学习的方法，得到中文语音合成模型。4.根据权利要求3所述的基于深度学习的中文纸质书籍阅读方法及设备方法，其特征在于，步骤S4中的所述对图像通过高斯滤波去除噪声，包括以下步骤：S4.1、使用高斯滤波器对图像的每一像素点和邻域内的其他像素值进行加权平均，获得各像素点的像素均值；S4.2、利用所述各像素点的均值作为对应像素点的新值，以此来去除噪声。5.根据权利要求4所述的基于深度学习的中文纸质书籍阅读方法及设备方法，其特征在于，步骤S4中的使用双峰进行图像二值化处理，使图像转化为灰度图，包括：选取图像灰度级直方图双峰间的最低谷出作为图像分割的阈值，并根据阈值将图像的每个像素点的灰度值设置为0或255，实现对图像的二值化处理。6....

【专利技术属性】
技术研发人员：覃浩平，覃宏昌，李文博，刘岚，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人