当前位置: 首页 > 专利查询>武汉大学专利>正文

基于深度学习的中文纸质书籍阅读方法及设备方法及设备技术

技术编号:35188332 阅读:17 留言:0更新日期:2022-10-12 18:02
本发明专利技术提供了一种基于深度学习的中文纸质书籍阅读方法及设备方法及设备。所述方法包括:步骤S1至步骤S6。本发明专利技术通过OCR与语言合成技术将纸质书籍的文字转化为中文音频流,使得视障人士能够快速了解书籍的内容,极大满足了视障人士对文化知识的需求,也可用于帮助尚在识字的儿童阅读各类纸质书籍,提高儿童的知识文化水平。文化水平。文化水平。

【技术实现步骤摘要】
基于深度学习的中文纸质书籍阅读方法及设备方法及设备


[0001]本专利技术实施例涉及图像识别
,尤其涉及一种基于深度学习的中文纸质书籍阅读方法及设备方法及设备。

技术介绍

[0002]光学字符识别(Optical Character Recognition,OCR)技术是指通过电子设备(例如扫描仪或数码相机)获得纸质文档的图像,将图像中的字符串按一定方式切分成多个子图,然后按一定方法分别对切分后的子图进行文字识别,得到纸质文档中的文字的技术。现有的OCR技术因为待识别图片中文字大小、文字数量等因素,只能较为准确地识别身份证、银行卡等文字较大、文字数量较少的图片,但是对图书资料的识别效果较差。现有的OCR技术在处理纸质图书这类具有较小文字和较多文字的图片时及其容易出现识别不清、识别混淆的情况,对于有阅读需求的视力障碍人群也难以使用。因此,开发一种基于深度学习的中文纸质书籍阅读方法及设备方法及设备,可以有效克服上述相关技术中的缺陷,就成为业界亟待解决的技术问题。

技术实现思路

[0003]针对现有技术存在的上述问题,本专利技术实施例提供了一种基于深度学习的中文纸质书籍阅读方法及设备方法及设备。
[0004]第一方面,本专利技术的实施例提供了一种基于深度学习的中文纸质书籍阅读方法及设备方法,包括:S1、OCR深度学习模型的训练,采集不同大小不同类型的图书文字图片,对图书文字图片进行去噪和二值化处理后生成训练样本集,利用训练样本集对文本检测深度学习模型和文本识别深度学习模型进行深度学习训练,得到文本检测深度学习模型和文本识别深度学习模型,将两个模型结合得到OCR深度学习模型;S2、中文语音合成模型的训练,采用包含文本标签的中文语音数据作为语言合成模型的训练样本集,通过所述训练样本集并采用有监督学习的训练方法对模型进行训练,得到中文语音合成模型;S3、图像获取,利用摄像头设备通过无线传输或有线传输获取清晰的纸质图书的正面页面的图像;S4、图像预处理,调整图像的对比度和亮度至预设程度;对图像采用高斯滤波器去除高斯噪声,使用双峰进行图像二值化处理,使图像转化为灰度图;对图像进行边缘检测获取图像的边缘图像,计算边缘图像的倾角,根据倾角校正边缘图像的角度使图像垂直于整张图片;计算边缘图像与整体图片边缘的距离,根据所述距离调整边缘图像的位置,使边缘图像位于正中央得到预处理图像;S5、双页图书的判断及分割,根据预处理图像的大小获取图像的中线,计算中线区域的平均灰度值,根据中线区域的平均灰度值判断图书是否为双页;若图书为双页则将其沿中线进行分割得到两张图像后执行步骤S6,若为单页则直接执行步骤S6;S6、对预处理后的图像文字识别,利用OCR深度学习模型对图像进行识别并输出结果。
[0005]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于深度学习的中文纸质书籍阅读方法及设备方法,步骤S1中的OCR深度学习模型的训练,包括:S1.1、利用训练样
本集对开源的文本检测深度学习预训练模型加以训练,得到文本检测深度学习模型;S1.2、利用文本检测深度学习模型在训练样本集上进行预测,得到的预测集作为新的训练样本集;S1.3、利用新的训练样本集对开源的文本识别深度学习预训练模型加以训练,得到文本识别深度学习模型。
[0006]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于深度学习的中文纸质书籍阅读方法及设备方法,步骤S2中的采用有监督学习的训练方法对模型进行训练,包括:S2.1、获取所述包含文本标签的中文语音数据;S2.2、将所述包含文本标签的中文语音数据输入待训练的语言合成模型,以有监督学习的方法,得到中文语音合成模型。
[0007]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于深度学习的中文纸质书籍阅读方法及设备方法,步骤S4中的所述对图像通过高斯滤波去除噪声,包括以下步骤:S4.1、使用高斯滤波器对图像的每一像素点和邻域内的其他像素值进行加权平均,获得各像素点的像素均值;S4.2、利用所述各像素点的均值作为对应像素点的新值,以此来去除噪声。
[0008]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于深度学习的中文纸质书籍阅读方法及设备方法,步骤S4中的使用双峰进行图像二值化处理,使图像转化为灰度图,包括:选取图像灰度级直方图双峰间的最低谷出作为图像分割的阈值,并根据阈值将图像的每个像素点的灰度值设置为0或255,实现对图像的二值化处理。
[0009]在上述方法实施例内容的基础上,本专利技术实施例中提供的基于深度学习的中文纸质书籍阅读方法及设备方法,在步骤S6之后还包括:S7、对识别出的文字语音合成,将所述文本数据输入中文语音合成模型中,由中文语音合成模型输出对应的中文音频流,生成语音进行播放,对输出的中文音频流的音量进行调节。
[0010]第二方面,本专利技术的实施例提供了一种基于深度学习的中文纸质书籍阅读方法及设备系统,包括:图书图像获取模块,用于获取纸质图书的正面页面图像;图像处理模块,用于对图书图像进行预处理以及对双页书籍的图像进行分割;文字识别模块,使用经过训练的OCR深度学习模型对预处理后图书图像进行识别,获取图书文字的文本数据;语音播报模块,使用经过训练的多语言合成模型将图书文字的文本数据转化为音频流,并将音频流播放;中央处理模块,用于实现如前述任一方法实施例所述的基于深度学习的中文纸质书籍阅读方法及设备方法。
[0011]第三方面,本专利技术的实施例提供了一种基于深度学习的中文纸质书籍阅读方法及设备装置,包括:第一主模块,用于实现S1、OCR深度学习模型的训练,采集不同大小不同类型的图书文字图片,对图书文字图片进行去噪和二值化处理后生成训练样本集,利用训练样本集对文本检测深度学习模型和文本识别深度学习模型进行深度学习训练,得到文本检测深度学习模型和文本识别深度学习模型,将两个模型结合得到OCR深度学习模型;第二主模块,用于实现S2、中文语音合成模型的训练,采用包含文本标签的中文语音数据作为语言合成模型的训练样本集,通过所述训练样本集并采用有监督学习的训练方法对模型进行训练,得到中文语音合成模型;第三主模块,用于实现S3、图像获取,利用摄像头设备通过无线传输或有线传输获取清晰的纸质图书的正面页面的图像;第四主模块,用于实现S4、图像预处理,调整图像的对比度和亮度至预设程度;对图像采用高斯滤波器去除高斯噪声,使用双峰进行图像二值化处理,使图像转化为灰度图;对图像进行边缘检测获取图像的边缘图像,
计算边缘图像的倾角,根据倾角校正边缘图像的角度使图像垂直于整张图片;计算边缘图像与整体图片边缘的距离,根据所述距离调整边缘图像的位置,使边缘图像位于正中央得到预处理图像;第五主模块,用于实现S5、双页图书的判断及分割,根据预处理图像的大小获取图像的中线,计算中线区域的平均灰度值,根据中线区域的平均灰度值判断图书是否为双页;若图书为双页则将其沿中线进行分割得到两张图像后执行步骤S6,若为单页则直接执行步骤S6;第六主模块,用于实现S6、对预处理后的图像文字识别,利用OCR深本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的中文纸质书籍阅读方法及设备方法,其特征在于,包括:S1、OCR深度学习模型的训练,采集不同大小不同类型的图书文字图片,对图书文字图片进行去噪和二值化处理后生成训练样本集,利用训练样本集对文本检测深度学习模型和文本识别深度学习模型进行深度学习训练,得到文本检测深度学习模型和文本识别深度学习模型,将两个模型结合得到OCR深度学习模型;S2、中文语音合成模型的训练,采用包含文本标签的中文语音数据作为语言合成模型的训练样本集,通过所述训练样本集并采用有监督学习的训练方法对模型进行训练,得到中文语音合成模型;S3、图像获取,利用摄像头设备通过无线传输或有线传输获取清晰的纸质图书的正面页面的图像;S4、图像预处理,调整图像的对比度和亮度至预设程度;对图像采用高斯滤波器去除高斯噪声,使用双峰进行图像二值化处理,使图像转化为灰度图;对图像进行边缘检测获取图像的边缘图像,计算边缘图像的倾角,根据倾角校正边缘图像的角度使图像垂直于整张图片;计算边缘图像与整体图片边缘的距离,根据所述距离调整边缘图像的位置,使边缘图像位于正中央得到预处理图像;S5、双页图书的判断及分割,根据预处理图像的大小获取图像的中线,计算中线区域的平均灰度值,根据中线区域的平均灰度值判断图书是否为双页;若图书为双页则将其沿中线进行分割得到两张图像后执行步骤S6,若为单页则直接执行步骤S6;S6、对预处理后的图像文字识别,利用OCR深度学习模型对图像进行识别并输出结果。2.根据权利要求1所述的基于深度学习的中文纸质书籍阅读方法及设备方法,其特征在于,步骤S1中的OCR深度学习模型的训练,包括:S1.1、利用训练样本集对开源的文本检测深度学习预训练模型加以训练,得到文本检测深度学习模型;S1.2、利用文本检测深度学习模型在训练样本集上进行预测,得到的预测集作为新的训练样本集;S1.3、利用新的训练样本集对开源的文本识别深度学习预训练模型加以训练,得到文本识别深度学习模型。3.根据权利要求2所述的基于深度学习的中文纸质书籍阅读方法及设备方法,其特征在于,步骤S2中的采用有监督学习的训练方法对模型进行训练,包括:S2.1、获取所述包含文本标签的中文语音数据;S2.2、将所述包含文本标签的中文语音数据输入待训练的语言合成模型,以有监督学习的方法,得到中文语音合成模型。4.根据权利要求3所述的基于深度学习的中文纸质书籍阅读方法及设备方法,其特征在于,步骤S4中的所述对图像通过高斯滤波去除噪声,包括以下步骤:S4.1、使用高斯滤波器对图像的每一像素点和邻域内的其他像素值进行加权平均,获得各像素点的像素均值;S4.2、利用所述各像素点的均值作为对应像素点的新值,以此来去除噪声。5.根据权利要求4所述的基于深度学习的中文纸质书籍阅读方法及设备方法,其特征在于,步骤S4中的使用双峰进行图像二值化处理,使图像转化为灰度图,包括:选取图像灰度级直方图双峰间的最低谷出作为图像分割的阈值,并根据阈值将图像的每个像素点的灰度值设置为0或255,实现对图像的二值化处理。6....

【专利技术属性】
技术研发人员:覃浩平覃宏昌李文博刘岚
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1