一种基于OCR识别技术的图书保存方法、系统及装置制造方法及图纸

技术编号：28747766 阅读：21 留言：0更新日期：2021-06-06 19:07

本发明专利技术公开了一种基于OCR识别技术的图书保存方法、系统及装置，该方法包括：获取待处理图书的文件信息并得到文件类型；判断到文件类型为图像文件，将图像文件输入到预训练的识别模型，对图像文件进行文字边界检测，得到文本块；划分文本块并提取文字特征，得到识别文字；将识别文字按预设规则保存至数据库。该系统包括：文件信息获取模块、文字边缘检测模块、识别模块和存储模块。该装置包括存储器以及用于执行上述基于OCR识别技术的图书保存方法的处理器。通过使用本发明专利技术，能够解将图书数字化存储，有助于用户存储、查找和下载图书。本发明专利技术作为一种基于OCR识别技术的图书保存方法、系统及装置，可广泛应用于文件数字化领域。可广泛应用于文件数字化领域。可广泛应用于文件数字化领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于OCR识别技术的图书保存方法、系统及装置

[0001]本专利技术涉及文件数字化领域，尤其涉及一种基于OCR识别技术的图书保存方法、系统及装置。

技术介绍

[0002]随着科技和互联网的发展，21世纪已经进入了大数据时代。每天都有成千上万本书出版。图书馆的库存也越来越大。显然将图书存放在纸质上已经不符合时代要求。针对如此庞大的书籍和学术论文，将其以数据的方式存放在数据库是必然要求。目前的保存方法是将纸质文档扫描成图像文件存放在电脑上，然而这种保存方法得到的文件不利于文字检索，增删改动和数据挖掘，也不利于将其长久存储在数据库。

技术实现思路

[0003]为了解决上述技术问题，本专利技术的目的是提供一种基于OCR识别技术的图书保存方法及系统，将图书数字化存储，有助于用户存储、查找和下载图书。
[0004]本专利技术所采用的第一技术方案是：一种基于OCR识别技术的图书保存方法，包括以下步骤：
[0005]获取待处理图书的文件信息并得到文件类型；
[0006]判断到文件类型为图像文件，将图像文件输入到预训练的识别模型，对图像文件进行文字边界检测，得到文本块；
[0007]划分文本块并提取文字特征，得到识别文字；
[0008]将识别文字按预设规则保存至数据库。
[0009]进一步，还包括：
[0010]判断到文件类型为PDF文件，寻找PDF中各个对象的内容并进行转换，得到识别文字；
[0011]将识别文字按预设规则保存至数据库。
[0...

【技术保护点】

【技术特征摘要】
1.一种基于OCR识别技术的图书保存方法，其特征在于，包括以下步骤：获取待处理图书的文件信息并得到文件类型；判断到文件类型为图像文件，将图像文件输入到预训练的识别模型，对图像文件进行文字边界检测，得到文本块；划分文本块并提取文字特征，得到识别文字；将识别文字按预设规则保存至数据库。2.根据权利要求1所述一种基于OCR识别技术的图书保存方法，其特征在于，还包括：判断到文件类型为PDF文件，寻找PDF中各个对象的内容并进行转换，得到识别文字；将识别文字按预设规则保存至数据库。3.根据权利要求2所述一种基于OCR识别技术的图书保存方法，其特征在于，所述预训练的识别模型的训练步骤具体包括：获取训练集并将训练集中的训练图像输入到识别模型；基于识别模型对训练图像进行文字识别，得到识别文字；根据识别文字和训练集中对应的图像文字进行比对，得到识别率；判断到识别率低于预设值，添加语义分析、词法和语法规则到识别模型并重新识别；判断到识别率大于预设值，得到预训练的识别模型。4.根据权利要求3所述一种基于OCR识别技术的图书保存方法，其特征在于，所述判断到文件类型为图像文件，将图像文件输入到预训练的识别模型，对图像文件进行文字边界检测，得到文本块这一步骤，其具体包括：判断到文件类型为图像文件，将图像文件输入到预训练的识别模型；基于轮廓搜索算法对图像文件中的图像逐张进行处理，得到文字边界；根据图像文件中每张图像的文字边界组成对应的文本块。5.根据权利要求4所述一种基于OC...

【专利技术属性】
技术研发人员：刘越畅，
申请(专利权)人：嘉应学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人