当前位置: 首页 > 专利查询>嘉应学院专利>正文

一种基于OCR识别技术的图书保存方法、系统及装置制造方法及图纸

技术编号:28747766 阅读:21 留言:0更新日期:2021-06-06 19:07
本发明专利技术公开了一种基于OCR识别技术的图书保存方法、系统及装置,该方法包括:获取待处理图书的文件信息并得到文件类型;判断到文件类型为图像文件,将图像文件输入到预训练的识别模型,对图像文件进行文字边界检测,得到文本块;划分文本块并提取文字特征,得到识别文字;将识别文字按预设规则保存至数据库。该系统包括:文件信息获取模块、文字边缘检测模块、识别模块和存储模块。该装置包括存储器以及用于执行上述基于OCR识别技术的图书保存方法的处理器。通过使用本发明专利技术,能够解将图书数字化存储,有助于用户存储、查找和下载图书。本发明专利技术作为一种基于OCR识别技术的图书保存方法、系统及装置,可广泛应用于文件数字化领域。可广泛应用于文件数字化领域。可广泛应用于文件数字化领域。

【技术实现步骤摘要】
一种基于OCR识别技术的图书保存方法、系统及装置


[0001]本专利技术涉及文件数字化领域,尤其涉及一种基于OCR识别技术的图书保存方法、系统及装置。

技术介绍

[0002]随着科技和互联网的发展,21世纪已经进入了大数据时代。每天都有成千上万本书出版。图书馆的库存也越来越大。显然将图书存放在纸质上已经不符合时代要求。针对如此庞大的书籍和学术论文,将其以数据的方式存放在数据库是必然要求。目前的保存方法是将纸质文档扫描成图像文件存放在电脑上,然而这种保存方法得到的文件不利于文字检索,增删改动和数据挖掘,也不利于将其长久存储在数据库。

技术实现思路

[0003]为了解决上述技术问题,本专利技术的目的是提供一种基于OCR识别技术的图书保存方法及系统,将图书数字化存储,有助于用户存储、查找和下载图书。
[0004]本专利技术所采用的第一技术方案是:一种基于OCR识别技术的图书保存方法,包括以下步骤:
[0005]获取待处理图书的文件信息并得到文件类型;
[0006]判断到文件类型为图像文件,将图像文件输入到预训练的识别模型,对图像文件进行文字边界检测,得到文本块;
[0007]划分文本块并提取文字特征,得到识别文字;
[0008]将识别文字按预设规则保存至数据库。
[0009]进一步,还包括:
[0010]判断到文件类型为PDF文件,寻找PDF中各个对象的内容并进行转换,得到识别文字;
[0011]将识别文字按预设规则保存至数据库。
[0012]进一步,所述预训练的识别模型的训练步骤具体包括:
[0013]获取训练集并将训练集中的训练图像输入到识别模型;
[0014]基于识别模型对训练图像进行文字识别,得到识别文字;
[0015]根据识别文字和训练集中对应的图像文字进行比对,得到识别率;
[0016]判断到识别率低于预设值,添加语义分析、词法和语法规则到识别模型并重新识别;
[0017]判断到识别率大于预设值,得到预训练的识别模型。
[0018]进一步,所述判断到文件类型为图像文件,将图像文件输入到预训练的识别模型,对图像文件进行文字边界检测,得到文本块这一步骤,其具体包括:
[0019]判断到文件类型为图像文件,将图像文件输入到预训练的识别模型;
[0020]基于轮廓搜索算法对图像文件中的图像逐张进行处理,得到文字边界;
[0021]根据图像文件中每张图像的文字边界组成对应的文本块。
[0022]进一步,所述判断到文件类型为PDF文件,寻找PDF中各个对象的内容并进行转换,得到识别文字这一步骤,其具体还包括:
[0023]判断到文件类型为PDF文件,加载PDF文件并根据PDF文件得到文件体信息和交叉引用表;
[0024]基于交叉引用表对文件体信息进行分离,得到各个对象内容;
[0025]对各个对象的内容进行转换,得到识别文字。
[0026]进一步,所述将识别文字按预设规则保存至数据库这一步骤,其具体包括:
[0027]根据识别文字确定图书的书名信息、作者信息、摘要信息、内容信息和参考文献信息;
[0028]将图书的书名信息、作者信息、摘要信息、内容信息和参考文献信息互相关联,并保存至数据库。
[0029]本专利技术所采用的第二技术方案是:一种基于OCR识别技术的图书保存系统,包括:
[0030]文件信息获取模块,用于获取待处理图书的文件信息并得到文件类型;
[0031]文字边缘检测模块,用于判断到文件类型为图像文件,将图像文件输入到预训练的识别模型,对图像文件进行文字边界检测,得到文本块;
[0032]识别模块,用于划分文本块并提取文字特征,得到识别文字;
[0033]存储模块,用于将识别文字按预设规则保存至数据库。
[0034]进一步,还包括:
[0035]PDF内容转换模块,用于判断到文件类型为PDF文件,寻找PDF中各个对象的内容并进行转换,得到识别文字。
[0036]本专利技术所采用的第三技术方案是:一种基于OCR识别技术的图书保存装置,包括:
[0037]至少一个处理器;
[0038]至少一个存储器,用于存储至少一个程序;
[0039]当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种基于OCR识别技术的图书保存方法。
[0040]本专利技术方法、系统及装置的有益效果是:本专利技术先对图书的保存的文件类型进行判断,基于不同的文件类型选择对应的文字识别方法,识别得到图书信息后将图书信息按照预设鬼色保存在数据库,在保证将图书进行长久保存同时方便用户对图书进行查找、修订和下载。
附图说明
[0041]图1是本专利技术一种基于OCR识别技术的图书保存方法的步骤流程图;
[0042]图2是本专利技术一种基于OCR识别技术的图书保存系统的结构框图;
[0043]图3是本专利技术具体实施例关联存储方式的示意图。
具体实施方式
[0044]下面结合附图和具体实施例对本专利技术做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各
步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0045]参照图1,本专利技术提供了一种基于OCR识别技术的图书保存,该方法包括以下步骤:
[0046]获取待处理图书的文件信息并得到文件类型;
[0047]判断到文件类型为图像文件,将图像文件输入到预训练的识别模型,对图像文件进行文字边界检测,得到文本块;
[0048]划分文本块并提取文字特征,得到识别文字;
[0049]具体地,对文本块进行分割和提取文字特征,根据文字特征识别出每一个文字。
[0050]将识别文字按预设规则保存至数据库。
[0051]进一步作为本方法的优选实施例,还包括:
[0052]判断到文件类型为PDF文件,寻找PDF中各个对象的内容并进行转换,得到识别文字;
[0053]将识别文字按预设规则保存至数据库。
[0054]进一步作为本方法的优选实施例,所述预训练的识别模型的训练步骤具体包括:
[0055]获取训练集并将训练集中的训练图像输入到识别模型;
[0056]基于识别模型对训练图像进行文字识别,得到识别文字;
[0057]根据识别文字和训练集中对应的图像文字进行比对,得到识别率;
[0058]判断到识别率低于预设值,添加语义分析、词法和语法规则到识别模型并重新识别;
[0059]判断到识别率大于预设值,得到预训练的识别模型。
[0060]具体地,通过多次循环矫正以提高文字识别率。
[0061]进一步作为本方法优选实施例,所述判断到文件类型为图像文件,将图像文件输入到预训练的识别模型,对图像文件进行文字边本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR识别技术的图书保存方法,其特征在于,包括以下步骤:获取待处理图书的文件信息并得到文件类型;判断到文件类型为图像文件,将图像文件输入到预训练的识别模型,对图像文件进行文字边界检测,得到文本块;划分文本块并提取文字特征,得到识别文字;将识别文字按预设规则保存至数据库。2.根据权利要求1所述一种基于OCR识别技术的图书保存方法,其特征在于,还包括:判断到文件类型为PDF文件,寻找PDF中各个对象的内容并进行转换,得到识别文字;将识别文字按预设规则保存至数据库。3.根据权利要求2所述一种基于OCR识别技术的图书保存方法,其特征在于,所述预训练的识别模型的训练步骤具体包括:获取训练集并将训练集中的训练图像输入到识别模型;基于识别模型对训练图像进行文字识别,得到识别文字;根据识别文字和训练集中对应的图像文字进行比对,得到识别率;判断到识别率低于预设值,添加语义分析、词法和语法规则到识别模型并重新识别;判断到识别率大于预设值,得到预训练的识别模型。4.根据权利要求3所述一种基于OCR识别技术的图书保存方法,其特征在于,所述判断到文件类型为图像文件,将图像文件输入到预训练的识别模型,对图像文件进行文字边界检测,得到文本块这一步骤,其具体包括:判断到文件类型为图像文件,将图像文件输入到预训练的识别模型;基于轮廓搜索算法对图像文件中的图像逐张进行处理,得到文字边界;根据图像文件中每张图像的文字边界组成对应的文本块。5.根据权利要求4所述一种基于OC...

【专利技术属性】
技术研发人员:刘越畅
申请(专利权)人:嘉应学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1