一种基于封面的书籍类型深度学习分类方法技术

技术编号:28321894 阅读:17 留言:0更新日期:2021-05-04 13:02
本发明专利技术涉及图书管理技术领域,更具体而言,涉及一种基于封面的书籍类型深度学习分类方法。包括以下步骤:S1、收集图书封面图像并制作训练数据集DTP;S2、将训练数据集DTP输入深度学习模型并进行训练;S3、使用S2所得到的深度学习模型对书籍进行分类。S2中,深度学习模型包括两个深度学习网络、一个全连接层和一个softmax分类器,基于视觉的深度学习网络使用残差神经网络模型,基于文本的深度学习网络使用通用句子编码器模型。本发明专利技术具有更高的分类准确率和更高的适用性和稳定性,能够对书籍进行快速,有效的分类,精度高,速度快。本发明专利技术主要应用与书籍类型分类方面。

【技术实现步骤摘要】
一种基于封面的书籍类型深度学习分类方法
本专利技术涉及图书管理
,更具体而言,涉及一种基于封面的书籍类型深度学习分类方法。
技术介绍
书的封面通常是读者的第一印象,它们经常传达关于书的内容的重要信息。随着图书的完全数字化进程的不断推进,基于封面的图书类型分类对于许多现代检索系统来说是一项极其重要的内容。解决此问题的主要难点如下:第一,书的体裁种类繁多,有很多没有具体界定;第二,书的封面,如颜色,风格,文本信息等,即使是同一类型的书之间,也具有很大的差异;第三,由于国家、文化、目标读者群体等外部因素的影响,书籍的封面设计也会有所不同。随着图书行业的竞争力日益增强,为了能吸引读者,图书封面设计师将封面设计推向了一个新的高度。广东技术师范大学蔡君等人在其申请的专利文献“一种基于深度学习的书脊文本识别方法、设备及存储介质”(申请号202010182949.3申请日2020.09.18申请公布号:CN111680684A)中公开了一种基于深度学习的书脊文本识别方法、设备及存储介质。该
技术实现思路
包括:制作合成书脊、单字多字体和真实书脊数据集;基于CTPN模型对单本书脊进行文本检测;针对文本模糊特点搭建基于ResNet10的书脊文本识别模型STRNet;针对字体多样特点制作SK-NNS分类器等。该专利技术的不足之处为:该专利技术仅是书籍的文字信息识别,并未直接进行书籍分类,识别文本后仍需人工进行书籍分类,故该专利技术在实际使用中具有很大的局限性。
技术实现思路
为克服上述现有技术中存在的不足,本专利技术提供了一种基于封面的书籍类型深度学习分类方法,该方法可能够靠、准确地对书籍进行分类。为解决上述技术问题,本专利技术采取的技术方案为:一种基于封面的书籍类型深度学习分类方法,包括以下步骤:S1、收集图书封面图像并制作训练数据集DTP;S2、将训练数据集DTP输入深度学习模型并进行训练;S3、使用S2所得到的深度学习模型对书籍进行分类。所述步骤S1中,操作步骤为:S1a、收集大量图书封面图像,根据体裁进行将这些图像分为30个类别并进行标注;S1b、将所有的图像调整到224×224的大小,得到图像数据DP;S1c、使用视觉应用编程接口对数据集进行文本提取,得到文本数据DT;S1d、将图像数据DP、文本数据DT和标注类别数据共同组成训练数据集DTP。所述步骤S2中,操作步骤为:S2a、将训练数据集DTP中的图像数据DP输入基于视觉的深度学习网络;S2b、将训练数据集DTP中的文本数据DT输入基于文本的深度学习网络;S2c、将两个深度学习的输出进行直接拼接合并,得到全连接层;S2d、将全连接层的数据直接输入softmax层进行分类;S2e、使用梯度下降方法进行反向传播,更新网络参数;S2f、训练结束后得到训练好的深度学习模型。所述步骤S3中,操作步骤为:S3a、将封面图片调整到统一的尺寸224×224,得到图像数据xP;S3b、使用谷歌云视觉应用编程接口对原始数据进行文本提取,得到文本数据xT;S3c、将图像数据xP和文本数据xT输入S2所得到的训练好的模型中进行分类,得到待分类书籍的类别。所述步骤S2中,深度学习模型包括两个深度学习网络、一个全连接层和一个softmax分类器,其中基于视觉的深度学习网络使用残差神经网络模型,基于文本的深度学习网络使用通用句子编码器模型。所述步骤S2e中,梯度下降方法为:其中,θj为神经网络的参数,α为自行设置的学习率,J(θ)为误差函数。与现有技术相比,本专利技术所具有的有益效果为:本专利技术能同时利用书籍封面中文本和图像两方面的信息进行书籍封面分类,故具有更高的分类准确率;本专利技术能够克服直接识别文字进行分类方法中可能产生的文字识别错误问题,故具有更高的适用性和稳定性。本专利技术能够对书籍进行快速,有效的分类,精度高,速度快,显著提高了处理效率。附图说明图1为本专利技术的深度学习网络结构图。具体实施方式下面对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,一种基于封面的书籍类型深度学习分类方法,包括以下步骤:S1、收集图书封面图像并制作训练数据集DTP;S2、将训练数据集DTP输入深度学习模型并进行训练;S3、使用S2所得到的深度学习模型对书籍进行分类。优选的,步骤S1中,操作步骤为:S1a、收集大量图书封面图像,根据体裁进行将这些图像分为30个类别并进行标注;S1b、将所有的图像调整到224×224的大小,得到图像数据DP;S1c、使用视觉应用编程接口对数据集进行文本提取,得到文本数据DT,视觉应用编程接口采用谷歌云视觉应用编程接口;S1d、将图像数据DP、文本数据DT和标注类别数据共同组成训练数据集DTP。优选的,步骤S2中,操作步骤为:S2a、将训练数据集DTP中的图像数据DP输入基于视觉的深度学习网络;S2b、将训练数据集DTP中的文本数据DT输入基于文本的深度学习网络;S2c、将两个深度学习的输出进行直接拼接合并,得到全连接层;S2d、将全连接层的数据直接输入softmax层进行分类;S2e、使用梯度下降方法进行反向传播,更新网络参数;S2f、训练结束后得到训练好的深度学习模型。优选的,步骤S3中,操作步骤为:S3a、将封面图片调整到统一的尺寸224×224,得到图像数据xP;S3b、使用谷歌云视觉应用编程接口对原始数据进行文本提取,得到文本数据xT;S3c、将图像数据xP和文本数据xT输入S2所得到的训练好的模型中进行分类,得到待分类书籍的类别。优选的,步骤S2中,深度学习模型包括两个深度学习网络、一个全连接层和一个softmax分类器,其中基于视觉的深度学习网络使用残差神经网络(ResNet-50)模型,基于文本的深度学习网络使用通用句子编码器(USE)模型。优选的,步骤S2e中,梯度下降方法为:其中,θj为神经网络的参数,α为自行设置的学习率,J(θ)为误差函数。该方法首先对数据进行预处理,得到书籍封面的图像数据和文本数据,其次将数据分别输入残差网络模型和通用句子编码器中,从图像和文本两种角度对书籍封面进行特征提取,然后将两个网络的输出进行简单拼接,最后将其输入softmax层对书籍封面进行分类。上面仅对本专利技术的较佳实施例作了详细说明,但是本专利技术并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本专利技术宗旨的前提下作出各种变化,各种变化均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种基于封面的书籍类型深度学习分类方法,其特征在于,包括以下步骤:/nS1、收集图书封面图像并制作训练数据集DTP;/nS2、将训练数据集DTP输入深度学习模型并进行训练;/nS3、使用S2所得到的深度学习模型对书籍进行分类。/n

【技术特征摘要】
1.一种基于封面的书籍类型深度学习分类方法,其特征在于,包括以下步骤:
S1、收集图书封面图像并制作训练数据集DTP;
S2、将训练数据集DTP输入深度学习模型并进行训练;
S3、使用S2所得到的深度学习模型对书籍进行分类。


2.根据权利要求1所述的一种基于封面的书籍类型深度学习分类方法,其特征在于:所述步骤S1中,操作步骤为:
S1a、收集大量图书封面图像,根据体裁进行将这些图像分为30个类别并进行标注;
S1b、将所有的图像调整到224×224的大小,得到图像数据DP;
S1c、使用视觉应用编程接口对数据集进行文本提取,得到文本数据DT;
S1d、将图像数据DP、文本数据DT和标注类别数据共同组成训练数据集DTP。


3.根据权利要求1所述的一种基于封面的书籍类型深度学习分类方法,其特征在于:所述步骤S2中,操作步骤为:
S2a、将训练数据集DTP中的图像数据DP输入基于视觉的深度学习网络;
S2b、将训练数据集DTP中的文本数据DT输入基于文本的深度学习网络;
S2c、将两个深度学习的输出进行直接拼接合并,得到全连接层;
...

【专利技术属性】
技术研发人员:潘晓光潘晓辉王小华张娜董虎弟
申请(专利权)人:山西三友和智慧信息技术股份有限公司
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1