【技术实现步骤摘要】
电子书转换处理方法、装置及计算机可读存储介质
本公开涉及电子
,尤其涉及一种电子书转换处理方法、装置及计算机可读存储介质。
技术介绍
近年来文字识别技术不断发展,得到了越来越广泛的应用。对于纸质书,通过拍照、摄影、扫描等方式,可将纸质书转换为图片;然后再通过文字识别,识别出图片中的文字,从而将纸质书转换为电子书。相关技术中,当仅需转换纸质书的部分内容(例如,带标记的内容)为电子书时,得到的电子书为内容片段,内容片段所属的章、节、段落等结构层次信息会丢失。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种电子书转换处理方法、装置及计算机可读存储介质。根据本公开实施例的第一方面,提供一种电子书转换处理方法,包括:获取目标纸质书的目标图像;对所述目标图像进行图像识别,得到电子文本信息;通过分析所述电子文本信息,确定所述电子文本信息的文本结构信息;根据所述电子文本信息和所述文本结构信息,生成针对所述目标纸质书的电子书。优选地,所述通过分析所述电子文本信息,确定所述电子文本信息的文本结构信息,包括:获取所述电子文本信息对应的文本格式,其中,所述文本格式包括字体、字 ...
【技术保护点】
一种电子书转换处理方法,其特征在于,包括:获取目标纸质书的目标图像;对所述目标图像进行图像识别,得到电子文本信息;通过分析所述电子文本信息,确定所述电子文本信息的文本结构信息;根据所述电子文本信息和所述文本结构信息,生成针对所述目标纸质书的电子书。
【技术特征摘要】
1.一种电子书转换处理方法,其特征在于,包括:获取目标纸质书的目标图像;对所述目标图像进行图像识别,得到电子文本信息;通过分析所述电子文本信息,确定所述电子文本信息的文本结构信息;根据所述电子文本信息和所述文本结构信息,生成针对所述目标纸质书的电子书。2.根据权利要求1所述的方法,其特征在于,所述通过分析所述电子文本信息,确定所述电子文本信息的文本结构信息,包括:获取所述电子文本信息对应的文本格式,其中,所述文本格式包括字体、字号、行距、是否加粗和段落格式中的一者或多者;以及根据预设文本结构分类模型和所述文本格式,确定所述电子文本信息的文本结构信息。3.根据权利要求2所述的方法,其特征在于,在所述根据预设文本结构分类模型和识别出的文字的文本格式,确定所述电子文本信息的文本结构信息之前,所述方法还包括:获取训练样本集,所述训练样本集中包括:所述目标纸质书的图像数据和所述图像数据所对应的文本结构信息;利用训练样本集对卷积神经网络进行训练,获得卷积神经网络的各层参数信息;根据所述各层参数信息构建所述预设文本结构分类模型。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取所述电子文本信息中的笔记部分;将所述笔记部分以及所述笔记部分所对应的文本结构信息关联存储;以及当满足预设条件时,显示所述笔记部分以及所述笔记部分所对应的文本结构信息。5.一种电子书转换处理装置,其特征在于,包括:目标图像获取模块,被配置为获取目标纸质书的目标图像;电子文本信息获取模块,被配置为对所述目标图像进行图像识别,得到电子文本信息;结构信息确定模块,被配置为通过分析所述电子文本信息,确定所述电子文本信息的文本结构信息;电子书生成模块,被配置为根据所述电子文本...
【专利技术属性】
技术研发人员:高蕾,
申请(专利权)人:北京小米移动软件有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。