电子书转换处理方法、装置及计算机可读存储介质制造方法及图纸

技术编号：16176044 阅读：30 留言：0更新日期：2017-09-09 03:18

本公开是关于一种电子书转换处理方法、装置及计算机可读存储介质，所述方法包括：获取目标纸质书的目标图像；对所述目标图像进行图像识别，得到电子文本信息；通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息；根据所述电子文本信息和所述文本结构信息，生成针对所述目标纸质书的电子书。本公开通过文本结构信息识别，获得目标纸质书的文本结构信息，使得将目标纸质书转换为电子书时，不会丢失其文本结构信息。

全部详细技术资料下载

【技术实现步骤摘要】
电子书转换处理方法、装置及计算机可读存储介质
本公开涉及电子
，尤其涉及一种电子书转换处理方法、装置及计算机可读存储介质。
技术介绍
近年来文字识别技术不断发展，得到了越来越广泛的应用。对于纸质书，通过拍照、摄影、扫描等方式，可将纸质书转换为图片；然后再通过文字识别，识别出图片中的文字，从而将纸质书转换为电子书。相关技术中，当仅需转换纸质书的部分内容(例如，带标记的内容)为电子书时，得到的电子书为内容片段，内容片段所属的章、节、段落等结构层次信息会丢失。
技术实现思路
为克服相关技术中存在的问题，本公开提供一种电子书转换处理方法、装置及计算机可读存储介质。根据本公开实施例的第一方面，提供一种电子书转换处理方法，包括：获取目标纸质书的目标图像；对所述目标图像进行图像识别，得到电子文本信息；通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息；根据所述电子文本信息和所述文本结构信息，生成针对所述目标纸质书的电子书。优选地，所述通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息，包括：获取所述电子文本信息对应的文本格式，其中，所述文本格式包括字体、字号、行距、是否加粗和段落格式中的一者或多者；以及根据预设文本结构分类模型和所述文本格式，确定所述电子文本信息的文本结构信息。优选地，在所述根据预设文本结构分类模型和识别出的文字的文本格式，确定所述电子文本信息的文本结构信息之前，所述方法还包括：获取训练样本集，所述训练样本集中包括：所述目标纸质书的图像数据和所述图像数据所对应的文本结构信息；利用训练样本集对卷积神经网络进行训练，获得卷积神经网络的各...
电子书转换处理方法、装置及计算机可读存储介质

【技术保护点】
一种电子书转换处理方法，其特征在于，包括：获取目标纸质书的目标图像；对所述目标图像进行图像识别，得到电子文本信息；通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息；根据所述电子文本信息和所述文本结构信息，生成针对所述目标纸质书的电子书。

【技术特征摘要】
1.一种电子书转换处理方法，其特征在于，包括：获取目标纸质书的目标图像；对所述目标图像进行图像识别，得到电子文本信息；通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息；根据所述电子文本信息和所述文本结构信息，生成针对所述目标纸质书的电子书。2.根据权利要求1所述的方法，其特征在于，所述通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息，包括：获取所述电子文本信息对应的文本格式，其中，所述文本格式包括字体、字号、行距、是否加粗和段落格式中的一者或多者；以及根据预设文本结构分类模型和所述文本格式，确定所述电子文本信息的文本结构信息。3.根据权利要求2所述的方法，其特征在于，在所述根据预设文本结构分类模型和识别出的文字的文本格式，确定所述电子文本信息的文本结构信息之前，所述方法还包括：获取训练样本集，所述训练样本集中包括：所述目标纸质书的图像数据和所述图像数据所对应的文本结构信息；利用训练样本集对卷积神经网络进行训练，获得卷积神经网络的各层参数信息；根据所述各层参数信息构建所述预设文本结构分类模型。4.根据权利要求2所述的方法，其特征在于，所述方法还包括：获取所述电子文本信息中的笔记部分；将所述笔记部分以及所述笔记部分所对应的文本结构信息关联存储；以及当满足预设条件时，显示所述笔记部分以及所述笔记部分所对应的文本结构信息。5.一种电子书转换处理装置，其特征在于，包括：目标图像获取模块，被配置为获取目标纸质书的目标图像；电子文本信息获取模块，被配置为对所述目标图像进行图像识别，得到电子文本信息；结构信息确定模块，被配置为通过分析所述电子文本信息，确定所述电子文本信息的文本结构信息；电子书生成模块，被配置为根据所述电子文本...

【专利技术属性】
技术研发人员：高蕾，
申请(专利权)人：北京小米移动软件有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人