The invention discloses a document format conversion system and method, the document format conversion system including image acquisition module, conversion module, text text image mapping module; for every page of the document into the picture format of the image data conversion module; text acquisition module state information to obtain the document text, each page the text in the picture; to generate each page of text and picture information corresponding to the mapping table for text image mapping module, the table contains the state information of each text in the picture. The invention can avoid the problem of reading documents because of not installing a web page plug-in.
【技术实现步骤摘要】
本专利技术属于计算机
,涉及一种格式转化系统,尤其涉及一种文档格式转化系统;此外,本专利技术还涉及上述文档格式转化系统的转化方法。
技术介绍
如今,计算机用户可通过网络看各类电子书,如WORD、TXT、PDF等格式的文件。现有的通常做法是把文本制作成超文本标记语言HTML的格式。如中国专利CN200510125040.X提供了一种用于将格式化文档转化为网页的系统和方法,用于将文档转换为网页的系统和方法可包括映射模块,它被编程为将文档的文档样式映射到网页的样式。该系统也可包括转化模块,它被编程为基于该映射模块的映射将文档的内容转化为超文本标记语言;以及呈现模块,它被编程为基于该超文本标记语言呈现该网页。该方法可包括将文档中的文档样式映射到网页的样式、基于该映射将文档的内容转化为超文本标记语言、以及根据该超文本标记语言来呈现网页。 这种实现方案遇到复杂的文本,排版复杂。如,无法编辑文字的字体;再如,遇到既包含有文字又包含有图片格式的信息,需要对文字制作成超文本标记语言HTML的格式,对图片制作成图片格式,排版复杂,难以完美呈现。 另外,现在大部分读者使用Off ...
【技术保护点】
一种文档格式转化系统,其特征在于,该系统包括: 图片转化模块,用以把文档的每一页转为图片格式的数据; 文字获取模块,用以获取文档每一页的文字、各文字在图片中的状态信息; 文字图像映射模块,用以生成各页文字信息与图片所对应的映射表,该表中包含有各文字在图片中的状态信息; 所述图片转化模块、文字获取模块把每一个文档的每一页转换为一张无损图片文件和一个包含该页所有文字信息的文本文件,图片文件用于在网页上显示,文本文件用于文档的全文搜索;为了能够提取在图片选择区域中的文字,在转换时,所述文字图像映射模块生成一张文字图像映射表,该表中定了所有文字在图片中的状态 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:陆昀,
申请(专利权)人:上海传知信息科技发展有限公司,
类型:发明
国别省市:31[中国|上海]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。