一种文档转网页格式的方法技术

技术编号:34921446 阅读:39 留言:0更新日期:2022-09-15 07:13
本发明专利技术公开了一种文档转网页格式的方法,包括选取待转换文件并判断文件名的后缀,根据后缀名来使用对应的解析控件进行解析;对解析后的对象进行循环;根据对象类型为段落或者表格来进行处理,对段落的处理包括根据段落文本的关键字来构建html试题架构、对段落中图片的处理、对段落中文本的处理,对表格的处理包括创建对应的<table>网页标签对象,循环表格的行、列,获取对应单元格的属性,判断是否存在细分单元格,将单元格对应的内容进行对应代码拼接;整合为一个试题对象并转换为json文件,上传至后台服务器;前端程序通过解析json数据,逐层获取html内容,进行排版显示;能够解析识别Pdf\Word试卷文档内容并转化成网页格式进行排版、显示,给用户更好的阅读体验。给用户更好的阅读体验。给用户更好的阅读体验。

【技术实现步骤摘要】
一种文档转网页格式的方法


[0001]本专利技术涉及一种文档转网页格式的方法。

技术介绍

[0002]目前市场上有很多Pdf\word文档解析识别工具,只能识别文档的标题、文档的内容,而无法将Pdf\word文档转化成完整地试题,无法满足需求日益多元化的教育行业发展,为了满足不断变化的业务需求,针对特定的使用场景,我们提出了解决方案。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种文档转网页格式的方法。
[0004]本专利技术的一种实施例解决其技术问题所采用的技术方案是:一种文档转网页格式的方法,包括:
[0005]步骤1、选取待转换文件并判断文件名的后缀,如果后缀是.Pdf,则使用PDF文件解析控件进行解析,如果后缀是.doc\.docx,则使用DOC文件解析控件进行解析;
[0006]步骤2、使用Document.Sections获取Body,根据Body获取DocumentObjectCollection集合,循环集合里的对象;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档转网页格式的方法,其特征在于,包括:步骤1、选取待转换文件并判断文件名的后缀,如果后缀是.Pdf,则使用PDF文件解析控件进行解析,如果后缀是.doc\.docx,则使用DOC文件解析控件进行解析;步骤2、使用Document.Sections获取Body,根据Body获取DocumentObjectCollection集合,循环集合里的对象;步骤3、如果对象类型为段落,则进入步骤4;如果对象类型为Table,则进入步骤5;步骤4、根据段落文本的关键字来构建html试题架构;步骤4.1、循环段落对象;步骤4.11、如果段落对象为图片,将其转换成字节流,并上传至文件服务器,并获得图片在服务器的地址,将服务器地址写进<img>html标签;步骤4.12、如果段落对象为TextRange,根据对象UnderlineStyle属性,判断文本是否存在下划线、加粗、斜体风格;根据对象的SubSuperScript属性,判断文本是否上标、下标、正常显示;根据上述属性正确拼写对应的<span&am...

【专利技术属性】
技术研发人员:何洵
申请(专利权)人:珠海趣印科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1