一种Word文档向PowerPoint文档转换的方法及系统技术方案

技术编号:21771496 阅读:36 留言:0更新日期:2019-08-03 21:30
本发明专利技术提供了一种Word文档向PowerPoint文档转换的方法及系统,利用Apache JACOB技术对Microsoft Office Word中文档的文本内容、数据格式、相对位置等信息进行分析,通过Apache POI技术提供的方法索引并提取该Word文档中的图片、表格等数据,并将提取的数据内容保存在本地。利用Apriori算法,根据文档属性的区别,分别选取最为近似或者匹配度最高的元素转换策略,形成最佳的图片、表格、公式等目标元素信息流,利用各元素形成的信息流,结合源Word文档中图片、文本内容、表格等数据的相对位置信息,生成最终的目标文档信息流。最后将形成的文档信息流写入到Microsoft Office PowerPoint文档中。

A Method and System for Converting Word Document to PowerPoint Document

【技术实现步骤摘要】
一种Word文档向PowerPoint文档转换的方法及系统
本专利技术涉及文档转换和数据处理领域,具体涉及一种Word文档向PowerPoint文档转换的方法及系统。
技术介绍
MicrosoftOfficeWord是微软公司的一个文字处理器应用程序,提供了许多易于使用的文档创建工具和丰富的功能集,也是目前市场最流行、最常见的文字处理器。MicrosoftOfficePowerPoint是微软公司的演示文稿软件,可以为用户创建演示文稿,在互联网上召开面对面会议、远程会议等给观众展示演示文稿。文档转换是将Word、Pdf、Txt、Odf、Html等文档格式进行转化。MicrosoftOfficeWord本身提供了Word向PowerPoint转换功能,但在实际使用过程中,操作过程复杂。对于用户来说,实际使用价值不高。其次,对于编码方式不同的word文档,实现向PowerPoint转换具有一定的困难性,不能转换成理想的演示文稿。
技术实现思路
本专利技术要解决的技术问题在于,针对上述目前现有的文档转换技术转化功能单一、实际使用价值不高的技术问题,提供一种Word文档向PowerPoint文档转换的方法及系统,能够实现不同类型文档之间的转换,降低多文档呈现的难度,提高文档使用的高效性。一种Word文档向PowerPoint文档转换的方法,包括:S1、提交MicrosoftOfficeWord文档文件,对文件中文本、图片、表格、公式数据进行初始分析;S2、结合Dispatch分析参数提取MicrosoftOfficeWord文档文件中的数据的内容、类型及格式信息,类型包括文本、图片、表格和公式;S3、利用Apriori算法,根据文档属性值的区别,分别选取最为近似或者匹配度最高的元素转换策略,形成最佳的图片、公式、表格及文本段落目标元素信息流;S4、利用各目标元素信息流,结合源Word文件中图片、表格、段落、公式目标元素的相对位置信息,生成最终的目标文档信息流;S5、根据用户需求,在母版类中选择合适的母版;S6、将形成的目标文档信息流写入到MicrosoftOfficePowerPoint母版中;S7、判断是否需要继续新建一张幻灯片;若是,则进行步骤S8;否则,进行步骤S9;S8、根据用户选择的母版新建一张幻灯片;S9、结束Word文档向PowerPoint文档的转换。进一步的,所述步骤S1中,MicrosoftOfficeWord文档中不同的元素所存储的形式存在明显差异,图片、公式、文本、表格不同文档元素提取到的数据格式、存储方式均不同。进一步的,所述步骤S2包括:S21、通过ApacheJACOB中所提供的方法索引并读取文档中段落内容、格式、相对位置信息;S22、通过ApachePOI中提供的方法索引并提取该Word文档的所有图片及表格数据;S23、结合FileOutputStream将所有图片保存为本地文件。进一步的,所述步骤S3包括:S31、利用堆叠式降噪自动编码器、结构扩展的贝叶斯定理和Apriori算法,对Word文档的文本、标题等内容进行智能识别与分析,区分源文档中标题、正文文本、图片说明、表格说明信息;S32、结合上述分析结果,用户可选择生成包含目录、作者基本情况等相关信息;S33、结合多种深度学习方法,识别并获得源文档中公式表达的含义,并输入到系统公式转换函数模块WordMathToPowerPoint,转换为PowerPoint文档识别的编码方式。进一步的,所述步骤S4中,根据转换系统中参数存储的源Word文档中各元素的相对位置信息,在保证源文档中各元素位置不变的情况下,生成目标文档信息流。进一步的,所述步骤S5中,根据用户需求,利用SlideMaster函数选择需要的幻灯片母版。进一步的,所述步骤S6中,将目标文件数据流和源文件相对位置记录信息通过调用BufferedWriter函数写入到目标MicrosoftOfficePowerPoint文件中。进一步的,所述步骤S6中,根据段落的长度不同设置字体大小,根据源文件元素相对位置信息设置标题字体大小、格式位置。进一步的,所述步骤S7中,根据用户选择的幻灯片母版,利用AddNewSlide函数来判读是否需要添加一张新的幻灯片。一种Word文档向PowerPoint文档转换的系统,包括:提交模块、用于提交MicrosoftOfficeWord文档文件,对文件中文本、图片、表格、公式数据进行初始分析;提取模块、用于结合Dispatch分析参数提取MicrosoftOfficeWord文档文件中的数据内容、类型及格式信息;选取模块、用于利用Apriori算法,根据文档属性值的区别,分别选取最为近似或者匹配度最高的元素转换策略,形成最佳的图片、公式、表格及文本段落目标元素信息流;生成模块、用于利用各目标元素信息流,结合源Word文件中图片、表格、段落、公式目标元素的相对位置信息,生成最终的目标文档信息流;母版模块、用于根据用户需求,在母版类中选择合适的母版;写入模块、用于将形成的目标文档信息流写入到MicrosoftOfficePowerPoint母版中;判断模块、用于判断是否需要继续新建一张幻灯片;若是,则跳转至新建模块;否则,跳转至终止模块;新建模块、用于根据用户选择的母版新建一张幻灯片;终止模块、用于结束Word文档向PowerPoint文档的转换。与现有技术相比,本专利技术的有益效果是:本专利技术能够降低由MicrosoftOfficeWord文档向MicrosoftOfficePowerPoint文档转换的困难性和复杂性,方便用户将简单的Word版式转换为演示文稿,为广大高校师生及科研人员提供了专业的文档转换系统,提高了科研工作效率,具有较高的普适性以及较高的应用前景。附图说明图1为本专利技术的一种Word文档向PowerPoint文档转换的方法流程图;图2为本专利技术的Word向PowerPoint转换的源文件信息提取原理图;图3为本专利技术的Word向PowerPoint转换的源文件数据分析图;图4为本专利技术的Word向PowerPoint转换的目标文件生成原理图;图5为本专利技术的选择源Word文件界面;图6为本专利技术的Word向PowerPoint转换细节效果展示。具体实施方式为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本专利技术的具体实施方式。一种Word文档向PowerPoint文档转换的方法及系统,如图1所示,包括:S1、提交MicrosoftOfficeWord文档文件,对文件中文本、图片、表格、公式等数据进行初始分析;S2、结合Dispatch分析参数提取MicrosoftOfficeWord文档文件中的数据内容、类型及格式等信息,类型包括文本、图片、表格、公式等;S3、利用Apriori算法,根据文档属性值的区别,分别选取最为近似或者匹配度最高的元素转换策略,形成最佳的图片、公式、表格及文本段落等目标元素信息流;S4、利用各目标元素信息流,结合源Word文件中图片、表格、段落、公式等元素的相对位置信息,生成最终的目标文档信息流。S5、根据用户需求,在母版类中选择合适的母版;S6、将形成的目标文档信息流写入到Microsoft本文档来自技高网...

【技术保护点】
1.一种Word文档向PowerPoint文档转换的方法,其特征在于,包括:S1、提交Microsoft Office Word文档文件,对文件中文本、图片、表格、公式数据进行初始分析;S2、结合Dispatch分析参数提取Microsoft Office Word文档文件中的数据的内容、类型及格式信息,类型包括文本、图片、表格和公式;S3、利用Apriori算法,根据文档属性值的区别,分别选取最为近似或者匹配度最高的元素转换策略,形成最佳的图片、公式、表格及文本段落目标元素信息流;S4、利用各目标元素信息流,结合源Word文件中图片、表格、段落、公式目标元素的相对位置信息,生成最终的目标文档信息流;S5、根据用户需求,在母版类中选择合适的母版;S6、将形成的目标文档信息流写入到Microsoft Office PowerPoint母版中;S7、判断是否需要继续新建一张幻灯片;若是,则进行步骤S8;否则,进行步骤S9;S8、根据用户选择的母版新建一张幻灯片;S9、结束Word文档向PowerPoint文档的转换。

【技术特征摘要】
1.一种Word文档向PowerPoint文档转换的方法,其特征在于,包括:S1、提交MicrosoftOfficeWord文档文件,对文件中文本、图片、表格、公式数据进行初始分析;S2、结合Dispatch分析参数提取MicrosoftOfficeWord文档文件中的数据的内容、类型及格式信息,类型包括文本、图片、表格和公式;S3、利用Apriori算法,根据文档属性值的区别,分别选取最为近似或者匹配度最高的元素转换策略,形成最佳的图片、公式、表格及文本段落目标元素信息流;S4、利用各目标元素信息流,结合源Word文件中图片、表格、段落、公式目标元素的相对位置信息,生成最终的目标文档信息流;S5、根据用户需求,在母版类中选择合适的母版;S6、将形成的目标文档信息流写入到MicrosoftOfficePowerPoint母版中;S7、判断是否需要继续新建一张幻灯片;若是,则进行步骤S8;否则,进行步骤S9;S8、根据用户选择的母版新建一张幻灯片;S9、结束Word文档向PowerPoint文档的转换。2.根据权利要求1所述的一种Word文档向PowerPoint文档转换的方法,其特征在于,所述步骤S1中,MicrosoftOfficeWord文档中不同的元素所存储的形式存在明显差异,图片、公式、文本、表格不同文档元素提取到的数据格式、存储方式均不同。3.根据权利要求1所述的一种Word文档向PowerPoint文档转换的方法,其特征在于,所述步骤S2包括:S21、通过ApacheJACOB中所提供的方法索引并读取文档中段落内容、格式、相对位置信息;S22、通过ApachePOI中提供的方法索引并提取该Word文档的所有图片及表格数据;S23、结合FileOutputStream将所有图片保存为本地文件。4.根据权利要求1所述的一种Word文档向PowerPoint文档转换的方法,其特征在于,所述步骤S3包括:S31、利用堆叠式降噪自动编码器、结构扩展的贝叶斯定理和Apriori算法,对Word文档的文本、标题等内容进行智能识别与分析,区分源文档中标题、正文文本、图片说明、表格说明信息;S32、结合上述分析结果,用户可选择生成包含目录、作者基本情况等相关信息;S33、结合多种深度学习方法,识别并获得源文档中公式表达的含义,并输入到系统公式转换函数模块WordMathToPowerPoint,转换为Po...

【专利技术属性】
技术研发人员:宋军徐衡彭艳朱超群曹威张坤吴雅笛
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1