文档转换方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27686457 阅读:17 留言:0更新日期:2021-03-17 04:00
本公开提出了一种文档转换方法、装置、电子设备及存储介质,涉及文档信息领域。具体实现方案为:获取原始文档,对原始文档进行解析,得到原始文档中各个段落的内容及格式信息;根据原始文档中各个段落的内容及格式信息,确定原始文档中各个段落的段落角色;利用各个段落的段落角色、以及段落角色与重构格式的对应关系,确定各个段落的重构格式;对各个段落的内容进行转换,并将各个段落的格式转换为重构格式,得到转换后的文档。本公开能够自动实现文档的格式和内容转换。

【技术实现步骤摘要】
文档转换方法、装置、电子设备及存储介质
本公开涉及信息
,尤其涉及文档信息领域。
技术介绍
随着互联网的发展,人们在交流过程中经常采用文档作为信息载体进行交流,并且对文档进行内容和格式重排版的需求越来越多。目前基于办公标准的解析重构方法直接操作xml文档进行文档的处理,然后将处理好的xml文档重新转换成办公文档,这种方式只是对文档的内容进行转换,没有对转换后的内容进行重排版,无法按照用户需要对文档格式进行转换。
技术实现思路
本公开提供了一种文档转换方法、装置、电子设备以及存储介质。根据本公开的一方面,提供了一种文档转换方法,包括:获取原始文档,对原始文档进行解析,得到原始文档中各个段落的内容及格式信息;根据原始文档中各个段落的内容及格式信息,确定原始文档中各个段落的段落角色;利用各个段落的段落角色、以及段落角色与重构格式的对应关系,确定各个段落的重构格式;对各个段落的内容进行转换,并将各个段落的格式转换为重构格式,得到转换后的文档。根据本公开的另一方面,提供了一种文档转换装置,包括:文档解析模块,用于获取原始文档,对原始文档进行解析,得到原始文档中各个段落的内容及格式信息;文档格式重构模块,用于根据原始文档中各个段落的内容及格式信息,确定原始文档中各个段落的段落角色;利用各个段落的段落角色、以及段落角色与重构格式的对应关系,确定各个段落的重构格式,将各个段落的格式转换为重构格式;文档内容重构模块,用于对各个段落的内容进行转换。根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与该至少一个处理器通信连接的存储器;其中,该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例中的方法。根据本公开提出的文档转换方法,通过对原始文档进行解析得到各个段落的内容及格式信息,并根据内容和格式信息确定各个段落的段落角色,从而确定不同段落的重构格式;利用该重构格式对文档进行格式转换,同时对文档进行内容转换,从而实现自动转换文档的格式和内容。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是本公开的一种文档转换方法实现流程图;图2是本公开的一种文档转换方法中,对原始文档进行解析,得到原始文档中各个段落的内容及格式的实现方式流程图;图3是本公开的一种文档转换方法的整体实现流程图;图4是本公开的一种客户端和服务端架构示意图;图5是本公开确定原始文档中各个段落的段落角色方法的实现流程图;图6是本公开的一种文档转换装置600的结构示意图;图7是本公开的一种文档转换装置700的结构示意图;图8是用来实现本公开实施例的文档转换方法的电子设备的框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。本公开提出一种文档转换方法,图1是本公开的一种文档转换方法实现流程图,包括:S101:获取原始文档,对原始文档进行解析,得到原始文档中各个段落的内容及格式信息;S102:根据原始文档中各个段落的内容及格式信息,确定原始文档中各个段落的段落角色;S103:利用各个段落的段落角色、以及段落角色与重构格式的对应关系,确定各个段落的重构格式;S104:对各个段落的内容进行转换,并将各个段落的格式转换为重构格式,得到转换后的文档。文档内容转换和格式转换任务主要是针对用户上传的原始文档,对原始文档的内容进行处理后,根据用户要求对特定内容进行重排版。其中,对文档内容进行的转换/处理可以包括翻译、文档纠错、去除文档中的敏感词等处理。用户的重排版要求可以包含在用户上传的格式模板中,该格式模板可以包含至少一个段落角色与重构格式的对应关系。相应的,上述方法可以进一步包括:接收格式模板,该格式模板包含至少一个段落角色与重构格式的对应关系。例如,段落角色为“一级标题”,对应的重构格式包括“字体:TimesNewRoman;字号:12”。格式模板中包括多个类似形式的对应关系,用于规定转换后文本的格式信息。在用户提供了格式模板的情况下,可以利用上述步骤S102中得到的各个段落的段落角色查询该格式模板,确定各个段落的重构格式,并按照该重构格式转换各个段落的格式。本申请应用的原始文档可以为OOXML文档或其他格式的文档,如果原始文档为非OOXML标准文档,则可以统一转换为OOXML文档进行处理,通过ZIP解压的方式获取文档的XML信息,然后对这类文档进行解析重构。OOXML标准是MicrosoftOffice2007以上版本所用的文档格式,于2008年成为国际标准,目前被广泛使用,该标准采用ZIP和XML技术来存储和记录文档。将原始文件解压后可以看到构成文档的多个XML文件,这些XML文件存储着整篇文档的格式和内容信息。以Word文件举例,Word文件分为doc和docx两类,其中docx属于OOXML标准文档,对于doc类型的文档,本公开可以采用格式转换工具(如libreoffice)将其转换为docx类型,并对转换后的文档统一处理。举例来说,一篇Word文档的解压后的XML文件信息如表1所示:表1如表1所示,在一个OOXML文档的多个XML文件中,document.xml文件包含文档中的文本内容、字体、段落等信息;footnotes.xml存储了文档中脚注中的信息;header.xml存储了文档中的页眉相关文本信息;styles.xml存储了文档的式样信息,例如正文样式、标题样式等;图片等资源信息存储在media文件夹中。这些XML文件为本公开解析和重构文档提供了基础。以下是一个XML文件的内容示例。如下例所示,该document.xml文件的解析内容的根元素是w:document,有多个块级元素w:p,表示文档中的一个自然段落;w:p中可包含多个w:r,表示一段包含字体、字号等常见格式属性的连续文本;w:r还可以包含多个w:t,表示一段文本范围。w:p中有w:pPr标签用来描述段落格式属性w:本文档来自技高网...

【技术保护点】
1.一种文档转换方法,包括:/n获取原始文档,对所述原始文档进行解析,得到所述原始文档中各个段落的内容及格式信息;/n根据所述原始文档中各个段落的内容及格式信息,确定所述原始文档中各个段落的段落角色;/n利用所述各个段落的段落角色、以及段落角色与重构格式的对应关系,确定所述各个段落的重构格式;/n对所述各个段落的内容进行转换,并将所述各个段落的格式转换为所述重构格式,得到转换后的文档。/n

【技术特征摘要】
1.一种文档转换方法,包括:
获取原始文档,对所述原始文档进行解析,得到所述原始文档中各个段落的内容及格式信息;
根据所述原始文档中各个段落的内容及格式信息,确定所述原始文档中各个段落的段落角色;
利用所述各个段落的段落角色、以及段落角色与重构格式的对应关系,确定所述各个段落的重构格式;
对所述各个段落的内容进行转换,并将所述各个段落的格式转换为所述重构格式,得到转换后的文档。


2.根据权利要求1所述的方法,其中,所述根据所述原始文档中各个段落的内容及格式信息,确定所述原始文档中各个段落的段落角色,包括:
针对所述原始文档中各个段落,对所述段落的内容进行分析,得到所述段落的内容特征;并从所述段落的格式信息中获取所述段落的格式特征和结构特征;
分别确定所述内容特征、所述格式特征和所述结构特征的向量;
将所述段落的内容特征的向量、格式特征的向量和结构特征的向量输入预先训练的神经网络模块,得到所述段落的段落角色。


3.根据权利要求1或2所述的方法,其中,所述原始文档为OOXML文档;
所述对所述原始文档进行解析,得到所述原始文档中各个段落的内容及格式信息,包括:
将所述原始文档进行解压缩,得到所述原始文档的多个XML文件;
对所述原始文档的多个XML文件进行解析,得到所述原始文档的格式信息以及各个段落的内容片段;
合并所述多个XML文件中属于相同段落的内容片段,得到所述原始文件中各个段落的内容。


4.根据权利要求3所述的方法,还包括,在所述原始文档不是OOXML文档的情况下,将所述原始文档转换为OOXML格式的原始文档;
所述对所述原始文档进行解析,包括:对所述OOXML格式的原始文档进行解析。


5.根据权利要求1或2所述的方法,还包括:
接收格式模板,所述格式模板包含至少一个所述段落角色与重构格式的对应关系。


6.根据权利要求1或2所述的方法,其中,所述获取原始文档包括:
从消息队列中获取原始文档;其中,所述消息队列中包含由至少一个用户上传的至少一个原始文档。


7.一种文档转换装置,包括:
文档解析模块,用于获取原始文档,对所述原始文档进行解析,得到所述原始文档中各个段落的内容及格式信息;
文档格式重构模块,用于根据所述原始文档中各个段落的内容及格式信息,确定所述原始文档中各个段落的段落角色;利用所述各个段落的段落角色、以及段落...

【专利技术属性】
技术研发人员:张真
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1