【技术实现步骤摘要】
文档转换方法、装置、电子设备及存储介质
本公开涉及信息
,尤其涉及文档信息领域。
技术介绍
随着互联网的发展,人们在交流过程中经常采用文档作为信息载体进行交流,并且对文档进行内容和格式重排版的需求越来越多。目前基于办公标准的解析重构方法直接操作xml文档进行文档的处理,然后将处理好的xml文档重新转换成办公文档,这种方式只是对文档的内容进行转换,没有对转换后的内容进行重排版,无法按照用户需要对文档格式进行转换。
技术实现思路
本公开提供了一种文档转换方法、装置、电子设备以及存储介质。根据本公开的一方面,提供了一种文档转换方法,包括:获取原始文档,对原始文档进行解析,得到原始文档中各个段落的内容及格式信息;根据原始文档中各个段落的内容及格式信息,确定原始文档中各个段落的段落角色;利用各个段落的段落角色、以及段落角色与重构格式的对应关系,确定各个段落的重构格式;对各个段落的内容进行转换,并将各个段落的格式转换为重构格式,得到转换后的文档。根据本公开的另一方面,提供了一种文档转换装置,包括:文档解析模块,用于获取原始文档,对原始文档进行解析,得到原始文档中各个段落的内容及格式信息;文档格式重构模块,用于根据原始文档中各个段落的内容及格式信息,确定原始文档中各个段落的段落角色;利用各个段落的段落角色、以及段落角色与重构格式的对应关系,确定各个段落的重构格式,将各个段落的格式转换为重构格式;文档内容重构模块,用于对各个段落的内容进 ...
【技术保护点】
1.一种文档转换方法,包括:/n获取原始文档,对所述原始文档进行解析,得到所述原始文档中各个段落的内容及格式信息;/n根据所述原始文档中各个段落的内容及格式信息,确定所述原始文档中各个段落的段落角色;/n利用所述各个段落的段落角色、以及段落角色与重构格式的对应关系,确定所述各个段落的重构格式;/n对所述各个段落的内容进行转换,并将所述各个段落的格式转换为所述重构格式,得到转换后的文档。/n
【技术特征摘要】
1.一种文档转换方法,包括:
获取原始文档,对所述原始文档进行解析,得到所述原始文档中各个段落的内容及格式信息;
根据所述原始文档中各个段落的内容及格式信息,确定所述原始文档中各个段落的段落角色;
利用所述各个段落的段落角色、以及段落角色与重构格式的对应关系,确定所述各个段落的重构格式;
对所述各个段落的内容进行转换,并将所述各个段落的格式转换为所述重构格式,得到转换后的文档。
2.根据权利要求1所述的方法,其中,所述根据所述原始文档中各个段落的内容及格式信息,确定所述原始文档中各个段落的段落角色,包括:
针对所述原始文档中各个段落,对所述段落的内容进行分析,得到所述段落的内容特征;并从所述段落的格式信息中获取所述段落的格式特征和结构特征;
分别确定所述内容特征、所述格式特征和所述结构特征的向量;
将所述段落的内容特征的向量、格式特征的向量和结构特征的向量输入预先训练的神经网络模块,得到所述段落的段落角色。
3.根据权利要求1或2所述的方法,其中,所述原始文档为OOXML文档;
所述对所述原始文档进行解析,得到所述原始文档中各个段落的内容及格式信息,包括:
将所述原始文档进行解压缩,得到所述原始文档的多个XML文件;
对所述原始文档的多个XML文件进行解析,得到所述原始文档的格式信息以及各个段落的内容片段;
合并所述多个XML文件中属于相同段落的内容片段,得到所述原始文件中各个段落的内容。
4.根据权利要求3所述的方法,还包括,在所述原始文档不是OOXML文档的情况下,将所述原始文档转换为OOXML格式的原始文档;
所述对所述原始文档进行解析,包括:对所述OOXML格式的原始文档进行解析。
5.根据权利要求1或2所述的方法,还包括:
接收格式模板,所述格式模板包含至少一个所述段落角色与重构格式的对应关系。
6.根据权利要求1或2所述的方法,其中,所述获取原始文档包括:
从消息队列中获取原始文档;其中,所述消息队列中包含由至少一个用户上传的至少一个原始文档。
7.一种文档转换装置,包括:
文档解析模块,用于获取原始文档,对所述原始文档进行解析,得到所述原始文档中各个段落的内容及格式信息;
文档格式重构模块,用于根据所述原始文档中各个段落的内容及格式信息,确定所述原始文档中各个段落的段落角色;利用所述各个段落的段落角色、以及段落...
【专利技术属性】
技术研发人员:张真,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。