一种文档内容获取方法、装置、设备及存储介质制造方法及图纸

技术编号:24251627 阅读:16 留言:0更新日期:2020-05-22 23:37
本发明专利技术公开了一种文档内容获取方法、装置、设备及存储介质,所述方法包括:将目标格式文档转换成HTML格式文档,HTML格式文档包含内容位置的位置标识;根据位置标识对转换后的文档内容进行分割,得到分割后的多个第一文档;存储多个第一文档及其内容在目标格式文档中的布局位置;当接收用于展示目标第一文档的选择指令时,根据选择指令及其存储信息查找并输出目标第一文档的内容及其对应的布局位置。本发明专利技术中,通过位置标识对目标格式文档的内容进行分割,然后按不同的位置标识对分割后的内容进行存储,用户能一并读取到文字、图片、表格等不同形式的内容,且能对不同形式的内容进行选择性读取,增加了文档内容获取的适用场景,提高了办公的便捷性。

A method, device, device and storage medium for obtaining document content

【技术实现步骤摘要】
一种文档内容获取方法、装置、设备及存储介质
本专利技术涉及计算机
,尤其涉及一种文档内容获取方法、装置、设备及存储介质。
技术介绍
随着计算机技术的发展以及办公软件得到普及和应用,办公软件的文档处理功能在我们的日常办公中发挥着重要的作用。当前,具有文档处理功能的办公软件如word、PDF、wps等等。其中,以word为例,word作为microsoftoffice软件的重要组成部分,在全世界范围内得到普及和应用,word文档通常可以包含文字、表格、图片不同形式的内容。在某些实际应用场景中,需要读取Word文档中的内容。目前的技术,只能实现单独读取word文档的文字内容,或是单独读取word文档的表格内容,或是单独读取word文档的图片内容;不能实现同时读取Word文档中不同形式的内容。例如,根据不同的场景,需要读取的内容可能有以下两种:第一种,具有关联关系的文字内容和表格内容,如文字内容是表格内容的说明,第二种,具有关联关系的表格内容和图片内容,如表格内容是图片内容的展示数据,而目前的技术还无法解决这些场景的对文档内容获取的需求,文档中不同形式的内容如何一并读取、选择性读取成为亟待解决的问题。
技术实现思路
本专利技术实施例提供一种文档内容获取方法、装置、计算机设备及存储介质,以解决现有技术中文档中不同形式的内容不可一并读取、选择性读取问题。一种文档内容获取方法,包括:将目标格式文档转换成HTML格式文档,所述HTML格式文档包含内容位置的位置标识;根据所述位置标识对所述HTML格式文档的文档内容进行分割,得到分割之后的多个第一文档;存储所述多个第一文档及所述多个第一文档的文档内容在所述目标格式文档中的布局位置;当接收到用于展示目标第一文档的选择指令时,根据所述选择指令确定所述目标第一文档的内容的存储信息,及所述目标第一文档在所述目标格式文档中的布局位置的存储信息;根据所述存储信息查询所述目标第一文档的内容及所述目标第一文档对应的布局位置,并输出所述目标第一文档及所述目标第一文档对应的布局位置。一种文档内容获取装置,包括:文档转换模块,用于将目标格式文档转换成HTML格式文档,所述HTML格式文档包含内容位置的位置标识;分割模块,用于根据所述位置标识对所述HTML格式文档的内容进行分割,得到分割之后的多个第一文档;存储模块,用于存储所述多个第一文档及所述多个第一文档的内容在所述目标格式文档中的布局位置;接收模块,用于接收用于展示目标第一文档的选择指令,以便根据所述选择指令确定所述目标第一文档的内容的存储信息,及所述目标第一文档在所述目标格式文档中的布局位置的存储信息;输出模块,用于根据所述存储信息查询所述目标第一文档的内容及所述目标第一文档对应的布局位置,并输出所述目标第一文档及所述目标第一文档对应的布局位置。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文档内容获取方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文档内容获取方法的步骤。上述获取文档内容的方法、装置、计算机设备及存储介质,通过位置标识对目标格式文档的内容进行分割,然后按不同的位置标识对分割后的内容进行存储,用户能一并读取到文字、图片、表格等不同形式的内容,且能对不同形式的内容进行选择性读取,增加了获取文档内容的适用场景,提高了办公的便捷性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中文档内容获取方法的一应用环境示意图;图2是本专利技术一实施例中文档内容获取方法的流程图;图3是本专利技术一实施例中文档内容获取方法步骤S10的实现流程图;图4是本专利技术一实施例中文档内容获取方法步骤S20的实现流程图;图5是本专利技术一实施例中文档内容获取装置示意图。图6是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的文档内容获取方法,可应用在如图1的所示应用环境中,其中,客户终端通过网络与服务端进行通信,用户通过客户端对目标格式文档进行格式转换、分割、存储以及选择展示等操作,并将数据信息上传至服务端。客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本专利技术实施例提供的文档内容获取方法应用于客户端,如图2所示,提供一种文档内容获取方法,以该方法应用在图1中的客户端为例进行说明,包括如下步骤:S10:将目标格式文档转换成HTML格式文档,HTML格式文档包含内容位置的位置标识。在本实施例中,在客户端中通过在线编辑器将目标格式文档转换成HTML格式文档,目标格式可以包括但不限定于word格式、wps格式或PDF等,本实施例中目标格式以word格式为例进行说明。具体地,接收用户输入的选择指令,根据该选择指令导入word文档,通过在线编辑器的交互界面接收输入的word文档的内容,并根据文本、表格、图片等内容在word文档中的布局位置,将word文档以代码的形式转换为HTML格式文档并进行保存,转换后的文档内容、内容布局位置与word文档保持一致。例如,在一个应用场景中,在线编辑器响应粘贴指令,在线编辑器接收word文档的文本内容和表格内容,在线编辑器保留word文档中文本内容和表格内容的布局位置,其中,布局位置包括布局及位置,布局指文档中内容的布局样式,例如,居中,首行缩进等等;位置指文档中内容所处的行位置,例如,表格的位置为在第一页文档中的第3行至第6行等,或该表格内容的上一行的文字内容是“表1”等。S20:根据位置标识对HTML格式文档的文档内容进行分割,得到分割之后的多个第一文档。根据具体的分割规则对所述HTML格式文档的文档内容进行分割。例如,分割规则如下:若在一个HTML格式文档中可以包含第一级标识,第二级标识,第三级标识等,第二级标识为第一级标识的子级标识,第三级标识为第二级标识的子级标识;而word文档内容标题包含“章”、“节”、“条”,在转换成HTML格式文档后,“章”、“节”、“条”则是对应的位本文档来自技高网...

【技术保护点】
1.一种文档内容获取方法,其特征在于,包括:/n将目标格式文档转换成HTML格式文档,所述HTML格式文档包含内容位置的位置标识;/n根据所述位置标识对所述HTML格式文档的文档内容进行分割,得到分割之后的多个第一文档;/n存储所述多个第一文档及所述多个第一文档的文档内容在所述目标格式文档中的布局位置;/n当接收到用于展示目标第一文档的选择指令时,根据所述选择指令确定所述目标第一文档的内容的存储信息,及所述目标第一文档在所述目标格式文档中的布局位置的存储信息;/n根据所述存储信息查询所述目标第一文档的内容及所述目标第一文档对应的布局位置,并输出所述目标第一文档及所述目标第一文档对应的布局位置。/n

【技术特征摘要】
1.一种文档内容获取方法,其特征在于,包括:
将目标格式文档转换成HTML格式文档,所述HTML格式文档包含内容位置的位置标识;
根据所述位置标识对所述HTML格式文档的文档内容进行分割,得到分割之后的多个第一文档;
存储所述多个第一文档及所述多个第一文档的文档内容在所述目标格式文档中的布局位置;
当接收到用于展示目标第一文档的选择指令时,根据所述选择指令确定所述目标第一文档的内容的存储信息,及所述目标第一文档在所述目标格式文档中的布局位置的存储信息;
根据所述存储信息查询所述目标第一文档的内容及所述目标第一文档对应的布局位置,并输出所述目标第一文档及所述目标第一文档对应的布局位置。


2.如权利要求1所述的文档内容获取方法,其特征在于,可通过在线编辑器将所述目标格式文档转换成所述HTML格式文档。


3.如权利要求2所述的文档内容获取方法,其特征在于,通过所述在线编辑器将所述目标格式文档转换成所述HTML格式文档,包括:
通过所述在线编辑器接收所述目标格式文档的文本内容和/或表格内容,将所述文本内容和/或表格内容转换成所述HTML格式;
接收图片插入指令,根据所述图片插入指令接收图片内容,并将所述图片内容转换成所述HTML格式;
保存所述文本内容和/或表格内容,及所述图片内容在所述目标格式文档中的布局位置。


4.如权利要求1-3任一项所述的文档内容获取方法,其特征在于,所述根据所述位置标识对所述HTML格式文档的文档内容进行分割,得到分割之后的所述多个第一文档,包括:
根据所述位置标识从所述HTML格式文档的起始位置开始进行查找,所述位置标识包括起始标识,第一级标识,结束标识,所述第一级标识的数量为X,所述X为大于或等于2的正整数;
截取所述起始标识和所述X个第一级标识中的第一个第一级标识之间的文档内容为一个第一文档;
截取所述X个第一级标识中每两个相邻的第一级标识之间的文档内容,得到(X-1)个第一文档;
截取所述X个第一级标识中的最后一个第一级标识与结束标识之间的文档内容作为一个第一文档。


5.如权利要求4所述的文档内容获取方法,其特征在于,所述位置标识还包括第二级标识,所述第二级标识为所述第一级标识的子级标识,每个所述第一文档中包括N个所述第二级标识,所述N为大于或者等于1的整数,所述方法还包括:
针对每个所述第一文档,按照所述第二级标识进行分割,截取第L个所述第二级标识和第(L+1)个所述第二级标识之间的第二内容,得到第二文档,所述(L+1)小于或者等于所述N,所述L取遍(N-1)中的任一数值;
存储所述第二文档及所述第二文档的文档内容在所述目标格式文档中的布局位置;
当接收到用于展...

【专利技术属性】
技术研发人员:马耿彬郑椿
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1