【技术实现步骤摘要】
一种文档内容获取方法、装置、设备及存储介质
本专利技术涉及计算机
,尤其涉及一种文档内容获取方法、装置、设备及存储介质。
技术介绍
随着计算机技术的发展以及办公软件得到普及和应用,办公软件的文档处理功能在我们的日常办公中发挥着重要的作用。当前,具有文档处理功能的办公软件如word、PDF、wps等等。其中,以word为例,word作为microsoftoffice软件的重要组成部分,在全世界范围内得到普及和应用,word文档通常可以包含文字、表格、图片不同形式的内容。在某些实际应用场景中,需要读取Word文档中的内容。目前的技术,只能实现单独读取word文档的文字内容,或是单独读取word文档的表格内容,或是单独读取word文档的图片内容;不能实现同时读取Word文档中不同形式的内容。例如,根据不同的场景,需要读取的内容可能有以下两种:第一种,具有关联关系的文字内容和表格内容,如文字内容是表格内容的说明,第二种,具有关联关系的表格内容和图片内容,如表格内容是图片内容的展示数据,而目前的技术还无法解决这些场景的对文档内容获取的需求,文档中不同形式的内容如何一并读取、选择性读取成为亟待解决的问题。
技术实现思路
本专利技术实施例提供一种文档内容获取方法、装置、计算机设备及存储介质,以解决现有技术中文档中不同形式的内容不可一并读取、选择性读取问题。一种文档内容获取方法,包括:将目标格式文档转换成HTML格式文档,所述HTML格式文档包含内容位置的位置标识;根据所述位 ...
【技术保护点】
1.一种文档内容获取方法,其特征在于,包括:/n将目标格式文档转换成HTML格式文档,所述HTML格式文档包含内容位置的位置标识;/n根据所述位置标识对所述HTML格式文档的文档内容进行分割,得到分割之后的多个第一文档;/n存储所述多个第一文档及所述多个第一文档的文档内容在所述目标格式文档中的布局位置;/n当接收到用于展示目标第一文档的选择指令时,根据所述选择指令确定所述目标第一文档的内容的存储信息,及所述目标第一文档在所述目标格式文档中的布局位置的存储信息;/n根据所述存储信息查询所述目标第一文档的内容及所述目标第一文档对应的布局位置,并输出所述目标第一文档及所述目标第一文档对应的布局位置。/n
【技术特征摘要】
1.一种文档内容获取方法,其特征在于,包括:
将目标格式文档转换成HTML格式文档,所述HTML格式文档包含内容位置的位置标识;
根据所述位置标识对所述HTML格式文档的文档内容进行分割,得到分割之后的多个第一文档;
存储所述多个第一文档及所述多个第一文档的文档内容在所述目标格式文档中的布局位置;
当接收到用于展示目标第一文档的选择指令时,根据所述选择指令确定所述目标第一文档的内容的存储信息,及所述目标第一文档在所述目标格式文档中的布局位置的存储信息;
根据所述存储信息查询所述目标第一文档的内容及所述目标第一文档对应的布局位置,并输出所述目标第一文档及所述目标第一文档对应的布局位置。
2.如权利要求1所述的文档内容获取方法,其特征在于,可通过在线编辑器将所述目标格式文档转换成所述HTML格式文档。
3.如权利要求2所述的文档内容获取方法,其特征在于,通过所述在线编辑器将所述目标格式文档转换成所述HTML格式文档,包括:
通过所述在线编辑器接收所述目标格式文档的文本内容和/或表格内容,将所述文本内容和/或表格内容转换成所述HTML格式;
接收图片插入指令,根据所述图片插入指令接收图片内容,并将所述图片内容转换成所述HTML格式;
保存所述文本内容和/或表格内容,及所述图片内容在所述目标格式文档中的布局位置。
4.如权利要求1-3任一项所述的文档内容获取方法,其特征在于,所述根据所述位置标识对所述HTML格式文档的文档内容进行分割,得到分割之后的所述多个第一文档,包括:
根据所述位置标识从所述HTML格式文档的起始位置开始进行查找,所述位置标识包括起始标识,第一级标识,结束标识,所述第一级标识的数量为X,所述X为大于或等于2的正整数;
截取所述起始标识和所述X个第一级标识中的第一个第一级标识之间的文档内容为一个第一文档;
截取所述X个第一级标识中每两个相邻的第一级标识之间的文档内容,得到(X-1)个第一文档;
截取所述X个第一级标识中的最后一个第一级标识与结束标识之间的文档内容作为一个第一文档。
5.如权利要求4所述的文档内容获取方法,其特征在于,所述位置标识还包括第二级标识,所述第二级标识为所述第一级标识的子级标识,每个所述第一文档中包括N个所述第二级标识,所述N为大于或者等于1的整数,所述方法还包括:
针对每个所述第一文档,按照所述第二级标识进行分割,截取第L个所述第二级标识和第(L+1)个所述第二级标识之间的第二内容,得到第二文档,所述(L+1)小于或者等于所述N,所述L取遍(N-1)中的任一数值;
存储所述第二文档及所述第二文档的文档内容在所述目标格式文档中的布局位置;
当接收到用于展...
【专利技术属性】
技术研发人员:马耿彬,郑椿,
申请(专利权)人:中国平安财产保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。