【技术实现步骤摘要】
文件内容处理方法、装置、电子设备及可读存储介质
本申请涉及文件处理
,具体而言,涉及一种文件内容处理方法、装置、电子设备及可读存储介质。
技术介绍
对于文档类文件,如pdf、ppt、doc、xlx等格式的文件,在一些操作系统中,部分文件需要特定工具才能打开。因此,在操作系统中,存在将原格式的文件转换为另一格式的文件的需求。在现有技术中,可以在特定操作系统中,将特定格式(例如pdf)的原文件转换为HTML(HyperTextMarkupLanguage,超文本标记语言)格式的文件,然后从HTML文件中,提取内容数据,然而并不是所有操作系统中的任何文档都能转换成HTML文件,从而使得该方式的适用范围窄;或者采用文本框分割电子文档,提取文本框中的文件内容,然而并不是所有操作系统中的任何文档都能进行文本框分割,比如,某些承载私有文档格式的网络数据包文档,便不能使用文本框进行分割,另外,对文档进行文本框分割的同时容易产生误差,对文本框内容的提取也存在误差。
技术实现思路
本申请实施例的目的在于提供一种 ...
【技术保护点】
1.一种文件内容处理方法,其特征在于,所述方法包括:/n在当前操作系统中获取待处理文件中的文件特征,所述文件特征包括所述待处理文件的当前文件格式、文件内容、文件内容的版式;/n将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,其中,所述指定文件格式包括不同于所述当前文件格式的任一操作系统支持的任一文件格式。/n
【技术特征摘要】
1.一种文件内容处理方法,其特征在于,所述方法包括:
在当前操作系统中获取待处理文件中的文件特征,所述文件特征包括所述待处理文件的当前文件格式、文件内容、文件内容的版式;
将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,其中,所述指定文件格式包括不同于所述当前文件格式的任一操作系统支持的任一文件格式。
2.根据权利要求1所述的方法,其特征在于,所述文件内容包括多个文件数据块、文件数据块起始位置、文件数据块序号、文件数据块offset;
将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,包括:
根据所述文件特征生成文件格式策略,并从所述文件格式策略的所述文件数据块起始位置读取所述多个文件数据块,所述文件格式策略包括所述文件特征的集合;
根据所述文件数据块序号及所述文件数据块offset,将所述多个文件数据块以所述文件内容的版式写入所述指定文件格式的文件中,得到所述目标文件。
3.根据权利要求1所述的方法,其特征在于,在当前操作系统中获取待处理文件中的文件特征,包括:
当所述待处理文件为明文文件时,在所述当前操作系统中获取所述待处理文件中的明文内容的所述文件特征;
当所述待处理文件为加密文件时,在所述当前操作系统中根据所述待处理文件的解密算法解密所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解密算法为通过分析工具对所述待处理文件进行分析得到的解密算法;
当所述待处理文件为压缩文件时,在所述当前操作系统中根据所述待处理文件的解压缩算法解压所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解压缩算法为通过所述分析工具对所述待处理文件进行分析得到的解压缩算法。
4.根据权利要求1所述的方法,其特征在于,将所述...
【专利技术属性】
技术研发人员:路会园,
申请(专利权)人:北京天融信网络安全技术有限公司,北京天融信科技有限公司,北京天融信软件有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。