本申请提供一种文件内容处理方法、装置、电子设备及可读存储介质。方法包括:在当前操作系统中获取待处理文件中的文件特征,文件特征包括待处理文件的当前文件格式、文件内容、文件内容的版式;将文件内容以文件内容的版式转换为指定文件格式的目标文件。在本方案中,目标文件的格式可以为不同于当前文件格式的任一操作系统支持的任一文件格式,用于解决原操作系统支持的原格式文件不被目标操作系统支持的问题。另外,通过结合当前文件内容的版式,将当前文件格式的待处理文件的文件内容,转换为指定文件格式的目标文件内容,能够保证转换后的文件的内容格式不变。
【技术实现步骤摘要】
文件内容处理方法、装置、电子设备及可读存储介质
本申请涉及文件处理
,具体而言,涉及一种文件内容处理方法、装置、电子设备及可读存储介质。
技术介绍
对于文档类文件,如pdf、ppt、doc、xlx等格式的文件,在一些操作系统中,部分文件需要特定工具才能打开。因此,在操作系统中,存在将原格式的文件转换为另一格式的文件的需求。在现有技术中,可以在特定操作系统中,将特定格式(例如pdf)的原文件转换为HTML(HyperTextMarkupLanguage,超文本标记语言)格式的文件,然后从HTML文件中,提取内容数据,然而并不是所有操作系统中的任何文档都能转换成HTML文件,从而使得该方式的适用范围窄;或者采用文本框分割电子文档,提取文本框中的文件内容,然而并不是所有操作系统中的任何文档都能进行文本框分割,比如,某些承载私有文档格式的网络数据包文档,便不能使用文本框进行分割,另外,对文档进行文本框分割的同时容易产生误差,对文本框内容的提取也存在误差。
技术实现思路
本申请实施例的目的在于提供一种文件内容处理方法、装置、电子设备及可读存储介质,有利于改善原操作系统支持的原格式文件不被目标操作系统支持的问题。为了实现上述目的,本申请的实施例通过如下方式实现:第一方面,本申请实施例提供一种文件内容处理方法,所述方法包括:在当前操作系统中获取待处理文件中的文件特征,所述文件特征包括所述待处理文件的当前文件格式、文件内容、文件内容的版式;将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,其中,所述指定文件格式包括不同于所述当前文件格式的任一操作系统支持的任一文件格式。在上述的实施方式中,通过结合当前文件内容的版式,将当前文件格式的待处理文件的文件内容,转换为指定文件格式的目标文件内容,能够保证转换后的文件的内容格式不变,保持文件转换后的数据内容的准确性。另外,目标文件的格式可以为不同于当前文件格式的任一文件格式,如此,有利于实现文件格式的灵活转换,扩大文件内容转换的适用范围,解决原操作系统支持的原格式文件不被目标操作系统支持的问题。结合第一方面,在一些可选的实施方式中,所述文件内容包括多个文件数据块、文件数据块起始位置、文件数据块序号、文件数据块offset;将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,包括:根据所述文件特征生成文件格式策略,并从所述文件格式策略的所述文件数据块起始位置读取所述多个文件数据块,所述文件格式策略包括所述文件特征的集合;根据所述文件数据块序号及所述文件数据块offset,将所述多个文件数据块以所述文件内容的版式写入所述指定文件格式的文件中,得到所述目标文件。在上述的实施方式中,通过利用文件特征中的文件数据块序号、文件数据块offset等数据,可以顺序读取数据块,然后将读取的数据块准确转换为目标文件中的数据内容,如此,有利于提高文件内容转换的准确性,确保转换前后文件的内容格式维持不变。结合第一方面,在一些可选的实施方式中,在当前操作系统中获取待处理文件中的文件特征,包括:当所述待处理文件为明文文件时,在所述当前操作系统中获取所述待处理文件中的明文内容的所述文件特征;当所述待处理文件为加密文件时,在所述当前操作系统中根据所述待处理文件的解密算法解密所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解密算法为通过分析工具对所述待处理文件进行分析得到的解密算法;当所述待处理文件为压缩文件时,在所述当前操作系统中根据所述待处理文件的解压缩算法解压所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解压缩算法为通过所述分析工具对所述待处理文件进行分析得到的解压缩算法。在上述的实施方式中,对于压缩、加密等文件,可以基于分析工具读取文件的明文内容,然后再基于得到的明文内容实现文件格式的转换,从而改善无法对压缩文件、加密文件进行转换的问题。结合第一方面,在一些可选的实施方式中,将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,包括:将所述文件内容以所述文件内容的版式转换为目标操作系统支持的指定文件格式的目标文件,其中,所述当前文件格式包括所述目标操作系统不支持打开的文件格式,所述目标操作系统为不同于所述当前操作系统的任一操作系统。结合第一方面,在一些可选的实施方式中,在当前操作系统中获取待处理文件中的文件特征,包括:根据所述当前操作系统的处理列表中的地址链接获取待处理文件,所述处理列表包括至少一个待处理文件的地址链接;从所获取的所述待处理文件的明文内容中提取所述文件特征。在上述的实施方式中,通过处理列表,可以一次性地批量处理多个待处理文件,从而有利于提高文件转换的效率。结合第一方面,在一些可选的实施方式中,所述指定文件格式包括至少两类文件格式。结合第一方面,在一些可选的实施方式中,所述目标文件包括在目标操作系统进行内容检测操作的文件内容,所述内容检测操作包括关键字审计、版式审计、内容审计以及内容显示以供人员审查中的至少一种操作。第二方面,本申请实施例还提供一种文件内容处理装置,所述装置包括:特征获取单元,在当前操作系统中获取待处理文件中的文件特征,所述文件特征包括所述待处理文件的当前文件格式、文件内容、文件内容的版式;转换单元,用于将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,其中,所述指定文件格式包括不同于所述当前文件格式的任一操作系统支持的任一文件格式。第三方面,本申请实施例还提供一种电子设备,所述电子设备包括相互耦合的处理器及存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行上述的方法。第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述的方法。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的电子设备的结构示意图。图2为本申请实施例提供的文件内容处理方法的流程示意图。图3为图2中步骤S220的子步骤的流程示意图。图4为本申请实施例提供的文件内容处理装置的框图。图标:10-电子设备;11-处理模块;12-存储模块;100-文件内容处理装置;110-特征获取单元;120-转换单元。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。在不本文档来自技高网...
【技术保护点】
1.一种文件内容处理方法,其特征在于,所述方法包括:/n在当前操作系统中获取待处理文件中的文件特征,所述文件特征包括所述待处理文件的当前文件格式、文件内容、文件内容的版式;/n将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,其中,所述指定文件格式包括不同于所述当前文件格式的任一操作系统支持的任一文件格式。/n
【技术特征摘要】
1.一种文件内容处理方法,其特征在于,所述方法包括:
在当前操作系统中获取待处理文件中的文件特征,所述文件特征包括所述待处理文件的当前文件格式、文件内容、文件内容的版式;
将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,其中,所述指定文件格式包括不同于所述当前文件格式的任一操作系统支持的任一文件格式。
2.根据权利要求1所述的方法,其特征在于,所述文件内容包括多个文件数据块、文件数据块起始位置、文件数据块序号、文件数据块offset;
将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,包括:
根据所述文件特征生成文件格式策略,并从所述文件格式策略的所述文件数据块起始位置读取所述多个文件数据块,所述文件格式策略包括所述文件特征的集合;
根据所述文件数据块序号及所述文件数据块offset,将所述多个文件数据块以所述文件内容的版式写入所述指定文件格式的文件中,得到所述目标文件。
3.根据权利要求1所述的方法,其特征在于,在当前操作系统中获取待处理文件中的文件特征,包括:
当所述待处理文件为明文文件时,在所述当前操作系统中获取所述待处理文件中的明文内容的所述文件特征;
当所述待处理文件为加密文件时,在所述当前操作系统中根据所述待处理文件的解密算法解密所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解密算法为通过分析工具对所述待处理文件进行分析得到的解密算法;
当所述待处理文件为压缩文件时,在所述当前操作系统中根据所述待处理文件的解压缩算法解压所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解压缩算法为通过所述分析工具对所述待处理文件进行分析得到的解压缩算法。
4.根据权利要求1所述的方法,其特征在于,将所述...
【专利技术属性】
技术研发人员:路会园,
申请(专利权)人:北京天融信网络安全技术有限公司,北京天融信科技有限公司,北京天融信软件有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。