文本内容的逆向提取方法、装置、设备及存储介质制造方法及图纸

技术编号:27540052 阅读:20 留言:0更新日期:2021-03-03 11:33
本发明专利技术实施例公开了一种文本内容的逆向提取方法、装置、设备及存储介质,其中,所述文本内容的逆向提取方法,包括:创建私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取私有格式文档的文字、表格、简报中文本和图片特征;将特征转化为正则表达式,编译生成正则匹配数据库;对私有格式文档内容进行正则匹配,提取块头数据;根据块头数据提取文本和图片。解决了现有技术私有格式文档无法按常规方法根据公开的文档格式进行文本和图片的提取的问题。式进行文本和图片的提取的问题。式进行文本和图片的提取的问题。

【技术实现步骤摘要】
文本内容的逆向提取方法、装置、设备及存储介质


[0001]本专利技术涉及私有文档格式解析
,主要指一种文本内容的逆向提取方法、装置、设备及存储介质,尤指一种提取二进制文本内容的逆向方法、装置、设备及存储介质。

技术介绍

[0002]Office办公套件DocumentsToGo是目前Android平台上*用的办公软件,能够进行幻灯片编辑、阅读以及PDF阅读功能,也能对Word文档和Excel表格进行阅读与编辑,对文档作复制、粘贴、插入等各种编辑动作。而自主可控国家战略极大地促进了涉密企事业单位计算机终端的国产化替代,国产Office办公套件随之普及,因此计算机终端保密检查需要对国产办公文档的内容进行检查,但是现有技术中私有文档格式无法以常规方法,即根据公开的文档格式进行文本和图片的提取。
[0003]私有格式文档无法按常规方法根据公开的文档格式进行文本和图片的提取,计算机终端保密检查需要将文本提取用于内容检查,要解决此技术问题,从私有格式文档中提取出文本和图片,提出了提取二进制文本内容的逆向方法来解决。

技术实现思路

[0004]本专利技术实施例提供了一种文本内容的逆向提取方法、装置、设备及存储介质,解决了现有技术私有格式文档无法按常规方法根据公开的文档格式进行文本和图片的提取的问题。
[0005]本专利技术实施例提供了一种文本内容的逆向提取方法,包括:创建私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取私有格式文档的文字、表格、简报中文本和图片特征;将特征转化为正则表达式,编译生成正则匹配数据库;对私有格式文档内容进行正则匹配,提取块头数据;根据块头数据提取文本和图片。
[0006]进一步的,所述对私有格式文档内容进行正则匹配,提取块头数据的方法,包括:使用编译生成的数据库以块模式对私有格式文档内容进行匹配,提取出块头中的所属块组、在所属块组中的序号、文本或图片数据字节数、文本或图片数据起始位置。
[0007]进一步的,所述根据块头数据提取文本和图片的方法,包括:根据从块头数据中获取到的文本或图片数据的起始位置和字节数所对应的块,将此块中的数据提取出,再根据块头中获取到的所属块组、文本块在所属块组中的序号对倒序的文本进行恢复。
[0008]本专利技术实施例还提供一种文本内容的逆向提取装置,包括:创建模块,用于创建私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取私有格式文档的文字、表格、简报中文本和图片特征;转化模块,用于将特征转化为正则表达式,编译生成正则匹配数据库;匹配模块,用于对私有格式文档内容进行正则匹配,提取块头数据;还用于使用编译生
成的数据库以块模式对私有格式文档内容进行匹配,提取出块头中的所属块组、在所属块组中的序号、文本或图片数据字节数、文本或图片数据起始位置;提取模块,用于根据块头数据提取文本和图片;还用于根据从块头数据中获取到的文本或图片数据的起始位置和字节数所对应的块,将此块中的数据提取出,再根据块头中获取到的所属块组、文本块在所属块组中的序号对倒序的文本进行恢复。
[0009]本专利技术实施例还提供一种文本内容的逆向提取设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述文本内容的逆向提取方法。
[0010]本专利技术实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述文本内容的逆向提取方法。
[0011]本专利技术实施例,其方法包括:创建私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取私有格式文档的文字、表格、简报中文本和图片特征;将特征转化为正则表达式,编译生成正则匹配数据库;对私有格式文档内容进行正则匹配,提取块头数据;根据块头数据提取文本和图片。由此采用提取二进制文本内容的逆向方法,在没有公开格式的情况下,分析出文档中文本和图片的标识特征,将文本提取出用于后续的内容检查,提供了检查私有格式文档文本内容的能力,能够有效检测通过私有格式文档泄密的行为。
[0012]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0013]图1是本专利技术实施例的所述文本内容的逆向提取方法的整体流程图;图2是本专利技术实施例的所述文本内容的逆向提取装置的结构图;图3是本专利技术实施例的所述永中eio文字的格式示意图;图4是本专利技术实施例的所述永中eio表格块头的格式示意图;图5是本专利技术实施例的所述永中eio简报块头的格式示意图。
具体实施方式
[0014]下文中将结合附图对本专利技术的实施例进行详细说明。
[0015]在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0016]私有格式文档无法按常规方法根据公开的文档格式进行文本和图片的提取,计算机终端保密检查需要将文本提取用于内容检查,要解决此技术问题,本专利技术实施例从私有格式文档中提取出文本和图片,提出了提取二进制文本内容的逆向方法来解决。
[0017]如图1所示,本专利技术实施例提出一种文本内容的逆向提取方法,解决私有格式文档无法按常规方法根据公开的文档格式进行文本和图片的提取的问题。以永中eio私有格式文档为例,该方法包括:
步骤101,创建私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取私有格式文档的文字、表格、简报中文本和图片特征。
[0018]其中,创建如永中eio文档这样的私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取永中Office文字、表格、简报中文本和图片特征,具体如下:1)永中文本分为多个块进行存储,每个块包括块头和文本数据两部分,文本数据为Unicode编码。
[0019]2)如图3所示,永中eio文字块头以0xAC 0xDE 0x03 0x00开头,后3字节为0x03 0x0D或0x02 0x86或0x04 0x93和不定值,后8字节标记文本块在块组中的顺序,后4字节为0x00 0x42 0x00 0x00或0x00 0x1C 0x50 0x00,后4字节标识块后续数据的字节数,后4字节为0x00 0x00 0x0和不定值,后不定长度字节为0xFF 0xFF 0xFF 0xFF 0x00 0x00 0x00 0x01 0x00 0x00 0x2A 0x30或0xFF 0xFF 0xFF 0xFF 或0x00 0x00 0x00 0x03 0x7F 5字节不定值或16字节不定值,后4字节标识文本字数。
[0020]3)如图4所示,永中eio表格块头存在以下5种特征:0xAC 0xDE 0x01 12字节标识文本所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本内容的逆向提取方法,其特征在于,包括:创建私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取私有格式文档的文字、表格、简报中文本和图片特征;将特征转化为正则表达式,编译生成正则匹配数据库;对私有格式文档内容进行正则匹配,提取块头数据;根据块头数据提取文本和图片。2.根据权利要求1所述的文本内容的逆向提取方法,其特征在于,所述对私有格式文档内容进行正则匹配,提取块头数据的方法,包括:使用编译生成的数据库以块模式对私有格式文档内容进行匹配,提取出块头中的所属块组、在所属块组中的序号、文本或图片数据字节数、文本或图片数据起始位置。3.根据权利要求1所述的文本内容的逆向提取方法,其特征在于,所述根据块头数据提取文本和图片的方法,包括:根据从块头数据中获取到的文本或图片数据的起始位置和字节数所对应的块,将此块中的数据提取出,再根据块头中获取到的所属块组、文本块在所属块组中的序号对倒序的文本进行恢复。4.一种文本内容的逆向提取装置,其特征在于,包括:创建模块,用于创建私有格式文档,用文本编辑器...

【专利技术属性】
技术研发人员:傅涛许骏杰吴敏华王力
申请(专利权)人:博智安全科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1