【技术实现步骤摘要】
一种解析Office二进制格式并提取文档属性文字的方法及系统
本专利技术涉及Office文字提取
,特别是涉及一种解析Office二进制格式并提取文档属性文字的方法及系统。
技术介绍
Office办公文档的属性信息记录了文档的汇总信息,如标题、作者、日期、关键词等,通过文档的属性就可以了解文档的内容,而不用打开文件去浏览,提高了文档的浏览分类速度。现在通用的Office文档属性提取方法主要有两种,一种是采用Windows系统提供的Com接口,另一种就是采用JAVA提供的OPI技术进行提取,但是这两种技术存在以下缺点:对于Com接口技术,不能跨平台,仅在Windows平台上运行,不支持Linux、Unix、Mac等系统;且效率低,采用Com技术,数据需要经过多层转换。对于JAVAOPI技术,其提取文档中的文字,需要在运行环境中自带JAVA虚拟机环境,此方法导致程序安装包过大,且存在JAVA运行性能低的问题,导致提取文字效率低。
技术实现思路
本专利技术的目的是提供一种解 ...
【技术保护点】
1.一种解析Office二进制格式并提取文档属性文字的方法,其特征在于,所述方法包括以下步骤:/nS1、以二进制方式打开Office文档,获取所有\005SummaryInformation数据流以及\005DocumentSummaryInformation数据流;/nS2、在两种数据流中获取基本属性和自定义属性的分类信息;/nS3、对于基本属性,读取基本属性中属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出属性信息;/nS4、对于自定义属性,分别读取自定义属性中文档属性和自定义属性的属性类型propId和数据的起始地址propO ...
【技术特征摘要】
1.一种解析Office二进制格式并提取文档属性文字的方法,其特征在于,所述方法包括以下步骤:
S1、以二进制方式打开Office文档,获取所有\005SummaryInformation数据流以及\005DocumentSummaryInformation数据流;
S2、在两种数据流中获取基本属性和自定义属性的分类信息;
S3、对于基本属性,读取基本属性中属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出属性信息;
S4、对于自定义属性,分别读取自定义属性中文档属性和自定义属性的属性类型propId和数据的起始地址propOffset,结合每条属性信息中数据类型,取出文档属性和自定义属性信息。
2.根据权利要求1所述的一种解析Office二进制格式并提取文档属性文字的方法,其特征在于,所述基本属性的分类信息包括默认属性分类个数NumPropertySets、属性分类1IdOffsetElement1和属性分类2IdOffsetElement2,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示IdOffsetElement1有效,当为2时,IdOffsetElement1和IdOffsetElement2都有效。
3.根据权利要求1所述的一种解析Office二进制格式并提取文档属性文字的方法,其特征在于,所述自定义属性的分类信息包括自定义属性分类个数NumPropertySets、文档属性DocumentSummaryInformation和自定义属性UserDefinedProperties,其中属性分类个数NumPropertySets表示属性分类有效的数量,当为1时,表示DocumentSummaryInformation有效,当为2时,DocumentSummaryInformation和UserDefinedProperties都有效。
4.根据权利要求1-3任意一项所述的一种解析Office二进制格式并提取文档属性文字的方法,其特征在于,所述属性类型propId为CODEPAGE时,其表示当前属性数据采用的字符编码格式,当值为0x04B0时,表示UNICODE方式,当值为-535时表示为UTF-8,其他表示ANSI。
...
【专利技术属性】
技术研发人员:苗功勋,董盼山,崔新安,王金国,魏东晓,
申请(专利权)人:中孚安全技术有限公司,中孚信息股份有限公司,北京中孚泰和科技发展股份有限公司,南京中孚信息技术有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。