文档处理系统和文档处理方法技术方案

技术编号:2841761 阅读:159 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种文档处理系统和文档处理方法。其中该文档处理系统包括文档库系统、存储器、应用软件,其中,文档库的数据存储在存储器中,文档库系统和应用软件通过一种标准调用接口连接起来,该标准调用接口根据预先定义的动作和对象而定义。应用软件对文档的操作都统一成对一种预定义的通用文档模型进行的操作,并通过该标准调用接口向文档库系统发出指令,文档库系统按照应用软件的指令,对存储在存储器中的文档库执行相应的操作。

【技术实现步骤摘要】

本专利技术涉及一种对文档进行处理的系统和方法,特别涉及一种,该系统和方法能处理多个文档构成的文档库,并能使不同应用软件对同一文档进行互操作。
技术介绍
目前关于各种非结构化文档的软件已经比较普及,形成了多种文档格式林立的状况。例如,一个内容管理软件往往要处理二三百种文档格式,而且这些格式还在不断更新,给软件开发商带来了巨大的困难。如何解决文档通用性、进行数字内容提取、格式兼容越来越成为人们的关注点,人们迫切希望解决以下问题1)文档不通用基本上只能用同一种软件在不同的人之间交换文档,但不能在不同的软件之间互相交换文档,形成信息封闭。2)文档信息提取困难文档描述信息丰富,数据结构复杂,实现难度较大。每一家公司都把自己的书面文档描述作为独家特有技术、基本上不提供开放接口。3)访问接口不统一、数据兼容困难或代价太高不同的文档处理软件之间,文件格式互不兼容,在处理过程中要么利用对方组件解析(前提是对方提供相应接口),要么自己投入研发力量从头到尾的解析对方的格式。4)信息安全较差目前针对书面文档的权限控制手段单一,主要是数据加密、口令认证。因为信息泄露,每年造成巨大损失的公司案例层出不穷。5)都是针对单个文档的处理,缺乏多文档管理手段每个人电脑中都有大量文档,但多个文档之间缺乏有效的组织管理,而且资源共享很难。如,字库/字体文件、全文数据检索等。6)行业竞争层次还停留在各自格式描述之争上由于书面文档数据结构复杂、数据描述丰富、文档数据长度不确定,每一个文档都千差万别。长期以来,大家都在关注文档格式标准,各大公司都努力将自己特有的文档格式发展为市场标准,各标准组织也致力于制订通用的文档格式标准。但不管是专有的文档格式(如.doc)还是开放的文档格式(如PDF),只要是以文档格式为标准,就不可避免产生以下问题a)重复开发,效果不统一使用同一标准的不同软件都需要自己去解释、生成该格式的文档,造成大量重复开发,而且会因为各家解释程序不同,有的完善有的相对简单,有的支持新版本有的只支持旧版本数据,同一文档在不同软件下显现出不同的版式,甚至出现解释错误无法打开。b)阻碍创新软件是不断创新的行业,但由于每增加一个新功能就需要增加描述该功能的信息,但只有等到标准修订的时候才能增加新的格式,因此把存储格式固定死之后,将会妨碍技术创新的竞争。c)影响性能对海量信息,需要增加大量的检索信息以提高检索性能,但固定死的存储格式难以增加检索信息。d)影响可移植性和可伸缩性在不同的系统环境下,不同的应用需求,可能会有不同的存储要求。例如,存储在硬盘上就需要考虑如何减少磁头寻道的次数以提高性能,而在嵌入式应用中数据都相当于存储在内存中的,就不存在这个问题。事实上,数据库软件也往往都是这样设计的,同一个厂商的数据库软件在不同平台上就可能会使用不同的存储格式。因此,设置文档存储标准将会影响系统的可移植性和可伸缩性。7)页面分层的技术不完善目前一些软件,如Adobe的photoshop,Microsoft的word,多多少少已经有层的概念,但层的功能还比较单一,管理手段比较简单,不能满足应用需求。8)检索手段还不够丰富随着信息的海量化,用任何一个关键词来搜索都会得到数量庞大的检索结果,全文检索技术基本解决了查全率的问题,但查准率迅速上升为首要问题。现有技术还没有很充分地利用全部信息来解决查准率问题,例如每个文字的字体、字号完全可以用来判断该文字的重要性,但都在检索时被忽略了。事实上,一种文档格式不管是否开放,最后结果往往都是被特定软件所垄断。商业实践的结果证明,不管是.doc这种已经被无数的同行研究得比较透、大家都花了巨大的精力和人力物力去兼容的文档格式,还是PDF这种完全公开的文档格式,在实际应用中用户还是会选择用原厂商的软件(即MSWord和Adobe Acrobat)来处理,而不太愿意用第三方的软件。一种文档格式被特定软件所垄断会造成信息流不畅通,非常不利于进行信息化建设,而且还会造成用户过分集中到大软件公司的软件上,形成对用户不利的垄断。例如,MS Office的表格功能不够好,但即使有人开发了非常好用的表格编辑软件,也很难在市场上生存,因为基本上没有哪个文档通篇只有表格,这样用户还只能使用那些功能比较全的软件,尽管其中的表格功能并不好用,因此市场就被MS Office这种全能软件所垄断,大量中小软件公司开发的“专而不全”的软件缺乏市场空间。现有技术中最开放、可交换性最好的是Adobe Acrobat采用的PDF。PDF已经成为全球分档分发、交换的事实标准,但也只能在不同的人之间交换文档,不能在不同的软件之间交换文档,即不能实现文档的互操作性。而且不管是Acrobat,还是Office,都只能对单文档进行处理,缺乏对多文档的管理功能,不具备对文档库进行操作的功能。在文档信息安全方面,现有技术也存在较多缺陷。Word和PDF这些应用最广泛的文档,都是采用对数据加密或者口令认证等进行数据安全控制,没有提供系统的身份认证机制,对权限的控制都是整个文档范围的,不能细化到文档内的任意区域,对逻辑数据指定加密和签名是受限的,无法对任意逻辑数据设定加密和签名。内容管理系统虽然能够提供很好的身份认证机制,但由于与文档处理系统是分离的,不能在核心层集成,不仅管理粒度只能做到文档级,而且在文档使用过程中就脱离了内容管理系统的安全控制,难以进行必要的安全管理。通常情况下,安全机制与文档处理是分离的模块,容易出现安全缝隙。下面介绍本专利技术中会涉及到的一些现有技术和概念非对称密钥加密算法也叫公开密钥体系(Public Key Infrastructure,PKI)算法,由美国斯坦福大学赫尔曼教授于1977年提出。它主要指加密密钥和解密密钥不相同,而且相互之间不存在推导关系,用户公开其中一个密钥不会泄漏另一把密钥。这样其他人可以用公钥对发送的信息进行加密,安全地传送到该用户,然后由该用户用自己的私钥进行解密。PKI技术解决了密钥的发布和管理问题,是目前常用的密码技术。使用PKI技术,进行数据通信的双方可以安全地确认对方身份和公开密钥,提供通信的可鉴别性。目前,常用的PKI算法有椭圆曲线密码加密算法(Elliptic Curves Cryptography,ECC),RSA加密算法(Ron Rivest,Adi Shamir,Len Adleman公私钥算法)等。RSA算法描述如下公钥n=pq,(p,q为两个不同的很大的质数,p和q必须保密);将(p-1)和(q-1)相乘得到φ(n);选择一个整数e(1<e<φ(n))与φ(n)互质;私钥d=e-1modφ(n),即计算一个数字d,使得它满足公式de=1 modφ(n);加密c=mc(mod n);解密m=cd(mod n),m为明文,c为密文。椭圆曲线密码加密算法(ECC)是另一种非对称密钥加密算法,椭圆曲线用于密码算法,于1985年由Koblitz和Victor Miller分别独立地提出。它问世以来一直是密码分析学的研究对象。现在,在商业和政府的用途中,椭圆曲线密码系统(ECC)都被认为是安全的。根据已知的密码分析学知识,椭圆曲线密码系统相比于传统的密码系统来说提供了更高的安全性。ECC加密算法描述如本文档来自技高网...

【技术保护点】
一种文档处理系统,其包括文档库系统、存储器、应用软件,其中,文档库的数据存储在存储器中,文档库系统和应用软件通过一种标准调用接口连接起来,该标准调用接口根据预先定义的动作和对象而定义,应用软件对文档的操作都统一成对一种预定义的通用文档模型进行的操作,并通过该标准调用接口向文档库系统发出指令,文档库系统按照应用软件的指令,对存储在存储器中的文档库执行相应的操作。

【技术特征摘要】
1.一种文档处理系统,其包括文档库系统、存储器、应用软件,其中,文档库的数据存储在存储器中,文档库系统和应用软件通过一种标准调用接口连接起来,该标准调用接口根据预先定义的动作和对象而定义,应用软件对文档的操作都统一成对一种预定义的通用文档模型进行的操作,并通过该标准调用接口向文档库系统发出指令,文档库系统按照应用软件的指令,对存储在存储器中的文档库执行相应的操作。2.如权利要求1所述的文档处理系统,其中,所述动作包括打开、和/或关闭、和/或获取、和/或设置、和/或插入、和/或删除、和/或检索查询。3.如权利要求1所述的文档处理系统,其中,所述对象包括文档库、和/或文档集、和/或文档、和/或页、和/或层、和/或对象组、和/或状态、和/或文字、和/或图像、和/或图形、和/或路径、和/或源文件、和/或脚本、和/或插件、和/或流媒体、和/或链接、和/或印章、和/或二进制数据流、和/或书签、和/或批注、和/或语义信息、和/或元数据、和/或角色、和/或权限、和/或数字签名、和/或字库、和/或导航信息、和/或导读信息、和/或微缩版面、和/或索引信息、和/或历史痕迹。4.如权利要求3所述的文档处理系统,其中,文档库对象包括一个或多个文档集对象、和/或任意数量文档库辅助对象和/或任意数量的文档库共享对象。5.如权利要求4所述的文档处理系统,其中,文档库辅助对象是指元数据对象、和/或角色对象、和/或权限对象、和/或插件对象、和/或索引信息对象、和/或脚本对象、和/或数字签名对象、和/或历史痕迹对象,文档库共享对象是指文档库中的不同文档可能共同使用的对象。6.如权利要求5所述的文档处理系统,其中,文档库共享对象为字库对象、和/或图像对象。7.如权利要求3所述的文档处理系统,其中,每个文档集对象包括一个或多个文档对象、和/或任意数量的文档集对象和/或任意数量的文档集辅助对象。8.如权利要求7所述的文档处理系统,其中,文档集辅助对象是指元数据对象、和/或数字签名对象、和/或历史痕迹对象。9.如权利要求3所述的文档处理系统,其中,每个文档对象包括一个或多个页面对象、和/或任意数量的文档辅助对象和/或任意数量的文档共享对象。10.如权利要求3所述的文档处理系统,其中,文档辅助对象是指元数据对象、和/或字库对象、和/或导航信息对象、和/或导读信息对象、和/或微缩版面对象、和/或数字签名对象、和/或历史痕迹对象,文档共享对象是指文档中的不同页面可能共同使用的对象。11.如权利要求10所述的文档处理系统,其中,文档共享对象包括图像对象、和/或印章对象。12.如权利要求3所述的文档处理系统,其中,每个页面对象包括一个或多个层对象,和/或任意数量的页面辅助对象,页面辅助对象是指元数据对象、和/或数字签名对象、和/或历史痕迹对象。13.如权利要求3所述的文档处理系统,其中,每个层对象包括一个或多个版面对象、和/或任意数量的对象组和/或任意数量的层辅助对象,层辅助对象是指元数据对象、和/或数字签名对象、和/或历史痕迹对象,对象组包括任意数量的版面对象、和/或任意数量的对象组和/或可选的数字签名对象。14.如权利要求3所述的文档处理系统,其中,版面对象是指状态对象、和/或文字对象、和/或直线对象、和/或曲线对象、和/或圆弧对象、和/或路径对象、和/或渐变色对象、和/或图像对象、和/或流媒体对象、和/或元数据对象、和/或批注对象、和/或语义信息对象、和/或源文件对象、和/或脚本对象、和/或插件对象、和/或二进制数据流对象、和/或书签对象,和/或超链接对象。15.如权利要求14所述的文档处理系统,其中,状态对象进一步包括任意数量的字符集对象、和/或字体对象、和/或字号对象、和/或文字颜色对象,和/或光栅操作对象、和/或背景色对象、和/或线颜色对象、和/或填充色对象、和/或线型对象、和/或线宽对象、和/或线接头对象、和/或画刷对象、和/或阴影对象、和/或阴影颜色对象、和/或旋转对象、和/或空心字对象、和/或勾边字对象、和/或透明对象、和/或渲染模式...

【专利技术属性】
技术研发人员:王东临郭旭刘昌伟姜海峰
申请(专利权)人:北京书生国际信息技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1