文档处理系统和方法技术方案

技术编号:4172699 阅读:272 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种文档处理系统和方法,该方法包括:应用软件发送指令到平台软件,对抽象非结构化信息进行操作;平台软件接收到来自所述应用软件的指令,根据所述指令,对与所述抽象非结构化信息对应的存储数据执行所述操作;其中,所述抽象非结构化信息与所述存储数据的存储方式无关。本发明专利技术的这种系统和方法将应用层和数据处理层分离,有利于产业分工,以及达到文档互操作、信息资源互联互通等有益效果。

Document processing system and method

The invention discloses a document processing system and method, the method includes sending commands to application software platform software, operating on the abstract unstructured information; platform software is received from the application software, according to the instructions, data storage and execution of the abstract unstructured information corresponding to the among them, independent operation; storage of the abstract unstructured information and the data storage. The system and the method of the invention separate the application layer and the data processing layer, which is beneficial to the industrial division of labor, and achieves the beneficial effects of document interoperation, information resource intercommunication and the like.

【技术实现步骤摘要】
文档处理系统和方法
本专利技术涉及一种文档处理系统和方法。
技术介绍
信息可大致分为结构化数据和非结构化数据,其中以书面文档和流媒体为主的非结构化数据根据资料统计占有量超过百分之七十。结构化数据的结构比较简单,即一个二维表结构,其处理技术以数据为代表,主要是利用数据库系统进行处理,从上世纪七八十年代开始发展,到九十年代达到顶峰,研发和应用已经比较成熟。非结构化数据则没有固定数据结构,因此对非结构化数据的处理非常的复杂。目前处理各种非结构化文档的软件已经比较普及,形成了多种文档格式林立的状况。例如,文档编辑目前就存在Microsoft的word、WPS、永中的Office、Red的Office等。通常,一个内容管理软件往往要处理二三百种文档格式,而且这些格式还在不断更新,给这类软件的开发带来了巨大的困难。如何解决文档通用性、进行数字内容提取、格式兼容越来越成为人们的关注点,人们迫切希望解决以下问题:1)文档不通用:基本上,不同用户只能交换同一种软件处理的文档,无法交换不同软件处理的文档,形成信息封闭。2)访问接口不统一、数据兼容代价太高:不同的文档处理软件之间,文件格式互不兼容,在处理过程中要么利用对方组件解析(前提是对方提供相应接口),要么自己投入研发力量从头到尾的解析对方的格式。3)信息安全较差:目前针对书面文档的权限控制手段单一,主要是数据加密、口令认证。因为信息泄露,每年造成巨大损失的公司案例层出不穷。4)都是针对单个文档的处理,缺乏多文档管理手段:每个人电脑中都有大量文档,但多个文档之间缺乏有效的组织管理,而且资源共享很难。如,字库/字体文件、全文数据检索等。5)页面分层的技术不完善:目前一些软件,如Adobe的photoshop,Microsoft的word,多多少少已经有层的概念,但层的功能还比较单一,管理手段比较简单,不能满足应用需求。6)检索手段不够丰富:随着信息的海量化,用任何一个关键词来搜索都会得到数量庞大的检索结果,全文检索技术基本解决了查全率的问题,但查准率迅速上升为首要问题。现有技术还没有很充分地利用全部信息来解决查准率问题,例如每个文字的字体、字号完全可以用来判断该文字的重要性,但都在检索时被忽略了。虽然各大公司目前都努力将自己特有的文档格式发展为市场标准,各标准组织也致力于制订通用的文档格式标准。但不管是专有的文档格式(如.doc)还是开放的文档格式(如PDF),只要是以文档格式为标准,就不可避免产生以下问题:a)重复开发,效果不统一:使用同一标准的不同软件都需要自己去解释、生成该格式的文档,造成大量重复开发,而且会因为各家解释程序不同,例如有的完善有的相对简单,有的支持新版本有的只支持旧版本数据,同一文档在不同软件下显现出不同的版式,甚至出现解释错误导致无法打开文档。b)阻碍创新:软件是不断创新的行业,但由于每增加一个新功能就需要增加描述该功能的信息,而且只有等到标准修订的时候才能增加新的格式,因此把存储格式固定死,将会妨碍技术创新的竞争。c)影响检索性能:对海量信息,需要增加大量的检索信息以提高检索性能,但固定死的存储格式难以增加检索信息d)影响可移植性和可伸缩性:在不同的系统环境下,不同的应用需求,可能会有不同的存储要求。例如,存储在硬盘上就需要考虑如何减少磁头寻道的次数以提高性能,而在嵌入式应用中数据都相当于存储在内存中的,就不存在这个问题。例如,同一个厂商的数据库软件在不同平台上就可能会使用不同的存储格式。因此,设置文档存储标准将会影响系统的可移植性和可伸缩性。现有技术中最开放、可交换性最好的文档是AdobeAcrobat的PDF。然而,虽然PDF已经成为全球文档分发、交换的事实标准,但也不能实现在不同的软件之间交换PDF文档,也就是说,不能实现PDF文档的互操作性。而且,无论是Acrobat还是Office,都只能对单文档进行处理,缺乏对多文档的管理功能,不具备对文档库进行操作的功能。另外,在文档信息安全的方面,现有技术也存在较多缺陷。Word和PDF这些应用最广泛的文档,都是采用对数据加密或者口令认证等进行数据安全控制,没有提供系统的身份认证机制,对权限的控制都是整个文档范围的,不能细化到文档内的任意区域,无法对任意逻辑数据设定加密和签名。现有的内容管理系统虽然能够提供较好的身份认证机制,但由于与文档处理系统是分离的,不仅管理粒度只能做到文档级,而且无法在文档使用过程中对文档实施安全控制,难以进行必要的安全管理。由此可见,由于现有的安全机制与文档处理是分离的模块,容易出现安全缝隙。
技术实现思路
本专利技术实施例提供了一种文档处理的系统和方法,实现对文档的互操作。本专利技术实施例提供的文档处理方法,包括:应用软件发送指令到平台软件,以对抽象非结构化信息进行操作;平台软件接收到来自所述应用软件的指令,根据所述指令,对与所述抽象非结构化信息对应的存储数据执行所述操作;其中,所述抽象非结构化信息与所述存储数据的存储方式无关。本专利技术实施例提供的一种文档处理系统,包括:应用软件,用于发送指令到平台软件,以对抽象非结构化信息进行操作;平台软件,用于接收到来自所述应用软件的指令,根据所述指令,对与所述抽象非结构化信息对应的存储数据执行所述操作;其中,所述抽象非结构化信息与所述存储数据的存储方式无关。本专利技术实施例提供的一种文档处理方法,包括:第一应用软件发送第一指令到平台软件,以创建第一抽象文档;所述平台软件接收所述第一指令,创建与所述第一抽象文档对应的存储数据;第二应用软件发送第二指令到所述平台软件以打开所述创建的存储数据;所述平台软件接收所述第二指令,打开并解析所述存储数据,生成与所述存储数据对应的第二抽象文档;其中,所述第一指令与第二指令符合相同的接口标准。本专利技术实施例提供的一种文档处理系统,包括:第一应用软件,用于发送第一指令到平台软件,以创建第一抽象文档;所述平台软件,用于接收所述第一指令,创建与所述第一抽象文档对应的存储数据;第二应用软件,用于发送第二指令到平台软件以打开所述创建的存储数据;所述平台软件,进一步用于接收所述第二指令,打开并解析所述存储数据,生成与所述存储数据对应的第二抽象文档;其中,所述第一指令与第二指令符合相同的接口标准。本专利技术实施例提供的一种文档处理方法,包括:第一平台软件解析以第一数据格式存储的第一存储数据,生成与所述存储数据对应的第一抽象文档;所述应用软件发送第一指令到所述第一平台软件,以获取所述第一抽象文档的所有信息;发送第二指令到第二平台软件,以创建与所述第一抽象文件相同或相似的第二抽象文档;所述第二平台软件根据所述第二指令,创建与所述第二抽象文档对应并按第二数据格式存储的第二存储数据;其中,所述第一指令和第二指令符合相同的接口标准。本专利技术实施例提供的一种文档处理系统,包括:第一平台软件,用于解析以第一数据格式存储的第一存储数据,生成与所述存储数据对应的第一抽象文档;所述应用软件,用于发送第一指令到所述第一平台软件,以获取所述第一抽象文档的所有信息;发送第二指令到第二平台软件,以创建与所述第一抽象文件相同或相似的第二抽象文档;所述第二平台软件,用于根据所述第二指令,创建与所述第二抽象文档对应并按第二数据格式存储的第二存储数据;其中,所述本文档来自技高网
...
文档处理系统和方法

【技术保护点】
一种文档处理方法,其特征在于,包括: 应用软件发送指令到平台软件,以对抽象非结构化信息进行操作; 平台软件接收到来自所述应用软件的指令,根据所述指令,对与所述抽象非结构化信息对应的存储数据执行所述操作; 其中,所述抽象非结 构化信息与所述存储数据的存储方式无关。

【技术特征摘要】
1.一种文档处理方法,其特征在于,包括:应用软件发送指令到平台软件,以对抽象非结构化信息进行操作;平台软件接收到来自所述应用软件的指令,根据所述指令,对与所述抽象非结构化信息对应的存储数据执行所述操作;其中,所述抽象非结构化信息与所述存储数据的数据方式无关;其中,所述抽象非结构化信息包括具有呈现效果的可视化信息,多维信息,和/或流媒体信息;所述抽象非结构化信息不具有存储。2.如权利要求1所述的方法,其特征在于,通过发送命令串或调用函数来发送指令。3.如权利要求1所述的方法,其特征在于,所述存储数据为一个或多个磁盘文件,部分磁盘文件,数据库的一个或多个字段,或磁盘分区的一个区域。4.如权利要求1所述的方法,其特征在于,所述抽象非结构化信息包括多个页的可视化信息。5.如权利要求1所述的方法,其特征在于,所述抽象非结构化信息符合预定义文档模型。6.如权利要求5所述的方法,其特征在于,所述预定义文档模型为树形结构,并且包括至少文档对象、页对象以及用于描述版面的对象。7.如权利要求6所述的方法,其特征在于,所述用于描述版面的对象可以是文字对象、图片对象和图形对象的任一项或任几项的组合。8.如权利要求7所述的方法,其特征在于,所述用于描述版面的对象还可以是状态对象、文字对象、路径对象、渐变色对象、图像对象、流媒体对象、元数据对象、批注对象、语义信息对象、源文件对象、脚本对象、插件对象、二进制数据流对象、书签对象以及超链接对象中任一项或任几项的组合。9.如权利要求6所述的方法,其特征在于,所述预定义文档模型进一步包括文档库对象,所述文档库对象包括至少一个文档对象;或者所述预定义文档模型进一步包括文档库对象和文档集对象,其中所述文档库对象包括至少一个文档集对象,所述文档集对象包括至少一个文档对象和\或至少一个文档集对象。10.如权利要求6所述的方法,其特征在于,所述预定义文档模型进一步包括层对象,所述页对象包括至少一个层对象,所述层对象至少包括一个用于描述版面的对象。11.如权利要求10所述的方法,其特征在于,所述预定义文档模型进一步包括对象组对象,所述层对象至少包括一个对象组对象,所述对象组对象包括至少一个用于描述版面的对象。12.如权利要求5所述的方法,其特征在于,所述预定义文档模型进一步定义来角色对象以及角色的访问权限。13.如权利要求12所述的方法,其特征在于,所述角色的访问权限包括所述角色针对所述抽象非结构化信息的至少一个对象的访问权限。14.如权利要求1所述的方法,其特征在于,所述指令符合“操作动作+操作对象”的标准。15.如权利要求14所述的方法,其特征在于,所述操作包括:获取信息、设置对象属性、插入对象、删除对象以及查询。16.如权利要求14所述的方法,其特征在于,所述指令按预定义的格式生成。17.如权利要求16所述的方法,其特征在于,所述指令包含描述操作动作和操作对象的字符串。18.如权利要求17所述的方法,其特征在于,所述字符串用XML描述。19.如权利要求17所述的方法,其特征在于,所述操作动作对应一个XML元素,所述操作动作通过句柄引用。20.如权利要求14所述的方法,其特征在于,所述平台软件提供接口函数,每个接口函数定义来一个对象上的一个操作;所述应用软件通过调用与所述操作动作和操作对象对应的接口函数,发送所述指令。21.如权利要求14所述的方法,其特征在于,所述平台...

【专利技术属性】
技术研发人员:王东临刘宁胜
申请(专利权)人:北京书生国际信息技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1