The invention discloses a document processing system and method, the method includes sending commands to application software platform software, operating on the abstract unstructured information; platform software is received from the application software, according to the instructions, data storage and execution of the abstract unstructured information corresponding to the among them, independent operation; storage of the abstract unstructured information and the data storage. The system and the method of the invention separate the application layer and the data processing layer, which is beneficial to the industrial division of labor, and achieves the beneficial effects of document interoperation, information resource intercommunication and the like.
【技术实现步骤摘要】
文档处理系统和方法
本专利技术涉及一种文档处理系统和方法。
技术介绍
信息可大致分为结构化数据和非结构化数据,其中以书面文档和流媒体为主的非结构化数据根据资料统计占有量超过百分之七十。结构化数据的结构比较简单,即一个二维表结构,其处理技术以数据为代表,主要是利用数据库系统进行处理,从上世纪七八十年代开始发展,到九十年代达到顶峰,研发和应用已经比较成熟。非结构化数据则没有固定数据结构,因此对非结构化数据的处理非常的复杂。目前处理各种非结构化文档的软件已经比较普及,形成了多种文档格式林立的状况。例如,文档编辑目前就存在Microsoft的word、WPS、永中的Office、Red的Office等。通常,一个内容管理软件往往要处理二三百种文档格式,而且这些格式还在不断更新,给这类软件的开发带来了巨大的困难。如何解决文档通用性、进行数字内容提取、格式兼容越来越成为人们的关注点,人们迫切希望解决以下问题:1)文档不通用:基本上,不同用户只能交换同一种软件处理的文档,无法交换不同软件处理的文档,形成信息封闭。2)访问接口不统一、数据兼容代价太高:不同的文档处理软件之间,文件格式互不兼容,在处理过程中要么利用对方组件解析(前提是对方提供相应接口),要么自己投入研发力量从头到尾的解析对方的格式。3)信息安全较差:目前针对书面文档的权限控制手段单一,主要是数据加密、口令认证。因为信息泄露,每年造成巨大损失的公司案例层出不穷。4)都是针对单个文档的处理,缺乏多文档管理手段:每个人电脑中都有大量文档,但多个文档之间缺乏有效的组织管理,而且资源共享很难。如,字库/字体文件、全文 ...
【技术保护点】
一种文档处理方法,其特征在于,包括: 应用软件发送指令到平台软件,以对抽象非结构化信息进行操作; 平台软件接收到来自所述应用软件的指令,根据所述指令,对与所述抽象非结构化信息对应的存储数据执行所述操作; 其中,所述抽象非结 构化信息与所述存储数据的存储方式无关。
【技术特征摘要】
1.一种文档处理方法,其特征在于,包括:应用软件发送指令到平台软件,以对抽象非结构化信息进行操作;平台软件接收到来自所述应用软件的指令,根据所述指令,对与所述抽象非结构化信息对应的存储数据执行所述操作;其中,所述抽象非结构化信息与所述存储数据的数据方式无关;其中,所述抽象非结构化信息包括具有呈现效果的可视化信息,多维信息,和/或流媒体信息;所述抽象非结构化信息不具有存储。2.如权利要求1所述的方法,其特征在于,通过发送命令串或调用函数来发送指令。3.如权利要求1所述的方法,其特征在于,所述存储数据为一个或多个磁盘文件,部分磁盘文件,数据库的一个或多个字段,或磁盘分区的一个区域。4.如权利要求1所述的方法,其特征在于,所述抽象非结构化信息包括多个页的可视化信息。5.如权利要求1所述的方法,其特征在于,所述抽象非结构化信息符合预定义文档模型。6.如权利要求5所述的方法,其特征在于,所述预定义文档模型为树形结构,并且包括至少文档对象、页对象以及用于描述版面的对象。7.如权利要求6所述的方法,其特征在于,所述用于描述版面的对象可以是文字对象、图片对象和图形对象的任一项或任几项的组合。8.如权利要求7所述的方法,其特征在于,所述用于描述版面的对象还可以是状态对象、文字对象、路径对象、渐变色对象、图像对象、流媒体对象、元数据对象、批注对象、语义信息对象、源文件对象、脚本对象、插件对象、二进制数据流对象、书签对象以及超链接对象中任一项或任几项的组合。9.如权利要求6所述的方法,其特征在于,所述预定义文档模型进一步包括文档库对象,所述文档库对象包括至少一个文档对象;或者所述预定义文档模型进一步包括文档库对象和文档集对象,其中所述文档库对象包括至少一个文档集对象,所述文档集对象包括至少一个文档对象和\或至少一个文档集对象。10.如权利要求6所述的方法,其特征在于,所述预定义文档模型进一步包括层对象,所述页对象包括至少一个层对象,所述层对象至少包括一个用于描述版面的对象。11.如权利要求10所述的方法,其特征在于,所述预定义文档模型进一步包括对象组对象,所述层对象至少包括一个对象组对象,所述对象组对象包括至少一个用于描述版面的对象。12.如权利要求5所述的方法,其特征在于,所述预定义文档模型进一步定义来角色对象以及角色的访问权限。13.如权利要求12所述的方法,其特征在于,所述角色的访问权限包括所述角色针对所述抽象非结构化信息的至少一个对象的访问权限。14.如权利要求1所述的方法,其特征在于,所述指令符合“操作动作+操作对象”的标准。15.如权利要求14所述的方法,其特征在于,所述操作包括:获取信息、设置对象属性、插入对象、删除对象以及查询。16.如权利要求14所述的方法,其特征在于,所述指令按预定义的格式生成。17.如权利要求16所述的方法,其特征在于,所述指令包含描述操作动作和操作对象的字符串。18.如权利要求17所述的方法,其特征在于,所述字符串用XML描述。19.如权利要求17所述的方法,其特征在于,所述操作动作对应一个XML元素,所述操作动作通过句柄引用。20.如权利要求14所述的方法,其特征在于,所述平台软件提供接口函数,每个接口函数定义来一个对象上的一个操作;所述应用软件通过调用与所述操作动作和操作对象对应的接口函数,发送所述指令。21.如权利要求14所述的方法,其特征在于,所述平台...
【专利技术属性】
技术研发人员:王东临,刘宁胜,
申请(专利权)人:北京书生国际信息技术有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。