word文档的模块化方法及系统技术方案

技术编号:14945269 阅读:67 留言:0更新日期:2017-04-01 11:42
本发明专利技术公开了word文档的模块化方法及系统;包括:word文档分类;对word文档的目录大纲进行解析,得到若干目录条目;同时对word文档的正文进行解析,记录正文与正文所属的目录条目之间的关系;按照正文与正文所属的目录条目之间的关系利用标签对正文进行模块划分;根据目录条目与划分好后的正文模块,按照正文模块所属的目录条目的关系对正文模块和目录条目进行逐一关联;根据正文模块与目录条目的关联关系生成文档,并进行发布。通过对word文档的大纲结构解析,排版内容读取,自定义标签处理,目录内容模块化标识和存储,实现word文档的自动载入和内容根据自定义标签模块划分,以及文档目录大纲和正文重构,为建立企业政策制度文库提供全方位支持。

【技术实现步骤摘要】

本专利技术涉及一种word文档的模块化方法及系统
技术介绍
目前,企业的公文文档繁多,在工作中无法快速从多个文档中把目标内容搜索定位出来。同时,在word文档中记录个人笔记或书签收藏,容易受文档存储的物理位置影响而不能随时查阅。企业对于文档管理缺乏统一有效便捷的管理工具,往往通过大量的公司邮件来发布和管理公文文件,无法掌握员工对公文文件的学习认知程度和实施落实情况。
技术实现思路
本专利技术的目的就是为了解决word文档的目录结构和排版内容的读取、解析和重构等问题,本专利技术通过对word文档的大纲结构解析,排版内容读取,自定义标签处理,目录内容模块化标识和存储,实现word文档的自动载入和内容根据自定义标签模块划分,以及文档目录大纲和正文重构,为建立企业政策制度文库提供全方位支持。为了实现上述目的,本专利技术采用如下技术方案:word文档的模块化方法,包括:步骤(1):word文档分类;步骤(2):对word文档的目录大纲进行解析,得到若干目录条目;同时对word文档的正文进行解析,记录正文与正文所属的目录条目之间的关系;步骤(3):按照正文与正文所属的目录条目之间的关系利用标签对正文进行模块划分;划分好后的正文模块都是若干个彼此独立的模块;步骤(4):根据目录条目与划分好后的正文模块,按照正文模块所属的目录条目的关系对正文模块和目录条目进行逐一关联;步骤(5)根据步骤(4)正文模块与目录条目的关联关系生成文档,并进行发布。所述步骤(1)的文档分类分为公共文档分类和所属单位自定义文档分类,公共文档分类的文档允许被所有单位进行内容的查阅,所属单位自定义文档分类的文档只允许在本单位范围内进行内容的查阅。所述步骤(2)的步骤为:根据步骤(1)的文档分类,将word文档载入到相应的分类中;对word文档的目录大纲进行解析,得到若干目录条目;对word文档的正文内容进行读取;对于获取到的正文内容,记录正文与正文所属的目录条目之间的关系;对于解析后目录大纲得到的若干目录条目,每个目录条目在存储过程中,每个目录条目的属性包括当前目录的内容,当前目录的ID和当前目录条目所属的父级目录的ID。所述步骤(2)的步骤为:步骤(21):将word文档载入到相应的分类中,存储word文档最后一段的段首和段尾的位置;步骤(22):读取文档的一个段落;判断读取的段落是正文段落还是目录条目,段落大纲级别为10或表格中的每个单元格都表示正文;段落大纲级别为1-9表示目录条目;若是正文段落就读取段首位置,进入步骤(23);若是目录条目就读取段首位置、段尾位置、段落内容以及段落的大纲级别;进入步骤(23);步骤(23):判断段首位置与word文档最后一段的段首位置比较,是否一致,若一致就进入步骤(3),若不一致就判断是目录条目还是正文段落;若是目录条目就进入步骤(24);若是正文段落就进入步骤(22);步骤(24):判断段落大纲级别是否等于1,若等于1,则判定为顶层目录;返回步骤(22);若不等于1,则进一步寻找当前目录的父级目录;返回步骤(22)。所述步骤(24)中寻找当前目录的父级目录的步骤为:如果当前段落大纲级别等于上次读取的目录大纲级别,两个段落拥有相同的父级目录;如果当前段落大纲级别小于上次读取的目录大纲级别,则当前目录的父级目录是上次读取目录向上找x级:x=上次读取目录大纲级别-当前目录大纲级别+1;如果当前段落大纲级别大于上次读取的目录大纲级别,则当前目录的父级目录为上次读取的段落的父级目录。word文档的模块化系统,包括:分类模块:用于word文档分类;解析模块:对word文档的目录大纲进行解析,得到若干目录条目;同时对word文档的正文进行解析,记录正文与正文所属的目录条目之间的关系;划分模块:按照正文与正文所属的目录条目之间的关系利用标签对正文进行模块划分;划分好后的正文模块都是若干个彼此独立的模块;关联模块:根据目录条目与划分好后的正文模块,按照正文模块所属的目录条目的关系对正文模块和目录条目进行逐一关联;发布模块:根据正文模块与目录条目的关联关系生成文档,并进行发布。所述文档分类分为公共文档分类和所属单位自定义文档分类,公共文档分类的文档允许被所有单位进行内容的查阅,所属单位自定义文档分类的文档只允许在本单位范围内进行内容的查阅。解析模块根据分类模块的文档分类,将word文档载入到相应的分类中;对word文档的目录大纲进行解析,得到若干目录条目;对word文档的正文内容进行读取;对于获取到的正文内容,记录正文与正文所属的目录条目之间的关系;对于解析后目录大纲得到的若干目录条目,每个目录条目在存储过程中,每个目录条目的属性包括当前目录的内容,当前目录的ID和当前目录条目所属的父级目录的ID。默认[MARK]标记作为文档非相关内容的标签。本专利技术的有益效果:1可以快速建立企业的政策、制度和指引等文件文库,把不同类别的非结构化文档转换成结构化数据,为用户提供社交化的内容管理方式,同时为企业的政策制定、公文解读和知识管理提供真实客观的用户数据。2由于word文档是一种非结构化文档,需要实现对word解析后按自定义标签重新构造文档结构进行模块化管理,重构后的文档结构需要保留原文档的目录结构和内容排版在网页中展示。文档模块化的目的就是为了满足用户根据不同的内容范围进行二次划分,并对每个内容模块进行笔记和收藏。3将word文档进行目录大纲和排版内容读取和解析,根据自定义标签划分模块,按照自定义文件分类重新构建结构化的文档目录索引、文章大纲和模块化内容。将用户笔记和关注收藏与模块建立关联关系,笔记和关注随时能分享给其他用户,让内容装载更多信息以及更高效的利用。企业文件文库的建立,使文件保存、搜索和利用方面更加灵活和方便,建立起一种新的文档、知识和交流管理方式。附图说明图1为文档模块化业务处理流程图;图2为文档目录条目与正文段落解析流程图;图3为特定标签[MARK]标记实际应用效果图。具体实施方式下面结合附图与实施例对本专利技术作进一步说明。如图1首先建立文档所属分类,将word文档上传并载入,通过对word文档的目录大纲进行解析和排版内容进行读取,按照特定标签[MARK]来划分内容模块进行存储,每个模块都有唯一标识,模块划分完成后重新构建结构化的目录大纲,然后根据目录大纲与模块之间的关联关系进行内容编排。而用户笔记和关注仅与模块相关,实现笔记和关注的多次批量分享不会影响文档结构内容。一、文档分类:二、文档分类主要分为公共文档分类和所属单位自定义文档分类,公共文档分类可以在所有单位范围内容查阅,所属单位自定义文档分类只能在本单位范围内查阅。分类创建后,再把word文档上传和载入。二、文档载入:如图2,word文档载入后,记录最后一个段落的段首和段尾位置,然后开始读取第一个段落,段落属性大纲级别为10或表格中的每个单元格都表示正文,大纲级别为1-9表示目录条目。如果当前段落为正文,则记录段首位置;如果当前段落为标题,则记录段首和段尾的位置。若段首位置与文档最后一个段落的段首位置相同,则结束文档载入。否则,正文段落继续读取下一段落,而目录条目需要进行目录大纲级别的比较。若段落大纲级别等于1是顶层目录,若段落大纲级别是2-9需要通过以下判断条件本文档来自技高网...
word文档的模块化方法及系统

【技术保护点】
word文档的模块化方法,其特征是,包括:步骤(1):word文档分类;步骤(2):对word文档的目录大纲进行解析,得到若干目录条目;同时对word文档的正文进行解析,记录正文与正文所属的目录条目之间的关系;步骤(3):按照正文与正文所属的目录条目之间的关系利用标签对正文进行模块划分;划分好后的正文模块都是若干个彼此独立的模块;步骤(4):根据目录条目与划分好后的正文模块,按照正文模块所属的目录条目的关系对正文模块和目录条目进行逐一关联;步骤(5)根据步骤(4)正文模块与目录条目的关联关系生成文档,并进行发布。

【技术特征摘要】
1.word文档的模块化方法,其特征是,包括:步骤(1):word文档分类;步骤(2):对word文档的目录大纲进行解析,得到若干目录条目;同时对word文档的正文进行解析,记录正文与正文所属的目录条目之间的关系;步骤(3):按照正文与正文所属的目录条目之间的关系利用标签对正文进行模块划分;划分好后的正文模块都是若干个彼此独立的模块;步骤(4):根据目录条目与划分好后的正文模块,按照正文模块所属的目录条目的关系对正文模块和目录条目进行逐一关联;步骤(5)根据步骤(4)正文模块与目录条目的关联关系生成文档,并进行发布。2.如权利要求1所述的word文档的模块化方法,其特征是,所述步骤(1)的文档分类分为公共文档分类和所属单位自定义文档分类,公共文档分类的文档允许被所有单位进行内容的查阅,所属单位自定义文档分类的文档只允许在本单位范围内进行内容的查阅。3.如权利要求1所述的word文档的模块化方法,其特征是,所述步骤(2)的步骤为:根据步骤(1)的文档分类,将word文档载入到相应的分类中;对word文档的目录大纲进行解析,得到若干目录条目;对word文档的正文内容进行读取;对于获取到的正文内容,记录正文与正文所属的目录条目之间的关系;对于解析后目录大纲得到的若干目录条目,每个目录条目在存储过程中,每个目录条目的属性包括当前目录的内容,当前目录的ID和当前目录条目所属的父级目录的ID。4.如权利要求1所述的word文档的模块化方法,其特征是,所述步骤(2)的步骤为:步骤(21):将word文档载入到相应的分类中,存储word文档最后一段的段首和段尾的位置;步骤(22):读取文档的一个段落;判断读取的段落是正文段落还是目录条目,段落大纲级别为10或表格中的每个单元格都表示正文;段落大纲级别为1-9表示目录条目;若是正文段落就读取段首位置,进入步骤(23);若是目录条目就读取段首位置、段尾位置、段落内容以及段落的大纲级别;进入步骤(23);步骤(23):判断段首位置与word文档最后一段的段首位置比较,是否一致,若一致就进入步骤(3),若不一致就判断是目录条目还是正文段落...

【专利技术属性】
技术研发人员:徐魁武健路军王志国张敏陈煜李长青金哲孙瑛爽李晨李毅俊
申请(专利权)人:远光软件股份有限公司国网山东省电力公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1