一种文档的结构转换方法、装置、存储介质及电子设备制造方法及图纸

技术编号:26172114 阅读:20 留言:0更新日期:2020-10-31 13:47
本申请适用于数据处理技术领域,提供了一种文档的结构转换方法、装置、存储介质及电子设备。所述结构转换方法包括:预先解析所述非结构化文档,获取非结构化数据,然后查找与所述非结构化数据匹配的初始结构化文档,其中,所述初始结构化文档预设有数据存储区域,最后根据预设对应关系列表,将所述非结构化数据存储至所述初始结构化文档的数据存储区域,获取所述结构化文档。本发明专利技术提供的结构转换方法,采用自动读取非结构化文档的非结构化数据,并将所述非结构化数据自动转换成结构化文档,以代替了传统的手工录入方式,解决了由于手工录入方式带来的效率低下,容易出错等问题,提高了工作效率,降低了工作成本。

【技术实现步骤摘要】
一种文档的结构转换方法、装置、存储介质及电子设备
本申请属于数据处理
,尤其涉及一种文档的结构转换方法、装置、存储介质及电子设备。
技术介绍
计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式种类较多,标准也是各种各样,而且在技术上非结构化信息比结构化信息更难标准化和理解。在文档结构转换时,将非结构化文档转换成结构化文档通常是手工录入的方式,从而导致工作效率低下。申请内容有鉴于此,本申请实施方式提供了一种文档的结构转换方法、装置、存储介质及电子设备,以解决现有的将非结构化文档转换成结构化文档是手工录入的方式从而导致工作效率低下的问题。本申请实施方式第一方面提供了一种文档的结构转换方法,用于将非结构化文档转换成结构化文档,所述结构转换方法包括:解析所述非结构化文档,获取非结构化数据;查找与所述非结构化数据匹配的初始结构化文档,其中,所述初始结构化文档预设有数据存储区域;根据预设对应关系列表,将所述非结构化数据存储至所述初始结构化文档的数据存储区域,获取所述结构化文档。可选地,所述非结构化数据包括第一级别标题、第二级别标题以及正文;所述数据存储区域包括章节、条款以及内容。可选地,所述解析所述非结构化的文档,获取非结构化数据,包括:从前端至后端的顺序依次读取所述非结构化的文档;定义位于所述非结构化的文档最前端的标题作为解析起始端,往后端依次读取文档内容并识别文档内容的样式,并根据所述文档内容样式,分类存储对应文档内容,当所述文档内容空置时,解析结束,并获取所述非结构化数据。可选地,所述文档内容的样式包括标题样式与正文样式;对应的,所述根据所述文档内容样式,分类存储对应文档内容,包括:当识别的所述文档内容的样式为标题样式时,判断所述标题级别,并将对应文档内容分类存储为非结构化数据的第一级别标题或者第二级别标题,并继续往后端依次读取文档内容;当识别的所述文档内容的样式为正文样式时,将所述文档内容存储为非结构化数据的正文,并继续往后端依次读取文档内容,若下一次识别的所述文档内容的样式为正文时,将识别的所述文档内容叠加至上一次读取的文档内容,以组合成一个正文进行存储。可选地,在所述查找与所述非结构化数据匹配的初始结构化文档之前,所述结构转换方法还包括:预先上传文档名称或数据结构相同或相近似的所述非结构化文档与初始结构化文档。可选地,所述对应关系列表是指所述第一级别标题对应所述数据存储区域的章节、所述第二级别标题对应所述数据存储区域的条款以及所述正文对应所述数据存储区域的内容;相应的,所述根据预设对应关系列表,将所述非结构化数据存储至所述初始结构化文档的数据存储区域,获取所述结构化的文档,包括:将所述非结构化数据的第一级别标题存储至所述初始结构化文档的数据存储区域的章节;将所述非结构化数据的第二级别标题存储至所述初始结构化文档的数据存储区域的条款;将所述非结构化数据的正文存储至初始结构化文档的数据存储区域的内容;获取所述结构化的文档。可选地,所述非结构化文档为非结构化的规章制度文档,所述结构化文档为结构化的规章制度文档。可选地,所述非结构化的规章制度文档为word格式文档,所述转换结构化的规章制度文档为excel格式文档。本申请实施方式第二方面提供了一种文档的结构转换装置,用于将非结构化的文档转换结构化的文档,所述结构转换装置包括:查找模块,用于查找所述非结构化的文档,以及与所述非结构化的文档匹配的初始结构化文档,其中,所述初始结构化文档预设有数据存储区域;解析模块,用于解析所述非结构化的文档,获取非结构化数据;获取模块,用于根据预设对应关系列表,将所述非结构化数据存储至所述初始结构化文档的数据存储区域,获取所述结构化的文档。本申请实施方式第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述的结构转换方法。本申请实施方式第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述的结构转换方法的步骤。本申请实施方式第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述本申请实施方式第一方面提供的结构转换方法。本专利技术的实施方式与现有技术相比存在的有益效果是:预先解析所述非结构化文档,获取非结构化数据,然后查找与所述非结构化数据匹配的初始结构化文档,其中,所述初始结构化文档预设有数据存储区域,最后根据预设对应关系列表,将所述非结构化数据存储至所述初始结构化文档的数据存储区域,获取所述结构化文档。本专利技术提供的结构转换方法,采用自动读取非结构化文档的非结构化数据,并将所述非结构化数据自动转换成结构化文档,以代替了传统的手工录入方式,解决了由于手工录入方式带来的效率低下,容易出错等问题,提高了工作效率,降低了工作成本。附图说明为了更清楚地说明本申请实施方式中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例一提供文档的结构转换方法的第一种实现过程流程示意图;图2是本申请实施例一提供的文档的结构转换方法的第二种实现过程流程示意图;图3是本申请实施例二提供的文档的结构转换装置的结构示意图;图4是本申请实施例三提供的电子设备的结构示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施方式。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施方式中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施方式的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。应当理解,本实施例中各步骤的先后撰写顺序并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过本文档来自技高网...

【技术保护点】
1.一种文档的结构转换方法,用于将非结构化文档转换结构化文档,其特征在于,所述结构转换方法包括:/n解析所述非结构化文档,获取非结构化数据;/n查找与所述非结构化数据匹配的初始结构化文档,其中,所述初始结构化文档预设有数据存储区域;/n根据预设对应关系列表,将所述非结构化数据存储至所述初始结构化文档的数据存储区域,获取所述结构化文档。/n

【技术特征摘要】
1.一种文档的结构转换方法,用于将非结构化文档转换结构化文档,其特征在于,所述结构转换方法包括:
解析所述非结构化文档,获取非结构化数据;
查找与所述非结构化数据匹配的初始结构化文档,其中,所述初始结构化文档预设有数据存储区域;
根据预设对应关系列表,将所述非结构化数据存储至所述初始结构化文档的数据存储区域,获取所述结构化文档。


2.根据权利要求1所述的结构转换方法,其特征在于,所述非结构化数据包括第一级别标题、第二级别标题以及正文;所述数据存储区域包括章节、条款以及内容。


3.根据权利要求1所述的结构转换方法,其特征在于,所述解析所述非结构化的文档,获取非结构化数据,包括:
从前端至后端的顺序依次读取所述非结构化的文档;
定义位于所述非结构化的文档最前端的标题作为解析起始端,往后端依次读取文档内容并识别文档内容的样式,并根据所述文档内容样式,分类存储对应文档内容,当所述文档内容空置时,解析结束,并获取所述非结构化数据。


4.根据权利要求3所述的结构转换方法,其特征在于,所述文档内容的样式包括标题样式与正文样式;
相应的,所述根据所述文档内容样式,分类存储对应文档内容,包括:
当识别的所述文档内容的样式为标题样式时,判断所述标题级别,并将对应文档内容分类存储为非结构化数据的第一级别标题或者第二级别标题,并继续往后端依次读取文档内容;
当识别的所述文档内容的样式为正文样式时,将所述文档内容存储为非结构化数据的正文,并继续往后端依次读取文档内容,若下一次识别的所述文档内容的样式为正文时,将识别的所述文档内容叠加至上一次读取的文档内容,以组合成一个正文进行存储。


5.根据权利要求1所述的结构转换方法,其特征在于,在所述查找与所述非结构化数据匹配的初始结构化文档,其中,所述初始结构化文档预设有数据存储区域之前,所述结构转换方法还包括:
预先上传文档名称或者数据结构相同或相近似的所述非结构化文档与初始结...

【专利技术属性】
技术研发人员:范浩董观平杜明和爱聪
申请(专利权)人:远光软件股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1