【技术实现步骤摘要】
一种文档的结构转换方法、装置、存储介质及电子设备
本申请属于数据处理
,尤其涉及一种文档的结构转换方法、装置、存储介质及电子设备。
技术介绍
计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式种类较多,标准也是各种各样,而且在技术上非结构化信息比结构化信息更难标准化和理解。在文档结构转换时,将非结构化文档转换成结构化文档通常是手工录入的方式,从而导致工作效率低下。申请内容有鉴于此,本申请实施方式提供了一种文档的结构转换方法、装置、存储介质及电子设备,以解决现有的将非结构化文档转换成结构化文档是手工录入的方式从而导致工作效率低下的问题。本申请实施方式第一方面提供了一种文档的结构转换方法,用于将非结构化文档转换成结构化文档,所述结构转换方法包括:解析所述非结构化文档,获取非结构化数据;查找与所述非结构化数据匹配的初始结构化文档,其中,所述初始结构化文档预设有数据存储区域;根据预设对应关系列表,将所述非结构化数据存储至所述初始结构化文档的数据存储区 ...
【技术保护点】
1.一种文档的结构转换方法,用于将非结构化文档转换结构化文档,其特征在于,所述结构转换方法包括:/n解析所述非结构化文档,获取非结构化数据;/n查找与所述非结构化数据匹配的初始结构化文档,其中,所述初始结构化文档预设有数据存储区域;/n根据预设对应关系列表,将所述非结构化数据存储至所述初始结构化文档的数据存储区域,获取所述结构化文档。/n
【技术特征摘要】
1.一种文档的结构转换方法,用于将非结构化文档转换结构化文档,其特征在于,所述结构转换方法包括:
解析所述非结构化文档,获取非结构化数据;
查找与所述非结构化数据匹配的初始结构化文档,其中,所述初始结构化文档预设有数据存储区域;
根据预设对应关系列表,将所述非结构化数据存储至所述初始结构化文档的数据存储区域,获取所述结构化文档。
2.根据权利要求1所述的结构转换方法,其特征在于,所述非结构化数据包括第一级别标题、第二级别标题以及正文;所述数据存储区域包括章节、条款以及内容。
3.根据权利要求1所述的结构转换方法,其特征在于,所述解析所述非结构化的文档,获取非结构化数据,包括:
从前端至后端的顺序依次读取所述非结构化的文档;
定义位于所述非结构化的文档最前端的标题作为解析起始端,往后端依次读取文档内容并识别文档内容的样式,并根据所述文档内容样式,分类存储对应文档内容,当所述文档内容空置时,解析结束,并获取所述非结构化数据。
4.根据权利要求3所述的结构转换方法,其特征在于,所述文档内容的样式包括标题样式与正文样式;
相应的,所述根据所述文档内容样式,分类存储对应文档内容,包括:
当识别的所述文档内容的样式为标题样式时,判断所述标题级别,并将对应文档内容分类存储为非结构化数据的第一级别标题或者第二级别标题,并继续往后端依次读取文档内容;
当识别的所述文档内容的样式为正文样式时,将所述文档内容存储为非结构化数据的正文,并继续往后端依次读取文档内容,若下一次识别的所述文档内容的样式为正文时,将识别的所述文档内容叠加至上一次读取的文档内容,以组合成一个正文进行存储。
5.根据权利要求1所述的结构转换方法,其特征在于,在所述查找与所述非结构化数据匹配的初始结构化文档,其中,所述初始结构化文档预设有数据存储区域之前,所述结构转换方法还包括:
预先上传文档名称或者数据结构相同或相近似的所述非结构化文档与初始结...
【专利技术属性】
技术研发人员:范浩,董观平,杜明,和爱聪,
申请(专利权)人:远光软件股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。