【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种将docx文件结构化的数据处理方法。
技术介绍
1、docx文件是一种常见的文档格式,它是由微软公司开发的一种基于xml的文件格式,用于存储和交换文档信息。docx文件的内容包括文本、图形、表格、图表等元素,这些元素可以通过样式来控制其显示效果,如字体、颜色、对齐方式等。
2、docx文件的样式分为两种,一种是内置的样式,如标题、正文、引用等,这些样式有固定的名称和属性,可以通过样式面板来选择和应用;另一种是自定义的样式,用户可以根据自己的需要,创建和修改样式的名称和属性,也可以通过样式面板来选择和应用。
3、在创建docx文件时,用户应该按照标准的方式,将文档内的小标题定义为标题样式,这样可以方便地生成目录、导航栏等功能,也可以方便地对文档进行结构化的处理。但是,有时候,用户可能没有按照标准的方式,将文档内的小标题定义为标题样式,而是仅使用加粗、加大字号、居中等字体样式来处理。这样的文档,虽然在人类的阅读中,能够根据视觉特征,区分段落与标题,从而轻松读懂语义,但是对于计算机程
...【技术保护点】
1.一种将Docx文件结构化的数据处理方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种将Docx文件结构化的数据处理方法,其特征在于,步骤S1包括:
3.如权利要求1所述的一种将Docx文件结构化的数据处理方法,其特征在于,步骤S3包括:
4.如权利要求3所述的一种将Docx文件结构化的数据处理方法,其特征在于,步骤S31中,根据Get函数识别每个对象的属性信息,包括:
5.如权利要求4所述的一种将Docx文件结构化的数据处理方法,其特征在于,步骤S4中,对带有标签的第一列表进行标题识别的过程包括:
< ...【技术特征摘要】
1.一种将docx文件结构化的数据处理方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种将docx文件结构化的数据处理方法,其特征在于,步骤s1包括:
3.如权利要求1所述的一种将docx文件结构化的数据处理方法,其特征在于,步骤s3包括:
4.如权利要求3所述的一种将docx文件结构化的数据处理方法,其特征在于,步骤s31中,根据get函数识别每个对象的属性信息,包括:
5.如权利要求4所述的一种将docx文件结构化的数据处理方法,其特征在于,步骤s4中,对带有标签的第一列表进行标题识别的过程包括:
6.如权利要求5...
【专利技术属性】
技术研发人员:周成,范亮,胡亮,
申请(专利权)人:湖北鼎森智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。