一种将Docx文件结构化的数据处理方法技术

技术编号:41450494 阅读:21 留言:0更新日期:2024-05-28 20:39
本发明专利技术提供一种将Docx文件结构化的数据处理方法,涉及数据处理技术领域,包括:读取Docx文件,根据类型构建相应的对象;设置标签;根据数据匹配方法将对象和标签进行匹配,得到带有标签的第一列表;对带有标签的第一列表进行标题识别;设置标题属性,根据标题属性遍历第一列表中所有对象的属性信息,得到目标对象集;将目标对象集中的每个对象的当前标签进行更换,得到新的目标对象集;将新的目标对象集替换至第一列表中,得到第二列表,将第二列表按照标题及其属性信息进行拼接和组装,输出得到结构化的Docx文件。本发明专利技术能够根据文档内的视觉特征,识别出文档的结构特征,如标题、正文、表格等,并将其转换为结构化的内容输出。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种将docx文件结构化的数据处理方法。


技术介绍

1、docx文件是一种常见的文档格式,它是由微软公司开发的一种基于xml的文件格式,用于存储和交换文档信息。docx文件的内容包括文本、图形、表格、图表等元素,这些元素可以通过样式来控制其显示效果,如字体、颜色、对齐方式等。

2、docx文件的样式分为两种,一种是内置的样式,如标题、正文、引用等,这些样式有固定的名称和属性,可以通过样式面板来选择和应用;另一种是自定义的样式,用户可以根据自己的需要,创建和修改样式的名称和属性,也可以通过样式面板来选择和应用。

3、在创建docx文件时,用户应该按照标准的方式,将文档内的小标题定义为标题样式,这样可以方便地生成目录、导航栏等功能,也可以方便地对文档进行结构化的处理。但是,有时候,用户可能没有按照标准的方式,将文档内的小标题定义为标题样式,而是仅使用加粗、加大字号、居中等字体样式来处理。这样的文档,虽然在人类的阅读中,能够根据视觉特征,区分段落与标题,从而轻松读懂语义,但是对于计算机程序来说,难以准确识别本文档来自技高网...

【技术保护点】

1.一种将Docx文件结构化的数据处理方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种将Docx文件结构化的数据处理方法,其特征在于,步骤S1包括:

3.如权利要求1所述的一种将Docx文件结构化的数据处理方法,其特征在于,步骤S3包括:

4.如权利要求3所述的一种将Docx文件结构化的数据处理方法,其特征在于,步骤S31中,根据Get函数识别每个对象的属性信息,包括:

5.如权利要求4所述的一种将Docx文件结构化的数据处理方法,其特征在于,步骤S4中,对带有标签的第一列表进行标题识别的过程包括:

<p>6.如权利要求5...

【技术特征摘要】

1.一种将docx文件结构化的数据处理方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种将docx文件结构化的数据处理方法,其特征在于,步骤s1包括:

3.如权利要求1所述的一种将docx文件结构化的数据处理方法,其特征在于,步骤s3包括:

4.如权利要求3所述的一种将docx文件结构化的数据处理方法,其特征在于,步骤s31中,根据get函数识别每个对象的属性信息,包括:

5.如权利要求4所述的一种将docx文件结构化的数据处理方法,其特征在于,步骤s4中,对带有标签的第一列表进行标题识别的过程包括:

6.如权利要求5...

【专利技术属性】
技术研发人员:周成范亮胡亮
申请(专利权)人:湖北鼎森智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1