文档处理方法及其装置、电子设备、计算机可读存储介质制造方法及图纸

技术编号:32363829 阅读:35 留言:0更新日期:2022-02-20 03:35
本发明专利技术公开了一种文档处理方法及其装置、电子设备、计算机可读存储介质,涉及大数据处理领域,该处理方法包括:导入待分析的目标文档,基于预设文档模板的模板格式,扫描导入的目标文档的文档内容,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。本公开基于预设文档模板的模板格式,对文档内容进行自动化结构分析,能够提高处理文档的效率。能够提高处理文档的效率。能够提高处理文档的效率。

【技术实现步骤摘要】
文档处理方法及其装置、电子设备、计算机可读存储介质


[0001]本专利技术涉及大数据处理
,具体而言,涉及一种文档处理方法及其装置、电子设备、计算机可读存储介质。

技术介绍

[0002]文档是企业规范管理的重要组成部分,它在企业的日常事务中,承担着事务流转、承上启下的桥梁作用。随着计算机技术的日益发展,企业办公文档的电子化日趋普遍,存储简易方便的电子文档成为企业信息资产积累的重要方式,由此各个企业也积累了数量庞大的电子文档文件,因此,如何解析电子文档内的文字,表格等数据,并使文档内的结构化数据被自动化程序分析,以及将有增值价值的数据合并导出,成为研究的关键。
[0003]相关技术中,常规的办公软件为拓展用户自定义功能,提供了一套二次开发库接口,这套COM组件接口可以让用户使用各种编程工具(例如,C++,C#,JavaScript脚本等)进行调用。相关技术中,大多用户使用这套开发库接口对表格工具Excel进行功能性的拓展,但针对以文本数据为主的Word软件,很少有用户使用这套二次开发库来拓展word的功能,更没有对这些文本数据进行文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档处理方法,其特征在于,包括:导入待分析的目标文档;基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容;依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。2.根据权利要求1所述的处理方法,其特征在于,基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容的步骤,包括:基于预设文档模板的模板格式,查询所述目标文档中的关键词,以得到所述目标文档的文档内容。3.根据权利要求1所述的处理方法,其特征在于,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据的步骤,包括:采用预设解析条件中的第一子解析条件,分割所述文档内容中的每个段落;确定每个所述段落所属大纲的大纲等级;将所述段落所属大纲的大纲等级表征为结构化数据。4.根据权利要求3所述的处理方法,其特征在于,在确定每个所述段落所属大纲的大纲等级之后,还包括:基于所述段落所属大纲的大纲等级,采用预设递归算法将段落等级赋予结构化数据,以使段落的层次等级与所述目标文档一致。5.根据权利要求1所述的处理方法,其特征在于,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据的步骤,包括:采用预设解析条件中的第二子解析条件,获取所述文档内容中各段落中存在表格对象的句柄及表格数;基于所述文档内容中的表格对象的句柄及表格数,循环调用表格对象,将每两个表格对象之间的段落进行分割,得到所述目标文档的文档内容;对所...

【专利技术属性】
技术研发人员:赵磬穆翠夏翠翠黄荣清
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1