【技术实现步骤摘要】
文档处理方法及其装置、电子设备、计算机可读存储介质
[0001]本专利技术涉及大数据处理
,具体而言,涉及一种文档处理方法及其装置、电子设备、计算机可读存储介质。
技术介绍
[0002]文档是企业规范管理的重要组成部分,它在企业的日常事务中,承担着事务流转、承上启下的桥梁作用。随着计算机技术的日益发展,企业办公文档的电子化日趋普遍,存储简易方便的电子文档成为企业信息资产积累的重要方式,由此各个企业也积累了数量庞大的电子文档文件,因此,如何解析电子文档内的文字,表格等数据,并使文档内的结构化数据被自动化程序分析,以及将有增值价值的数据合并导出,成为研究的关键。
[0003]相关技术中,常规的办公软件为拓展用户自定义功能,提供了一套二次开发库接口,这套COM组件接口可以让用户使用各种编程工具(例如,C++,C#,JavaScript脚本等)进行调用。相关技术中,大多用户使用这套开发库接口对表格工具Excel进行功能性的拓展,但针对以文本数据为主的Word软件,很少有用户使用这套二次开发库来拓展word的功能,更没有 ...
【技术保护点】
【技术特征摘要】
1.一种文档处理方法,其特征在于,包括:导入待分析的目标文档;基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容;依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。2.根据权利要求1所述的处理方法,其特征在于,基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容的步骤,包括:基于预设文档模板的模板格式,查询所述目标文档中的关键词,以得到所述目标文档的文档内容。3.根据权利要求1所述的处理方法,其特征在于,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据的步骤,包括:采用预设解析条件中的第一子解析条件,分割所述文档内容中的每个段落;确定每个所述段落所属大纲的大纲等级;将所述段落所属大纲的大纲等级表征为结构化数据。4.根据权利要求3所述的处理方法,其特征在于,在确定每个所述段落所属大纲的大纲等级之后,还包括:基于所述段落所属大纲的大纲等级,采用预设递归算法将段落等级赋予结构化数据,以使段落的层次等级与所述目标文档一致。5.根据权利要求1所述的处理方法,其特征在于,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据的步骤,包括:采用预设解析条件中的第二子解析条件,获取所述文档内容中各段落中存在表格对象的句柄及表格数;基于所述文档内容中的表格对象的句柄及表格数,循环调用表格对象,将每两个表格对象之间的段落进行分割,得到所述目标文档的文档内容;对所...
【专利技术属性】
技术研发人员:赵磬,穆翠,夏翠翠,黄荣清,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。