System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及it应用以及办公自动化,具体地说是一种word文档自动校正方法、系统、电子设备及存储介质。
技术介绍
1、word文档是使用microsoft word软件创建的电子文档,也是应用最广泛的文字外理软件之一。它提供了丰富的文字处理功能,包括格式设置、图片插入、表格编辑等等。word文档的主要用途是处理文字和文档,它提供了丰富的排版和格式设置选项,允许用户创建各种类型的文档。但在实际行业应用中word文档往往涵盖的内容多、范围广,通过人工进行校准会耗时且准确性不可控。
2、apache poi是apache软件基金会的开放源码函式库,poi提供api给java程序对microsoft office格式档案读和写的功能。在it应用中往往需要结合实际使用场景对poi提供的各种读写功能进行封装和改进以满足综合应用需求。
3、在行业数字化转型进程中,it应用中对word文档校正涌现出了一些新的问题,如需求场景多、差异性大、准确性要求高、适配范围要求广等。
4、故如何通过it技术提高word文档校正效率和准确性是目前亟待解决的技术问题。
技术实现思路
1、本专利技术的技术任务是提供一种word文档自动校正方法、系统、电子设备及存储介质,来解决如何通过it技术提高word文档校正效率和准确性的问题。
2、本专利技术的技术任务是按以下方式实现的,一种word文档自动校正方法,该方法具体如下:
3、构建标准库:包括国家和行业标准
4、模板配置埋点,以标签的形式嵌入到模板中,配置模板标签与标准库指标的映射关系;
5、对word文档按照应用场景模板识别埋点标签并进行校正处理;
6、输出校正处理后的word文档。
7、作为优选,构建标准库具体如下:
8、通过网络爬虫获取国家和行业标准库;其中,标准库的信息包括场景类型、标准类型(格式标准、内容标准)、标准级别(国家标准、行业标准、自定义标准)、标准编号、标准名称及标准内容;
9、自定义标准库,支持按照excel模板方式批量导入自定义的标准规范指标数据;其中,自定义标准库的列标题包括场景类型、标准类型(格式标准、内容标准)、标准级别(国家标准、行业标准、自定义标准)、标准编号、标准名称及标准内容;
10、将word文档的格式和内容抽象为标准库的指标。
11、更优地,通过网络爬虫获取国家和行业标准库具体如下:
12、确定目标网站,分析网站结构,了解网站结构和数据类型;
13、配置目标网站url,设置爬虫参数(速度、深度和抓取频率等);
14、定义数据采集模型,配置采集数据元与标准库指标入库映射关系;
15、执行爬虫程序,自动化抓取数据并进行解析;
16、转换存储数据,数据按照定义和映射关系转换并入标准库。
17、作为优选,模板配置埋点,以标签的形式嵌入到模板中,配置模板标签与标准库指标的映射关系具体如下:
18、创建word模板,设置模板应用场景,支持创建空模板和基于已有模板复制新增;
19、word模板埋点,将标题、段落、表格、插图、页眉及题注抽象为标签嵌入word模板中,标签包含标签标识、分组标识、格式组、内容组四部分信息,标签格式为:{{<labelid>,<groupid>,<formatset>,<contentset>}},实现模板标签与标准库指标的绑定映射关系;
20、word模板发布,模板配置完成后保存发布才可被引用。
21、作为优选,对word文档按照应用场景模板识别埋点标签并进行校正处理具体如下:
22、读取文档,通过poi读取指定的用户word文件、标准库及模板;
23、解析用户word文档,按照引用模板通过poi对用户word文档格式和内容进行识别,并解析成标准的数据元;
24、匹配转换数据元:将用户word文档解析后形成的数据元与标准库进行匹配校验:
25、若数据元与标准库一致,则跳过;
26、若数据元与标准库不一致,则替换成标准库的内容并标记该数据元;
27、校正word文档,将替换后的数据元按照模板通过poi写入用户word文档。
28、一种word文档自动校正系统,该系统包括:
29、构建单元,用于获取国家和行业标准库,并构建自定义标准库;
30、配置单元,用于模板配置埋点,以标签的形式嵌入到模板中,配置模板标签与标准库指标的映射关系;
31、识别校正单元,用于对word文档按照应用场景模板识别埋点标签并进行校正处理;
32、输出单元,用于输出校正处理后的word文档。
33、作为优选,所述构建单元包括:
34、标准库获取模块,用于通过网络爬虫获取国家和行业标准库;其中,标准库的信息包括场景类型、标准类型(格式标准、内容标准)、标准级别(国家标准、行业标准、自定义标准)、标准编号、标准名称及标准内容;
35、自定义模块,用于自定义标准库,支持按照excel模板方式批量导入自定义的标准规范指标数据;其中,自定义标准库的列标题包括场景类型、标准类型(格式标准、内容标准)、标准级别(国家标准、行业标准、自定义标准)、标准编号、标准名称及标准内容;
36、抽象模块,用于将word文档的格式和内容抽象为标准库的指标;
37、其中,标准库获取模块包括:
38、分析子模块,用于确定目标网站,分析网站结构,了解网站结构和数据类型;
39、配置子模块,用于配置目标网站url,设置爬虫参数(速度、深度和抓取频率等);
40、定义子模块,用于定义数据采集模型,配置采集数据元与标准库指标入库映射关系;
41、解析子模块,用于执行爬虫程序,自动化抓取数据并进行解析;
42、转换子模块,用于转换存储数据,数据按照定义和映射关系转换并入标准库。
43、更优地,所述配置单元包括:
44、创建模块,用于创建word模板,设置模板应用场景,支持创建空模板和基于已有模板复制新增;
45、嵌入模块,用于word模板埋点,将标题、段落、表格、插图、页眉及题注抽象为标签嵌入word模板中,标签包含标签标识、分组标识、格式组、内容组四部分信息,标签格式为:{{<labelid>,<groupid>,<formatset>,<contentset>}},实现模板标签与标准库指标的绑定映射关系;
46、发布模块,用于word模板发布,模板配置完成后保存发布才可被引用;
47、所述识别校正单元包括:
48本文档来自技高网...
【技术保护点】
1.一种Word文档自动校正方法,其特征在于,该方法具体如下:
2.根据权利要求1所述的Word文档自动校正方法,其特征在于,构建标准库具体如下:
3.根据权利要求2所述的Word文档自动校正方法,其特征在于,通过网络爬虫获取国家和行业标准库具体如下:
4.根据权利要求1所述的Word文档自动校正方法,其特征在于,模板配置埋点,以标签的形式嵌入到模板中,配置模板标签与标准库指标的映射关系具体如下:
5.根据权利要求1所述的Word文档自动校正方法,其特征在于,对Word文档按照应用场景模板识别埋点标签并进行校正处理具体如下:
6.一种Word文档自动校正系统,其特征在于,该系统包括:
7.根据权利要求6所述的Word文档自动校正系统,其特征在于,所述构建单元包括:
8.根据权利要求6或7所述的Word文档自动校正系统,其特征在于,所述配置单元包括:
9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质
...【技术特征摘要】
1.一种word文档自动校正方法,其特征在于,该方法具体如下:
2.根据权利要求1所述的word文档自动校正方法,其特征在于,构建标准库具体如下:
3.根据权利要求2所述的word文档自动校正方法,其特征在于,通过网络爬虫获取国家和行业标准库具体如下:
4.根据权利要求1所述的word文档自动校正方法,其特征在于,模板配置埋点,以标签的形式嵌入到模板中,配置模板标签与标准库指标的映射关系具体如下:
5.根据权利要求1所述的word文档自动校正方法,其特征在于,对word文档按照应用场景模板识别埋点标...
【专利技术属性】
技术研发人员:乔光荣,邓前程,刘高亮,陈光强,范立元,
申请(专利权)人:浪潮通信信息系统天津有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。