一种文档格式智能检查校正方法及系统技术方案

技术编号：33643440 阅读：18 留言：0更新日期：2022-06-02 20:19

本发明专利技术涉及一种文档格式智能检查校正方法及系统，所述方法包括：对待测文档的格式和内容进行模板匹配，确定正确格式信息和异常格式信息；基于中文文本纠错模型，对所述异常格式信息进行语法错误的识别和校正；所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层；所述编码端和所述解码端均为双向LSTM结构。本发明专利技术采用基于LSTM的语言模型来解决无标注数据的问题，同时，还可以准确校验规则类错误和部分常见的非规则类错误，提高了文档检查校正的效率和精度。高了文档检查校正的效率和精度。高了文档检查校正的效率和精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档格式智能检查校正方法及系统

[0001]本专利技术涉及智能化办公
，特别是涉及一种文档格式智能检查校正方法及系统。

技术介绍

[0002]电子数据处理时，常需要处理一些可图形表示的内容，例如字符、图形、表格等类型，采用管理内容模块进行处理文档的文本或图形元素已经是现有技术中已知的技术，创建个性化文档，或者关联连接到单个文档，再将可能包含文本、图形、表格等的文档不同组成部分作为单独的文件，使用格式转换方式管理。
[0003]同时，再对文件的各个组成部分进行管理时，高度灵活或简单性要求的书面形式的技术文档是必须的，维护文档也是必须的，如何使得文档在短时间内适应文档的内容更改、且花费较少的人力，已经会成为管理文档的重要技术问题。

技术实现思路

[0004]为了克服现有技术的不足，本专利技术的目的是提供一种文档格式智能检查校正方法及系统。
[0005]为实现上述目的，本专利技术提供了如下方案：
[0006]一种文档格式智能检查校正方法，包括：
[0007]对待测文档的格式和内容进行模板匹配，确定正确格式信息和异常格式信息；
[0008]基于中文文本纠错模型，对所述异常格式信息进行语法错误的识别和校正；所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层；所述编码端和所述解码端均为双向LSTM结构。
[0009]优选地，所述对待测文档的格式和内容进行模板匹配，确定正确格式信息和异常格式信息，包括：
[0010]基于python...

【技术保护点】

【技术特征摘要】
1.一种文档格式智能检查校正方法，其特征在于，包括：对待测文档的格式和内容进行模板匹配，确定正确格式信息和异常格式信息；基于中文文本纠错模型，对所述异常格式信息进行语法错误的识别和校正；所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层；所述编码端和所述解码端均为双向LSTM结构。2.根据权利要求1所述的文档格式智能检查校正方法，其特征在于，所述对待测文档的格式和内容进行模板匹配，确定正确格式信息和异常格式信息，包括：基于python分别读取所述待测文档和预设的模板文档，得到待测转换文档和模板转换文档；所述待测文档和所述模板文档的格式为word文档格式；所述待测转换文档和所述模板转换文档的格式为XML文档格式；基于解析器分别对所述待测转换文档和所述模板转换文档进行解析，得到待测解析信息和模板解析信息；根据所述待测解析信息和所述模板解析信息进行一致性判断，将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息，并将所述待测解析信息和所述模板解析信息一致的部分确定为所述正确格式信息。3.根据权利要求2所述的文档格式智能检查校正方法，其特征在于，所述将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息之后，还包括：将所述异常格式信息进行颜色异常标记，得到标记信息；根据所述异常格式信息进行统计制表，得到异常信息报表；对所述异常格式信息进行查重、统计和\或限制处理操作，得到统计信息。4.根据权利要求2所述的文档格式智能检查校正方法，其特征在于，所述基于解析器分别对所述待测转换文档和所述模板转换文档进行解析，得到待测解析信息和模板解析信息，包括：依次利用所述解析器的paragraphs模块、text模块、tables模块、section模块提取所述待测转换文档和所述模板转换文档的解析信息；所述解析器为python
‑
docx解析模块；所述解析信息包括文档的内容、格式、标签和/或属性。5.根据权利要求1所述的文档格式智能检查校正方法，其特征在于，所述基于中文文本纠错模型，对所述异常格式信息进行语法错误的识别和校正，包括：根据所述词嵌入层对所述异常格式信息进行向量化处理，得到文本向量信息；基于所述文本向量信息，根...

【专利技术属性】
技术研发人员：杨军，陈渊，王滨，田正鑫，
申请(专利权)人：中国电子科技集团公司第十五研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人