一种文档格式智能检查校正方法及系统技术方案

技术编号:33643440 阅读:18 留言:0更新日期:2022-06-02 20:19
本发明专利技术涉及一种文档格式智能检查校正方法及系统,所述方法包括:对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。本发明专利技术采用基于LSTM的语言模型来解决无标注数据的问题,同时,还可以准确校验规则类错误和部分常见的非规则类错误,提高了文档检查校正的效率和精度。高了文档检查校正的效率和精度。高了文档检查校正的效率和精度。

【技术实现步骤摘要】
一种文档格式智能检查校正方法及系统


[0001]本专利技术涉及智能化办公
,特别是涉及一种文档格式智能检查校正方法及系统。

技术介绍

[0002]电子数据处理时,常需要处理一些可图形表示的内容,例如字符、图形、表格等类型,采用管理内容模块进行处理文档的文本或图形元素已经是现有技术中已知的技术,创建个性化文档,或者关联连接到单个文档,再将可能包含文本、图形、表格等的文档不同组成部分作为单独的文件,使用格式转换方式管理。
[0003]同时,再对文件的各个组成部分进行管理时,高度灵活或简单性要求的书面形式的技术文档是必须的,维护文档也是必须的,如何使得文档在短时间内适应文档的内容更改、且花费较少的人力,已经会成为管理文档的重要技术问题。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术的目的是提供一种文档格式智能检查校正方法及系统。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种文档格式智能检查校正方法,包括:
[0007]对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;
[0008]基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。
[0009]优选地,所述对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息,包括:
[0010]基于python分别读取所述待测文档和预设的模板文档,得到待测转换文档和模板转换文档;所述待测文档和所述模板文档的格式为word文档格式;所述待测转换文档和所述模板转换文档的格式为XML文档格式;
[0011]基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息;
[0012]根据所述待测解析信息和所述模板解析信息进行一致性判断,将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息,并将所述待测解析信息和所述模板解析信息一致的部分确定为所述正确格式信息。
[0013]优选地,所述将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息之后,还包括:
[0014]将所述异常格式信息进行颜色异常标记,得到标记信息;
[0015]根据所述异常格式信息进行统计制表,得到异常信息报表;
[0016]对所述异常格式信息进行查重、统计和\或限制处理操作,得到统计信息。
[0017]优选地,所述基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息,包括:
[0018]依次利用所述解析器的paragraphs模块、text模块、tables模块、section模块提取所述待测转换文档和所述模板转换文档的解析信息;所述解析器为python

docx解析模块;所述解析信息包括文档的内容、格式、标签和/或属性。
[0019]优选地,所述基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正,包括:
[0020]根据所述词嵌入层对所述异常格式信息进行向量化处理,得到文本向量信息;
[0021]基于所述文本向量信息,根据所述编码端进行循环迭代,生成关于语句的语义向量和隐藏状态;
[0022]将所述语义向量和所述隐藏状态进行合并,并根据合并后的信息和所述解码端得到当前时刻的输出向量;
[0023]根据所述注意力层和所述当前时刻的输出向量得到注意力矩阵;
[0024]将所述注意力矩阵与上一时刻的字符向量进行合并,并将合并后的向量作为所述解码端下一个LSTM节点的输入,以得到预测正确的候选字符;
[0025]基于排序算法,根据所述候选字符和所述待测文档的语句信息确定最优候选字。
[0026]优选地,所述词嵌入层采用词共现算法进行构建。
[0027]优选地,所述排序算法包括TF

IDF算法和余弦相似度算法。
[0028]一种文档格式智能检查校正系统,包括:
[0029]匹配模块,用于对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;
[0030]校正模块,用于基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。
[0031]优选地,所述匹配模块具体包括:
[0032]转换单元,用于基于python分别读取所述待测文档和预设的模板文档,得到待测转换文档和模板转换文档;所述待测文档和所述模板文档的格式为word文档格式;所述待测转换文档和所述模板转换文档的格式为XML文档格式;
[0033]解析单元,用于基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息;
[0034]判断单元,用于根据所述待测解析信息和所述模板解析信息进行一致性判断,将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息,并将所述待测解析信息和所述模板解析信息一致的部分确定为所述正确格式信息。
[0035]优选地,所述匹配模块还包括:
[0036]标记单元,用于将所述异常格式信息进行颜色异常标记,得到标记信息;
[0037]制表单元,用于根据所述异常格式信息进行统计制表,得到异常信息报表;
[0038]统计单元,用于对所述异常格式信息进行查重、统计和\或限制处理操作,得到统计信息。
[0039]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0040]本专利技术提供了一种文档格式智能检查校正方法及系统,所述方法包括:对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。本专利技术采用基于LSTM的语言模型来解决无标注数据的问题,同时,还可以准确校验规则类错误和部分常见的非规则类错误,提高了文档检查校正的效率和精度。
附图说明
[0041]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0042]图1为本专利技术提供的实施例中的方法流程图;
[0043]图2为本专利技术提供的实施例中的系统模块连接图。
具体实施方式
[0044]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档格式智能检查校正方法,其特征在于,包括:对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息;基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正;所述中文文本纠错模型包括依次连接的词嵌入层、编码端、解码端和注意力层;所述编码端和所述解码端均为双向LSTM结构。2.根据权利要求1所述的文档格式智能检查校正方法,其特征在于,所述对待测文档的格式和内容进行模板匹配,确定正确格式信息和异常格式信息,包括:基于python分别读取所述待测文档和预设的模板文档,得到待测转换文档和模板转换文档;所述待测文档和所述模板文档的格式为word文档格式;所述待测转换文档和所述模板转换文档的格式为XML文档格式;基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息;根据所述待测解析信息和所述模板解析信息进行一致性判断,将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息,并将所述待测解析信息和所述模板解析信息一致的部分确定为所述正确格式信息。3.根据权利要求2所述的文档格式智能检查校正方法,其特征在于,所述将所述待测解析信息和所述模板解析信息不一致的部分确定为所述异常格式信息之后,还包括:将所述异常格式信息进行颜色异常标记,得到标记信息;根据所述异常格式信息进行统计制表,得到异常信息报表;对所述异常格式信息进行查重、统计和\或限制处理操作,得到统计信息。4.根据权利要求2所述的文档格式智能检查校正方法,其特征在于,所述基于解析器分别对所述待测转换文档和所述模板转换文档进行解析,得到待测解析信息和模板解析信息,包括:依次利用所述解析器的paragraphs模块、text模块、tables模块、section模块提取所述待测转换文档和所述模板转换文档的解析信息;所述解析器为python

docx解析模块;所述解析信息包括文档的内容、格式、标签和/或属性。5.根据权利要求1所述的文档格式智能检查校正方法,其特征在于,所述基于中文文本纠错模型,对所述异常格式信息进行语法错误的识别和校正,包括:根据所述词嵌入层对所述异常格式信息进行向量化处理,得到文本向量信息;基于所述文本向量信息,根...

【专利技术属性】
技术研发人员:杨军陈渊王滨田正鑫
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1