通过机器学习实现格式文件规范化的方法技术

技术编号:42312863 阅读:32 留言:0更新日期:2024-08-14 15:56
本发明专利技术提出通过机器学习实现格式文件规范化的方法,通过检测模型对文件进行标识和纠正,根据纠正后的文件确定文件类型,再根据文件类型检验文件完整性、校验位置规范性以及校验内容规范性;本发明专利技术通过对文件可能出现的类型进行穷尽构建模型,通过模型对比判断文件中的类型并判断其完整性、规范性,能够实现格式文件规范化的迅速判断,通过机器人对某些不规范的文件进行校正,校正后的文件重新校验直至符合格式文件的完整性、规范性,大大减少人工校正的工作量,有利于利用文件的分类归档。

【技术实现步骤摘要】

本专利技术涉及机器学习领域,特别涉及通过机器学习实现格式文件规范化的方法


技术介绍

1、规范性文件指由有权机关在履行职责过程中形成的具有特定效力和规范格式、可以反复适用的立法性文件和非立法性文件。广义上的规范性文件一般是指属于法律范畴(即宪法、法律、行政法规、地方性法规、自治条例、单行条例、国务院部门规章和地方政府规章等)的立法性文件,以及除此以外的由国家机关和其他团体、组织制定的具有普遍约束力的非立法性文件的总和。狭义上的规范性文件俗称“红头文件”,指法律范畴以外的由有权机关制定的其他具有普遍约束力、可以反复适用的非立法性文件,包括贯彻执行中央决策部署、指导推动各项工作的决议、决定、意见、通知等文件。

2、公检法及其他行业日常工作中遇到不规范的文件,影响工作效率,无法及时对文件判断发现问题,通过ocr或者读取文件内容方式判断文件是否符合规范,但是仅通过文件中出现的文字内容和位置无法判断文件是否符合规范。


技术实现思路

1、本专利技术的目的在于提供一种通过机器学习实现格式文件规范化的方法,以解决本文档来自技高网...

【技术保护点】

1.通过机器学习实现格式文件规范化的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的通过机器学习实现格式文件规范化的方法,其特征在于:所述内容元素包括但不限于标题、副标题、文号、表格、手写签名、印章、日期、捺印。

3.根据权利要求1所述的通过机器学习实现格式文件规范化的方法,其特征在于:所述构建文件问题预检测模型时,首先搜集存在缺陷的文件,构建破损、污点、文字重叠、文字错位、文字模糊不清以及当前文件中文字旋转角度的数据集,将这些已经人工标注的数据作为输入特征,构建模型进行训练,并将训练后的模型对其他数据进行推理使用,结合现有的目标检测模型添加旋转角度预测...

【技术特征摘要】

1.通过机器学习实现格式文件规范化的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的通过机器学习实现格式文件规范化的方法,其特征在于:所述内容元素包括但不限于标题、副标题、文号、表格、手写签名、印章、日期、捺印。

3.根据权利要求1所述的通过机器学习实现格式文件规范化的方法,其特征在于:所述构建文件问题预检测模型时,首先搜集存在缺陷的文件,构建破损、污点、文字重叠、文字错位、文字模糊不清以及当前文件中文字旋转角度的数据集,将这些已经人工标注的数据作为输入特征,构建模型进行训练,并将训练后的模型对其他数据进行推理使用,结合现有的目标检测模型添加旋转角度预测,生成实现缺陷检测和文件旋转角度同时输出的模型。

4.根据权利要求1所述的通过机器学习实现格式文件规范化的方法,其特征在于:所述检测的问题进行标识和纠正时,对于文件中存在的破损、文字重叠、文字错位、文字模糊的情况,在文件中将其位置和类型进行标识,存在污点可以使用滤波的方法对污点所在位置使用周边背景元素进行填充,对于文件歪斜的情况则根据文件歪斜角度对文件整体进行旋转纠正。

5.根据权利要求1所述的通过机器学习实现格式文件规范化的方法,其特征在于:所述内容要素的识别和定位包括以下步骤:

6.根据权利要求3所述的通过机器学习实现格式文件规范化的方法,其特征在于:所述目标检测模型包括yolo、ssd、fasterrcnn 、maskrcnn。

7.根据权利要求1所述的通过机...

【专利技术属性】
技术研发人员:朱聪聪何中何冉冉
申请(专利权)人:江苏中威科技软件系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1