【技术实现步骤摘要】
文档异常检测网络模型构建方法、装置、电子设备及介质
[0001]本申请涉及人工智能
,尤其涉及一种文档异常检测网络模型构建方法、装置、电子设备及介质。
技术介绍
[0002]目前各类文档图像中包括由用户拍摄得到的文档图像和扫描得到的文档图像,由客户上传的文档图像存在文字重叠和文字被遮挡的情况,业内暂时还没有能较好直接将文字分离和将遮挡信息直接补全正确的方案。因此,亟需提供一种对文档图像的文字重叠和文字被遮挡等异常文字情况进行分析的方案。
技术实现思路
[0003]为了解决上述技术问题,本申请实施例提供了一种文档异常检测网络模型构建方法、装置、电子设备及介质。
[0004]第一方面,本申请实施例提供了一种文档异常检测网络模型构建方法,所述方法包括:基于正常文档图像随机选取文字区域,根据所述文字区域生成文档异常图像样本集,所述文档异常图像样本集包括多个文档异常图像样本;对各所述文档异常图像进行文档异常打标,得到多个打标后图像样本,生成各所述打标后图像样本对应的打标信息文件;确定文档异常图像训练集的第 ...
【技术保护点】
【技术特征摘要】
1.一种文档异常检测网络模型构建方法,其特征在于,所述方法包括:基于正常文档图像随机选取文字区域,根据所述文字区域生成文档异常图像样本集,所述文档异常图像样本集包括多个文档异常图像样本;对各所述文档异常图像进行文档异常打标,得到多个打标后图像样本,生成各所述打标后图像样本对应的打标信息文件;确定文档异常图像训练集的第一样本数量,从多个所述打标信息文件中抽取所述第一样本数量的打标信息文件,根据所述第一样本数量的打标信息文件生成训练图像索引列表;基于YOLO框架构建初始文档异常检测网络模型,根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常训练图像对所述初始文档异常检测网络模型进行训练,得到文档异常检测网络模型。2.根据权利要求1所述的方法,其特征在于,所述根据真实边界框的尺寸、所述训练图像索引列表、所述训练图像索引列表对应的文档异常图像对所述初始文档异常检测网络模型进行训练,包括:通过所述初始文档异常检测网络模型加载所述训练图像索引列表对应的打标信息文件,获取加载到的打标信息文件的文档异常坐标信息,将所述真实边界框的尺寸信息作为K
‑
means聚类的输入数据;根据所述文档异常坐标信息、所述真实边界框的尺寸信息和所述文档异常训练图像对所述初始文档异常检测网络模型进行训练。3.根据权利要求1所述的方法,其特征在于,所述根据所述文字区域生成文档异常图像样本,包括:通过OCR确定所述文字区域的文字位置,并获取所述文字位置对应的文本内容集合;通过OPENCV图像处理算法获取所述文本内容集合在所述正常文档图像的背景和字体颜色,通过所述文字位置的宽高及文本行数计算字号,根据所述背景、所述字体颜色、所述字号构建边缘框;根据所述边缘框、所述正常文档图像的原文字框生成文档异常图像样本。4.根据权利要求3所述的方法,其特征在于,所述文档异常图像样本包括文本重叠样本和/或文本遮挡样本,所述根据所述边缘框、所述正常文档图像的原文字框生成文档异常图像样本,包括:通过计算所述边缘框和原文字框的交并比构建所述文本重叠样本;和/或,根据所述文本内容集合通过预设文本框对所述正常文档图像进行遮挡,得到所述文本遮挡样本。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:将各所述文档异常图像存入图像文件夹;将各所述打标信息文件存入打标文件夹,其中,所述打标文件夹下的各打标信息文件与所述图像文件夹下的各文档异常图像一一对应。6.根据权利要求1所述的方法,其特征在于,所述打标信息文件包括自定义图像对象名、图像文件名、图像文件路径、图像尺寸和文档异常坐标信息。7.根据权利要求1所述的方法,其特征在于,所述方法包括:
确定文档异常图像测试集的第二样本数量;从多个所述打标信息文件中抽取所述第二样本数量的打标信息文件,根据所述第二样本数量的打标信息文件生成测试图像索引列表;通过所述文档异常检测网络模型根据所述测...
【专利技术属性】
技术研发人员:冯德亮,孙铁,陈奕均,毛奔,冯伟,
申请(专利权)人:平安银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。