一种基于深度学习文字识别的多媒体数据检索方法技术

技术编号:37817855 阅读:25 留言:0更新日期:2023-06-09 09:49
本发明专利技术公开了一种基于深度学习文字识别的多媒体数据检索方法,涉及邮件附件内容解析、识别、业务打标领域,其将海量的邮件内容解压缩并根据文件格式分层解析及业务打标进而分类检索、为用户快速寻找出业务标签奠定一定的基础,同时也为附件内容自动打标提供一种自我识别的解决办法,通过获取到上传的压缩包,解压缩成对应文件内容,根据文件格式分类解析,同步基于业务理解,在人工整理的情况下,得到业务打标模型所需的训练数据,针对训练数据特征构建邮件多媒体文本提取模型及业务标签分类模型,输出图文内容及业务标签,从海量邮件数据中寻找业务层面关注的附件信息,提升检索效率,实现导入即打标,主动推荐出关注的附件信息,以此释放人力。以此释放人力。以此释放人力。

【技术实现步骤摘要】
一种基于深度学习文字识别的多媒体数据检索方法


[0001]本专利技术涉及邮件附件内容解析、识别、业务打标领域,尤其涉及一种基于深度学习文字识别的多媒体数据检索方法。

技术介绍

[0002]现有情况:
[0003]走私犯罪作为一种国际性的违法贸易行为往往伴随着境内外的通联通信,在贸易沟通交流的过程中会产生海量的邮件数据。邮件及其附件数据中往往会包含大量的订单、货品重量、货品型号、价格等各类信息,从中找出缉私办案所关注的信息要素作为证据是对违法走私活动进行定性定量的一种重要手段。
[0004]一般情况下会有两种方案开展此工作:
[0005]将邮件数据导入至foxmail、Outlook等软件,人工肉眼逐一核对邮件信息及附件内容,寻找相关订单或合同、报关单附件内容;
[0006]基于开源分布式搜索引擎ElasticSearch定制化开发全文检索能力,导入邮件数据后,使用关键字快速检索想要的附件信息。
[0007]问题和缺点:
[0008]人工排查的方式虽然精准但耗时耗力,且面对大量邮件数据时候往往会无从下手;
[0009]使用存储搜索引擎虽然可以快速检索到附件中的信息内容,但存在关键字匹配精准度不够,查询结果不能满足缉私民警的要求;
[0010]邮件附件中包括图片、PDF等多种数据结构,缉私行业内的搜索引擎无法进行缉私业务层面的解析匹配和识别,无法满足用户的日常需求。
[0011]综上所述,要从海量的邮件附件内容中解析、识别出有用的信息需要另一种可行的方案。

技术实现思路

[0012]本专利技术所要解决的技术问题是针对上述研究背景提出了一种基于深度学习文字识别的多媒体数据检索方法,将海量的邮件内容解压缩并根据文件格式分层解析及业务打标进而分类检索、为用户快速寻找出业务标签奠定一定的基础,同时也为附件内容自动打标提供一种自我识别的解决办法。
[0013]本专利技术为解决上述技术问题采用以下技术方案:
[0014]一种基于深度学习文字识别的多媒体数据检索方法,通过获取到上传的压缩包,解压缩成对应文件内容,根据文件格式分类解析,同步基于业务理解,在人工整理的情况下,得到业务打标模型所需的训练数据,针对训练数据特征构建邮件多媒体文本提取模型及业务标签分类模型,输出图文内容及业务标签;具体包含如下步骤:
[0015]步骤1,上传邮件压缩包文件并创建导入任务;
[0016]步骤2,根据导入任务采用linux解压命令对文件压缩包技进行解压缩,并调用解析模板及JavaMail获取邮件的基本信息,将邮件和附件基本信息批量一次入库,入库后将任务信息更新至解析成功状态;
[0017]步骤3,根据人工整理的邮件图片类数据构建训练邮件多媒体文本提取模型;
[0018]步骤4,根据人工整理的邮件文本类梳理构建训练业务标签分类模型;
[0019]步骤5,判断邮件中附件类型,图片类附件调用并多媒体文本提取模型,并输出可编辑格式化文本内容;
[0020]步骤6,将邮件文本类附件及邮件多媒体文本提取模型输出的文本附件调用业务标签分类模型,并输出业务标签;
[0021]步骤7,将业务标签分类模型输出的业务标签及附件关联关系存储至业务库中,进而通过界面呈现。
[0022]作为本专利技术一种基于深度学习文字识别的多媒体数据检索方法的进一步优选方案,在步骤3中,邮件多媒体文本提取模型的构建包含附件解析模块、OCR检测模型、OCR方向分类器、OCR识别模型;
[0023]其中,附件解析模块,用于将邮件提取的多媒体文件解析成三通道图片;
[0024]OCR检测模型,用于从三通道图片检测出多个文本前景区域,通过各类连通域算法将多个文本前景区域裁剪成多个四边形文本行图片;
[0025]OCR方向分类器,用于对四边形文本行图片进行方向分类,计算四边形文本行图片的真实旋转角度,通过透视变换将四边形文本行图片透视转化为正定的文本行矩形图片;
[0026]OCR识别模型,用于对文本行矩形图片进行OCR识别,同时结合业务语料TopK,得到文本内容,并结合前景区域坐标和文本内容,对多媒体图片文件进行文本提取,输出可编辑格式化文本内容;
[0027]其中,OCR全拼Optical Character Recognition,其中文叫光学字符识别、一般指图片中的文字识别;TopK为专业接口词汇,一般指神经网络认为前k个可能性最高的类别。
[0028]作为本专利技术一种基于深度学习文字识别的多媒体数据检索方法的进一步优选方案,所述文件类别包含发票、单据、合同、转账记录,其文件格式包含JPEG、PNG、BMP、GIP、PDF。
[0029]作为本专利技术一种基于深度学习文字识别的多媒体数据检索方法的进一步优选方案,所述业务标签分类模型的构建包含文本解析模块和文本分类模块;
[0030]其中,文件解析模块,用于根据文件名自动读取文件的文本内容;
[0031]文本分类模型,用于通过TextCNN对解析的文本进行分类,并结合业务数据进行类别修正,输出业务标签;TextCNN全拼Text Convolutional Neural Networks,其中文含义是用于文本分类的卷积神经网络。
[0032]作为本专利技术一种基于深度学习文字识别的多媒体数据检索方法的进一步优选方案,所述文件解析模块支持的文件类型有:CSV、TXT、XLS、XLSX、DOC、DOCX、PPTX、EML、PDF。
[0033]作为本专利技术一种基于深度学习文字识别的多媒体数据检索方法的进一步优选方案,在步骤3中,根据人工整理的邮件图片类数据构建训练邮件多媒体文本提取模型,具体包含如下步骤:
[0034]步骤3.1,通过训练得到OCR检测模型、OCR方向分类器模型、OCR识别模型,待识别
的样本通过OCR检测模型输出图片文本框的四点坐标P
i
,其中,四点坐标按照左下角为起点,顺时针方向排序;
[0035]步骤3.2,根据四点坐标P和富文本图片进行四点图片裁剪,得到四边形文本行图片,通过OCR方向分类器模型分类得到角度θ
i
,其中θ
i
∈[0,360];
[0036]步骤3.3,通过角度θ
i
和四点坐标P
i
计算混合变换矩阵MaT_M,根据混合变换矩阵MaT_M对四点文本行图片进行矩阵变换转化为正定文本行矩形图片;
[0037]具体如下:将四边形图片矫正为正定文本行矩形图片主要包含两个步骤:角度变换和透视扭曲变换;其中,透视扭曲变换,可提高计算精度、加快推理速度、减少像素损失,具体推导过程如下:假设四边形顶点坐标分别为P=[(x1,y1),(x2,y2),(x3,y3),(x4,y4)],其真实角度为θ;
[0038]Step1,计算角度变换矩阵MaT_θ,具体计算如下:
[0039][0040]St本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习文字识别的多媒体数据检索方法,其特征在于:通过获取到上传的压缩包,解压缩成对应文件内容,根据文件格式分类解析,同步基于业务理解,在人工整理的情况下,得到业务打标模型所需的训练数据,针对训练数据特征构建邮件多媒体文本提取模型及业务标签分类模型,输出图文内容及业务标签;具体包含如下步骤:步骤1,上传邮件压缩包文件并创建导入任务;步骤2,根据导入任务采用linux解压命令对文件压缩包技进行解压缩,并调用解析模板及JavaMail获取邮件的基本信息,将邮件和附件基本信息批量一次入库,入库后将任务信息更新至解析成功状态;步骤3,根据人工整理的邮件图片类数据构建训练邮件多媒体文本提取模型;步骤4,根据人工整理的邮件文本类梳理构建训练业务标签分类模型;步骤5,判断邮件中附件类型,图片类附件调用并多媒体文本提取模型,并输出可编辑格式化文本内容;步骤6,将邮件文本类附件及邮件多媒体文本提取模型输出的文本附件调用业务标签分类模型,并输出业务标签;步骤7,将业务标签分类模型输出的业务标签及附件关联关系存储至业务库中,进而通过界面呈现。2.根据权利要求1所述的一种基于深度学习文字识别的多媒体数据检索方法,其特征在于:在步骤3中,邮件多媒体文本提取模型的构建包含附件解析模块、OCR检测模型、OCR方向分类器、OCR识别模型;其中,附件解析模块,用于将邮件提取的多媒体文件解析成三通道图片;OCR检测模型,用于从三通道图片检测出多个文本前景区域,通过各类连通域算法将多个文本前景区域裁剪成多个四边形文本行图片;OCR方向分类器,用于对四边形文本行图片进行方向分类,计算四边形文本行图片的真实旋转角度,通过透视变换将四边形文本行图片透视转化为正定的文本行矩形图片;OCR识别模型,用于对文本行矩形图片进行OCR识别,同时结合业务语料TopK,得到文本内容,并结合前景区域坐标和文本内容,对多媒体图片文件进行文本提取,输出可编辑格式化文本内容;其中,OCR全拼Optical Character Recognition,其中文叫光学字符识别、一般指图片中的文字识别;TopK为专业接口词汇,一般指神经网络认为前k个可能性最高的类别。3.根据权利要求2所述的一种基于深度学习文字识别的多媒体数据检索方法,其特征在于:所述文件类别包含发票、单据、合同、转账记录,其文件格式包含JPEG、PNG、BMP、GIP、PDF。4.根据权利要求1所述的一种基于深度学习文字识别的多媒体数据检索方法,其特征在于:所述业务标签分类模型的构建包含文本解析模块和文本分类模块;其中,文件解析模块,用于根据文件名自动读取文件的文本内容;文本分类模型,用于通过TextCNN对解析的文本进行分类,并结合业务数据进行类别修正,输出业务标签;其中,TextCNN全拼Text Convolutional Neural Networks,其中文含义是用于文本分类的卷积神经网络。5.根据权利要求4所述的一种基于深度学习文字识别的多媒体数据检索方法,其特征
在于:所述文件解析模块支持的文件类型有:CSV、TXT、XLS、XLSX、DOC、DOCX、PPTX、EML、PDF。6.根据权利要求1所述的一种基于深度学习文字识别的多媒体数据检索方法,其特征在于:在步骤3中,根据人工整理的邮件图片类数据构建训练邮件多媒体文本提取模型,具体包含如下步骤:步骤3.1,通过训练得到OCR检测模型、OCR方向分类器模型、OCR识别模型,待识别的样本通过OCR检测模型输出图片文本框的四点坐标P
i
,其中,四点坐标按照左下角为起点,顺时针方向排序;步骤3.2,根据四点坐标P和富文本图片进行四点图片裁剪,得到四边形文本行图片,通...

【专利技术属性】
技术研发人员:汤鲲杨沛沛范浪浪陈玉冰李磊
申请(专利权)人:南京烽火星空通信发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1