【技术实现步骤摘要】
一种基于深度学习文字识别的多媒体数据检索方法
[0001]本专利技术涉及邮件附件内容解析、识别、业务打标领域,尤其涉及一种基于深度学习文字识别的多媒体数据检索方法。
技术介绍
[0002]现有情况:
[0003]走私犯罪作为一种国际性的违法贸易行为往往伴随着境内外的通联通信,在贸易沟通交流的过程中会产生海量的邮件数据。邮件及其附件数据中往往会包含大量的订单、货品重量、货品型号、价格等各类信息,从中找出缉私办案所关注的信息要素作为证据是对违法走私活动进行定性定量的一种重要手段。
[0004]一般情况下会有两种方案开展此工作:
[0005]将邮件数据导入至foxmail、Outlook等软件,人工肉眼逐一核对邮件信息及附件内容,寻找相关订单或合同、报关单附件内容;
[0006]基于开源分布式搜索引擎ElasticSearch定制化开发全文检索能力,导入邮件数据后,使用关键字快速检索想要的附件信息。
[0007]问题和缺点:
[0008]人工排查的方式虽然精准但耗时耗力,且面对大量邮件数据时候往往会无从下手;
[0009]使用存储搜索引擎虽然可以快速检索到附件中的信息内容,但存在关键字匹配精准度不够,查询结果不能满足缉私民警的要求;
[0010]邮件附件中包括图片、PDF等多种数据结构,缉私行业内的搜索引擎无法进行缉私业务层面的解析匹配和识别,无法满足用户的日常需求。
[0011]综上所述,要从海量的邮件附件内容中解析、识别出有用的信息需要另一种可行的 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习文字识别的多媒体数据检索方法,其特征在于:通过获取到上传的压缩包,解压缩成对应文件内容,根据文件格式分类解析,同步基于业务理解,在人工整理的情况下,得到业务打标模型所需的训练数据,针对训练数据特征构建邮件多媒体文本提取模型及业务标签分类模型,输出图文内容及业务标签;具体包含如下步骤:步骤1,上传邮件压缩包文件并创建导入任务;步骤2,根据导入任务采用linux解压命令对文件压缩包技进行解压缩,并调用解析模板及JavaMail获取邮件的基本信息,将邮件和附件基本信息批量一次入库,入库后将任务信息更新至解析成功状态;步骤3,根据人工整理的邮件图片类数据构建训练邮件多媒体文本提取模型;步骤4,根据人工整理的邮件文本类梳理构建训练业务标签分类模型;步骤5,判断邮件中附件类型,图片类附件调用并多媒体文本提取模型,并输出可编辑格式化文本内容;步骤6,将邮件文本类附件及邮件多媒体文本提取模型输出的文本附件调用业务标签分类模型,并输出业务标签;步骤7,将业务标签分类模型输出的业务标签及附件关联关系存储至业务库中,进而通过界面呈现。2.根据权利要求1所述的一种基于深度学习文字识别的多媒体数据检索方法,其特征在于:在步骤3中,邮件多媒体文本提取模型的构建包含附件解析模块、OCR检测模型、OCR方向分类器、OCR识别模型;其中,附件解析模块,用于将邮件提取的多媒体文件解析成三通道图片;OCR检测模型,用于从三通道图片检测出多个文本前景区域,通过各类连通域算法将多个文本前景区域裁剪成多个四边形文本行图片;OCR方向分类器,用于对四边形文本行图片进行方向分类,计算四边形文本行图片的真实旋转角度,通过透视变换将四边形文本行图片透视转化为正定的文本行矩形图片;OCR识别模型,用于对文本行矩形图片进行OCR识别,同时结合业务语料TopK,得到文本内容,并结合前景区域坐标和文本内容,对多媒体图片文件进行文本提取,输出可编辑格式化文本内容;其中,OCR全拼Optical Character Recognition,其中文叫光学字符识别、一般指图片中的文字识别;TopK为专业接口词汇,一般指神经网络认为前k个可能性最高的类别。3.根据权利要求2所述的一种基于深度学习文字识别的多媒体数据检索方法,其特征在于:所述文件类别包含发票、单据、合同、转账记录,其文件格式包含JPEG、PNG、BMP、GIP、PDF。4.根据权利要求1所述的一种基于深度学习文字识别的多媒体数据检索方法,其特征在于:所述业务标签分类模型的构建包含文本解析模块和文本分类模块;其中,文件解析模块,用于根据文件名自动读取文件的文本内容;文本分类模型,用于通过TextCNN对解析的文本进行分类,并结合业务数据进行类别修正,输出业务标签;其中,TextCNN全拼Text Convolutional Neural Networks,其中文含义是用于文本分类的卷积神经网络。5.根据权利要求4所述的一种基于深度学习文字识别的多媒体数据检索方法,其特征
在于:所述文件解析模块支持的文件类型有:CSV、TXT、XLS、XLSX、DOC、DOCX、PPTX、EML、PDF。6.根据权利要求1所述的一种基于深度学习文字识别的多媒体数据检索方法,其特征在于:在步骤3中,根据人工整理的邮件图片类数据构建训练邮件多媒体文本提取模型,具体包含如下步骤:步骤3.1,通过训练得到OCR检测模型、OCR方向分类器模型、OCR识别模型,待识别的样本通过OCR检测模型输出图片文本框的四点坐标P
i
,其中,四点坐标按照左下角为起点,顺时针方向排序;步骤3.2,根据四点坐标P和富文本图片进行四点图片裁剪,得到四边形文本行图片,通...
【专利技术属性】
技术研发人员:汤鲲,杨沛沛,范浪浪,陈玉冰,李磊,
申请(专利权)人:南京烽火星空通信发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。