【技术实现步骤摘要】
一种使用超分辨率技术的客票行程单识别系统和方法
[0001]本专利技术涉及一种使用超分辨率技术的客票行程单识别系统和方法,属于信息
,特别是属于客票行程单自动识别
。
技术介绍
[0002]客票行程单识别是指对飞机行程单的字段进行结构化识别,包括姓名
、
始发站
、
目的站
、
航班号
、
日期
、
时间
、
票价
、
身份证号
、
保险费
、
燃油附加费
、
其他税费
、
合计金额
、
电子客票号等
。
自动识别客票行程单中上述字段等信息,可以广泛应用于企业内部报销等场景,能够大大减少人工录入工作量
、
降低核算成本,实现财税报销的自动化
。
[0003]在实际应用过程中,由于拍摄设备的抖动
、
对焦偏差产生的失焦等情况都会产生低质图像,使得客票行程单图像往往存在分辨率低
、
图像模糊等问题,对文本识别造成严重影响,不能保证较高的识别准确率,如何有效解决图像模糊所导致的识别准确率问题,成为目前客票行程单自动识别
急需解决的一个技术难题
。
技术实现思路
[0004]有鉴于此,本专利技术的目的是提出一种使用超分辨率技术的客票行程单识别系统和方法,通过使用超分辨率技术,对客票行程单的文字区域进行清晰化 ...
【技术保护点】
【技术特征摘要】
1.
一种使用超分辨率技术的客票行程单识别系统,其特征在于:所述系统包括如下模块:词条定位模块:该模块的功能是检测出客票行程单图像中包含词条的检测框坐标,依据该检测框坐标裁剪出包含词条的文字区域图像块,并给出该文字区域图像块的类别;所述文字区域图像块的类别是指该文字区域图像块中所包含的词条的类别;所述词条是指姓名
、
航班号
、
票价
、
合计
、
始发地
、
目的地
、
身份证号
、
电子客票号码
、
填开日期
、
燃油费
、
保险费
、
民航发展基金
、
验证码
、
印刷序号等;超分辨率模块:该模块的功能是接收词条定位模块的输出信息,对词条定位模块输出的文字区域图像块进行超分辨率处理,得到文字区域图像块的清晰化版本;文字识别模块:该模块的功能是接收所述的超分辨率模块所输出的文字区域图像块的清晰化版本,进行文字识别,得到识别结果
。2.
根据权利要求1所述的一种使用超分辨率技术的客票行程单识别系统,其特征在于:所述的词条定位模块由骨干网络
CSPDarknet
子模块
、
加强特征提取网络
FPN
子模块和
Yolo Head
分类器与回归器子模块构成;所述的词条定位模块的工作过程是:客票行程单图像首先由所述的骨干网络
CSPDarknet
子模块进行特征提取,获取三个有效特征层;然后再由所述的加强特征提取网络
FPN
子模块将前面所得到的三个有效特征层进行特征融合,来融合不同尺度的特征信息;最后由所述的
Yolo Head
分类器与回归器子模块得到客票行程单图像中包含词条的检测框坐标
、
包含词条的文字区域图像块和该文字区域图像块的类别
。3.
根据权利要求1所述的一种使用超分辨率技术的客票行程单识别系统,其特征在于:所述的超分辨率模块由字符特征提取融合器子模块和超分辨率图像生成器子模块构成;所述的字符特征提取融合器子模块用于提取所述的文字区域图像块中的字符结构特征
、
字符笔划特征和字符语义特征,并将上述特征进行融合,得到所述文字区域图像块中的字符融合特征;所述的字符特征提取融合器子模块由字符结构特征提取单元
、
字符笔划特征提取单元
、
字符语义特征提取单元和字符融合特征处理单元构成;所述的超分辨率图像生成器子模块利用所述的字符融合特征,基于扩散生成模型,对所述的文字区域图像块进行超分辨率处理,得到文字区域图像块的清晰化版本
。4.
根据权利要求3所述的一种使用超分辨率技术的客票行程单识别系统,其特征在于:所述的字符结构特征提取单元由一个
patch embedding
子单元和3个结构相同的下采样网络子单元顺序连接而成;所述的下采样网络子单元包括
mixingblocks
组件和
merging
组件两部分,所述的
mixingblocks
组件负责提取字符结构特征,所述的
merging
组件负责对
mixingblocks
组件所获得的字符结构特征进行卷积操作和归一化操作,在高度方向进行降采样,输出最后的字符结构特征;所述的字符结构特征提取单元的工作过程是:先由所述的
patch embedding
子单元使用一个步长为4的4×4卷积核对所述的文字区域图像块进行降采样,将文字区域图像块分割成小块
patch
,并将每个小块转换为特征图;之后经过3个所述的下采样网络子单元,对前述的特征图的高度进行降采样,得到所述的文字区域图像块中的字符结构特征
。5.
根据权利要求4所述的一种使用超分辨率技术的客票行程单识别系统,其特征在于:所述的
mixingblocks
子单元由全局特征混合组件和局部特征混合组件两部分构成;所述的
全局特征混合组件采用
transformer encoder
结构,使用多头自注意力机制,建立来自不同字符之间的长期依赖关系,提取字符结构的整体特征;所述的局部特征混...
【专利技术属性】
技术研发人员:王晶,郭沛然,李炜,赵海秀,王玉龙,廖建新,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。