基于CTC解码器的文本序列识别模型校准方法技术

技术编号:33503774 阅读:40 留言:0更新日期:2022-05-19 01:13
本发明专利技术公开了基于CTC解码器的文本序列识别模型校准方法,包括:将文本图像支撑集输入至待校准训练模型中,获得文本序列识别结果;利用文本图像支撑集的文本序列识别结果计算上下文混淆矩阵,上下文混淆矩阵用于表征序列中相邻时刻预测字符之间的上下文分布关系;根据上下文混淆矩阵,利用上下文相关预测分布对标签平滑中平滑强度有选择性地进行自适应的变化,以实现序列置信度的自适应校准;基于上下文选择性损失函数重新训练待校准训练模型,输出预测文本序列及校准的置信度。本发明专利技术方法将标签平滑扩展到基于CTC解码器的文本序列识别模型上,引入序列间上下文关系,对预测序列进行自适应的校准,使得模型输出预测文本置信度能够更加精准。度能够更加精准。度能够更加精准。

【技术实现步骤摘要】
基于CTC解码器的文本序列识别模型校准方法


[0001]本专利技术属于人工智能与文本序列处理
,特别是涉及一种基于CTC解码器的文本序列识别模型校准方法。

技术介绍

[0002]随着深度学习的发展,深度神经网络模型因其较高的预测准确度,而在医疗、交通、金融等领域得到了大量的部署,例如:医疗影像识别模型能够为医生诊断病情提供辅助依据,目标检测识别模型让车辆拥有智能分析能力从而控制传感器车速或方向,以及OCR(光学字符识别)模型为金融票据录入数字化提供强力支撑。然而,在深度模型应用在各个领域普及、深化的过程当中,深度模型潜在的风险也逐渐暴露出来。场景文本图像作为我们日常场景中广泛存在的数据形式之一,广泛存在于我们生活的各个行业、领域当中。例如:医疗诊断中的问诊记录、医疗检查单和金融系统中票据等文本数据。相比于普通单帧图像、字符这种非结构化数据,结构化的序列数据预测更加困难,其可靠性的获取和判断也更加复杂。
[0003]目前,置信度是评价预测可靠性最直接的指标之一。一般将模型预测分数经过归一化为概率后作为其置信度。可靠的置信度能够确切地本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于CTC解码器的文本序列识别模型校准方法,其特征在于,包括以下步骤:步骤1,将文本图像支撑集输入至待校准训练模型中,获得文本序列识别结果;步骤2,利用文本图像支撑集的文本序列识别结果计算上下文混淆矩阵,上下文混淆矩阵用于表征序列中相邻时刻预测字符之间的上下文分布关系;步骤3,根据上下文混淆矩阵,利用上下文相关预测分布对标签平滑中平滑强度有选择性地进行自适应的变化,以实现序列置信度的自适应校准;步骤4,基于上下文选择性损失函数重新训练待校准训练模型,最后输出预测文本序列及校准的置信度。2.根据权利要求1所述的基于CTC解码器的文本序列识别模型校准方法,其特征在于,所述的计算上下文混淆矩阵的过程,包括以下步骤:初始化设置共个预测类别的元素为0的上下文混淆矩阵,为对应预测类别索引;比对文本图像支撑集的文本序列识别结果和对应真实标签,为文本序列识别结果长度,为真实标签序列长度;若识别结果和真实标签对齐,则在已知上一时刻字符标签所属类别索引为情况下,直接统计当前时刻真实字符被预测为字符的上下文混淆矩阵,其中,上下文混淆矩阵中每个元素表示已知上一时刻真实字符属于第类时,真实标签属于第类的当前时刻字符被预测为第类标签的次数,对于位于文本首位的字符,其上一时刻字符所属类别默认设置为空格;若识别结果和真实标签未对齐,则先通过编辑距离计算预测序列到真实标签的操作序列,获得序列之间的对齐关系,然后再统计获得上下文混淆矩阵。3.根据权利要求2所述的基于CTC解码器的文本序列识别模型校准方法,其特征在于,所述的获得序列之间的对齐关系的过程需要进行若干次下列操作:删除一个字符操作、插入一个字符操作或替换一个字符操作,直到字符正确预测且对齐,其中,删除一个字符操作为纠正真实标签序列中的空符号被错误预测成其他字符,插入一个字符...

【专利技术属性】
技术研发人员:黄双萍罗钰徐可可
申请(专利权)人:人工智能与数字经济广东省实验室广州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1