基于感知和语义关联性的文本识别模型可靠性正则方法技术

技术编号:39648592 阅读:14 留言:0更新日期:2023-12-09 11:16
本发明专利技术公开了基于感知和语义关联性的文本识别模型可靠性正则方法,包括:利用语义上下文无关的识别模型和预训练语言模型分别获取感知关联序列集和语义关联序列集,构建实例特定的关联序列集;根据关联序列集,联合利用感知和语义关联序列平滑目标序列的损失,以实现更加有效的序列可靠性正则;构建调制函数,根据样本的难易程度自适应调整校准强度,以实现自适应细粒度序列可靠性正则;引入全局平滑因子,联合预测序列与标签序列的

【技术实现步骤摘要】
基于感知和语义关联性的文本识别模型可靠性正则方法


[0001]本专利技术属于人工智能与序列处理
,特别是涉及一种基于感知和语义关联性的文本识别模型可靠性正则方法


技术介绍

[0002]随着深度学习研究的不断深入,深层神经网络模型以其较高的预测准确度被大量应用到了各个领域,如医疗辅助诊断

无人驾驶

车牌识别

智能标注

票据数字化等等

但随着深层神经网络模型在各个领域深化普及的过程中,其存在的潜在风险也逐步显现

序列数据是我们日常生活中随处可见的数据类型,例如:金融票据

广告标识牌

汽车车牌号

医疗检查单等场景文本图像数据;会议书面化

语音转文字

广播识别等语音数据

与标准字符

单帧图像这种非结构化数据相比,结构化序列数据显然预测更加困难,对于其预测的可靠程度和可信度的判断也更加困难

[0003]对于深层神经网络识别模型,预测的置信度是评价预测准确度的直接指标,因此识别模型的可靠性通常由预测的置信度进行度量

预测的置信度一般由模型预测各类别概率归一化得到,可靠的置信度能够反映模型预测的准确程度,若模型对预测输出一个相对较低的置信度,为保证任务的安全性及准确性,需要人工进行决策

然而,现有研究发现,许多深层神经网络识别模型对预测输出的置信度存在过自信的现象,即对于错误的预测,模型有时也会分配较高的置信度,这使得模型的预测并不可靠

这一特性可能导致潜在的灾难性后果,如医疗诊断

自动驾驶等安全关键性应用

正则化识别模型的可靠性则需要对预测的置信度进行校准

[0004]场景文本识别可视作时序视觉分类任务,在不考虑上下文的情况下,模型根据每一个字符的视觉特征做出相应的判别

传统基于
one

hot
分布的训练方式加大了正负预测样本之间的距离,不认为输入的视觉特征存在不确定性,在训练中随着
one

hot
分布与预测分布之间的交叉熵损失的不断优化,导致模型逐渐出现过拟合的现象,进而呈现出过自信的特点

因此使用硬标签
(

one

hot
分布
)
作为监督信号指导模型训练,会使模型通常对预测的置信度过于自信,难以输出一个可靠的置信度

[0005]在传统的机器学习领域中,对标量任务
(
例如图像分类
)
的可靠性正则已经被广泛地研究

经典的方法包括
Platt
缩放

直方图分箱和贝叶斯理论等等,在机器学习模型,如
SVM、Naive Bayesian Models
等上表现良好

而深层神经网络由于其高度复杂的模型结构和过拟合问题,其校准效果比浅层神经网络要差

在传统方法的启发下,研究者们提出了一些后处理的方法,这些方法基于一个小的保留数据集学习回归函数,以调整训练后的模型的预测置信度

例如,有学者在
Platt
缩放的基础上提出了温度缩放,用一个温度参数对所有网络
logits
进行全局缩放;也有学者将直方图分箱扩展到多级校准,使标签和
logits
之间的相互信息最大化,以保持多级精度

这些方法只是在事后对置信度进行了重新转换的方式来缓解过自信问题

然而,训练过程中过度拟合造成的固有的过自信问题并没有得到根本性地解决

因此,一些方法被提出在训练过程中对模型进行校准,通过调整损失函数

标签平滑以及熵正则等方式缓解模型的过拟合从而校准模型

从数据层面考虑,在训练过程中,也可以采用数据增强的方法来缓解这一问题,例如
MixUp、GAN
等方法

但是这些方法都是为标量模型的校准而提出的,难以简单地应用于序列识别模型

[0006]在序列识别模型校准方面,一些学者从序列长度和字符之间差异出发,提出了长度自适应和步长相关的校准函数;一些学者则从模型的解码机制出发,分析模型过自信的深层次原因,通过学习校准函数或增加回归分支纠正和缓解过自信;一些学者则考虑到了序列数据的长度和内在上下文依赖特性,实现对不同字符的自适应校准

但是这些方法没有考虑到数据集中不同序列之间的感知相似性
(
例如视觉和听觉
)
和语义相关性
(
例如不同序列之间的相似共现字符
)
,也没有考虑到不同样本识别的难易程度的差异性,且几乎只探讨基于注意力机制的序列识别模型上的校准,而对其他主流的基于
CTC
的序列识别模型的校准少之又少

因此,需要更进一步考虑深度序列识别模型的特点,从序列与序列之间的数据特征做出针对性的校准设计,提高序列置信度的校准性能


技术实现思路

[0007]有鉴于此,有必要针对场景文本识别模型的可靠性正则的技术问题,提供一种基于感知和语义关联性的文本识别模型可靠性正则方法,所述方法将感知和语义两种相关性集成到最终的正则化中,作为更有效的校准约束

具体来说,引入了一个语义上下文无关的识别模型和一个预先训练的语言模型,分别用于搜索感知相关序列和语义相关序列,将集中在目标序列的概率平滑到这些相关序列上,从而校准置信度,同时设计了一种自适应校准策略,根据样本的难易程度自适应调整校准强度,以实现序列置信度的自适应细粒度校准

[0008]本专利技术公开了基于感知和语义关联性的文本识别模型可靠性正则方法,包括以下步骤:
[0009]步骤1,利用语义上下文无关的识别模型和预训练语言模型分别获取感知关联序列集和语义关联序列集,构建实例特定的关联序列集;
[0010]步骤2,根据关联序列集,联合利用感知和语义关联序列平滑目标序列的损失,以实现更加有效的序列可靠性正则;
[0011]步骤3,构建调制函数,根据样本的难易程度自适应调整校准强度,以实现自适应细粒度序列可靠性正则;
[0012]步骤4,引入全局平滑因子,联合预测序列与标签序列的
KL
散度,构建全局校准损失函数,以实现总体的序列可靠性正则;
[0013]步骤5,利用最终损失重新训练待校准训练模型,最后得到校准的场景文本识别模型,用于输出预测文本序列及校本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于感知和语义关联性的文本识别模型可靠性正则方法,其特征在于,包括以下步骤:步骤1,利用语义上下文无关的识别模型和预训练语言模型分别获取感知关联序列集和语义关联序列集,构建实例特定的关联序列集;步骤2,根据关联序列集,联合利用感知和语义关联序列平滑目标序列的损失,以实现序列可靠性正则;步骤3,构建调制函数,根据样本的难易程度自适应调整校准强度,以实现自适应细粒度序列可靠性正则;步骤4,引入全局平滑因子,联合预测序列与标签序列的
KL
散度,构建全局校准损失函数,以实现总体的序列可靠性正则;步骤5,利用最终损失重新训练待校准训练模型,最后得到校准的场景文本识别模型,用于输出预测文本序列及校准的置信度
。2.
根据权利要求1所述的基于感知和语义关联性的文本识别模型可靠性正则方法,其特征在于,所述的利用语义上下文无关的识别模型的过程,包括以下步骤:输入文本图像,利用语义上下文无关的识别模型获得每个时刻相互条件独立的预测字符分布,联合每个时刻的预测字符组成对齐路径
π

{
π1,
π2,...,
π
T
}

T
为解码时间序列长度;对
π
合并连续的相同字符,并删除空格分隔符
“‑”
得到输出序列根据
CTC
多对一映射规则
B
,有多个对齐路径对应同一输出序列则输出序列的后验概率为所有映射到输出序列的对齐路径的概率之和,具体为:的对齐路径的概率之和,具体为:其中,
X
i
为输入样本,
π
表示一个对齐路径,表示在映射规则
B
下所有输出序列的路径集合,
π
t
为在解码器在
t
时刻的预测字符,
p(
π
t
|X
i
)
为解码器在
t
时刻输出预测字符
π
t
的概率,
P(
π
|X
i
)
为在条件独立假设下输出对齐路径
π
的概率,表示给定输入
X
i
时序列识别网络输出序列的后验概率;按照给定输入
X
i
时序列识别网络输出序列的后验概率排序,收集不包括目标序列的前
N
个预测序列
Y
i
'
作为感知关联序列集
seq
vis
(Y
i
',X
i
)。3.
根据权利要求1或2所述的基于感知和语义关联性的文本识别模型可靠性正则方法,其特征在于,所述的预训练语言模型的利用过程,包括以下步骤:输入真实标签目标序列
Y
i

{y1,y2,...,y
n
}
,其中
n
为序列长度,对于第
t
个标记字符,利用预训练语言模型统计第
t
个真实字符
y
t
被预测为其他字符的概率
概率大小代表在输入目标序列中,第
t
个标记字符
y
t
与上下文字符
y
1:t
‑1,y
t+1:n
的语义关联性的强弱,则输入目标序列,得到语义关联序列的概率为:其中,表示第
t
个标记字符
y
t
之前的字符序列,表示第
t
个标记字符
y
t
之后的字符序列,用前缀搜索译码对目标序列所有语义关联序列...

【专利技术属性】
技术研发人员:黄双萍徐可可彭政华罗钰黄森
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1