【技术实现步骤摘要】
基于感知和语义关联性的文本识别模型可靠性正则方法
[0001]本专利技术属于人工智能与序列处理
,特别是涉及一种基于感知和语义关联性的文本识别模型可靠性正则方法
。
技术介绍
[0002]随着深度学习研究的不断深入,深层神经网络模型以其较高的预测准确度被大量应用到了各个领域,如医疗辅助诊断
、
无人驾驶
、
车牌识别
、
智能标注
、
票据数字化等等
。
但随着深层神经网络模型在各个领域深化普及的过程中,其存在的潜在风险也逐步显现
。
序列数据是我们日常生活中随处可见的数据类型,例如:金融票据
、
广告标识牌
、
汽车车牌号
、
医疗检查单等场景文本图像数据;会议书面化
、
语音转文字
、
广播识别等语音数据
。
与标准字符
、
单帧图像这种非结构化数据相比,结构化序列数据显然预测更加困难,对于其预测的可靠程度和可信度的判断也更加困难
。
[0003]对于深层神经网络识别模型,预测的置信度是评价预测准确度的直接指标,因此识别模型的可靠性通常由预测的置信度进行度量
。
预测的置信度一般由模型预测各类别概率归一化得到,可靠的置信度能够反映模型预测的准确程度,若模型对预测输出一个相对较低的置信度,为保证任务的安全性及准确性,需要人工进行决策
。
然而,现有研 ...
【技术保护点】
【技术特征摘要】
1.
基于感知和语义关联性的文本识别模型可靠性正则方法,其特征在于,包括以下步骤:步骤1,利用语义上下文无关的识别模型和预训练语言模型分别获取感知关联序列集和语义关联序列集,构建实例特定的关联序列集;步骤2,根据关联序列集,联合利用感知和语义关联序列平滑目标序列的损失,以实现序列可靠性正则;步骤3,构建调制函数,根据样本的难易程度自适应调整校准强度,以实现自适应细粒度序列可靠性正则;步骤4,引入全局平滑因子,联合预测序列与标签序列的
KL
散度,构建全局校准损失函数,以实现总体的序列可靠性正则;步骤5,利用最终损失重新训练待校准训练模型,最后得到校准的场景文本识别模型,用于输出预测文本序列及校准的置信度
。2.
根据权利要求1所述的基于感知和语义关联性的文本识别模型可靠性正则方法,其特征在于,所述的利用语义上下文无关的识别模型的过程,包括以下步骤:输入文本图像,利用语义上下文无关的识别模型获得每个时刻相互条件独立的预测字符分布,联合每个时刻的预测字符组成对齐路径
π
=
{
π1,
π2,...,
π
T
}
,
T
为解码时间序列长度;对
π
合并连续的相同字符,并删除空格分隔符
“‑”
得到输出序列根据
CTC
多对一映射规则
B
,有多个对齐路径对应同一输出序列则输出序列的后验概率为所有映射到输出序列的对齐路径的概率之和,具体为:的对齐路径的概率之和,具体为:其中,
X
i
为输入样本,
π
表示一个对齐路径,表示在映射规则
B
下所有输出序列的路径集合,
π
t
为在解码器在
t
时刻的预测字符,
p(
π
t
|X
i
)
为解码器在
t
时刻输出预测字符
π
t
的概率,
P(
π
|X
i
)
为在条件独立假设下输出对齐路径
π
的概率,表示给定输入
X
i
时序列识别网络输出序列的后验概率;按照给定输入
X
i
时序列识别网络输出序列的后验概率排序,收集不包括目标序列的前
N
个预测序列
Y
i
'
作为感知关联序列集
seq
vis
(Y
i
',X
i
)。3.
根据权利要求1或2所述的基于感知和语义关联性的文本识别模型可靠性正则方法,其特征在于,所述的预训练语言模型的利用过程,包括以下步骤:输入真实标签目标序列
Y
i
=
{y1,y2,...,y
n
}
,其中
n
为序列长度,对于第
t
个标记字符,利用预训练语言模型统计第
t
个真实字符
y
t
被预测为其他字符的概率
概率大小代表在输入目标序列中,第
t
个标记字符
y
t
与上下文字符
y
1:t
‑1,y
t+1:n
的语义关联性的强弱,则输入目标序列,得到语义关联序列的概率为:其中,表示第
t
个标记字符
y
t
之前的字符序列,表示第
t
个标记字符
y
t
之后的字符序列,用前缀搜索译码对目标序列所有语义关联序列...
【专利技术属性】
技术研发人员:黄双萍,徐可可,彭政华,罗钰,黄森,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。