文本识别方法以及相关设备技术

技术编号:38717865 阅读:10 留言:0更新日期:2023-09-08 15:00
本申请公开了一种文本识别方法以及相关设备,可以将待识别文本输入识别模型中进行特征提取,得到所述待识别文本的语义特征信息,所述识别模型基于参考负样本文本训练得到,所述参考负样本文本是基于样本文本集合对应的负样本对的置信度信息,从参考样本文本集合中选取得到的;基于所述语义特征信息,对所述待识别文本进行文本识别,得到所述待识别文本的文本识别结果。本申请可以基于置信度更高的参考负样本文本训练得到识别模型,并通过该识别模型进行文本识别,有利于提高文本识别的准确率。率。率。

【技术实现步骤摘要】
文本识别方法以及相关设备


[0001]本申请涉及计算机
,具体涉及一种文本识别方法以及相关设备。

技术介绍

[0002]随着计算机技术的发展,出现了机器学习技术;可以通过机器学习算法,基于训练样本对模型进行训练,使得模型获得某种特定功能。训练样本的质量会直接影响到模型的训练效果;高质量的训练样本可以提升模型预测的精准性。
[0003]在目前的相关技术中,对于训练样本中的负样本,通常是直接将同一批次的训练数据中不同的样本文本作为负样本,这样得到的负样本的准确性难以保证,负样本的置信度较低,因为同一批次中不同的样本文本可能是相似的,这会使得模型不能很好地学习负样本信息,从而导致基于这些训练样本训练得到的模型对文本识别的准确率较低。

技术实现思路

[0004]本申请实施例提供一种文本识别方法以及相关设备,相关设备可以包括文本识别装置、电子设备、计算机可读存储介质和计算机程序产品,可以基于置信度更高的参考负样本文本训练得到识别模型,并通过该识别模型进行文本识别,有利于提高文本识别的准确率。
[0005]本申请实施例提供一种文本识别方法,包括:
[0006]将待识别文本输入识别模型中进行特征提取,得到所述待识别文本的语义特征信息,所述识别模型基于参考负样本文本训练得到,所述参考负样本文本是基于样本文本集合对应的负样本对的置信度信息,从参考样本文本集合中选取得到的;
[0007]基于所述语义特征信息,对所述待识别文本进行文本识别,得到所述待识别文本的文本识别结果。
[0008]相应的,本申请实施例提供一种文本识别装置,包括:
[0009]提取单元,用于将待识别文本输入识别模型中进行特征提取,得到所述待识别文本的语义特征信息,所述识别模型基于参考负样本文本训练得到,所述参考负样本文本是基于样本文本集合对应的负样本对的置信度信息,从参考样本文本集合中选取得到的;
[0010]识别单元,用于基于所述语义特征信息,对所述待识别文本进行文本识别,得到所述待识别文本的文本识别结果。
[0011]可选的,在本申请的一些实施例中,所述文本识别装置还可以包括选取单元、构建单元、特征提取单元以及优化单元,如下:
[0012]所述选取单元,用于根据所述样本文本集合对应的负样本对的置信度信息,从参考样本文本集合中选取参考负样本文本;
[0013]构建单元,用于基于所述参考负样本文本和所述样本文本集合中的各个样本文本,构建参考负样本对,得到目标负样本对,所述目标负样本对包括所述参考负样本对和所述样本文本集合对应的负样本对;
[0014]特征提取单元,用于通过预设识别模型对所述目标负样本对中的两个目标样本文本分别进行特征提取,得到所述目标样本文本对应的样本特征信息;
[0015]优化单元,用于基于所述目标样本文本对应的样本特征信息之间的相似度,对预设识别模型的参数进行优化,得到优化的识别模型。
[0016]可选的,在本申请的一些实施例中,所述优化单元可以包括损失确定子单元和优化子单元,如下:
[0017]所述损失确定子单元,用于基于所述目标样本文本对应的样本特征信息之间的相似度、预设期望相似度,确定预设识别模型对应的损失值;
[0018]优化子单元,用于采用反向传播算法,根据所述损失值对预设识别模型的参数进行优化,直到所述目标样本文本对应的样本特征信息之间的相似度不大于所述预设期望相似度,得到优化的识别模型。
[0019]可选的,在本申请的一些实施例中,所述选取单元可以包括相似度确定子单元、分析子单元和选取子单元,如下:
[0020]所述相似度确定子单元,用于基于所述样本文本集合对应的负样本对中的两个样本文本的特征信息之间的相似度确定负样本相似度;
[0021]分析子单元,用于对所述负样本相似度进行相似度分布分析,得到置信度信息;
[0022]选取子单元,用于根据所述置信度信息,确定需要获取的负样本数量,并从参考样本文本集合中选取参考负样本文本,所述参考负样本文本的数量等于所述负样本数量。
[0023]可选的,在本申请的一些实施例中,所述选取单元还可以包括特征提取子单元和构建子单元,如下:
[0024]所述特征提取子单元,用于针对所述样本文本集合中的每个样本文本,分别进行特征提取,得到所述样本文本对应的特征信息;
[0025]构建子单元,用于基于各个样本文本对应的特征信息,构建至少一个负样本对。
[0026]可选的,在本申请的一些实施例中,所述分析子单元具体可以用于针对每个预设相似度区间,统计负样本相似度落入所述预设相似度区间的负样本对的数量,计算所述预设相似度区间对应的负样本对占比;根据各个预设相似度区间对应的负样本对占比,得到负样本对的置信度信息。
[0027]可选的,在本申请的一些实施例中,步骤“根据各个预设相似度区间对应的负样本对占比,得到负样本对的置信度信息”,可以包括:
[0028]获取各个预设相似度区间对应的权重;
[0029]根据所述权重,将各个预设相似度区间对应的负样本对占比进行融合,得到负样本对的置信度信息。
[0030]可选的,在本申请的一些实施例中,所述样本文本对应的特征信息包括通过不同文本识别模型提取到的第一特征信息和第二特征信息;所述构建单元可以包括第一构建子单元、第二构建子单元和获取子单元,如下:
[0031]所述第一构建子单元,用于针对所述样本文本集合中的每个样本文本,基于所述样本文本的第一特征信息和第二特征信息,构建正样本对;
[0032]第二构建子单元,用于基于所述参考负样本文本和所述样本文本集合中的各个样本文本,构建参考负样本对;
[0033]获取子单元,用于根据所述正样本对、所述参考负样本对和所述负样本对,获取目标负样本对。
[0034]可选的,在本申请的一些实施例中,所述特征提取子单元具体可以用于针对所述样本文本集合中的每个样本文本,通过第一文本识别模型对所述样本文本进行特征提取,得到所述样本文本对应的第一特征信息;通过第二文本识别模型对所述样本文本进行特征提取,得到所述样本文本对应的第二特征信息。
[0035]可选的,在本申请的一些实施例中,所述参考负样本对包括所述参考负样本文本对应的特征信息、以及所述样本文本集合中样本文本对应的特征信息;
[0036]所述获取子单元具体可以用于根据所述参考负样本对中参考负样本文本对应的特征信息和样本文本对应的特征信息之间的相似度,确定所述参考负样本对的参考负样本相似度;针对每个样本文本,基于所述样本文本对应的正样本对的正样本相似度、负样本对对应的负样本相似度、以及参考负样本对的参考负样本相似度,计算所述样本文本的对比损失值;根据各个样本文本的对比损失值,获取目标负样本对。
[0037]本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的文本识别方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:将待识别文本输入识别模型中进行特征提取,得到所述待识别文本的语义特征信息,所述识别模型基于参考负样本文本训练得到,所述参考负样本文本是基于样本文本集合对应的负样本对的置信度信息,从参考样本文本集合中选取得到的;基于所述语义特征信息,对所述待识别文本进行文本识别,得到所述待识别文本的文本识别结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述样本文本集合对应的负样本对的置信度信息,从参考样本文本集合中选取参考负样本文本;基于所述参考负样本文本和所述样本文本集合中的各个样本文本,构建参考负样本对,得到目标负样本对,所述目标负样本对包括所述参考负样本对和所述样本文本集合对应的负样本对;通过预设识别模型对所述目标负样本对中的两个目标样本文本分别进行特征提取,得到所述目标样本文本对应的样本特征信息;基于所述目标样本文本对应的样本特征信息之间的相似度,对预设识别模型的参数进行优化,得到优化的识别模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标样本文本对应的样本特征信息之间的相似度,对预设识别模型的参数进行优化,得到优化的识别模型,包括:基于所述目标样本文本对应的样本特征信息之间的相似度、预设期望相似度,确定预设识别模型对应的损失值;采用反向传播算法,根据所述损失值对预设识别模型的参数进行优化,直到所述目标样本文本对应的样本特征信息之间的相似度不大于所述预设期望相似度,得到优化的识别模型。4.根据权利要求2所述的方法,其特征在于,所述根据所述样本文本集合对应的负样本对的置信度信息,从参考样本文本集合中选取参考负样本文本,包括:基于所述样本文本集合对应的负样本对中的两个样本文本的特征信息之间的相似度确定负样本相似度;对所述负样本相似度进行相似度分布分析,得到置信度信息;根据所述置信度信息,确定需要获取的负样本数量,并从参考样本文本集合中选取参考负样本文本,所述参考负样本文本的数量等于所述负样本数量。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:针对所述样本文本集合中的每个样本文本,分别进行特征提取,得到所述样本文本对应的特征信息;基于各个样本文本对应的特征信息,构建至少一个负样本对。6.根据权利要求4所述的方法,其特征在于,所述对所述负样本相似度进行相似度分布分析,得到置信度信息,包括:针对每个预设相似度区间,统计负样本相似度落入所述预设相似度区间的负样本对的数量,计算所述预设相似度区间对应的负样本对占比;根据各个预设相似度区间对应的负样本对占比,得到负样本对的置信度信息。
7.根据权利要求6所述的方法,其特征在于,所述根据各个预设相似度区间对应的负样本对占比,得到负样本对的置信度信息,包括:获取各个预设相似度区间对应的权...

【专利技术属性】
技术研发人员:卢思瑾赵向军
申请(专利权)人:TCL科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1