基于人工智能的内容识别方法、装置、设备及介质制造方法及图纸

技术编号：38573805 阅读：14 留言：0更新日期：2023-08-22 21:07

本申请公开一种基于人工智能的内容识别方法、装置、设备及介质，涉及计算机技术领域。该方法包括：获取文本图像对应的图像特征表示；对图像特征表示进行特征增强，得到图像特征表示对应的编码特征表示；基于图像特征表示获取文本图像对应的图像质量分数；基于图像质量分数对编码特征表示进行文本内容识别，得到文本内容对应的内容识别结果。通过增设图像质量分数的方式，根据图像清晰度对语言模型的模型参与权重进行适应性调整，使得文本内容识别过程不完全依赖语言模型，保证在图像清晰度较高的情况下识别得到的文字表示结果与文本图像中的文本内容保持一致，从而提高文本内容识别的准确度。别的准确度。别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的内容识别方法、装置、设备及介质

[0001]本申请实施例涉及计算机
，特别涉及一种基于人工智能的内容识别方法、装置、设备及介质。

技术介绍

[0002]在内容识别场景下，文本内容识别是指通过输入一张包含文本内容的文本图像，对文本图像中的文本内容进行识别后，输出得到文本内容对应的文字表示结果，例如：当目标图像中包含树木图像内容以及文本内容“Tree”，通过对目标图像进行文本内容识别，输出得到“Tree”对应的英文单词。
[0003]在相关技术中，通常预先训练一个文本识别模型，将包含文本内容的文本图像输入文本识别模型后，输出得到文本内容对应的文字预测结果，其中文本内容识别模型通常实现为一个语言模型，用于对文本图像中的文本内容根据其上下文内容进行文字预测。
[0004]然而在上述相关技术中，仅依靠文本识别模型对文本图像中的文本内容进行文字预测的方式，会存在过度依赖文本识别模型的情况，使得当文本图像中的文本内容存在拼写错误的情况下，通过文本识别模型识别得到的文字预测结果为拼写正确的文本内容，导致文本识别的准确度较低。

技术实现思路

[0005]本申请实施例提供了一种基于人工智能的内容识别方法、装置、设备及介质，能够提高文本识别的准确度。所述技术方案如下。
[0006]一方面，提供了一种基于人工智能的内容识别方法，所述方法包括：
[0007]获取文本图像对应的图像特征表示，所述文本图像中包括文本内容；
[0008]对所述图像特征表示进行特征增强，得到所...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的内容识别方法，其特征在于，所述方法包括：获取文本图像对应的图像特征表示，所述文本图像中包括文本内容；对所述图像特征表示进行特征增强，得到所述图像特征表示对应的编码特征表示；基于所述图像特征表示获取所述文本图像对应的图像质量分数，所述图像质量分数用于指示所述文本图像的图像清晰度；基于所述图像质量分数对所述编码特征表示进行文本内容识别，得到所述文本内容对应的内容识别结果，所述图像质量分数用于确定预先训练的语言模型对所述编码特征表示进行所述文本内容识别过程中的模型参与权重，所述内容识别结果用于表示所述文本图像中识别得到的文本内容。2.根据权利要求1所述的方法，其特征在于，所述基于所述图像质量分数对所述编码特征表示进行文本内容识别，得到所述文本内容对应的内容识别结果，包括：将所述图像质量分数和所述编码特征表示输入预先训练的解码器进行文本内容识别，输出得到所述文本内容对应的内容识别结果，所述解码器中包括所述语言模型，所述解码器用于通过所述语言模型和所述图像质量分数对所述编码特征表示进行文本内容识别。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：响应于所述图像质量分数达到第一分数阈值，设置所述解码器中所述语言模型的模型参与度为第一参与权重；响应于所述图像质量分数未达到所述第一分数阈值，设置所述解码器中所述语言模型的模型参与度为第二参与权重，所述第一参与权重低于所述第二参与权重。4.根据权利要求2所述的方法，其特征在于，所述文本内容中包括n个字符，所述内容识别结果中包括所述n个字符分别对应的内容识别结果，n为正整数；所述将所述图像质量分数和所述编码特征表示输入预先训练的解码器进行所述文本内容识别，输出得到所述文本内容对应的内容识别结果，包括：将所述编码特征表示、第i
‑
1个字符对应的内容识别结果以及所述图像质量分数输入所述解码器，输出得到第i个字符对应的内容识别结果，2≤i≤n且i为整数。5.根据权利要求2所述的方法，其特征在于，所述文本内容中包括n个字符，所述内容识别结果中包括所述n个字符分别对应的内容识别结果，n为正整数；所述将所述图像质量分数和所述编码特征表示输入预先训练的解码器进行所述文本内容识别，输出得到所述文本内容对应的内容识别结果，包括：将所述编码特征表示、前i
‑
1个字符对应的内容识别结果以及所述图像质量分数输入所述解码器，输出得到第i个字符对应的内容识别结果。6.根据权利要求4所述的方法，其特征在于，所述解码器中包括特征融合模块和第一分类器；所述将所述编码特征表示、第i
‑
1个字符对应的内容识别结果以及所述图像质量分数输入所述解码器，输出得到第i个字符对应的内容识别结果，包括：将所述第i
‑
1个字符对应的内容识别结果输入所述语言模型，输出得到所述第i
‑
1个字符对应的语言特征表示；通过所述特征融合模块基于所述图像质量分数将所述第i
‑
1个字符对应的语言特征表示以及所述编码特征表示进行加权融合，得到第i
‑
1个融合特征表示；
将所述第i
‑
1个融合特征表示输入所述第一分类器，输出得到第i个字符对应的内容识别结果。7.根据权利要求4所述的方法，其特征在于，所述n个字符中包括排在起始位置的起始字符；所述方法还包括：获取所...

【专利技术属性】
技术研发人员：王翔翔，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人