基于人工智能的内容识别方法、装置、设备及介质制造方法及图纸

技术编号:38573805 阅读:14 留言:0更新日期:2023-08-22 21:07
本申请公开一种基于人工智能的内容识别方法、装置、设备及介质,涉及计算机技术领域。该方法包括:获取文本图像对应的图像特征表示;对图像特征表示进行特征增强,得到图像特征表示对应的编码特征表示;基于图像特征表示获取文本图像对应的图像质量分数;基于图像质量分数对编码特征表示进行文本内容识别,得到文本内容对应的内容识别结果。通过增设图像质量分数的方式,根据图像清晰度对语言模型的模型参与权重进行适应性调整,使得文本内容识别过程不完全依赖语言模型,保证在图像清晰度较高的情况下识别得到的文字表示结果与文本图像中的文本内容保持一致,从而提高文本内容识别的准确度。别的准确度。别的准确度。

【技术实现步骤摘要】
基于人工智能的内容识别方法、装置、设备及介质


[0001]本申请实施例涉及计算机
,特别涉及一种基于人工智能的内容识别方法、装置、设备及介质。

技术介绍

[0002]在内容识别场景下,文本内容识别是指通过输入一张包含文本内容的文本图像,对文本图像中的文本内容进行识别后,输出得到文本内容对应的文字表示结果,例如:当目标图像中包含树木图像内容以及文本内容“Tree”,通过对目标图像进行文本内容识别,输出得到“Tree”对应的英文单词。
[0003]在相关技术中,通常预先训练一个文本识别模型,将包含文本内容的文本图像输入文本识别模型后,输出得到文本内容对应的文字预测结果,其中文本内容识别模型通常实现为一个语言模型,用于对文本图像中的文本内容根据其上下文内容进行文字预测。
[0004]然而在上述相关技术中,仅依靠文本识别模型对文本图像中的文本内容进行文字预测的方式,会存在过度依赖文本识别模型的情况,使得当文本图像中的文本内容存在拼写错误的情况下,通过文本识别模型识别得到的文字预测结果为拼写正确的文本内容,导致文本识别的准确度较低。

技术实现思路

[0005]本申请实施例提供了一种基于人工智能的内容识别方法、装置、设备及介质,能够提高文本识别的准确度。所述技术方案如下。
[0006]一方面,提供了一种基于人工智能的内容识别方法,所述方法包括:
[0007]获取文本图像对应的图像特征表示,所述文本图像中包括文本内容;
[0008]对所述图像特征表示进行特征增强,得到所述图像特征表示对应的编码特征表示;
[0009]基于所述图像特征表示获取所述文本图像对应的图像质量分数,所述图像质量分数用于指示所述文本图像的图像清晰度;
[0010]基基于所述图像质量分数对所述编码特征表示进行文本内容识别,得到所述文本内容对应的内容识别结果,所述图像质量分数用于确定预先训练的语言模型对所述编码特征表示进行所述文本内容识别过程中的模型参与权重,所述内容识别结果用于表示所述文本图像中识别得到的文本内容。
[0011]另一方面,提供了一种基于人工智能的内容识别装置,所述装置包括:
[0012]获取模块,用于获取文本图像对应的图像特征表示,所述文本图像中包括文本内容;
[0013]增强模块,用于对所述图像特征表示进行特征增强,得到所述图像特征表示对应的编码特征表示;
[0014]所述获取模块,还用于基于所述图像特征表示获取所述文本图像对应的图像质量
分数,所述图像质量分数用于指示所述文本图像的图像清晰度;
[0015]识别模块,用于基于所述图像质量分数对所述编码特征表示进行文本内容识别,得到所述文本内容对应的内容识别结果,所述图像质量分数用于确定预先训练的语言模型对所述编码特征表示进行所述文本内容识别过程中的模型参与权重,所述内容识别结果用于表示所述文本图像中识别得到的文本内容。
[0016]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述基于人工智能的内容识别方法。
[0017]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的基于人工智能的内容识别方法。
[0018]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的基于人工智能的内容识别方法。
[0019]本申请实施例提供的技术方案带来的有益效果至少包括:
[0020]通过在获取文本图像对应的图像特征表示的基础上,对图像特征表示进行特征增强,得到对应的编码特征表示,并根据图像特征表示获取文本图像对应的图像质量分数,从而根据图像质量分数对语言模型对编码特征表示进行文本内容识别的模型参与权重进行调整,进而对编码特征表示进行文本内容识别,得到文本内容对应的内容识别结果,也即,通过增设图像质量分数的方式,根据图像清晰度对语言模型的模型参与权重进行适应性调整,使得文本内容识别过程不完全依赖语言模型,保证在图像清晰度较高的情况下识别得到的文字表示结果与文本图像中的文本内容保持一致,从而提高文本内容识别的准确度。
附图说明
[0021]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本申请一个示例性实施例提供的实施环境示意图;
[0023]图2是本申请一个示例性实施例提供的基于人工智能的内容识别方法流程图;
[0024]图3是本申请另一个示例性实施例提供的基于人工智能的内容识别方法流程图;
[0025]图4是本申请另一个示例性实施例提供的解码器解码过程示意图;
[0026]图5是本申请另一个示例性实施例提供的不同图像质量分数下的文本内容识别结果;
[0027]图6是本申请再一个示例性实施例提供的基于人工智能的内容识别方法流程图;
[0028]图7是本申请一个示例性实施例提供的图像质量分数获取示意图;
[0029]图8是本申请一个示例性实施例提供的第二分类器训练过程示意图;
[0030]图9是本申请又一个示例性实施例提供的基于人工智能的内容识别方法流程图;
[0031]图10是本申请一个示例性实施例提供的基于人工智能的内容识别装置结构框图;
[0032]图11是本申请另一个示例性实施例提供的基于人工智能的内容识别装置结构框图;
[0033]图12是本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
[0034]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0035]人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0036]人工智能技术是一门综合学科,涉及领域广泛,既有硬本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的内容识别方法,其特征在于,所述方法包括:获取文本图像对应的图像特征表示,所述文本图像中包括文本内容;对所述图像特征表示进行特征增强,得到所述图像特征表示对应的编码特征表示;基于所述图像特征表示获取所述文本图像对应的图像质量分数,所述图像质量分数用于指示所述文本图像的图像清晰度;基于所述图像质量分数对所述编码特征表示进行文本内容识别,得到所述文本内容对应的内容识别结果,所述图像质量分数用于确定预先训练的语言模型对所述编码特征表示进行所述文本内容识别过程中的模型参与权重,所述内容识别结果用于表示所述文本图像中识别得到的文本内容。2.根据权利要求1所述的方法,其特征在于,所述基于所述图像质量分数对所述编码特征表示进行文本内容识别,得到所述文本内容对应的内容识别结果,包括:将所述图像质量分数和所述编码特征表示输入预先训练的解码器进行文本内容识别,输出得到所述文本内容对应的内容识别结果,所述解码器中包括所述语言模型,所述解码器用于通过所述语言模型和所述图像质量分数对所述编码特征表示进行文本内容识别。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:响应于所述图像质量分数达到第一分数阈值,设置所述解码器中所述语言模型的模型参与度为第一参与权重;响应于所述图像质量分数未达到所述第一分数阈值,设置所述解码器中所述语言模型的模型参与度为第二参与权重,所述第一参与权重低于所述第二参与权重。4.根据权利要求2所述的方法,其特征在于,所述文本内容中包括n个字符,所述内容识别结果中包括所述n个字符分别对应的内容识别结果,n为正整数;所述将所述图像质量分数和所述编码特征表示输入预先训练的解码器进行所述文本内容识别,输出得到所述文本内容对应的内容识别结果,包括:将所述编码特征表示、第i

1个字符对应的内容识别结果以及所述图像质量分数输入所述解码器,输出得到第i个字符对应的内容识别结果,2≤i≤n且i为整数。5.根据权利要求2所述的方法,其特征在于,所述文本内容中包括n个字符,所述内容识别结果中包括所述n个字符分别对应的内容识别结果,n为正整数;所述将所述图像质量分数和所述编码特征表示输入预先训练的解码器进行所述文本内容识别,输出得到所述文本内容对应的内容识别结果,包括:将所述编码特征表示、前i

1个字符对应的内容识别结果以及所述图像质量分数输入所述解码器,输出得到第i个字符对应的内容识别结果。6.根据权利要求4所述的方法,其特征在于,所述解码器中包括特征融合模块和第一分类器;所述将所述编码特征表示、第i

1个字符对应的内容识别结果以及所述图像质量分数输入所述解码器,输出得到第i个字符对应的内容识别结果,包括:将所述第i

1个字符对应的内容识别结果输入所述语言模型,输出得到所述第i

1个字符对应的语言特征表示;通过所述特征融合模块基于所述图像质量分数将所述第i

1个字符对应的语言特征表示以及所述编码特征表示进行加权融合,得到第i

1个融合特征表示;
将所述第i

1个融合特征表示输入所述第一分类器,输出得到第i个字符对应的内容识别结果。7.根据权利要求4所述的方法,其特征在于,所述n个字符中包括排在起始位置的起始字符;所述方法还包括:获取所...

【专利技术属性】
技术研发人员:王翔翔
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1