【技术实现步骤摘要】
特征融合方法、装置、电子设备及计算机可读存储介质
[0001]本公开涉及人工智能
,具体涉及深度学习、图像处理、大模型、计算机视觉
,可应用于光学字符识别(Optical Character Recognition,OCR)等场景,具体而言,本公开涉及一种特征融合方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]特征融合是指将不同的特征融合成新特征,从而更好地利用不同特征的特性,以提升模型性能。
[0003]特征融合的效果会对模型性能造成较大影响,因此,如何在将不同特征融合成新特征时,提升特征融合的效果,以保证模型性能,成为了相关领域中的一个重要的技术问题。
技术实现思路
[0004]本公开为了解决上述缺陷中的至少一项,提供了一种特征融合方法、装置、电子设备及计算机可读存储介质。
[0005]根据本公开的第一方面,提供了一种特征融合方法,该方法包括:
[0006]获取第一输入特征以及第二输入特征,第一输入特征以及第二输入特征均与目标分析对象的相关性满足预设的
【技术保护点】
【技术特征摘要】
1.一种特征融合方法,包括:获取第一输入特征以及第二输入特征,所述第一输入特征以及第二输入特征均与目标分析对象的相关性满足预设的相关性条件;将所述第一输入特征以及所述第二输入特征输入预置的特征融合网络,得到第一交叉注意力特征以及第二交叉注意力特征;其中,所述特征融合网络包括第一自注意力子网络、第二自注意力子网络、第一交叉注意力子网络以及第二交叉注意力子网络;所述第一自注意力子网络用于对所述第一输入特征进行自注意力处理,得到第一自注意力特征;所述第二自注意力子网络用于对所述第二输入特征进行自注意力处理,得到第二自注意力特征;所述第一交叉注意力子网络用于基于所述第一自注意力特征以及所述第二自注意力子网络对应的第二注意力权重参数进行交叉注意力处理,得到第一交叉注意力特征;所述第二交叉注意力子网络用于基于所述第二自注意力特征以及所述第一自注意力子网络对应的第一注意力权重参数进行交叉注意力处理,得到第二交叉注意力特征。2.根据权利要求1所述的方法,其中,所述第一交叉注意力子网络在基于所述第一自注意力特征以及所述第二自注意力子网络对应的第二注意力权重参数进行交叉注意力处理,得到第一交叉注意力特征时,具体用于:将所述第一自注意力特征转换为第一内容特征;基于所述第一内容特征以及所述第二自注意力子网络对应的第二注意力权重参数进行交叉注意力处理,得到第一交叉注意力特征;所述第二交叉注意力子网络在基于所述第二自注意力特征以及所述第一自注意力子网络对应的第一注意力权重参数进行交叉注意力处理,得到第二交叉注意力特征时,具体用于:将所述第二自注意力特征转换为第二内容特征;基于所述第二内容特征以及所述第一自注意力子网络对应的第一注意力权重参数进行交叉注意力处理,得到第二交叉注意力特征。3.根据权利要求1或2所述的方法,其中,所述特征融合网络还包括特征融合层,在所述将所述第一输入特征以及所述第二输入特征输入预置的特征融合网络,得到第一交叉注意力特征以及第二交叉注意力特征之后,所述方法还包括:将所述第一交叉注意力特征以及所述第二交叉注意力特征输入至所述特征融合层,以基于所述第一交叉注意力特征以及所述第二交叉注意力特征,确定融合后特征。4.根据权利要求3所述的方法,其中,所述基于所述第一交叉注意力特征以及所述第二交叉注意力特征,确定融合后特征,包括:将所述第一交叉注意力特征与所述第二交叉注意力特征进行特征融合,得到融合后特征。5.根据权利要求3所述的方法,其中,所述基于所述第一交叉注意力特征以及所述第二交叉注意力特征,确定融合后特征,包括:将所述第一交叉注意力特征与所述第一输入特征进行特征融合,得到第一子融合特
征;将所述第二交叉注意力特征与所述第二输入特征进行特征融合,得到第二子融合特征;将所述第一子融合特征与所述第二子融合特征进行特征融合,得到融合后特征。6.根据权利要求3
‑
5中任一项所述的方法,其中,所述目标分析对象为包含目标文本的文档图像,所述第一输入特征为视觉特征,所述第二输入特征为文本特征,所述相关性条件为所述视觉特征以及所述文本特征均是基于所述文档图像提取出的。7.根据权利要求6所述的方法,还包括:提取所述文档图像的图像特征以及所述文档图像中像素点的位置特征;将所述图像特征与所述位置特征进行特征融合,得到所述视觉特征。8.根据权利要求7所述的方法,其中,所述提取所述文档图像的图像特征,包括:基于预设的卷积神经网络提取所述文档图像的图像特征。9.根据权利要求6
‑
8中任一项所述的方法,还包括:对所述文档图像进行光学字符识别OCR处理,得到所述目标文本;对所述目标文本进行特征提取,得到所述文本特征。10.根据权利要求6
‑
9中任一项所述的方法,其中,所述特征融合网络连接有全连接层,所述方法还包括:将所述融合后特征输入至所述全连接层,得到所述全连接层输出的以下任一项:所述文档图像的分类结果;所述目标文本中的命名实体识别结果;所述文档图像的版面分析结果。11.一种特征融合装置,包...
【专利技术属性】
技术研发人员:李煜林,钦夏孟,章成全,姚锟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。