一种答案确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:42229509 阅读:21 留言:0更新日期:2024-08-02 13:45
本申请实施例提供了一种答案确定方法、装置、电子设备及存储介质。方法包括:得到目标图像中存在的各原始文本、各原始文本的多模态特征;从多个原始文本中确定属于目标问题的答案的文本作为备选文本;在各原始文本中确定目标文本对应的上下文文本;根据目标文本对应的各上下文文本的多模态特征、目标文本的语义特征,预测得到目标文本的目标概率,并预测得到目标图像中目标文本的位置处的文本,作为目标文本对应的预测文本;确定目标概率满足预设低概率条件的目标文本,并将其替换为对应的预测文本,将替换后的备选文本作为目标问题的答案。可以提高了视觉问答预测出的目标问题的答案的准确性。

【技术实现步骤摘要】

本申请涉及视觉问答,特别是涉及一种答案确定方法、装置、电子设备及存储介质


技术介绍

1、vqa(visual question answering,视觉问答)任务能够根据图像以及某一与图像相关的问题,预测出该问题对应的答案。vqa任务过程中,通常是根据ocr(opticalcharacter recognition,光学字符识别)方法识别得到图像中的文本信息,并直接根据ocr识别得到的文本信息,确定该问题对应的答案。但是,由于ocr识别存在一定的误差,可能会出现将图像中的文本识别错误的情况,因此,若直接将ocr识别得到的文本作为该问题对应的答案,则会导致视觉问答预测出的答案的准确性降低。


技术实现思路

1、本申请实施例的目的在于提供一种答案确定方法、装置、电子设备及存储介质,以实现提高视觉问答预测出的答案的准确性。具体技术方案如下:

2、本申请实施例提供了一种答案确定方法,所述方法包括:

3、通过ocr识别得到目标图像中存在的各原始文本,并获取各所述原始文本的多模态特征,其中,所述多本文档来自技高网...

【技术保护点】

1.一种答案确定方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述针对各所述目标文本,根据所述目标文本对应的各上下文文本的多模态特征,预测得到所述目标图像中所述目标文本的位置处的文本,作为所述目标文本对应的预测文本,包括:

3.根据权利要求1所述的方法,其特征在于,所述针对各所述目标文本,根据所述目标文本对应的各上下文文本的多模态特征、所述目标文本的语义特征,预测得到所述目标文本为准确识别得到的文本的概率,作为所述目标文本的目标概率,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述根据所述当前目标文本对应的各上下...

【技术特征摘要】

1.一种答案确定方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述针对各所述目标文本,根据所述目标文本对应的各上下文文本的多模态特征,预测得到所述目标图像中所述目标文本的位置处的文本,作为所述目标文本对应的预测文本,包括:

3.根据权利要求1所述的方法,其特征在于,所述针对各所述目标文本,根据所述目标文本对应的各上下文文本的多模态特征、所述目标文本的语义特征,预测得到所述目标文本为准确识别得到的文本的概率,作为所述目标文本的目标概率,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述根据所述当前目标文本对应的各上下文文本的多模态特征,确定所述当前目标文本的上下文特征,作为新的当前上下文特征,包括:

5...

【专利技术属性】
技术研发人员:吴慧妍李灿乔梁
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1