【技术实现步骤摘要】
兴趣点名称生成方法及装置、电子设备和介质
本公开涉及云计算、图像处理、自然语言处理
,特别涉及兴趣点名称生成方法及装置、电子设备和介质。
技术介绍
在一些应用(例如百度地图)中会涉及兴趣点(Pointofinterest,简称“POI”)数据推荐服务。POI数据可以包括POI名称、位置、电话等基础信息,还可以包括例如评分、价格、团购信息等商业信息。根据相关技术,可以基于图像中的文本区域,从POI数据库中确定图像的POI名称,并且可以基于图像的POI名称来推荐相应的其它POI数据(例如,位置、电话、评分等)。其中,基于图像生成POI名称的方法包括以下两种:1)利用光学字符识别(OpticalCharacterRecognition,简称“OCR”)对图像中的文本区域进行文本识别,然后利用识别后的文本信息与POI数据库中的POI名称进行匹配,将与识别的文本信息匹配的POI名称确定为图像的目标POI名称;2)将图像与POI数据库中的POI图像进行匹配,将与图像匹配的POI图像相应的POI名称确定为图像的目标P ...
【技术保护点】
1.一种基于图像的兴趣点名称生成方法,包括:/n从兴趣点数据库中获取目标招牌图像的多个相关兴趣点名称文本,所述目标招牌图像包括文本区域;/n确定所述目标招牌图像的目标图像特征向量,所述目标图像特征向量为至少基于所述目标招牌图像的文本区域而得到;/n确定所述多个相关兴趣点名称文本中的每一个所述相关兴趣点名称文本的相关文本特征向量;/n确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度;以及/n基于所述目标图像特征向量和多个所述相关文本特征向量之间的相似度,将满足预设条件的其中一个所述相关兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。/n
【技术特征摘要】
1.一种基于图像的兴趣点名称生成方法,包括:
从兴趣点数据库中获取目标招牌图像的多个相关兴趣点名称文本,所述目标招牌图像包括文本区域;
确定所述目标招牌图像的目标图像特征向量,所述目标图像特征向量为至少基于所述目标招牌图像的文本区域而得到;
确定所述多个相关兴趣点名称文本中的每一个所述相关兴趣点名称文本的相关文本特征向量;
确定所述目标图像特征向量和多个所述相关文本特征向量之间的相似度;以及
基于所述目标图像特征向量和多个所述相关文本特征向量之间的相似度,将满足预设条件的其中一个所述相关兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。
2.如权利要求1所述的兴趣点名称生成方法,其中,将满足预设条件的其中一个所述相关兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称包括:
确定与所述目标图像特征向量之间的相似度最高的所述其中一个相关文本特征向量;以及
将所述其中一个相关文本特征向量相应的相关兴趣点名称文本确定为目标兴趣点名称。
3.如权利要求1所述的兴趣点名称生成方法,其中,基于神经网络模型来确定所述目标招牌图像的目标兴趣点名称,
其中,所述神经网络模型包括第一子网络模型,并且基于所述第一子网络模型来确定所述目标图像特征向量。
4.如权利要求1所述的兴趣点名称生成方法,其中,基于神经网络模型来确定所述目标招牌图像的目标兴趣点名称,
其中,所述神经网络模型包括第二子网络模型,并且基于所述第二子网络模型来确定多个所述相关文本特征向量。
5.如权利要求3所述的兴趣点名称生成方法,其中,所述第一子网络模型包括第一输出层和最靠近所述第一输出层的全连接层,所述第一输出层的输出包括能够包围所述目标招牌图像中的文字区域的至少一个边界框,
其中,确定所述目标图像特征向量包括:
将所述目标招牌图输入所述第一子网络模型,获取所述第一子网络模型的最靠近所述第一输出层的全连接层输出的所述目标图像特征向量。
6.如权利要求3-5中任一项所述的兴趣点名称生成方法,其中,所述神经网络模型还包括第三子网络模型;
所述兴趣点名称生成方法还包括:
将所述目标图像特征向量和多个所述相关文本特征向量输入所述第三子网络模型,获取所述第三子网络模型输出的所述目标招牌图像的类别及其置信度,以及多个所述相关兴趣点名称文本的类别及其置信度。
7.如权利要求1所述的兴趣点名称生成方法,其中,获取多个相关兴趣点名称文本包括:
基于所述目标招牌图像的拍摄参数,从兴趣点数据库中的多个兴趣点名称文本中确定所述多个相关兴趣点名称文本,其中,所述拍摄参数包括所述目标招牌图像的拍摄位置,所述兴趣点数据库包括所述多个兴趣点名称文本相应的位置参数。
8.如权利要求7所述的兴趣点名称生成方法,其中,所述拍摄参数还包括所述目标招牌图像的拍摄角度。
9.如权利要求7所述的兴趣点名称生成方法,还包括:
确定所述多个兴趣点名称文本中的除所述多个相关兴趣点名称文本以外的剩余的每一个兴趣点名称文本的文本特征向量;以及
在所述兴趣点数据库中存储所述多个兴趣点名称文本与多个文本特征向量之间的对应关系。
10.如权利要求7-9中任一项所述的兴趣点名称生成方法,其中,所述兴趣点数据库还包括至少一个历史招牌图像,以及所述至少一个历史招牌图像与至少一个兴趣点名称文本之间的对应关系;
所述兴趣点名称生成方法还包括:
在获取所述多个相关兴趣点名称文本之前,将所述目标招牌图像与所述至少一个历史招牌图像进行匹配;
基于匹配结果确定所述兴趣点数据库中是否包括与所述目标招牌图像匹配的历史招牌图像;以及
响应于确定所述兴趣点数据库中包括与所述目标招牌图像匹配的历史招牌图像,将匹配的历史招牌图像相应的兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。
11.如权利要求7-9中任一项所述的兴趣点名称生成方法,其中,所述兴趣点数据库还包括至少一个历史招牌图像,以及所述至少一个历史招牌图像与至少一个兴趣点名称文本之间的对应关系;
所述兴趣点名称生成方法还包括:
确定所述至少一个历史招牌图像中的每一个所述历史招牌图像的历史图像特征向量,所述历史图像特征向量为至少基于所述历史招牌图像的文本区域而得到;
在所述兴趣点数据库中存储所述至少一个历史招牌图像与至少一个所述历史图像特征向量之间的对应关系;
在获取所述多个相关兴趣点名称文本之前,将所述目标图像特征向量和所述至少一个历史图像特征向量进行匹配;
基于匹配结果确定所述兴趣点数据库中是否包括与所述目标图像特征向量匹配的历史图像特征向量;以及
响应于确定所述兴趣点数据库中包括与所述目标图像特征向量匹配的历史图像特征向量,将匹配的历史图像特征向量相应的兴趣点名称文本确定为所述目标招牌图像的目标兴趣点名称。
12.一种神经网络模型的训练方法,所述神经网络模型包括第一子网络模型和第二子网络模型,
其中,所述训练方法包括:
获取样本招牌图像以及与所述样本招牌图像相应的样本兴趣点名称文本,所述样本招牌图像包括文本区域;
将所述样本招牌图像输入所述第一子网络模型,基于所述第一子网络模型来确定所述样本招牌图像的样本图像特征向量,所述样本图像特征向量为至少基于所述样本招牌图像的文本区域而得到;
将所述样本兴趣点名称文本输入所述第二子网络模型,基于所述第二子网络模型来确定所述样本兴趣点名称文本的样本文本特征向量;
利用第一损失函数计算所述样本图像特征向量和所述样本文本特征向量之间的第一损失值;以及
至少基于所述第一损失值调整所述神经网络模型的参数。
13.如权利要求12所述的训练方法,还包括:
在所述样本招牌图像中标记能够各自包围所述样本招牌图像的文本区域中相应的一个字符的多个真实框;
获取所述第一子网络模型的第一输出层输出的所述样本招牌图像中的每一个字符相应的预测边界框;以及
利用第二损失函数计算所述多个真实框中的每一个真实框和相应的预测边界框之间的第二损失值,
其中,调整所述神经网络模型的参数为至少基于所述第一损失值和所述多个真实框相应的所述第二损失值而执行,
并且所述样本图像特征向量为所述第一子网络模型的最靠近所述第一输出层的全连接层的输出。
14.如权利要求12或13所述的训练方法,其中,所述神经网络模型还包括第三子网络模型;
所述训练方法还包括:
标记所述样本招牌图像的第一真实类别及其标记置信度,以及所述样本兴趣点名称文本的第二真实类别及其标记置信度;
将所述样本图像特征向量和所述样本文本特征向量输入所述第三子网络模型,获取所述第三子网络模型输出的所述样本招牌图像的第一预测类别及其预测置信度,以及所述样本兴趣点名称文本的第二预测类别及其预测置信度;以及
基于所述第一预测类别及其预测置信度、所述第二预测类别及其预测置信度、所述第一真实类别及其标记置信度、以及所述第二真实类别及其标记置信度,利用第三损失函数计算第三损失值,
...
【专利技术属性】
技术研发人员:王洪志,余威,吴云鹏,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。