基于语音词条树的展示方法、系统、设备及存储介质技术方案

技术编号:26065855 阅读:25 留言:0更新日期:2020-10-28 16:38
本发明专利技术提供了基于语音词条树的展示方法、系统、设备及存储介质,其中,展示方法包括:建立语音词条库,所述语音词条库中包括至少一语音词条树,所述语音词条树的每个节点包括至少一图像以及与所述图像关联的至少一语音文件;获得至少一实时图像,遍历所述语音词条树的节点,当实时图像与所述节点中的图像相匹配,则播放与所述图像相关联的至少一语音文件。本发明专利技术能够实现目标物的整体到细节的多个维度的展示,计算量小,反应速度快,大大提高了用户的人性化体验。

【技术实现步骤摘要】
基于语音词条树的展示方法、系统、设备及存储介质
本专利技术涉及多媒体交互领域,具体地说,涉及基于语音词条树的展示方法、系统、设备及存储介质。
技术介绍
现有的产品展示形式单调,例如:博物馆中的古董展示,只能在古董前进行信号触发以后,播放预先录制的语音,用户只能呆板的被动接收信息。即便是视觉AI技术,也是通过拍摄目标物的完整图片以后,去数据库进行海量的比对,通常需要几秒或是十几秒,随后才能检索到关联这个目标物的词条,反馈给用户。但这些都只是初步的介绍,无法对目标物的细节进行更多的展示服务,计算量大,反应速度慢,人性化体验也很差。因此,本专利技术提供了一种基于语音词条树的展示方法、系统、设备及存储介质。
技术实现思路
针对现有技术中的问题,本专利技术的目的在于提供基于语音词条树的展示方法、系统、设备及存储介质,克服了现有技术的困难,能够实现目标物的整体到细节的多个维度的展示,计算量小,反应速度快,大大提高了用户的人性化体验。本专利技术的实施例提供一种基于语音词条树的展示方法,包括以下步骤:S100、建立语音词条库,所述语音词条库中包括至少一语音词条树,所述语音词条树的每个节点包括至少一图像以及与所述图像关联的至少一语音文件;S200、获得至少一实时图像,遍历所述语音词条树的节点,当实时图像与所述节点中的图像相匹配,则播放与所述图像相关联的至少一语音文件。优选地,所述步骤S100包括以下步骤:S110、采集一目标物的至少一图像并录制至少一段语音,建立一语音词条节点,所述语音词条节点包括关联的图像和语音文件;S130、基于至少部分上一级所述语音词条节点中的图像,选中局部图像并录制至少另一段语音,建立另一语音词条节点,通过多个语音词条节点建立语音词条树,所述语音词条节点包括关联的局部图像和语音文件,所述语音词条节点是上一级所述语音词条节点的子节点。优选地,所述步骤S110之后,步骤S130之前还包括以下步骤:S120、选中已经生成的任一语音词条节点。优选地,还包括:所述步骤S130中,通过在移动终端的触控屏显示上一级所述语音词条节点中的图像,在所述触控屏显示的图像上扫掠一区域作为选中区域,将所述图像的选中区域作为本节点的图像。优选地,还包括:所述步骤S130中,通过在移动终端的触控屏显示上一级所述语音词条节点中的图像,在所述触控屏显示的图像上扫掠一区域以及该区域周围的局部图像作为选中区域,将所述图像的选中区域作为本节点的图像。优选地,最先被建立的语音词条节点作为所述语音词条树的根节点。优选地,所述步骤S130之后还包括以下步骤:S140、将完成的所述语音词条树上传到一服务器。优选地,所述步骤S200包括以下步骤:S210、实时采集一图像,S220、遍历所述语音词条库中语音词条树的根节点,将实时采集的图像与所述根节点中的图像进行图像比对,判断实时图像与任一所述根节点中的图像是否相匹配,若是,则执行步骤S230,若否,则返回步骤S210;S230、播放与匹配的根节点相关联的至少一语音文件。优选地,所述步骤S220中,判断实时图像与任一根节点中的图像是否相匹配的具体步骤如下:S221:收集每个根节点的图像,尽量保证每个根节点的图像尽可能包含多种类型,比如不同角度,不同位置拍摄的图像等等。S222:设计深度学习中的分类网络,其中每个类别即为每个根节点的图像,训练出premodel。S223:设计深度学习中的reid网络,通过步骤S222得到的premodel,finetune出最后使用的模型。S224:截取掉S223网络中的特征提取部分作为前向网络,提取出每一根节点的图像的特征向量,提取出实时采集的图像的特征向量。S225:分别对实时采集的图像的特征向量和每一根节点的图像的特征向量进行余弦相似度对比,得到若干相应的余弦相似度分数。S226:找到S225中分数最高的即为最匹配的根节点。优选地,所述步骤S222中的具体训练过程如下:S2221:采用Resnet50作为分类网路的骨干网络,并且采用交叉熵损失函数作为网络的loss。S2222:为提高模型的能力,对每个类别中的图像采用光照、噪声、仿射变换等方法进行数据扩增。S2223:采用随机梯度下降的方法对网络进行训练,得到预训练模型优选地,所述步骤S223中的具体训练过程如下:S2231:采用孪生网络作为框架,采用Resnet50作为每条支路的骨干网络,并且采用对比损失函数作为网络的loss。S2232:为方便对数据进行整理,分别对相同类别以及不同类别的图像进行上下拼接,组成不同对作为reid网络的训练数据。S2223:为提高模型的能力,对每一对的图像采用光照、噪声、仿射变换等方法进行数据扩增。S2234:在送入孪生网络的两条支路之前,对拼接后的图像进行上下切割送入不同支路进行特征提取。S2235:在步骤S222得到的预训练模型的基础之上采用随机梯度下降的方法对网络进行训练,得到最后使用的模型。优选地,所述步骤S230之后包括以下步骤:S240、继续实时采集一图像;S250、遍历所述语音词条树的子节点,将实时采集的图像与所述子节点中的图像进行图像比对,判断实时图像与任一所述子节点中的图像是否相匹配,若是,则执行步骤S260,若否,则返回步骤S240;S260、播放与匹配的子节点相关联的至少一语音文件。优选地,所述步骤S250中,当实时采集的图像中包含至少两个不同所述子节点中的图像时,选择在所述实时采集的图像中占据面积最大的图像对应的所述子节点,则执行步骤S260。优选地,所述步骤S250中,当实时采集的图像中包含至少两个不同所述子节点中的图像时,选择更靠近所述实时采集的图像中心的图像对应的所述子节点,则执行步骤S260。优选地,所述步骤S100中,视频拍摄一目标物,并自视频中抽取若干帧画面作为目标物的图像并录制至少一段语音,根据若干帧画面和至少一段语音建立一语音词条节点;所述步骤S200中,视频拍摄实时图像,遍历所述语音词条树的节点,当实时图像与所述节点中的至少一图像相匹配,则播放与所述图像相关联的至少一语音文件。优选地,所述步骤S100中所述语音词条节点包括关联的图像、语音文件以及拍摄所述图像时的定位信息(GPS信息);所述步骤S200中还包括获得至少一实时图像,遍历当前定位信息(GPS信息)所对应的所述语音词条树的节点,当实时图像与所述节点中的图像相匹配,则播放与所述图像相关联的至少一语音文件。本专利技术的实施例还提供一种基于语音词条树的展示系统,用于实现上述的基于语音词条树的展示方法,所述基于语音词条树的展示系统包括:语音词条树建立模块,建立语音词条库,所述语音词条库中包括至少一语音词条树,所述语音词条树的每个节点包括至少一图像以及与所述图像关联的至少一本文档来自技高网...

【技术保护点】
1.一种基于语音词条树的展示方法,其特征在于,包括以下步骤:/nS100、建立语音词条库,所述语音词条库中包括至少一语音词条树,所述语音词条树的每个节点包括至少一图像以及与所述图像关联的至少一语音文件;/nS200、获得至少一实时图像,遍历所述语音词条树的节点,当实时图像与所述节点中的图像相匹配,则播放与所述图像相关联的至少一语音文件。/n

【技术特征摘要】
1.一种基于语音词条树的展示方法,其特征在于,包括以下步骤:
S100、建立语音词条库,所述语音词条库中包括至少一语音词条树,所述语音词条树的每个节点包括至少一图像以及与所述图像关联的至少一语音文件;
S200、获得至少一实时图像,遍历所述语音词条树的节点,当实时图像与所述节点中的图像相匹配,则播放与所述图像相关联的至少一语音文件。


2.如权利要求1所述的基于语音词条树的展示方法,其特征在于:所述步骤S100包括以下步骤:
S110、采集一目标物的至少一图像并录制至少一段语音,建立一语音词条节点,所述语音词条节点包括关联的图像和语音文件;
S130、基于至少部分上一级所述语音词条节点中的图像,选中局部图像并录制至少另一段语音,建立另一语音词条节点,通过多个语音词条节点建立语音词条树,所述语音词条节点包括关联的局部图像和语音文件,所述语音词条节点是上一级所述语音词条节点的子节点。


3.如权利要求2所述的基于语音词条树的展示方法,其特征在于:所述步骤S110之后,步骤S130之前还包括以下步骤:
S120、选中已经生成的任一语音词条节点。


4.如权利要求2所述的基于语音词条树的展示方法,其特征在于:还包括:所述步骤S130中,通过在移动终端的触控屏显示上一级所述语音词条节点中的图像,在所述触控屏显示的图像上扫掠一区域作为选中区域,将所述图像的选中区域作为本节点的图像。


5.如权利要求2所述的基于语音词条树的展示方法,其特征在于:还包括:所述步骤S130中,通过在移动终端的触控屏显示上一级所述语音词条节点中的图像,在所述触控屏显示的图像上扫掠一区域以及该区域周围的局部图像作为选中区域,将所述图像的选中区域作为本节点的图像。


6.如权利要求2所述的基于语音词条树的展示方法,其特征在于:最先被建立的语音词条节点作为所述语音词条树的根节点。


7.如权利要求2所述的基于语音词条树的展示方法,其特征在于:所述步骤S130之后还包括以下步骤:
S140、将完成的所述语音词条树上传到一服务器。


8.如权利要求1所述的基于语音词条树的展示方法,其特征在于:所述步骤S200包括以下步骤:
S210、实时采集一图像,
S220、遍历所述语音词条库中语音词条树的根节点,将实时采集的图像与所述根节点中的图像进行图像比对,判断实时图像与任一所述根节点中的图像是否相匹配,若是,则执行步骤S230,若否,则返回步骤S2...

【专利技术属性】
技术研发人员:陈清马也驰姜旭平
申请(专利权)人:上海颐为网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1