基于深度学习的多模态图像语音解读方法和系统技术方案

技术编号:35448634 阅读:13 留言:0更新日期:2022-11-03 12:02
本发明专利技术公开了一种基于深度学习的多模态图像语音解读方法和系统,该方法包括搭建图像描述神经网络并训练得到图像描述神经网络模型;搭建语音转换神经网络并训练得到语音转换神经网络模型;获取待语音解读的图像,经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。本发明专利技术用于实现对无文字图片内容的理解并用语音的方式对图片中存在的对象及多个对象之间的关系、行为进行解读。有助于视觉障碍者对身边环境的实时了解,有助于该类人群的日常生活。同时,上述方案可以应用于幼儿教育,在小孩学习身边事物的过程中起辅助作用,也可应用于娱乐场所,应用范围广,具有很高的实际使用价值。价值。价值。

【技术实现步骤摘要】
基于深度学习的多模态图像语音解读方法和系统


[0001]本专利技术涉及一种图像的语音解读方法和系统,尤其涉及一种基于深度学习的多模态图像语音解读方法和系统。

技术介绍

[0002]科技发展的目的是为了给人们带来方便,改善人们的生活,帮助人类不断的前进和发展。这也让我们越来越多的将科技发展的成果用在我们自己身上。2019年世界卫生组织发布的《世界视力报告》指出,全球至少有22亿人患有视力损伤或盲症;视力损伤还给全球造成了巨大的财政负担,仅未矫正近视和老花眼导致的视力损害,每年造成的全球生产力损失估计就分别高达2440亿美元和254亿美元。其中低收入国家、农村等地区往往负担更重,特别是老年人与妇女儿童。
[0003][0004]现在已有的文字转语音及语音转文字系统在一定程度上改善了视觉障碍患者的信息获取方式。虽然屏幕读取可以帮助视觉障碍和盲人获取网站的信息,但并不是所有图片都附有标题和注释。同时,对于部分视觉受损严重的患者而言,他们没有能力提取文字信息,所以迫切需要以语音的方式来帮助他们获取图片上的信息。同时,通过图片中的内容转换成语音的形式,可以帮助他们在生活中了解身边的环境及出行的环境安全。

技术实现思路

[0005]本专利技术的目的就在于提供一种解决上述问题,结合计算机视觉领域与自然语言处理领域的多模态图像语音转换技术,能自动识别无文字图像中对象的存在或运动状态,同时能解读出图像中对象与对象之间的存在关系并能以接近于人的自然语音的形式进行语音播报的,基于深度学习的多模态图像语音解读方法和系统
[0006]为了实现上述目的,本专利技术采用的技术方案是这样的:一种基于深度学习的多模态图像语音解读方法,包括以下步骤;(1)搭建图像描述神经网络并训练得到图像描述神经网络模型,包括步骤(11)

(14);(11)构建数据集;在不同场景下进行随机采集多张图片并预处理,得到样本图像,将样本图像由5人分别用1句话描述图片内容,所述图片内容包括主要对象的类别、主要对象运动状态,对象的类别、和/或主要对象与对象的关系;(12)将样本图像对应5句话作为其标签,得到训练样本,将所有训练样本存入数据库,得到训练数据集;(13)构建图像描述神经网络,所述图像描述神经网络模型采用Encoder

Decoder结构,其中Encoder部分采用CNN来提取训练样本的图像特征,decoder部分采用LSTM将5句话训练成1段文字序列,所述文字序列包含所有图片内容;
(14)依次将训练样本送入图像描述神经网络,输出训练样本对应的1段文字序列,直到文字序列与图片内容匹配,得到训练好的图像描述神经网络模型;(2)搭建语音转换神经网络,将(13)输出的文字序列输入到该网络中训练,以该文字序列对应的语音音频为期望输出,得到训练好的语音转换神经网络模型;(3)获取待语音解读的图像,经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。
[0007]作为优选:还包括步骤(4),将步骤(3)得到的文字序列和语音音频反馈给用户。
[0008]作为优选:步骤(11)中预处理为:先将图像使用双三次插值法进行缩放,缩放尺寸统一为224
×
224;再用高斯滤波去除高斯白噪声;最后将图像的RGB三通道进行归一化操作。
[0009]作为优选:所述步骤(12)中,将所有训练样本存入数据库,具体为:按场景将数据库分为与场景一一对应的数个部分,每个部分分别存储一个场景的图像数据。
[0010]作为优选:所述步骤(13)中,将5句话训练成1段文字序列具体为:对每句话,分别将其中的每个字按在语料库中的位置进行过编码,得到5段编码;对每句话,统计其每个字出现的位置;通过LSTM预测每个字出现的顺序和概率,重新生成一段文字序列。
[0011]作为优选:所述Encoder部分中的CNN中的激活函数采用Mish激活函数。
[0012]作为优选:所述语音转换神经网络采用tacotron2模型,包括声谱预测网络和声码器;所述声谱预测网络用于将文字序列中每个字转化为对应的词向量,再将词向量预测成对应的mel频谱图;所述声码器应用于将mel频谱图作为输入,mel频谱图对应的音频时域波形作为期望输出,进行频域和时域上的信号转换,得到语音音频。
[0013]一种基于深度学习的多模态图像语音解读系统,包括图像采集单元、图像描述神经网络模型和语音转换神经网络模型;所述图像采集单元用于使用者在随机时间随机地点下任意捕捉一张图片作为待语音解读的图像;所述图像描述神经网络模型用于将待语音解读的图像翻译成文字序列,所述语音转换神经网络模型用于输入文字序列,输出与文字序列对应的语音音频。
[0014]作为优选:还包括结果展示模块;所述结果展示模块用于将输出的文字序列和语音音频反馈给用户。
[0015]与现有技术相比,本专利技术的优点在于:(1)本专利技术将计算机视觉与自然语言处理领域相结合,在对图像自动经图像描述神经网络模型生成有关图像描述的文字序列的基础上,增加了语音转换神经网络模型,将文字序列转换成语音音频,可应用在公益、教育和娱乐等多个领域。
[0016](2)Encoder部分中CNN采用Mish激活函数代替现有技术中使用的relu激活函数。Mish激活函数对于relu激活函数而言,它在靠近0值的负值区域其梯度非零,在进行梯度下降时负值也能通过神经元,并且Mish函数具有更好的平滑性,这允许有更多的信息深入神
经网络,整体上提高了识别的准确率和泛化性。Decoder部分采用LSTM网络代替传统的RNN网络,解决了文本预测过程中存在的长期依赖问题;所述LSTM网络为长短期记忆网络,所述RNN网络为循环神经网络。
[0017](3)由于语音转换神经网络采用tacotron2模型,tacotron2模型使用了基于位置敏感的attention机制,基于内容的attention机制对于相似的元素预测的得分相近,但是相似的元素在位置上相聚可能较远。而基于位置敏感的attention机制既考虑了内容信息又考虑了位置信息,对长输入有更强的鲁棒性。
[0018](4)本专利技术使用的tacotron2模型,是在帧级别合成语音,其传输速度远快于样本自适应级别。语音信号从整体上来看,表示语音的特征参数是随时间不断变化的,所以将一段语音分成若干小段来分别处理,每小段的语音特征相对较稳定。每一小段就称为一帧。Tacotron2处理音频信号时将语音信号划分成若干帧,分别对每帧进行傅立叶变换操作来转换语音信号。而样本自适应是通过调整与说话人特征相关的参数如均值、方差、权重来学习语音特征。所以本专利技术的传输速度远快于样本自适应级别,合成的语音效果十分接近人类的自然语音。相比以往的模型,该模型的结构更加简单,减少了参数量,这也使模型在运行速度上更快。
[0019](5)本专利技术具有数据库实时更新功能,可将用户端识别准确度低的图片传入服务器端处理后存入数据库,当新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的多模态图像语音解读方法,其特征在于:包括以下步骤;(1)搭建图像描述神经网络并训练得到图像描述神经网络模型,包括步骤(11)

(14);(11)构建数据集;在不同场景下进行随机采集多张图片并预处理,得到样本图像,将样本图像由5人分别用1句话描述图片内容,所述图片内容包括主要对象的类别、主要对象运动状态,对象的类别、和/或主要对象与对象的关系;(12)将样本图像对应5句话作为其标签,得到训练样本,将所有训练样本存入数据库,得到训练数据集;(13)构建图像描述神经网络,所述图像描述神经网络模型采用Encoder

Decoder结构,其中Encoder部分采用CNN来提取训练样本的图像特征,decoder部分采用LSTM将5句话训练成1段文字序列,所述文字序列包含所有图片内容;(14)依次将训练样本送入图像描述神经网络,输出训练样本对应的1段文字序列,直到文字序列与图片内容匹配,得到训练好的图像描述神经网络模型;(2)搭建语音转换神经网络,将(13)输出的文字序列输入到该网络中训练,以该文字序列对应的语音音频为期望输出,得到训练好的语音转换神经网络模型;(3)获取待语音解读的图像,经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。2.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:还包括步骤(4),将步骤(3)得到的文字序列和语音音频反馈给用户。3.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:步骤(11)中预处理为:先将图像使用双三次插值法进行缩放,缩放尺寸统一为224
×
224;再用高斯滤波去除高斯白噪声;最后将图像的RGB三通道进...

【专利技术属性】
技术研发人员:王丽汤影缪昊洋
申请(专利权)人:成都理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1