一种基于语音图像双模态果蔬农产品智能识别装置制造方法及图纸

技术编号:20222217 阅读:37 留言:0更新日期:2019-01-28 20:35
本发明专利技术公布了一种基于语音图像双模态果蔬农产品智能识别装置。首先,采用图像采集装置获取果蔬图像,对果蔬图像预处理,采用Alexnet网络提取果蔬图像特征,采用RGB颜色直方图算法提取颜色特征,采用局部方向纹理模式(LDTP)提取图像方向和纹理信息;其次,采用语音数据采集装置录制2S语音,录制期间操作员说出果蔬名称,对语音进行预处理,提取语音梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)特征;再次,采用自编码网络对语音特征和图像特征进行降维、融合,采用SVM分类器对融合后特征进行分类,实现果蔬农产品识别,该发明专利技术提出了一种基于语音和图像双模态果蔬识别方法,可以用于果蔬识别秤中,进一步提升果蔬识别准确度。

【技术实现步骤摘要】
一种基于语音图像双模态果蔬农产品智能识别装置
本专利技术涉及一种基于语音图像双模态果蔬农产品智能识别装置
技术介绍
现有超市主要依靠条形码识别不同种类的果蔬农产品,销售员需要花费大量时间对产品进行分类,粘贴条形码,浪费了大量的人力。基于此,近些年基于计算机视觉的果蔬农产品识别技术受到了广泛的关注,然而,由于果蔬产品众多,售卖环境光照情况复杂,识别性能依旧不高。语音是人类沟通、交流的一种最重要的方式,也是人机交互的一种有效手段,为进一步提升果蔬农产品的识别性能,本专利技术利用图像和语音2种数据,融合2种数据的特征,用于识别果蔬种类,提升识别准确率。
技术实现思路
超市环境复杂,对果蔬识别的精确度有较大的影响,提出一种基于语音图像双模态果蔬农产品智能识别装置。具体步骤如下:(1)图像采集装置拍摄果蔬彩色图片,语音采集装置录制2s操作人员语音,在录制期间,操作人员说出该果蔬名称,并将不同种类果蔬标上不同的数字标签(label);(2)对采集到的果蔬图像进行预处理,将图片剪切成N*N*3大小,改变尺度将其变为227*227*3大小图片,带标签227*227*3果蔬图片输入Alexnet网络中,并本文档来自技高网...

【技术保护点】
1.本专利技术公布了一种基于语音图像双模态果蔬农产品智能识别装置,其特征在于,该装置包括以下几个部分:语音数据采集装置、图像数据采集装置、识别装置,且其操作如下:(1) 图像采集装置拍摄果蔬彩色图片,语音采集装置录制2s操作人员语音,在录制期间,操作人员说出该果蔬名称,并将不同种类果蔬标上不同的数字标签(label);(2)对采集到的果蔬图像进行预处理,将图片剪切成N*N*3大小,改变尺度将其变为227*227*3大小图片,带标签227*227*3果蔬图片输入Alexnet网络中,并采用标签数据对Alexnet网络进行微调,得到用于提取特征的Alexnet网络,将Alexnet网络的输出结果作...

【技术特征摘要】
1.本发明公布了一种基于语音图像双模态果蔬农产品智能识别装置,其特征在于,该装置包括以下几个部分:语音数据采集装置、图像数据采集装置、识别装置,且其操作如下:(1)图像采集装置拍摄果蔬彩色图片,语音采集装置录制2s操作人员语音,在录制期间,操作人员说出该果蔬名称,并将不同种类果蔬标上不同的数字标签(label);(2)对采集到的果蔬图像进行预处理,将图片剪切成N*N*3大小,改变尺度将其变为227*227*3大小图片,带标签227*227*3果蔬图片输入Alexnet网络中,并采用标签数据对Alexnet网络进行微调,得到用于提取特征的Alexnet网络,将Alexnet网络的输出结果作为提取到的特征;(3)提取步骤(2)中227*227*3果蔬图片R、G、B颜色通道的直方图,并将3个直方图组合在一起构成RGB颜色直方图特征,将彩色RGB果蔬图片转为灰度图片,采用局部方向纹理模式(LocalDirectionalTriplePattern,...

【专利技术属性】
技术研发人员:陶华伟傅洪亮吴剑峰张建华王珂姜鹏旭雷沛之王佳佳王梦哲李文娟李满意
申请(专利权)人:河南工业大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1