当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于声音特征的物品材质识别方法及装置制造方法及图纸

技术编号:16971484 阅读:210 留言:0更新日期:2018-01-07 07:40
本发明专利技术提出一种基于声音特征的物品材质识别方法及装置,属于信号处理和模式识别领域。本方法首先选定不同材质的训练物品,敲击每个训练物品表面获取音频文件,提取音频文件的特征得到训练物品的材质特征系数矩阵,构建材质识别专家数据库并作为训练样本集训练得到极限学习机分类器;获取待测物品的音频文件并提取相应的材质特征系数矩阵,将矩阵输入极限学习机分类器,分类器输出该测试物品的输出预测值矩阵,该矩阵中每个输出值对应一种物品材质类别,最大值所对应的物品材质类别即为该待测物品的材质识别结果。本装置包括麦克风声音采集笔和计算机,两者之间通过蓝牙连接。本发明专利技术有效帮助客户进行网购产品材质识别,识别结果准确,实用性强。

【技术实现步骤摘要】
一种基于声音特征的物品材质识别方法及装置
本专利技术涉及了一种基于声音特征的物品材质识别方法及装置,属于信号处理和模式识别的领域。
技术介绍
目前,作为“互联网+”的应用先锋,网上购物也是电子商务的核心子行业。在这个互联网提供基础设施的世界里,原先面对面的交易被电脑和网线取代了,交易双方只需在电脑前轻轻点击鼠标即可达成交易,交易的过程变得更加快捷容易,浏览、下单、支付和配送更加流畅高效。但同时交易双方之间也产生了新的问题:信任。提供商品的卖家是否有信誉,其销售的商品品质如何,商品是否符合商家的语言和图片描述,成为了网购相比于传统交易需要克服的一个很大的问题。对于网购客户而言,产品的材质无疑是消费者最关心的问题。虽然商家也对产品的材质通常都有文字进行描述,甚至会拍摄图片,但对于普通消费者而言,由于无法直接看到或者感知到所描述的材质,这种对产品感觉的详细而无偏倚的口头描述并不一定有用。因此消费者在这种情况下购买产品的可能性会有所降低。基于声音特征的物品材质识别是利用不同的材质发出声音的音色、音调、频率、响度等不同的特性,进行物品材质的识别,例如金属、塑料、布料、木材、纸质、玻璃、陶瓷等等,另外金属又可以分为铁、铜、铝、钢等等,木材也可分为杨木、柳木、榆木等诸多种类。通过声音,不仅可以知道物品的材质,还可以了解到物品的内部特征,比如实心或者空心等等。现有的声音识别技术,大多是语音的识别,语音识别技术的主要的内容包括声音特征提取、模式匹配原则以及模型训练三个方面。语音识别的应用包括语音导航、语音搜索、语音拨号、语音翻译等,其主要涉及的领域包括模式识别、人工智能、信号处理等等。现阶段尚没有将声音特征应用于物品材质识别的相关技术。ELM极限学习机为一种典型的单隐层前馈神经网络结构,其以学习速度快、泛化能力强等优点,吸引了国内和国际上的诸多专家学者的关注和研究。ELM不仅适用于回归和拟合问题,也适用在分类和模式识别等领域。ELM在各个领域都得到了广泛的应用。与此同时,ELM不少改进的方法和策略也被陆续提出,使得ELM的性能得到了很大的改善。其应用范围也越来越广泛,重要性因此日益提高。
技术实现思路
本专利技术目的是为了克服网购过程中单纯的利用文字描述来进行物品材质识别不足的问题,提出一种基于声音特征的物品材质识别方法及装置。本专利技术利用混合的MFCC声音特征实现物品材质识别的方法及装置。本专利技术可有效的帮助客户进行网购产品的材质识别,识别结果准确,实用性强。本专利技术提出的一种基于声音特征的物品材质识别方法,其特征在于,包括以下步骤:1)采集音频文件;选定一个训练物品,利用麦克风声音采集笔敲击该训练物品的表面产生振动声音信号,将振动声音信号转换成数字声音信号并上传到计算机保存成一个音频文件;每个音频文件的采样频率为44100Hz,采集时长为1s,采集精度16bit,文件保存为wav格式,转换为数据点共有44100个数据点;2)特征提取;具体包括以下步骤:2-1)对步骤1)得到的训练物品音频文件的声音数据进行预处理;具体步骤如下:2-1-1)预加重:将步骤1)得到的音频文件中的声音数据通过高通滤波,表达式如下:H(z)=1-μz-1式中,H(z)代表高通滤波器函数,预加重系数μ为0.97,z代表z变换;2-1-2)对完成预加重的音频文件的声音数据进行分帧处理:令每帧的帧长为1104个数据点,则对应的每帧的时长为1104/44100*1000=25ms;帧移为441个数据点,则对应帧移时长为441/44100*1000=10ms,则该音频文件的声音数据划分后得到对应的帧数为98帧;2-1-3)加窗处理:设分帧后的任意一帧中声音数据是xi(n),n=0,1,…,N-1,N为每帧中的数据点的个数,N=1104,i代表声音数据分帧后第i帧,i=1,2,…,98;乘上汉明窗后x′i(n)=xi(n)×W(n);汉明窗公式为:式中,W(n)代表汉明窗函数,汉明窗系数α=0.46;2-2)对经过步骤2-1)预处理完毕的音频文件的声音数据提取特征,提取的特征包括:声音静态特性MFCC特征系数、声音动态特性MFCC一阶差分系数DMFCC和声音动态特性MFCC二阶差分系数D2MFCC;具体步骤如下:2-2-1)提取声音静态特性MFCC特征系数:具体步骤如下:2-2-1-1)将预处理完毕后的每帧声音数据进行快速傅里叶变换FFT得到每帧的频谱,表达式如下:式中,Xi(k)为第i帧声音数据的频谱,k为第i帧中FFT变换的数据点数,x'i(n)为步骤2-1-3)得到的加窗后的每帧声音数据;2-2-1-2)计算每帧声音数据的功率谱Pim,表达式如下:Pim=|Xi(k)|22-2-1-3)将每帧声音数据的功率谱Pim通过Mel三角滤波器组进行滤波,Mel三角滤波器组中包括M个滤波器,Mel三角滤波器组的表达式如下:式中,f(m)代表第m个Mel滤波器的中心频率,0≤m≤M-1;2-2-1-4)计算Mel三角滤波器组输出的每帧声音数据的对数能量,表达式如下:2-2-1-5)对步骤2-2-1-4)得到的对数能量进行离散余弦变换得到每帧声音数据的梅尔倒谱特征系数MFCC,表达式如下:式中,Ci(η)表示第i帧声音数据的第η阶MFCC系数,L为MFCC系数的总阶数;训练物品的每个音频文件得到一个98*L的MFCC特征矩阵;2-2-2)提取声音动态特性MFCC一阶差分特征系数DMFCC;MFCC一阶差分特征系数DMFCC的表达式为:式中,Di(η)是第i帧声音数据第η阶MFCC特征系数的一阶差分参数;θ表示一阶导数的时间差;训练物品的每个音频文件得到一个98*L的DMFCC特征矩阵;2-2-3)提取声音动态特性MFCC二阶差分特征系数D2MFCC;MFCC二阶差分特征系数D2MFCC的表达式为:式中,Di2(η)是第i帧声音数据第η阶MFCC特征系数的二阶差分参数,ω表示二阶导数的时间差;训练物品的每个音频文件得到一个98*L的D2MFCC特征矩阵;2-2-4)将步骤2-2-1)至2-2-3)得到的三个特征矩阵组合,得到步骤1)选定的训练物品的材质特征系数矩阵:将提取到的MFCC特征矩阵,DMFCC特征矩阵和D2MFCC特征矩阵组合成一个98*3L的特征矩阵,将组合后的特征矩阵的首两行和尾两行去除,组合后的特征矩阵的每一列代表特征系数,对每一列特征系数求取平均值,最后得到该训练物品的音频文件的1*3L的混合MFCC声音特征矩阵并保存,该混合MFCC声音特征矩阵即为得到步骤1)选定的训练物品的材质特征系数矩阵;3)重复步骤1)至步骤2),对步骤1)选定的训练物品重复采集20次音频文件并提取相应的材质特征系数矩阵;4)选取A种不同类别的材质,每种材质中选取B个不同的物品作为训练物品,重复步骤1)至步骤3),获取每个训练物品相应的音频文件并提取相对应的材质特征系数矩阵,共提取个材质特征系数矩阵作为训练样本,将所有的训练样本组建成材质识别专家数据库;5)训练极限学习机ELM分类器;5-1)构建ELM分类器;ELM分类器包括输入层、隐含层和输出层三个层次;设置输入层有a个神经元,每个神经元分别对应每个训练样本的一个输入特征,则a=3L;设输出层有c个神经元,每个神经元分别本文档来自技高网
...
一种基于声音特征的物品材质识别方法及装置

【技术保护点】
一种基于声音特征的物品材质识别方法,其特征在于,包括以下步骤:1)采集音频文件;选定一个训练物品,利用麦克风声音采集笔敲击该训练物品的表面产生振动声音信号,将振动声音信号转换成数字声音信号并上传到计算机保存成一个音频文件;每个音频文件的采样频率为44100Hz,采集时长为1s,采集精度16bit,文件保存为wav格式,转换为数据点共有44100个数据点;2)特征提取;具体包括以下步骤:2‑1)对步骤1)得到的训练物品音频文件的声音数据进行预处理;具体步骤如下:2‑1‑1)预加重:将步骤1)得到的音频文件中的声音数据通过高通滤波,表达式如下:H(z)=1‑μz

【技术特征摘要】
1.一种基于声音特征的物品材质识别方法,其特征在于,包括以下步骤:1)采集音频文件;选定一个训练物品,利用麦克风声音采集笔敲击该训练物品的表面产生振动声音信号,将振动声音信号转换成数字声音信号并上传到计算机保存成一个音频文件;每个音频文件的采样频率为44100Hz,采集时长为1s,采集精度16bit,文件保存为wav格式,转换为数据点共有44100个数据点;2)特征提取;具体包括以下步骤:2-1)对步骤1)得到的训练物品音频文件的声音数据进行预处理;具体步骤如下:2-1-1)预加重:将步骤1)得到的音频文件中的声音数据通过高通滤波,表达式如下:H(z)=1-μz-1式中,H(z)代表高通滤波器函数,预加重系数μ为0.97,z代表z变换;2-1-2)对完成预加重的音频文件的声音数据进行分帧处理:令每帧的帧长为1104个数据点,则对应的每帧的时长为1104/44100*1000=25ms;帧移为441个数据点,则对应帧移时长为441/44100*1000=10ms,则该音频文件的声音数据划分后得到对应的帧数为98帧;2-1-3)加窗处理:设分帧后的任意一帧中声音数据是xi(n),n=0,1,…,N-1,N为每帧中的数据点的个数,N=1104,i代表声音数据分帧后第i帧,i=1,2,…,98;乘上汉明窗后x′i(n)=xi(n)×W(n);汉明窗公式为:式中,W(n)代表汉明窗函数,汉明窗系数α=0.46;2-2)对经过步骤2-1)预处理完毕的音频文件的声音数据提取特征,提取的特征包括:声音静态特性MFCC特征系数、声音动态特性MFCC一阶差分系数DMFCC和声音动态特性MFCC二阶差分系数D2MFCC;具体步骤如下:2-2-1)提取声音静态特性MFCC特征系数:具体步骤如下:2-2-1-1)将预处理完毕后的每帧声音数据进行快速傅里叶变换FFT得到每帧的频谱,表达式如下:式中,Xi(k)为第i帧声音数据的频谱,k为第i帧中FFT变换的数据点数,x'i(n)为步骤2-1-3)得到的加窗后的每帧声音数据;2-2-1-2)计算每帧声音数据的功率谱Pim,表达式如下:Pim=|Xi(k)|22-2-1-3)将每帧声音数据的功率谱Pim通过Mel三角滤波器组进行滤波,Mel三角滤波器组中包括M个滤波器,Mel三角滤波器组的表达式如下:式中,f(m)代表第m个Mel滤波器的中心频率,0≤m≤M-1;2-2-1-4)计算Mel三角滤波器组输出的每帧声音数据的对数能量,表达式如下:2-2-1-5)对步骤2-2-1-4)得到的对数能量进行离散余弦变换得到每帧声音数据的梅尔倒谱特征系数MFCC,表达式如下:式中,Ci(η)表示第i帧声音数据的第η阶MFCC系数,L为MFCC系数的总阶数;训练物品的每个音频文件得到一个98*L的MFCC特征矩阵;2-2-2)提取声音动态特性MFCC一阶差分特征系数DMFCC;MFCC一阶差分特征系数DMFCC的表达式为:式中,Di(η)是第i帧声音数据第η阶MFCC特征系数的一阶差分参数;θ表示一阶导数的时间差;训练物品的每个音频文件得到一个98*L的DMFCC特征矩阵;2-2-3)提取声音动态特性MFCC二阶差分特征系数D2MFCC;MFCC二阶差分特征系数D2MFCC的表达式为:

【专利技术属性】
技术研发人员:刘华平付海滨孙富春
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1