当前位置: 首页 > 专利查询>清华大学专利>正文

一种视听觉跨模态物体材质检索方法及系统技术方案

技术编号:18914731 阅读:32 留言:0更新日期:2018-09-12 03:21
本发明专利技术提出一种视听觉跨模态物体材质检索方法及系统,属于电子信息、人工智能、模式识别和机器学习领域。该系统包括:照相机、麦克风和计算机;该方法首先对材质分类建立图片检索库,对检索库中每个物体敲击采集声音信号,建立训练样本数据集;提取训练样本特征,得到训练样本数据集的声音特征矩阵;对图片检索库提取图片特征,得到检索库图片特征矩阵,分别对两个矩阵降维得到对应投影向量矩阵;检索时,分别获取测试样本降维后的声音特征矩阵和检索结果展示集降维后的图像特征矩阵,计算两个矩阵欧氏距离得到与测试物体最相似的图片即为物体材质检索结果。本发明专利技术可弥补仅依靠文字图片识别物体材质的不足之处,得到更准确的物体材质识别结果。

An audio-visual cross modal material retrieval method and system

The invention provides a material retrieval method and system for audio-visual cross-modal objects, belonging to the fields of electronic information, artificial intelligence, pattern recognition and machine learning. The system includes: camera, microphone and computer; firstly, the image retrieval database is established by material classification, and the training sample data set is established by tapping sound signals from each object in the retrieval database; then the training sample features are extracted to obtain the sound feature matrix of the training sample data set; and the image retrieval database is extracted by drawing the sound feature matrix of the training sample data set. The image feature matrix of the retrieval database is obtained, and the corresponding projection vector matrix is obtained by reducing the dimension of the two matrices. In retrieval, the sound feature matrix after dimension reduction of the test sample and the image feature matrix after dimension reduction of the retrieval result display set are obtained respectively, and the Euclidean distance between the two matrices is calculated to obtain the most similar image to the test object. Film is the result of retrieving object material. The invention can remedy the deficiency of recognizing the material of an object only by means of a word picture, and obtain a more accurate result of recognizing the material of the object.

【技术实现步骤摘要】
一种视听觉跨模态物体材质检索方法及系统
本专利技术提出一种视听觉跨模态物体材质检索方法及系统,属于电子信息、人工智能、模式识别和机器学习领域。
技术介绍
在人类的日常生活中,人们不仅使用视觉进行物体识别,而且还使用听觉,触觉和嗅觉等其它感官共同作用。当我们听到轰隆隆的雷声,可能预示即将到来的一场大雨;购买西瓜时,通过判断敲击西瓜产生的声音来判断西瓜成熟与否;中医诊断“望、闻、问、切”中的“闻”和西医使用听诊器听病人的心跳声来判断病人身体状况等等,都是声音在我们日常的生产生活中的应用。加入声音特征给我们对物体的认知提供了补充信息。随着网络技术的发展,网络购物成为我们生活不可缺少的一部分,但目前的网上购物消费者只能得到购买物体的文字和图片信息,这有时对于消费者而言并不能在大脑完整构建商品的特征信息,导致可能购买到与需求不符的商品。同样的问题也存在于机器人系统。传统的基于视觉信息的识别检索系统对遮挡和光照变化等因素非常敏感在,一些情况下,视觉信息本身不足以识别一个对象。比如在深海和太空探索领域,仅凭摄像机反馈回来的视频和图像不足以让人们确定该物体材质信息,但加入声音反馈后,增加了人类对未知物体的认知。随着机器人技术的不断发展,机器人能够实现与人类或物体进行交互获取更多信息。如何利用多模态信息进行目标识别已经成为一个重要的研究课题。目前关于图像的检索技术发展比较成熟,关于声音的检索技术也只是涉及人类的语音检索技术,还没有使用作用于物体产生的声音进行检索的相关技术和应用。已存在的利用声音识别材质的装置,存在选取特征单一,识别范围有限的问题,只能实现单一物体的识别,不能实现多个检索结果的功能。不管是图像还是声音的处理,特征的好坏决定了最终的结果。常用的声学特征有线性预测系数LPC,倒谱系数CEP,梅尔倒谱系数MFCC。声音特征提取的本质就是降维,用较少的维数来表现说话人的特征。梅尔倒谱系数是一种充分利用人耳感知特性的参数。这种参数比基于声道模型的LPCC相比具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。梯度直方图特征HOG在模式识别领域得到成功应用,如人脸识别、行人检测、目标跟踪等。HOG特征的计算是基于一致空间的密度矩阵来提高准确率。具有计算量小应用广泛的特点。典型相关分析CCA是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量,利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。
技术实现思路
本专利技术的目的是为克服已有技术的不足之处,提出一种视听觉跨模态物体材质检索方法及系统。本专利技术通过采集敲击物体产生的声音信号,得出相似的一种或几种物体的图片得到物体材质的检索结果,可弥补仅依靠视觉或文字图片识别物体材质的不足之处,得到更为准确的物体材质识别结果。本专利技术提出一种视听觉跨模态物体材质检索方法,其特征在于,该方法包括以下步骤:1)材质分类并建立图片检索库;具体步骤如下:1-1)将物体材质划分A种大类材质,并在每种大类材质中根据不同小类材质选取B种具体物体,共得到A×B个不同具体物体;1-2)使用照相机拍摄步骤1-1)中每个具体物体的图片,拍摄角度为被拍摄具体物体正上方,重复拍摄10张图片,每张图片中被拍摄物体占据图片面积四分之三以上,将每张图片像素调整为128×256,将调整后的所有图片组成图片检索库C;2)构建训练样本数据集;具体步骤如下:2-1)任意选取步骤1)确定的一种小类材质所属的具体物体,使用金属棒敲击该物体表面一次,施加力的范围为2-10N,并用麦克风对敲击物体表面产生的声音信号进行采集,采集频率为44100Hz,将采集的声音信号作为该小类材质的一个训练样本以wav格式保存在计算机中;每个训练样本采集时长为2s,共88200个数据点;2-2)重复步骤2-1),对步骤2-1)选定的具体物体重复D次声音信号采集操作,10≤D≤20,保存每次操作采集得到的声音信号,得到该物体对应小类材质的D个训练样本;2-3)重复步骤2-1)至步骤2-2),对步骤1)确定的所有小类材质对应的具体物体采集相应的声音信号,得到每种小类材质分别对应的D个训练样本,共计A×B×D个训练样本,组成所有小类材质的训练样本数据集;3)对训练样本数据集进行预处理;具体步骤如下:3-1)利用普减法对每个训练样本进行去噪;3-2)对步骤3-1)完成去噪的每个训练样本进行预加重,通过高通滤波器,补偿该训练样本的高频分量损失;表达式如下:H(z)=1-μz-1式中,H(z)代表高通滤波器函数,预加重系数μ为0.97,z代表z变换;3-3)对步骤3-2)完成预加重的每个训练样本进行分帧处理,设置帧长为20ms到30ms,每帧包含L个数据点,帧移为1/2L或1/3L,每个训练样本划分为N帧,然后再将每一帧乘以汉明窗得到该帧对应的声音信号记为yi(n),其中,i代表训练样本分帧后第i帧,1≤i≤N,n为该帧内第n个数据点,1≤n≤L;4)对预处理完毕的训练样本数据集进行特征提取,得到训练样本数据集的声音特征矩阵;具体步骤如下:4-1)对每个训练样本提取时域特征;对于每个训练样本,时域特征提取采用提取每帧的短时能量E(i),短时平均幅度M(i)和短时平均过零率Z(i)三个特征,得到该训练样本对应的N×1的短时能量矩阵E,N×1短时平均幅度矩阵M和N×1短时平均过零率矩阵Z;表达式分别如下:式中,L为每帧的数据点个数,sgn[·]是符号函数,表达式如下:4-2)采用梅尔频率倒谱系数MFCC对每个训练样本提取频域特征;具体步骤如下:4-2-1)对步骤3)得到的每个训练样本每一帧yi(n)进行快速傅里叶变换,将训练样本从时域数据转变为频域数据,表达式如下:X(i,k)=FFT[yi(n)]式中,X(i,k)为快速傅里叶变换得到每帧的频谱,k表示频域中第k条谱线,FFT为快速傅里叶变换;4-2-2)把每帧能量[X(i,k)]2通过梅尔滤波器,与梅尔滤波器的频域响应Hm(k)相乘并相加,表达式如下:式中,S(i,m)为通过梅尔滤波器的帧能量,M为梅尔三角滤波器组中滤波器的个数,Hm(k)表达式如下:式中,f(m)代表第m个Mel滤波器的中心频率,0≤m≤M-1;4-2-3)对每个训练样本每一帧进行离散余弦变换求倒谱,得到每个训练样本的梅尔倒谱系数矩阵;表达式如下:式中,mfcc(i,η)表示第i帧声音信号的第η阶MFCC系数,Q为MFCC系数的总阶数,得到该训练样本对应的N×Q的梅尔倒谱系数矩阵mfcc;4-2-4)计算每个训练样本的一阶差分系数矩阵;对每个训练样本的每一帧声音信号求取Q维一阶差分系数,表达式如下:式中,θ表示一阶导数的时间差,得到该训练样本N×Q的特征矩阵一阶差分系数矩阵mfcc′;4-3)特征融合,得到每个训练样本的声音特征系数矩阵;;将每个训练样本的N×1的短时能量矩阵E,N×1的短时平均幅度矩阵M,N×1的短时平均过零率矩阵Z,N×Q的梅尔倒谱系数矩阵mfcc和N×Q的一阶差分系数矩阵mfcc′按照顺序组合成为该训练样本新的声音特征矩阵,则新的声音特征矩阵的维度本文档来自技高网
...

【技术保护点】
1.一种视听觉跨模态物体材质检索方法,其特征在于,该方法包括以下步骤:1)材质分类并建立图片检索库;具体步骤如下:1‑1)将物体材质划分A种大类材质,并在每种大类材质中根据不同小类材质选取B种具体物体,共得到A×B个不同具体物体;1‑2)使用照相机拍摄步骤1‑1)中每个具体物体的图片,拍摄角度为被拍摄具体物体正上方,重复拍摄10张图片,每张图片中被拍摄物体占据图片面积四分之三以上,将每张图片像素调整为128×256,将调整后的所有图片组成图片检索库C;2)构建训练样本数据集;具体步骤如下:2‑1)任意选取步骤1)确定的一种小类材质所属的具体物体,使用金属棒敲击该物体表面一次,施加力的范围为2‑10N,并用麦克风对敲击物体表面产生的声音信号进行采集,采集频率为44100Hz,将采集的声音信号作为该小类材质的一个训练样本以wav格式保存在计算机中;每个训练样本采集时长为2s,共88200个数据点;2‑2)重复步骤2‑1),对步骤2‑1)选定的具体物体重复D次声音信号采集操作,10≤D≤20,保存每次操作采集得到的声音信号,得到该物体对应小类材质的D个训练样本;2‑3)重复步骤2‑1)至步骤2‑2),对步骤1)确定的所有小类材质对应的具体物体采集相应的声音信号,得到每种小类材质分别对应的D个训练样本,共计A×B×D个训练样本,组成所有小类材质的训练样本数据集;3)对训练样本数据集进行预处理;具体步骤如下:3‑1)利用普减法对每个训练样本进行去噪;3‑2)对步骤3‑1)完成去噪的每个训练样本进行预加重,通过高通滤波器,补偿该训练样本的高频分量损失;表达式如下:H(z)=1‑μz‑1式中,H(z)代表高通滤波器函数,预加重系数μ为0.97,z代表z变换;3‑3)对步骤3‑2)完成预加重的每个训练样本进行分帧处理,设置帧长为20ms到30ms,每帧包含L个数据点,帧移为1/2L或1/3L,每个训练样本划分为N帧,然后再将每一帧乘以汉明窗得到该帧对应的声音信号记为yi(n),其中,i代表训练样本分帧后第i帧,1≤i≤N,n为该帧内第n个数据点,1≤n≤L;4)对预处理完毕的训练样本数据集进行特征提取,得到训练样本数据集的声音特征矩阵;具体步骤如下:4‑1)对每个训练样本提取时域特征;对于每个训练样本,时域特征提取采用提取每帧的短时能量E(i),短时平均幅度M(i)和短时平均过零率Z(i)三个特征,得到该训练样本对应的N×1的短时能量矩阵E,N×1短时平均幅度矩阵M和N×1短时平均过零率矩阵Z;表达式分别如下:...

【技术特征摘要】
1.一种视听觉跨模态物体材质检索方法,其特征在于,该方法包括以下步骤:1)材质分类并建立图片检索库;具体步骤如下:1-1)将物体材质划分A种大类材质,并在每种大类材质中根据不同小类材质选取B种具体物体,共得到A×B个不同具体物体;1-2)使用照相机拍摄步骤1-1)中每个具体物体的图片,拍摄角度为被拍摄具体物体正上方,重复拍摄10张图片,每张图片中被拍摄物体占据图片面积四分之三以上,将每张图片像素调整为128×256,将调整后的所有图片组成图片检索库C;2)构建训练样本数据集;具体步骤如下:2-1)任意选取步骤1)确定的一种小类材质所属的具体物体,使用金属棒敲击该物体表面一次,施加力的范围为2-10N,并用麦克风对敲击物体表面产生的声音信号进行采集,采集频率为44100Hz,将采集的声音信号作为该小类材质的一个训练样本以wav格式保存在计算机中;每个训练样本采集时长为2s,共88200个数据点;2-2)重复步骤2-1),对步骤2-1)选定的具体物体重复D次声音信号采集操作,10≤D≤20,保存每次操作采集得到的声音信号,得到该物体对应小类材质的D个训练样本;2-3)重复步骤2-1)至步骤2-2),对步骤1)确定的所有小类材质对应的具体物体采集相应的声音信号,得到每种小类材质分别对应的D个训练样本,共计A×B×D个训练样本,组成所有小类材质的训练样本数据集;3)对训练样本数据集进行预处理;具体步骤如下:3-1)利用普减法对每个训练样本进行去噪;3-2)对步骤3-1)完成去噪的每个训练样本进行预加重,通过高通滤波器,补偿该训练样本的高频分量损失;表达式如下:H(z)=1-μz-1式中,H(z)代表高通滤波器函数,预加重系数μ为0.97,z代表z变换;3-3)对步骤3-2)完成预加重的每个训练样本进行分帧处理,设置帧长为20ms到30ms,每帧包含L个数据点,帧移为1/2L或1/3L,每个训练样本划分为N帧,然后再将每一帧乘以汉明窗得到该帧对应的声音信号记为yi(n),其中,i代表训练样本分帧后第i帧,1≤i≤N,n为该帧内第n个数据点,1≤n≤L;4)对预处理完毕的训练样本数据集进行特征提取,得到训练样本数据集的声音特征矩阵;具体步骤如下:4-1)对每个训练样本提取时域特征;对于每个训练样本,时域特征提取采用提取每帧的短时能量E(i),短时平均幅度M(i)和短时平均过零率Z(i)三个特征,得到该训练样本对应的N×1的短时能量矩阵E,N×1短时平均幅度矩阵M和N×1短时平均过零率矩阵Z;表达式分别如下:式中,L为每帧的数据点个数,sgn[·]是符号函数,表达式如下:4-2)采用梅尔频率倒谱系数MFCC对每个训练样本提取频域特征;具体步骤如下:4-2-1)对步骤3)得到的每个训练样本每一帧yi(n)进行快速傅里叶变换,将训练样本从时域数据转变为频域数据,表达式如下:X(i,k)=FFT[yi(n)]式中,X(i,k)为快速傅里叶变换得到每帧的频谱,k表示频域中第k条谱线,FFT为快速傅里叶变换;4-2-2)把每帧能量[X(i,k)]2通过梅尔滤波器,与梅尔滤波器的频域响应Hm(k)相乘并相加,表达式如下:式中,S(i,m)为通过梅尔滤波器的帧能量,M为梅尔三角滤波器组中滤波器的个数,Hm(k)表达式如下:式中,f(m)代表第m个Mel滤波器的中心频率,0≤m≤M-1;4-2-3)对每个训练样本每一帧进行离散余弦变换求倒谱,得到每个训练样本的梅尔倒谱系数矩阵;表达式如下:式中,mfcc(i,η)表示第i帧声音信号的第η阶MFCC系数,Q为MFCC系数的总阶数,得到该训练样本对应的N×Q的梅尔倒谱系数矩阵mfcc;4-2-4)计算每个训练样本的一阶差分系数矩阵;对每个训练样本的每一帧声音信号求取Q维一阶差分系数,表达式如下:式中,θ表示一阶导数的时间差,得到该训练样本N×Q的特征矩阵一阶差分系数矩阵mfcc′;4-3)特征融合,得到每个训练样本的声音特征系数矩阵;;将每个训练样本的N×1的短时能量矩阵E,N×1的短时平均幅度矩阵M,N×1的短时平均过零率矩阵Z,N×Q的梅尔倒谱系数矩阵mfcc和N×Q的一阶差分系数矩阵mfcc′按照顺序组合成为该训练样本新的声音特征矩阵,则新的声音特征矩阵的维度为N×(3+2Q),组合后的新声音特征矩阵的每一列代表该训练样本的一个特征系数,对每一列特征系数求取平均值,最...

【专利技术属性】
技术研发人员:刘华平刘卓锟王博文孙富春
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1