The invention provides a material retrieval method and system for audio-visual cross-modal objects, belonging to the fields of electronic information, artificial intelligence, pattern recognition and machine learning. The system includes: camera, microphone and computer; firstly, the image retrieval database is established by material classification, and the training sample data set is established by tapping sound signals from each object in the retrieval database; then the training sample features are extracted to obtain the sound feature matrix of the training sample data set; and the image retrieval database is extracted by drawing the sound feature matrix of the training sample data set. The image feature matrix of the retrieval database is obtained, and the corresponding projection vector matrix is obtained by reducing the dimension of the two matrices. In retrieval, the sound feature matrix after dimension reduction of the test sample and the image feature matrix after dimension reduction of the retrieval result display set are obtained respectively, and the Euclidean distance between the two matrices is calculated to obtain the most similar image to the test object. Film is the result of retrieving object material. The invention can remedy the deficiency of recognizing the material of an object only by means of a word picture, and obtain a more accurate result of recognizing the material of the object.
【技术实现步骤摘要】
一种视听觉跨模态物体材质检索方法及系统
本专利技术提出一种视听觉跨模态物体材质检索方法及系统,属于电子信息、人工智能、模式识别和机器学习领域。
技术介绍
在人类的日常生活中,人们不仅使用视觉进行物体识别,而且还使用听觉,触觉和嗅觉等其它感官共同作用。当我们听到轰隆隆的雷声,可能预示即将到来的一场大雨;购买西瓜时,通过判断敲击西瓜产生的声音来判断西瓜成熟与否;中医诊断“望、闻、问、切”中的“闻”和西医使用听诊器听病人的心跳声来判断病人身体状况等等,都是声音在我们日常的生产生活中的应用。加入声音特征给我们对物体的认知提供了补充信息。随着网络技术的发展,网络购物成为我们生活不可缺少的一部分,但目前的网上购物消费者只能得到购买物体的文字和图片信息,这有时对于消费者而言并不能在大脑完整构建商品的特征信息,导致可能购买到与需求不符的商品。同样的问题也存在于机器人系统。传统的基于视觉信息的识别检索系统对遮挡和光照变化等因素非常敏感在,一些情况下,视觉信息本身不足以识别一个对象。比如在深海和太空探索领域,仅凭摄像机反馈回来的视频和图像不足以让人们确定该物体材质信息,但加入声音反馈后,增加了人类对未知物体的认知。随着机器人技术的不断发展,机器人能够实现与人类或物体进行交互获取更多信息。如何利用多模态信息进行目标识别已经成为一个重要的研究课题。目前关于图像的检索技术发展比较成熟,关于声音的检索技术也只是涉及人类的语音检索技术,还没有使用作用于物体产生的声音进行检索的相关技术和应用。已存在的利用声音识别材质的装置,存在选取特征单一,识别范围有限的问题,只能实现单一物体的识别,不 ...
【技术保护点】
1.一种视听觉跨模态物体材质检索方法,其特征在于,该方法包括以下步骤:1)材质分类并建立图片检索库;具体步骤如下:1‑1)将物体材质划分A种大类材质,并在每种大类材质中根据不同小类材质选取B种具体物体,共得到A×B个不同具体物体;1‑2)使用照相机拍摄步骤1‑1)中每个具体物体的图片,拍摄角度为被拍摄具体物体正上方,重复拍摄10张图片,每张图片中被拍摄物体占据图片面积四分之三以上,将每张图片像素调整为128×256,将调整后的所有图片组成图片检索库C;2)构建训练样本数据集;具体步骤如下:2‑1)任意选取步骤1)确定的一种小类材质所属的具体物体,使用金属棒敲击该物体表面一次,施加力的范围为2‑10N,并用麦克风对敲击物体表面产生的声音信号进行采集,采集频率为44100Hz,将采集的声音信号作为该小类材质的一个训练样本以wav格式保存在计算机中;每个训练样本采集时长为2s,共88200个数据点;2‑2)重复步骤2‑1),对步骤2‑1)选定的具体物体重复D次声音信号采集操作,10≤D≤20,保存每次操作采集得到的声音信号,得到该物体对应小类材质的D个训练样本;2‑3)重复步骤2‑1)至步骤 ...
【技术特征摘要】
1.一种视听觉跨模态物体材质检索方法,其特征在于,该方法包括以下步骤:1)材质分类并建立图片检索库;具体步骤如下:1-1)将物体材质划分A种大类材质,并在每种大类材质中根据不同小类材质选取B种具体物体,共得到A×B个不同具体物体;1-2)使用照相机拍摄步骤1-1)中每个具体物体的图片,拍摄角度为被拍摄具体物体正上方,重复拍摄10张图片,每张图片中被拍摄物体占据图片面积四分之三以上,将每张图片像素调整为128×256,将调整后的所有图片组成图片检索库C;2)构建训练样本数据集;具体步骤如下:2-1)任意选取步骤1)确定的一种小类材质所属的具体物体,使用金属棒敲击该物体表面一次,施加力的范围为2-10N,并用麦克风对敲击物体表面产生的声音信号进行采集,采集频率为44100Hz,将采集的声音信号作为该小类材质的一个训练样本以wav格式保存在计算机中;每个训练样本采集时长为2s,共88200个数据点;2-2)重复步骤2-1),对步骤2-1)选定的具体物体重复D次声音信号采集操作,10≤D≤20,保存每次操作采集得到的声音信号,得到该物体对应小类材质的D个训练样本;2-3)重复步骤2-1)至步骤2-2),对步骤1)确定的所有小类材质对应的具体物体采集相应的声音信号,得到每种小类材质分别对应的D个训练样本,共计A×B×D个训练样本,组成所有小类材质的训练样本数据集;3)对训练样本数据集进行预处理;具体步骤如下:3-1)利用普减法对每个训练样本进行去噪;3-2)对步骤3-1)完成去噪的每个训练样本进行预加重,通过高通滤波器,补偿该训练样本的高频分量损失;表达式如下:H(z)=1-μz-1式中,H(z)代表高通滤波器函数,预加重系数μ为0.97,z代表z变换;3-3)对步骤3-2)完成预加重的每个训练样本进行分帧处理,设置帧长为20ms到30ms,每帧包含L个数据点,帧移为1/2L或1/3L,每个训练样本划分为N帧,然后再将每一帧乘以汉明窗得到该帧对应的声音信号记为yi(n),其中,i代表训练样本分帧后第i帧,1≤i≤N,n为该帧内第n个数据点,1≤n≤L;4)对预处理完毕的训练样本数据集进行特征提取,得到训练样本数据集的声音特征矩阵;具体步骤如下:4-1)对每个训练样本提取时域特征;对于每个训练样本,时域特征提取采用提取每帧的短时能量E(i),短时平均幅度M(i)和短时平均过零率Z(i)三个特征,得到该训练样本对应的N×1的短时能量矩阵E,N×1短时平均幅度矩阵M和N×1短时平均过零率矩阵Z;表达式分别如下:式中,L为每帧的数据点个数,sgn[·]是符号函数,表达式如下:4-2)采用梅尔频率倒谱系数MFCC对每个训练样本提取频域特征;具体步骤如下:4-2-1)对步骤3)得到的每个训练样本每一帧yi(n)进行快速傅里叶变换,将训练样本从时域数据转变为频域数据,表达式如下:X(i,k)=FFT[yi(n)]式中,X(i,k)为快速傅里叶变换得到每帧的频谱,k表示频域中第k条谱线,FFT为快速傅里叶变换;4-2-2)把每帧能量[X(i,k)]2通过梅尔滤波器,与梅尔滤波器的频域响应Hm(k)相乘并相加,表达式如下:式中,S(i,m)为通过梅尔滤波器的帧能量,M为梅尔三角滤波器组中滤波器的个数,Hm(k)表达式如下:式中,f(m)代表第m个Mel滤波器的中心频率,0≤m≤M-1;4-2-3)对每个训练样本每一帧进行离散余弦变换求倒谱,得到每个训练样本的梅尔倒谱系数矩阵;表达式如下:式中,mfcc(i,η)表示第i帧声音信号的第η阶MFCC系数,Q为MFCC系数的总阶数,得到该训练样本对应的N×Q的梅尔倒谱系数矩阵mfcc;4-2-4)计算每个训练样本的一阶差分系数矩阵;对每个训练样本的每一帧声音信号求取Q维一阶差分系数,表达式如下:式中,θ表示一阶导数的时间差,得到该训练样本N×Q的特征矩阵一阶差分系数矩阵mfcc′;4-3)特征融合,得到每个训练样本的声音特征系数矩阵;;将每个训练样本的N×1的短时能量矩阵E,N×1的短时平均幅度矩阵M,N×1的短时平均过零率矩阵Z,N×Q的梅尔倒谱系数矩阵mfcc和N×Q的一阶差分系数矩阵mfcc′按照顺序组合成为该训练样本新的声音特征矩阵,则新的声音特征矩阵的维度为N×(3+2Q),组合后的新声音特征矩阵的每一列代表该训练样本的一个特征系数,对每一列特征系数求取平均值,最...
【专利技术属性】
技术研发人员:刘华平,刘卓锟,王博文,孙富春,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。