一种用于生成定制/个性化头部相关传递函数的方法技术

技术编号:18826717 阅读:25 留言:0更新日期:2018-09-01 14:42
提供了一种用于生成个性化头部相关传递函数(HRTF)的方法。该方法可以包括:使用便携式设备捕获耳朵的图像、自动缩放所捕获的图像以确定耳朵的物理几何形状、以及基于所确定的耳朵的物理几何形状获得个性化HRTF。

【技术实现步骤摘要】
【国外来华专利技术】一种用于生成定制/个性化头部相关传递函数的方法
本公开总体涉及一种用于基于所捕获的图像来生成定制/个性化头部相关传递函数(HRTF)的方法。
技术介绍
准确的交互式3D空间音频渲染需要个性化头部相关传递函数(HRTF)的。传统上,为了获得这种个性化HRTF,用户需要在消声室中坐大约半小时而不能移动,并且音频信号发射自该室内的不同位置。麦克风被放置在用户的耳朵中以捕获由用户可听地感知的音频信号。还需要考虑诸如室、(一个或多个)音频信号源和麦克风响应等之类的因素。这种响应可以被认为是假响应,并且可能需要消除这种假响应以便获得随后可以被转换为HRTF的头部相关脉冲响应(HRIR)。现有技术已经出现以简化上述方法。具体地,期望消除对消声室的需求并且解决诸如上述假响应之类的问题。一个这样的现有技术是“P-HRTF:EfficientPersonalizedHRTFComputationforHigh-FidelitySpatialSound(P-HRTF:用于高保真度空间声音的高效个性化HRTF计算),Meshram等,IMAR2014论文集(http://gamma.cs.unc.edu/HRTF/)”。该现有技术从多个照片重建详细的耳朵模型并执行声学模拟以获得HRTF。将需要密集捕获的一组照片(推荐的15度间隔的20+照片,使用SLR佳能60D8MP)以及强大的计算能力。另一这样的现有技术是“SelectionofHead-RelatedTransferFunctionthroughEarContourMatchingforPersonalizedBinauralRendering(通过耳朵轮廓匹配选择头部相关传递函数以用于个性化双耳渲染),米兰理工大学,计算机工程科学硕士,DalenaMarco,学术年2012/2013”。该现有技术设想,替代对耳朵和声学进行物理建模,可以使用现有数据库来执行基于图像的匹配。现有数据库可以包括与相应的(一个或多个)HRTF相关联的图像(例如,照片)集合。给定图像,可以使用广义霍夫(Hough)变换来找到给定图像的最佳匹配(相对于现有数据库中的图像集合),以获得相应的HRTF。然而,可以理解,上面讨论的方法/技术在计算能力方面将需要很多资源。此外,上面讨论的方法/技术可能不利于以用户友好和/或高效的方式来创建(一个或多个)个性化HRTF。因此期望提供解决上述问题的解决方案。
技术实现思路
根据本公开的一个方面,提供了一种用于生成个性化头部相关传递函数(HRTF)的方法。该方法可以包括:(1)使用便携式设备捕获耳朵的图像;(2)自动缩放所捕获的图像以确定耳朵的物理几何形状;以及(3)基于所确定的耳朵的物理几何形状获得个性化HRTF。附图说明下文参考以下附图描述本公开的实施例,在附图中:图1示出了根据本公开的实施例的用于从使用便携式设备(例如,具有照相机的智能电话)捕获的图像创建/生成个性化/定制头部相关传递函数(HRTF)的方法;图2a示出了根据本公开的实施例的具有多个控制点的主动形状模型,可以使用多个样本来训练该多个控制点;图2b示出了根据本公开的实施例的可以包括第一样本和第二样本的图2a的多个样本;以及图2c示出了根据本公开的实施例的符合用户耳朵的形状的图2a的控制点。具体实施方式本公开涉及用于从使用便携式设备(例如,具有照相机的智能电话)捕获的图像创建/生成个性化/定制头部相关传递函数(HRTF)的方法100(如将参考图1更详细示出的)。本公开设想关于霍夫变换的现有技术与涉及从多个照片重建详细耳朵模型的现有技术以及涉及使用消声室的传统方法相比是最简单的技术。本公开还设想需要进一步简化关于霍夫变换的现有技术,以便至少促进以用户友好和/或高效的方式来创建/生成(一个或多个)个性化HRTF。参考图1,示出了根据本公开的实施例的用于创建/生成个性化/定制HRTF的方法100。具体地,可以从使用便携式设备捕获的图像来创建/生成个性化/定制HRTF。方法100可以包括图像捕获步骤102、参考确定步骤104、分析步骤106和个性化步骤108。在图像捕获步骤102处,可以使用具有图像捕获设备的便携式设备来捕捉耳朵的至少一个图像。例如,便携式设备可以对应于具有照相机的智能电话。在参考确定步骤104处,可以确定与所捕获的图像有关的缩放因子。优选地,缩放因子被确定而不必依赖于手动测量。缩放因子可以用作自动缩放的基础,如稍后将更详细讨论的。在一个实施例中,缩放因子可以基于眼睛分离(即瞳孔间距)来确定。在另一实施例中,缩放因子可以基于平均耳屏长度来确定。在又一实施例中,缩放因子可以基于图像捕获设备的焦点来确定。在又一实施例中,缩放因子可以基于参考对象(例如,名片或罐子)和/或具有已知焦距的深度相机来确定。关于基于眼睛分离来确定缩放因子,用户可以捕获两个图像。一个图像可以是用户他/她自己拍摄的照片(例如,利用便携式设备在大约半个手臂长度的距离处拍摄的自拍),其中,用户的眼睛可以被检测到。另一图像可以是所拍摄的用户的一个耳朵的照片,例如,通过在捕获第一图像之后让用户旋转他/她的头部。具体地,在用户已经拍摄了其中可以检测到用户的眼睛的他/她自己的自拍(即第一图像)之后,用户可以旋转他/她的头部以利用被保持在适合于两个图像的位置(即拍摄自拍时便携式设备的位置被保留用于捕获第二图片)的便携式设备来捕获他/她的耳朵的图像(即可以与在图像捕获步骤102处捕获的上述耳朵图像相对应的第二图像)。替代地,还可以以弧形(即从眼睛到耳朵或者从耳朵到眼睛)扫掠便携式设备,同时在扫掠期间保持便携式设备和用户头部之间的距离基本不变,以捕获眼睛和耳朵的图像二者。例如,便携式设备可以由用户在拍摄他/她自己的自拍(即第一图像)时手持在手臂的长度,在自拍中可以检测到用户的眼睛,并且在拍摄了自拍之后,用户可以扫掠到他/她的头部的一侧同时保持便携式设备在相同的手臂的长度(根据捕获第一图像时),以捕获他/她的耳朵的图像(即第二图像)。可以设想,对于成年人,物理眼睛分离通常约为6.5cm(可以理解,儿童的眼睛分离可以不同)。因此,可以导出缩放因子。例如,对于第一图像,两只眼睛之间的分离在影像上可以是50个像素。因此,在影像上,50个像素可以对应于物理分离中的6.5cm(即在就物理尺寸/测量方面,50个像素可以例如对应于6.5cm)。使用50像素:6.5cm的图像尺寸对物理尺寸比例(即基于第一图像),可以将耳朵的图像(即第二图像)转换为物理尺寸。关于基于平均耳屏长度确定缩放因子,可以设想耳屏长度在不同的耳朵之间是相对一致的。因此,根据关于眼睛分离的较早讨论,耳屏长度可以以类似的方式用作参考(即基于已知/标准耳屏长度的耳朵图像到物理尺寸的转换)。关于基于图像捕获设备的焦点确定缩放因子,可以设想图像捕获设备(例如,照相机)可以具有自动对焦特征。因此,当用户使用图像捕获设备来捕获他/她的耳朵的图像时,图像捕获设备可以自动对焦到用户的耳朵。自动对焦基于镜头到对象(即用户的耳朵)的距离。本公开设想知道镜头到耳朵的距离以及焦距(即镜头的视场)足以确定缩放因子。在分析步骤106处,可以使用主动形状模型(ASM)来基于耳朵的图像检测耳朵特征和几何属本文档来自技高网
...

【技术保护点】
1.一种用于生成个性化头部相关传递函数(HRTF)的方法,所述方法包括:使用便携式设备捕获耳朵的图像;自动缩放所捕获的图像以确定所述耳朵的物理几何形状;以及基于所确定的所述耳朵的物理几何形状获得个性化HRTF。

【技术特征摘要】
【国外来华专利技术】2015.12.31 SG 10201510822Y1.一种用于生成个性化头部相关传递函数(HRTF)的...

【专利技术属性】
技术研发人员:李泰齐克里斯多夫·特里昂格恩德斯蒙德·海伊格斯·马克·本杰明·莱斯利
申请(专利权)人:创新科技有限公司
类型:发明
国别省市:新加坡,SG

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1