信息处理装置、信息处理方法和计算机可访问介质制造方法及图纸

技术编号:38943478 阅读:42 留言:0更新日期:2023-09-25 09:41
本公开涉及一种信息处理装置、信息处理方法和计算机可访问介质。该信息处理装置(100)包括:获取单元(141),其获取包括用户的耳朵的图像的第一图像;以及计算单元(142),其基于由获取单元(141)获取的第一图像,使用学习模型来计算与用户相对应的头部相关传递函数,该学习模型已经学习以在输入包括耳朵的图像的图像时输出与耳朵相对应的头部相关传递函数。像时输出与耳朵相对应的头部相关传递函数。像时输出与耳朵相对应的头部相关传递函数。

【技术实现步骤摘要】
信息处理装置、信息处理方法和计算机可访问介质
[0001]本申请是专利技术名称为“信息处理装置、信息处理方法和信息处理程序”、申请日为2019年10月3日、申请号为201980065687.8的PCT国际申请进中国国家阶段申请的分案申请,PCT国际申请的国际申请号为、进入国家阶段日为2021年4月2日。


[0002]本公开涉及信息处理装置、信息处理方法和信息处理程序。具体地,本公开涉及头部相关传递函数计算处理。

技术介绍

[0003]已经使用通过使用数学上表达声音如何从声源传播到耳朵的头部相关传递函数(在下文中也称为HRTF)在耳机等处立体地再现音频图像的技术。
[0004]头部相关传递函数在个体之间有很大不同,并且因此期望使用当使用头部相关传递函数时为每个个体生成的头部相关传递函数。例如,已知基于通过捕获用户的耳廓而获得的图像来生成头部的三维数字模型(在下文中称为“3D模型”),并且基于所生成的3D模型计算用户的头部相关传递函数的技术。
[0005]引用列表
[0006]专利文献
[0007]专利文献1:美国专利第9544706号。

技术实现思路

[0008]技术问题
[0009]根据常规技术,可以在信息处理中使用根据每个用户单独计算的头部相关传递函数,从而增加音频图像的平稳性。
[0010]然而,上述常规技术基于由用户捕获的图像来生成3D数字模型,并且基于所生成的模型来计算头部相关传递函数,并且因此具有相对较大的计算处理负荷。因此,假设利用上述常规技术,需要很长时间直到头部相关传递函数被提供给已经发送图像的用户,并且因此便利性不高。
[0011]因此,本公开提供了信息处理装置、信息处理方法和信息处理程序,其可以改善用户在与头部相关传递函数相关的处理中的便利性。
[0012]问题的解决方案
[0013]为了解决以上问题,根据本公开的实施例的信息处理装置包括:获取单元,其被配置为获取包括用户的耳朵的内容图像的第一图像;以及计算单元,其被配置为基于由获取单元获取的第一图像,通过使用学习模型来计算与用户相对应的头部相关传递函数,该学习模型已经学习以在输入包括耳朵的内容图像的图像时输出与耳朵相对应的头部相关传递函数。
附图说明
[0014]图1是示出根据本公开的第一实施例的信息处理的概况的示图。
[0015]图2是示出根据本公开的信息处理的整个过程的概念图。
[0016]图3是示出根据本公开的第一实施例的信息处理装置的示例性配置的示图。
[0017]图4是示出根据本公开的示例性耳朵图像存储单元的示图。
[0018]图5是示出与根据本公开的耳朵模型相关的示例性学习处理的示图。
[0019]图6是示出与根据本公开的耳朵参数估计模型相关的示例性学习处理的示图。
[0020]图7是示出根据本公开的示例性耳朵图像生成处理的示图。
[0021]图8是用于描述根据本公开的耳朵参数估计模型的示图。
[0022]图9是示出与HRTF相关的模型的生成处理的过程的概况的示图。
[0023]图10是用于描述根据本公开的3D模型重构的示图。
[0024]图11是用于描述与HRTF相关的模型的生成处理的细节的示图。
[0025]图12是用于描述根据本公开的HRTF的压缩和解压缩的示图。
[0026]图13是示出根据本公开的HRTF估计处理的过程的示图。
[0027]图14是示出根据本公开的第一实施例的用户终端的示例性配置的示图。
[0028]图15是示出根据本公开的检测处理的过程的示图。
[0029]图16是示出根据本公开的第二实施例的信息处理装置的示例性配置的示图。
[0030]图17是示出被配置为实现每个信息处理装置的功能的示例性计算机的硬件配置图。
具体实施方式
[0031]下面将参考附图详细描述本公开的实施例。注意,实施例中相同的部位由相同的参考标记表示,并且省略其重复描述。
[0032](1.第一实施例)
[0033][1

1.根据第一实施例的信息处理的概况][0034]首先,将参考图1描述根据本公开的信息处理系统1的配置和由信息处理系统1执行的信息处理的概况。图1是示出根据本公开的第一实施例的信息处理的概况的示图。通过图1所示的信息处理系统1来实现根据本公开的第一实施例的信息处理。信息处理系统1包括信息处理装置100和用户终端10。信息处理装置100和用户终端10通过有线或无线网络(未示出)执行相互通信。注意,包括在信息处理系统1中的每种装置的数量不限于图示的数量。
[0035]信息处理装置100是根据本公开的示例性信息处理装置,计算与每个用户相对应的头部相关传递函数(HRTF),并且提供所计算的HRTF。信息处理装置100通过例如服务器装置来实现。
[0036]用户终端10是由期望接收HRTF提供的用户使用的信息处理终端。用户终端10通过例如具有图像捕获功能的智能电话来实现。在图1所示的示例中,用户终端10由用户U01用作示例性用户。
[0037]HRTF将由包括人的耳廓(auricle)(耳廓(ear conch))或头部的形状的附近的对象引起的声音变化表示为传递函数。通常,通过使用安装在人的耳廓中的麦克风、虚拟头部
麦克风等测量用于测量的声学信号来获取用于计算HRTF的测量数据。
[0038]例如,经常通过使用由虚拟头部麦克风等获取的测量数据、从大量人获取的测量数据的平均值等来计算在诸如3D声学技术的技术中使用的HRTF。然而,个体的HRTF彼此大不相同,并且因此期望使用用户自己的HRTF来实现更有效的声学渲染效果。具体地,可以通过利用用户的HRTF代替典型的HRTF来向用户提供具有更真实感觉的声学体验。
[0039]然而,个体用户的HRTF的测量存在各种问题。例如,需要相对高密度的测量数据来获得提供优异声学效果的HRTF。需要以用户周围的各种角度输出到用户的声学信号的测量数据以获取高密度的测量数据。这样的测量需要很长时间,并且因此用户的身体负担很大。另外,需要在消声室等中执行精确的测量,并且因此经济负担也很大。因此,例如,减轻用户负担和降低测量成本是HRTF计算中的问题。
[0040]对于上述问题,存在以3D模型表达用户的耳朵或头部并且通过利用3D模型进行声学模拟来执行伪测量的技术。利用该技术,用户可以通过提供头部的扫描数据或头部的捕获图像来执行HRTF的计算,而无需在测量室中执行实际测量。
[0041]然而,对于生成3D模型和利用3D模型进行声学模拟的处理,计算处理负荷非常大。因此,当上述技术用于在使用例如3D声学的软件等上结合用户唯一的HRTF时,潜在地发生几十分钟或几小时的时滞。这对于用户来说不是很方便。因此,需要提高HRTF计算中的处理速度以实现用户对HRTF的有效使用,这是另一个问题。
[0042]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理装置,包括:获取单元,被配置为:获取包括用户的第一耳朵的第一图像;以及基于从包括所述用户的第一耳朵的所述第一图像获取的第一耳朵参数,使用一个或多个学习模型的输出来获取对应于所述用户的第一头部相关传递函数,所述一个或多个学习模型已经学习以输出与所述第一耳朵参数相对应的第一头部相关传递函数。2.根据权利要求1所述的信息处理装置,其中,所述一个或多个学习模型已经通过以下方式进行学习:学习包括第二耳朵的第二图像、第二耳朵参数和第二头部相关传递函数之间的关系。3.根据权利要求1所述的信息处理装置,其中,所述获取单元基于指示所获取的第一图像不适合用于获取第一头部相关传递函数的信息,而请求重新捕获包括所述用户的所述第一耳朵的所述第一图像。4.根据权利要求1所述的信息处理装置,其中,所述一个或多个学习模型已经通过以下方式进行学习:学习包括第二耳朵的第二图像和第二耳朵参数之间的关系;利用包括与所述第二耳朵参数相对应的所述第二耳朵的头部的三维数据执行声学模拟:根据通过所述声学模拟获得的数据来计算第二头部相关传递函数;以及学习所述第二头部相关传递函数与所述第二耳朵参数之间的关系。5.一种信息处理方法,包括:获取包括用户的第一耳朵的第一图像;以及...

【专利技术属性】
技术研发人员:福田和巳曲谷地哲
申请(专利权)人:索尼集团公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1