【技术实现步骤摘要】
【国外来华专利技术】(
如
[@laurelineLSTM]中所描述的长短期记忆
)
或“Bi
‑
LSTM”(
如
[@heymannNNmask]中所描述
)
的类型的“循环”架构
(
其使得可能更好地利用信号的时间依赖性
)
显示出更好的性能,但计算成本非常高
。
为了降低这种计算成本,无论是用于训练还是推理,已经成功地提出了称为“CNN”(
卷积神经网络
)
的卷积架构
([@amelie Unet],
[@janssonUnetSinger])
,除了并行执行计算的可能性之外,还改善了性能并降低了计算成本
。
虽然用于分离的人工智能方法通常利用时频域中的特性,但是也已经成功地采用了纯时间架构
([@stollerWaveUnet])。
[0013]所有这些用于增强和分离的人工智能方法为噪声是问题的任务
(
转录
、
识别
、 >检测
)<本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.
一种用于处理由多个麦克风
(MIC)
获取的声音数据的方法,其中:
‑
基于由多个麦克风获取的声音数据,确定源自至少一个感兴趣声源的声音的到达方向,
‑
根据声音的到达方向对声音数据应用空间滤波,
‑
在时频域中估计一方面的经滤波的声音数据与另一方面的所获取的声音数据之间的表示信号幅度的幅度的比率,
‑
根据所估计的比率,产生权重掩模以在时频域中应用于所获取的声音数据,以便构造表示源自感兴趣源的声音并相对于环境噪声增强的声学信号
。2.
根据前述权利要求中任一项所述的方法,其中,所述空间滤波属于“延迟和求和”类型
。3.
根据权利要求1所述的方法,其中,所述空间滤波在时频域中应用,并且属于
MPDR
类型,代表“最小功率无失真响应”。4.
根据权利要求3所述的方法,其中,所述
MPDR
类型的空间滤波表示为
w
MPDR
,由下式给出其中,
a
s
表示定义所述声音的到达方向的向量,并且
R
x
(t
,
f)
是在每个时频点
(t
,
f)
处通过以下类型的关系式估计的空间协方差矩阵:其中:
‑
Ω
(t
,
f)
是所述时频点
(t
,
f)
的邻域,
‑
card
是“基数”算子,
‑
x(t1,
f1)
是表示在时频域中获取的声音数据的向量,并且
x(t1,
f1)
H
是其厄米共轭
。5.
根据前述权利要求中任一项所述的方法,其中,通过应用在所考虑的时频点
(t
,
f)
的时间
‑
频率邻域上计算的局部统计算子,通过在每个时频点处进行平滑来进一步细化所产生的权重掩模
。6.
根据权利要求1至4中任一项所述的方法,其中,通过在每个时频点处进行平滑来进一步细化所产生的权重掩模,并且其中,应用概率方法,所述概率方法包括:
‑
将权重掩模视为随机变量,
‑
定义所述随机变量的模型的概率估计量,
‑
搜索所述概率估计量的最优,以便改善所述权重掩模
。7.
根据权利要求6所述的方法,其中,所述掩模被视为区间
[0
,
1]
内的均匀随机变量
。8.
根据权利要求6和7中任一项所述的方法,其中,所述掩模
M
s
(t
,
f)
的概率估计量表示在变量对的多个观测上的最大似然,分别表示:
‑
声学信号通过将所述权重掩模应用于所获取的声音数据而产生,以及
‑
所获取的声音数据
x
i
,所述观测在所考虑的时频点
(t
,
f)
的邻域内选择
。9.
根据前述权利要求所述的方法,其中,表示源自感兴趣源的声音并且相对于环境噪声增强的声学信号的构造包括应用从所产生的权重掩模获得的第二空间滤波
。
10.
根据权利要求9所述的方法,其中,所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。