一次性声学回声生成网络制造技术

技术编号:37038446 阅读:17 留言:0更新日期:2023-03-29 19:17
包括在计算机存储介质上编码的用于生成回波记录的计算机程序、方法、系统和装置。该系统接收由自动编码器中,表示音频信号和一个目标回波嵌入包含约一个目标房间信息的音频信号表示。自动编码器包括编码器和解码器。该系统发电机密封,由编码器中内容中嵌入和估计的回声嵌入。该系统发电机密封,由解码器基于所述内容嵌入和目标的回波记录表示回声嵌入。述内容嵌入和目标的回波记录表示回声嵌入。述内容嵌入和目标的回波记录表示回声嵌入。

【技术实现步骤摘要】
一次性声学回声生成网络


[0001]本专利技术总体上涉及机器学习,更具体地,涉及用于生成模拟真实世界数据的音频记录的系统和方法。

技术介绍

[0002]声学回声消除(AEC)是一个重要组成部分音频记录以减少或消除回声和显着改善声音质量为一个用户。回声消除现在变得更加重要,因为移动计算和视频通信已经导致数字语音消费的爆炸式增长。该技术可应用于许多视频会议、音频通话、视频录制、播客等领域。然而,用户在室内或室外等多种应用环境中录制音频,并使用多种录音设备,这对声学回声消除提出了挑战。神经网络是一种很有前途的声学回声消除技术,但该技术可能需要大量的训练数据(例如录音)来训练神经网络以获得足够的性能。
[0003]当前收集用于训练AEC神经网络的大型录音数据集的方法既昂贵又费力。传统方法需要手动收集来自许多不同环境的录音,以提供代表每个环境中回声的训练示例,这些示例可用于应用程序的实际使用中。尤其地,研究者可设立多个模拟房间以及不同的记录设备和再现设备(用于播放音频样本),以模拟不同的环境。在每个房间收集数据并测量每个房间的特征的过程可能是劳动密集型的。此外,他达到的训练数据基础上的房间,研究人员能够建立和使用记录的数量是有限的。这种方法是劳动密集型和昂贵的,并且限制了训练数据中可以表示的不同环境的数量。有时,可以使用基于数字信号处理(DSP)的回波生成来辅助数据生成,但这种方法仍然需要收集有关房间或其他复杂测量任务的信息。因此,由于基于有限数量的训练数据的不正确泛化,AEC神经网络可能表现不佳。
[0004]声学回声消除领域需要更有效地生成训练数据。期望通过用于生成音频记录的系统和方法来克服传统方法的问题,该系统和方法模拟各种不同环境的声学回声特性以训练用于声学回声消除的神经网络

技术实现思路

[0005]一般而言,本说明书中描述的主题的一个创新方面可以体现在包括用于生成回波记录的操作的系统、计算机可读介质和方法中。一种系统执行由自动编码器接收表示音频信号的音频信号表示和包括关于目标房间的信息的目标回声嵌入的操作,其中自动编码器包括编码器和解码器。该系统发电机密封ES,由编码器中,内容中嵌入和估计的回声嵌入。该系统发电机密封ES,由解码器,基于所述内容嵌入和目标的回波记录表示回声嵌入。回声记录表示是表示包括在目标房间播放估计回声的音频信号。
[0006]在系统的另一方面,目标回波嵌入对关于目标房间的几何形状和一个或多个回波路径的信息进行编码。
[0007]在系统的另一方面,当目标回声嵌入与估计的回声嵌入相同时,音频信号表示与回声记录表示相同。
[0008]在该系统的另一方面,目标回声嵌入是通过将第二音频信号表示输入到自动编码
器中来生成的,该第二音频信号表示表示在目标房间中记录的第二音频信号。
[0009]在系统的另一方面,音频信号表示包括音频信号的短时傅立叶变换(STFT)。
[0010]在该系统的另一个方面,该系统发电机密封上课从回波记录表示一个回声记录。该系统列车使用回波记录的声学回声消除系统。
[0011]在该系统的另一方面,自编码器包括一个或多个权重,这些权重是通过在连体重建网络中训练自编码器而学习的。
[0012]在系统的另一方面,连体重建网络包括串联的自动编码器的两个副本,其中自动编码器的第一副本的输出包括自动编码器的第二副本的输入。
[0013]在系统的另一方面,Siamese重建网络被训练以最小化Siamese重建网络的输入音频信号表示和输入回声嵌入与Siamese重建网络的输出音频信号表示和输出回声嵌入之间的重建损失.
[0014]在该系统的另一方面,使用生成对抗网络(GAN)训练自动编码器以最小化鉴别器损失。
[0015]从详细描述、权利要求和附图中,本公开的更多应用领域将变得显而易见。详细描述和具体示例仅用于说明而不用于限制本公开的范围。
附图说明
[0016]从详细描述和附图中可以更好地理解本公开,其中:
[0017]图1是示出一些实施例可以在其中操作的示例性网络环境的图;
[0018]图2是示出一些实施例可以在其中运行的示例性环境的图;
[0019]图3是图示根据本公开的一个实施例的示例性自动编码器的图;
[0020]图4是图示根据本公开的一个实施例的示例性重构网络的图;
[0021]图5是图示根据本公开的一个实施例的示例性的图;
[0022]图6是图示可以在一些实施例中执行的示例性方法的流程图;
[0023]图7是图示可以在一些实施例中执行的示例性方法的流程图;
[0024]图8A

B是图示可以在一些实施例中执行的示例性方法的流程图;
[0025]图9是图示可以在一些实施例中执行的示例性方法的流程图;和
[0026]图10图示了其中可以执行实施例的示例性计算机系统。
具体实施方式
[0027]在本说明书中,详细参考了本专利技术的具体实施例。在附图中示出了一些实施例或其方面。
[0028]为了解释清楚,已经参考特定实施例描述了本专利技术,但是应当理解,本专利技术不限于所描述的实施例。相反,本专利技术涵盖可包括在由任何专利权利要求限定的其范围内的替代、修改和等同物。本专利技术的以下实施例在不丧失对所要求保护的专利技术的一般性且不对其施加限制的情况下被阐述。在以下描述中,阐述了具体细节以提供对本专利技术的透彻理解。可以在没有这些特定细节中的一些或全部的情况下实践本专利技术。此外,可能没有详细描述众所周知的特征以避免不必要地模糊本专利技术。
[0029]此外,应当理解,该示例性专利中阐述的示例性方法的步骤可以以与本说明书中
呈现的顺序不同的顺序执行。此外,示例性方法的一些步骤可以并行执行而不是顺序执行。此外,示例性方法的步骤可以在网络环境中执行,其中一些步骤由联网环境中的不同计算机执行。
[0030]一些实施例由计算机系统实现。计算机系统可以包括处理器、存储器和非暂时性计算机可读介质。存储器和非暂时性介质可以存储用于执行这里描述的方法和步骤的指令。
[0031]一、示例环境
[0032]图1是图示一些实施例可以在其中操作的示例性网络环境100的图。在示例性环境中,回波生成系统110可以包括用于生成回波记录的计算机系统。回声生成系统110可以包括自动编码器112和用于训练自动编码器112的训练模块114。训练模块114可以包括软件模块,该软件模块包括重建网络116和生成对抗网络(GAN)118。在一些实施例中,自动编码器112、重建网络GAN116和GAN 118可以包括一个或多个神经网络,例如深度神经网络(DNN)。DNN可以使用深度学习来实现其功能的一个或多个方面。回声生成系统110可以连接到一个或多个存储库和/或数据库,包括音频存储库140、回声嵌入存储库142和生成的回声记录存储库144。一个或多个数据库可以组合或分成多个数据库。
[0033]音频储存库140可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种回声记录生成系统,包括一个或多个处理器,配置为执行以下操作:由自动编码器接收表示音频信号的音频信号表示和包括关于目标房间的信息的目标回声嵌入,其中自动编码器包括编码器和解码器;由编码器生成内容嵌入和估计的回声嵌入;由解码器基于内容嵌入和目标回声嵌入生成回声记录表示;和其中,回声记录表示表示包括来自在目标房间中播放的估计回声的音频信号。2.根据权利要求1所述的系统,其中:所述目标回波嵌入对关于目标房间的几何形状和一个或多个回波路径的信息进行编码。3.根据权利要求1所述的系统,其中:当目标回声嵌入与估计的回声嵌入相同时,则音频信号表示与回声记录表示相同。4.根据权利要求1所述的系统,其中:通过将表示在目标房间中记录的第二音频信号的第二音频信号表示输入到自动编码器中来生成目标回声嵌入。5.根据权利要求1所述的系统,其中:所述音频信...

【专利技术属性】
技术研发人员:Z
申请(专利权)人:祖玛视频通讯公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1