一种时间标度和/或音调偏移一个音频信号的方法技术

技术编号：3046728 阅读：358 留言：0更新日期：2012-04-11 18:40

在一种可选实施方式中，使用多个心理声学标准分析一个音频信号以识别出在其中进行时间标度和／或音调偏移处理将是不可听的或者最低可听性的一个信号区域，并在该区域内时间标度和／或音调偏移该信号。在另一种可选实施方式中，将信号划分成多个听觉事件，并在一个听觉事件内时间标度和／或音调偏移该信号。在又一种可选实施方式中，将信号划分成多个听觉事件，使用一个心理声学标准分析这些听觉事件以识别出在其中进行信号的时间标度和／或音调偏移处理将是不可听的或者最低可听性的那些听觉事件。还为音频的多声道提供了其它的可选实施方式。（*该技术在2022年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及音频信号的心理声学处理领域。具体而言，本专利技术涉及在何处和/或如何执行音频信号的时间标度和/或音调标度(音调偏移)等方面。所述处理尤其适用于用抽样代表的音频信号，例如数字音频信号。本专利技术还涉及将音频划分成“听觉事件”等方面，每个“听觉事件”都将被独立地感知到。
技术介绍
时间标度是指改变一个音频信号的时间进程或者持续时间，而不改变该信号的频谱内容(可感知音色)或可感知音调(其中音调是一个与周期音频信号有关的特性)。音调标度是指修改一个音频信号的频谱内容或者可感知音调，而不影响其时间进程或者持续时间。时间标度和音调标度是互为对偶的方法。例如，通过时间标度将一个数字化音频信号的持续时间提高5％，然后以提高5％的抽样率(例如通过重新抽样)读取这些抽样，从而维持其原来的持续时间，可以将该数字化音频信号的音调调高5％，而不影响其持续时间。所获得的信号具有与原来的信号相同的持续时间，但是具有修改了的音调或频谱特性。如下面将要进一步讨论的，可以使用重新抽样，但其并非一个基本步骤，除非希望维持一个恒定的输出抽样率或者维持输入和输出抽样率相同。一种能够独立地控制音频信号的时间和音调特性的高质量的方法有许多种用途。对于高保真度、多声道的音频信号来说更是如此，所述高保真和多声道的音频信号可以包含从单音信号到话音信号和复杂音乐片段的很宽范围的内容。时间和音调标度的用途包括音频/视频广播、音频/视频后期制作的同步和多音轨音频记录和混音。在音频/视频广播和后期制作环境中，可能必需以与原始素材不同的速率重放视频，产生伴音信号的音调标度信号。音调标度音频可以维持音...

【技术保护点】
一种时间标度和／或音调偏移一个音频信号的方法，包括：　　　　使用多个心理声学标准分析所述音频信号，以识别出该音频信号的一个区域，其中该音频信号的时间标度和／或音调偏移处理将是不可听的或者是最低可听性的；和　　　　在所述区域内时间标度和／或音调偏移处理该音频信号。

【技术特征摘要】
【国外来华专利技术】US 2001-4-13 09/834,739;US 2001-5-25 60/293,825;US1.一种时间标度和/或音调偏移一个音频信号的方法，包括使用多个心理声学标准分析所述音频信号，以识别出该音频信号的一个区域，其中该音频信号的时间标度和/或音调偏移处理将是不可听的或者是最低可听性的；和在所述区域内时间标度和/或音调偏移处理该音频信号。2.权利要求1的方法，其中所述时间标度和/或音调偏移处理包括在该音频信号的所述区域内选择一个拼接点；删除在该拼接点处开始的一部分音频信号或者重复在该拼接点处结束的一部分音频信号；和以一个产生所想要的时间标度和/或音调偏移的速率读出所获得的音频信号。3.权利要求1的方法，其中所述时间标度和/或音调偏移处理包括在该音频信号的所述区域内选择一个拼接点，从而定义引导该拼接点的该音频信号的一个引导片段；选择与所述拼接点隔开的一个结束点，从而定义尾随该结束点的该音频信号的一个尾随片段，和在该拼接点和结束点之间的该音频信号的一个目标片段；在所述拼接点处拼接所述引导片段和尾随片段，从而当该结束点具有比所述拼接点更高的抽样编号时，通过省去该目标片段来降低音频信号抽样数量，或者当该结束点具有比所述拼接点更低的抽样编号时，通过重复该目标片段来增加抽样数量；和以一个产生所想要的时间标度和/或音调偏移的速率读出所拼接的引导和尾随片段。4.权利要求2或权利要求3的方法，其中以一个速率读出拼接的引导和尾随片段，以使与原持续时间相同的一个持续时间导致音调偏移该音频信号；在省去目标片段的情况下，以与抽样数量减少中的相对变化相同比例减少的一个持续时间导致时间压缩该音频信号；在重复目标片段的情况下，以与抽样数量增加中的相对变化相同比例增加的一个持续时间导致时间扩展该音频信号；以与抽样数量减少中的相对变化不同的一个比例减少的一个持续时间导致时间压缩和音调偏移该音频信号；或以与抽样数量增加中的相对变化不同的一个比例增加的一个持续时间导致时间扩展和音调偏移该音频信号。5.权利要求3的方法，其中还将结束点选择在所述区域内。6.权利要求3的方法，其中使用多个心理声学标准分析所述音频信号包括分析所述音频信号以识别出该音频信号的一个区域，其中该音频满足一组心理声学标准中至少一个标准。7.权利要求6的方法，其中所述心理声学标准包括下述标准中的至少一个所述音频信号的识别区域因为一个瞬变基本上被前掩蔽或后掩蔽；所述音频信号的识别区域基本上是不可听的；所述音频信号的识别区域主要在高频上；和所述音频信号的识别区域是该音频信号的一个片段中一个较安静的部分，在该音频信号的片段中，在该区域之前和/或之后该片段的一个部分或者多个部分音量更大。8.权利要求3的方法，其中在拼接点处拼接所述引导和尾随片段的所述步骤包括匀滑转换该引导和尾随片段。9.权利要求3的方法，其中在通过省去目标片段降低音频信号抽样数量的情况下，通过自相关尾随该拼接点的一个音频片段来选择所述结束点。10.权利要求3的方法，其中在通过重复目标片段增加音频信号抽样数量的情况下，通过互相关引导和尾随该拼接点的音频片段来选择所述结束点。11.权利要求3的方法，其中在通过省去目标片段降低音频信号抽样数量或者通过重复目标片段增加音频抽样数量的情况下，通过下述步骤来选择拼接点位置和结束点位置相关一个围绕一系列试用拼接点位置的音频抽样的窗口和一个与所述一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域；和确定导致最强相关的试用拼接点位置，将该试用拼接点位置指定为拼接点，并基本上在最强相关的位置上设置结束点位置。12.权利要求11的方法，其中所述窗口是一个矩形窗口。13.权利要求12的方法，其中所述窗口的宽度基本上等于匀滑转换宽度。14.权利要求11的方法，其中所述一系列试用拼接点位置间隔大于一个音频抽样。15.权利要求14的方法，其中所述一系列试用拼接点位置间隔基本上为所述窗口的宽度。16.权利要求15的方法，其中所述窗口的宽度基本上等于匀滑转换宽度。17.权利要求11的方法，对于通过省去目标片段降低音频抽样数量的情况，其中与所述一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域在每个试用拼接点位置之后，因此，拼接点在结束点之前。18.权利要求11的方法，对于通过重复目标片段增加音频抽样数量的情况，其中与所述一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域在每个试用拼接点位置之后，并倒换拼接点和结束点的身份，因此，结束点在拼接点之前。19.权利要求11的方法，对于通过重复目标片段增加音频抽样数量的情况，其中与所述一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域在每个试用拼接点位置之前，因此，结束点在拼接点之前。20.权利要求3的方法，其中在通过省去目标片段降低音频信号抽样数量或者通过重复目标片段增加音频抽样数量的情况下，通过下述步骤选择拼接点位置和结束点位置相关一个围绕一系列试用拼接点位置的音频抽样的窗口和一个与所述一系列试用拼接点位置中的每个试用拼接点位置相邻的音频抽样的区域，其中所有的所述音频抽样以因子M抽取；确定导致最强相关的试用拼接点位置，并将该试用拼接点位置指定为抽取拼接点；相关一个围绕所述抽取拼接点的M个抽样内第二系列试用拼接点位置的未抽取音频抽样的窗口和一个与该第二系列试用拼接点位置中的每个试用拼接点位置相邻的未抽取音频抽样的区域；和确定在所述第二系列中导致最强相关的试用拼接点位置，将该试用拼接点位置指定为拼接点，并将结束点位置基本上设置在最强相关的位置上。21.一种时间标度和/或音调偏移音频信号的多个声道的方法，包括使用至少一个心理声学标准分析所述音频信号多个声道中的每个声道，以识别出在所述音频信号的多个声道中音频信号的时间标度和/或音调偏移处理将是不可听的或者最低可听性的区域；和在音频信号的至少一个所述声道中的一个识别区域内的一个时间片段期间，时间标度和/或音调偏移处理音频信号的所述多个声道中的所有声道。22.权利要求21的方法，还包括识别出在音频信号的多个声道之中所识别区域的一个公共重叠部分；和在所述识别区域的公共重叠部分内时间标度和/或音调偏移处理音频信号的所述多个声道中的所有声道，因此，所述处理出现在每个声道中的一个识别区域内。23.权利要求22的方法，其中存在识别区域的多个公共重叠部分，并通过将一个心理声学标准的分级应用于每个识别区域公共重叠部分中的识别区域来选择最佳公共重叠部分，为时间标度和/或音调偏移处理选择识别区域的所述公共重叠部分。24.权利要求21的方法，其中所述时间标度和/或音调偏移处理包括选择音频信号多个声道之间的一个公共拼接点，因此在音频信号多个声道中每个声道内的所述公共拼接点产生的拼接点基本上是相互对准的，其中所述公共拼接点在音频信号的所述多个声道中的至少一个声道内的一个识别区域内；删除在该拼接点处开始的音频信号每个声道的一部分或者重复在该拼接点处结束的音频信号每个声道的一部分；和以一个为音频的多个声道产生所想要的时间标度和/或音调偏移的速率读出所获得的音频信号声道。25.权利要求24的方法，还包括识别一个其中存在所识别区域的一个公共重叠部分的时间片段，并在所识别区域的所述公共重叠部分内选择多个音频信号声道之间的所述公共拼接点。26.权利要求24的方法，其中所述选择一个公共拼接点通过使用至少一个心理声学标准还考虑交叉声道效应来选择所述公共拼接点位置。27.权利要求21的方法，其中所述时间标度和/或音调偏移处理包括在音频信号的每个声道内的一个识别区域内选择一个公共拼接点，因此，在音频信号多个声道中每个声道内的所述公共拼接点产生的拼接点基本上是相互对准的，每个拼接点定义一个引导该拼接点的音频信号引导片段；在所述识别区域内并与所述拼接点隔开地选择一个公共结束点，因此，多个音频信号声道内的结束点基本上是相互对准的，从而定义一个尾随该结束点的音频信号尾随片段和一个在该拼接点和该结束点之间的音频信号目标片段；在音频信号的每个声道内在所述拼接点处拼接所述引导片段和尾随片段，从而当该结束点具有一个比所述拼接点更高的抽样编号时，通过省去该目标片段来降低音频信号抽样数量，或者当该结束点具有一个比所述拼接点更低的抽样编号时，通过重复该目标片段来增加抽样数量；和以一个为音频的多个声道产生一个所想要的时间标度和/或音调偏移的速率读出在每个音频信号声道中拼接的引导和尾随片段。28.权利要求24或权利要求27的方法，其中以一个速率读出拼接的引导和尾随片段，以使与原持续时间相同的一个持续时间导致音调偏移该音频信号；在省去目标片段的情况下，以与抽样数量减少中的相对变化相同比例减少的一个持续时间导致时间压缩该音频信号；在重复目标片段的情况下，以与抽样数量增加中的相对变化相同比例增加的一个持续时间导致时间扩展该音频信号；以与抽样数量减少中的相对变化不同的一个比例减少的一个持续时间导致时间压缩和音调偏移该音频信号；或以与抽样数量增加中的相对变化不同的一个比例增加的一个持续时间导致时间扩展和音调偏移该音频信号。29.权利要求27的方法，还包括在一个或多个识别区域内定位一个临时拼接点，其中所述选择一个公共拼接点选择多个声道中一个声道内的一个临时拼接点的位置作为一个公共拼接点位置，其中被选择作为公共拼接点位置的临时拼接点位置可以与一个或多个其它临时拼接点位置不一致。30.权利要求27的方法，还包括识别所识别区域的一个公共重叠部分，其中所述选择一个公共拼接点选择在所识别区域的所述公共重叠部分内的一个公共拼接点。31.权利要求30的方法，其中所述选择一个公共拼接点使用至少一个心理声学标准在所识别区域的一个公共重叠部分内选择所述公共拼接点。32.权利要求30的方法，其中所述选择一个公共拼接点通过使用至少一个心理声学标准还考虑交叉声道效应在所识别区域的一个公共重叠部分中选择一个公共拼接点。33.权利要求27的方法，其中所述选择一个公共拼接点使用至少一个心理声学标准选择所述公共拼接点。34.权利要求33的方法，其中所述选择一个公共拼接点通过使用至少一个心理声学标准还考虑交叉声道效应选择所述公共拼接点。35.权利要求27的方法，其中还将结束点选择在每个音频信号的所述区域内。36.权利要求27的方法，其中所述的使用一个心理声学标准分析所述音频信号声道中的每个声道以识别出在音频信号声道中的每个声道内省去一部分音频信号或者重复一部分音频信号将是不可听的或者最低可听性的一个区域包括分析所述音频信号声道以识别出在每个音频信号声道中的区域，在这些区域内音频满足一组心理声学标准中的至少一个标准。37.权利要求32或权利要求36的方法，其中所述心理声学标准包括下述标准中的至少一个标准所述音频信号的识别区域因为一个瞬变基本上被前掩蔽或后掩蔽；所述音频信号的识别区域基本上是不可听的；所述音频信号的识别区域主要在高频上；和所述音频信号的识别区域是该音频信号的一个片段中的一个较安静的部分，在该音频信号的片段中，在该区域之前和/或之后该片段的一个部分或者多个部分音量更大。38.一种时间标度和/或音调偏移一个音频信号的方法，包括将所述音频信号划分成多个听觉事件；和在一个听觉事件内进行时间标度和/或音调偏移处理。39.权利要求38的方法，其中所述时间标度和/或音调偏移处理包括在所述听觉事件内选择一个拼接点和一个结束点；删除在该拼接点处开始的一部分音频信号或者重复在该拼接点处结束的一部分音频信号；和以一个产生所需要的时间标度和/或音调偏移的速率读出所获得的音频信号。40.权利要求38的方法，其中所述时间标度和/或音调偏移处理包括在所述听觉事件内选择一个拼接点，从而定义一个引导该拼接点的音频信号引导片段；在所述听觉事件内选择一个结束点，所述结束点与所述拼接点隔开，从而定义一个尾随该结束点的音频信号尾随片段，和一个在该拼接点和该结束点之间的音频信号目标片段；在所述拼接点处拼接所述引导片段和尾随片段，从而当该结束点具有比所述拼接点更高的抽样编号时，通过省去该目标片段来降低音频信号抽样数量，或者当该结束点具有比所述拼接点更低的抽样编号时，通过重复该目标片段来增加抽样数量；和以一个产生所想要的时间标度和/或音调偏移的速率读出所拼接的引导和尾随片段。41.权利要求39或权利要求40的方法，其中以一个速率读出拼接后的引导和尾随片段，以使与原持续时间相同的一个持续时间导致音调偏移该音频信号；在省去目标片段的情况下，以与抽样数量减少中的相对变化相同比例减少的一个持续时间导致时间压缩该音频信号；在重复目标片段的情况下，以与抽样数量增加中的相对变化相同比例增加的一个持续时间导致时间扩展该音频信号；以与抽样数量减少中的相对变化不同的一个比例减少的一个持续时间导致时间压缩和音调偏移该音频信号；或以与抽样数量增加中的相对变化不同的一个比例增加的一个持续时间导致时间扩展和音调偏移该音频信号。42.权利要求40的方法，其中在拼接点处拼接所述引导和尾随片段的所述步骤包括匀滑转换该引导和尾随片段。43.权利要求40的方法，其中在通过省去目标片段降低音频信号抽样数量的情况下，通过自相关尾随该拼接点的一个音频片段来选择所述结束点。44.权利要求40的方法，其中在通过重复目标片段增加音频信号抽样数量的情况下，通过互相关引导和尾随该拼接点的音频片段来选择所述结束点。45.权利要求40的方法，其中在通过省去目标片段降低音频信号抽样数量或者通过重复目标片段增加音频抽样数量的情况下，通过下述步骤来选择拼接点位置和结束点位置...

【专利技术属性】
技术研发人员：布莱特克罗克特，
申请(专利权)人：多尔拜实验特许公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人