适用于流应用的以双因果和非因果受限自注意力进行序列到序列处理的人工智能系统技术方案

技术编号：40467659 阅读：7 留言：0更新日期：2024-02-22 23:22

本公开提供了一种适用于流应用的以注意力进行序列到序列建模的人工智能(AI)系统。该AI系统包括：至少一个处理器；以及存储有指令的存储器，所述指令在由处理器执行时使得AI系统通过深度神经网络(DNN)的层处理输入帧序列中的各个输入帧，以生成输出序列。DNN的至少一些层包括具有关注非因果帧和因果帧的双非因果和因果架构的双自注意力模块。此外，该AI系统渲染输出序列。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开总体上涉及人工智能(ai)，更具体地，涉及一种适用于流应用的用于以注意力进行序列到序列建模的ai系统。

技术介绍

1、如今，自注意力机制已成为用于求解序列到序列问题的不同人工智能(ai)应用的许多神经网络(nn)架构中的核心组件。序列到序列问题的示例包括机器翻译、语音处理、语言建模、自动语音识别(asr)、计算机视觉等。自注意力机制允许输入彼此交互(“自”)并且找出它们应该更注意谁(“注意力”)，以针对给定任务以最佳方式计算输出。当整个输入序列可用于处理时，自注意力机制有利于求解序列到序列问题。然而，等待从时间相关信号推导的整个输入序列导致以自注意力模块来处理时间序列的神经网络具有输出延迟，这使得它们不太适用于需要低延迟的在线或流序列到序列处理。

2、例如，在语音处理应用中，为了解释语音话语“she eats a green apple(她吃了一个青苹果)”，自注意力机制对于解释语音话语的不同部分可能投入不同的注意力。例如，对于解释词语“eats”，词语“apple”可能比词语“green”更重要。因此，在解释词语“eats”期间，自注意力模块可学习对词语“apple”而非对词语“green”投入更多注意力。然而，为了对词语“apple”投入更高注意力，自注意力模块应该等待直至词语“apple”变得可用于处理。因此，在此示例中，为了解释句子的开头，自注意力模块需要等待直至句子的结束，从而导致处理延迟。

3、受限自注意力可部分地解决自注意力机制的这一缺点。尽管自注意力机制处理整个输入序列以解释其各个输

4、受限自注意力可能使自注意力模块的性能下降，但是降低了序列到序列处理的延迟。例如，当前瞻大小为两个帧时，受限自注意力将各个当前帧的解释仅延迟两个帧，这对于流应用而言是可容忍的。

5、然而，在实践中，自注意力模块在深度神经网络的结构内形成复杂架构，其中在彼此层叠的层内使用多个自注意力模块，各个层使用在前层的输出作为输入。深度神经网络的结构在准确性方面改进了序列到序列处理的性能，但这是以增加的处理延迟为代价的。例如，当受限自注意力模块引入两个帧的处理延迟并且深度神经网络包括12个连续的基于自注意力的层以改进处理的准确性时，尽管各个自注意力层仅使用2个前瞻帧，但总延迟变为24帧。结果，深度神经网络的设计者需要平衡处理的准确性与延迟。还需要与dnn的总延迟相比平衡各个自注意力层的前瞻大小，以提供令人满意的序列到序列处理性能而无需大的总延迟。

技术实现思路

1、技术问题

2、一些实施方式的目的是提供一种适用于流应用的以自注意力进行序列到序列处理的人工智能(ai)系统。另外地或另选地，一些实施方式的目的是提供一种双自注意力模块，其可提供性能保证，而无需序列到序列处理的大处理延迟。另外地或另选地，一些实施方式的目的是提供一种双自注意力模块，其可用于形成各种架构的深度神经网络而不会累积各个层的处理延迟。

3、问题的解决方案

4、一些实施方式基于这样的理解：自注意力以及受限自注意力具有非因果架构。词语因果和非因果是信号处理领域的术语，在本文中以其平常含义使用。例如，在信号处理中，因果滤波器是线性时不变因果系统，其中词语“因果”指示滤波器输出仅取决于过去和现在的输入。输出也取决于未来输入的滤波器是非因果的。因此，如本文所使用的，自注意力模块的非因果架构使用过去、当前以及在当前输入帧之后到来的未来输入来解释当前输入帧。

5、类似地，受限自注意力模块可使用因果架构来实现。这种架构不使用未来信息，因此不引入任何延迟。结果，因果自注意力的任何组合不会导致任何附加延迟。然而，使用因果自注意力的序列到序列处理的性能比非因果自注意力的性能差。为此，一些实施方式的目的是将因果架构与非因果架构组合以用于数据流应用，以利用二者的优点。

6、一些实施方式基于这样的认识：非因果架构使用两个主要原理。第一个原理是关注输入帧的方式，第二个原理是输入帧的本质。在非因果架构中，两个原理均是非因果的。具体地，非因果自注意力关注未来前瞻帧，因此关注的方式是非因果的。另外，第二个原理规定前瞻帧应该考虑未来数据根据非因果原理来生成。因此，生成前瞻帧的方式也可为非因果的。结果，根据两个非因果原理，前瞻大小为两个帧的非因果架构需要关注两个未来前瞻帧，这两个未来前瞻帧继而可利用另两个未来前瞻帧生成，这另两个未来前瞻帧继而可利用另两个前瞻帧生成，依此类推，遵循使用自注意力模块的神经网络的深度。

7、一些实施方式基于这样的认识：可通过提供双因果和非因果(dcn)架构来修改非因果架构的原理。在dcn架构中，关注输入帧的方式仍是非因果的，然而，输入帧本身可以是因果或非因果的。另外地或另选地，在dcn架构中，关注输入帧的方式可以是因果或非因果的，并且输入帧可以是因果或非因果的。如本文所述，因果输入或因果帧是在不考虑一个或多个未来输入的情况下生成的输入或帧，而非因果输入或非因果帧是考虑一个或多个未来输入生成的输入或帧。结果，深度神经网络(dnn)的非因果架构内的因果输入可用于降低总处理延迟，而准确性仅部分降低。

8、在一些实施方式中，非因果自注意力处理的前瞻帧是因果帧，而所关注的其它帧对应于非因果帧。当前瞻帧为因果的时，在前双自注意力模块不需要附加前瞻帧来生成它们。值得注意的是，如果非因果过去帧的前瞻大小不长于其从当前帧过去的距离，则具有非因果过去帧不会引入任何附加延迟。因此，实施方式可使用尽可能多的非因果帧，从而限制性能降低，同时仅使用因果前瞻帧，从而限制处理延迟。

9、一些实施方式基于这样的理解：需要以与非因果帧一致的方式生成因果帧(例如因果前瞻帧)，从而允许dcn架构一起使用因果帧和非因果帧。为此，一些实施方式使用双自注意力，维持因果架构和非因果架构二者彼此并行操作。因果架构以因果方式处理其输入，从而在没有前瞻的情况下生成因果输出。非因果架构以非因果方式处理其输入，相对于输入帧具有预定大小的前瞻，以输出非因果输出。在一些实现方式中，这些前瞻帧是从因果架构复制的因果帧。

10、因此，具有dcn架构的双自注意力模块可输出因果输出和非因果输出。因果输出和非因果输出可通过包括双自注意力的dnn的层传播。以这种方式，双自注意力的非因果架构可访问通过dnn的先前层的双自注意力的因果架构生成的因果帧和通过dnn的先前层的双自注意力的非因果架构生成的非因果帧二者。值得注意的是，dnn的总体输出可包括因果输出和非因果输出之一或组合。然而，由于非因果输出通常比因果输出更准确，所以在一个实施方式中，输出序列仅包括非因果输出。

11、一些实施方式基于这样的认识：在内部，双自注意力将输入帧序列变本文档来自技高网...

【技术保护点】

1.一种适用于数据流应用的人工智能(AI)系统，该AI系统包括：至少一个处理器；以及存储有指令的存储器，所述指令在由所述至少一个处理器执行时使得所述AI系统：

2.根据权利要求1所述的AI系统，其中，解释当前帧所关注的所述因果帧是前瞻帧，而所关注的其余帧是所述非因果帧。

3.根据权利要求2所述的AI系统，其中，所述双自注意力模块包括输出在没有前瞻的情况下推导的因果输出帧序列和相对于表示当前时间的输入帧以预定大小的前瞻推导的非因果输出帧序列的双自注意力；并且其中，所述输出序列包括所述因果输出帧和所述非因果输出帧之一或组合。

4.根据权利要求3所述的AI系统，其中，所述输出序列仅包括所述非因果输出帧序列。

5.根据权利要求3所述的AI系统，

6.根据权利要求3所述的AI系统，

7.一种包括根据权利要求3所述的AI系统的语音识别系统，该语音识别系统包括：

8.根据权利要求7所述的语音识别系统，该语音识别系统还包括：

9.根据权利要求8所述的语音识别系统，其中，所述语音输入的识别是所述语音输入的转录。

10.一种包括根据权利要求3所述的AI系统的声学事件检测系统，该语音识别系统包括：

11.一种音频处理方法，该音频处理方法包括以下步骤：

12.根据权利要求11所述的音频处理方法，其中，解释当前帧所关注的所述因果帧是前瞻帧，而所关注的其余帧是所述非因果帧。

13.根据权利要求12所述的音频处理方法，其中，所述双自注意力模块包括输出在没有前瞻的情况下推导的因果输出帧序列和相对于表示当前时间的输入帧以预定大小的前瞻推导的非因果输出帧序列的双自注意力；并且其中，所述输出序列包括所述因果输出帧序列和所述非因果输出帧序列之一或组合。

14.根据权利要求13所述的音频处理方法，其中，所述输出序列仅包括所述非因果输出帧序列。

15.根据权利要求13所述的音频处理方法，

16.根据权利要求13所述的音频处理方法，

17.一种具体实现有程序的非暂时性计算机可读存储介质，所述程序能够由处理器执行以用于执行一种方法，该方法包括以下步骤：

...

【技术特征摘要】
【国外来华专利技术】

1.一种适用于数据流应用的人工智能(ai)系统，该ai系统包括：至少一个处理器；以及存储有指令的存储器，所述指令在由所述至少一个处理器执行时使得所述ai系统：

2.根据权利要求1所述的ai系统，其中，解释当前帧所关注的所述因果帧是前瞻帧，而所关注的其余帧是所述非因果帧。

3.根据权利要求2所述的ai系统，其中，所述双自注意力模块包括输出在没有前瞻的情况下推导的因果输出帧序列和相对于表示当前时间的输入帧以预定大小的前瞻推导的非因果输出帧序列的双自注意力；并且其中，所述输出序列包括所述因果输出帧和所述非因果输出帧之一或组合。

4.根据权利要求3所述的ai系统，其中，所述输出序列仅包括所述非因果输出帧序列。

5.根据权利要求3所述的ai系统，

6.根据权利要求3所述的ai系统，

7.一种包括根据权利要求3所述的ai系统的语音识别系统，该语音识别系统包括：

8.根据权利要求7所述的语音识别系统，该语音识别系统还包括：

9.根据权利要求8所述的语音识别系统，其中，所...

【专利技术属性】
技术研发人员：N·莫里茨，堀贵明，J·勒鲁克斯，
申请(专利权)人：三菱电机株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人