循环神经网络原理最详细循环神经网络讲解-百科知识-舒华文档

引用

Lim S H . Understanding Recurrent Neural Networks Using Nonequilibrium Response Theory[J]. 2020.

摘要

循环神经网络（RNN）是一种受大脑启发的模型，其广泛的应用于机器学习，以进行连续数据的分析。本工作有助于使用非平衡学说的响应理论更深度地理解 RNN 如何处理输入信号。对于一类由输入信号驱动的连续时间随机 RNN（SRNN），我们为其输出推导出一个沃尔泰拉级数的序列表示。这种表示法是可解释的，并将输入信号从 SRNN 结构中分离出来。序列的核是一些递归定义的相关函数，其与完全决定输出的无扰动动力学相关。利用这种表示的联系及其对粗糙路径理论的影响，我们确定了一个通用特征——响应特征，其被证明是输入信号的张量积的特征与自然支撑基础。特别地，我们展示了仅优化了读出层的权重，而隐藏层的权重保持固定、未被优化的 SRNN，这可被看作是在与响应特征相关的再生核希尔伯特空间中执行的核机器。

介绍

从时间序列分析到自然语言处理，序列化数据出现在广泛的场景中。在没有数学模型的情况下，从数据中提取有用信息，以学习一个数据生成系统是很重要的。

循环神经网络（RNN）是一类受大脑启发的模型，其专门为学习序列数据而设计，被广泛地应用于从物理学到金融的各个领域。RNN 是具有反馈连接的神经元网络，从生物学角度比其他适应性模型更具说服力。特别地，RNN 可以使用它们的隐藏状态（记忆）来处理输入的可变长度序列。它们是动力系统的通用逼近器，且其本身可被视为一类开放动力系统。

尽管 RNN 近期在储备池计算、深度学习和神经生物学方面取得了创新和巨大的经验成功，但很少有研究关注 RNN 工作机制的理论基础。缺乏严格的分析限制了 RNN 在解决科学问题方面的实用性，并可能阻碍下一代网络的系统设计。因此，深入了解该机制对于阐明大型自适应架构的特性，以及彻底改变我们对这些系统的理解而言至关重要。

特别地，人们可能会问的两个自然且基础的问题是：

Q1：随着时间推移的输入信号如何驱动 RNN 产生输出？

Q2：它们的响应是否有一个普遍的机制？

本工作的主要目标之一是解决上述问题，以非平衡统计动力学中的非线性响应理论为出发点，针对连续时间 RNN 的随机版本，简称 SRNN（其隐藏状态被注入了高斯白噪声）进行分析。我们的方法是跨学科的，为现有的 RNN 理论增加了令人耳目一新的观点。

随机循环神经网络（SRNN）

本文固定过滤概率空间（filtered probability space）

，E 代表对 P 的期望，T>0。C(E, F)代表从 E 到 F 的连续映射的巴拿赫空间，其中 E 和 F 是巴拿赫空间。

表示 Rn 上所有有界连续函数的空间。N:={0, 1, 2, . . . }，Z+:={1, 2, . . . }且 R+:= [0, ∞)。上标 T 表示转置，? 表示邻接。

模型

我们对我们的 SRNN 考虑如下模型。所谓激活函数，是指一个非常数的、利普希茨连续且有界的实值函数。激活函数的例子包括 sigmoid 函数，如实践中常使用的双曲切线等。

定义 2.1（连续时间 SRNN）令 t ∈ [0, T]，

为确定的输入信号。连续时间的 SRNN 描述为以下空间状态的模型：

其中，公式 1 是隐藏状态

的随机微分方程（SDE），带有漂移系数 φ：

、噪声系数

和定义在

上的 r 维维纳过程

，而公式 2 定义了一个可观测的激活函数

。

我们考虑 SRNN 的输入仿射版本，其中：

其中，

是正稳定的，

为激活函数，

和

为常量，

为转换输入信号的常量矩阵。

从现在开始，我们将 SRNN 称为由（1）-（3）定义的系统。SRNN 的隐藏状态描述了一个处理输入信号的非自主随机动力系统。常数 Γ、W、b、C、σ 和 f 中的参数（如果有的话）定义了 SRNN（架构）的（可学习）参数或权重。对于 T > 0，与 SRNN 相关联的是输出函数

，其定义为可观测的 f 的期望值（***平均值）：

SRNN 的非平衡响应理论

预备知识和符号

在本小节中，我们简要回顾马尔可夫过程的预备知识并介绍我们的一些符号。

令 t ∈ [0, T]，

且

是归一化的输入信号。在 SRNN（1）-（3）中，我们认为信号

是驱动 SDE 的小振幅 γ（t）的扰动：

未扰动的 SDE 是 Cu 设置为零的系统：

其中，

且

。过程 h 是时间齐次马尔可夫过程

的扰动，它不一定是稳定的。

扩散过程 h 和

分别与一族无穷小生成元

和

相关，它们是二阶椭圆算子，定义为：

对于任何可观察的

，其中

。我们将与 h 关联的转移算子

定义为：

对于

，和转移算子

（其为一个马尔科夫半群），它们都是与

相关联的。

此外，可以在概率测度空间上定义上述生成元和转移算子的 L2 伴随矩阵。我们分别用

和

表示与 h 和

关联的伴随生成器，分别用

和

表示与 h 和

关联的伴随转移算子。我们假设初始测度和过程定律具有关于勒贝格测度的密度。将初始密度表示为

，

满足与

关联的前向柯尔莫果洛夫方程（FKE）。

我们采取自然的假设，即扰动和未扰动过程都有相同的初始分布

，这通常不是无扰动动力学的不变分布

。

关键思想和形式推导

固定一个 T>0，令

足够小并且

首先，请注意概率密度

的 FKE 是：

其中

，而：

关键思想是，由于 ε> 0 很小，我们寻求形式为 ρ 的微扰展开：

将其代入 FKE 并匹配 ε 中的阶数，我们得到以下方程层次：

ρn 的形式解可以通过迭代获得。形式化的描述，我们记

。在不变分布是稳定的特殊情况下，

与时间无关。

请注意，n ≥ 2 时，

，在 n ≥ 2 时，解 ρn 通过递归关系而得：

因此，假设下面的无穷级数绝对收敛，我们有：

接下来，我们考虑 SRNN 的隐性动力学的标量值观测值

，并研究输入信号扰动引起的该观测值的平均偏差：

对于扰动动力学的可观察值的平均值可写为：

在不丧失一般性的情况下，我们在下文中取

，即 f(h)被认为是均值为零的（相对于 ρinit）。

我们有：

其中

是一阶响应核，它们是相对于 ρinit 的仅无扰动动力学函数的平均值。请注意，为了获得上面的最后一行，我们分部积分并假设 ρinit>0。

其中

。在线性 SRNN（即 φ(h, t)在 h 中是线性的）和 f(h) = h 的特殊情况下，其可简化为

的协方差函数（相对于 ρ∞）。

到目前为止，我们已经研究了线性响应机制，其中，响应线性地依赖于输入。现在我们通过将上述推导扩展到 n≥2 的情况。我们表示

，可得

其中

，

是 n 阶响应核：

且

n = 2, 3, . . .时，

请注意，这些高阶响应核与一阶响应核类似，是相对于 ρinit 的一些仅无扰动动力学的函数的平均值。

基于上述结果可得：

其中

现在我们关注(Q2)。通过展开技术，我们可以得到：

其中，

是与时间和信号

主要结果

假设

为了简单和直观，我们对 SRNN 使用以下相当严格的假设。这些假设可以通过增加技术成本（我们不在这里追求）或通过计算近似结果来证明是合理的。

回想一下，我们正在处理确定性输入信号

。

假设 4.1固定 T>0 并让 U 成为

的开集。

(a)

对所有 t∈[0, T]来说都是足够小的。

(b) 在所有

时，

，并且以概率 1 存在一个紧集 K?U，使得在所有

情况下，

。

和 f：

为分析函数。

(d)

是正定的，

是正稳定的（即，Γ 的所有特征值的实部都是正的）。

(e) 初始状态

是一个根据概率密度 ρinit 分布的随机变量。

利普希茨连续。(d) 意味着系统受到的是非退化噪声的抑制和驱动，这确保了无扰动系统可以指数稳定。(e)是我们分析的自然假设，因为 h 是

的一个扰动。

除非另有说明，否则假设 4.1 是本文中隐含的假设。

进一步符号化。我们现在提供一个空间及其符号的列表：

* L(E1, E2)：从 E1 到 E2 的有界线性算子的巴拿赫空间（其中||·||表示适当空间上的范数）

：具有紧支撑的类

的实值函数空间

：类

有界实值函数空间

上有界绝对连续度量的空间，其中

，ρ 表示度量 μ 的密度

：ρ 加权的 Lp 空间，即函数 f 的空间，使得

，其中 ρ 是加权函数。

SRNN 输出泛函的表示方法

在保证不丧失一般性的情况下，我们将在下文取 p=1 并假设

。

定义 4.1（响应函数）令

是一个有界的可观察对象。对于 t∈[0,T]，令 Ft 是 C([0, t],R)上的泛函，定义为

，

表示 Ft 相对于 γ 的 n 阶泛函导数。对于 n∈Z+，如果存在局部可积函数

，对于所有测试函数

，使得

则

被称为可观测 f 的 n 阶响应函数。

接下来，在 t∈[0,T]中，令

是任意可观察函数，且

。

命题 4.1（响应函数的显式表达式）对于 n∈Z+，令

为 f 的 n 阶响应函数。那么，对于

：

(a)

(b) （高阶 A-FDT）此外，如果 ρinit 为正，则

其中

推论 4.1令 n∈Z+，且

。假定在

上有另一个函数

，使得对于所有的

，有

那么

几乎处处成立。

定理 4.1（记忆表示）令 t∈[0,T]，SRNN 的输出泛函

是 N→∞ 的极限：

其中

在命题 4.1 中给出。该极限存在，且是唯一的收敛的沃尔泰拉级数。如果 Gt 是另一个具有响应函数

的这样的级数，那么 Ft=Gt。

定理 4.2（无记忆表示）假设算子

有一个明确定义的本征函数展开。那么，SRNN 的输出函数

有一个收敛级数展开，这就是 N, M→∞ 的极限：

其中

是常数系数，取决于 pi、li、

的特征值和特征函数、f 和 ρinit，但与输入信号和时间无关。在这里，pi∈{0, 1, . . . , M}、li∈{1, 2, . . . , m}。

命题 4.2（确定的深度 SRNN 的表示）令 Ft 和 Gt 是两个 SRNN 的输出函数，相关的截断沃尔泰拉级数分别具有响应核

核

，n=1,…,N，m=1,…,M。那么

是具有 N+M 个响应核的截断沃尔泰拉级数：

当且仅当 r=1,…,N+M，其中

如果 Ft 和 Gt 是沃尔泰拉级数（即 N，M=∞），则在 r = 1, 2, . . . 上，

是具有上述响应核

的沃尔泰拉级数（只要它是明确定义的)。

此外，定理 4.2 中的陈述适用于

，即

在定理 4.2 的假设下允许指定形式的收敛级数展开。

定义 4.2（路径特征）令 X∈C([0, T], E)为有界变差路径。X 的特征是 T((E))的元素 S，定义为

其中

当且仅当 n ∈ Z+，

。

令

为

的典范基，那么我们有：

用

表示对偶配对，有

定理 4.3（特征方面的无记忆表示）设 p 是一个正整数，并假设输入信号 u 是一个有界变差路径。那么 SRNN 的输出函数 Ft 是

在 p→∞ 的极限，其是路径特征的线性泛函，

（可通过向量化与

进行识别），其中

，即

其中，bn(t)仅取决于 t 的系数。

将 SRNN 表述为核机器

我们现在考虑一个监督学习（回归或分类）的环境，我们给定 N 个训练输入输出对

，其中 un∈χ，为

中有界变差的路径空间，yn∈R，使得对于所有 n，有

，这里 FT 是一个连续目标映射。

考虑优化问题：

其中 G 是具有范数

的假设（巴拿赫）空间，

为一个损失函数，R(x)是一个在 x 中严格增加的实值函数。

受定理 4.3 的启发（将 G 视为由 SRNN 引入的假设空间）我们将表明，该问题的解决方案可以表示为对训练样本的核扩展。

在下文中，考虑希尔伯特空间：

其中 P 是适当加权的

序列空间，其遵循序列形式为

，其中

Pn(t)是[0, T]上的正交多项式。令

表示 H 上的对称福克空间，

表示 L∈Z+时

的 L 折张量积。

命题 4.3令 L∈Z+。考虑映射

，定义为：

其中 K 是 H 上的核，存在一个唯一的 RKHS，表示为具有范数

的

，其中 K 为再生核。

定理 4.4（表示定理）考虑时间增加的路径

，其中 un 是 χ 中

值的输入路径，v 是 P 中

值向量。那么：

(a) 假设空间为

的前文所述优化问题的任何解都允许以下形式的表示：

其中 cn∈R，N 是训练输入-输出对的数量。

(b) 令 L ∈ Z+。如果我们转而考虑路径，表示为

，在时间 ti∈[0, T]上，通过对 L+1 个数据点进行线性插值获得

，则相应优化问题的任何解都具有

的假设空间，表示形式为：

其中 αn∈R，l=1,…,L 时，

。

结论

在本文中，我们使用非平衡统计动力学的非线性响应理论作为起点，解决了关于一类随机循环神经网络 (SRNN) 的两个基本问题，这些网络可以是人工或生物网络的模型。特别地，我们能够以系统的、逐级的方式来描述 SRNN 对扰动的确定性输入信号的响应，为这些 SRNN 的输出函数推导出两种类型的序列表示，以及在驱动输入信号方面的深度变体。这提供了对由这些驱动网络所引起的记忆和无记忆表示的性质的探究。此外，通过将这些表示与路径特征的概念联系起来，我们发现响应特征集是 SRNN 在处理输入信号时从中提取信息的构建块，揭示了 SRNN 运行的普遍机制。特别地，我们通过表示定理表明，SRNN 可以被看作是在与响应特征相关的再生核希尔伯特空间上运行的核机器。

从数学的角度来看，放宽这里的假设，并在驱动输入信号是粗略路径的一般设置中工作会很有趣，输入信号的规律性可能会发挥重要作用。人们还可以通过采用此处开发的技术来研究 SRNN 如何响应输入信号和噪声驱动（正则化）中的扰动。到目前为止，我们一直专注于介绍中提到的“公式化优先”方法。这里获得的结果表明，可以通过设计有效的算法来利用离散化响应特征和相关特征在涉及时间数据的机器学习任务中的使用，来研究”离散化的下一步”，例如在科学与工程中预测由复杂动力系统产生的时间序列。

结论

本文来自心已碎♂无心醉投稿，不代表舒华文档立场，如若转载，请注明出处：https://www.chinashuhua.cn/24/627341.html