向量，矩阵和张量的导数

https://zhuanlan.zhihu.com/p/142668996

前段时间看过一些矩阵求导的教程，在看过的资料中，尤其喜欢斯坦福大学CS231n卷积神经网络课程中提到的Erik这篇文章。循着他的思路，可以逐步将复杂的求导过程简化、再简化，直到发现其中有规律的部分。话不多说，一起来看看吧。

撰文 | Erik Learned-Miller

翻译 | 写代码的橘子

来源 | 橘子AI笔记（ID：datawitch）

本文旨在帮助您学习向量、矩阵和高阶张量（三维或三维以上的数组）的求导方法，以及如何求对向量、矩阵和高阶张量的导数。

01. 简化，简化，再简化

在求关于数组的导数时，大部分困惑都源自于我们想要一次同时做好几件事。这“几件事”包括同时对多个元素求导、在求和符号下求导以及应用链式法则。至少在我们积累丰富的经验之前，想要同时做这么多件事情是很容易犯错的。

1.1 写出矩阵中单个元素的表达式

为了简化给定的计算，有一种方法是：写出输出中单个标量元素的表达式，这个表达式只包含标量变量。一旦写出了输出中单个标量元素与其他标量值的表达式，就可以使用标量的微积分求导方法，这比同时进行矩阵的求和、求导要容易得多。

例子假设我们有一个长度为C的列向量 $\vec y$ ，它是由 $C$ 行 $D$ 列的矩阵 $W$ 与长度为 $D$ 的向量 $\vec x$ 计算得到的：

式（1）

假设我们想求 $\vec y$ 对 $\vec x$ 的导数。完整的求导过程需要计算 $\vec y$ 中的每一个元素对 $\vec x$ 中的每一个元素的（偏）导数，在这种情况下，我们会算出 $C \times D$ 个元素，因为 $\vec y$ 中有 $C$ 个元素而 $\vec x$ 中有 $D$ 个元素。

让我们先从计算其中一个元素开始，比如， $\vec y$ 中的第3个元素对 $\vec x$ 中的第7个元素求导。也就是说，我们要计算

也就是一个标量对另一个标量求导。

在求导之前，我们要先写出 $\vec y_{3}$ 的表达式。根据矩阵-向量乘法的定义，矩阵 $W$ 的第3行与向量 $\vec x$ 的点积就是 $\vec y_{3}$ 的值。

式（2）

此时，我们已经将原始矩阵方程式（1）简化为了一个标量方程，从而更容易计算所需的导数。

1.2 去掉求和符号

虽然我们可以尝试直接求式（2）的导数，但包含求和符号（ $\sum$ ）或连乘符号（ $\prod$ ）的表达式在求导时很容易出错。为了确保万无一失，在刚开始的时候最好去掉求和符号，把各项相加的表达式写出来。我们可以写出以下表达式，下标由“1”开始

当然，这个表达式中包括了含有 $\vec x_{7}$ 的项，这一项正是我们求导需要的项。现在不难看出，在求 $\vec y_{3}$ 对 $\vec x_{7}$ 的偏导数时，我们只关心这个表达式中的一项， $W_{3,7}\vec x_{7}$ 。由于其他项都不包括 $\vec x_{7}$ ，他们对 $\vec x_{7}$ 的导数都是0。由此，我们写出

式（3）-式（6）

通过把关注点放在y中的一个元素对x中的一个元素的求导过程，我们尽可能地简化了计算。以后当你在矩阵求导计算中产生困惑时，也可以试着将问题简化到这个最基本的程度，这样便于看清哪里出了问题。

1.2.1 完成求导：雅可比矩阵

别忘了，我们的终极目标是计算 $\vec y$ 中每个元素对 $\vec x$ 中每个元素的导数，这些导数总共有 $C \times D$ 个。以下矩阵可以表示所有这些导数：

在这种特殊情况下，它被称为雅可比矩阵（Jacobian maxtirx），但这个术语对理解我们的目的而言并不那么重要。

注意，对于公式

$\vec y_{3}$ 对 $\vec x_{7}$ 的偏导数可以简单地用 $W_{3,7}$ 来表示。如果挨个儿检查整个矩阵中的所有元素，就不难发现，对所有的 $i$ 和 $j$ 来说，都有

也就是说，偏导数的矩阵可以表示为

现在可以看出，这个矩阵当然就是矩阵 $W$ 本身。

因此，推导了这么半天，我们终于能得出，对

求 $\vec y$ 对 $\vec x$ 的导数相当于

2. 如果是行向量该怎么算

在使用不同的神经网络库时，留意权重矩阵、数据矩阵等矩阵的具体表达形式是非常重要的。例如，如果一个数据矩阵 $X$ 包含许多不同的向量，那么，在这个矩阵中，是一个行向量表示数据集中的一个样本，还是一个列向量表示一个样本？

在第一部分的例子中，我们计算的向量 $\vec x$ 是一个列向量。然而，当 $\vec x$ 是行向量的时候你也得明白该怎么算。

2.1 第二个例子

假设 $\vec y$ 是含有 $C$ 个元素的行向量，它是由含有 $D$ 个元素的行向量 $\vec x$ 与 $D$ 行 $C$ 列的矩阵 $W$ 计算得到的：

虽然 $\vec y$ 和 $\vec x$ 中的元素数量都和之前一样，但矩阵 $W$ 的形状相当于我们在第一个例子中使用的矩阵 $W$ 的转置（transpose）。尤其是因为我们现在是矩阵 $W$ 左乘 $\vec x$ ，而不是之前的右乘，现在的矩阵 $W$ 必须是第一个例子中矩阵 $W$ 的转置。

在这个例子中，写出 $\vec y_{3}$ 的表达式

会得到

注意这个例子中的元素序号与第一个例子中相反。如果写出完整的雅可比矩阵，我们仍然可以得出

式（7）

3. 超过二维的情形该怎么算

现在假设一个与前两部分密切相关的情形，如下式

在这个情况下， $\vec y$ 沿一个坐标轴变化，而 $W$ 沿两个坐标轴变化。因此，整个导数自然会是一个三维数组。在这里，我们避免使用“三维矩阵”这样的术语，因为尚不清楚矩阵乘法和其他矩阵运算在三维数组中是如何定义的。

在处理三维数组的时候，尝试去找出展示它们的方法可能会带来不必要的麻烦。相反，我们应该简单地用表达式写出结果，用这些表达式可以计算出所需三维数组中的任何元素。

让我们继续以标量导数的计算开始，比如y中的一个元素 $\vec y_{3}$ 和 $W$ 中的一个元素 $W_{7,8}$ 。我们先用其他标量写出 $\vec y_{3}$ 的表达式，这个表达式还要体现出 $W_{7,8}$ 在其计算中所起的作用。

然而，我们发现 $W_{7,8}$ 在 $\vec y_{3}$ 的计算中没有起到任何作用，因为

式（8）

也就是说

不过， $\vec y_{3}$ 对 $W$ 中第3列元素求导的结果一定是非零的。例如 $\vec y_{3}$ 对 $W_{2,3}$ 的偏导数为

式（9）

其实仔细看式（8）就很容易发现这一点。

一般情况下，当 $\vec y$ 中元素的下标等于 $W$ 中元素的第二个下标时，这个偏导数就是非零的，反之则为零。我们由此写出：

除此以外，三维数组中的其他元素都是0。如果用 $F$ 表示 $\vec y$ 对 $W$ 求导得出的三维数组

其中

但是 $F$ 中的其他项都为0。

最终，如果我们定义一个新的二维数组 $G$

就可以看出，我们需要的所有关于 $F$ 的信息实际上都可以用 $G$ 来储存，也就是说， $F$ 的非零部分其实是二维的，而不是三维的。

以紧凑的形式表示导数数组对于神经网络的高效实现而言至关重要。

4. 有多条数据该怎么算

前面的例子已经是很好的求导练习了，但如果需要用到多条数据，也就是多个向量 $\vec x$ 堆叠在一起构成矩阵 $X$ 时，又该如何计算呢？我们假设每个单独的 $\vec x$ 都是一个长度为 $D$ 的行向量，矩阵 $X$ 是一个 $N$ 行 $D$ 列的二维数组。而矩阵 $W$ ，和之前的例子一样，是一个 $D$ 行 $C$ 列的矩阵。 $Y$ 的定义如下