矩阵求导术(一)— 矩阵向量求导定义和布局
求导定义和求导布局:
-
向量矩阵求导 – 本质:多元函数求导,将函数的自变量、因变量、标量求导的结果,排列成了向量矩阵的形式(便于表达和计算)【x:标量;x:向量;X:矩阵;y:标量;y:向量;Y:矩阵】
-
根据自变量或因变量是标量,向量还是矩阵,矩阵求导定义如下(可能有9种情况)
自变量/因变量 |
标量y |
向量y |
矩阵Y |
标量x |
|||
向量x |
|||
矩阵X |
- 向量对标量求导的结果还是相同维度的向量,同时理论上结果向量是行向量和列向量均可,但是在机器学习算法优化过程中,如果不统一,则可能会出现混乱的情况,为了解决这个问题(矩阵向量求导的结果不唯一),引入了矩阵向量求导布局概念
- 基本的求导布局有两个:分子布局(求导结果以分子的维度为主)和分母布局(求导的结果以分母的维度为主),两者的区别只是差一个转置
-
对于以上情况中:向量或矩阵对标量求导,分子布局中,结果的维度与分子相同,比如列向量对标量求导,则结果即为列向量,分母布局则对分子布局进行转置即可;标量对向量或矩阵求导类似,分母布局中,结果维度与分母相同,分子布局的结果是对分子布局结果转置即可;向量对向量求导,求导结果为一个矩阵,分子布局中,矩阵的行维度与分子相同,反之,分母布局则与分母向量的维度保持一致
-
向量对向量求导举例,m维列向量对n维列向量求导,分子布局,求导结果矩阵维度为mxn,一般叫做雅各比矩阵,分母布局为nxm,一般叫做梯度矩阵,部分资料上会通过以下公式定义雅各比矩阵和梯度矩阵
- 在机器学习算法优化过程中,使用什么布局方式被隐含了,一般来说,采用混合布局的思路
- 混合布局:向量或矩阵对标量求导,采用分子布局;标量对向量或矩阵求导,采用分母布局;向量对向量求导,有些分歧,本系列文章中均使用雅各比矩阵,即分子布局
- 以上布局思路都是人为认定的,不同的资料有不同的布局方式,只要在一类求导方式中确定一种布局思路即可,比如一个多项式中,如果前面向量对向量求导使用了雅各比矩阵,那么后续向量对向量求导都需要使用分子布局方式
本文参考刘建平老师的博客:https://www.cnblogs.com/pinard/p/10750718.html
版权声明:本文为WMT-Azura原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。