![深度学习原理与应用](https://wfqqreader-1252317822.image.myqcloud.com/cover/232/37669232/b_37669232.jpg)
2.1 线性代数
2.1.1 矩阵
矩阵(matrix)是将一个集合中的元素按如下形式组成的一个矩形阵列:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-26-1.jpg?sign=1738845695-ODk3FQkaWn5XmbxseJz6HB5WMtOw7hxY-0-3d03d1d9168a00cd1530751045823fc0)
其中,元素aij以是数字,也可以是函数,阵列中横的一排称为“行”,竖的一列称为“列”。数字m×n表示这个矩列具有m行n列,这也称为矩阵的阶数。如果行中所含元素与列中所含元素相同,即m=n,这个矩阵称为方阵。
所有元素均为0的矩阵称为零矩阵。
1. 矩阵的加法
两个m×n矩阵A和B的加法定义为:其阵列中对应位置上的元素相加:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-26-2.jpg?sign=1738845695-Eq8koegp3RSG1fWMgo977NFn3elNFPFA-0-098f8ee3cd7d9e472a00979e3241c77b)
矩阵加法具有以下性质:
交换律:A+B=B+A
结合律:(A+B)+C=A+(B+C)
负矩阵的存在:对于任意一个矩阵A,都存在一个负矩阵-A,使得A+(−A)=0
由此定义矩阵的减法为:A−B=A+(−B)
2. 矩阵的标量乘法
标量λ与矩阵A的乘积定义为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-27-1.jpg?sign=1738845695-1wygQlOisKS4iQRuXuKQ9lEUVFzWn75H-0-9aac88e0e4112be5627923fa81653111)
矩阵标量乘法具有以下性质(λ,μ为标量):
结合律:(λμ)A=v(μA)
分配律:(λ+μ)A=λA+μA
λ(A+B)=λA+λB
3. 矩阵的乘法
设A=(aij)是阶数为m×r的矩阵,B=(bij)是阶数为r×n的矩阵,定义矩阵A与矩阵B的乘积是一个阶数为m×n的矩阵C=(cij),其中
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-27-2.jpg?sign=1738845695-3wFXZy7hBjxrZdArPM5BjeAEdmbZE5YG-0-106a449cc861dbf79ade2453322d08a0)
此矩阵乘法记为
C=AB
可以用下图表示矩阵乘法:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-27-3.jpg?sign=1738845695-0UCnbPPsNmN2u6Sdlq2ELeY75hykVOaq-0-90344af9b1fb0185e4c5173754de3047)
矩阵乘法具有以下性质:
结合律:(AB)C=A(BC)
分配律:λ(AB)=(λA)B=A(λB)
A(B+C)=A B+AC, (B+C)A=B A+CA
单位矩阵的存在:方阵I称为单位矩阵,满足仅在对角线上的元素为1,其余为0,对于任意矩阵Am×n,有
Am×nIn=Am×n, ImAm×n=Am×n
矩阵乘法一般不满足交换律:AB≠BA,只有单位矩阵与其他矩阵相乘时才满足交换律:AI=IA。
只有具有相容阶数的两个矩阵才能相乘。所谓相容阶数,是指第一个矩阵的列数与第二个矩阵的行数相等,即:Am×r×Br×n=Cm×n
4. 转置矩阵
把矩阵A的行换成同序数的列所得到的新矩阵称为A的转置矩阵,记作
AT=[aij]T=[aji]
5. 逆矩阵
对于n阶方阵A,如果存在一个n阶矩阵B,使得
AB=BA=I
那么,称矩阵A是可逆的,矩阵B称为A的逆矩阵,记作A−1。
矩阵的转置运算和矩阵逆运算的规律有些相似和关联,见表2-1:
表2-1 矩阵的转置运算和逆运算
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-28-1.jpg?sign=1738845695-SA41a3ax49qoJKm28mYvt2Q6WCM3Di1F-0-7ee7261956835707ef6990d20f114a6d)
6. 正定矩阵
对于一个n×n的对称矩阵A,如果对于所有的非零向量,都满足:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-28-3.jpg?sign=1738845695-bu6FzbqjxtVrlfs6JijrzxckL6Qpk4Tr-0-97f84397a5d102cc9c819f79139d4328)
则称A为正定矩阵。
如果:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-28-4.jpg?sign=1738845695-XcaQnpQU3vyTmtdOMDBQ9GFVG8h9jewx-0-f989cf73a5e983967aeee7976a21e8f1)
则称A是半正定矩阵。
如果:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-28-5.jpg?sign=1738845695-B22niZPXAszFXXVsBg7mvBUISVRAM2kM-0-2f1aebef66628e8999ee2c2e8398776f)
则称A是负定矩阵。
7. 线性变换与矩阵的关系
如果将一个m×n矩阵Am×n与一个n×1的列向量相乘,其结果是一个m×1的列向量
:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-28-8.jpg?sign=1738845695-rvp7IquPy8oDfYqyJtZUAWwynNbB5hlG-0-0595e6693792766d50e937128de95a84)
上述公式实际上是将列向量通过矩阵A变换成另一个列向量
。因此,矩阵A是向量空间映射到另一个向量空间的函数。由于矩阵运算具有线性性,即:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-28-11.jpg?sign=1738845695-bJ6WIQo5nL7mExvwTvx3sKiZbacihXIZ-0-f260a370da92c1f23edc85d5213aa915)
因此,可以将矩阵A看作向量和向量v之间的一个线性变换:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-29-2.jpg?sign=1738845695-7uqizBy8Xjfu7oa3egHeEnLPscJavBZ4-0-6b395e1a3946e2697022bdcd7afa57d8)
如果矩阵A是一个方阵,经过矩阵A的线性变换后,向量的维数保持不变。有一类向量非常值得研究,这类向量经过线性变换A后,仅改变向量度,向量的方向保持不变或成反方向。这类向量称为线性变换A的特征向量,用数学表示:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-29-3.jpg?sign=1738845695-5kYiQBgV3VpGVZN4LjHbnJpSw6Uw0lQi-0-a9d18d7e9562f7b5e75188a6c166abae)
数值λ称为特征值。如果λ>1,特征向量长度变长,方向保持不变;如果0<λ<1,特征变量长度变短,方向保持不变;如果λ<0,特征向量变成了反方向。
对于行向量,只要将矩阵左乘,可以得到类似的结果:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-29-4.jpg?sign=1738845695-6WYu9GA3OweDTSSpftPizoP3QWXG9TnM-0-4f40af969649accadd28e4489cea21db)
在三维空间中,习惯用行向量(x, y, z)表示空间中的一个点位置,所以,三维空间中的坐标变换使用矩阵左乘的方式。下面给出常见的平移变换(Translation Transformation)、缩放变换(Scaling)、旋转变换(Rotation)对应的矩阵。
8. 平移变换
将三维空间中的一个点(x, y, z)移动到另外一个点(x′, y′, z′),三个方向的位移分别是Tx, Ty, Tz。用方程式表示新旧点的坐标关系为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-29-5.jpg?sign=1738845695-TztYSSHnr9Mbh4dJhL6KJgloELiGHI98-0-55c5e95205bbf1b7defffba96c1a9e0d)
如果用3×3矩阵表示平移变换是不可能的,因为
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-29-6.jpg?sign=1738845695-U2VT34KEcPcDq3KeeqvvuNqPbX0C3qgb-0-f64f145d6d709fba5b339b949a752b29)
所以需要引入4×4矩阵,平移变换的矩阵形式如下:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-29-7.jpg?sign=1738845695-Hfte3YSn6TM68hSSyuVZuvFT3DgpT8Ww-0-2859189d3aa7a14f021bd57596f7676e)
9. 缩放变换
对空间中的点(x, y, z)依次按x轴、y轴、z轴方向分别缩放Sx、Sy、Sz倍,缩放变换的矩阵形式如下:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-30-1.jpg?sign=1738845695-1gWkpJB0Uorr2Yr8O4NN3ibyIfLOW2zs-0-90c67f6370b1c6d271ab2343d7c7b7a4)
10. 旋转变换
这里仅给出绕坐标轴旋转的矩阵变换公式,绕任意轴的旋转变换最多需要连续做三次绕坐标轴的旋转变换。统一为按顺时针方向旋转角度θ,下面依次绕x轴、y轴、z轴进行旋转变换。
绕x轴旋转时,点的x坐标不发生变化,y坐标和z坐标绕x轴旋转θ度。绕x轴旋转变换的矩阵形式如下:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-30-2.jpg?sign=1738845695-04BBzvlQt8rfxLVrTCEfHhSeL23dLLct-0-0b15d47883d27245f56ac24483536f01)
绕y轴旋转变换的矩阵形式如下:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-30-3.jpg?sign=1738845695-FS0CVhWAALR1ArsFdTWA9dySheG9fb3E-0-ca44b00736822d23eca91ac4ce58efc7)
绕z轴旋转变换的矩阵形式如下:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-30-4.jpg?sign=1738845695-Pzd6B6lQV01etfcVflJVzgnh4Q6BVRjt-0-b1be853c07821836795304e56cf31e24)
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-31-1.jpg?sign=1738845695-feP3uhYy7uUoKMDHoYOdGq8A7x7uaph7-0-941011f1bc47ecab7470eb7ec165eb94)
11. 相似矩阵与对角矩阵
设A, B是n阶矩阵,若存在可逆矩阵P,使P−1AP=B,则称B是A的相似矩阵,也称合同矩阵,记为A~B。
定理:若n阶矩阵A与B相似,则A与B的特征多项式相同,也即有相同的特征值。
对角矩阵是比较简单的矩阵,它的特征值就是所有对角线上的元素。即矩阵Λ:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-31-2.jpg?sign=1738845695-vhkHNtiLuuNIsWKrKek1ZM3Gtr9uw0ak-0-5989c4dc5bc29619f0bd99c4962d4369)
的特征值就是λ1, λ2, …, λn。
于是,如果有矩阵与对角矩阵相似,那么,对角矩阵的对角线上元素就是这个矩阵的特征值。
矩阵可对角化条件:
定理:n阶矩阵A与对角矩阵相似(即A能对角化)的充分必要条件是A有n个线性无关的特征向量。
2.1.2 向量
1. 向量定义及基本运算
在欧氏空间中,可以把向量看作具有方向和长度的一个量,在二、三维空间中,向量可以看成一个有向线段。
向量的数学定义为n个有序数a1, a2, …, an所组成的一个数组,n为向量的维数,数组中的第i个元素ai称为向量
的第i个分量。这个数组可以有以下两种书写形式:
列向量形式:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-31-5.jpg?sign=1738845695-sAT3Cmhc6PkSvUZ1w9IYeN914agZ6Yad-0-2fa4fa1133707ab41b5beaf29dc5d0f6)
行向量形式:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-31-6.jpg?sign=1738845695-IhUL65aKcBzPg72VPHfDkG4vtyMhJCz3-0-7fed4237e149ff74253621eed1a5bbbb)
向量的运算规则:可以将一个n维向量的列形式看成一个n×1的矩阵,行形式看成一个1×n的矩阵。于是,向量的运算规则就与矩阵的运算规则一样了。
向量a的长度定义为向量自身标量积的开根号:
在欧氏空间中,如果两个向量的标量积为0,则称这两个向量垂直(或称正交)。零向量与任何向量垂直。
需要注意的是,向乘法有标量积和向量积两种,标量积的运算结果是标量,向量积的运算结果仍然是一个向量。
标量积公式为:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-32-2.jpg?sign=1738845695-x9xuhpxiRVUpaBxYXz9oT6phu0G62gxS-0-2a643515fafd30351c086fdcbdb182ec)
向量积运算结果是一个向量,其长度为:
,θ是向量
,
之间的夹角,方向是3个,
构成的右手系。结果向量
的方向垂直于向量
,
所决定的平面,
的指向按右手规则从
转向
来确定。
2. 向量空间
向量空间是一个非空集合,在这个集合上对于向量的加法和标量乘法两种运算封闭。所谓封闭是指任何运算结果仍然在这个集合中。
如果一个向量集中的每个向量都不能表示成其他向量的线性组合,则该向量集是线性独立的。用数学表示就是:
对于一个向量集,如果如下的线性组合:
![](https://epubservercos.yuewen.com/1C3CAC/19938710901521806/epubprivate/OEBPS/Images/40421-00-32-15.jpg?sign=1738845695-D3ffnf65F76XoExmyiqEKn5XYZbzdutg-0-851ece214569aff93f43ce07e2773620)
只有在c1=c2=…=cn=0时才能成立,就说这n个向量是线性独立的。