线性回归

1.一个简化模型

y = w_1x_1 + w_2x_2 + w_3x_3 + b

权重和偏差的实际值在后面决定

\mathbf{w} = [w_1, w_2, \dots, w_n]^T, \quad b

y = w_1x_1 + w_2x_2 + \dots + w_nx_n + b

y = \langle \mathbf{w}, \mathbf{x} \rangle + b

比较真实值和我们的预测值，例如真实房价和预测房价
假设 $y$ 是真实值， $\hat{y}$ 是估计值，我们可以通过损失 $\mathcal{L}(y, \hat{y}) = \frac{1}{2} (y - \hat{y})^2$

这个叫做平方损失函数

假设我们有 $n$ 个样本，记

\mathbf{X} = [x_1, x_2, \dots, x_n]^T

\mathbf{Y} = [y_1, y_2, \dots, y_n]^T

训练损失定义
$\mathcal{L}(\mathbf{X}, \mathbf{y}, \mathbf{w}, b) = \frac{1}{2n} \sum_{i=1}^{n} (y_i - \langle \mathbf{x}_i, \mathbf{w} \rangle - b)^2 = \frac{1}{2n} \| \mathbf{y} - \mathbf{Xw} - b \|^2$
最小化损失来学习参数
$\mathbf{w}^*, b^* = \arg \min_{\mathbf{w}, b} \mathcal{L}(\mathbf{X}, \mathbf{y}, \mathbf{w}, b)$

将偏置项加入模型
$\mathbf{X} \gets [\mathbf{X}, \mathbf{1}] \quad \mathbf{w} \gets \begin{bmatrix} \mathbf{w} \\ b \end{bmatrix}$ $\mathcal{L}(\mathbf{X}, \mathbf{y}, \mathbf{w}) = \frac{1}{2n} \| \mathbf{y} - \mathbf{Xw} \|^2$ $\frac{\partial}{\partial \mathbf{w}} \mathcal{L}(\mathbf{X}, \mathbf{y}, \mathbf{w}) = -\frac{1}{n} (\mathbf{y} - \mathbf{Xw})^T \mathbf{X}$
找最低点来求解，所以导数设置为0
$-\frac{1}{n} (\mathbf{y} - \mathbf{Xw})^T \mathbf{X} = 0$ $\mathbf{w}^* = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}$