机器学习线性模型推导计算
<p>本篇笔记总结了最基本,同时也是推导比较容易理解的机器学习中线性模型的部分。</p><p>许多非线性模型也是在线性模型的基础上做了结构等方面的补充和引入。</p>
<p>本笔记随学习进度的跟进将持续更新:)</p>
<p><strong>基本形式</strong></p>
<p></p><div class="math display">\[f(\bf{x}) = \bf{\omega^T x + b}
\]</div><p></p><h3 id="线性回归">线性回归</h3>
<p><strong>主要内容:主要是学得<span class="math inline">\(\omega\)</span>和b的值,而这是通过衡量f(x)和y之间的关系</strong><br>
衡量标准:性能度量指标“均方误差”,即目的是最小化目标值:<span class="math inline">\((\omega^{*}, b^{*})=\argmin\limits_{(\omega, b)}\sum\limits_{i=1}\limits^{m}(f(x_{i})-y_{i})^2\)</span></p>
<p>而该目标的求解方法即为用途广泛的“最小二乘法”,我们这里不妨设<span class="math inline">\(E(\omega, b)\)</span>为关于<span class="math inline">\(\omega\)</span>和$ b$的凸函数来保证有最优解:</p>
<p>最小二乘的参数推导:<span class="math inline">\(E(\omega, b)\)</span>对<span class="math inline">\(\omega\)</span>和<span class="math inline">\(b\)</span>进行求导,令偏导为0即可求得 <span class="math inline">\(\omega\)</span>和<span class="math inline">\(b\)</span>的最优解</p>
<p></p><div class="math display">\[\frac{\partial E(\omega, b)}{\partial \omega } = 2\Bigg(\omega\sum_{i=1}^{m}x^2_i-\sum_{i=1}^{m}(y_i-b)x_i\Bigg)
\]</div><p></p><p></p><div class="math display">\[\frac{\partial E(\omega, b)}{\partial b } = 2\Bigg(mb-\sum_{i=1}^{m}(y_i-\omega x_{i})\Bigg)
\]</div><p></p><p>得到</p>
<p></p><div class="math display">\[\omega=\frac{\sum_{i=1}^{m} y_i(x_i-\overline{x})}{\sum_{i=1}^{m}x_i^2-\frac{1}{m}\big(\sum_{i=1}^{m} x_i\big)^2}
\]</div><p></p><p></p><div class="math display">\[b=\frac{1}{m}\sum_{i=1}^{m}(y_i-\omega x_i)
\]</div><p></p><p>至此我们完成了特殊的一维特征<span class="math inline">\(x\)</span>的模型参数,遂而构建了开始所描述的模型。</p>
<h3 id="多元线性回归">多元线性回归</h3>
<p>即较为一般的多维特征的数据<span class="math inline">\(x_i\)</span>,类似的我们也使用最小二乘法,我们的性能度量还是均方误差<br>
首先是要区分<span class="math inline">\(x\)</span>和<span class="math inline">\(X\)</span>的区别:</p>
<p>我们把<span class="math inline">\(X\)</span>看作一个<span class="math inline">\(x\)</span>的增广矩阵,包含了<span class="math inline">\(m\)</span>行<span class="math inline">\(d+1\)</span>列的元素,最后一列置为一保留截距<span class="math inline">\(\omega_0\)</span></p>
<p>重点是:<span class="math inline">\(\omega^T x_i = x_i^T \omega\)</span>,由于这两个向量均可变为一维的行列向量,所以手算可证得这两个相等</p>
<p>证明后,我们的最小化目标:<span class="math inline">\(\hat{\omega}^{*}=\argmin\limits_{\hat{\omega}}(\bf{y}-{\bf{X\hat{\omega}}})^T(\bf{y}-{\bf{X\hat{\omega}}})\)</span> 就比较容易理解了<br>
矩阵作为一个映射,也对其进行凸分析,对其中<span class="math inline">\({\omega}\)</span>求偏导并且令该式(假设为<span class="math inline">\(E_{\hat{\omega}}\)</span>)为零得最优解</p>
<p></p><div class="math display">\[\frac{\partial E_{\hat{\omega}} }{\partial \hat{\omega} }=2\bf{X}^T(X\hat{\omega}-y)
\]</div><p></p><p>求导过程自学矩阵计算即可顺利解出</p>
<p>令<span class="math inline">\(\bf{X^TX}\)</span>为满秩或正定矩阵(保证其有唯一的解,即$\omega $的唯一存在)模型参数解 <span class="math inline">\(\omega^{*}=(\bf{X^TX})^{-1}X^Ty\)</span></p>
<p>通过算得的最小二乘估计参数从而构建对应的预测模型</p><br><br>
来源:https://www.cnblogs.com/Clematis068/p/18857710
頁:
[1]