C# 入门深度学习:万字长文讲解微积分和梯度下降
<p>教程名称:使用 C# 入门深度学习</p><p>作者:痴者工良</p>
<p>地址:</p>
<p>https://torch.whuanle.cn</p>
<p></p><div class="toc"><div class="toc-container-header">目录</div><ul><li>微积分<ul><li><ul><li>极限</li><li>导数<ul><li>求导公式</li><li>乘除求导例题</li><li>复合函数求导的链式法则</li><li>Sigmoid 函数的导数</li><li>求最小值问题</li></ul></li><li>微分</li><li>积分</li><li>偏导数<ul><li>多元函数定义域</li><li>多元函数的值</li><li>多元函数的极限</li><li>偏导数</li><li>全微分</li><li>偏导数求最小值</li><li>拉格朗日乘数法</li></ul></li><li>梯度<ul><li>方向导数</li><li>梯度</li><li>梯度下降法的基本公式</li><li>哈密算子 <span class="math inline">\(\bigtriangledown\)</span></li><li>梯度下降法求最小值的近似值</li></ul></li></ul></li></ul></li></ul></div><p></p>
<h1 id="微积分">微积分</h1>
<p>由于学习微积分需要一定的基础知识,但是由于本教程不是数学书,所以不能一一详细介绍基础知识,读者需要自行了解学习初等函数、三角函数等基础知识。</p>
<h3 id="极限">极限</h3>
<p>极限的符号是 <span class="math inline">\(\lim\)</span> ,在高等数学中,主要是数列极限和函数极限,限于篇幅,本文只讨论函数存在极限时的一些情况。</p>
<p>数学上有正无穷大( <span class="math inline">\(+\infty\)</span> )和负无穷大( $ -\infty $ )的概念,大家都知道无穷大的意思,但是比较容易理解错无穷小、负无穷大,<strong>无穷小指的是无限接近 0,而不是负数的无穷大。</strong></p>
<br>
<p>举个例子你就明白了,当 $ x \to + \infty$ 时, <span class="math inline">\(\frac{1}{x}\)</span> 的值,我们都知道 x 越大, <span class="math inline">\(\frac{1}{x}\)</span> 越小,但是不可能为 0,只能越来越接近于 0。</p>
<br>
<p>求解极限,一般会碰到这几种情况,当 x 无穷大时,y 是多少。</p>
<p>例如下图所示,当 x 无穷大时,y 逐渐贴近 x 轴,即 y 越来越接近,我们使用 <span class="math inline">\(y\to 0\)</span> 表示趋近于 0 或者说接近 0。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834293-1555586835.png" alt="image-20241110092447001" loading="lazy"></p>
<blockquote>
<p>图片来自《高等数学上册》第一章第三节函数极限的定义与计算,同济大学数学系编著。</p>
</blockquote>
<br>
<p>所以:</p>
<p></p><div class="math display">\[\lim_{x \to \infty} f(x) = \lim_{x \to \infty} \frac{1}{x} = 0
\]</div><p></p><p>使用 <code>C#</code> 表示时,我们使用一个极大的数表示无穷大。</p>
<pre><code class="language-csharp">var x = torch.tensor(double.MaxValue);
var y = 1 / x;
var lim = (int)y.item<double>();
Console.WriteLine(lim);
</code></pre>
<br>
<p>上面使用了 <code>y.item<double>()</code> 将张量转换为标量,我们也可以使用函数 <code>y.ToScalar().ToInt32();</code> 转换。</p>
<br>
<p>再比如下图所示,当 x 无穷大时,y 越来越接近 <span class="math inline">\(\frac{\pi}{2}\)</span> ,所以 :</p>
<p></p><div class="math display">\[\lim_{x \to +\infty} \arctan x = \frac{\pi}{2}
\]</div><p></p><p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834449-1245046686.png" alt="image-20241110092718306" loading="lazy"></p>
<blockquote>
<p>图片来自《高等数学上册》第一章第三节函数极限的定义与计算,同济大学数学系编著。</p>
</blockquote>
<br>
<p>上面求极限时,是当 $\lim_{x \to \infty} $ 或 $\lim_{x \to 0} $ 时的情况,在实际中更多的是给出某点,求其极限,例如:</p>
<p></p><div class="math display">\[\lim_{x \to x_{0}} f(x) = \lim_{x \to x_{0}} \frac{1}{x}
\]</div><p></p><br>
<p>当 <span class="math inline">\(x=1\)</span> 时,我们直接计算其实可以得到 <code>y=1</code>,极限就是 1,或者换句话来说,我们求一个函数在 <span class="math inline">\(x_{0}\)</span> 的极限时,如果你可以直接计算出 <span class="math inline">\(y_{0}\)</span> 的值,那么这个值就是该点的极限。</p>
<p>这种函数计算极限很简单,因为可以直接通过 <span class="math inline">\(y=f(x)\)</span> 计算出来。</p>
<br>
<p>下面这道题是也是同济大学《高等数学上册》中的两道题。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834489-1905607658.png" alt="image-20241110095607086" loading="lazy"></p>
<br>
<p>当 x 解决 0 时,分子是 0,0 除以任何数都是 0,所以极限是 0?肯定不是呀。</p>
<p>当碰到这种 <span class="math inline">\(x\to0\)</span> 分子或分母为 0 的情况,就不能直接计算了。这两道题的解答过程:</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834699-493944997.png" alt="image-20241110095620201" loading="lazy"></p>
<p><br>由于本文不是数学教程,因此这里不再深入讨论细节。</p>
<p>在高等数学中,有两种非常重要的极限:</p>
<p></p><div class="math display">\[\lim_{x \to 0} \frac{\sin x}{x} = 1 ,x \in (0,\frac{\pi }{2})
\]</div><p></p><p></p><div class="math display">\[\lim_{x \to 0} (1 + x)^{\frac{1}{x}} = e
\]</div><p></p><br>
<h3 id="导数">导数</h3>
<p>给定一个函数,如何计算函数在某个区间上的变化率?</p>
<p>如图所示,函数 <span class="math inline">\(y = x^{2}\)</span> 在区间 <span class="math inline">\(\)</span> 的起点 A 和 终点 B。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834586-726823785.png" alt="image-20241110102423654" loading="lazy"></p>
<p>那么平均变化率就是:</p>
<p></p><div class="math display">\[\frac{\bigtriangleup y}{\bigtriangleup x} = \frac{9-1}{3-1} = \frac{8}{2} = 4
\]</div><p></p><br>
<p>但是当这个 <span class="math inline">\(\bigtriangleup{x}\)</span> 或 <span class="math inline">\(\bigtriangleup{y}\)</span> 非常小时,事情就会变得非常复杂。如果我们要求 <span class="math inline">\(x=9\)</span> 附近的平均变化率,则:</p>
<p></p><div class="math display">\[\frac{y + \bigtriangleup y}{x+ \bigtriangleup x} = \frac{9 + \bigtriangleup y}{3 + \bigtriangleup x}
\]</div><p></p><br>
<p>当 <span class="math inline">\(\frac{\bigtriangleup y}{\bigtriangleup x}\)</span> 非常小时,实际上反映了函数在 <span class="math inline">\(x=9\)</span> 时的瞬时变化率。那么这个瞬时变化率,我们可以过 A、B 点使用切线表示。</p>
<p>切线是轻轻接触函数一点的一条线,由图可知,当 x 越来越大时, <span class="math inline">\(y_{2} = x+1\)</span> 比 <span class="math inline">\(y_{1} = x\)</span> 大很多,比如 <span class="math inline">\(5^2\)</span> 、 <span class="math inline">\(4^{2}\)</span> 、 <span class="math inline">\(3^{2}\)</span> 之间的差,越来越大。</p>
<p>那么切线可以反映这种变化率。如图所示,B 点的切线角度比 A 的的切线大。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834577-1793146710.png" alt="image-20241110103552859" loading="lazy"></p>
<br>
<p>因此,出现了一种新的函数,叫原函数的导函数,简称导数,导数也是一个函数,通过导数可以计算原函数任一点的瞬时变化率。</p>
<p>导数的表示符号有多种,例如:</p>
<p></p><div class="math display">\[\frac{\bigtriangleup y}{\bigtriangleup x} = f'(x) = y' = \frac{dy}{dx} = \frac{df(x)}{x}= \frac{df}{x}
\]</div><p></p><blockquote>
<p>d 是微分符号,例如 dy 是对 y 的微分,dx 是对 x 的微分。</p>
</blockquote>
<p><br>如果要求在某点 <span class="math inline">\(x_{0}\)</span> 的瞬时变化率,则:</p>
<p></p><div class="math display">\[\frac{\bigtriangleup y}{\bigtriangleup x} \big|_{x_{0}} = f'(x)\big|_{x_{0}} = y'\big|_{x_{0}} = \frac{dy}{dx}\big|_{x_{0}} = \frac{df(x)}{x} \big|_{x_{0}} = \frac{df}{x} \big|_{x_{0}}
\]</div><p></p><p><br>读者应该都有一定的数学基础吧,前面两种应该很容易理解,而后面三种也很重要,在积分和微积分的学习中,我们将会大量使用这种方式。</p>
<p>我们可以这样理解:</p>
<p></p><div class="math display">\[dy = \bigtriangleup y
\]</div><p></p><p></p><div class="math display">\[dx = \bigtriangleup x
\]</div><p></p><br>
<p>在 Pytorch 中,我们可以通过微分系统进行计算,例如我们要计算 <span class="math inline">\(d(x^2) \big|_{x=3}\)</span> 。</p>
<pre><code class="language-csharp">// 定义 y = x^2 函数
var func = (torch.Tensor x) => x.pow(2);
var x = torch.tensor(3.0, requires_grad: true);
var y = func(x);
// 计算导数
y.backward();
// 转换为标量值
var grad = x.grad.ToScalar().ToDouble();
Console.WriteLine(grad);
</code></pre>
<br>
<p>不要搞错,计算导数后,要使用 x 输出导数值,而不是使用 y,因为 y 是函数结果。为什么求导的时候不直接输出求导结果呢?因为 Pytorch 自动求导系统是非常复杂的,计算的是偏导数,对于一元函数来说,对 x 的偏导数就是 y 的导数,在后面的偏导数和梯度时,会更多介绍这方面的知识。</p>
<p>另外创建 x 的张量类型时,需要添加 <code>requires_grad: true</code> 参数。</p>
<br>
<h4 id="求导公式">求导公式</h4>
<p>下面是同济大学《高等数学》中的一些基本求导公式。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834617-1324601937.png" alt="image-20241110105635460" loading="lazy"></p>
<br>
<p>例如,我们求 <span class="math inline">\(y = x^2\)</span> 的导数,使用上图的 (2)式,得到 <span class="math inline">\(y = 2x\)</span>。</p>
<br>
<p>对于复合函数和复杂函数的求导会很麻烦,这里不再赘述。对于复杂的函数,还存在高阶导数,即导数的导数,二阶导数公式如下:</p>
<p></p><div class="math display">\[f''(x) = y'' = \frac{d^2y}{dx^2} = \frac{d^2f(x)}{x^2}= \frac{d^2f}{x^2}
\]</div><p></p><br>
<h4 id="乘除求导例题">乘除求导例题</h4>
<p>主要例题有乘法求导、商求导、指数求导几种。</p>
<p>① 求下面函数的导函数。</p>
<p></p><div class="math display">\[f(x) = e^x \cos x
\]</div><p></p><p>解:</p>
<p></p><div class="math display">\[\begin{align}
f'(x) &= (e^x \cos{x})' \\
&= (e^x)'\cos{x} + e^x (\cos{x})' \\
&= e^x \cos{x} - e^x \sin{x}
\end{align}
\]</div><p></p><br>
求下面函数的导数:
<p></p><div class="math display">\[y = \frac{x+1}{\ln x}
\]</div><p></p><p>解:</p>
<p></p><div class="math display">\[\begin{align}
y' &= \frac{(x+1)'\ln{x} - (x+1)(\ln{x})'}{(\ln{x})^2} \\
&= \frac{\ln{x} - (x+1) \frac{1}{x}}{(\ln{x})^2} \\
&= \frac{x \ln{x} -(x+1)}{x(\ln{x})^2}
\end{align}
\]</div><p></p><br>
<h4 id="复合函数求导的链式法则">复合函数求导的链式法则</h4>
<p>如果 <span class="math inline">\(y=f(u)\)</span> 在点 <span class="math inline">\(u\)</span> 处可导,<span class="math inline">\(u=g(x)\)</span> 在点 <span class="math inline">\(x\)</span> 出可导,则复合函数 <span class="math inline">\(y=f\)</span> 在点 <span class="math inline">\(x\)</span> 处可导,且有:</p>
<p></p><div class="math display">\[\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}
\]</div><p></p><br>
如果函数比较复杂,还可以推广到有限个复合函数的情况,例如:
<p></p><div class="math display">\[\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dv} \cdot \frac{dv}{dx}
\]</div><p></p><br>
<p>例题,求 <span class="math inline">\(y = e^{2x}\)</span> 的导函数。</p>
<p>设 <span class="math inline">\(u=2x\)</span> ,则:</p>
<p></p><div class="math display">\[y' = (e^u)' = e^u \cdot (u)' = e^{2x} \cdot (2x)' = 2e^{2x}
\]</div><p></p><br>
<h4 id="sigmoid-函数的导数">Sigmoid 函数的导数</h4>
<p>经过上面的学习,我们知道由复合函数求导公式可知:</p>
<p></p><div class="math display">\[\big (\frac{u}{v} \big )' = \frac{u' \dot v - u \dot v'}{v^2}
\]</div><p></p><br>
<p>所以对于 <span class="math inline">\(\big ( \frac{1}{f(x)} \big )'\)</span> 此类函数的求导,可得出:</p>
<p></p><div class="math display">\[\big ( \frac{1}{f(x)} \big )' = - \frac{f'(x)}{f(x)^2}
\]</div><p></p><br>
<p>Sigmoid 函数 <span class="math inline">\(σ(x)\)</span> 是神经网络中最有名的激活函数之一,其定义如下:</p>
<p></p><div class="math display">\[\sigma (x) = \frac{1}{1+e^{-x}}
\]</div><p></p><p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834402-1488927691.png" alt="image-20241114203340853" loading="lazy"></p>
<br>
在后面学习梯度下降时,需要对 Sigmoid 函数进行求导,使用下面的公式求导会比较方便:
<p></p><div class="math display">\[\sigma '(x) = \sigma (x)(1 - \sigma(x) )
\]</div><p></p><br>
当然,你也可以使用分数的求导方法慢慢推导。
<p></p><div class="math display">\[\begin{align}
\sigma '(x) &= (\frac{1}{1+e^{-x}})' \\
&= \frac{1}{1+e^{-x}} - \frac{1}{(1+e^{-x})^2} \\
&= \frac{1}{1+e^{-x}} (1 - \frac{1}{1+e^{-x}}) \\
&= \sigma (x)(1 - \sigma(x) )
\end{align}
\]</div><p></p><br>
<h4 id="求最小值问题">求最小值问题</h4>
<p>函数的斜率有一个性质,当函数的斜率为 0 时,该点 a 取得极值,即 <span class="math inline">\(f'(a) = 0\)</span> ,该点的切线平行于 x 轴。</p>
<p>画出 <span class="math inline">\(y = 3x^4 - 4x^3 - 12x^2 + 32\)</span> 的图形如下所示,由图可知分别在 <span class="math inline">\(x = -1\)</span> 、 <span class="math inline">\(0\)</span> , <span class="math inline">\(2\)</span> 三个点存在极值,此时斜率都是 0 ,其中当 <span class="math inline">\(x = 2\)</span> 时,函数取得最小值,该函数无最大值。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834502-839396449.png" alt="image-20241113213533007" loading="lazy"></p>
<br>
<p>那么如果给定一个函数,我们如果取得这个函数的所有极值和最小最大值?这里可以使用穿针引线法。</p>
<p>首先对函数进行求导并化简。</p>
<p></p><div class="math display">\[\begin{align}
y' &= (3x^4 - 4x^3 - 12x^2 + 32)' \\
&= 12x^3 - 12x^2 - 24x \\
&= 12x(x^2 - x - 2) \\
&= 12x(x + 1)(x - 2)
\end{align}
\]</div><p></p><br>
<p>由此可知,该函数在 <span class="math inline">\(x = -1,0,2\)</span> 三点的斜率为 0,然后分别计算在这三点的值,做出如下图所示。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834711-1022524541.png" alt="image-20241113215104872" loading="lazy"></p>
<br>
<p>然后计算导数在区间的正负,例如当 <span class="math inline">\(x<-1\)</span> 时,由于导数的结果是负数,所以 <span class="math inline">\(f(x)\)</span> 递减区间。根据导数的正负,确定 <span class="math inline">\(f(x)\)</span> 的递增递减区间,然后作出新的表格。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834741-1157618898.png" alt="image-20241113215631143" loading="lazy"></p>
<br>
<p>接下来就简单了,根据三个点的值,在坐标轴上描点,最后按照递减区间连线,因此最小值是 0。</p>
<blockquote>
<p>手画图不需要准确,主要是知道递增递减区间和极值就行。</p>
</blockquote>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834910-1489536517.jpg" alt="e951f1d6da6d09477880fc13f655b23" loading="lazy"></p>
<br>
<h3 id="微分">微分</h3>
<p>下面是同济大学《高等数学》中的一张图。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834541-1371890722.png" alt="image-20241110110700577" loading="lazy"></p>
<br>
<p>由图可知,在正方形 A 中,其面积是 <span class="math inline">\(A = (x_{0})^2\)</span> ,而大正方形的面积是 <span class="math inline">\((x_{0}+ \bigtriangleup x)^2\)</span> ,或者通过多个矩形面积相加得出大正方形面积为:</p>
<p></p><div class="math display">\[S = x_{0}^2 + 2x_{0} \bigtriangleup x + (\bigtriangleup x)^2
\]</div><p></p><br>
<p>那么,在边长增加了 <span class="math inline">\(\bigtriangleup x\)</span> 的时候,面积增加了多少呢?</p>
<p></p><div class="math display">\[\bigtriangleup S = 2x_{0} \bigtriangleup x + (\bigtriangleup x)^2
\]</div><p></p><br>
我们可以使用下面的公式来表示当 $y = f(x)$ 满足一定关系时,其增量的表达式:
<p></p><div class="math display">\[\bigtriangleup y = A \bigtriangleup x + O(\bigtriangleup x)
\]</div><p></p><br>
<p>前面在讲解导数时,我们知道 <span class="math inline">\(\bigtriangleup y =f(x + \bigtriangleup x) - f(x)\)</span> ,所以:</p>
<p></p><div class="math display">\[\bigtriangleup y =f(x + \bigtriangleup x) - f(x) = A \bigtriangleup x + O(\bigtriangleup x)
\]</div><p></p><br>
<p>当 <span class="math inline">\(\bigtriangleup x\)</span> 非常小时,并且 <span class="math inline">\(A \not= 0\)</span> 时,可以忽略 <span class="math inline">\(O(\bigtriangleup x)\)</span> ,我们使用 $A \bigtriangleup x $ 近似计算 $\bigtriangleup y $ 的值,这就是微分的定义,其中 <span class="math inline">\(A = f'(x)\)</span> 。</p>
<p></p><div class="math display">\[dy = f'(x)\bigtriangleup x
\]</div><p></p><br>
<p>举个例子,求 <span class="math inline">\(y = x^3\)</span> 在 <span class="math inline">\(x=1\)</span> 时, <span class="math inline">\(\bigtriangleup x = 0.01\)</span> 和 <span class="math inline">\(\bigtriangleup x = 0.001\)</span>的增量。</p>
<p>上题本质就是求 <span class="math inline">\(x = 1.01\)</span> 和 <span class="math inline">\(x = 1\)</span> 时<span class="math inline">\(\bigtriangleup y\)</span>以及<span class="math inline">\(x = 1.001\)</span> 和 <span class="math inline">\(x = 1\)</span> 时<span class="math inline">\(\bigtriangleup y\)</span>。</p>
<p>先求:</p>
<p></p><div class="math display">\[(1.01)^3 = 1.030301
\]</div><p></p><p></p><div class="math display">\[(1.001)^3 = 1.003003001
\]</div><p></p><br>
所以两个增量方便是 0.030301、0.003003001。
<br>
<p>但是如果只需要求近似值,那么我们使用微分方式去求,首先求出导数:</p>
<p></p><div class="math display">\[y' = dy = (x^3)' = 3x^2
\]</div><p></p><br>
所以:
<p></p><div class="math display">\[dy = 3x^2 \bigtriangleup x
\]</div><p></p><br>
<p>所以 <span class="math inline">\(\bigtriangleup x = 0.01\)</span> 时,有:</p>
<p></p><div class="math display">\[dy = 3*(1)^2 * 0.01 = 3 * 0.01 = 0.03
\]</div><p></p><br>
<p>所以 <span class="math inline">\(\bigtriangleup x = 0.001\)</span> 时,有:</p>
<p></p><div class="math display">\[dy = 3*(1)^2 * 0.001 = 3 * 0.001 = 0.003
\]</div><p></p><br>
<p>所以可以这样通过微分 dy 的方式近似计算函数的增量。</p>
<p>因为:</p>
<p></p><div class="math display">\[\bigtriangleup y = \frac{dy}{dx}
\]</div><p></p><br>
<p>我们使用 dy 近似代替 <span class="math inline">\(\bigtriangleup y\)</span> ,这就是微分的应用场景之一。</p>
<br>
<h3 id="积分">积分</h3>
<p>前面介绍了导数,我们知道 <span class="math inline">\(y = x^3\)</span> 的导数是 <span class="math inline">\(y = 3x^2\)</span>。</p>
<p>那么反过来,我们知道一个函数 <span class="math inline">\(F(x)\)</span> 的导数是 <span class="math inline">\(y=x^3\)</span> ,对于幂函数,我们很容易反推出 <span class="math inline">\(\frac{1}{4} x^4\)</span> 的导数是 <span class="math inline">\(x^3\)</span> ,但是<span class="math inline">\(\frac{1}{4} x^4 + 1\)</span> 、 <span class="math inline">\(\frac{1}{4} x^4 + 666\)</span> 的导数都是 <span class="math inline">\(x^3\)</span> ,所以 <span class="math inline">\(x^3\)</span> 的原函数是不确定的,所以反推得出的积分公式,又叫不定积分,我们使用 <span class="math inline">\(C\)</span> 来表示这个不确定的常数。</p>
<br>
<p>假设原函数是 F(x),导数是 <span class="math inline">\(f(x)\)</span> ,由于常数在求导时会被消去,所以求积分时,需要出现加上这个不确定的常数,所以:</p>
<p></p><div class="math display">\[\int f(x)dx = F(x) + C
\]</div><p></p><br>
下面是同济大学《高等数学》给出一些积分公式。
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834640-1777847502.png" alt="image-20241110135308642" loading="lazy"></p>
<br>
<p>前面介绍了微分的作用,这里也给出导数在平面中的简单应用场景。</p>
<br>
<p>如图所示,图中的是 <span class="math inline">\(y = x^2\)</span> 函数的封闭区域,和 <span class="math inline">\(x=0\)</span> 、 <span class="math inline">\(x=2\)</span> 两个直线围成了一个封闭区域,求 ABC 所围成的封闭区域的面积。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834570-726580208.png" alt="image-20241110140743986" loading="lazy"></p>
<br>
<p>首先求出其原函数为 <span class="math inline">\(y = \frac{1}{3}x^3\)</span> 。使用积分区间表示求解的面积:</p>
<p></p><div class="math display">\[\int_{1}^{2} x^2=\frac{1}{3}x^3 \big|_{1}^{2} =\frac{1}{3}2^3 - \frac{1}{3}1^3=\frac{7}{3}
\]</div><p></p><br>
<p>对于上面求解的问题,使用的是积分公式,如下公式所示,∫ 表示积分符号, <span class="math inline">\(f(x)\)</span> 表示被积函数, <span class="math inline">\(dx\)</span> 表示积分变量增量(微分), <span class="math inline">\(a\)</span> 和 <span class="math inline">\(b\)</span> 表示积分的下限和上限,即积分区间。</p>
<p></p><div class="math display">\[\int_{a}^{b} f(x) dx
\]</div><p></p><br>
下面再来一道简单的题目,求 $y = 2x+3$ 和 $y = x^2$ 所围成的面积。
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834517-681913910.png" alt="image-20241110143455304" loading="lazy"></p>
<br>
<p>首先要求得积分区间,即两者的两个交点,由 <span class="math inline">\(x^2=2x+3\)</span> 得:</p>
<p></p><div class="math display">\[x^2 - 2x -3 = 0
\]</div><p></p><br>
根据十字相乘法,得:
<p></p><div class="math display">\[(x + 1)(x - 3) = 0
\]</div><p></p><br>
<p>所以 <span class="math inline">\(x_{1} = -1\)</span> , <span class="math inline">\(x_{2} = 3\)</span>。</p>
<br>
<p>我们先求 <span class="math inline">\(y = 2x + 3\)</span> 在这两个点之间围成的面积。</p>
<p></p><div class="math display">\[\int_{-1}^{3} 2x+3 = x^2+3x \big|_{-1}^{3} = (9 + 9) - (1 - 3) = 20
\]</div><p></p><br>
<p>求 <span class="math inline">\(y = x^2\)</span> 在这两个点所围成的面积。</p>
<p></p><div class="math display">\[\int_{-1}^{3} x^2 = \frac{1}{3}x^3 \big|_{-1}^{3} = 9 - (-\frac{1}{3}) = 9 + \frac{1}{3}
\]</div><p></p><br>
<p>所以围成的面积是: <span class="math inline">\(20 - (9+\frac{1}{3}) = \frac{32}{3}\)</span> 。</p>
<br>
<p>在数学上,我们可以更加方便表示这种两个函数加减的方法,即:</p>
<p></p><div class="math display">\[\int_{-1}^{3} (2x+3 - x^2) = \int_{-1}^{3} (2x+3) - \int_{-1}^{3} (x^2)
\]</div><p></p><br>
<h3 id="偏导数">偏导数</h3>
<p>偏导数属于多元函数的微分学,最常见的是求解空间问题,在初高中基本只涉及一元函数,在这里我们引入二元函数,记作:</p>
<p></p><div class="math display">\[z = f(x,y)
\]</div><p></p><br>
<p>在一元函数中,导数是函数沿着 x 轴的变化率,而在多元函数中由于有多个变量,不能直接计算导数,要针对某个轴方向进行求导,所以叫偏导数,接下来,我们将逐渐学习偏导数的一些基础知识。</p>
<br>
<h4 id="多元函数定义域">多元函数定义域</h4>
<p>下面给出一个二元函数构成的图形。</p>
<p></p><div class="math display">\[z=\sqrt{1-x^2-y^2}
\]</div><p></p><p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834634-1617706023.png" alt="image-20241110145138140" loading="lazy"></p>
<br>
<p>下面提个问题,怎么求这个 <span class="math inline">\(z=\sqrt{1-x^2-y^2}\)</span> 的定义域?</p>
<p>我们知道 $1 \ge x^2 + y^2 $ ,在设 <span class="math inline">\(y = 0\)</span> 时, $1 \ge x^2 $ ,则 <span class="math inline">\(-1 \le x \le 1\)</span> ,由于 <span class="math inline">\(1-x^2 \ge y^2\)</span> ,所以 <span class="math inline">\(-\sqrt{1-x^2} \le y \le \sqrt{1 - x^2}\)</span>。</p>
<p>所以定义域:</p>
<p></p><div class="math display">\[-1 \le x \le 1 \\
-\sqrt{1-x^2} \le y \le \sqrt{1 - x^2} \\
z \ge 0
\]</div><p></p><br>
<p>这个函数是二元函数,求定义域还是比较简单的,z 是 <span class="math inline">\(f(x,y)\)</span> 的函数,我们先求出 x 的定义域,然后求出 y 定义域。推广到 <span class="math inline">\(u=f(x,y,z)\)</span> 三元函数,一般 x 定义域是常数,y 的定义域由 x 的函数组成,而 z 的定义域由 x、y 的函数组成。</p>
<p>求解空间中两个立体图形组成的封闭的空间体积时,就是使用定积分去求,计算定积分需要知道定义域,就是这种求法,本文不再赘述。</p>
<br>
<h4 id="多元函数的值">多元函数的值</h4>
<p>已知函数 <span class="math inline">\(f(x,y) = \frac{xy}{x^2+y^2}\)</span> ,求 <span class="math inline">\(f(1,2)\)</span>。</p>
<p>其实也很简单,方便使用 <span class="math inline">\(x=1,y=2\)</span> 替代进去即可:</p>
<p></p><div class="math display">\[f(1,2) = \frac{2}{1^2+2^2} = \frac{1}{5}
\]</div><p></p><br>
<h4 id="多元函数的极限">多元函数的极限</h4>
<p>前面提到极限的时候,涉及到的都是一元函数,对于多元函数的极限,计算则复杂一些,我们可以使用以下公式表示二元函数在某点的极限值。</p>
<p></p><div class="math display">\[\lim_{_{y \longrightarrow y_{0}}^{x \longrightarrow x_{0}}} f(x,y) = A
\]</div><p></p><br>
求二元函数的极限,称为二重极限。
<p>例如求下面函数的二重极限。</p>
<p></p><div class="math display">\[\lim_{_{y \longrightarrow 2}^{x \longrightarrow 1}} \ln{(x+y^2)} = \ln{(1+2^2)} = \ln{5}
\]</div><p></p><br>
<h4 id="偏导数-1">偏导数</h4>
<p>对多元函数求导的时候,由于函数有多个未知变量,例如 $z = x^2 + y^2 $ ,由于里面有 x、y 两个变量,因此函数也就有两个变化方向,求导的时候要设定是往哪个方向,例如要知道往 x 轴方向的变化率,那就是要针对 x 进行求导,求在 <span class="math inline">\(z=f(x_{0},y_{0})\)</span> 时 x 的导数,这个就叫对 x 的偏导数。</p>
<p>偏导数使用符号 <span class="math inline">\(\partial\)</span> 表示,那么对 x 的偏导数可以记作:</p>
<p></p><div class="math display">\[\frac{\partial z}{\partial x} \big|_{y=y_{0}}^{x=x_{0}}
\]</div><p></p><br>
当然还有很多变体,Markdown 敲数学公式超级累,这里贴个图省事儿。
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834710-390994565.png" alt="image-20241110151831018" loading="lazy"></p>
<br>
<p>下面给个简单函数的偏导数,方法很简单,当对 x 求偏导数时,把 y 当常数处理即可。</p>
<p></p><div class="math display">\[z = x^2 + y^2
\]</div><p></p><p></p><div class="math display">\[\frac{\partial z}{\partial x} = 2x,\frac{\partial z}{\partial y} = 2y
\]</div><p></p><p><br>再如:</p>
<p></p><div class="math display">\[z = x^2 + yx + y^2
\]</div><p></p><p></p><div class="math display">\[\frac{\partial z}{\partial x} = 2x + y,\frac{\partial z}{\partial y} = 2y +x
\]</div><p></p><br>
<p>前面提到积分可以求解平面中两个函数所组成的封闭区域的面积,偏导数则可以计算空间中立体几何和平面组成的封闭区域面积,这里就不再深入。</p>
<br>
<h4 id="全微分">全微分</h4>
<p>设二元函数 <span class="math inline">\(z = f(x,y)\)</span> 则其全增量公式为:</p>
<p></p><div class="math display">\[\bigtriangleup z =A\bigtriangleup x + B \bigtriangleup y + O(\beta)
\]</div><p></p><br>
那么关于 z 的微分:
<p></p><div class="math display">\[dz=f_{x}(x,y)dx + f_{y}(x,y)dy
\]</div><p></p><br>
求全微分,其实就是先求出所有偏导数,然后再进行计算。
<p>例如求 <span class="math inline">\(z = e^{2x+3y}\)</span> 的全微分。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834718-1125863034.jpg" alt="389b1a036ebf0d36c4c2233c49c3556" loading="lazy"></p>
<br>
<p>给个例题,求函数 <span class="math inline">\(z = f(x,y) = \frac{x^2}{y}\)</span> 在 点 <span class="math inline">\((1,-2)\)</span> 出,当 <span class="math inline">\(\bigtriangleup x=0.02\)</span> , <span class="math inline">\(\bigtriangleup y = -0.01\)</span> 时的全增量。</p>
<br>
<p>先求函数的两个偏导数得出。</p>
<p></p><div class="math display">\[dz = \frac{2x}{y} \bigtriangleup x - \frac{x^2}{y^2} \bigtriangleup y
\]</div><p></p><br>
<p>将 <span class="math inline">\(\bigtriangleup x=0.02\)</span> , <span class="math inline">\(\bigtriangleup y = -0.01\)</span> 代入,得 <span class="math inline">\(-0.0175\)</span>。</p>
<br>
<p>下面是这个函数的图像。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834779-531842661.png" alt="image-20241110154210542" loading="lazy"></p>
<br>
<p>由微分和全微分的基础知识可知,在数学中进行一些计算时,其精确度会有所丢失。</p>
<br>
<h4 id="偏导数求最小值">偏导数求最小值</h4>
<p>在学习导数时,我们知道当 <span class="math inline">\(f'(a) = 0\)</span> 时,该函数取得极值,推广到多元函数中,也可以通过偏导数来求取极值。例如,对于二元函数 <span class="math inline">\(z = f(x,y)\)</span> ,当符合下面条件时,可以取得极值:</p>
<p></p><div class="math display">\[\frac{\partial z}{\partial x} = 0,\frac{\partial z}{\partial y} = 0
\]</div><p></p><br>
这是因为此时 x、y 切线的斜率都是 0,这里就不给出推理过程了,直接记住该方法即可。
<br>
<p>如下图是函数 <span class="math inline">\(z=x^2 + y^2\)</span> 的图像,求当 x、y 为何值时,函数取得最小值。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834681-795047272.png" alt="image-20241114204528433" loading="lazy"></p>
<p>很明显,当 x、y 都是 0 的时候,函数取得最小值,但是我们要通过数学来推到,不能只凭图像得出结论。</p>
<p>先求偏导数:</p>
<p></p><div class="math display">\[\frac{\partial z}{\partial x} = 2x \\
\frac{\partial z}{\partial y} = 2y
\]</div><p></p><br>
<p>可知,当 <span class="math inline">\(x=0,y=0\)</span> 时,两个偏导数结果都是 0,所以 <span class="math inline">\(z=f(x,y)\)</span> 只有在 <span class="math inline">\((0,0)\)</span> 处有唯一的极值。</p>
<p>因为 <span class="math inline">\(z=x^2 + y^2 \ge 0\)</span> ,所以可知, <span class="math inline">\(z=f(0,0)\)</span> 时取得最小值。</p>
<br>
当 x、y 的斜率越来越接近 0 时,可以看到曲面切线越来越光滑。
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834565-1611511735.png" alt="image-20241114220105658" loading="lazy"></p>
<br>
<h4 id="拉格朗日乘数法">拉格朗日乘数法</h4>
<p>有一个二元函数 <span class="math inline">\(z=(x,y)\)</span> ,以及附加条件 <span class="math inline">\(\varphi (x,y) = 0\)</span> ,而拉格朗日乘数法就是用来求解这种有条件限制的多元函数极值问题。</p>
<p>公式如下:</p>
<p></p><div class="math display">\[F(x,y,\lambda) = f(x,y) + \lambda{\varphi{(x,y)}}
\]</div><p></p><br>
<p>其中 $\lambda $ 是一个参数,也是我们要求解的值,求出 <span class="math inline">\(\lambda\)</span> 后可以求得 z 的最小值。</p>
<p>首先将上面的公式进行偏导数求导,并且求出为 0 的条件:</p>
<p></p><div class="math display">\[F'_{x}(x,y,\lambda )= f'_{x}(x,y)+\lambda{\varphi{'_{x}(x,y)}} = 0
\]</div><p></p><p></p><div class="math display">\[F'_{y}(x,y,\lambda ) = f'_{y}(x,y)+ \lambda{\varphi{'_{y}(x,y)}} = 0
\]</div><p></p><p></p><div class="math display">\[F'_{\lambda}(x,y,\lambda ) = \varphi{(x,y)} = 0
\]</div><p></p><br>
<p>通过上述方程求出 x、y、<span class="math inline">\(\lambda\)</span> 之后,代入 <span class="math inline">\(f(x,y)\)</span> 求得极值。</p>
<br>
<p>例题 <span class="math inline">\(a + b = 1\)</span> ,求 <span class="math inline">\(\frac{1}{a} + \frac{4}{b}\)</span> 的最小值。</p>
<p>首先,二元函数是 <span class="math inline">\(z=f(a,b) = \frac{1}{a} + \frac{4}{b}\)</span>。</p>
<p>约束条件 <span class="math inline">\(\varphi (a,b) = a + b - 1=0\)</span> 。</p>
<p>所以:</p>
<p></p><div class="math display">\[F(a,b,\lambda) = f(a,b)+ \lambda{\varphi{(a,b)}} = \frac{1}{a} + \frac{4}{b} + \lambda{(a + b - 1)}
\]</div><p></p><br>
现在开始求偏导数。
<p></p><div class="math display">\[F'_{a}(a,b,\lambda )= f'_{a}(a,b)+\lambda{\varphi{'_{a}(a,b)}} = -\frac{1}{a^2} + \lambda = 0 \qquad (1)
\]</div><p></p><p></p><div class="math display">\[F'_{b}(a,b,\lambda ) = f'_{b}(a,b)+ \lambda{\varphi{'_{b}(a,b)}}= -\frac{4}{b^2} + \lambda= 0 \qquad (2)
\]</div><p></p><p></p><div class="math display">\[F'_{\lambda}(a,b,\lambda ) = \varphi{(a,b)} = a + b - 1= 0\qquad (3)
\]</div><p></p><p><br>由 (1)、(2)、(3) 解得:</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834858-1125408836.png" alt="image-20241114212937793" loading="lazy"></p>
<br>
<p>代入 <span class="math inline">\(z=f(a,b) = \frac{1}{a} + \frac{4}{b}\)</span> ,求得 <span class="math inline">\(z_{min} = f(\frac{1}{3},\frac{2}{3}) = 9\)</span> ,所以最小值是 9。</p>
<br>
<h3 id="梯度">梯度</h3>
<p>在本节中,我们将学习深度学习里面重点之一的梯度下降法,梯度下降法要学习的知识比较多,本文的内容基本都是为梯度下降法做铺垫。</p>
<blockquote>
<p>百度百科:方向导数本质上研究的是函数在某点处沿某特定方向上的变化率问题,梯度反映的是空间变量变化趋势的最大值和方向。</p>
</blockquote>
<br>
<h4 id="方向导数">方向导数</h4>
<p>前面提到导数,在一元函数中, <span class="math inline">\(y=f(x)\)</span> ,导数是反映了其在某点的变化率,而在 <span class="math inline">\(z = f(x,y)\)</span> 中,两个偏导数 $\frac{\partial z}{\partial x} $ 、 <span class="math inline">\(\frac{\partial z}{\partial y}\)</span> 则是反映函数沿着平行于 x 轴 、y 轴方向上的变化率。偏导数反映的是往某个轴方向的变化率,而方向导数则是某个方向的变化率,而不是某个轴方向。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834476-2119120937.png" alt="image-20241110161833098" loading="lazy"></p>
<br>
<p>如上图所示,设 <span class="math inline">\(l\)</span> 是一条有 <span class="math inline">\(P(x,y)\)</span> 引出来的一条射线, <span class="math inline">\(Q(x + \bigtriangleup x,y + \bigtriangleup y)\)</span> 是 <span class="math inline">\(l\)</span> 上的一点,设 <span class="math inline">\(\rho\)</span> 是 <span class="math inline">\(P\)</span> 、 <span class="math inline">\(Q\)</span> 两点之间的距离,则:</p>
<p></p><div class="math display">\[\frac{\bigtriangleup z}{\rho}
\]</div><p></p><br>
<p>该公式反映函数在了 <span class="math inline">\(P\)</span> 、 <span class="math inline">\(Q\)</span> 两点之间沿着 <span class="math inline">\(l\)</span> 方向的平均变化率,如果当 <span class="math inline">\(Q\)</span> 趋近于 <span class="math inline">\(P\)</span> 时,极限存在,则该极限值称为点 <span class="math inline">\(P\)</span> 沿方向 <span class="math inline">\(l\)</span> 的方向导数。</p>
<br>
<p>由于:</p>
<p></p><div class="math display">\[\bigtriangleup x = \rho \cos \alpha , \bigtriangleup y = \rho \cos \beta
\]</div><p></p><br>
所以方向导数可以表示为:
<p></p><div class="math display">\[\begin{align}
\frac{\partial z}{\partial l} &= \\
&=\frac{\partial z}{\partial x} \bigtriangleup x + \frac{\partial z}{\partial y} \bigtriangleup y\\
&=\frac{\partial z}{\partial x} \cos \alpha + \frac{\partial z}{\partial y} \cos \beta
\end{align}
\]</div><p></p><br>
<p>如果使用 <span class="math inline">\(i\)</span> 、 <span class="math inline">\(j\)</span> 表示 x、y 上的分量,也可以表示为:</p>
<p></p><div class="math display">\[\frac{\partial z}{\partial l}= \frac{\partial z}{\partial x}i + \frac{\partial z}{\partial y}j
\]</div><p></p><br>
<p>如果我们使用向量表示,也可以表示为:</p>
<p></p><div class="math display">\[(\frac{\partial z}{\partial x}, \frac{\partial z}{\partial y})
\]</div><p></p><br>
<h4 id="梯度-1">梯度</h4>
<p>梯度是指函数的值在哪个方向增长最快,后面学习的梯度下降则是相反的,是函数值下降最快的方向。</p>
<br>
<p>在空间中的一点,当点 <span class="math inline">\(P\)</span> 固定时,方向 <span class="math inline">\(l\)</span> 变化时,函数的方向导数 $\frac{\partial u}{\partial l} $ 也随之变化,说明了对于固定的点,函数在不同方向上的变化率也有所不同。那么对于点 <span class="math inline">\(P\)</span> ,在什么方向上可以使得函数的变化率达到最大?这里需要引入梯度的概念。</p>
<br>
<p>下图是一个半球。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834759-1615300190.png" alt="image-20241117094156647" loading="lazy"></p>
<p>问,怎么给定任意一点,怎么最快地达到顶部?很明显,垂直往上走,可以最快到底顶部,但是对于实际中凹凸不平的图像来说,是不能直接得出结论的,不过我们这里可以先简单讨论。</p>
<p>就像上面的图形,给定可微的二元函数 <span class="math inline">\(z = f(x,y)\)</span> ,有一点 <span class="math inline">\((x_{0},y_{0})\)</span> ,这个点可以往各种方向走,每个方向的方向导数都不一样,现在假设有个方向可以让方向导数最大,这个就是梯度 $gradf(x_{0},y_{0}) $。</p>
<br>
<p>如图所示, <span class="math inline">\(A(x_{0},y_{0})\)</span> 往 B 方向可以让 A 最快到达顶点,也就是变化率最大。而 A 有各种方向,其中一个是往 C 走。</p>
<p>往 B 方向的方向导数最大,就是梯度$gradf(x_{0},y_{0}) $ 。由图所示,从 A 开始的任意一个方向导数,跟 $ \overrightarrow{AB}$ 都有一个夹角,因为是在空间,所以这个夹角表示起来有点麻烦,就是各个方向的余弦值,我们也是有向量表示: <span class="math inline">\(n_{e} = (\cos \alpha ,\cos \beta)\)</span> ,那么方向导数、梯度的关系:</p>
<p></p><div class="math display">\[\frac{\partial z}{\partial l}=gradf(x_{0},y_{0}) \cdot n_{e}
\]</div><p></p><p></p><div class="math display">\[\frac{\partial z}{\partial l} = \frac{\partial z}{\partial x} \cos \alpha + \frac{\partial z}{\partial y} \cos \beta =
gradf(x_{0},y_{0})\cdot n_{e}
\]</div><p></p><p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834775-237384621.png" alt="image-20241117094843430" loading="lazy"></p>
<br>
<p>如下图所示,当 <span class="math inline">\(\alpha = 0\)</span> 时, <span class="math inline">\(gradf(x_{0},y_{0})\)</span> 和 <span class="math inline">\(e_{1}\)</span> 重合, 由于 <span class="math inline">\(\cos \alpha = 1\)</span> ,所以方向导数也达到最大值 <span class="math inline">\(|gradf(x_{0},y_{0})|\)</span> 。也就是,沿着梯度方向的方向导数可以达到最大值。</p>
<p>所以:</p>
<p></p><div class="math display">\[\begin{align}
gradf(x_{0},y_{0}) &= \frac{\partial z}{\partial x} \cos \alpha + \frac{\partial z}{\partial y} \cos \beta\\
&=\frac{\partial z}{\partial x}i + \frac{\partial z}{\partial y}j \\
&= (\frac{\partial z}{\partial x}, \frac{\partial z}{\partial y})
\end{align}
\]</div><p></p><p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834565-851389274.png" alt="image-20241110164906093" loading="lazy"></p>
<br>
<p>例题,求函数 <span class="math inline">\(z = \ln(x^2 + y^2)\)</span> 的梯度。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834838-106942889.png" alt="image-20241110165653935" loading="lazy"></p>
<blockquote>
<p>来源:《高等数学工本》陈兆斗。</p>
</blockquote>
<br>
再来一道实际意义的题目。
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834770-1974684222.png" alt="image-20241110170325278" loading="lazy"></p>
<blockquote>
<p>来源:《高等数学工本》陈兆斗。</p>
</blockquote>
<br>
<p>使用 <code>C#</code> 求解该题,得:</p>
<pre><code class="language-csharp">// 定义 u = x^2 + y^2 + z^2 函数在 (2,1,-1) 点的值
var x = torch.tensor(2.0, requires_grad: true);
var y = torch.tensor(1.0, requires_grad: true);
var z = torch.tensor(-1.0, requires_grad: true);
var u = x.pow(2) + y.pow(2) + z.pow(2);
// 求导
u.backward();
var ux = x.grad;
var uy = y.grad;
var uz = z.grad;
Console.WriteLine($"gradu(2,1,-1) = {"{"}{ux.ToScalar().ToDouble()},{uy.ToScalar().ToDouble()},{uz.ToScalar().ToDouble()} {"}"}");
</code></pre>
<pre><code>gradu(2,1,-1) = {4,2,-2 }
</code></pre>
<br>
<h4 id="梯度下降法的基本公式">梯度下降法的基本公式</h4>
<p>建议读者阅读这篇文章,这样很容易理解什么是梯度下降:https://www.zhihu.com/question/434600945</p>
<br>
<p>前面提到,梯度是向上最快,那么梯度下降就是向下最快,跟梯度相反就是最快咯。</p>
<br>
<p>梯度下降法是神经网络的武器,相信大家在了解深度学习时,也最常出现梯度下降的相关知识,所以本小节将讲解梯度下降法的一些基础知识。</p>
<p>在偏导数求最小值一节中,我们学习到最小值需要满足以下条件:</p>
<p></p><div class="math display">\[\frac{\partial z}{\partial x} = 0,\frac{\partial z}{\partial y} = 0
\]</div><p></p><br>
如果可以直接通过偏导数计算出梯度,那么问题就简单了,直接计算出最小值,都是对于实际场景要计算出来是比较可能的,尤其在神经网络里面。所以大佬们使用另一种方法来求出最小值的近似值,叫梯度下降法。
<br>
<p>画出一个三维图像如图所示:</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834734-2081606409.png" alt="image-20241114223740021" loading="lazy"></p>
<br>
<p>假如你正在最高位置,将你蒙上眼睛后,你要从最上面移动到最底的位置,每次只能移动一个格。</p>
<p>我们要最快下降到底部,肯定要选择最徒的路径,但是因为蒙着眼睛,无法跳过一个格知道后面的格的位置,所以只能先从附近的格对比后,找到最徒的格,然后再走下一步。但是不可能所有的格都走一次吧?可以先选几个格,然后判断哪个格最徒,接着走下一步,然后再选几个格,再走下一步。</p>
<br>
<p>在前面学习梯度时,我们知道:</p>
<p></p><div class="math display">\[\frac{\partial z}{\partial l} = \frac{\partial z}{\partial x} \bigtriangleup x + \frac{\partial z}{\partial y} \bigtriangleup y
\]</div><p></p><br>
即:
<p></p><div class="math display">\[\bigtriangleup z = \frac{\partial z}{\partial x} \bigtriangleup x + \frac{\partial z}{\partial y} \bigtriangleup y
\]</div><p></p><br>
如果我们把这个公式当作两个向量的内积,可以得出:
<p></p><div class="math display">\[\bigtriangleup z = (\frac{\partial z}{\partial x},\frac{\partial z}{\partial y}) \cdot(\bigtriangleup x,\bigtriangleup y)
\]</div><p></p><br>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834487-1966948418.png" alt="image-20241115204555682" loading="lazy"></p>
<br>
<p>当以下向量方向相反时, <span class="math inline">\(\bigtriangleup z\)</span> 取得最小值。</p>
<p><img src="https://img2024.cnblogs.com/blog/1315495/202411/1315495-20241118074834507-1249031869.png" alt="image-20241115205039736" loading="lazy"></p>
<br>
<p>让我们回顾向量知识,当两个向量的方向相反时,向量内积取得最小值。由于:</p>
<p></p><div class="math display">\[a \cdot b = |a||b| \cos \theta
\]</div><p></p><br>
所以向量 b 满足:
<p></p><div class="math display">\[b = -ka \qquad
\]</div><p></p><blockquote>
<p>(k 为正的常数)</p>
</blockquote>
<br>
<p>设 <span class="math inline">\(b= (\bigtriangleup x,\bigtriangleup y)\)</span> , <span class="math inline">\(a= (\frac{\partial z}{\partial x},\frac{\partial z}{\partial y})\)</span> , <span class="math inline">\(k=\eta\)</span> ,所以:</p>
<p></p><div class="math display">\[(\bigtriangleup x,\bigtriangleup y) = -\eta (\frac{\partial z}{\partial x},\frac{\partial z}{\partial y} ) \qquad ( \eta 为正的微小常数)
\]</div><p></p><br>
<p>这个公式称为二变量函数的梯度下降法基本公式,如果推广到三个变量以上:</p>
<p></p><div class="math display">\[(\bigtriangleup x_{},\bigtriangleup x_{2},...,\bigtriangleup x_{n}) = -\eta (\frac{\partial x}{\partial x_{1}},\frac{\partial z}{\partial x_{2}},...,,\frac{\partial z}{\partial x_{n}} )
\]</div><p></p><br>
<p>前面学习方向导数和梯度的时候,我们知道沿着梯度的方向导数最大,此时梯度是 <span class="math inline">\((\frac{\partial z}{\partial x},\frac{\partial z}{\partial y})\)</span> ,也就是向上是最徒的。</p>
<p>由于 <span class="math inline">\((\bigtriangleup x,\bigtriangleup y)\)</span> 是跟梯度相反的向量,所以向下是下降最快的,所以这就是梯度下降法求使得下降最快的向量。</p>
<br>
<p>回顾使用偏导数求最小值<span class="math inline">\(z=x^2 + y^2\)</span> ,求:当 x 从 1 变成 <span class="math inline">\(1+\bigtriangleup x\)</span> 、y 从 2 变到 <span class="math inline">\(2 + \bigtriangleup y\)</span> 时,求出使得这个函数减小最快的向量 <span class="math inline">\((\bigtriangleup x,\bigtriangleup y)\)</span>。</p>
<p>首先求出偏导数:</p>
<p></p><div class="math display">\[\frac{\partial z}{\partial x} = 2x \\
\frac{\partial z}{\partial y} = 2y
\]</div><p></p><br>
<p>根据梯度下降法的基本公式得出:</p>
<p></p><div class="math display">\[(\bigtriangleup x,\bigtriangleup y) = -\eta (2x,2y ) \qquad (\eta 为正的微小常数)
\]</div><p></p><p>由题意当 <span class="math inline">\(x=1\)</span> 、 <span class="math inline">\(y=2\)</span> 时,得出:</p>
<p></p><div class="math display">\[(\bigtriangleup x,\bigtriangleup y) = -\eta (2,4 ) \qquad
\]</div><p></p><blockquote>
<p>(<span class="math inline">\(\eta\)</span> 为正的微小常数)</p>
</blockquote>
<br>
<p>在本小节中,还有一个 <span class="math inline">\(\eta\)</span> 没有讲解,它是一个非常小的正数,就像下山问题中的一个格,即移动的步长。在使用计算机进行计算时,需要确定一个合适的 <span class="math inline">\(\eta\)</span> 值, <span class="math inline">\(\eta\)</span> 值过小或过大都会导致一些问题,而在神经网络中, <span class="math inline">\(\eta\)</span> 称为学习率,没有明确的方法求出 <span class="math inline">\(\eta\)</span> 值,只能通过反复实验来寻找合适的值。</p>
<br>
<h4 id="哈密算子-">哈密算子 <span class="math inline">\(\bigtriangledown\)</span></h4>
<p>当梯度下降法推广到多个变量时,下面的公式会显示非常复杂:</p>
<p></p><div class="math display">\[(\bigtriangleup x_{},\bigtriangleup x_{2},...,\bigtriangleup x_{n}) = -\eta (\frac{\partial x}{\partial x_{1}},\frac{\partial z}{\partial x_{2}},...,\frac{\partial z}{\partial x_{n}} )
\]</div><p></p><br>
<p>所以数学上经常使用 $\bigtriangledown $ 符号简化公式。</p>
<p></p><div class="math display">\[\bigtriangledown f = (\frac{\partial x}{\partial x_{1}},\frac{\partial z}{\partial x_{2}},...,\frac{\partial z}{\partial x_{n}} )
\]</div><p></p><br>
替换到梯度下降法公式就是:
<p></p><div class="math display">\[(\bigtriangleup x_{},\bigtriangleup x_{2},...,\bigtriangleup x_{n}) = -\eta \bigtriangledown f
\]</div><p></p><br>
<h4 id="梯度下降法求最小值的近似值">梯度下降法求最小值的近似值</h4>
<p>在学习梯度下降法的基本公式时,提到了 <span class="math inline">\(\eta\)</span> ,那么继续回顾 <span class="math inline">\(z = x^2 + y^2\)</span> 的问题,我们如果设置学习率 <span class="math inline">\(\eta = 0.1\)</span> ,那么根据梯度下降法,我们怎么使用这个算法求最小值呢?假设初始点是 <span class="math inline">\((3,2)\)</span> ,根据梯度:</p>
<p></p><div class="math display">\[(\bigtriangleup x,\bigtriangleup y) = -0.1 (2x,2y ) \\
\bigtriangleup x = -0.2x \\
\bigtriangleup y = -0.2y
\]</div><p></p><br>
<p>代入 <span class="math inline">\((3,2)\)</span> ,得:</p>
<table>
<thead>
<tr>
<th>第几次运算</th>
<th>当前位置</th>
<th>当前位置</th>
<th>梯度</th>
<th>梯度</th>
<th>位移向量</th>
<th>位移向量</th>
<th>函数值</th>
</tr>
</thead>
<tbody>
<tr>
<td>i</td>
<td>x</td>
<td>y</td>
<td>∂z/∂x</td>
<td>∂z/∂y</td>
<td>∆x</td>
<td>∆y</td>
<td>z</td>
</tr>
<tr>
<td>0</td>
<td>3.00</td>
<td>2.00</td>
<td>6.00</td>
<td>4.00</td>
<td>-0.60</td>
<td>-0.40</td>
<td>13.00</td>
</tr>
</tbody>
</table>
<br>
<p>所以,点 <span class="math inline">\((3.00,2.00)\)</span> 已经移动到 <span class="math inline">\((2.40,1.60)\)</span> ,所以:</p>
<table>
<thead>
<tr>
<th>第几次运算</th>
<th>当前位置</th>
<th>当前位置</th>
<th>梯度</th>
<th>梯度</th>
<th>位移向量</th>
<th>位移向量</th>
<th>函数值</th>
</tr>
</thead>
<tbody>
<tr>
<td>i</td>
<td>x</td>
<td>y</td>
<td>∂z/∂x</td>
<td>∂z/∂y</td>
<td>∆x</td>
<td>∆y</td>
<td>z</td>
</tr>
<tr>
<td>0</td>
<td>3.00</td>
<td>2.00</td>
<td>6.00</td>
<td>4.00</td>
<td>-0.60</td>
<td>-0.40</td>
<td>13.00</td>
</tr>
<tr>
<td>1</td>
<td>2.40</td>
<td>1.60</td>
<td></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
</tbody>
</table>
<br>
<p>重新计算梯度等步骤,得出:</p>
<table>
<thead>
<tr>
<th>第几次运算</th>
<th>当前位置</th>
<th>当前位置</th>
<th>梯度</th>
<th>梯度</th>
<th>位移向量</th>
<th>位移向量</th>
<th>函数值</th>
</tr>
</thead>
<tbody>
<tr>
<td>i</td>
<td>x</td>
<td>y</td>
<td>∂z/∂x</td>
<td>∂z/∂y</td>
<td>∆x</td>
<td>∆y</td>
<td>z</td>
</tr>
<tr>
<td>0</td>
<td>3.00</td>
<td>2.00</td>
<td>6.00</td>
<td>4.00</td>
<td>-0.60</td>
<td>-0.40</td>
<td>13.00</td>
</tr>
<tr>
<td>1</td>
<td>2.40</td>
<td>1.60</td>
<td>4.80</td>
<td>3.20</td>
<td>-0.48</td>
<td>-0.32</td>
<td>8.32</td>
</tr>
</tbody>
</table>
<p>反复执行运算,最终可以算出最小值,如果步骤越少,那么下降的速度最快。</p>
<br>
<p>在 Pytorch 中,梯度下降算法有很多种,这里不再赘述,读者感兴趣可以参考这篇文章:https://zhuanlan.zhihu.com/p/619988672</p>
</div>
<div id="MySignature" role="contentinfo">
痴者工良(https://whuanle.cn)<br><br>
来源:https://www.cnblogs.com/whuanle/p/18551532
頁:
[1]