夏天的禁卫军 發表於 2025-8-26 08:26:00

读大语言模型07高维数学

<p><img alt="读大语言模型07高维数学" loading="lazy" src="https://img2024.cnblogs.com/blog/3076680/202508/3076680-20250815132052451-366416156.png" class="lazyload"></p>
<h1 id="1高维数学">1.&nbsp;高维数学</h1>
<p>1.1.&nbsp;数学作为人类最重要的智慧成果之一,有望帮助我们揭示大语言模型和人脑的运作奥秘</p>
<p>1.2.&nbsp;深度学习网络是一种完全透明且可用数学方法分析的复杂数学函数</p>
<p>1.3.&nbsp;当前,一个专注于探索这些网络模型在高维空间中的几何特性和统计性质的数学新纪元已经来临</p>
<p>1.4.&nbsp;把各自领域推向一个由海量数据构成的高维空间世界,也就是我们现在所处的时代</p>
<p>1.5.&nbsp;机器学习早期的目标比人工智能要谦逊得多</p>
<ul>
<li>1.5.1.&nbsp;没有直接追求通用智能,而是从数据学习入手,着力解决感知、语言、运动控制、预测和推理等实际问题</li>
</ul>
<p>1.6.&nbsp;新数学</p>
<ul>
<li>1.6.1.&nbsp;机器学习与其他科学和工程学科一样,建立在几何、微积分和概率等基础数学之上,并将这些理论延伸到高维空间的应用</li>
</ul>
<h1 id="2尚未得到解释的矛盾现象悖论">2.&nbsp;尚未得到解释的矛盾现象悖论</h1>
<p>2.1.&nbsp;悖论1:陷入局部最小值</p>
<ul>
<li>
<p>2.1.1.&nbsp;优化理论专家指出,按照逐步降低误差的方式,我们必然会陷入局部最小值,而无法到达全局最小值</p>
</li>
<li>
<p>2.1.2.&nbsp;采用随机梯度下降算法</p>
</li>
<li>
<p>2.1.2.1.&nbsp;这种算法虽然下降过程缓慢,精确度较低,但包含随机成分,不会严格按照向下的路径移动,因此能够避开局部最小值</p>
</li>
<li>
<p>2.1.3.&nbsp;这些网络模型及其高维参数空间的几何特性,使其能够有效找到解决方案并实现良好的泛化能力</p>
</li>
<li>
<p>2.1.3.1.&nbsp;这一现象与我们在低维空间中的传统认知(预测会失败)恰恰相反</p>
</li>
<li>
<p>2.1.4.&nbsp;网络模型在高维空间中展现出与低维空间完全不同的动态特性</p>
</li>
<li>
<p>2.1.4.1.&nbsp;在高维参数空间中,学习过程中很少遇到局部最小值,反而是鞍点普遍存在</p>
</li>
<li>
<p>2.1.4.2.&nbsp;当存在数以百万计的可能路径时,在误差函数中找到一条下降路径并非难事</p>
</li>
<li>
<p>2.1.5.&nbsp;另一个容易找到优解的原因在于:与低维模型追求唯一解不同,从参数空间的随机点出发的随机梯度下降会收敛到多个不同的网络,而这些网络都能展现出良好的性能</p>
</li>
<li>
<p>2.1.5.1.&nbsp;从“大海捞针”变成了“针堆里找针”</p>
</li>
<li>
<p>2.1.6.&nbsp;这一现象在人类大脑中也有体现:每个人的大脑都是独特的,因为我们都是从不同的初始神经连接强度开始发育</p>
</li>
<li>
<p>2.1.6.1.&nbsp;虽然每个大脑的具体连接模式各不相同,但相似的经历会塑造出共同的行为模式,而不同的经历则会让每个大脑以其独特的方式专门化</p>
</li>
</ul>
<p>2.2.&nbsp;悖论2:参数过多</p>
<ul>
<li>
<p>2.2.1.&nbsp;根据统计学定理的界限,当训练数据集相对较小而参数数量巨大时,模型理论上不应该具备良好的泛化能力</p>
</li>
<li>
<p>2.2.2.&nbsp;即使是权重衰减这样简单的方法,也能通过将非必要参数缩减为零来降低有效参数数量,从而产生泛化能力惊人的模型</p>
</li>
<li>
<p>2.2.3.&nbsp;随着网络模型规模的扩大,其泛化能力反而不断提升</p>
</li>
<li>
<p>2.2.3.1.&nbsp;在20世纪80年代,没人能预测神经网络学习算法的性能会如何随着网络中神经元单元和权重数量的增加而变化</p>
</li>
<li>
<p>2.2.3.2.&nbsp;神经网络却表现出不同的特性:其训练时间仅与参数数量呈线性增长,且随着神经元单元和网络层数的增加,性能反而会得到提升</p>
</li>
<li>
<p>2.2.4.&nbsp;按照经典统计学的预测,当网络规模足够大时,训练误差最终会接近于零,而测试误差会因模型过拟合而开始上升</p>
</li>
<li>
<p>2.2.5.&nbsp;在更大规模的网络模型中,测试误差会出现拐点并继续下降,展现出优秀的泛化能力,这与过拟合的情况恰恰相反</p>
</li>
<li>
<p>2.2.6.&nbsp;这种测试误差呈现“双重下降”的现象,目前学术界还未能完全解释其中的原理</p>
</li>
</ul>
<h1 id="3高维空间的福音">3.&nbsp;高维空间的福音</h1>
<p>3.1.&nbsp;确实存在一些随维度增加而变得更加困难的问题</p>
<p>3.2.&nbsp;在动态规划(一种用于解决航线调度等优化问题的方法)中,理查德·贝尔曼发现,问题的难度会随着维度的增加而呈指数级增长,他将这种现象称为“维数灾难”​</p>
<p>3.3.&nbsp;深度学习却展现出截然不同的特性:一些困难的问题反而会随着空间维度的增加而变得更容易解决,这就是所谓的“维度福音”​</p>
<p>3.4.&nbsp;探索一个全新的函数类别通常需要几代数学家的持续努力</p>
<ul>
<li>
<p>3.4.1.&nbsp;1807年,约瑟夫·傅里叶发现了通过叠加一系列简单函数(后来所称的傅里叶级数)来求解热方程的方法</p>
</li>
<li>
<p>3.4.1.1.&nbsp;他当时无法证明这些级数的收敛性,甚至连当时的顶尖数学家们都质疑这种表达方式是否能被称为函数</p>
</li>
<li>
<p>3.4.2.&nbsp;泛函分析的发展,这被视为数学发展史上的重要里程碑</p>
</li>
</ul>
<p>3.5.&nbsp;如今,深度学习网络和Transformer作为一种新的函数类别,其数学理论研究才刚刚起步,很可能会推动数学领域出现一个全新的分支</p>
<h1 id="4大型神经网络的几何特性">4.&nbsp;大型神经网络的几何特性</h1>
<p>4.1.&nbsp;当任务重复进行时,虽然每次的活动轨迹都不尽相同,但都会限制在高维空间特定的轨迹束内</p>
<p>4.2.&nbsp;不同实验室在研究各种任务时都发现,轨迹束的维度通常为4~6个</p>
<ul>
<li>4.2.1.&nbsp;如果没有同时记录多个神经元的技术支持,我们就无法检测这些轨迹的维度</li>
</ul>
<p>4.3.&nbsp;在某些任务中大脑活动呈现低维特性是可以预见的,因为大脑能够用相同的神经元执行多种动作而不会混淆</p>
<ul>
<li>4.3.1.&nbsp;实现这一点的关键在于通过学习为每个任务建立不同的低维轨迹束</li>
</ul>
<p>4.4.&nbsp;数学家们对被称为流形的轨迹几何特性进行了深入研究</p>
<ul>
<li>4.4.1.&nbsp;这些研究有助于我们建立一种超越纯文字描述的思维理论</li>
</ul>
<p>4.5.&nbsp;流形理论</p>
<ul>
<li>
<p>4.5.1.&nbsp;流形具有许多有趣的性质,根据具体的研究环境和特性,它可以呈现光滑或非光滑的形态</p>
</li>
<li>
<p>4.5.2.&nbsp;流形理论的研究推动了数学多个分支的发展,包括微分几何、代数几何和微分拓扑</p>
</li>
<li>
<p>4.5.3.&nbsp;在物理学领域也有重要应用,尤其是在广义相对论和弦论方面</p>
</li>
<li>
<p>4.5.4.&nbsp;大脑科学研究也将成为流形理论应用的重要领域之一</p>
</li>
<li>
<p>4.5.5.&nbsp;在数学中,流形是一种特殊的拓扑空间,它在每个局部点的附近都与欧几里得空间相似</p>
</li>
<li>
<p>4.5.5.1.&nbsp;它是一个在小尺度观察时看似平坦的欧几里得空间(如平面或三维空间)的空间,但从整体结构来看可能更为复杂</p>
</li>
<li>
<p>4.5.5.2.&nbsp;流形是拓扑学、几何学和数学物理等领域研究的核心对象</p>
</li>
<li>
<p>4.5.6.&nbsp;流形的一个关键特性是它与欧几里得空间具有局部同胚性</p>
</li>
<li>
<p>4.5.6.1.&nbsp;这意味着流形上的任意一点都存在一个包含该点的邻域(周围的一个小区域),这个邻域可以通过一个被称为同胚的连续双射函数映射到欧几里得空间</p>
</li>
<li>
<p>4.5.7.&nbsp;流形的一些常见例子</p>
</li>
<li>
<p>4.5.7.1.&nbsp;欧几里得空间本身,如实数线、平面或三维空间</p>
</li>
<li>
<p>4.5.7.2.&nbsp;圆和球体,分别是一维和二维流形</p>
</li>
<li>
<p>4.5.7.3.&nbsp;环面(圆环形状),这是一个二维流形,可以被理解为一个将其相对边缘连接起来的矩形</p>
</li>
<li>
<p>4.5.7.4.&nbsp;莫比乌斯带,一个非定向的二维流形,通过单一扭转产生了有趣的拓扑性质:只有一个面和一个边缘</p>
</li>
</ul>
<h1 id="5因果关系">5.&nbsp;因果关系</h1>
<p>5.1.&nbsp;虽然神经元活动与行为确实存在相关性,但这并不能证明两者之间存在因果关系</p>
<p>5.2.&nbsp;要验证这一假设,一个方法是干扰神经元活动,观察是否会按预期影响行为表现</p>
<p>5.3.&nbsp;如果其行为确实发生改变,解释结果就变得困难了,因为在具有复杂反馈通路的大脑中,抑制某一区域的活动可能会影响到其他区域的输入信号</p>
<p>5.4.&nbsp;损毁实验还存在一个问题:可能会破坏通过损毁区域的通路纤维,这些纤维是连接远距离脑区的长程神经纤维</p>
<p>5.5.&nbsp;预见到分子工具能让神经科学家以与大脑精细结构相匹配的精确度来探索大脑</p>
<ul>
<li>5.5.1.&nbsp;在分子遗传学研究中认识到了单基因操作的强大潜力</li>
</ul>
<p>5.6.&nbsp;相关性与因果性的区别</p>
<ul>
<li>
<p>5.6.1.&nbsp;神经元活动与行为之间的相关性并不必然代表因果关系</p>
</li>
<li>
<p>5.6.2.&nbsp;要验证因果关系,需要通过直接操控神经元并观察行为变化来进行实验验证</p>
</li>
</ul>
<p>5.7.&nbsp;解释损伤</p>
<ul>
<li>
<p>5.7.1.&nbsp;早期研究主要依靠观察特定脑区损伤后的行为变化来推断脑区功能</p>
</li>
<li>
<p>5.7.2.&nbsp;但由于大脑回路的复杂性,这类实验结果的解读往往存在困难</p>
</li>
</ul>
<p>5.8.&nbsp;新技术与通路纤维</p>
<ul>
<li>
<p>5.8.1.&nbsp;传统损伤实验可能会破坏通路纤维(连接不同脑区的长程神经纤维)</p>
</li>
<li>
<p>5.8.2.&nbsp;现代光遗传技术通过基因工程将特定光敏蛋白表达于目标神经元,可以精确地激活或抑制特定神经元,从而克服了这一局限</p>
</li>
</ul>
<p>5.9.&nbsp;克里克的远见</p>
<ul>
<li>5.9.1.&nbsp;他预见到分子工具将使科学家能够以与大脑本身构建同等的精确度来研究大脑,这一预见印证了当今光遗传等精准神经调控技术的发展</li>
</ul>
<p>5.10.&nbsp;人工智能领域的因果推理</p>
<ul>
<li>
<p>5.10.1.&nbsp;在朱迪亚·珀尔的开创性工作推动下,因果关系研究已延伸至人工智能领域</p>
</li>
<li>
<p>5.10.2.&nbsp;近期NeurIPS等学术交流平台促进了神经科学和人工智能领域研究者之间的对话,推动了对人类和机器因果推理的深入理解</p>
</li>
</ul><br><br>
来源:https://www.cnblogs.com/lying7/p/19039448
頁: [1]
查看完整版本: 读大语言模型07高维数学