读大语言模型11从自然中学习

大小姊 發表於 2025-9-2 06:43:00

<img alt="读大语言模型11从自然中学习" loading="lazy" src="https://img2024.cnblogs.com/blog/3076680/202508/3076680-20250819123554769-1890497748.png" class="lazyload">
<h1 id="1从自然中学习">1. 从自然中学习</h1>
1.1. 大自然经过演化形成的计算机制虽然看似反直觉，但却能高效解决复杂问题
<ul>
<li>
1.1.1. 这些机制天然适配于大规模并行运算，这与传统计算机追求串行处理的思路有本质区别
</li>
<li>
1.1.2. 随着并行计算技术的发展，借鉴自然界的解决方案来突破计算瓶颈已成为可能
</li>
</ul>
1.2. 感觉运动系统在脊椎动物大脑中已经存在了5亿多年，而语言能力则是在近几十万年内才逐渐形成的
<ul>
<li>1.2.1. 在不改变基本架构的前提下，逐步获得了语言产生和识别的能力</li>
</ul>
1.3. 进化是通过调节大脑发育的分子生物物理参数来实现的，比如改变调控DNA转录的蛋白质的表达时序和相互作用强度，进而影响其他基因的表达
1.4. 大脑发育受到先天归纳偏差的制约（包括经过进化形成的架构和学习机制)，使得大脑无须从零开始认知世界
1.5. 大语言模型已经证明，通过学习文本中的句法标记、词序和语义等各类特征，也能生成符合语法的语言，即使这些线索并不完美
<ul>
<li>
1.5.1. 人类大脑则通过另一种方式获得类似的语言能力
</li>
<li>
1.5.2. 丰富的感知运动体验，再加上大脑的快速发育，很可能解释了为什么孩子在家庭环境中自然接触语言就能掌握语法规则，而多感官输入则能显著加快这一学习过程
</li>
</ul>
<h1 id="2大脑逆向工程">2. 大脑逆向工程</h1>
2.1. 新皮质最早出现在2亿年前的哺乳动物身上
<ul>
<li>
2.1.1. 它是覆盖在大脑表面的一层褶皱状神经组织，也就是我们常说的灰质
</li>
<li>
2.1.2. 新皮质中大约有300亿个神经元，这些神经元排列成六层结构，层与层之间按照固定的局部模式紧密连接
</li>
</ul>
2.2. 构成白质的远距离皮质连接，要比局部连接少得多
<ul>
<li>
2.2.1. 白质和灰质的体积比例遵循着一个特定的规律：它们之间存在5/4幂次方的关
</li>
<li>
2.2.2. 随着大脑体积的增大，白质的体积会超过灰质
</li>
<li>
2.2.3. 在人类大脑中，白质已经占据了主导地位
</li>
</ul>
2.3. 新皮质的基本结构（包括神经元类型和连接方式)在各个区域都很相似，但不同区域都针对特定的认知功能形成了专门化
<ul>
<li>
2.3.1. 这一特点启发了人工智能领域的卷积神经网络的设计，使其成为一种非常成功的深度学习模型
</li>
<li>
2.3.2. 新皮质进化出了一种通用的学习架构，显著提升了大脑中许多专门化的皮质下结构的工作效率
</li>
</ul>
2.4. 在大脑的视觉皮质中，信息处理呈现出分层结构：早期层级负责检测简单特征，而高层级的神经元则能够编码更为复杂的物体特征
2.5. 我们可以有选择地改变大脑中不同类型的神经元，同时在神经网络模型中修改相应的处理单元，观察这些改变对物体识别能力的影响是否一致
2.6. 在网络层次之上的研究主要关注皮质不同区域之间的信息传递，这本质上是一个系统层面的通信问题
2.7. 皮质中的远程连接之所以比较稀疏，是因为它们的代价太高
<ul>
<li>
2.7.1. 需要消耗大量能量来传递远距离信号
</li>
<li>
2.7.2. 占用了大量空间
</li>
</ul>
2.8. 大脑中有一个类似交换机的网络系统，负责在感觉和运动区域之间传递信息，它能够根据不断变化的认知需求快速调整连接方式
2.9. 神经元是一种复杂的动力系统，具有多种内部时间尺度
<ul>
<li>
2.9.1. 它们的复杂性主要来源于细胞生物学的基本需求—每个神经元都需要在各种严苛环境下自主产生能量，并保持内环境的稳定
</li>
<li>
2.9.2. 现在，大脑研究和人工智能的协同发展已成为可能，这种结合既能推动脑科学的进步，也能促进人工智能的发展
</li>
</ul>
2.10. 深度学习网络的训练依赖反向传播算法，通过不断调整网络权重来减小误差
<ul>
<li>
2.10.1. 在真实的大脑中，突触可塑性是由局部信号触发，并受到神经调质的整体调控
</li>
<li>
2.10.2. 这种生物学习方式不仅效率较低，其具体运作机制至今也未被完全破解
</li>
</ul>
2.11. 大脑中的皮质突触传递并不稳定，时而工作，时而失效，这与深度学习网络中固定不变的权重完全不同
<ul>
<li>
2.11.1. 这种看似不可靠的设计却帮助大脑节省了大量能量
</li>
<li>
2.11.2. 突触的这种不稳定性反而有利于学习
</li>
<li>
2.11.3. 这一发现启发了深度学习领域的“随机丢弃”技术：在训练时随机关闭一半神经元，模型性能反而提升了10%
</li>
<li>
2.11.3.1. 这相当于在每次更新权重时都在训练不同的子网络，从而促进了局部学习能力
</li>
</ul>
<h1 id="3语言进化">3. 语言进化</h1>
3.1. 在会唱歌的鸟类中，这个基因被关闭了，使它们能形成控制鸣管所需的神经通路
3.2. 在控制声带的大脑区域中，人类的这个基因也被关闭了，而黑猩猩的则保持活跃
<ul>
<li>3.2.1. 语言能力的获得可能源于抑制基因的关闭，而不是新基因的产生</li>
</ul>
3.3. 人类语言能力的形成，声道的改造功不可没
<ul>
<li>
3.3.1. 发声器官并非凭空而来，而是在脊椎动物原有结构的基础上逐步改良形成的
</li>
<li>
3.3.2. 所谓的语言器官并不是一个独立的器官，而是分布在现有感觉和运动系统中的整体功能
</li>
</ul>
3.4. 基底神经节就像一个学习助手，不断评估下一步行动的价值，帮助我们的行为和语言朝着目标迈进
3.5. 大语言模型的核心训练方法其实很简单：预测句子中的下一个词元
3.6. 在强化学习中，时间差分学习算法本质上是一种预测机制，它不断预测未来可能获得的奖励来指导行动
<ul>
<li>3.6.1. 运动员只有通过持续练习，才能让这套动作变得行云流水，每次都能准确复现</li>
</ul>
3.7. 小脑是大脑中的关键结构，它与大脑皮质密切配合，主要负责预测运动指令可能带来的感知和认知变化
<ul>
<li>
3.7.1. 在控制论中，这种预测机制被称为“前向模型”，因为它能够在动作发生前就预判一连串快速运动可能产生的结果
</li>
<li>
3.7.2. 通过不断预测下一步的变化，再从错误中吸取教训，大脑逐渐建立起了一个精确的身体控制模型，准确把握肌肉的特性和运动规律
</li>
<li>
3.7.3. 这种预测-学习的循环过程，让我们能够精准地掌控身体动作
</li>
</ul>
3.8. 拥有丰富的数据，能够在不同时间尺度上进行自监督学习
3.9. 婴儿通过与周围环境的主动互动，不断做出预测，观察结果，从而快速理解世界的因果关系
3.10. 目前，深度学习领域在这方面已经取得了重要进展，比如从视频中学习基本的物理规律，这让机器也开始具备了一定的物理直觉
<h1 id="4大脑和人工智能是否正在趋同">4. 大脑和人工智能是否正在趋同</h1>
4.1. 大脑研究和人工智能的发展建立在同一个基本原则之上：依靠高度互联的大规模并行架构，通过数据和经验来学习成长
4.2. 人工智能与神经科学的发展正在深度融合，两个领域相互借鉴、相互启发，形成了推动共同进步的良性循环
4.3. 人工智能理论是通过分析高维空间中隐藏单元的活动模式来构建的，这与神经科学家研究大脑活动的思路不谋而合
4.4. 随着技术进步，我们已经能够同时观测大脑中的所有神经元活动
<ul>
<li>
4.4.1. 大脑的结构是分层的
</li>
<li>
4.4.2. 在感知和运动系统中，每一层都在不同的时间尺度上参与决策过程
</li>
</ul>
4.5. 严格控制的实验方法便于解读神经记录数据，但由于神经元本身可以参与多种任务且表现出不同的活动模式，仅从单一任务得出的结论可能会有片面性
4.6. 一种可行的方案是逐步扩展任务的复杂程度，延长观察时间，使实验情境更贴近生物的自然行为状态
4.7. 在自然环境中，动物的行为具有自发性和互动性的特点，这一特点在社交行为中表现得尤为突出
<ul>
<li>4.7.1. 与研究那些被严格控制的反射性行为相比，研究这种自然发生的、持续性的行为要复杂得多</li>
</ul>
4.8. 大语言模型采用自监督学习机制，能够通过预测数据流中的缺失部分来实现训练
4.9. 如果技术足够成熟，我们甚至可以利用个人的脑活动数据来训练高级神经基础模型，从而创造出一个能够模拟该个体思维方式的永久性数字版本
4.10. 要准确重现行为模式，必须同时分析神经活动和行为数据，单独分析任何一项都无法达到预期效果
4.11. 只要获得足够完整的脑活动和行为数据，就能将其有效地转化为计算模型
<h1 id="5科学和工程领域的范式转变">5. 科学和工程领域的范式转变</h1>
5.1. 人工智能发展之迅猛，已让人无法预测下一个重大突破会在何方
5.2. 作为最早拥抱人工智能的领域，科学界在应用水平上已领先大众整整十
5.3. 物理定律相对简单，而生物学和大脑研究则涉及海量参数
5.4. 如果自然界中蛋白质的氨基酸序列遵循某种可破译的“语言规则”，我们或许就能运用机器学习来解析这些结构
<ul>
<li>
5.4.1. 二级结构会在三维空间中与链条上相距较远的氨基酸产生相互作用，而这种长程影响目前仍是未知的
</li>
<li>
5.4.2. DeepMind通过精妙地编码氨基酸间的距离关系，并借助强大的计算资源，最终成功攻克了这一难题
</li>
<li>
5.4.3. 到2020年，AlphaFold在结构预测的精确度上已经接近X射线晶体学的水平
</li>
</ul>
5.5. 如果说2017年AlphaGo在棋类领域创造了奇迹，那么AlphaFold在科学领域取得的突破，其重要性堪比基因测序技术对生物学发展的深远影响
<h1 id="6蛋白质大型生成模型">6. 蛋白质大型生成模型</h1>
6.1. 面向射频信号的生成扩散模型RFdiffusion可以根据简单的分子参数说明，设计并创建具有特定功能的全新蛋白质
6.2. 生物学和医学领域蛋白质设计的重要突破，堪称分子折纸术的加强版
6.3. 蛋白质结构这个生物学界的“罗塞塔石碑”终于被成功破译
<ul>
<li>
6.3.1. 这一突破是深度学习和生成模型革新科学、医学和工程领域的典型案例之一
</li>
<li>
6.3.2. 这些新兴技术正在创造一系列强大的研究工具，必将从根本上重塑生物学的发展轨迹，其影响之深远可能超出我们当前的想象
</li>
</ul>
6.4. 氨基酸在蛋白质中的排序，正如词语在语言中的排列一样至关重要
6.5. 在蛋白质的功能与语言的含义之间，可以找到更多类比关系
<ul>
<li>
6.5.1. 词语间的相互关联决定了句子的意义，即便这些词语在句中相隔甚远
</li>
<li>
6.5.1.1. 类似于蛋白质中远距离氨基酸之间的相互作用对其折叠结构起着决定性作用
</li>
<li>
6.5.2. 句子中的分句作为独立的意义单元，与蛋白质中的二级结构特征相类似
</li>
<li>
6.5.3. 语言中通过添加前缀和词尾来改变词义，这一过程类似于化学反应对蛋白质中氨基酸的修饰作用
</li>
</ul>
6.6. 细胞中复杂的蛋白质系统和语言的表达能力，都是进化赐予我们的瑰宝
6.7. 我们开发的计算工具不仅能够破译生命密码，还揭示了生命与语言之间深层的联系
<ul>
<li>6.7.1. 这种双重发现，让我们对生命的本质有了更深刻的认识</li>
</ul>
<h1 id="7医疗保健服务">7. 医疗保健服务</h1>
7.1. 一个核心问题是：如何培训护士、医生、医院管理者等医务工作者安全有效地使用人工智能技术，并规避潜在风险
7.2. 人工智能通过优化现有医疗资源的配置和使用，有望降低整体医疗成本
7.3. 在ChatGPT问世前，深度学习技术就已成功应用于脑部和人体影像的疾病诊断，并获得了显著成效
7.4. 目前，人工智能已被集成到医学成像设备中，可用于多种疾病的筛查，包括帕金森病和代谢性疾病的早期诊断
<h1 id="8展望未来">8. 展望未来</h1>
8.1. 实体键盘可能逐步退出历史舞台，与打字机一同成为博物馆展品
8.2. 大语言模型凭借精准的问答能力，有望取代传统的关键词搜索方式
8.3. 智能音箱作为人机交互的重要载体，其智能化水平将不断提升
8.4. 基于大语言模型的智能教学助手将有效提升教师的课堂教学效能
8.5. 大语言模型可快速检索和分析海量法律案例，为法律行业提供有力支持
8.6. 在医疗保健领域，大语言模型将发挥深远且广泛的影响
8.7. 更多创新应用尚待发掘，其影响力可能超出现有预期
8.8. 期望用单一的超大型大语言模型应对所有应用场景，即“一个模型统治一切”的设想，既不切实际，也未必可取
8.9. 科学突破往往不是源于对最复杂系统的研究，而是来自对能体现核心现象的最简单模型的探索
<ul>
<li>
8.9.1. 在神经生物学领域，神经元动作电位的作用机制并非通过研究微小且难以触及的皮质神经元而发现
</li>
<li>
8.9.2. 相反，这一发现来自对乌贼巨型轴突的研究—这是一种直径达一毫米、负责乌贼快速逃避反应的神经结构
</li>
<li>
8.9.3. 量子力学的重大突破并非来自对复杂原子的研究，而是源于玻尔氢原子模型
</li>
<li>
8.9.4. 这个简单模型中的离散能级与实验中观测到的光谱发射线完美对应
</li>
<li>
8.9.5. 小型语言模型因其训练数据需求量小，更便于开展快速实验并识别关键机制，这可能是通向理论突破的重要途径
</li>
<li>
8.9.6. 将研究重点从“大语言模型能为我们做什么”转向“我们如何更好地理解它们
</li>
</ul>
8.10. 自然界中真实存在的蛋白质，仅为所有可能氨基酸序列的沧海一粟
8.11. 在围棋历史上实际出现过的棋盘布局，也只是所有可能随机布局中微不足道的一部分
8.12. 互联网上的所有图像，同样只占全部可能的随机图像的极小比例
8.13. 现实世界中蕴含着深层结构，它们就像山脉中的金矿脉，而深度学习则是一台精准的开采设备
<ul>
<li>8.13.1. 这些算法存在于高维空间，超越了我们对所处三维世界的认知，也超脱了我们对数字计算机中一维指令序列的固有理解</li>
</ul>
8.14. 也许一个世纪之后，当所有工具和设备都具备合适的智能水平，能够通过语言与我们对话时，人类可能已经淡忘曾几何时只有他们才掌握语言的年代
8.15. 通过自然进化，地球上诞生了包括人类在内的无数神奇生物，当然也伴随着各种危险
<ul>
<li>
8.15.1. 我们至今仍不清楚生命的起源，对细胞运作机制的认知也很有限，更遑论完全理解大脑的奥秘
</li>
<li>
8.15.2. 即便存在这些未解之谜，人类依然学会了与自然的相处之道
</li>
<li>
8.15.3. AI或将创造出一个与自然界同样复杂、难以捉摸的计算世界，但这并不意味着我们无法与之共存
</li>
</ul>
8.16. 人工智能影响着如此广泛的社会领域，而每个领域接纳和应用人工智能的进程都大不相同
<ul>
<li>
8.16.1. 医疗系统则较为保守，现有的监管制度也会阻碍人工智能的广泛应用
</li>
<li>
8.16.2. 在所有社会领域中，教育或许是最重要的
</li>
<li>
8.16.2.1. 人工智能将成为教师的得力助手，未来，个性化的人工智能辅导系统必将提升所有儿童的学习能力
</li>
</ul>
8.17. 2024年，Transformer架构最重要的突破是一种新型自注意力机制，即状态空间模型
<ul>
<li>
8.17.1. 这种模型在信号处理、控制理论和大脑皮质神经建模中已广泛应用
</li>
<li>
8.17.2. 与传统的矩阵自注意力机制相比，状态空间模型的效率提高了10～100倍
</li>
<li>
8.17.3. 大脑中的状态空间模型可能是实现自注意力机制的一种方式
</li>
</ul> 
来源：https://www.cnblogs.com/lying7/p/19046422

頁: [1]

圆梦公社's Archiver

读大语言模型11从自然中学习