2025AI元年,常见智能体盘点
<blockquote><p>你好,小钗在医疗AI、教育AI、管理AI有丰富的经验</p>
<p>关注公众号,回复1,与我交个朋友吧</p>
</blockquote>
<p>2025被成为国内AI应用元年,抛开各个公司正在自研的各种产品,有两类产品是比较红火的:<strong>Agent平台以及智能体(Agent)</strong>。</p>
<p>这里的Agent平台,<strong>其实是一种低代码平台</strong>,他可以高效的生成各种简单的Agent(更合适的叫法是个人助手),</p>
<p>这里的个人助手,与最近网上很火的智能体(比如Manus、DeepResearch)又很不一样,所以<strong>当前Agent的定义有点泛,后面可能要被迭代,以更精准的描述</strong>。</p>
<p>前几天,我们介绍了市面上常见的Agent平台:</p>
<ol>
<li>AI创业如何选择Agent平台,Coze、Dify、腾讯元器?可能都不是<br>
</li>
<li>Coze案例,个人知识库</li>
<li>Coze/Dify/FastGPT/N8N :该如何选择Agent平台?<br>
</li>
</ol>
<p>最近活跃的智能体有DeepResearch、Auto-GPT、Manus、扣子空间、Lovart等。</p>
<p>当前这些AI产品<strong>“搞得热闹”</strong>,其目的还是Attention is all you need,他们一方面在争夺注意力,<strong>一方面在占据新一轮流量入口</strong>。</p>
<p>之前介绍了Agent平台,今天我们来介绍下当前常见的智能体。</p>
<h2 id="智能体概述">智能体概述</h2>
<p>当前智能体的概括性描述,最好的材料是OpenAI创始人outman提出的发展预测:</p>
<p><img src="https://files.mdnice.com/user/25507/4b6d18c6-0634-47e5-9bbf-f649048fe034.png" alt="" loading="lazy"></p>
<p>这种设计的底层逻辑只有一个:<strong>模型吃掉应用</strong>,他们是想将所有的算法(工作流)、数据(知识库)、工具插件全部吃掉,<strong>模型即所有</strong>,这也同步提出了Agent经典架构:</p>
<p><img src="https://files.mdnice.com/user/25507/b34cd2e6-0f70-4045-b233-b1b67011e922.png" alt="" loading="lazy"></p>
<p>从模块分类来说:</p>
<ol>
<li><strong>大模型解决规划与调度问题</strong>,Manus能爆发的核心原因就是模型能力大幅增强;</li>
<li><strong>RAG解决幻觉问题</strong>,当前模型的发展趋势来说,模型上下文破百万是早晚的事,如何让模型聊得像人,体验好的AI分身这类应用,将在这两年诞生;</li>
<li><strong>工具链解决多模态问题</strong>,包括最近很火的MCP、Computer Use其实都算是AI多模态能力的延伸,要的就是解决AI各种“不行”的问题,这里包括了听觉、视觉、触觉等;</li>
</ol>
<p>基于此,再看如今常见的智能体,又可以分为两类:<strong>通用型智能体、垂直行业智能体</strong>。</p>
<p>因为基座模型能力不大,大家都一样的所以,:</p>
<p>对通用型智能体来说,<strong>其核心是工具生态</strong>,生态越繁荣越容易脱颖而出;</p>
<p>而对于垂直行业智能体来说,<strong>私有语料、垂直领域插件越多</strong>,其使用上越友好。</p>
<p>以Manus为例,他其实是没有什么技术门槛的,国内有很多类似的产品,比如,其实现周期在一周左右,当然要打磨得好,也要花不少时间的。</p>
<p>接下来,我们来具体介绍下几款产品。</p>
<h2 id="deep-research">Deep Research</h2>
<p>OpenAI 2月底就推出了Deep Research功能,每个月使用次数有限。</p>
<p>在表现上Deep Research称得上<strong>足够专业</strong>,他会像人类专家一样对复杂任务进行逐步拆解,然后在互联网上进行多轮的信息搜索与验证。</p>
<p>他会根据已有的信息逐步调整研究方向和策略,不断深入挖掘问题的本质,直到找到最合适的答案。</p>
<p>但与Manus等智能体一致:<strong>真实使用后,大概不会想要使用第二次,他还不成熟</strong>。</p>
<hr>
<p>我的任务是想要去整理所有的医疗信息,这显然是一项复杂的工程,为了降低难度,我更改了问题:<strong>梳理所有的医疗信息发布渠道</strong>。</p>
<p>基于这个问题,开始了Deep Research之旅,先是给了一些输入:</p>
<blockquote>
<p>我要完成《医疗信息产出渠道全景分级体系》。</p>
<p>其目的是将所有可能产出医疗信息的机构全部包含,并且进行分级,需要遵循MECE原则</p>
</blockquote>
<p>PS:真实提示词会严谨很多,但有一定密度就不放出来了</p>
<p>在多次提示、反复的情况下,GPT给了我以下反馈:</p>
<p><img src="https://files.mdnice.com/user/25507/718db98d-88d8-492e-b5e7-4ae23ec5bbdc.png" alt="" loading="lazy"></p>
<p><img src="https://files.mdnice.com/user/25507/c2581a9a-edaa-451f-a393-54d6f670e86f.png" alt="" loading="lazy"></p>
<p><strong>不用细看了,有很大问题,连最基础的医疗教科书都没有...</strong></p>
<p>在明知道他有问题的情况下,我开始了反复暗示:<strong>是否有遗漏,很可惜系统都没有给我满意的答复。</strong></p>
<p>综上,在每个问题耗时5-30分钟以后,<strong>Deep Research对于过于复杂的问题,是难以独立完成任务的。</strong></p>
<p>基于此,我们再看看国内的Manus:</p>
<h2 id="manus">Manus</h2>
<p>Manus其实是相当成功的,融资数字一定不会骗人:<strong>4月Manus完成了7500万美元的融资,近期貌似又拿到了一亿美元融资,估值已达20亿美元</strong>!</p>
<p>因为我们前面说了他的技术门槛不高,所以资本其实对于能把AI玩明白、能把营销玩明白的公司是很看好的。</p>
<p>具体产品来说,他完成的功能会比Deep Research更丰富,比如让Manus给当下的Agent大模型打分,然后产出了一个报表,看上去就像模像样:</p>
<p><img src="https://files.mdnice.com/user/25507/8404fadc-f8e9-4f7b-931d-c2985b9785d8.png" alt="" loading="lazy"></p>
<p>但真实使用后,问题很多,这里随便挑三点说说:</p>
<h3 id="一less-structure-more-intelligence">一、Less structure, more intelligence</h3>
<p>Manus类智能体走的是模型即所有的路线,大概意思就是:<strong>别干涉我,我自己玩</strong>,这个是个美好的愿望,但以当前的完成度来说就很麻烦,因为他不好接受输入输出。</p>
<p>当前,Manus基于Computer Use作独立网页运作,无法嵌入钉钉/飞书等生产环境,用户需反复切换界面,用起来挺麻烦的。</p>
<p>PS:但其实也挺无所谓的,因为他输出能力反正也不行...</p>
<h3 id="二经常性中断">二、经常性中断</h3>
<p>这里不只是Manus,Deep Research也是一样,每个任务耗时很长(30分钟也是常见的事),但当你真的离开回来,发现因上下文丢失,任务中断了,这还是比较令人抓狂的。</p>
<p>社区反馈其决策树容易进入死循环、重复执行或长时间无响应,成功率被用户吐槽低于30%。</p>
<p>这里服务器稳定性问题就先不说了,肯定是比较差的...</p>
<h3 id="三幻觉问题">三、幻觉问题</h3>
<p>Manus生成内容虽常自称“已标注来源”,但真实检查时引用链接缺失或对不准,可靠度不足。</p>
<p>并且,产品主体和算力落地位置不透明,这里可能会存在跨境存储、法律管辖不清的隐忧...</p>
<h3 id="小结">小结</h3>
<p>还有些其他问题,就不做展开了,只不过<strong>瑕不掩瑜</strong>,Manus虽然有点缝合怪,但也许缝合怪才是AI的正确打开方式。</p>
<p>其意义还是从L2到L3,从聊天机器人到任务完成者。</p>
<p>然后,我们来看看扣子空间:</p>
<h2 id="扣子空间">扣子空间</h2>
<p>字节在AI应用这块可称为<strong>高富帅,他们已经形成了AI体系了</strong>:</p>
<ol>
<li>想做Agent做POC验证,先顺手来个扣子;</li>
<li>扣子搞不定多Agent协作问题,继续来一套多维表格;</li>
<li>需要做知识库,直接上飞书知识问答,立刻激活飞书文档;</li>
<li>基座模型方面还有豆包;</li>
<li>...;</li>
</ol>
<p>字节可谓将整个AI应用生态玩得明明白白,并且抖音生态提供了大量流量支持,很多主播都涌向了扣子体系,这就导致这个生态十分健全。</p>
<p>在这个基础上,扣子空间是真的可以将Agent全流程搞定的,包括任务编排、MCP调用、结果交付,并且基于字节强大的技术能力,他稳定性高不说还挺便宜...</p>
<p>扣子AI生态是一个厚积薄发的代表,国外一般智能体还真跟不上...</p>
<p>但国外的大厂也很牛逼,比如Google I/O所展示出来的视频AI套餐。谷歌发布了三款创作者向的 AI 工具:</p>
<ol>
<li>Flow 脚本→分镜→配乐→配音一条龙;</li>
<li>Veo 3 让 AI 视频摆脱“无声时代”,支持原生音轨与物理细节;</li>
<li>Imagen 4 图生图,2K 分辨率保持 Logo 与文字清晰;</li>
</ol>
<p>这三者组合,就像是给创作者配齐了导演、摄影、视觉总监:</p>
<p><img src="https://files.mdnice.com/user/25507/2eef76e0-4807-49f0-8a97-c1f9e3f889f9.png" alt="" loading="lazy"></p>
<p>简单描述一句就是:<strong>我可以基于此,直接做短剧了</strong>...</p>
<p>而红杉进一步指出:<strong>企业级市场中,真正先跑出来的入口未必是通用大模型,而是 Harvey(法律)、Open Evidence(医疗)这类垂直领域智能体 OS,因为它们能听懂行业语言,理解真实需求。</strong></p>
<p>所以,Manus这种当前博眼球一些,但真正使用的好的是Cursor、Lovart这种垂直领域牵扯较深的应用,甚至Lovart还可以被再细分到广告、建筑领域。</p>
<p>从这里,我们也将视野从通用智能体转向垂直领域智能体:</p>
<h2 id="lovart">Lovart</h2>
<p>今年在图像与视频侧AI在各种开挂,前些日子设计领域的Agent产品Lovart表现得非常不错:</p>
<p><img src="https://files.mdnice.com/user/25507/a3b55f27-781c-4bd1-8e26-dfd574dbdb42.jpg" alt="" loading="lazy"></p>
<p><img src="https://files.mdnice.com/user/25507/3ef59520-aba3-47a0-b0e7-d99590b1fe93.jpg" alt="" loading="lazy"></p>
<p>他跟Cursor很类似,属于设计师的生产力工具,并且真正的在交付结果。</p>
<p>逻辑上来说再发展一下Cursor与Lovart就能打破专业KnowHow的壁垒了,你只需要告诉Lovart具体怎么画、什么风格,其次他全程就自己玩了,比如这里的一些漫画效果:</p>
<p><img src="https://files.mdnice.com/user/25507/40d0032d-d600-4852-8ef1-e69cdac3c468.jpg" alt="" loading="lazy"></p>
<p><img src="https://files.mdnice.com/user/25507/f67f0445-dc74-4011-b3ac-de4b61920323.jpg" alt="" loading="lazy"></p>
<p>无论是Cursor还是Lovart,他标志着垂直领域的Agent逐渐走向成熟,另一方面也在验证红杉峰会的判断:<strong>AI应用首先会在垂直领域展开</strong>。</p>
<h2 id="结语">结语</h2>
<p>还有些其他的Agent值得研究,比如很多写PPT的Agent,已经非常成熟,这里通过Agent的研究其实可以得出一个结论:<strong>通用智能体还不成熟,而行业智能体正在达到可用的水平</strong>。</p>
<p><strong>RL 之父 Rich Sutton</strong>在 2019 年的文章《苦涩的教训》中指出:</p>
<blockquote>
<p>70 年的 AI 研究历史告诉我们一个最重要的道理:依靠纯粹算力的通用方法,最终总能以压倒性优势胜出</p>
</blockquote>
<p>加上模型能力的快速提升、Manus的爆火出圈,于是很多人会认为:<strong>模型的通用能力,正在取代现在那些复杂的 Workflow。</strong></p>
<blockquote>
<p>但我认为<strong>这是不对的</strong>,至少说在这几年是不对的,因为GPT是基于统计学的逻辑,他并不具备真正的思考能力</p>
</blockquote>
<p>首先,AI产品的实现在于两极:<strong>模型与工程</strong>,基座模型能力越强那么对应工程实现就可以越简单,只不过这里有个动态的临界点。这个临界点是:</p>
<ol>
<li><strong>模型可以不做规划,但他真的能精准抽取关键词,这是是否性问题</strong>;</li>
<li><strong>工程能切实补足大模型的天生缺陷,比如幻觉、比如记忆问题</strong>;</li>
</ol>
<p>就我看到的20家企业,在AI产品实现全部是基于Workflow在做设计,他们对于模型是否会完全颠覆自己的提示词工程表现出了<strong>几无所谓</strong>的态度,原因是:</p>
<ol>
<li>浅尝则止的公司,提示词工程本来成本就很低,10多20万就搞定了,模型要取代就取代呗,他们<strong>毫无所谓</strong>;</li>
<li><strong>行业深度</strong>运用的公司,已经是领域非常资深的玩家,他们的提示词工程依赖于大量KnowHow,偶尔他们自己都玩不明白,所以对于模型马上会具备超越他们行业认知的事情,是<strong>毫不担心</strong>的;</li>
</ol>
<p>这里要注意的是,这里所谓的行业深度并不是只程序员行业、图像行业这种规则性完善的公司,而是指医疗、金融、法律等领域。</p>
<p>回到上文的通用性智能体Deep Research、Manus对比垂直型智能体Cursor、Lovart,也许大家也能拿到当前最佳的AI项目实践路径的答案。</p>
<p>综上,我还是赞成红杉AI峰会那句话:<strong>AI应用的机会在垂直领域</strong>。</p>
<p><img src="https://files.mdnice.com/user/25507/2de720b0-1cd9-48e6-b009-5f1ce49f7eed.png" alt="" loading="lazy"></p>
</div>
<div id="MySignature" role="contentinfo">
<img id="view_img" src="https://img2022.cnblogs.com/blog/294743/202202/294743-20220216140902628-1163053035.png" width="80%" alt="" border="0"><br><br>
来源:https://www.cnblogs.com/yexiaochai/p/18924244
頁:
[1]