锦绣坊 發表於 2025-8-11 08:59:00

AI编程:代码多,效果好?

<blockquote>
<p>七号楼专栏,大模型测评第<u>01</u>期。</p>
</blockquote>
<h1 id="一简介">一、简介</h1>
<p><strong>2024年AI编程刚有热度,互联网又嗅到降本增效的味道。</strong></p>
<p>入职场到现在,记忆里还有低代码,超级SaaS,数字化转型,大模型,AI应用之编程;这些新概念的出场,都是在各种骂骂咧咧中,深夜王炸的吹嘘声中。</p>
<p><strong>沿着信息化,数字化,智能化的方向持续推进。</strong></p>
<p>在2024上半年,当时还在职场悠哉悠哉的划水,公司已经开始火急火燎的推广AI工具,其中以视觉设计和编程两个岗位最直接。</p>
<p><strong>市场认可的AI工具,直接买最贵的会员。</strong></p>
<p>当时自己在做电商的供应链,对于业务模式一知半解,所以在尝试大模型梳理业务,业务理清楚就拆分数据模型,然后投给AI编程工具,直接设计数据表结构。</p>
<p>那会AI还只能辅助写代码,核心业务工程还得靠自己手搓。</p>
<p>部门当时流传一句玩笑:用自己熟练的技能训练AI,等AI熟练后再替代自己,约等于我助推自己失业。</p>
<p><strong>没过多久,那句玩笑话就扎心了。</strong></p>
<p>在2024年,还只是间歇性体验一下大模型的能力水平;到2025年中,已经踩着AI风口,走上独立开发的探索。</p>
<p><strong>AI编程的回旋镖,还是落在了程序员的手里。</strong></p>
<h1 id="二测评指标">二、测评指标</h1>
<p><strong>独立开发之后,整天在各种模型和AI插件里切换。</strong></p>
<p>捏着鼻子用多了就会发现:各家模型都有自己擅长的能力,这与不同平台所掌握的优质数据有关系,比如电商跨境,本地生活,内容制作,行业分析等。</p>
<p><strong>今年各家大模型,似乎都卷向了编程领域。</strong></p>
<p>从现象来说,人工智能带火了独立开发赛道,这是一个庞大且有确定性的市场;从本质来说,编程的内核是结构和数学算法,很适配大模型在应用层的探索。</p>
<p>比较有意思的是:在今天刚发布的GPT5,从官方简介和部分测评来看,也号称编程能力一骑绝尘。</p>
<p>对于很多开发者来说,当积累一定的能力和年龄之后,我们都倾向等一个好的创业团队,等一个好的想法和产品,甚至很多想法在反复思考后,总觉得不够完美,或者无法实现。</p>
<p>在人工智能快速发展的当下,借助大模型的编程能力,可以快速的实现产品并进行传播测试。</p>
<p><strong>尝试机会的过程中,再次寻找机会。</strong></p>
<p>本期的内容,站在一个普通开发者的角度,来综合测评一下AI的编程能力。</p>
<p>参与的模型只有国内四款:DeepSeek,通义千问,Kimi,智谱。</p>
<p>作为一个开发者,更多关注的是:代码量,代码质量,呈现效果;选择前端编程领域,可以看到实时的效果,目的是探索大模型编程的能力边界。</p>
<p>备注:本次测试的录屏会上传视频号,源码会完整不动的上传Git仓库,有兴趣的朋友自行查阅。</p>
<h1 id="三定制的需求">三、定制的需求</h1>
<h2 id="31-提示词">3.1 提示词</h2>
<p><strong>基础需求</strong></p>
<p>使用前端编程语言,开发一款复杂的Web网站,涉及大模型信息采集和展示;进行数据分析,给用户提供有价值的参考;做一个社区板块,可以交流各种模型的使用案例;总共分为3个模块,每个模块都要填充一定的模拟数据,并且支持全站检索功能;视觉追求创意和科技感;考虑问题的复杂性,需要先设计工程架构再编写代码。</p>
<p><strong>规则约束</strong></p>
<p>第一轮:代码必须输出1000行以上,完整的放在一个html文件中,可以直接预览。</p>
<p>第二轮:代码必须输出5000行以上,完整的放在一个html文件中,可以直接预览。</p>
<p>这里简单提一句,为什么以1000行代码为基准,当时第一次被DeepSeek能力惊艳到,就是它能稳定输出千行代码,并且质量高可以运行。</p>
<p><strong>实际上自己还是沉浸在:已有的理解和习惯中。</strong></p>
<p>最近的AI编程测评,依旧沿用1000行为基准,但是从测试效果看,上述四款模型:单次输出2-3K行代码,可以兼顾代码数量和质量。</p>
<h2 id="32-四款模型测试">3.2 四款模型测试</h2>
<p>使用相同的需求和不同的约束规则,让上述四款模型分别执行。</p>
<p>首先测试1000行代码的输出能力,在本次回答中,四款模型的效果如下:</p>
<p><img alt="1" loading="lazy" src="https://img2024.cnblogs.com/blog/1691717/202508/1691717-20250811083815850-2105038884.png" class="lazyload"></p>
<p><strong>DeepSeek</strong>:输出1500行代码,布局结构和效果为本轮测试最好;</p>
<p><strong>KimiK2</strong>:输出800行代码,出现问题只能展示主页;</p>
<p><strong>千问</strong>:输出1600行代码,布局完善但视觉效果一般,存在明显问题;</p>
<p><strong>智谱</strong>:输出1200行代码,布局一般,功能相对完善。</p>
<p>再次测试5000行代码的输出能力,在本次回答中,四款模型的效果如下:</p>
<p><img alt="2" loading="lazy" src="https://img2024.cnblogs.com/blog/1691717/202508/1691717-20250811083825609-568310412.png" class="lazyload"></p>
<p><strong>DeepSeek</strong>:输出3200行代码,只能加载首页且速度很慢,整体结构略崩;</p>
<p><strong>KimiK2</strong>:输出1900行代码,加载流畅,但是布局效果一般;</p>
<p><strong>千问</strong>:输出1400行代码,布局和功能都非常完善;</p>
<p><strong>智谱</strong>:输出3200行代码,视觉和布局都是本轮测试最佳,但是中间进行了一次干预,才输出较复杂的代码。</p>
<p>所有模型代码输出都不足5000行,于是又挨个问了下面的问题:</p>
<p>请说明一下:是因为计算资源问题,还是模型能力问题,导致代码输出不够5000行?更多的回答是Token长度限制,还有就是考虑编程的工程规范,代码的精简和高效。</p>
<p><strong>其实还可以测一测:用最精简的代码实现需求。</strong></p>
<h1 id="四模型自由发挥">四、模型自由发挥</h1>
<p>上面测试中,给模型指定了需求,本轮测试降低提示词要求,但是为了可以比较,还是约束前端编程和2000行代码。</p>
<p>更考验大模型的想象能力,提示词:</p>
<p>使用前端编程语言做一个网页,做什么你自己发挥想象,功能要尽可能完善,视觉要有质感,编程只有一个要求:纯代码超过2000行,放在一个html文件中,可以直接预览。</p>
<p><img alt="3" loading="lazy" src="https://img2024.cnblogs.com/blog/1691717/202508/1691717-20250811083830210-1018338314.png" class="lazyload"></p>
<p><strong>DeepSeek</strong>:输出2100行代码,做的是任务管理仪表盘网页,为本轮测试最佳;</p>
<p><strong>KimiK2</strong>:输出800行代码,做的是<font style="color: rgba(0, 0, 0, 0.9)">3D宇宙可视化应用</font>;</p>
<p><strong>千问</strong>:输出1300行代码,做的是音乐播放器网页;</p>
<p><strong>智谱</strong>:输出1600行代码,做的是在线音乐播放器应用。</p>
<p>基于最近AI编程的使用和调研,以及上面的测评案例来说,DeepSeek的综合能力,输入信息的理解,以及内容输出的稳定性和质量。</p>
<p><strong>在前端编程这个测试场景中,个人感觉效果最佳。</strong></p>
<p>每个模型也都有能力突出的地方,KimiK2的视觉能力,智谱的布局结构,千问的功能完善;不同需求的侧重点不一样,按需选择即可。</p>
<h1 id="五最后总结">五、最后总结</h1>
<p>做大模型编程测试,其中一方面是想看看不同模型的编程能力边界,另一方面也是想在测试中挖掘想法。</p>
<p>希望这些模型的能力,能够不断的完善提高,先汇聚到一款模型上也可以,记得某天上午:付费的AI编程工具服务全部宕机,居然再次靠搜索解决问题。</p>
<p><strong>搜索引擎:我到底能不能被AI替代,回答我!</strong></p>
<pre><code class="language-plain">模型测评Git仓库
https://gitee.com/t_qhl/model-chaos

知识归档Git仓库
https://gitee.com/cicadasmile/butte-java-note
</code></pre>


</div>
<div id="MySignature" role="contentinfo">
   
互联网十年民工,现在转身独立开发者。<b> | </b> 公众号-主页<b> | </b>小红书-主页<b> | </b>抖音-主页<b> | </b> Git仓库-主页 <b> | </b><br><br>
来源:https://www.cnblogs.com/cicada-smile/p/19031412
頁: [1]
查看完整版本: AI编程:代码多,效果好?