AI编程：代码多，效果好？

锦绣坊 發表於 2025-8-11 08:59:00

<blockquote>
七号楼专栏，大模型测评第01期。
</blockquote>
<h1 id="一简介">一、简介</h1>
2024年AI编程刚有热度，互联网又嗅到降本增效的味道。
入职场到现在，记忆里还有低代码，超级SaaS，数字化转型，大模型，AI应用之编程；这些新概念的出场，都是在各种骂骂咧咧中，深夜王炸的吹嘘声中。
沿着信息化，数字化，智能化的方向持续推进。
在2024上半年，当时还在职场悠哉悠哉的划水，公司已经开始火急火燎的推广AI工具，其中以视觉设计和编程两个岗位最直接。
市场认可的AI工具，直接买最贵的会员。
当时自己在做电商的供应链，对于业务模式一知半解，所以在尝试大模型梳理业务，业务理清楚就拆分数据模型，然后投给AI编程工具，直接设计数据表结构。
那会AI还只能辅助写代码，核心业务工程还得靠自己手搓。
部门当时流传一句玩笑：用自己熟练的技能训练AI，等AI熟练后再替代自己，约等于我助推自己失业。
没过多久，那句玩笑话就扎心了。
在2024年，还只是间歇性体验一下大模型的能力水平；到2025年中，已经踩着AI风口，走上独立开发的探索。
AI编程的回旋镖，还是落在了程序员的手里。
<h1 id="二测评指标">二、测评指标</h1>
独立开发之后，整天在各种模型和AI插件里切换。
捏着鼻子用多了就会发现：各家模型都有自己擅长的能力，这与不同平台所掌握的优质数据有关系，比如电商跨境，本地生活，内容制作，行业分析等。
今年各家大模型，似乎都卷向了编程领域。
从现象来说，人工智能带火了独立开发赛道，这是一个庞大且有确定性的市场；从本质来说，编程的内核是结构和数学算法，很适配大模型在应用层的探索。
比较有意思的是：在今天刚发布的GPT5，从官方简介和部分测评来看，也号称编程能力一骑绝尘。
对于很多开发者来说，当积累一定的能力和年龄之后，我们都倾向等一个好的创业团队，等一个好的想法和产品，甚至很多想法在反复思考后，总觉得不够完美，或者无法实现。
在人工智能快速发展的当下，借助大模型的编程能力，可以快速的实现产品并进行传播测试。
尝试机会的过程中，再次寻找机会。
本期的内容，站在一个普通开发者的角度，来综合测评一下AI的编程能力。
参与的模型只有国内四款：DeepSeek，通义千问，Kimi，智谱。
作为一个开发者，更多关注的是：代码量，代码质量，呈现效果；选择前端编程领域，可以看到实时的效果，目的是探索大模型编程的能力边界。
备注：本次测试的录屏会上传视频号，源码会完整不动的上传Git仓库，有兴趣的朋友自行查阅。
<h1 id="三定制的需求">三、定制的需求</h1>
<h2 id="31-提示词">3.1 提示词</h2>
基础需求
使用前端编程语言，开发一款复杂的Web网站，涉及大模型信息采集和展示；进行数据分析，给用户提供有价值的参考；做一个社区板块，可以交流各种模型的使用案例；总共分为3个模块，每个模块都要填充一定的模拟数据，并且支持全站检索功能；视觉追求创意和科技感；考虑问题的复杂性，需要先设计工程架构再编写代码。
规则约束
第一轮：代码必须输出1000行以上，完整的放在一个html文件中，可以直接预览。
第二轮：代码必须输出5000行以上，完整的放在一个html文件中，可以直接预览。
这里简单提一句，为什么以1000行代码为基准，当时第一次被DeepSeek能力惊艳到，就是它能稳定输出千行代码，并且质量高可以运行。
实际上自己还是沉浸在：已有的理解和习惯中。
最近的AI编程测评，依旧沿用1000行为基准，但是从测试效果看，上述四款模型：单次输出2-3K行代码，可以兼顾代码数量和质量。
<h2 id="32-四款模型测试">3.2 四款模型测试</h2>
使用相同的需求和不同的约束规则，让上述四款模型分别执行。
首先测试1000行代码的输出能力，在本次回答中，四款模型的效果如下：
<img alt="1" loading="lazy" src="https://img2024.cnblogs.com/blog/1691717/202508/1691717-20250811083815850-2105038884.png" class="lazyload">
DeepSeek：输出1500行代码，布局结构和效果为本轮测试最好；
KimiK2：输出800行代码，出现问题只能展示主页；
千问：输出1600行代码，布局完善但视觉效果一般，存在明显问题；
智谱：输出1200行代码，布局一般，功能相对完善。
再次测试5000行代码的输出能力，在本次回答中，四款模型的效果如下：
<img alt="2" loading="lazy" src="https://img2024.cnblogs.com/blog/1691717/202508/1691717-20250811083825609-568310412.png" class="lazyload">
DeepSeek：输出3200行代码，只能加载首页且速度很慢，整体结构略崩；
KimiK2：输出1900行代码，加载流畅，但是布局效果一般；
千问：输出1400行代码，布局和功能都非常完善；
智谱：输出3200行代码，视觉和布局都是本轮测试最佳，但是中间进行了一次干预，才输出较复杂的代码。
所有模型代码输出都不足5000行，于是又挨个问了下面的问题：
请说明一下：是因为计算资源问题，还是模型能力问题，导致代码输出不够5000行？更多的回答是Token长度限制，还有就是考虑编程的工程规范，代码的精简和高效。
其实还可以测一测：用最精简的代码实现需求。
<h1 id="四模型自由发挥">四、模型自由发挥</h1>
上面测试中，给模型指定了需求，本轮测试降低提示词要求，但是为了可以比较，还是约束前端编程和2000行代码。
更考验大模型的想象能力，提示词：
使用前端编程语言做一个网页，做什么你自己发挥想象，功能要尽可能完善，视觉要有质感，编程只有一个要求：纯代码超过2000行，放在一个html文件中，可以直接预览。
<img alt="3" loading="lazy" src="https://img2024.cnblogs.com/blog/1691717/202508/1691717-20250811083830210-1018338314.png" class="lazyload">
DeepSeek：输出2100行代码，做的是任务管理仪表盘网页，为本轮测试最佳；
KimiK2：输出800行代码，做的是3D宇宙可视化应用；
千问：输出1300行代码，做的是音乐播放器网页；
智谱：输出1600行代码，做的是在线音乐播放器应用。
基于最近AI编程的使用和调研，以及上面的测评案例来说，DeepSeek的综合能力，输入信息的理解，以及内容输出的稳定性和质量。
在前端编程这个测试场景中，个人感觉效果最佳。
每个模型也都有能力突出的地方，KimiK2的视觉能力，智谱的布局结构，千问的功能完善；不同需求的侧重点不一样，按需选择即可。
<h1 id="五最后总结">五、最后总结</h1>
做大模型编程测试，其中一方面是想看看不同模型的编程能力边界，另一方面也是想在测试中挖掘想法。
希望这些模型的能力，能够不断的完善提高，先汇聚到一款模型上也可以，记得某天上午：付费的AI编程工具服务全部宕机，居然再次靠搜索解决问题。
搜索引擎：我到底能不能被AI替代，回答我！
<pre><code class="language-plain">模型测评Git仓库
https://gitee.com/t_qhl/model-chaos

知识归档Git仓库
https://gitee.com/cicadasmile/butte-java-note
</code></pre>

</div>
<div id="MySignature" role="contentinfo">

互联网十年民工，现在转身独立开发者。 | 公众号-主页 | 小红书-主页 | 抖音-主页 | Git仓库-主页 | 
来源：https://www.cnblogs.com/cicada-smile/p/19031412

頁: [1]

圆梦公社's Archiver

AI编程：代码多，效果好？