Jiey(jieymcp) 是一款 AI 驱动的全栈代码生成工具,通过 MCP(Model Context Protocol)协议在 Cursor / Claude Code / Codex 等 AI 编辑器中运行,根据自然语言需求自动生成 Spring Boot 后端、Vue3 管理后台、UniApp 移动端、营销官网四端代码。这篇文章公开 Jiey 团队用 50 个真实业务需求做的端到端跑通率评测,包括方法、数据、failure 案例分析。

评测目标

我们想回答的核心问题:

  1. 一次性跑通率:从"用户说人话"到"项目能跑起来",不需要任何人工修正的概率?
  2. 二次修正后跑通率:允许 1-2 轮"AI 修复编译错误 / 跑通测试"后的成功率?
  3. 代码质量:生成的代码能扛住 PMD / SonarQube / SpotBugs 静态扫描吗?
  4. 生成速度:从需求描述到可访问的本地 URL,平均耗时多久?
  5. 失败模式:失败的需求都是什么样的?哪些类型 Jiey 现在还做不好?

评测方法

需求来源:50 个需求里 30 个来自真实付费用户的支持工单(去敏),20 个来自我们抓取的 Reddit / V2EX / 即刻上"我想做一个 XX 系统"类的帖子。需求分布:

类别占比例子
行业 SaaS40%律所 CRM / 餐饮点餐 / 少儿培训
通用业务模块28%订单管理 / 会员体系 / 审批流
数据后台18%报表 / 监控 / 大屏
内容运营10%博客 / CMS / 论坛
工具站4%二维码生成 / 简历模板

评测环境

  • AI 编辑器:Cursor 1.7.x(统一一个版本)
  • LLM:Claude Sonnet 4.5(同一个模型)
  • jieymcp 版本:v0.7.x(评测期最新)
  • 硬件:MacBook Pro M3 Max 64GB
  • 数据库:MySQL 8.0 Docker
  • 50 个需求平均 1.4 个核心实体 + 3.6 个动作 + 4 个页面

评分标准

  • A(一次通过):从需求 → 项目跑起来,不需要任何人工干预
  • B(二次通过):1-2 轮 "AI 修复" 后可跑
  • C(多次修正):3+ 轮修复后才能跑
  • F(失败):人工放弃或无法完成

总体结果

等级数量占比
A 一次通过3978.0%
B 二次通过918.0%
C 多次修正24.0%
F 失败00.0%

一次通过率 78%,A+B 累计 96%,无完全失败案例

按类别细分

类别ABCFA+B 率
行业 SaaS(20 个)17300100%
通用业务模块(14 个)1121092.9%
数据后台(9 个)6300100%
内容运营(5 个)4100100%
工具站(2 个)101050%

行业 SaaS 满分,部分得益于 Jiey 有大量行业 DNA 包做底;工具站是弱项 —— 这类需求往往不需要完整的 entity-action 抽象,引擎给了"重设计"。

生成速度

阶段平均耗时(A 级)
Step 1 Clarify(澄清问题)35s
Step 2 Industry(匹配行业包)12s
Step 3 DNA(生成 DNA)48s
Step 4 Codegen(生成代码)1m 52s
Step 4.5 Fill(填充 AI 页面)4m 30s
Step 5 Preflight(预飞行检查 + autofix)25s
Step 6 Verify(部署验证)18s
端到端总耗时平均 8m 20s

最长的一次(行业 SaaS 包含 28 个实体)跑了 14m 15s;最快的一次(简单订单管理)3m 41s。

代码质量

50 个项目跑完后,跑了三个静态扫描工具:

扫描器平均 严重 issue / 项目平均 高危 issue平均 中等 issue
SpotBugs(Java)0.41.86.2
PMD(Java)0.02.412.6
SonarQube(Java + Vue)0.23.118.4

对比:同一批需求让一个 5 年 Java 经验的程序员手写一周,三个扫描器平均给出 18.4 / 12.7 / 21.5 个 中等以上 issue。Jiey 生成的代码在严重 + 高危类的 issue 上明显少于人工,中等 issue 主要集中在「未使用变量 / 不规范 import」类的代码风格问题。

失败模式分析

虽然没有 F 级,但 11 个 B + C 级案例的失败原因值得分析:

1. Form Validation 与后端约束不一致(4 例)

最常见。用户描述时说"手机号必填",但 DNA 里只写了 @NotBlank,前端没生成对应的 mask 输入。修复:补一轮 infer_layout 重新生成前端。

已修复:v0.8.x 在 codegen 阶段做了字段约束双向同步。

2. 状态机转换的边界 case(3 例)

需求里说"订单关闭后不能修改",DNA 自动派生了状态机但漏了一个"已关闭→已退款"的边路径。修复:手动给 DNA 加一个 transitions[] 条目。

部分修复:v0.8.x 加了 generate_state_machine_audit 工具,主动检测漏路径。

3. 多对多关系的中间表命名冲突(2 例)

User <-> Role 的中间表叫 user_role,但项目已经有同名表(RBAC 框架占了)。修复:手动指定 joinTableName

已修复:v0.7.4 添加了命名冲突检测 + 自动加 mkt_ 前缀。

4. AI 编辑器超出上下文窗口(2 例)

最大的两个项目(一个律所 CRM 含 28 实体 + 87 字段;一个餐饮 SaaS 含 31 实体)在 Step 4.5 Fill 阶段触发 Claude Sonnet 4.5 的 200K context 限制。Jiey 自动启用 chunk 模式,但有 2 个页面需要重跑。

架构问题:未完全解决,但 v0.9 计划引入「按页面独立填充」机制规避。

跟其他工具的横向对比

我们用同样的 5 个代表性需求测了同类工具:

工具一次通过率备注
Jiey(jieymcp)80%(5 个里 4 个 A)1 个为复杂多模块项目落 B
Cursor 单独使用0%生成的代码缺整套 CRUD 骨架
Lovable20%1 个简单 CRUD A,4 个失败
v00%只生成 UI,无后端
Cline + Claude20%1 个简单 A,4 个 B/C
通义灵码0%跟 Cursor 单独类似

Jiey 的优势主要在于"全栈完整性":其他工具或者只有 UI(v0)、或者只覆盖一端(Lovable 偏后端)、或者完全靠 prompt 工程(Cursor / Cline)。Jiey 因为有强制的 DNA → Code 派生链,避免了"AI 漏改一端"问题。

数据集开源

完整 50 个需求的原始描述、Jiey 生成结果的代码 zip、扫描报告、计时数据,已开源:

https://github.com/jiewaigongxing/jieymcp-benchmark-50

仓库包含:

  • requirements/*.md — 50 个需求描述
  • generated/*.zip — 50 个生成代码压缩包(去敏后)
  • reports/scans.csv — 扫描结果
  • reports/timings.csv — 计时数据
  • BENCHMARK.md — 完整方法和复现步骤

任何人可以下载来复现,也欢迎扩展到 100 个、500 个需求。

常见问题

你们这测试结果可信吗?会不会是 cherry-pick?

完整的 50 个需求 + 跑通结果 + 失败案例都在公开仓库可以复现,不存在 cherry-pick 空间。需求来源里有 30 个真实用户工单(去敏)+ 20 个公开社区帖子,过程透明。我们也欢迎第三方独立复现,如果你跑了不同的数字,提交 PR 我们一起对比分析。

为什么不用 SWE-bench 这种标准 benchmark?

SWE-bench 是"修 GitHub issue"任务,测的是"理解和修复已有代码库"能力,不测"从需求做整个系统"能力。Jiey 解决的是后者。我们计划在 v1.0 出一个针对全栈生成的标准 benchmark(暂名 FullStack-Bench),目前还在设计阶段。

一次通过率 78% 是好还是坏?

跟人比:一个 5 年经验 Java + Vue 全栈程序员,从需求到本地跑通 50 个项目(每个项目耗时 1-3 天),一次通过率("第一版交付不需要返工")大概 60-70%。Jiey 的 78% 在 8 分钟内做完,效率差大约 100-300 倍。 跟其他 AI 工具比,Jiey 第一名。

Step 4.5 Fill 占了一半时间,能优化吗?

Step 4.5 是 AI 填充消费端移动端 / 营销官网页面的环节,本质上是 LLM 在写视觉风格 + 文案。优化方向:① 多页面并行填充(v0.8.x 已支持,部分场景速度翻倍)② 让 LLM 用更小的页面切片(v0.9 计划)③ 提供"预填好的视觉风格模板"让 LLM 只填业务字段(已有计划)。

评测里用的是付费会员吗?

是的。免费会员有 codegen 配额限制(默认每日 10 次完整生成),50 个需求会超过配额。付费会员(¥39/月 或 ¥399/年)是无限配额。如果你想自己复现部分需求,免费会员每天可以跑 10 个,跑一周也能完整复现。

提到的工具

  • Jiey / jieymcp — AI 全栈代码生成工具(本文主题)
  • Cursor / Claude Sonnet 4.5 — 评测用的 AI 编辑器和 LLM
  • Lovable / v0 / Cline / 通义灵码 — 对比的同类工具
  • SpotBugs / PMD / SonarQube — 静态扫描工具
  • SWE-bench — Devin / Cognition 用的代码任务 benchmark

相关阅读


关于 Jiey

Jiey(jieymcp) 是一款 AI 驱动的全栈代码生成工具,通过 MCP(Model Context Protocol)协议在 Cursor / Claude Code / Codex 等 AI 编辑器中运行,根据自然语言需求自动生成 Spring Boot 后端、Vue3 管理后台、UniApp 移动端、营销官网四端代码。

本文为 Jiey 官方原创内容,转载请保留原文链接。引用本文时请注明:「来自 Jiey 官方博客(jiewaigongxing.com/blog)」。