250 行配置赢得 MLSys 竞赛：Harness 工程实践

Mon, 01 Jun 2026 00:00:00 +0000

250 行配置赢得 MLSys 竞赛：Harness 工程实践

MLSys 2026 FlashInfer AI Kernel Generation Contest，DSA 赛道。

Dogacel（Doğaç Eldenk）拿到双料第一：Full-Agent 模式 34.93x over baseline，Agent-Assisted 同样第一。34.93x 是所有参赛方案中单 kernel 最高加速比，最终延迟 0.010ms，跑在 NVIDIA Blackwell B200 上。

单人团队。一个人、一个 Claude Code、一个 Modal 账号、不到 250 行配置文件。

这篇文章不讲 kernel 怎么写。要拆的是 harness——不是让 Agent 变聪明，而是设计一套机制管住它。

一、问题：Agent 会反复踩同一个坑

让 Agent 自主优化 kernel，流程很自然：给 baseline、给 benchmark、让它自己迭代。实际跑起来会卡在一个地方——它在同一个方向上反复尝试。NUM_WARPS=8 不行试 4，不行试 16；.cg on K loads 不行试 on Q loads，不行试 on partial stores。每一步改动单独看都合理，但整个方向已经到头了。

原因不少。对话上下文积累了错误的推理路径和过时的直觉；它不会主动从历史记录里系统性提取教训；它倾向于提前宣布"这个方向已经到头了"——然后又换一个方向重复同样的模式。更根本的是，缺一个机制让它在瓶颈时停下来换视角。

Dogacel 的 harness 对这些问题逐个设计了约束。

二、约束层：CLAUDE.md

CLAUDE.md 放在工作目录下，Claude Code 启动时自动加载。不是使用指南，是宪法——只划边界。

MLSys on John Chen's blog

250 行配置赢得 MLSys 竞赛：Harness 工程实践

250 行配置赢得 MLSys 竞赛：Harness 工程实践

一、问题：Agent 会反复踩同一个坑

二、约束层：CLAUDE.md