● GitHub Pulse · AI Coding

AI Coding 热点全景
技能 · 范式 · 仓库

2026 上半年,AI 编码的主线从"对着模型许愿"(vibe coding)转向结构化、可复用、跨工具的工程化体系。下面是近期 GitHub 上最值得关注的范式演进、Skills 生态与高热仓库。

更新:2026-05-29 覆盖:Claude Code / Codex / Cursor / Gemini / Copilot star 数据来自社区博客与榜单,供参考
~190k★
ECC(everything-claude-code)
agent harness 系统
60k+
采用 AGENTS.md 的
开源项目
5 大
主流 agent 共享
Agent Skills 标准
30+
已成型的 SDD /
agentic 框架
01

核心范式:从 Vibe Coding 到 Spec-Driven Development

过去半年最大的共识:开放式 prompt 产出不稳定。业界转向"规格 → 计划 → 任务 → 代码",并把整个链路拆成分层职责。AI 在执行结构化任务时,远比面对开放式 prompt 表现稳定。

💡 用大白话说

"Vibe coding"(凭感觉写)= 你给 AI 一句模糊指令,它一口气猜着写完。问题是:需求越大,猜得越偏,而且你很难说清它哪里错了。

"Spec-Driven"(规格驱动)= 把一个大需求切成四段,每段都先对齐、落成文件,再进下一段。AI 每段只处理一个清晰小目标,出错点可定位、可回退。这就是为什么它更稳。

一句话:不是 AI 变聪明了,而是把"开放式大题"拆成了"有标准答案的小题"。下面这张表是这条流水线被拆出来的几层分工,各有代表项目。

💬 Prompt→ 旧 📋 Spec 🗺️ Plan ✅ Tasks ⌨️ Code
分层职责代表项目
Spec 框架
定义 What
产出 SPEC.md / ARCHITECTURE.md / TASKS.md,锁定"要建什么"GitHub Spec Kit OpenSpec BMAD-METHOD Intent cc-sdd
规划 / 任务
编排 How
把 spec 拆成可执行任务图,相当于"AI 项目经理"Taskmaster Agent OS Beads Feature-Driven-Flow
执行 Agent
写代码
多 agent 读仓库、改文件、跑测试、提交GSD OpenDevin CrewAI LangGraph AutoGen
AI IDE
提供界面
把规划与执行直接嵌入编辑器工作流Cursor Windsurf Kiro Claude Code
Spec-as-Source
最激进
spec 即源码,生成的代码视为"编译产物"(类比 Terraform / SQL)Tessl Intent 类平台

关键差异在于"人介入的位置":Spec 框架让人写详细需求,执行 Agent 与 Spec-as-Source 则把人推向只做高层系统设计。

02

Skills 生态爆发:一次编写,处处可用

Anthropic 于 2025-10 推出 Agent Skills 格式,2025-12 开源为标准。如今 Claude Code、OpenAI Codex CLI、Cursor、Gemini CLI、GitHub Copilot 共同支持 SKILL.md。核心机制是渐进式披露:启动时每个 skill 只扫约 100 token,真正用到才加载完整内容,比 MCP 更省 token、更易分享。

💡 用大白话说

Skill 就是一个 SKILL.md 文件:顶部一句话说"我能干什么、什么时候用我",下面才是详细步骤。AI 平时只读那一句话(约 100 token),判断"这次任务用得上"才把全文加载进来。

为什么这设计关键:你可以挂上几百个 skill 而几乎不占上下文,用到哪个才付哪个的"内存成本"。而且因为是纯文本文件,一处写好,五大工具通用,还能像代码一样分享、版本管理。

对比 MCP:MCP 是常驻的工具服务(一直占着上下文和连接);Skill 是按需翻开的说明书(不用时几乎零成本)。两者互补,不是替代。

Capability Uplift

能力补强 · 给 Claude 它原生不具备的能力
  • 文档读写(PDF / DOCX / XLSX / PPTX)
  • Playwright 实时浏览器测试
  • 安全审计(CodeQL / Semgrep)
  • Remotion 程序化视频生成

Encoded Preference

偏好固化 · 把团队"特定做法"写成规则
  • 前端美学规范(anti-slop)
  • 代码风格 / 评审清单
  • 提交与分支约定
  • 领域业务规则

分类法来自社区:Skills 大体分这两类——一类补能力,一类锁偏好。

03

高热仓库榜

按社区讨论度与 star 增速挑选(数据为社区博客 / 榜单口径,仅供横向参考)。

affaan-m/ECC~190k ★
"everything-claude-code"。agent harness 性能优化系统:skills + instincts + memory + security + research-first,一站式整合,涨星现象级。
Agent Harness
forrestchang/
andrej-karpathy-skills
~144k ★
把 Karpathy 的几条铁律(防过度设计、防静默假设、防 scope 蔓延)编码为 skill。单文件、零运行时。
Encoded Preference
firecrawl/firecrawl~126k ★
面向 AI agent 的网页抓取 / 搜索 / 爬取 / 浏览器自动化基础设施。
Capability
openai/codex~85k ★
OpenAI Codex CLI,Rust 编写,Apache-2.0 开源,支持 AGENTS.md 与 MCP,subagents 已落地。
CLI Agent
obra/superpowers~41k ★
多 agent 技能框架:brainstorm / plan / subagent 执行 / TDD / code-review 全流程,已上官方 marketplace。
Framework
coreyhaines31/
marketingskills
~13k ★
32 个营销 skill,覆盖 CRO / 文案 / SEO / 邮件 / 分析。Skills 出圈到非编码领域的代表。
Domain Skills
wshobson/agents高热
工作流积木库:83 plugins / 191 agents / 155 skills / 102 commands,Claude Code 原生、Codex 可消费。
Building Blocks
Fission-AI/OpenSpec高热
面向 AI 编码助手的 spec-driven development 工具,SDD 阵营讨论度最高的开源项目之一。
SDD
github/spec-kit官方
GitHub 官方 agent-agnostic SDD CLI,配合 Copilot / Claude Code / Gemini CLI 用一组命令引导建模。
SDD
awesome 清单合集精选
travisvn / hesreallyhim / ComposioHQ / VoltAgent / heilcheng —— skills、subagents、plugins 的社区精选入口。
Curated
04

深挖 · GitHub Spec Kit 的完整工作流

GitHub 官方出品 · MIT · 兼容 30+ agent。装法:uv tool install specify-cli + specify init <proj> --integration <agent>(需 uv / Python 3.11+ / Git)。核心是一组斜杠命令,把"凭感觉写"变成"按规格建"。支持 skills 模式的 agent(如 Codex 传 --skills)会安装为 agent skill 而非 prompt 文件。

💡 用大白话说

过去写代码是"需求文档写完就扔,代码才是真章";Spec Kit 把这件事倒过来:规格本身成为可执行的源头,代码是规格生成出来的产物,而不是规格只在旁边当参考。

它强制你分阶段走:先定项目宪法(铁律)→ 再说要建什么 → 消除歧义 → 才谈用什么技术 → 拆任务 → 最后才写码。每一步都落成文件,AI 在后续每一步都回头看这些文件,所以不会越写越跑偏。

打个比方:盖房子先签施工合同(宪法)、画设计图(spec)、定材料供应商(plan)、列施工排期(tasks),最后才动工(implement)。Spec Kit 就是逼 AI 按这个顺序来,而不是上来就砌墙。

constitution specify clarify plan analyze tasks implement
命令产物作用
/speckit.constitutionconstitution.md项目治理原则,所有决策的基石
/speckit.specifyspec.md功能规格:用户故事 + 功能需求,只谈 What/Why,不谈技术栈
/speckit.clarify覆盖式追问,规划前消除歧义(推荐)
/speckit.planplan.md · research.md · data-model.md技术实现方案,在这里才指定技术栈与架构
/speckit.analyze跨产物一致性 / 覆盖度检查(tasks 后、implement 前)
/speckit.checklist清单生成质量清单,验证需求的完整/清晰/一致——官方称之为"给英文规格写的单元测试"
/speckit.taskstasks.md按用户故事拆任务,带依赖排序、并行标记 [P]、文件路径
/speckit.taskstoissuesGitHub Issues任务转为 issue 便于跟踪
/speckit.implement代码按计划顺序执行全部任务,落地功能

已命名集成包括 Copilot(默认)、Claude Code、Gemini CLI、Codex CLI、Cursor CLI、Qwen、opencode、Kiro、Goose 等;specify integration list 可查全部。三大开发阶段:Greenfield(从零生成)· Creative Exploration(并行多方案)· Brownfield(存量迭代)。

可定制两套机制:Extensions 加新命令/能力(扩展"能做什么",如接 Jira、加代码评审);Presets 改既有产物的格式/术语(改变"怎么做",如强制合规规格模板)。两者按优先级叠加,项目本地 overrides 可做一次性微调。

05

深挖 · Agent Harness 的内部构造(以 ECC 为样本)

ECC 自称"harness-native operator system"——不是一堆 config,而是叠在 agent 之上的完整运行体系。它回答了一个关键问题:当模型够强之后,瓶颈变成"harness 工程",而非模型本身。下面是它的五大支柱。

💡 用大白话说

"Harness"(挽具/马具)指的是套在模型外面的那层工程:模型是引擎,harness 是车身、变速箱、仪表盘。同一个引擎,装进玩具车还是赛车,表现天差地别——这就是为什么"模型一样,harness 不同,效果差很多"。

ECC 的五根支柱各解决一个长期痛点:Skills 给能力、Instincts 让它从每次会话里自学经验、Memory 治"开新会话就失忆"、Security 自查秘钥与越权、Research-first 强制先查清楚再动手。

为什么值得关注:它示范了"个人/团队怎么把零散的 hook、prompt、规则,组装成一个可自我进化的操作系统",是 harness 工程化的样板。

① Skills249 个
主工作面。带 YAML frontmatter 的 markdown,可被直接调用 / 自动建议 / 复用。覆盖编码模式、运维流程、商业内容、元工作流。
② Instincts自学习
Stop hook 在会话结束抽取模式,带置信度存储;相关 instinct 经 /evolve 聚类成完整 skill;30 天 TTL 淘汰不成熟项。可跨人/项目导入导出。
③ Memory跨会话
绑定生命周期 hook:SessionStart 载入上下文(默认上限 8000 字符)、Stop 保存状态、Pre-compact 在压缩前抢救关键上下文。专治"会话失忆"。
④ SecurityAgentShield
独立扫描器(1282 测试 / 98% 覆盖 / 102 规则):秘钥检测、权限审计、hook 注入分析、MCP 风险画像。--opus 跑红队/蓝队/审计三 agent 对抗。
⑤ Research-First反幻觉
search-first skill 强制"先调研再写码",配合 docs-lookup / deep-research,用证据替代凭空臆造方案。
🔧 机制底座Hook+Agent
事件钩子(SessionStart / PreToolUse / PostToolUse / Stop,Node 脚本)+ 63 个专职 subagent + 29+ 条 always-on 规则注入系统提示。ECC_HOOK_PROFILE=minimal|standard|strict 调严格度。

它解决的 8 类痛点:会话失忆、质量不稳、重复犯错、安全盲区、上下文窗口浪费、跨工具碎片化、重幻觉轻调研、人工编排开销。

06

深挖 · 三大 CLI Agent 横评(2026)

同属 CLI agent,但定位差异明显:Claude Code 拼"自动化生态",Codex 拼"异步委派 + 系统级安全",OpenCode 拼"模型无关 + 低成本"。benchmark 与价格为文章口径。

Claude Code · Anthropic

Sonnet 4.6 / Opus 4.7 · $20→$100-200/mo
  • SWE-bench Pro 居首 64.3%(难多文件)
  • 29 个可编程 hook 事件 + Agent Teams(共享状态的并行 subagent)
  • 最成熟的 Skills 市场与插件生态
  • 弱点:贵、话痨、终端关闭即退出会话

OpenAI Codex

GPT-5.5 / 5.4 · CLI 开源 ~85k★ Apache-2.0
  • Terminal-Bench 2.0 居首 82.7%、SWE-bench Verified 88.7%
  • 异步云沙箱:派任务→收 PR,无需盯着
  • 内核级沙箱(Seatbelt/Landlock)+ 8 并行 subagent
  • 弱点:不擅交互式实时循环、偶尔谎报完成、云费难预估

OpenCode · SST(MIT,2025-06 发布,160k+★)

支持 75+ 模型提供商(Claude/GPT/DeepSeek/本地 Ollama)· $0 ~ $80/mo BYOK
  • 用最低成本拿到 Opus 4.7 级质量;有完全免费路径
  • 持久化 client/server:会话能扛 SSH 断连 / 终端断开
  • Plan 模式动手前先给完整计划;不存代码/上下文、可自托管
  • 弱点:配置摩擦大、桌面端 beta、文档落后于功能;无 Claude 那种 hook 治理
维度Claude CodeCodexOpenCode
最强 benchmarkSWE-bench Pro 64.3%Terminal-Bench 82.7%取决于所选模型
重度月成本$100-200按 token,浮动$10-80 BYOK 或 $0
执行模型交互式结对异步任务队列→PR交互 + 持久服务
锁定仅 Anthropic仅 OpenAI任意,可会话内切换
安全模型应用层内核级沙箱用户自控

一句话:深度自动化选 Claude Code,异步/系统级任务选 Codex,低成本/隐私/灵活选 OpenCode。

07

深挖 · Superpowers 全解(基于本地 v5.0.7 源码)

作者 Jesse Vincent(obra)· MIT · 你当前环境已装。它不是"一堆 prompt",而是一套完整软件开发工作流,由可组合的 skill + 强制触发机制构成。一句话定位:从你开始"建东西"那刻起,它不急着写代码,而是先逼出 spec,然后一路 TDD + 子 agent 执行,常能自主连续工作数小时不偏离计划。

14 个 skill3 个 slash 命令SessionStart hook 自动注入 跨 Claude Code / Cursor / Codex / OpenCode / Copilot / Gemini
💡 用大白话说

Spec Kit 给你"流程命令",但要你手动一步步敲;Superpowers 更进一步:它用 hook 在会话一开始就强制注入纪律,让 AI 自己判断"这事该先 brainstorm、该先写测试",不用你催。

它的杀手锏是子 agent 驱动开发:每个任务派一个全新的子 agent 去做(不带主会话的杂乱上下文),做完先过"是否符合规格"审查、再过"代码质量"审查,不过就打回重做。等于给 AI 配了独立的实现者 + 两道质检员

为什么能连干几小时:主 agent 只做调度、不被细节淹没;子 agent 上下文干净、目标单一。分工 + 自动质检,就是它"不偏离计划"的底层原因。

招牌工作流:7 步流水线(skill 自动触发,非建议而是强制)

brainstorm worktree writing-plans subagent 执行 TDD code-review finish-branch
阶段做什么
brainstorming苏格拉底式提问澄清意图,探索备选方案,分段展示设计供确认,存为设计文档
using-git-worktrees设计通过后建隔离工作区 + 新分支,跑项目初始化,验证测试基线干净
writing-plans拆成 2–5 分钟的小任务,每个任务含确切文件路径、完整代码、验证步骤(假设执行者是"没判断力、不爱测试的junior")
subagent-driven-development每个任务派一个全新 subagent,做两阶段评审;或 executing-plans 分批 + 人工检查点
test-driven-development强制 RED→GREEN→REFACTOR:先写失败测试、看它失败、写最小代码、看它通过、提交。先于测试写的代码会被删掉
requesting-code-review任务间按计划评审,按严重度报告;critical 问题阻断推进
finishing-a-development-branch验证测试,给出 merge/PR/保留/丢弃选项,清理 worktree

核心机制:subagent-driven-development 的双阶段评审环

这是 Superpowers 质量的关键。每个任务:全新 subagent(不继承主会话上下文)由控制者投喂精确上下文 → 实现+自测+提交+自审 → 先过 spec 合规评审(防多建/漏建)→ 再过代码质量评审 → 有问题就回到实现者修复并重审,直到通过 → 标记完成。全部任务后再跑一次整体终审。

实现者的 4 种状态

  • DONE → 进入 spec 评审
  • DONE_WITH_CONCERNS → 先读疑虑,涉正确性/范围则先处理
  • NEEDS_CONTEXT → 补上下文重新派发
  • BLOCKED → 按因换更强模型/拆小/升级给人,绝不原样重试

铁律(Red Flags)

  • 不在 main 分支未经同意就动手
  • 不跳过任一评审,不带未修问题进下一任务
  • 不并行派多个实现 subagent(冲突)
  • 不让 subagent 自己读 plan(直接喂全文)
  • spec 没✅前不准开始质量评审(顺序错)

模型分级降本:1–2 文件且 spec 完整 → 便宜快模型;多文件集成 → 标准模型;架构/设计/评审 → 最强模型。这正是"controller 省 token、subagent 隔离上下文"的精髓。

14 个 skill 全景

类别skill
测试test-driven-development(含 testing-anti-patterns)
调试systematic-debugging(4 阶段根因法 + root-cause-tracing / defense-in-depth / condition-based-waiting)verification-before-completion
协作brainstorming writing-plans executing-plans subagent-driven-development dispatching-parallel-agents requesting-code-review receiving-code-review using-git-worktrees finishing-a-development-branch
writing-skills using-superpowers

设计哲学 4 条:① TDD 永远先写测试 ② 系统化优于拍脑袋 ③ 复杂度削减为第一目标 ④ 证据先于断言(验证后才声称成功)。这与你 CLAUDE.md 里"先求简单 / 完成前必须真实验证"高度一致。

08

深挖 · OpenSpec(Fission-AI · 基于官方 README)

自称"The most loved spec framework"。MIT · TypeScript · npm @fission-ai/openspec · Node 20.19+。本质:给 AI 编码加一层轻量、可持续演进的 spec 层,写码前先就"建什么"对齐。它和 Spec Kit 最大的不同是增量提案制(change-based)——spec 是随每次变更持续更新的活文档,天生为存量项目(brownfield)而设计。

💡 用大白话说

Spec Kit 是"一次性为整个功能写一份大 spec",适合从零开新项目。但老项目天天改东西,你不可能每次都重写一遍全量规格。

OpenSpec 换了个思路:维护两套目录——specs/ 是"系统现在长什么样"的稳定真相;每次要改东西,先在 changes/ 里写一份"这次要改什么"的提案(只描述增量),实现完再把这份增量合并回稳定 specs。

打个比方:specs/ 像 Git 主分支(当前真相),每个 change 像一个 PR(只含 diff),archive 就是 merge。所以它天生适合存量项目、改动可追溯、文档不会腐化。

/opsx:propose→ 生成四件套 /opsx:apply→ 按 tasks 实现 /opsx:archive→ 归档+更新 specs

核心设计:两类目录 + 增量归档

openspec/specs/

稳定的"当前真相"
  • 系统现在长什么样:需求 + 场景
  • 每次 change 归档时被更新合并
  • 是单一事实源,长期演进

openspec/changes/<name>/

一个变更提案 · 四件套
  • proposal.md — 为什么做、改什么
  • specs/ — 本次涉及的需求与场景
  • design.md — 技术方案
  • tasks.md — 实现清单

实现完成后 /opsx:archive 归档到 changes/archive/<日期>-<name>/ 并把变更合并进稳定 specs。扩展 profile 另有 /opsx:new /continue /ff /verify /bulk-archive /onboard;CLI:openspec init / update / config profile;支持 25+ 工具,自带 dashboard。

横向对比(作者自述)与哲学

对比对象OpenSpec 的差异点
vs Spec KitSpec Kit 全面但:僵化阶段门、大量 Markdown、需 Python。OpenSpec 更轻、可自由迭代、无强制阶段门
vs Kiro(AWS)Kiro 强但锁死在自家 IDE、仅支持 Claude 模型。OpenSpec 用你现有工具
vs 什么都不用把"模糊 prompt + 不可预测结果"变成"先对齐再写码",带来可预测性而无繁文缛节

哲学 5 条:流动非僵化 · 迭代非瀑布 · 简单非复杂 · 为 brownfield 而非仅 greenfield · 从个人项目可扩到企业。实操:官方推荐 Codex 5.5 / Opus 4.7 做规划与实现;强调 context hygiene(实现前清空上下文);telemetry 可用 OPENSPEC_TELEMETRY=0 关闭。

09

深挖 · BMAD-METHOD(bmad-code-org · 基于官方 README)

名字玩梗 "Build More Architect Dreams"。MIT · npm bmad-method · 需 Node 20.12+ & Python 3.10+ & uv。本质不是"加一层 spec",而是一整套虚拟敏捷团队:用 12+ 个专职 agent 角色(PM/架构/开发/UX…)把"从想法到上线"的完整生命周期跑通,scale-adaptive(按项目规模自动伸缩流程)。

💡 用大白话说

Spec Kit / OpenSpec 解决的是"建什么"(规格);BMAD 解决的是"谁来建、按什么角色协作"。它把一个开发团队的岗位——产品经理、架构师、开发、UX、测试——各做成一个 AI 角色,每个角色有自己的职责和产出物。

你不是对着一个"全能 AI"许愿,而是依次召唤不同角色:先让 PM 角色理需求、架构师角色定方案,再交给开发角色落地。角色之间通过文件工件交接,像真实敏捷团队的协作流。

代价与回报:环境最重(Node+Python+uv)、要学的角色最多;但换来的是覆盖"从想法到上线"的完整流程。适合复杂项目、想要一支"虚拟团队"的人。

npx bmad-method install→ 装模块+角色 规划角色PM/架构产出工件 开发角色按工件落地实现

模块化:按需装,不是一坨

核心 / 规划开发

  • BMM — 核心方法,34+ 工作流
  • BMB — Builder,自造 agent/工作流
  • TEA — Test Architect,测试架构

扩展领域

  • BMGD — Game Dev,游戏开发
  • CIS — Creative Intelligence,创意
  • bmad-help — 内置导航 skill

特色玩法 Party Mode:多角色同处一个会话互相对线,像开真实评审会。Web Bundles:把规划流程打包成 Gemini Gems / ChatGPT Custom GPTs,用包月模型做规划再回到 CLI 实现,省 token。

V6 主要升级

能力说明
Cross Platform Agent Team同一套角色跨多个 CLI/平台复用
Sub Agent + Skills对齐 Anthropic 子代理与 Skills 架构
BMad Builder v1用框架造框架,自定义角色与工作流
Dev Loop Automation开发循环自动化,减少人工串场

定位对照:Spec Kit/OpenSpec 解决"建什么"的对齐,BMAD 解决"谁来建、按什么流程建"——最重,但覆盖面也最广。下一节用一张表把三者放一起选型。

10

选型决策 · Spec Kit vs OpenSpec vs BMAD

三个最热的 SDD(规格驱动)框架,定位差别很大。下面这张表帮你按项目情况选,不用三个都学。

维度 Spec Kit OpenSpec BMAD-METHOD
出品方GitHub 官方Fission-AIbmad-code-org
本质规格优先的阶段门流程变更增量(delta)+活文档agent 角色驱动的全生命周期 agile
spec 模型一次性 spec.md → plan → tasksspecs/(稳定真相)+ changes/(提案)PM/架构/开发等角色产出工件
技术栈PythonNode / TypeScriptNode 20+ & Python 3.10+ & uv
安装specify CLInpm @fission-ai/openspecnpx bmad-method install
重量重 · 流程僵化 · 门禁强 · 流动 · 改动小最重 · 12+ agent · 覆盖全流程
brownfield偏弱(为新项目设计)(增量最适合存量改造)强(规划与开发分离)
工具兼容30+ agent CLI25+ 主流 CLI · 自带 dashboard跨平台 + Web Bundles(Gemini/ChatGPT)
适用场景中大型新项目、强约束团队存量迭代、改动要可追溯完整产品团队、从想法到上线

选 Spec Kit,如果…

  • 全新项目,想从第一行就立强约束
  • 团队需要明确阶段门来卡质量
  • 不排斥 Python 环境与较重流程

选 OpenSpec,如果…

  • 存量项目持续迭代
  • 想要每次改动可追溯且文档不腐化
  • 偏好 Node 生态、轻量、无强制阶段门

选 BMAD,如果…

  • 想要一整套虚拟敏捷团队(PM/架构/开发/UX)覆盖规划到开发
  • 项目复杂、需要 scale-adaptive 的工作流与角色协作
  • 能接受最重的环境依赖(Node + Python + uv)

一句话选型:新项目要强约束 → Spec Kit;老项目持续迭代要可追溯 → OpenSpec;想要虚拟团队覆盖全流程 → BMAD。三者并不互斥:可用 OpenSpec 管日常增量,大型立项时再上 Spec Kit / BMAD。

11

值得注意的子趋势

🧹

反"AI 味"运动(Anti-Slop)

大量 skill 专治千篇一律的 AI 输出。典型是 frontend-design:禁用 Inter 字体、中性灰、8px 圆角这类默认套路,强制"先定美学再写码"。Vercel 的 Web Design Guidelines / React Best Practices 装机量极高。

🧠

Agent Harness 与持续记忆

从"单次会话"转向"会带记忆、能从重复错误中学习"的体系。ECC 把 skills / instincts / memory / security / research-first 打包成 harness,hooks + 评审循环让设置越用越聪明。

🔀

BYOA:Bring Your Own Agent

工具链解耦。同一套 spec / skill 喂给不同 agent(Claude Code / Codex / Cursor 通吃),AGENTS.md 成为跨工具的"agent README",已被 60k+ 项目采用。

🤝

多 Agent 编排 + 两阶段评审

subagent 并行执行 + 计划/代码双重 review 成为标配。Superpowers 是范本,Codex 也已支持 subagents 与 custom agents。

🌐

Skills 出圈到非编码领域

科研(K-Dense-AI/scientific-agent-skills)、营销(Corey Haines 32 skills)等说明 SKILL.md 正成为通用的"专家能力封装格式",不再局限于写代码。

12

时间线:标准是怎么长出来的

2025-09
Anthropic 发布《Effective Context Engineering for AI Agents》 —— context engineering 概念定调
2025-09
GitHub 开源 Spec Kit —— agent-agnostic 的 SDD 工具链落地
2025-10
Anthropic 推出 Agent Skills 格式(SKILL.md) —— 渐进式披露机制
2025-12
Skills 开源为开放标准 —— Codex / Cursor / Gemini / Copilot 陆续采纳
2026-01
Superpowers 登上官方 Claude marketplace —— 多 agent 框架主流化
2026-Q1
SDD 框架井喷,30+ 框架成图谱 —— "SDD is eating software engineering"
2026-Q2
Agent Harness(ECC 等)走红 —— 焦点从"能跑"转向"质量与持续学习"
13

给你的实操建议

你当前环境已装 Superpowers,下面三步可直接叠加收益。

STEP 01

引入一个 SDD 框架

选 Spec Kit 或 OpenSpec,把"需求 → 任务"结构化,减少开放式 prompt 带来的返工。

STEP 02

固化团队规范为 Skill

从 awesome 清单挑 Encoded Preference 类 skill,把代码风格、评审清单、提交约定写进 SKILL.md。

STEP 03

给前端项目上 anti-slop

frontend-design / Vercel 规范类 skill 对 UI 项目收益最直接,杜绝"AI 味"默认输出。