不是"用没用 AI",是"能不能把 AI 前沿变成个人能力、团队杠杆和组织能力"。 配套 Agent Harness 战略(2026-06-26 发布),本指南是战略落地的能力评估与行动地图。
"用过 AI"已经不构成差异。今天产技团队里很多人都在用 Claude Code、Cursor、小思——但用得多 ≠ AI Native。
真正的差距在于:能不能把新模型、新产品、新框架持续吸收成自己的能力栈、工作系统和组织影响力。这份指南把感性的"AI 探索"变成可复盘、可比较、可持续提升的框架,配套 Agent Harness 战略,作为团队"成为最佳实践者"的评估仪表盘。
三层结构(缺一不可): - 第一层 微观能力:会不会用、评估、工程化 AI(10 维) - 第二层 真实表现:AI 有没有真实改变你的工作(4 特征) - 第三层 宏观理解:懂不懂 AI 对产业/组织/职业的影响(8 维)
只会用工具不够;只自己提效不够;只看宏观没实践也不够。
不是知道 GLM/DeepSeek/Claude 名字,是知道能力边界 + 任务适配 + 失败模式。
梅菲儿落地动作: - 知道小思后端走的模型网关(glm-5.2/deepseek-v4-pro 等多供应商),能按任务选模型而非永远用最强 - 知道哪个模型适合写 SQL、哪个适合改 bug、哪个适合长文档(飞书日报摘要) - 知道 failure mode:幻觉、上下文遗忘、工具调用失败——小思 BI 看板"周转天数口径错"就是典型
自评标准: 我能为不同任务建立模型选择策略,并用真实任务验证。
通过创始人访谈 + 亲自试用 + 横评,判断 AI 产品演化方向。
梅菲儿落地动作: - 跟踪 Karpathy/CyrilXBT/ai-berkshire 等社区动态,判断对备货/仓储场景的迁移价值 - 小思新功能上线先在自己工作流里制造需求横评(如 BI 看板多轮口径修正就是横评过程) - 判断哪些是"功能"哪些是"范式":Savana 货盘迁移 Presto 是范式,不是功能
把 AI 从"一次性生成"变成可测试、可复用、可维护的工程流程。2026 年最重要的进阶是 Loop Engineering——Agent 是工人,Loop 是让工人持续进步的机制。
核心公式: Prompt → Response(一次调用)→ Generate → Evaluate → Learn → Improve(循环进化)。所有 Loop 共享一个结构:Act → Observe → Evaluate → Adjust。
五大类 20 模式速查(详见团队参考文档): - 质量循环(5 模式):Generate→Critique→Rewrite / Multi-Critic / Adversarial Critique——不让差输出离开系统 - 记忆循环(5 模式):Reflexion / Error Library / Success Pattern / Memory Compression——每次失败都让下次更聪明 - 规划循环(5 模式):Plan→Execute→Replan / Dynamic Workflow / Progress Evaluation——计划碰现实就碎,螺旋上升 - 探索循环(3 模式):Branch-and-Explore / Tree Search / Debate——多路径并行找最优解 - 系统优化(2 模式):Prompt Optimization / Workflow Optimization——Loop 改进 Loop 本身
梅菲儿落地动作: - 写 spec 定义验收标准再让 agent 实现(小思生成看板的迭代节奏) - 多 agent 调度:小美 Agent + 小思并行,知道自己的"agent 调度带宽"上限 - 轨迹/证据:每次 agent 改动留 trace,不靠"感觉对" - 新增:为自己的工作流建 Critic(独立审查 Agent),生成和审查角色分离(Pattern 1) - 新增:存 Error Library——每次 agent 失败记录根因+修复,新任务前先查(Pattern 8)
自评标准: 我能用 spec/test/trace/Critic/Loop 把 AI coding 变成可靠工程流程。我的 Agent 不是只做一次,是会从失败中学习。
会设计评测集,不只看官方榜单。
梅菲儿落地动作: - 用真实供应链任务(如备货预测准确率、看板口径对齐 BI)做自定义评测 - 知道 Arena/Artificial Analysis 榜单能说明什么、不能说明什么 - 评估时设对照组(同一看板 BI 口径 vs 小思口径)
practice-first:先跑最小任务再读文档。
梅菲儿落地动作: - 看到 Karpathy/Loop Engineering/ai-berkshire 这类项目,先跑通最小实例再判断迁移价值 - 不只收藏 GitHub,要能改造进自己的工作流(如 ai-berkshire 的 financial_rigor 已移植进 kb-finance-invest)
把外部工具吸收成自己的生产系统,复利积累。2026 年的关键基建是 Agent 记忆架构——没有记忆的 Agent 每次都是新手,有记忆的 Agent 越用越强。
Agent 记忆四层架构(参考 Matt Gunnin 生产验证): - L1 会话内上下文:身份文件 + 记忆索引,不是 system prompt 堆砌 - L2 会话后留存:每次会话结束自动提取决策/教训/偏好,下次会话自动加载 - L3 共享长期状态:多 Agent 共享的 live-context 日志,纯追加,不互相覆盖 - L4 可搜索知识:编译 wiki + 语义搜索,Agent 按需检索而非全量加载
梅菲儿落地动作: - 每次用 AI 都沉淀资产:prompt 库、skill、SOP、知识库(如姚继涛的 Oh My KB 就是 D6 典范) - 工具栈分层:信息层/工具层/技能层/流程层/自动化层/agent 层/资产层 - 定期清理低价值工具,保留能复利的能力组件 - 新增:建个人 Error Library——Agent 失败不是坏事,不记教训才是。每次失败存:根因 + 修复 + 下次怎么避免 - 新增:纠正 Agent 两次同样的错误 → 写成规则文件固化,不靠每次口头提醒
自评标准: 我有一套持续进化的个人 AI OS,新能力不断被吸收。我的 Agent 有记忆,越用越强而非每次都从头开始。
从信息噪音中提炼真正值得投入的方向。
梅菲儿落地动作: - 区分 hype/demo/adoption/趋势:agent/MCP/context engineering 是真趋势,要识别哪些已到生产可用 - GitHub 趋势每日看(已有 cron),但要去噪——9:03 推送的 17 个项目里真正值得迁移的不超过 2-3 个 - 把前沿变化翻译成测试/学习/工具栈调整,而非"看到就想迁移"
在快速变化的 AI 周期里做低后悔率判断。
梅菲儿落地动作: - 不因新模型/新框架出现就立刻迁移(RocketMQ 迁移延期教训:技术决策要看时机和成本) - 判断真机会 vs 工程 vs 概念包装:Agent Harness 是真机会,要长期押注 - 成本意识:token 成本/学习成本/迁移成本是否值得
用真实任务数据证明 AI 哪里更好,而非"感觉好用"。
梅菲儿落地动作: - 小思看板/备货预测/财务分析,都要有 golden set 和回归测试 - 模型更新后检查工作流是否退化(如小思 BI 口径每次修正后回归验证) - 本周新增:kb-finance-invest 加了 financial_verify.py 数据校验,是 D9 的雏形——把"感觉数据对"变成"脚本校验对"
能力越强风险越高,区分 prompt 约束与系统强制约束。
梅菲儿落地动作: - 知道哪些不能交给模型自觉遵守:生产部署/资金/客户数据/危险命令,必须靠 hook/CI/人工审核 - 最小权限:小思/agent 访问代码仓库/文件系统/API key 的边界 - raw 只读 / wiki 由编译维护 / 隐私数据禁部署——这些都是系统强制约束,不是 prompt 里写一句
AI 是否成为你工作的默认起点。
判断标准: - ❌ 普通:"我照常工作,遇到困难才问 AI" - ✅ 超级个体:"我先让 AI 跑一版,再在产出上做判断、修正、推进"
节奏:AI 先跑 → 人判断 → AI 扩展 → 人筛选 → AI 执行 → 人校验 → 产出。
AI 让你做过去做不了的事。
梅菲儿落地动作: - 量跃迁:过去一周整理的备货数据,现在一天(Fiona 19.8 万件空运盘货) - 域跃迁:产品人员能写 demo、运营能做数据分析、仓储能跑 SQL(小思 Copilot 看板让非技术岗跨越专业边界)
不等组织安排,主动试/跑/比较/迁移。
团队识别标准(谁是 AI 种子用户): - 看到新工具先跑真实需求(不是只看 demo) - 看到新模型先找任务测 - 看到开源项目先复现 - 主动把 AI 嵌入日常工作(如陈振华用小思全量迁移 Savana 货盘)
区分"高效个体"和"超级个体"的关键。
判断标准: - ❌ 高效个体:自己效率高,组织没变化 - ✅ 超级个体:AI 使用方式被同事模仿、被团队采纳、被流程吸收,最终改变组织工作方式
梅菲儿目标: Agent Harness 战略要达成的就是这个——不只是姚继涛自己快,是让产技团队整体获得 AI 杠杆。"成为 Agent Harness 最佳实践者"= S4 影响力溢出。
| 维度 | 梅菲儿相关判断 |
|---|---|
| M1 模型算力格局 | 理解小思走 LiteLLM 多供应商网关的逻辑(成本/速度/质量权衡) |
| M2 大公司战略 | 理解梅菲儿做 agent 平台(agents.mayfair-inc.net)的战略定位 |
| M3 产业结构 | 跨境服饰+AI:哪些环节先被改造(备货预测/质检/客服) |
| M4 组织结构 ★ | 管理对象从人扩展到 agent;中层从"分配任务"转向"设计 AI 工作系统"——这正是产技 6 域 TL 调整的方向 |
| M5 劳动力职业 | "AI 杠杆率竞争":会用 AI 的人带 AI 系统替代不会用的人的工作方式 |
| M6 资本商业 | token 成本/推理成本影响小思商业化路径 |
| M7 政策地缘 | 印度仓数据合规、跨境数据安全 |
| M8 宏观转个人 ★ | 最关键:能不能把趋势翻译成自己/团队的行动路线 |
切入点:D1 模型理解 + D4 Benchmark + D9 Eval - 备货预测模型要有 golden set 和回归测试 - 销量预测准确率用真实订单数据评估,不靠体感
切入点:D3 工程化 + D5 开源实践 + D10 治理 - 小思 agent 改动走 spec → test → trace → review - 生产发布走 Starlink CI/CD,危险操作靠 hook 拦不是 prompt 写
切入点:D2 产品洞察 + D8 战略判断 + M6 商业 - 建小思产品库:场景/交互/付费/留存/成本结构 - 判断 Savana 货盘迁移是范式还是功能
切入点:D6 能力栈 + D9 Eval + S4 影响力溢出 - 把会议纪要/任务拆解/风险清单模板化沉淀 - 识别团队 AI 种子用户,推动个人经验变团队 SOP
切入点:M3 产业结构 + M4 组织结构 + S4 影响力溢出 - 设计团队 AI 工作系统(Agent Harness),让组织整体获得杠杆 - 识别高价值改造场景 + 种子用户 + 安全边界 + 制度化
不是打分工具,是进阶地图。诚实自评,标出强项和缺口。
| 维度 | 1-2分(弱) | 3分(中) | 4-5分(强) | 自评 |
|---|---|---|---|---|
| D1 模型理解 | 知道名字 | 会选模型 | 懂边界+failure mode | |
| D2 产品洞察 | 看新闻 | 试用过 | 横评+商业判断 | |
| D3 工程化 | 让AI写代码 | spec+test | 多agent+trace | |
| D4 Benchmark | 看榜单 | 会对照 | 设计评测集 | |
| D5 开源实践 | 收藏 | 跑过demo | 改造进工作流 | |
| D6 能力栈 | 碎片用 | 有模板 | 持续复利 | |
| D7 前沿雷达 | 追热点 | 会去噪 | 翻译成行动 | |
| D8 战略判断 | 见新就追 | 会取舍 | 低后悔率 | |
| D9 Eval | 靠感觉 | 有指标 | golden set+回归 | |
| D10 治理 | 敢让AI跑 | 有边界 | 系统强制约束 |
| 特征 | 是/否 | 证据 |
|---|---|---|
| S1 AI First 工作动线 | ||
| S2 能力量级跃迁 | ||
| S3 主动边界探索 | ||
| S4 影响力溢出 |
按 M1-M8 各项自评 1-5 分,重点关注 M4 组织结构 + M8 宏观转个人。
短期(1 个月): - 每人完成一次自评,识别个人 D 维度缺口 - 产技全员建立基础能力栈:个人 prompt 库 + 1 个高频 skill 沉淀 - 小思 BI 看板/备货预测补 D9 Eval(golden set + 回归) - 新增:每人建个人 Error Library——Agent 失败记录根因,新任务前先查(Pattern 8)
中期(3 个月): - 6 域 TL 各推动 1 个团队级 AI 工作流改造(如备货域 cron 自动化、仓储 Starlink 发布规范) - 识别 3-5 个 AI 种子用户,扩散最佳实践 - Agent Harness 从"姚继涛的架构"变成"团队的工作系统" - 新增:关键流程加 Critic(生成/审查分离)——备货预测/看板/质检报告至少有一个独立审查 Agent - 新增:每个 cron/定时任务加测量面板——latency + quality score,跑两周数据后找优化点(Pattern 20)
长期(6 个月+): - 产技团队整体 AI 杠杆率提升,小团队完成过去大团队的工作(S2 域跃迁) - 组织分工重构:AI workflow owner / eval owner / agent operator 角色成型 - 达成 S4 影响力溢出:AI 使用方式成为团队新标准 - 新增:Loop Engineering 成为团队默认工作方式——每个 Agent 不是做一次就结束,是 Generate→Evaluate→Learn→Improve 循环
AI 种子用户识别(中层领导用): - 主动试工具、已形成工作流、愿意分享、能带动别人、能把个人经验整理成团队模板 - 参考:陈振华(小思全量迁移 Savana)、陈振华分享 Lima/cc-switch 都是种子用户特征
招聘评估(HR 用): - 不问"会不会用 AI",问"你最近迁移过哪个 AI 工作流""你怎么评估 AI 效果" - 看 D6 能力栈成熟度 + S3 主动性,比看模型知识更重要
完整参考:Oh My KB 知识库文档
loop-engineering-20-patterns.md
| # | 模式 | 一句话 |
|---|---|---|
| 1 | Generate→Critique→Rewrite | 生成和审查必须角色分离 |
| 2 | Score-and-Retry | 量化打分,不达标重试 |
| 3 | Multi-Critic | 正确性/风格/安全/领域四维度独立审 |
| 4 | Adversarial Critique | 专职攻击答案,不改进只打碎 |
| 5 | Judge Ensemble | 多评委去噪,高共识才通过 |
| # | 模式 | 一句话 |
|---|---|---|
| 6 | Reflexion | 失败→分析根因→存教训→带教训重试 |
| 7 | Memory Update | 每次任务存:决策+结果+下次怎么做 |
| 8 | Error Library | 失败库,新任务前先查 |
| 9 | Success Pattern | 成功模式也存,不只存失败 |
| 10 | Memory Compression | 记忆膨胀→压缩为高层抽象 |
| # | 模式 | 一句话 |
|---|---|---|
| 11 | Plan→Execute→Replan | 非瀑布,螺旋上升 |
| 12 | Dynamic Workflow | 管道运行时根据结果自定形状 |
| 13 | Goal Decomposition | 大目标递归拆到单次调用可执行 |
| 14 | Progress Evaluation | 每 N 步自查"离目标是否更近" |
| 15 | Constraint Satisfaction | 所有规则通过才算完成 |
| # | 模式 | 一句话 |
|---|---|---|
| 16 | Branch-and-Explore | 并行多路径,选最优 |
| 17 | Tree Search | 多级展开剪枝 |
| 18 | Debate | 双 Agent 对立辩论 |
| # | 模式 | 一句话 |
|---|---|---|
| 19 | Prompt Optimization | 提示词自动进化 |
| 20 | Workflow Optimization | 系统自测 latency/cost/quality → 自调结构 |
完整参考:Oh My KB 知识库文档
memory-four-layer-reference.md
| 层 | 职责 | 关键机制 |
|---|---|---|
| L1 会话内 | Agent 启动即知自己是谁 | 身份文件 + 记忆索引(常驻),按需读取 |
| L2 会话后 | 会话结束自动提取关键事实 | 决策/教训/偏好自动推送,人工审核晋升 |
| L3 共享状态 | 多 Agent 不互相矛盾 | Live-context 日志,纯追加,Agent 签名 |
| L4 搜索知识 | 语义搜索已编译知识 | 编译 wiki + 语义搜索 + 来源溯源 |
核心原则:全部纯 Markdown,可打开可编辑可调试。Agent 记忆是基础设施问题,不是 prompt 问题。