梅菲儿产技团队 AI Native 能力指南

不是"用没用 AI",是"能不能把 AI 前沿变成个人能力、团队杠杆和组织能力"。 配套 Agent Harness 战略(2026-06-26 发布),本指南是战略落地的能力评估与行动地图。

一、为什么需要这份指南

"用过 AI"已经不构成差异。今天产技团队里很多人都在用 Claude Code、Cursor、小思——但用得多 ≠ AI Native。

真正的差距在于:能不能把新模型、新产品、新框架持续吸收成自己的能力栈、工作系统和组织影响力。这份指南把感性的"AI 探索"变成可复盘、可比较、可持续提升的框架,配套 Agent Harness 战略,作为团队"成为最佳实践者"的评估仪表盘。

三层结构(缺一不可): - 第一层 微观能力:会不会用、评估、工程化 AI(10 维) - 第二层 真实表现:AI 有没有真实改变你的工作(4 特征) - 第三层 宏观理解:懂不懂 AI 对产业/组织/职业的影响(8 维)

只会用工具不够;只自己提效不够;只看宏观没实践也不够。


二、第一层:微观能力 10 维度(适配供应链产技场景)

D1 前沿模型理解力

不是知道 GLM/DeepSeek/Claude 名字,是知道能力边界 + 任务适配 + 失败模式。

梅菲儿落地动作: - 知道小思后端走的模型网关(glm-5.2/deepseek-v4-pro 等多供应商),能按任务选模型而非永远用最强 - 知道哪个模型适合写 SQL、哪个适合改 bug、哪个适合长文档(飞书日报摘要) - 知道 failure mode:幻觉、上下文遗忘、工具调用失败——小思 BI 看板"周转天数口径错"就是典型

自评标准: 我能为不同任务建立模型选择策略,并用真实任务验证。

D2 AI 产品洞察力

通过创始人访谈 + 亲自试用 + 横评,判断 AI 产品演化方向。

梅菲儿落地动作: - 跟踪 Karpathy/CyrilXBT/ai-berkshire 等社区动态,判断对备货/仓储场景的迁移价值 - 小思新功能上线先在自己工作流里制造需求横评(如 BI 看板多轮口径修正就是横评过程) - 判断哪些是"功能"哪些是"范式":Savana 货盘迁移 Presto 是范式,不是功能

D3 AI 工程化实践力 + Loop Engineering ★

把 AI 从"一次性生成"变成可测试、可复用、可维护的工程流程。2026 年最重要的进阶是 Loop Engineering——Agent 是工人,Loop 是让工人持续进步的机制。

核心公式: Prompt → Response(一次调用)→ Generate → Evaluate → Learn → Improve(循环进化)。所有 Loop 共享一个结构:Act → Observe → Evaluate → Adjust

五大类 20 模式速查(详见团队参考文档): - 质量循环(5 模式):Generate→Critique→Rewrite / Multi-Critic / Adversarial Critique——不让差输出离开系统 - 记忆循环(5 模式):Reflexion / Error Library / Success Pattern / Memory Compression——每次失败都让下次更聪明 - 规划循环(5 模式):Plan→Execute→Replan / Dynamic Workflow / Progress Evaluation——计划碰现实就碎,螺旋上升 - 探索循环(3 模式):Branch-and-Explore / Tree Search / Debate——多路径并行找最优解 - 系统优化(2 模式):Prompt Optimization / Workflow Optimization——Loop 改进 Loop 本身

梅菲儿落地动作: - 写 spec 定义验收标准再让 agent 实现(小思生成看板的迭代节奏) - 多 agent 调度:小美 Agent + 小思并行,知道自己的"agent 调度带宽"上限 - 轨迹/证据:每次 agent 改动留 trace,不靠"感觉对" - 新增:为自己的工作流建 Critic(独立审查 Agent),生成和审查角色分离(Pattern 1) - 新增:存 Error Library——每次 agent 失败记录根因+修复,新任务前先查(Pattern 8)

自评标准: 我能用 spec/test/trace/Critic/Loop 把 AI coding 变成可靠工程流程。我的 Agent 不是只做一次,是会从失败中学习。

D4 Benchmark 方法论

会设计评测集,不只看官方榜单。

梅菲儿落地动作: - 用真实供应链任务(如备货预测准确率、看板口径对齐 BI)做自定义评测 - 知道 Arena/Artificial Analysis 榜单能说明什么、不能说明什么 - 评估时设对照组(同一看板 BI 口径 vs 小思口径)

D5 开源 AI 生态实践

practice-first:先跑最小任务再读文档。

梅菲儿落地动作: - 看到 Karpathy/Loop Engineering/ai-berkshire 这类项目,先跑通最小实例再判断迁移价值 - 不只收藏 GitHub,要能改造进自己的工作流(如 ai-berkshire 的 financial_rigor 已移植进 kb-finance-invest)

D6 个人 AI 能力栈构建力 ★(团队核心优势维度)

把外部工具吸收成自己的生产系统,复利积累。2026 年的关键基建是 Agent 记忆架构——没有记忆的 Agent 每次都是新手,有记忆的 Agent 越用越强。

Agent 记忆四层架构(参考 Matt Gunnin 生产验证): - L1 会话内上下文:身份文件 + 记忆索引,不是 system prompt 堆砌 - L2 会话后留存:每次会话结束自动提取决策/教训/偏好,下次会话自动加载 - L3 共享长期状态:多 Agent 共享的 live-context 日志,纯追加,不互相覆盖 - L4 可搜索知识:编译 wiki + 语义搜索,Agent 按需检索而非全量加载

梅菲儿落地动作: - 每次用 AI 都沉淀资产:prompt 库、skill、SOP、知识库(如姚继涛的 Oh My KB 就是 D6 典范) - 工具栈分层:信息层/工具层/技能层/流程层/自动化层/agent 层/资产层 - 定期清理低价值工具,保留能复利的能力组件 - 新增:建个人 Error Library——Agent 失败不是坏事,不记教训才是。每次失败存:根因 + 修复 + 下次怎么避免 - 新增:纠正 Agent 两次同样的错误 → 写成规则文件固化,不靠每次口头提醒

自评标准: 我有一套持续进化的个人 AI OS,新能力不断被吸收。我的 Agent 有记忆,越用越强而非每次都从头开始。

D7 前沿雷达

从信息噪音中提炼真正值得投入的方向。

梅菲儿落地动作: - 区分 hype/demo/adoption/趋势:agent/MCP/context engineering 是真趋势,要识别哪些已到生产可用 - GitHub 趋势每日看(已有 cron),但要去噪——9:03 推送的 17 个项目里真正值得迁移的不超过 2-3 个 - 把前沿变化翻译成测试/学习/工具栈调整,而非"看到就想迁移"

D8 战略判断与品味

在快速变化的 AI 周期里做低后悔率判断。

梅菲儿落地动作: - 不因新模型/新框架出现就立刻迁移(RocketMQ 迁移延期教训:技术决策要看时机和成本) - 判断真机会 vs 工程 vs 概念包装:Agent Harness 是真机会,要长期押注 - 成本意识:token 成本/学习成本/迁移成本是否值得

D9 Eval 运行能力 ★(团队当前缺口)

用真实任务数据证明 AI 哪里更好,而非"感觉好用"。

梅菲儿落地动作: - 小思看板/备货预测/财务分析,都要有 golden set 和回归测试 - 模型更新后检查工作流是否退化(如小思 BI 口径每次修正后回归验证) - 本周新增:kb-finance-invest 加了 financial_verify.py 数据校验,是 D9 的雏形——把"感觉数据对"变成"脚本校验对"

D10 安全、可靠性与治理能力 ★(Agent Harness 关键)

能力越强风险越高,区分 prompt 约束与系统强制约束。

梅菲儿落地动作: - 知道哪些不能交给模型自觉遵守:生产部署/资金/客户数据/危险命令,必须靠 hook/CI/人工审核 - 最小权限:小思/agent 访问代码仓库/文件系统/API key 的边界 - raw 只读 / wiki 由编译维护 / 隐私数据禁部署——这些都是系统强制约束,不是 prompt 里写一句


三、第二层:超级个体 4 特征(AI 加持下的真实表现)

S1 AI First 工作动线

AI 是否成为你工作的默认起点。

判断标准: - ❌ 普通:"我照常工作,遇到困难才问 AI" - ✅ 超级个体:"我先让 AI 跑一版,再在产出上做判断、修正、推进"

节奏:AI 先跑 → 人判断 → AI 扩展 → 人筛选 → AI 执行 → 人校验 → 产出。

S2 能力边界量级跃迁

AI 让你做过去做不了的事。

梅菲儿落地动作: - 量跃迁:过去一周整理的备货数据,现在一天(Fiona 19.8 万件空运盘货) - 域跃迁:产品人员能写 demo、运营能做数据分析、仓储能跑 SQL(小思 Copilot 看板让非技术岗跨越专业边界)

S3 主动边界探索

不等组织安排,主动试/跑/比较/迁移。

团队识别标准(谁是 AI 种子用户): - 看到新工具先跑真实需求(不是只看 demo) - 看到新模型先找任务测 - 看到开源项目先复现 - 主动把 AI 嵌入日常工作(如陈振华用小思全量迁移 Savana 货盘)

S4 影响力溢出 ★(Harness 战略核心目标)

区分"高效个体"和"超级个体"的关键。

判断标准: - ❌ 高效个体:自己效率高,组织没变化 - ✅ 超级个体:AI 使用方式被同事模仿、被团队采纳、被流程吸收,最终改变组织工作方式

梅菲儿目标: Agent Harness 战略要达成的就是这个——不只是姚继涛自己快,是让产技团队整体获得 AI 杠杆。"成为 Agent Harness 最佳实践者"= S4 影响力溢出。


四、第三层:宏观理解 8 维(管理层重点)

维度 梅菲儿相关判断
M1 模型算力格局 理解小思走 LiteLLM 多供应商网关的逻辑(成本/速度/质量权衡)
M2 大公司战略 理解梅菲儿做 agent 平台(agents.mayfair-inc.net)的战略定位
M3 产业结构 跨境服饰+AI:哪些环节先被改造(备货预测/质检/客服)
M4 组织结构 ★ 管理对象从人扩展到 agent;中层从"分配任务"转向"设计 AI 工作系统"——这正是产技 6 域 TL 调整的方向
M5 劳动力职业 "AI 杠杆率竞争":会用 AI 的人带 AI 系统替代不会用的人的工作方式
M6 资本商业 token 成本/推理成本影响小思商业化路径
M7 政策地缘 印度仓数据合规、跨境数据安全
M8 宏观转个人 ★ 最关键:能不能把趋势翻译成自己/团队的行动路线

五、不同岗位切入路径(不要从同一维度开始)

算法/数据岗(王超悦/王一川/孔斐凡)

切入点:D1 模型理解 + D4 Benchmark + D9 Eval - 备货预测模型要有 golden set 和回归测试 - 销量预测准确率用真实订单数据评估,不靠体感

开发岗(陈振华/胡浩/孙鹏/郑阳光)

切入点:D3 工程化 + D5 开源实践 + D10 治理 - 小思 agent 改动走 spec → test → trace → review - 生产发布走 Starlink CI/CD,危险操作靠 hook 拦不是 prompt 写

产品岗(谢鹏/陈思汝/赵情融)

切入点:D2 产品洞察 + D8 战略判断 + M6 商业 - 建小思产品库:场景/交互/付费/留存/成本结构 - 判断 Savana 货盘迁移是范式还是功能

项目管理/TL(蔡武鑫/郑紫盈/林妙慧)

切入点:D6 能力栈 + D9 Eval + S4 影响力溢出 - 把会议纪要/任务拆解/风险清单模板化沉淀 - 识别团队 AI 种子用户,推动个人经验变团队 SOP

中层领导(姚继涛)

切入点:M3 产业结构 + M4 组织结构 + S4 影响力溢出 - 设计团队 AI 工作系统(Agent Harness),让组织整体获得杠杆 - 识别高价值改造场景 + 种子用户 + 安全边界 + 制度化


六、自评表(每季度用此框架校准)

不是打分工具,是进阶地图。诚实自评,标出强项和缺口。

第一层微观能力(10 维,每项 1-5 分)

维度 1-2分(弱) 3分(中) 4-5分(强) 自评
D1 模型理解 知道名字 会选模型 懂边界+failure mode
D2 产品洞察 看新闻 试用过 横评+商业判断
D3 工程化 让AI写代码 spec+test 多agent+trace
D4 Benchmark 看榜单 会对照 设计评测集
D5 开源实践 收藏 跑过demo 改造进工作流
D6 能力栈 碎片用 有模板 持续复利
D7 前沿雷达 追热点 会去噪 翻译成行动
D8 战略判断 见新就追 会取舍 低后悔率
D9 Eval 靠感觉 有指标 golden set+回归
D10 治理 敢让AI跑 有边界 系统强制约束

第二层真实表现(4 特征,是/否)

特征 是/否 证据
S1 AI First 工作动线
S2 能力量级跃迁
S3 主动边界探索
S4 影响力溢出

第三层宏观理解(8 维,管理层重点)

按 M1-M8 各项自评 1-5 分,重点关注 M4 组织结构 + M8 宏观转个人。


七、团队目标(配套 Agent Harness 战略)

短期(1 个月): - 每人完成一次自评,识别个人 D 维度缺口 - 产技全员建立基础能力栈:个人 prompt 库 + 1 个高频 skill 沉淀 - 小思 BI 看板/备货预测补 D9 Eval(golden set + 回归) - 新增:每人建个人 Error Library——Agent 失败记录根因,新任务前先查(Pattern 8)

中期(3 个月): - 6 域 TL 各推动 1 个团队级 AI 工作流改造(如备货域 cron 自动化、仓储 Starlink 发布规范) - 识别 3-5 个 AI 种子用户,扩散最佳实践 - Agent Harness 从"姚继涛的架构"变成"团队的工作系统" - 新增:关键流程加 Critic(生成/审查分离)——备货预测/看板/质检报告至少有一个独立审查 Agent - 新增:每个 cron/定时任务加测量面板——latency + quality score,跑两周数据后找优化点(Pattern 20)

长期(6 个月+): - 产技团队整体 AI 杠杆率提升,小团队完成过去大团队的工作(S2 域跃迁) - 组织分工重构:AI workflow owner / eval owner / agent operator 角色成型 - 达成 S4 影响力溢出:AI 使用方式成为团队新标准 - 新增:Loop Engineering 成为团队默认工作方式——每个 Agent 不是做一次就结束,是 Generate→Evaluate→Learn→Improve 循环


八、判断标准(识人/招人用)

AI 种子用户识别(中层领导用): - 主动试工具、已形成工作流、愿意分享、能带动别人、能把个人经验整理成团队模板 - 参考:陈振华(小思全量迁移 Savana)、陈振华分享 Lima/cc-switch 都是种子用户特征

招聘评估(HR 用): - 不问"会不会用 AI",问"你最近迁移过哪个 AI 工作流""你怎么评估 AI 效果" - 看 D6 能力栈成熟度 + S3 主动性,比看模型知识更重要


来源与边界

附录:Loop Engineering 20 模式速查

完整参考:Oh My KB 知识库文档 loop-engineering-20-patterns.md

质量循环 — 输出离开系统前变好

# 模式 一句话
1 Generate→Critique→Rewrite 生成和审查必须角色分离
2 Score-and-Retry 量化打分,不达标重试
3 Multi-Critic 正确性/风格/安全/领域四维度独立审
4 Adversarial Critique 专职攻击答案,不改进只打碎
5 Judge Ensemble 多评委去噪,高共识才通过

记忆循环 — 从过去学习

# 模式 一句话
6 Reflexion 失败→分析根因→存教训→带教训重试
7 Memory Update 每次任务存:决策+结果+下次怎么做
8 Error Library 失败库,新任务前先查
9 Success Pattern 成功模式也存,不只存失败
10 Memory Compression 记忆膨胀→压缩为高层抽象

规划循环 — 计划碰现实就碎

# 模式 一句话
11 Plan→Execute→Replan 非瀑布,螺旋上升
12 Dynamic Workflow 管道运行时根据结果自定形状
13 Goal Decomposition 大目标递归拆到单次调用可执行
14 Progress Evaluation 每 N 步自查"离目标是否更近"
15 Constraint Satisfaction 所有规则通过才算完成

探索循环 — 多路径并行

# 模式 一句话
16 Branch-and-Explore 并行多路径,选最优
17 Tree Search 多级展开剪枝
18 Debate 双 Agent 对立辩论

系统优化 — Loop 改进 Loop

# 模式 一句话
19 Prompt Optimization 提示词自动进化
20 Workflow Optimization 系统自测 latency/cost/quality → 自调结构

附录:Agent 记忆四层架构

完整参考:Oh My KB 知识库文档 memory-four-layer-reference.md

职责 关键机制
L1 会话内 Agent 启动即知自己是谁 身份文件 + 记忆索引(常驻),按需读取
L2 会话后 会话结束自动提取关键事实 决策/教训/偏好自动推送,人工审核晋升
L3 共享状态 多 Agent 不互相矛盾 Live-context 日志,纯追加,Agent 签名
L4 搜索知识 语义搜索已编译知识 编译 wiki + 语义搜索 + 来源溯源

核心原则:全部纯 Markdown,可打开可编辑可调试。Agent 记忆是基础设施问题,不是 prompt 问题。

📖 延伸阅读:Oh My KB — Agent