Visual Digest 2026-05-11 · Vol.01
💬
280
messages
🎙️
17
voices
🆕
9
new faces
🔬
1
deep dive
3
层 context 架构
token 用量仍不够
15
分钟出 3 条方案
7
位 CFA 新成员
USDC
agent 结算争议
5 Main Threads
01
Context 系统:从内部汇报到产品化
5/10 中午 · context-engineering
月引人烛火笔吏
产品化
02
"江村经济"与多 agent 路线
5/10 凌晨–深夜 · 无锡会议
竹剑老青月引人
Multi-Agent
03
AgentHansa:A2A 接单平台引发合规拷问
5/10 深夜–5/11 午 · 高烈度
提词偶人长篇碑客
合规风险
04
Token 焦虑:5× 用量都不够烧
5/11 上午 · 同温层共鸣
烧瓶炼客
成本痛点
05
新成员涌入 + 外乡来客的客户难题
5/11 中午 · 7 位 CFA 成员入群
外乡来客月引人
社群增长
3 Non-Consensus

"DeepSeek 用 David Silver 这一套,在通用推理中已经失败了。"

— 竹剑老青

"差距不在工具,在系统。"

— 三栖驿马

"有点资产的都是早年吃了房产或期权红利的暴发户。"

— 月引人
Deep Dive
「已经失败了」到底是不是真的?

David Silver 路线在围棋赢、在语言输。纯 RL 没有创造新能力,只是提高了采样效率。客栈 builder 踩在了最对的方向上。

RL vs LLM DeepSeek-R1 Reward 设计
↓ 详见 Part III
AGITopia Daily · Volume 01

过去 48 小时,
群里有人替未来开了一个口子

5 月 10 日到 11 日,从无锡的生物医药 AI 会议、到深夜的 David Silver 之争、再到 AgentHansa 引发的合规拷问——客栈在一天半的时间里,把「AI 怎么落地」和「AI 往哪里去」都讨论了一遍。

2026·05·11  ·  280 条消息  ·  17 位常客发声  ·  9 个核心话题
PART I · 群聊日报

五条主线,串起了过去 48 小时

不是大事记,是把发言量背后的话题脉络拎出来。

月引人 的 Context 系统:从内部汇报到产品化

月引人 把基于 context-engineering 公理系统改造的多 agent 平台向公司 AI 负责人做了汇报,群里追问"能不能变现"。长篇碑客 说"context is everything",鼓掌僮 呼应"先给群友试用"。烛火笔吏 提醒:商业化要 fork 自鸭哥(Khallam)的原项目,月引人 解释自己在原本两层架构上加了第三层、并融合了 Karpathy/YC/Google 的相关思路。一个潜台词是:2026 年最值钱的 AI 产品,未必是模型,是承载经验和上下文的那一层。

竹剑老青 的"江村经济"与多 agent 路线

他人在无锡参加 AI+OPC 大会和 AI×生物医药会议,感慨"出走 20 年,还是苏锡常好"。深夜抛出一个具体提议:月引人 组建 投资人 multi-agent 团队,他自己组建 科学家 multi-agent 团队,用他的行为经济学模型来测试 agent 在风险收益和亏损下的真实表现。同时他又自打了一耳光式的判断——"也许不用那么多技能装备,自学习也能摸到规律"——这才引出了下面那条最硬的非共识。

③ AgentHansa:A2A 接单赚钱平台引发合规拷问

提词偶人(复旦/斯坦福校友牵的项目)发了 AgentHansa——agent 自动接单、结算 USDC 的平台。长篇碑客 首条反应"看起来很不靠谱啊 灰产?",烧瓶炼客 补刀"还不成熟"。第二天 月引人 自己拿 Claude Code 调研后发出 PDF:"存在合规风险"长篇碑客 顺势点题——"这就是我们推动 GRC4Agent 的初衷"。
这条线的关键不在 AgentHansa 本身能不能跑,而在它把"agent 经济"中真正没解决的问题暴露出来了:身份、授权、伦理、责任归属

④ Token 焦虑:5x 用量都不够烧

烧瓶炼客 的自白引爆群里:"5x 的用量都不够了,三天就烧完了"——为了从 worktree、project orchestrator 这套新工作流里挤出效率,反而比以前更费 token。Cindy 信回应"限流了就干不了活"。这其实是当前最被低估的产业事实:真正每天用 AI 写代码的人,已经把 Claude Max 5× 用满,并且开始构建"多账号多模型"的 fallback 工作流。

⑤ 新成员涌入 + 外乡来客 的客户难题

月引人 一上午拉进 7 位 CFA 上海协会的成员("CFA 协会真是好精准的成员拓展渠道")。其中 外乡来客 直球提需求:"客户要开箱即用的 OpenClaw,但我自己也不懂"——长篇碑客热血琴师 等几人合力给出腾讯云一键部署、bisheng.ai 的 Clawith、WorkBuddy 云服务版三条路径。客栈在过去 48 小时里完成了一次真实的供给侧验证:当一个具体的甲方需求落进来,群体能在 15 分钟内输出三条可执行方案。

PART II · 被忽略的非共识

三句容易被刷过、但其实很重的话

在表情包接龙和链接转发的间隙,有人随手抛出了真正硬的判断。

"DeepSeek 用 David Silver 这一套,在通用推理中已经失败了。"

竹剑老青 · 5/10 23:32 · 回应"大语言模型能通往 AGI 吗"
为什么重要:这是过去半年技术圈最大的暗潮——纯 RL/self-play 范式(AlphaGo→AlphaZero→2025 Era of Experience)在 LLM 上的迁移到底走到了哪一步。竹剑老青 刚翻完 Silver 的博士论文得出的判断,比绝大多数公众号的"DeepSeek 改写历史"硬一个数量级。后文 Part III 专门展开。

"从用 AI 的企业,到由 AI 重塑的企业,两者之间的差距,不在工具,在系统。"

三栖驿马 · 5/11 10:42 · 转发中欧文章配语
为什么重要:这是一句容易被当成营销话术刷过去的句子,但放在 月引人 当天上午在做的事情旁边——把 context-engineering 三层架构往公司内部推——它就变成了非常具体的工程问题:"系统"指的是什么?是 SOP?是数据闭环?是 agent 协作的编排层?还是更基础的——上下文怎么持久化、怎么共享、怎么在组织里复用?这一句决定了下一阶段大家是"在原有公司里加几个 AI 工具"还是"重做组织"。

"经过十年浩劫没有真正意义上的贵族,有点资产的都是早年吃了房产或期权红利的暴发户。"

月引人 · 5/11 15:52 · 评播客《钱为什么不是万能良药》
为什么重要:这句话表面是闲聊,底色其实是 AGITopia 的"价值观地基"。一个把"让所有人不为 AI 所困"作为口号的客栈,背后真正在意的不是技术本身,而是 技术红利如何不再只属于"暴发户"。这条线如果展开,会直接决定客栈下一阶段的活动选题(要不要做面向非互联网行业、面向中老年、面向中小企业的 AI 启蒙)。
Deep Dive
PART III · 深度调研

竹剑老青 那句「已经失败了」,到底是不是真的?

—— 关于 David Silver 路线、DeepSeek、与客栈 builder 的实际方向

这一节回答一个具体的问题:如果纯 RL 自学习这条路真的卡住了,那么群里正在搭多 agent、堆 skill、做 context engineering 的人,是被时代证伪了,还是恰好踩在了最对的方向上?

TL;DR · 一分钟版本

1. 竹剑老青 的判断 70% 成立:纯 RL/self-play 路线在"通用推理"上确实撞了墙。DeepSeek-R1-Zero(纯 RL 版本)出现了语言混乱、重复、不可读,必须靠 SFT 冷启动救场;更狠的是 ICLR 2026 的一组研究证明 RLVR 没有产生 base model 之外的新推理模式,只是提高了采样效率

2. 但"失败"不等于死路:Silver 和 Sutton 在 2025 年 4 月的《Welcome to the Era of Experience》并没有说"纯 RL 能解决一切",他们指的是 下一代 agent 应该主要从环境互动中学习,而不是从静态人类语料里学。这个方向是对的,但需要解决"奖励函数从哪来"这个核心难题。

3. 给群里 builder 的实操结论:月引人 在做的(多 agent + skills + context engineering + ralph loop)正是 2026 年公认的现实工程化路径——在有可验证 reward 的窄域(数学、代码、tool use)跑 RL,在没有的领域(开放对话、判断、品味)靠 context 和 multi-agent 协作。这条路不光对,而且是目前唯一被多家前沿实验室同时押注的路。

01David Silver 在赌什么

要理解 竹剑老青 那句话,得先知道 Silver 在干什么。他在 DeepMind 主导了 AlphaGo(2016)、AlphaGo Zero(2017)、AlphaZero(2018),核心思想从一开始就是同一条:从零开始,让 agent 自己和自己下棋,环境给出胜负反馈,几百万局之后超越人类。

2025 年 4 月,他和 Sutton(强化学习教科书作者、图灵奖得主)联合发布了《Welcome to the Era of Experience》。[1]核心论点直接到刺耳:

翻译成大白话:Silver 想让 LLM 也走 AlphaGo Zero 那条路——少喂人类数据,多让模型自己跟环境玩。

02DeepSeek 验证了什么?又证伪了什么?

2025 年 1 月,DeepSeek 发布了 R1 和 R1-Zero。[2][3]R1-Zero 是一个非常干净的对照实验:不做任何 SFT,直接在 DeepSeek-V3 基座上做 RL,奖励信号来自数学题对错和代码运行结果。这是过去三年最接近"AlphaGo Zero for LLM"的实验。

结果分两面:

✅ 验证的部分

❌ 证伪的部分

核心反直觉

当我们说"DeepSeek-R1 比 V3 更会推理"——技术上这句话是错的。R1 没学会任何 V3 不会的东西,它只是更倾向于把 V3 本来就会但不常说的东西说出来。

这就把 Silver 的赌局推到了一个非常尴尬的位置:如果 RL 不能让模型超出 base model 的能力,那"从经验中获得超越人类的智能"在 LLM 范式下就缺少机制证据。

03为什么 self-play 在围棋赢、在语言输

这是最值得客栈想清楚的一层。Silver 自己的博士论文(竹剑老青 5/10 在翻的那篇)[5]解释了 AlphaGo/Zero 成立的两个前提:

这两个前提,在围棋满足,在 LLM 的开放任务上几乎全部不满足。

"帮我写一封 email"——这个任务的 reward 函数是什么?写得简洁是好?还是写得礼貌是好?还是收件人最终回复了是好?回复了 5 分钟是好还是 5 天后才回复是好?甚至:写完之后用户根本没发出去——这算成功还是失败?

真实世界的大部分任务都长这样。这就是为什么 Silver 那条路在围棋上 36 小时打爆人类,在通用任务上跑了几年还没真正出窝。不是算法不行,是问题本身没有"棋盘"。

042026 年实际正在发生什么

所以"失败"是有的,但行业并没有回到"放弃 RL、只做 LLM scaling"的位置。[6][7]过去一年大家的实际选择是:

05这一切对客栈的人意味着什么

把上面所有材料压缩成给群里 builder 的三句话:

三条可以照着做的判断

月引人 路线没错,但要把"窄域"和"开放域"分开做。她在搭的 multi-agent + skills + context engineering 系统,正好是当前共识的"非围棋区"打法。但内部一定要区分:哪些子任务是有可验证 reward 的(这部分可以让 agent 自己试错),哪些是没有的(这部分必须靠人类品味、context 和 SOP 来兜底)。

竹剑老青 想做的"投资人 / 科学家 multi-agent 团队",关键瓶颈不在 LLM 能力,在 reward 设计。他自己提到的"行为经济学测试 + 虚拟投资两年"——这就是 reward 函数。这个 reward 设计对不对,决定了整个 multi-agent 实验的输出值不值。

③ 不要被"AGI 是不是来了"这种宏大叙事卡住手。正如 竹剑老青 那句"少谈主义、多解决问题"——2026 年的现实是:基础模型能力已经够用,缺的是"在具体场景里把 reward、context、tool use、memory 这四件套配齐"的工程师。

06留给客栈的一个具体提案

既然 竹剑老青月引人 都在提"投资人 / 科学家 multi-agent 团队",建议客栈下一次线下活动以这个为主题做一次"reward 设计 workshop"——不是讲 RL 算法,而是请几个人各自带一个真实的业务任务(医疗诊断的次优解、法律合同的瑕疵检测、投资组合的风险评估),现场讨论:

这一场如果跑下来,群里的 builder 会比现在多出一个真正稀缺的能力——把开放任务拆解成可被 agent 优化的子问题。这个能力在 2026 年下半年,会变成估值最高的工程能力之一。

最后一段

竹剑老青 说"已经失败了"——精确地说,是"Silver 想用单一范式吃掉所有问题"这个野心失败了,但 RL+经验数据这条主航道本身没失败,它正在被拆成无数条窄水道继续往前推

月引人 说"想给我的 agent 加各种皮肤装备技能"——这句听起来像玩笑,但本质上正是当下唯一可行的工程化路径:承认没有银弹,承认 reward 难定义,承认得用"组合 + 记忆 + 工具 + 多智能体协作"来逼近 agency。

把这两个人的话放一起,再加上 三栖驿马 转发的"差距不在工具,在系统"——客栈过去 48 小时实际上勾勒了 2026 年 AI 工程的一个 mini 路线图:少谈主义,多搭系统,把 reward 当成工程问题来设计,把 context 当成资产来积累。

← 回到首页
AGITopia Daily · 2026·05·11 · For Tavern Regulars Only