2025-11-14 11:00:00
【本文是笔者在 首届 FAISys’25 (The 1st Frontier AI Systems Workshop) 的受邀报告。】
【以下内容为根据英文 slides 自动生成的中文翻译,建议阅读原始 slides】
大家好,非常荣幸在 首届 FAISys’25 做报告,今天我分享的主题是 Self-Evolving Real-Time Agents: Think While Listening, Speak While Thinking, Learn While Acting (自我进化的实时 Agent:边听边想,边想边说,边做边学)。
我是 Pine AI 的联合创始人和首席科学家。目前我们 Pine AI 的业务是通过 AI 打电话和操作电脑,帮助用户处理日常事务。比如帮助用户砍价、取消订阅、投诉维权、获取赔偿等。我们已经为用户节省了超过 300 万美元,成功率达到 93% ,平均为每位用户节省 270 分钟的时间。
从经验中学习,代表了机器学习的根本挑战。当前自主 AI Agent 在实际应用中面临两大核心挑战:与环境的实时交互,以及从经验中学习。今天我将介绍我们在这两方面的技术突破。
实时语音 Agent 必须像人类一样在 1 秒内响应,但传统架构使用推理型 LLM 会引入 2-10 秒的延迟。
VAD(语音活动检测)的挑战:
ASR(语音识别)的挑战:
LLM 的挑战:
模型很聪明,但不熟练——就像顶尖毕业生缺乏实际工作经验。
固定模型无法学习:
大世界假说(Big World Hypothesis):
世界太大,无法预先编码所有知识:
2025-10-24 19:00:00
强化学习之父 Richard Sutton 说,当前的大语言模型是一条死路。
这听起来令人震惊。作为《The Bitter Lesson》的作者、2024 年图灵奖得主,Sutton 最相信”更多算力+通用方法必胜”,按理说他应该对 GPT-5、Claude、Gemini 这些大模型赞不绝口。但在最近的访谈中,Sutton 毫不客气地指出:LLM 只是模仿人说什么,而不是理解世界如何运转。
这场由播客主持人 Dwarkesh Patel 组织的访谈引发了激烈讨论。Andrej Karpathy 随后撰文回应,并在另一场访谈中展开了深入探讨。两位大师的争论揭示了当前 AI 发展中三个被忽视的根本问题:
第一,小世界假设的迷思:我们是否真的相信,一个足够大的模型能够掌握世界上所有重要知识,从此不需要学习?还是说,现实世界符合大世界假设——无论模型多大,在具体场景中仍需要不断学习?
第二,持续学习的缺失:当前的 model-free RL 方法(PPO、GRPO 等)只从稀疏的 reward 学习,无法利用环境给出的丰富反馈。这导致 Agent 在现实世界任务中样本效率极低,难以快速适应。
第三,Reasoner 与 Agent 的鸿沟:OpenAI 将 AI 能力分为五级,从 Chatbot 到 Reasoner 再到 Agent。但很多人误以为,把单轮 Reasoner 变成多轮就是 Agent。真正的 Agent 与 Reasoner 的核心区别在于:持续学习能力。
本文将系统梳理这两场访谈中的核心观点,并结合我们在 Pine AI 开发实时 Agent 的实践经验,探讨如何跨越这道鸿沟。
2025-09-28 12:00:00
Unified Bus 的协议文档终于发布了。协议最初的设计大多数是四五年前的工作了,我也有两年多没有继续做网络互联方面的工作,但今天读到这本 500 多页的文档,还是倍感亲切。
与大多数协议文档一样,UB 文档介绍了 Unified Bus 协议的大量细节,但很少涉及它设计背后的思考。作为曾在早期参与 UB 项目的一名小兵,介绍一些我个人的思考。今天产品化的 UB 可能与我们当年的设计有诸多不同,因此不要把本文作为权威指南。当成段子看就行了。
要理解 Unified Bus (UB) 诞生的必然性,我们必须回到一个计算机体系结构中的根本性矛盾:总线(Bus)与网络(Network)的割裂。
长久以来,计算机世界被这两种截然不同的互联范式划分为一个个孤岛。
这种”内外有别”的架构,在很长一段时间里是行之有效的。然而,一个幽灵开始在计算机世界上空盘旋——Scaling Law。
大约 10 年前,深度学习领域的研究者们发现了一个惊人的规律:只要持续增大模型规模、数据量和计算量,模型的性能就会随之可预见地、持续地提升。这个发现彻底改变了游戏规则。曾经被认为是”足够用”的单机 8 卡配置,在动辄百亿、千亿参数的巨型模型面前,瞬间变得杯水车薪。
此时,一个清晰而迫切的需求摆在了所有系统架构师面前:我们能否推倒总线与网络之间的这堵墙?我们能否创造一种统一的互联,既拥有总线级的编程简易度和极致性能,又具备网络级的超大规模扩展能力?
这正是 UB 的核心使命。它不仅仅是对现有协议的修补或改良,而是一次彻底的重构。UB 的目标,是构建一个真正的”数据中心计算机”(Datacenter-scale Computer),将整个集群的异构算力、内存、存储无缝地连接成一个统一的、可编程的整体。在这个愿景中,访问一台远程服务器上的内存,应该像访问本地内存一样简单自然;上万个处理器协同计算,应该像在一块芯片上一样高效。
2025-09-12 12:00:00
最近,阿里千问团队发布了 Qwen3-Next 模型,这是继 Qwen3 之后的又一重要创新。这个模型在架构设计上实现了多项突破,特别是在推理效率和性能平衡方面达到了业界领先水平。本文将简要总结 Qwen3-Next 的核心创新点。
Qwen3-Next 三大突破:
核心价值:以 1/10 的计算成本和 10 倍的 token 处理速度,实现超越 32B dense 模型的性能,对标 Gemini 2.5 Flash。
2025-09-08 11:00:00
非常荣幸受张家兴老师邀请,9 月 4 日在狮子山人工智能实验室做了一场《Agent 的两朵乌云:实时与环境交互,从经验中学习》的学术报告。今天把这个报告的幻灯片和视频分享给大家,供参考和讨论。
📰 官方报道:【产研对接】第 2 期 “FAIR plus × 狮子山问道” 成功举办,探索 AI 智能体与全地形具身智能的瓶颈及突破
1900 年,开尔文勋爵在一次演讲中说:”物理学的大厦即将建成,只有两朵乌云……” 这两朵小乌云后来引发了相对论和量子力学两场革命。今天,AI Agent 领域也面临着类似的”两朵乌云”。
当前的 AI Agent 在与环境实时交互时面临严重的延迟问题:
2025-08-18 22:00:00
【本文基于图灵社区 AI Agent 实战营首次直播内容整理,Slides 链接】
开发一个属于你的 AI Agent,就从这里开始。本文不仅系统介绍了从零构建通用 AI Agent 的基础技术路径(如上下文工程、RAG 系统、工具调用、多模态交互等),还涵盖了快慢思考、多 Agent 协作等进阶技术。通过 9 周的实战项目,逐步掌握 Agent 开发的全生命周期与核心进阶能力。
本课程于 8 月 18 日首次直播预告,将于 9 月 11 日正式开始上课。每周课程约 2 小时,涵盖下面的所有基础内容和进阶内容。当然,每周仅仅花 2 小时听课肯定是不够的,还需要花时间动手编程实践。
开发一个属于你的 AI Agent,就从这里开始
LLM + 上下文 + 工具 的核心设计范式。| 周次 | 主题 | 内容概览 | 实战案例 |
|---|---|---|---|
| 1 | Agent 入门 | Agent 结构与分类、工作流式 vs 自主式 | 动手搭建一个能联网搜索的 Agent |
| 2 | 上下文设计 | Prompt 模版、对话历史、用户长期记忆 | 为你的 Agent 增加角色设定和长期记忆 |
| 3 | RAG 与知识库 | 文档结构化、检索策略与增量更新 | 构建一个法律知识问答 Agent |
| 4 | 工具调用与 MCP | 工具封装与 MCP 接入、外部 API 调用 | 对接 MCP Server,实现深度调研 Agent |
| 5 | 编程与代码执行 | 代码库理解、可靠的代码修改、一致的执行环境 | 构建一个能自己开发 Agent 的 Agent |
| 6 | 模型评估与选择 | 模型能力评估、LLM as a Judge、安全护栏设计 | 构建评测数据集,用 LLM as a Judge 自动评测 Agent |
| 7 | 多模态与实时交互 | 实时语音 Agent、操作电脑与手机 | 实现语音电话 Agent & 集成 browser-use 操作电脑 |
| 8 | 多 Agent 协作 | A2A 通信协议、Agent 团队分工与协作 | 设计多 Agent 协作系统,实现”边打电话边操作电脑” |
| 9 | 项目集成与展示 | Agent 项目总装与展示、最终成果打磨 | 展示你独一无二的通用 Agent |
| 周次 | 主题 | 进阶内容概览 | 进阶实战案例 |
|---|---|---|---|
| 1 | Agent 入门 | 上下文的重要性 | 探索上下文缺失对 Agent 行为的影响 |
| 2 | 上下文设计 | 用户记忆的整理 | 构建个人知识管理 Agent,实现长文本总结 |
| 3 | RAG 与知识库 | 长上下文压缩 | 构建学术论文分析 Agent,总结论文核心贡献 |
| 4 | 工具调用与 MCP | 从经验中学习 | 增强深度调研 Agent 的专家能力 (Sub-agent 与领域经验) |
| 5 | 编程与代码执行 | Agent 的自我进化 | 构建能自主利用开源软件解决未知问题的 Agent |
| 6 | 模型评估与选择 | 并行采样与顺序修订 | 为深度调研 Agent 增加并行与修订能力 |
| 7 | 多模态与实时交互 | 快慢思考结合 | 实现快慢思考结合的实时语音 Agent |
| 8 | 多 Agent 协作 | Orchestration Agent | 用 Orchestration Agent 动态协调电话与电脑操作 |
| 9 | 项目集成与展示 | Agent 学习方式对比 | 对比 Agent 从经验中学习的四种方式 |