MoreRSS

site iconBojie Li | 李博杰修改

首届 「华为天才少年」,中科大博士,AI 创业
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Bojie Li | 李博杰的 RSS 预览

自我进化的实时 Agent:边听边想,边想边说,边做边学

2025-11-14 11:00:00

【本文是笔者在 首届 FAISys’25 (The 1st Frontier AI Systems Workshop) 的受邀报告。】

查看演讲 Slides (HTML)

演讲 Slides 源代码

【以下内容为根据英文 slides 自动生成的中文翻译,建议阅读原始 slides

大家好,非常荣幸在 首届 FAISys’25 做报告,今天我分享的主题是 Self-Evolving Real-Time Agents: Think While Listening, Speak While Thinking, Learn While Acting (自我进化的实时 Agent:边听边想,边想边说,边做边学)。

我是 Pine AI 的联合创始人和首席科学家。目前我们 Pine AI 的业务是通过 AI 打电话和操作电脑,帮助用户处理日常事务。比如帮助用户砍价、取消订阅、投诉维权、获取赔偿等。我们已经为用户节省了超过 300 万美元,成功率达到 93% ,平均为每位用户节省 270 分钟的时间。

从经验中学习,代表了机器学习的根本挑战。当前自主 AI Agent 在实际应用中面临两大核心挑战:与环境的实时交互,以及从经验中学习。今天我将介绍我们在这两方面的技术突破。

两大核心挑战

挑战一:实时交互的高延迟

实时语音 Agent 必须像人类一样在 1 秒内响应,但传统架构使用推理型 LLM 会引入 2-10 秒的延迟

VAD(语音活动检测)的挑战:

  • 必须等待 500-800ms 的持续静音才能确认用户说完
  • “嗯哼”这样的回应词会被误判为打断
  • 丢失了声学信息(情绪、环境音)

ASR(语音识别)的挑战:

  • 没有上下文导致高错误率(邮箱、姓名、电话号码)
  • 缺乏世界知识导致转写错误

LLM 的挑战:

  • 被迫等待,无法边听边想
  • 无法边想边说(5-10 秒的沉默)
  • 说话时机(turn detection)判断差(何时该说话/保持沉默)

挑战二:从经验中学习

模型很聪明,但不熟练——就像顶尖毕业生缺乏实际工作经验。

固定模型无法学习:

  • 无法从成功的轨迹中学习
  • 无法从失败的轨迹中学习
  • 部署后参数冻结

大世界假说(Big World Hypothesis):
世界太大,无法预先编码所有知识:

  • 业务流程是动态且非公开的
  • 验证信息因公司而异
  • 服务规则不断变化
  • 预训练知识不足以支撑部署

Agent 持续学习的困境:为什么 Reasoner 不是真正的 Agent?

2025-10-24 19:00:00

强化学习之父 Richard Sutton 说,当前的大语言模型是一条死路。

这听起来令人震惊。作为《The Bitter Lesson》的作者、2024 年图灵奖得主,Sutton 最相信”更多算力+通用方法必胜”,按理说他应该对 GPT-5、Claude、Gemini 这些大模型赞不绝口。但在最近的访谈中,Sutton 毫不客气地指出:LLM 只是模仿人说什么,而不是理解世界如何运转

这场由播客主持人 Dwarkesh Patel 组织的访谈引发了激烈讨论。Andrej Karpathy 随后撰文回应,并在另一场访谈中展开了深入探讨。两位大师的争论揭示了当前 AI 发展中三个被忽视的根本问题:

第一,小世界假设的迷思:我们是否真的相信,一个足够大的模型能够掌握世界上所有重要知识,从此不需要学习?还是说,现实世界符合大世界假设——无论模型多大,在具体场景中仍需要不断学习?

第二,持续学习的缺失:当前的 model-free RL 方法(PPO、GRPO 等)只从稀疏的 reward 学习,无法利用环境给出的丰富反馈。这导致 Agent 在现实世界任务中样本效率极低,难以快速适应。

第三,Reasoner 与 Agent 的鸿沟:OpenAI 将 AI 能力分为五级,从 Chatbot 到 Reasoner 再到 Agent。但很多人误以为,把单轮 Reasoner 变成多轮就是 Agent。真正的 Agent 与 Reasoner 的核心区别在于:持续学习能力

本文将系统梳理这两场访谈中的核心观点,并结合我们在 Pine AI 开发实时 Agent 的实践经验,探讨如何跨越这道鸿沟。

Unified Bus 背后的思考

2025-09-28 12:00:00

Unified Bus 的协议文档终于发布了。协议最初的设计大多数是四五年前的工作了,我也有两年多没有继续做网络互联方面的工作,但今天读到这本 500 多页的文档,还是倍感亲切。

与大多数协议文档一样,UB 文档介绍了 Unified Bus 协议的大量细节,但很少涉及它设计背后的思考。作为曾在早期参与 UB 项目的一名小兵,介绍一些我个人的思考。今天产品化的 UB 可能与我们当年的设计有诸多不同,因此不要把本文作为权威指南。当成段子看就行了。

为什么要做 UB

要理解 Unified Bus (UB) 诞生的必然性,我们必须回到一个计算机体系结构中的根本性矛盾:总线(Bus)与网络(Network)的割裂

长久以来,计算机世界被这两种截然不同的互联范式划分为一个个孤岛。

  • 在孤岛内部(例如一台服务器或一个机箱内),我们使用总线技术,如 PCIe 或 NVLink。它们是为紧耦合系统设计的,设备间共享着统一的物理地址空间,通信延迟可以做到纳秒级,带宽极高。这是性能的天堂,但这个天堂的疆域极其有限——总线的物理距离和可连接的设备数量都受到严格限制。
  • 在孤岛之间,我们则依赖网络技术,如以太网或 InfiniBand。它们为松耦合系统而生,擅长将成千上万的节点连接起来,具备超强的扩展性。但这种扩展性是有代价的:复杂的协议栈、额外的转发开销、微秒甚至毫秒级的延迟,都让网络的性能与总线相比,存在着数量级的鸿沟。

这种”内外有别”的架构,在很长一段时间里是行之有效的。然而,一个幽灵开始在计算机世界上空盘旋——Scaling Law

大约 10 年前,深度学习领域的研究者们发现了一个惊人的规律:只要持续增大模型规模、数据量和计算量,模型的性能就会随之可预见地、持续地提升。这个发现彻底改变了游戏规则。曾经被认为是”足够用”的单机 8 卡配置,在动辄百亿、千亿参数的巨型模型面前,瞬间变得杯水车薪。

此时,一个清晰而迫切的需求摆在了所有系统架构师面前:我们能否推倒总线与网络之间的这堵墙?我们能否创造一种统一的互联,既拥有总线级的编程简易度极致性能,又具备网络级的超大规模扩展能力

这正是 UB 的核心使命。它不仅仅是对现有协议的修补或改良,而是一次彻底的重构。UB 的目标,是构建一个真正的”数据中心计算机”(Datacenter-scale Computer),将整个集群的异构算力、内存、存储无缝地连接成一个统一的、可编程的整体。在这个愿景中,访问一台远程服务器上的内存,应该像访问本地内存一样简单自然;上万个处理器协同计算,应该像在一块芯片上一样高效。

Qwen3-Next:混合注意力 + 超稀疏 MoE + MTP = SOTA 推理速度

2025-09-12 12:00:00

最近,阿里千问团队发布了 Qwen3-Next 模型,这是继 Qwen3 之后的又一重要创新。这个模型在架构设计上实现了多项突破,特别是在推理效率和性能平衡方面达到了业界领先水平。本文将简要总结 Qwen3-Next 的核心创新点。

Qwen3-Next 三大突破

  1. 混合注意力架构:3层线性注意力 + 1层传统注意力,结合 DeltaNet 的 Delta 规则思想
  2. 超稀疏 MoE:512专家仅激活11个,80B参数仅激活3B
  3. 100+ tokens/秒推理速度:通过 MTP 机制达到国际先进水平

核心价值:以 1/10 的计算成本和 10 倍的 token 处理速度,实现超越 32B dense 模型的性能,对标 Gemini 2.5 Flash。

Agent 的两朵乌云:实时与环境交互,从经验中学习

2025-09-08 11:00:00

非常荣幸受张家兴老师邀请,9 月 4 日在狮子山人工智能实验室做了一场《Agent 的两朵乌云:实时与环境交互,从经验中学习》的学术报告。今天把这个报告的幻灯片和视频分享给大家,供参考和讨论。

📰 官方报道【产研对接】第 2 期 “FAIR plus × 狮子山问道” 成功举办,探索 AI 智能体与全地形具身智能的瓶颈及突破

演讲资料

演讲概要

1900 年,开尔文勋爵在一次演讲中说:”物理学的大厦即将建成,只有两朵乌云……” 这两朵小乌云后来引发了相对论和量子力学两场革命。今天,AI Agent 领域也面临着类似的”两朵乌云”。

第一朵乌云:实时交互的挑战

当前的 AI Agent 在与环境实时交互时面临严重的延迟问题:

语音交互的困境

  • 串行处理 vs 实时需求:必须等待用户说完才能想,想完才能说
  • 快慢思考的两难:深度思考需要10+秒(用户失去耐心),快速响应容易出错
  • 技术瓶颈:每一步都在等待(VAD检测、ASR识别、LLM思考、TTS合成)

GUI 操作的 “最后一公里” 难题

  • Agent 操作电脑比人类慢 3-5 倍
  • 每次点击都需要重新截图、思考(3-4秒延迟)
  • 存在”莫拉维克悖论”:模型”知道”做什么,但”做不到”

AI Agent 实战营:9 周构建你的通用 Agent

2025-08-18 22:00:00

【本文基于图灵社区 AI Agent 实战营首次直播内容整理,Slides 链接

图灵社区《AI Agent 实战营》购买链接

开发一个属于你的 AI Agent,就从这里开始。本文不仅系统介绍了从零构建通用 AI Agent 的基础技术路径(如上下文工程、RAG 系统、工具调用、多模态交互等),还涵盖了快慢思考、多 Agent 协作等进阶技术。通过 9 周的实战项目,逐步掌握 Agent 开发的全生命周期与核心进阶能力。

本课程于 8 月 18 日首次直播预告,将于 9 月 11 日正式开始上课。每周课程约 2 小时,涵盖下面的所有基础内容和进阶内容。当然,每周仅仅花 2 小时听课肯定是不够的,还需要花时间动手编程实践。

实战营核心目标

开发一个属于你的 AI Agent,就从这里开始

🎯 掌握核心架构与工程能力

  • 深度理解 Agent 架构: 系统掌握 LLM + 上下文 + 工具 的核心设计范式。
  • 精通上下文工程: 掌握从对话历史、用户长期记忆到外部知识库 (RAG) 和文件系统的多层次上下文管理技术。
  • 掌握动态工具调用: 实现 Agent 与外部 API、MCP Server 的可靠集成,并能通过代码生成实现自我进化。
  • 构建高级 Agent 模式: 设计与实现快慢思考 (Mixture-of-Thoughts)、Orchestration 等复杂 Agent 协作模式。

💡 建立系统化开发与部署认知

  • 理解技术演进路径: 洞悉从基础 RAG 到能够自主开发工具的 Agent 的技术演进路径。
  • 掌握 Agent 全生命周期: 具备独立完成 Agent 项目的设计、开发、使用 LLM as a Judge 评测与部署的闭环能力。
  • 构建领域知识: 通过法律、学术、编程等多个实战项目,积累跨领域 Agent 开发经验。
  • 知识体系沉淀: 参与共创《深入浅出 AI Agent》书籍,将碎片化知识系统化输出。

9 周实战计划概览

周次 主题 内容概览 实战案例
1 Agent 入门 Agent 结构与分类、工作流式 vs 自主式 动手搭建一个能联网搜索的 Agent
2 上下文设计 Prompt 模版、对话历史、用户长期记忆 为你的 Agent 增加角色设定和长期记忆
3 RAG 与知识库 文档结构化、检索策略与增量更新 构建一个法律知识问答 Agent
4 工具调用与 MCP 工具封装与 MCP 接入、外部 API 调用 对接 MCP Server,实现深度调研 Agent
5 编程与代码执行 代码库理解、可靠的代码修改、一致的执行环境 构建一个能自己开发 Agent 的 Agent
6 模型评估与选择 模型能力评估、LLM as a Judge、安全护栏设计 构建评测数据集,用 LLM as a Judge 自动评测 Agent
7 多模态与实时交互 实时语音 Agent、操作电脑与手机 实现语音电话 Agent & 集成 browser-use 操作电脑
8 多 Agent 协作 A2A 通信协议、Agent 团队分工与协作 设计多 Agent 协作系统,实现”边打电话边操作电脑”
9 项目集成与展示 Agent 项目总装与展示、最终成果打磨 展示你独一无二的通用 Agent

9 周进阶课题

周次 主题 进阶内容概览 进阶实战案例
1 Agent 入门 上下文的重要性 探索上下文缺失对 Agent 行为的影响
2 上下文设计 用户记忆的整理 构建个人知识管理 Agent,实现长文本总结
3 RAG 与知识库 长上下文压缩 构建学术论文分析 Agent,总结论文核心贡献
4 工具调用与 MCP 从经验中学习 增强深度调研 Agent 的专家能力 (Sub-agent 与领域经验)
5 编程与代码执行 Agent 的自我进化 构建能自主利用开源软件解决未知问题的 Agent
6 模型评估与选择 并行采样与顺序修订 为深度调研 Agent 增加并行与修订能力
7 多模态与实时交互 快慢思考结合 实现快慢思考结合的实时语音 Agent
8 多 Agent 协作 Orchestration Agent 用 Orchestration Agent 动态协调电话与电脑操作
9 项目集成与展示 Agent 学习方式对比 对比 Agent 从经验中学习的四种方式