MoreRSS

site iconBojie Li | 李博杰修改

首届 「华为天才少年」,中科大博士,AI 创业
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Bojie Li | 李博杰的 RSS 预览

Qwen3-Next:混合注意力 + 超稀疏 MoE + MTP = SOTA 推理速度

2025-09-12 12:00:00

最近,阿里千问团队发布了 Qwen3-Next 模型,这是继 Qwen3 之后的又一重要创新。这个模型在架构设计上实现了多项突破,特别是在推理效率和性能平衡方面达到了业界领先水平。本文将简要总结 Qwen3-Next 的核心创新点。

Qwen3-Next 三大突破

  1. 混合注意力架构:3层线性注意力 + 1层传统注意力,结合 DeltaNet 的 Delta 规则思想
  2. 超稀疏 MoE:512专家仅激活11个,80B参数仅激活3B
  3. 100+ tokens/秒推理速度:通过 MTP 机制达到国际先进水平

核心价值:以 1/10 的计算成本和 10 倍的 token 处理速度,实现超越 32B dense 模型的性能,对标 Gemini 2.5 Flash。

Agent 的两朵乌云:实时与环境交互,从经验中学习

2025-09-08 11:00:00

非常荣幸受张家兴老师邀请,9 月 4 日在狮子山人工智能实验室做了一场《Agent 的两朵乌云:实时与环境交互,从经验中学习》的学术报告。今天把这个报告的幻灯片和视频分享给大家,供参考和讨论。

📰 官方报道【产研对接】第 2 期 “FAIR plus × 狮子山问道” 成功举办,探索 AI 智能体与全地形具身智能的瓶颈及突破

演讲资料

演讲概要

1900 年,开尔文勋爵在一次演讲中说:”物理学的大厦即将建成,只有两朵乌云……” 这两朵小乌云后来引发了相对论和量子力学两场革命。今天,AI Agent 领域也面临着类似的”两朵乌云”。

第一朵乌云:实时交互的挑战

当前的 AI Agent 在与环境实时交互时面临严重的延迟问题:

语音交互的困境

  • 串行处理 vs 实时需求:必须等待用户说完才能想,想完才能说
  • 快慢思考的两难:深度思考需要10+秒(用户失去耐心),快速响应容易出错
  • 技术瓶颈:每一步都在等待(VAD检测、ASR识别、LLM思考、TTS合成)

GUI 操作的 “最后一公里” 难题

  • Agent 操作电脑比人类慢 3-5 倍
  • 每次点击都需要重新截图、思考(3-4秒延迟)
  • 存在”莫拉维克悖论”:模型”知道”做什么,但”做不到”

AI Agent 实战营:9 周构建你的通用 Agent

2025-08-18 22:00:00

【本文基于图灵社区 AI Agent 实战营首次直播内容整理,Slides 链接

图灵社区《AI Agent 实战营》购买链接

开发一个属于你的 AI Agent,就从这里开始。本文不仅系统介绍了从零构建通用 AI Agent 的基础技术路径(如上下文工程、RAG 系统、工具调用、多模态交互等),还涵盖了快慢思考、多 Agent 协作等进阶技术。通过 9 周的实战项目,逐步掌握 Agent 开发的全生命周期与核心进阶能力。

本课程于 8 月 18 日首次直播预告,将于 9 月 11 日正式开始上课。每周课程约 2 小时,涵盖下面的所有基础内容和进阶内容。当然,每周仅仅花 2 小时听课肯定是不够的,还需要花时间动手编程实践。

实战营核心目标

开发一个属于你的 AI Agent,就从这里开始

🎯 掌握核心架构与工程能力

  • 深度理解 Agent 架构: 系统掌握 LLM + 上下文 + 工具 的核心设计范式。
  • 精通上下文工程: 掌握从对话历史、用户长期记忆到外部知识库 (RAG) 和文件系统的多层次上下文管理技术。
  • 掌握动态工具调用: 实现 Agent 与外部 API、MCP Server 的可靠集成,并能通过代码生成实现自我进化。
  • 构建高级 Agent 模式: 设计与实现快慢思考 (Mixture-of-Thoughts)、Orchestration 等复杂 Agent 协作模式。

💡 建立系统化开发与部署认知

  • 理解技术演进路径: 洞悉从基础 RAG 到能够自主开发工具的 Agent 的技术演进路径。
  • 掌握 Agent 全生命周期: 具备独立完成 Agent 项目的设计、开发、使用 LLM as a Judge 评测与部署的闭环能力。
  • 构建领域知识: 通过法律、学术、编程等多个实战项目,积累跨领域 Agent 开发经验。
  • 知识体系沉淀: 参与共创《深入浅出 AI Agent》书籍,将碎片化知识系统化输出。

9 周实战计划概览

周次 主题 内容概览 实战案例
1 Agent 入门 Agent 结构与分类、工作流式 vs 自主式 动手搭建一个能联网搜索的 Agent
2 上下文设计 Prompt 模版、对话历史、用户长期记忆 为你的 Agent 增加角色设定和长期记忆
3 RAG 与知识库 文档结构化、检索策略与增量更新 构建一个法律知识问答 Agent
4 工具调用与 MCP 工具封装与 MCP 接入、外部 API 调用 对接 MCP Server,实现深度调研 Agent
5 编程与代码执行 代码库理解、可靠的代码修改、一致的执行环境 构建一个能自己开发 Agent 的 Agent
6 模型评估与选择 模型能力评估、LLM as a Judge、安全护栏设计 构建评测数据集,用 LLM as a Judge 自动评测 Agent
7 多模态与实时交互 实时语音 Agent、操作电脑与手机 实现语音电话 Agent & 集成 browser-use 操作电脑
8 多 Agent 协作 A2A 通信协议、Agent 团队分工与协作 设计多 Agent 协作系统,实现”边打电话边操作电脑”
9 项目集成与展示 Agent 项目总装与展示、最终成果打磨 展示你独一无二的通用 Agent

9 周进阶课题

周次 主题 进阶内容概览 进阶实战案例
1 Agent 入门 上下文的重要性 探索上下文缺失对 Agent 行为的影响
2 上下文设计 用户记忆的整理 构建个人知识管理 Agent,实现长文本总结
3 RAG 与知识库 长上下文压缩 构建学术论文分析 Agent,总结论文核心贡献
4 工具调用与 MCP 从经验中学习 增强深度调研 Agent 的专家能力 (Sub-agent 与领域经验)
5 编程与代码执行 Agent 的自我进化 构建能自主利用开源软件解决未知问题的 Agent
6 模型评估与选择 并行采样与顺序修订 为深度调研 Agent 增加并行与修订能力
7 多模态与实时交互 快慢思考结合 实现快慢思考结合的实时语音 Agent
8 多 Agent 协作 Orchestration Agent 用 Orchestration Agent 动态协调电话与电脑操作
9 项目集成与展示 Agent 学习方式对比 对比 Agent 从经验中学习的四种方式

又一道 Vibe Coding 面试题:基于注意力的 LLM 幻觉检测器

2025-08-03 18:30:00

《用 Vibe Coding 解决 LLM 限制采样的面试题》之后,再分享我司(Pine AI)一道关于 LLM 基础原理的 Vibe Coding 面试题。

很多人对 Vibe Coding 有个误解,以为就是不断地问 AI “这个怎么做?那个怎么实现?”。这种方式注定会失败。真正的 Vibe Coding,你必须是架构师和产品经理,像老师指导学生一样去引导 AI,而不是反过来。

这道面试题考察候选人对 Transformer 基本原理的理解和 vibe coding 快速实现的工程能力。这就是我们需要的人:懂模型,并且工程能力强。

The Challenge: 基于注意力的 LLM 幻觉检测器

1. 背景与问题 (Background & Problem Statement)

在许多应用场景中,大语言模型(LLM)需要基于一份给定的上下文(Context)来回答问题或提取信息,这个过程通常被称为“上下文学习”(In-Context Learning)。然而,LLM 存在一个已知的、严重的安全隐患:当被问及一个上下文中不存在的信息时,它可能会“幻觉”(Hallucinate)出一个格式正确但事实错误的答案,而非承认信息的缺失。

从提示工程到上下文工程:写好 Agent 的秘诀

2025-07-30 00:00:00

【本文是在图灵社区大模型技术共学营的演讲,Slides 链接

深入探索 AI Agent 的设计哲学与实践策略。从 Chatbot 的对话模式到 Agent 的行动模式,系统性地设计和管理 Agent 的信息环境,构建高效、可靠的 AI Agent 系统。

目录

  1. Part 1: 范式变迁 - 从 Chatbot 到 Agent
  2. Part 2: Agent 核心解析
  3. Part 3: 上下文工程 (Context Engineering)
  4. Part 4: 记忆与知识系统

Part 1: 范式变迁 - 从 Chatbot 到 Agent

从 Chatbot 到 Agent:范式的根本转变

我们正在经历 AI 交互模式的根本性转变:

Chatbot 时代

  • 🗣️ 对话式交互:用户提问 → AI 回答 → 循环往复的问答模式
  • 📚 知识渊博的顾问:只能”说”不能”做”,被动响应用户需求
  • 🛠️ 典型产品:ChatGPT、Claude Chat

Agent 时代

  • 🎯 自主行动模式:用户设定目标 → Agent 执行 → 自主规划和决策
  • 💪 能干的助手:既能”想”也能”做”,主动发现和解决问题
  • 🚀 典型产品:Claude Code、Cursor、Manus

OpenRouter、Anthropic、火山引擎、Siliconflow 使用指南

2025-07-25 22:00:00

在 AI 应用开发中,选择合适的 LLM API 服务至关重要。无论你是在构建智能对话系统、开发 AI Agent,还是参加 AI Hackathon,本文都将为你提供全面的 API 使用指南,涵盖 OpenRouter、Anthropic API、火山引擎和 Siliconflow 等主流服务。

为什么需要多个 API 服务?

不同的 LLM 模型有各自的优势,特别是在开发 AI Agent 时,需要根据具体场景选择合适的模型:

  • Claude(Anthropic):擅长复杂推理、编程和 Agent 任务,特别适合需要深度思考的场景
  • Gemini(Google):在长文本处理、多模态理解方面表现出色,适合处理图片、视频等多媒体内容
  • GPT(OpenAI):图片理解和数学推理能力强,日常对话体验优秀
  • 豆包(字节跳动):国内访问速度快,语音对话体验好,特别适合实时交互场景
  • 开源模型:成本低,可定制性强,适合大规模部署