Bojie Li | 李博杰的 RSS 预览

AI Agent 实战营：9 周构建你的通用 Agent

2025-08-18 22:00:00

【本文基于图灵社区 AI Agent 实战营首次直播内容整理，Slides 链接】

开发一个属于你的 AI Agent，就从这里开始。本文不仅系统介绍了从零构建通用 AI Agent 的基础技术路径（如上下文工程、RAG 系统、工具调用、多模态交互等），还涵盖了快慢思考、多 Agent 协作等进阶技术。通过 9 周的实战项目，逐步掌握 Agent 开发的全生命周期与核心进阶能力。

本课程于 8 月 18 日首次直播预告，将于 9 月 11 日正式开始上课。每周课程约 2 小时，涵盖下面的所有基础内容和进阶内容。当然，每周仅仅花 2 小时听课肯定是不够的，还需要花时间动手编程实践。

实战营核心目标

开发一个属于你的 AI Agent，就从这里开始

🎯 掌握核心架构与工程能力

深度理解 Agent 架构: 系统掌握 LLM + 上下文 + 工具 的核心设计范式。
精通上下文工程: 掌握从对话历史、用户长期记忆到外部知识库 (RAG) 和文件系统的多层次上下文管理技术。
掌握动态工具调用: 实现 Agent 与外部 API、MCP Server 的可靠集成，并能通过代码生成实现自我进化。
构建高级 Agent 模式: 设计与实现快慢思考 (Mixture-of-Thoughts)、Orchestration 等复杂 Agent 协作模式。

💡 建立系统化开发与部署认知

理解技术演进路径: 洞悉从基础 RAG 到能够自主开发工具的 Agent 的技术演进路径。
掌握 Agent 全生命周期: 具备独立完成 Agent 项目的设计、开发、使用 LLM as a Judge 评测与部署的闭环能力。
构建领域知识: 通过法律、学术、编程等多个实战项目，积累跨领域 Agent 开发经验。
知识体系沉淀: 参与共创《深入浅出 AI Agent》书籍，将碎片化知识系统化输出。

9 周实战计划概览

周次	主题	内容概览	实战案例
1	Agent 入门	Agent 结构与分类、工作流式 vs 自主式	动手搭建一个能联网搜索的 Agent
2	上下文设计	Prompt 模版、对话历史、用户长期记忆	为你的 Agent 增加角色设定和长期记忆
3	RAG 与知识库	文档结构化、检索策略与增量更新	构建一个法律知识问答 Agent
4	工具调用与 MCP	工具封装与 MCP 接入、外部 API 调用	对接 MCP Server，实现深度调研 Agent
5	编程与代码执行	代码库理解、可靠的代码修改、一致的执行环境	构建一个能自己开发 Agent 的 Agent
6	模型评估与选择	模型能力评估、LLM as a Judge、安全护栏设计	构建评测数据集，用 LLM as a Judge 自动评测 Agent
7	多模态与实时交互	实时语音 Agent、操作电脑与手机	实现语音电话 Agent & 集成 browser-use 操作电脑
8	多 Agent 协作	A2A 通信协议、Agent 团队分工与协作	设计多 Agent 协作系统，实现”边打电话边操作电脑”
9	项目集成与展示	Agent 项目总装与展示、最终成果打磨	展示你独一无二的通用 Agent

9 周进阶课题

周次	主题	进阶内容概览	进阶实战案例
1	Agent 入门	上下文的重要性	探索上下文缺失对 Agent 行为的影响
2	上下文设计	用户记忆的整理	构建个人知识管理 Agent，实现长文本总结
3	RAG 与知识库	长上下文压缩	构建学术论文分析 Agent，总结论文核心贡献
4	工具调用与 MCP	从经验中学习	增强深度调研 Agent 的专家能力 (Sub-agent 与领域经验)
5	编程与代码执行	Agent 的自我进化	构建能自主利用开源软件解决未知问题的 Agent
6	模型评估与选择	并行采样与顺序修订	为深度调研 Agent 增加并行与修订能力
7	多模态与实时交互	快慢思考结合	实现快慢思考结合的实时语音 Agent
8	多 Agent 协作	Orchestration Agent	用 Orchestration Agent 动态协调电话与电脑操作
9	项目集成与展示	Agent 学习方式对比	对比 Agent 从经验中学习的四种方式

又一道 Vibe Coding 面试题：基于注意力的 LLM 幻觉检测器

2025-08-03 18:30:00

继《用 Vibe Coding 解决 LLM 限制采样的面试题》之后，再分享我司（Pine AI）一道关于 LLM 基础原理的 Vibe Coding 面试题。

很多人对 Vibe Coding 有个误解，以为就是不断地问 AI “这个怎么做？那个怎么实现？”。这种方式注定会失败。真正的 Vibe Coding，你必须是架构师和产品经理，像老师指导学生一样去引导 AI，而不是反过来。

这道面试题考察候选人对 Transformer 基本原理的理解和 vibe coding 快速实现的工程能力。这就是我们需要的人：懂模型，并且工程能力强。

The Challenge: 基于注意力的 LLM 幻觉检测器

1. 背景与问题 (Background & Problem Statement)

在许多应用场景中，大语言模型（LLM）需要基于一份给定的上下文（Context）来回答问题或提取信息，这个过程通常被称为“上下文学习”（In-Context Learning）。然而，LLM 存在一个已知的、严重的安全隐患：当被问及一个上下文中不存在的信息时，它可能会“幻觉”（Hallucinate）出一个格式正确但事实错误的答案，而非承认信息的缺失。

从提示工程到上下文工程：写好 Agent 的秘诀

2025-07-30 00:00:00

【本文是在图灵社区大模型技术共学营的演讲，Slides 链接】

深入探索 AI Agent 的设计哲学与实践策略。从 Chatbot 的对话模式到 Agent 的行动模式，系统性地设计和管理 Agent 的信息环境，构建高效、可靠的 AI Agent 系统。

Part 1: 范式变迁 - 从 Chatbot 到 Agent

从 Chatbot 到 Agent：范式的根本转变

我们正在经历 AI 交互模式的根本性转变：

Chatbot 时代

🗣️ 对话式交互：用户提问 → AI 回答 → 循环往复的问答模式
📚 知识渊博的顾问：只能”说”不能”做”，被动响应用户需求
🛠️ 典型产品：ChatGPT、Claude Chat

Agent 时代

🎯 自主行动模式：用户设定目标 → Agent 执行 → 自主规划和决策
💪 能干的助手：既能”想”也能”做”，主动发现和解决问题
🚀 典型产品：Claude Code、Cursor、Manus

OpenRouter、Anthropic、火山引擎、Siliconflow 使用指南

2025-07-25 22:00:00

在 AI 应用开发中，选择合适的 LLM API 服务至关重要。无论你是在构建智能对话系统、开发 AI Agent，还是参加 AI Hackathon，本文都将为你提供全面的 API 使用指南，涵盖 OpenRouter、Anthropic API、火山引擎和 Siliconflow 等主流服务。

为什么需要多个 API 服务？

不同的 LLM 模型有各自的优势，特别是在开发 AI Agent 时，需要根据具体场景选择合适的模型：

Claude（Anthropic）：擅长复杂推理、编程和 Agent 任务，特别适合需要深度思考的场景
Gemini（Google）：在长文本处理、多模态理解方面表现出色，适合处理图片、视频等多媒体内容
GPT（OpenAI）：图片理解和数学推理能力强，日常对话体验优秀
豆包（字节跳动）：国内访问速度快，语音对话体验好，特别适合实时交互场景
开源模型：成本低，可定制性强，适合大规模部署

AI，我们自由的“多巴胺引擎”：挣脱生存引力，构建价值星辰

2025-07-21 00:00:00

（本文是根据我跟 Gemini 2.5 Pro 一个小时的语音聊天，全自动生成的）

人类对自由的追求，是一场与内心深处生物本能的深刻对话。在展开这场对话之前，我们必须先理解 “自由” 的两种核心面貌，正如哲学家以赛亚·伯林所阐述的：

第一种，是“免于……的自由”（Freedom From），即消极自由。它致力于摆脱外部的束缚、强制与干涉。这是为我们的人生划定一个神圣的、不受侵犯的“空间”，其终极形态是财务自由——你免于为生计而出卖劳动的强制。
第二种，是“去做……的自由”（Freedom To），即积极自由。它追求的是成为自己意志的主人，拥有足够的能力与资源去实现自我价值。这是赋予我们行动的“力量”，其终极形态是创造自由——你能够将想象变为现实。

理解了这对概念，我们才能洞察一个更深层的秘密，这个秘密由 2025 年图灵奖得主、强化学习之父 Richard Sutton 在其经典教科书《强化学习》中揭示：驱动我们快乐的，并非静态的 “奖励” 本身，而是动态的 “奖励预测误差” 。真正让我们的大脑分泌多巴胺、感受到快乐的，是 “实际所得” 与 “先前预期” 之间的正向差距。

一个完全可预测的、没有惊喜的世界，无论多么富足，其奖励预测误差都趋近于零。这从生物学上解释了为何纯粹的 “Freedom From”——一个安逸、无忧但一成不变的港湾——最终可能导致空虚。相反，充满挑战、探索与创造的 “Freedom To”，则是一个持续产生正向预测误差的强大引擎。

今天，AI 的崛起，正以前所未有的方式，将这个引擎的钥匙交到我们每一个人手中。

搭建免安装客户端的 IKEv2 隧道，解决 Cursor 地区限制

2025-07-18 02:00:00

（感谢 Koutian Wu 师弟完整的调试部署，并在评论中指出原版文章中的几处技术问题，文中已经修正）

随着 Cursor、Claude Code 等工具在中国的访问受限，传统的 HTTP/SOCKS 代理已经无法满足日常需求。这些工具不仅在服务端进行了地区限制，还可能采用多层次的技术手段来检测用户的真实地理位置（当前仅采用一部分，未来可能升级）：

基础 IP 数据库匹配：传统的 GeoIP 数据库查询
时区一致性检测：通过 JavaScript 获取客户端时区，与 IP 地理位置进行交叉验证
DNS 解析检查：利用 Geo DNS 解析结果检查真实位置
WebRTC IP 泄露检测：通过 WebRTC 获取用户真实 IP 地址
CloudFlare 源地址获取：通过 CloudFlare 的 HTTP 头信息获取真实源地址

目前大多数 HTTP/SOCKS 代理只能应对基础检测方式，而对于更复杂的多维度检测往往无能为力。三层隧道由于工作在网络层，能够更彻底地隐藏用户的真实网络环境。

除了绕过地理位置限制，三层隧道还适用于以下场景：

服务器访问控制：避免把公司服务器的 SSH 访问端口暴露在公共互联网上
开发测试环境：避免把公司的测试服务器、内部 API 等暴露在公共互联网上
安全网络环境：在不受信任的公共 WiFi 环境下，确保通信安全

虽然 WireGuard、OpenVPN 等方案稳定高效，但需要安装专用客户端，在多设备使用场景下略显繁琐。

IKEv2 作为现代化的 VPN 标准，不仅具备出色的性能和稳定性，更重要的是，它已经原生集成在 macOS、Windows、iOS、Android 等主流操作系统中，无需安装任何第三方客户端。

本文将基于《巧用香港中转，搭建丝滑稳定的中美三层隧道》的架构思路，构建一个 国内 -> 香港 -> 美国 的 IKEv2 隧道三级跳方案。

Bojie Li | 李博杰 修改