MoreRSS

site iconBojie Li | 李博杰修改

首届 「华为天才少年」,中科大博士,AI 创业
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Bojie Li | 李博杰的 RSS 预览

AI Agent 实战营:9 周构建你的通用 Agent

2025-08-18 22:00:00

【本文基于图灵社区 AI Agent 实战营首次直播内容整理,Slides 链接

图灵社区《AI Agent 实战营》购买链接

开发一个属于你的 AI Agent,就从这里开始。本文不仅系统介绍了从零构建通用 AI Agent 的基础技术路径(如上下文工程、RAG 系统、工具调用、多模态交互等),还涵盖了快慢思考、多 Agent 协作等进阶技术。通过 9 周的实战项目,逐步掌握 Agent 开发的全生命周期与核心进阶能力。

本课程于 8 月 18 日首次直播预告,将于 9 月 11 日正式开始上课。每周课程约 2 小时,涵盖下面的所有基础内容和进阶内容。当然,每周仅仅花 2 小时听课肯定是不够的,还需要花时间动手编程实践。

实战营核心目标

开发一个属于你的 AI Agent,就从这里开始

🎯 掌握核心架构与工程能力

  • 深度理解 Agent 架构: 系统掌握 LLM + 上下文 + 工具 的核心设计范式。
  • 精通上下文工程: 掌握从对话历史、用户长期记忆到外部知识库 (RAG) 和文件系统的多层次上下文管理技术。
  • 掌握动态工具调用: 实现 Agent 与外部 API、MCP Server 的可靠集成,并能通过代码生成实现自我进化。
  • 构建高级 Agent 模式: 设计与实现快慢思考 (Mixture-of-Thoughts)、Orchestration 等复杂 Agent 协作模式。

💡 建立系统化开发与部署认知

  • 理解技术演进路径: 洞悉从基础 RAG 到能够自主开发工具的 Agent 的技术演进路径。
  • 掌握 Agent 全生命周期: 具备独立完成 Agent 项目的设计、开发、使用 LLM as a Judge 评测与部署的闭环能力。
  • 构建领域知识: 通过法律、学术、编程等多个实战项目,积累跨领域 Agent 开发经验。
  • 知识体系沉淀: 参与共创《深入浅出 AI Agent》书籍,将碎片化知识系统化输出。

9 周实战计划概览

周次 主题 内容概览 实战案例
1 Agent 入门 Agent 结构与分类、工作流式 vs 自主式 动手搭建一个能联网搜索的 Agent
2 上下文设计 Prompt 模版、对话历史、用户长期记忆 为你的 Agent 增加角色设定和长期记忆
3 RAG 与知识库 文档结构化、检索策略与增量更新 构建一个法律知识问答 Agent
4 工具调用与 MCP 工具封装与 MCP 接入、外部 API 调用 对接 MCP Server,实现深度调研 Agent
5 编程与代码执行 代码库理解、可靠的代码修改、一致的执行环境 构建一个能自己开发 Agent 的 Agent
6 模型评估与选择 模型能力评估、LLM as a Judge、安全护栏设计 构建评测数据集,用 LLM as a Judge 自动评测 Agent
7 多模态与实时交互 实时语音 Agent、操作电脑与手机 实现语音电话 Agent & 集成 browser-use 操作电脑
8 多 Agent 协作 A2A 通信协议、Agent 团队分工与协作 设计多 Agent 协作系统,实现”边打电话边操作电脑”
9 项目集成与展示 Agent 项目总装与展示、最终成果打磨 展示你独一无二的通用 Agent

9 周进阶课题

周次 主题 进阶内容概览 进阶实战案例
1 Agent 入门 上下文的重要性 探索上下文缺失对 Agent 行为的影响
2 上下文设计 用户记忆的整理 构建个人知识管理 Agent,实现长文本总结
3 RAG 与知识库 长上下文压缩 构建学术论文分析 Agent,总结论文核心贡献
4 工具调用与 MCP 从经验中学习 增强深度调研 Agent 的专家能力 (Sub-agent 与领域经验)
5 编程与代码执行 Agent 的自我进化 构建能自主利用开源软件解决未知问题的 Agent
6 模型评估与选择 并行采样与顺序修订 为深度调研 Agent 增加并行与修订能力
7 多模态与实时交互 快慢思考结合 实现快慢思考结合的实时语音 Agent
8 多 Agent 协作 Orchestration Agent 用 Orchestration Agent 动态协调电话与电脑操作
9 项目集成与展示 Agent 学习方式对比 对比 Agent 从经验中学习的四种方式

又一道 Vibe Coding 面试题:基于注意力的 LLM 幻觉检测器

2025-08-03 18:30:00

《用 Vibe Coding 解决 LLM 限制采样的面试题》之后,再分享我司(Pine AI)一道关于 LLM 基础原理的 Vibe Coding 面试题。

很多人对 Vibe Coding 有个误解,以为就是不断地问 AI “这个怎么做?那个怎么实现?”。这种方式注定会失败。真正的 Vibe Coding,你必须是架构师和产品经理,像老师指导学生一样去引导 AI,而不是反过来。

这道面试题考察候选人对 Transformer 基本原理的理解和 vibe coding 快速实现的工程能力。这就是我们需要的人:懂模型,并且工程能力强。

The Challenge: 基于注意力的 LLM 幻觉检测器

1. 背景与问题 (Background & Problem Statement)

在许多应用场景中,大语言模型(LLM)需要基于一份给定的上下文(Context)来回答问题或提取信息,这个过程通常被称为“上下文学习”(In-Context Learning)。然而,LLM 存在一个已知的、严重的安全隐患:当被问及一个上下文中不存在的信息时,它可能会“幻觉”(Hallucinate)出一个格式正确但事实错误的答案,而非承认信息的缺失。

从提示工程到上下文工程:写好 Agent 的秘诀

2025-07-30 00:00:00

【本文是在图灵社区大模型技术共学营的演讲,Slides 链接

深入探索 AI Agent 的设计哲学与实践策略。从 Chatbot 的对话模式到 Agent 的行动模式,系统性地设计和管理 Agent 的信息环境,构建高效、可靠的 AI Agent 系统。

目录

  1. Part 1: 范式变迁 - 从 Chatbot 到 Agent
  2. Part 2: Agent 核心解析
  3. Part 3: 上下文工程 (Context Engineering)
  4. Part 4: 记忆与知识系统

Part 1: 范式变迁 - 从 Chatbot 到 Agent

从 Chatbot 到 Agent:范式的根本转变

我们正在经历 AI 交互模式的根本性转变:

Chatbot 时代

  • 🗣️ 对话式交互:用户提问 → AI 回答 → 循环往复的问答模式
  • 📚 知识渊博的顾问:只能”说”不能”做”,被动响应用户需求
  • 🛠️ 典型产品:ChatGPT、Claude Chat

Agent 时代

  • 🎯 自主行动模式:用户设定目标 → Agent 执行 → 自主规划和决策
  • 💪 能干的助手:既能”想”也能”做”,主动发现和解决问题
  • 🚀 典型产品:Claude Code、Cursor、Manus

OpenRouter、Anthropic、火山引擎、Siliconflow 使用指南

2025-07-25 22:00:00

在 AI 应用开发中,选择合适的 LLM API 服务至关重要。无论你是在构建智能对话系统、开发 AI Agent,还是参加 AI Hackathon,本文都将为你提供全面的 API 使用指南,涵盖 OpenRouter、Anthropic API、火山引擎和 Siliconflow 等主流服务。

为什么需要多个 API 服务?

不同的 LLM 模型有各自的优势,特别是在开发 AI Agent 时,需要根据具体场景选择合适的模型:

  • Claude(Anthropic):擅长复杂推理、编程和 Agent 任务,特别适合需要深度思考的场景
  • Gemini(Google):在长文本处理、多模态理解方面表现出色,适合处理图片、视频等多媒体内容
  • GPT(OpenAI):图片理解和数学推理能力强,日常对话体验优秀
  • 豆包(字节跳动):国内访问速度快,语音对话体验好,特别适合实时交互场景
  • 开源模型:成本低,可定制性强,适合大规模部署

AI,我们自由的“多巴胺引擎”:挣脱生存引力,构建价值星辰

2025-07-21 00:00:00

(本文是根据我跟 Gemini 2.5 Pro 一个小时的语音聊天,全自动生成的)

人类对自由的追求,是一场与内心深处生物本能的深刻对话。在展开这场对话之前,我们必须先理解 “自由” 的两种核心面貌,正如哲学家以赛亚·伯林所阐述的:

  • 第一种,是“免于……的自由”(Freedom From),即消极自由。它致力于摆脱外部的束缚、强制与干涉。这是为我们的人生划定一个神圣的、不受侵犯的“空间”,其终极形态是财务自由——你免于为生计而出卖劳动的强制。
  • 第二种,是“去做……的自由”(Freedom To),即积极自由。它追求的是成为自己意志的主人,拥有足够的能力与资源去实现自我价值。这是赋予我们行动的“力量”,其终极形态是创造自由——你能够将想象变为现实。

理解了这对概念,我们才能洞察一个更深层的秘密,这个秘密由 2025 年图灵奖得主、强化学习之父 Richard Sutton 在其经典教科书《强化学习》中揭示:驱动我们快乐的,并非静态的 “奖励” 本身,而是动态的 “奖励预测误差” 。真正让我们的大脑分泌多巴胺、感受到快乐的,是 “实际所得” 与 “先前预期” 之间的正向差距

一个完全可预测的、没有惊喜的世界,无论多么富足,其奖励预测误差都趋近于零。这从生物学上解释了为何纯粹的 “Freedom From”——一个安逸、无忧但一成不变的港湾——最终可能导致空虚。相反,充满挑战、探索与创造的 “Freedom To”,则是一个持续产生正向预测误差的强大引擎。

今天,AI 的崛起,正以前所未有的方式,将这个引擎的钥匙交到我们每一个人手中。

搭建免安装客户端的 IKEv2 隧道,解决 Cursor 地区限制

2025-07-18 02:00:00

(感谢 Koutian Wu 师弟完整的调试部署,并在评论中指出原版文章中的几处技术问题,文中已经修正)

随着 Cursor、Claude Code 等工具在中国的访问受限,传统的 HTTP/SOCKS 代理已经无法满足日常需求。这些工具不仅在服务端进行了地区限制,还可能采用多层次的技术手段来检测用户的真实地理位置(当前仅采用一部分,未来可能升级):

  1. 基础 IP 数据库匹配:传统的 GeoIP 数据库查询
  2. 时区一致性检测:通过 JavaScript 获取客户端时区,与 IP 地理位置进行交叉验证
  3. DNS 解析检查:利用 Geo DNS 解析结果检查真实位置
  4. WebRTC IP 泄露检测:通过 WebRTC 获取用户真实 IP 地址
  5. CloudFlare 源地址获取:通过 CloudFlare 的 HTTP 头信息获取真实源地址

目前大多数 HTTP/SOCKS 代理只能应对基础检测方式,而对于更复杂的多维度检测往往无能为力。三层隧道由于工作在网络层,能够更彻底地隐藏用户的真实网络环境。

除了绕过地理位置限制,三层隧道还适用于以下场景:

  1. 服务器访问控制:避免把公司服务器的 SSH 访问端口暴露在公共互联网上
  2. 开发测试环境:避免把公司的测试服务器、内部 API 等暴露在公共互联网上
  3. 安全网络环境:在不受信任的公共 WiFi 环境下,确保通信安全

虽然 WireGuard、OpenVPN 等方案稳定高效,但需要安装专用客户端,在多设备使用场景下略显繁琐。

IKEv2 作为现代化的 VPN 标准,不仅具备出色的性能和稳定性,更重要的是,它已经原生集成在 macOS、Windows、iOS、Android 等主流操作系统中,无需安装任何第三方客户端。

本文将基于《巧用香港中转,搭建丝滑稳定的中美三层隧道》的架构思路,构建一个 国内 -> 香港 -> 美国 的 IKEv2 隧道三级跳方案。