2025-08-18 22:00:00
【本文基于图灵社区 AI Agent 实战营首次直播内容整理,Slides 链接】
开发一个属于你的 AI Agent,就从这里开始。本文不仅系统介绍了从零构建通用 AI Agent 的基础技术路径(如上下文工程、RAG 系统、工具调用、多模态交互等),还涵盖了快慢思考、多 Agent 协作等进阶技术。通过 9 周的实战项目,逐步掌握 Agent 开发的全生命周期与核心进阶能力。
本课程于 8 月 18 日首次直播预告,将于 9 月 11 日正式开始上课。每周课程约 2 小时,涵盖下面的所有基础内容和进阶内容。当然,每周仅仅花 2 小时听课肯定是不够的,还需要花时间动手编程实践。
开发一个属于你的 AI Agent,就从这里开始
LLM + 上下文 + 工具
的核心设计范式。周次 | 主题 | 内容概览 | 实战案例 |
---|---|---|---|
1 | Agent 入门 | Agent 结构与分类、工作流式 vs 自主式 | 动手搭建一个能联网搜索的 Agent |
2 | 上下文设计 | Prompt 模版、对话历史、用户长期记忆 | 为你的 Agent 增加角色设定和长期记忆 |
3 | RAG 与知识库 | 文档结构化、检索策略与增量更新 | 构建一个法律知识问答 Agent |
4 | 工具调用与 MCP | 工具封装与 MCP 接入、外部 API 调用 | 对接 MCP Server,实现深度调研 Agent |
5 | 编程与代码执行 | 代码库理解、可靠的代码修改、一致的执行环境 | 构建一个能自己开发 Agent 的 Agent |
6 | 模型评估与选择 | 模型能力评估、LLM as a Judge、安全护栏设计 | 构建评测数据集,用 LLM as a Judge 自动评测 Agent |
7 | 多模态与实时交互 | 实时语音 Agent、操作电脑与手机 | 实现语音电话 Agent & 集成 browser-use 操作电脑 |
8 | 多 Agent 协作 | A2A 通信协议、Agent 团队分工与协作 | 设计多 Agent 协作系统,实现”边打电话边操作电脑” |
9 | 项目集成与展示 | Agent 项目总装与展示、最终成果打磨 | 展示你独一无二的通用 Agent |
周次 | 主题 | 进阶内容概览 | 进阶实战案例 |
---|---|---|---|
1 | Agent 入门 | 上下文的重要性 | 探索上下文缺失对 Agent 行为的影响 |
2 | 上下文设计 | 用户记忆的整理 | 构建个人知识管理 Agent,实现长文本总结 |
3 | RAG 与知识库 | 长上下文压缩 | 构建学术论文分析 Agent,总结论文核心贡献 |
4 | 工具调用与 MCP | 从经验中学习 | 增强深度调研 Agent 的专家能力 (Sub-agent 与领域经验) |
5 | 编程与代码执行 | Agent 的自我进化 | 构建能自主利用开源软件解决未知问题的 Agent |
6 | 模型评估与选择 | 并行采样与顺序修订 | 为深度调研 Agent 增加并行与修订能力 |
7 | 多模态与实时交互 | 快慢思考结合 | 实现快慢思考结合的实时语音 Agent |
8 | 多 Agent 协作 | Orchestration Agent | 用 Orchestration Agent 动态协调电话与电脑操作 |
9 | 项目集成与展示 | Agent 学习方式对比 | 对比 Agent 从经验中学习的四种方式 |
2025-08-03 18:30:00
继《用 Vibe Coding 解决 LLM 限制采样的面试题》之后,再分享我司(Pine AI)一道关于 LLM 基础原理的 Vibe Coding 面试题。
很多人对 Vibe Coding 有个误解,以为就是不断地问 AI “这个怎么做?那个怎么实现?”。这种方式注定会失败。真正的 Vibe Coding,你必须是架构师和产品经理,像老师指导学生一样去引导 AI,而不是反过来。
这道面试题考察候选人对 Transformer 基本原理的理解和 vibe coding 快速实现的工程能力。这就是我们需要的人:懂模型,并且工程能力强。
在许多应用场景中,大语言模型(LLM)需要基于一份给定的上下文(Context)来回答问题或提取信息,这个过程通常被称为“上下文学习”(In-Context Learning)。然而,LLM 存在一个已知的、严重的安全隐患:当被问及一个上下文中不存在的信息时,它可能会“幻觉”(Hallucinate)出一个格式正确但事实错误的答案,而非承认信息的缺失。
2025-07-30 00:00:00
【本文是在图灵社区大模型技术共学营的演讲,Slides 链接】
深入探索 AI Agent 的设计哲学与实践策略。从 Chatbot 的对话模式到 Agent 的行动模式,系统性地设计和管理 Agent 的信息环境,构建高效、可靠的 AI Agent 系统。
我们正在经历 AI 交互模式的根本性转变:
Chatbot 时代
Agent 时代
2025-07-25 22:00:00
在 AI 应用开发中,选择合适的 LLM API 服务至关重要。无论你是在构建智能对话系统、开发 AI Agent,还是参加 AI Hackathon,本文都将为你提供全面的 API 使用指南,涵盖 OpenRouter、Anthropic API、火山引擎和 Siliconflow 等主流服务。
不同的 LLM 模型有各自的优势,特别是在开发 AI Agent 时,需要根据具体场景选择合适的模型:
2025-07-21 00:00:00
(本文是根据我跟 Gemini 2.5 Pro 一个小时的语音聊天,全自动生成的)
人类对自由的追求,是一场与内心深处生物本能的深刻对话。在展开这场对话之前,我们必须先理解 “自由” 的两种核心面貌,正如哲学家以赛亚·伯林所阐述的:
理解了这对概念,我们才能洞察一个更深层的秘密,这个秘密由 2025 年图灵奖得主、强化学习之父 Richard Sutton 在其经典教科书《强化学习》中揭示:驱动我们快乐的,并非静态的 “奖励” 本身,而是动态的 “奖励预测误差” 。真正让我们的大脑分泌多巴胺、感受到快乐的,是 “实际所得” 与 “先前预期” 之间的正向差距。
一个完全可预测的、没有惊喜的世界,无论多么富足,其奖励预测误差都趋近于零。这从生物学上解释了为何纯粹的 “Freedom From”——一个安逸、无忧但一成不变的港湾——最终可能导致空虚。相反,充满挑战、探索与创造的 “Freedom To”,则是一个持续产生正向预测误差的强大引擎。
今天,AI 的崛起,正以前所未有的方式,将这个引擎的钥匙交到我们每一个人手中。
2025-07-18 02:00:00
(感谢 Koutian Wu 师弟完整的调试部署,并在评论中指出原版文章中的几处技术问题,文中已经修正)
随着 Cursor、Claude Code 等工具在中国的访问受限,传统的 HTTP/SOCKS 代理已经无法满足日常需求。这些工具不仅在服务端进行了地区限制,还可能采用多层次的技术手段来检测用户的真实地理位置(当前仅采用一部分,未来可能升级):
目前大多数 HTTP/SOCKS 代理只能应对基础检测方式,而对于更复杂的多维度检测往往无能为力。三层隧道由于工作在网络层,能够更彻底地隐藏用户的真实网络环境。
除了绕过地理位置限制,三层隧道还适用于以下场景:
虽然 WireGuard、OpenVPN 等方案稳定高效,但需要安装专用客户端,在多设备使用场景下略显繁琐。
IKEv2 作为现代化的 VPN 标准,不仅具备出色的性能和稳定性,更重要的是,它已经原生集成在 macOS、Windows、iOS、Android 等主流操作系统中,无需安装任何第三方客户端。
本文将基于《巧用香港中转,搭建丝滑稳定的中美三层隧道》的架构思路,构建一个 国内 -> 香港 -> 美国
的 IKEv2 隧道三级跳方案。