MoreRSS

site iconBojie Li | 李博杰修改

首届 「华为天才少年」,中科大博士,AI 创业
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Bojie Li | 李博杰的 RSS 预览

从提示工程到上下文工程:写好 Agent 的秘诀

2025-07-30 00:00:00

【本文是在图灵社区大模型技术共学营的演讲,Slides 链接

深入探索 AI Agent 的设计哲学与实践策略。从 Chatbot 的对话模式到 Agent 的行动模式,系统性地设计和管理 Agent 的信息环境,构建高效、可靠的 AI Agent 系统。

目录

  1. Part 1: 范式变迁 - 从 Chatbot 到 Agent
  2. Part 2: Agent 核心解析
  3. Part 3: 上下文工程 (Context Engineering)
  4. Part 4: 记忆与知识系统

Part 1: 范式变迁 - 从 Chatbot 到 Agent

从 Chatbot 到 Agent:范式的根本转变

我们正在经历 AI 交互模式的根本性转变:

Chatbot 时代

  • 🗣️ 对话式交互:用户提问 → AI 回答 → 循环往复的问答模式
  • 📚 知识渊博的顾问:只能”说”不能”做”,被动响应用户需求
  • 🛠️ 典型产品:ChatGPT、Claude Chat

Agent 时代

  • 🎯 自主行动模式:用户设定目标 → Agent 执行 → 自主规划和决策
  • 💪 能干的助手:既能”想”也能”做”,主动发现和解决问题
  • 🚀 典型产品:Claude Code、Cursor、Manus

OpenRouter、Anthropic、火山引擎、Siliconflow 使用指南

2025-07-25 22:00:00

在 AI 应用开发中,选择合适的 LLM API 服务至关重要。无论你是在构建智能对话系统、开发 AI Agent,还是参加 AI Hackathon,本文都将为你提供全面的 API 使用指南,涵盖 OpenRouter、Anthropic API、火山引擎和 Siliconflow 等主流服务。

为什么需要多个 API 服务?

不同的 LLM 模型有各自的优势,特别是在开发 AI Agent 时,需要根据具体场景选择合适的模型:

  • Claude(Anthropic):擅长复杂推理、编程和 Agent 任务,特别适合需要深度思考的场景
  • Gemini(Google):在长文本处理、多模态理解方面表现出色,适合处理图片、视频等多媒体内容
  • GPT(OpenAI):图片理解和数学推理能力强,日常对话体验优秀
  • 豆包(字节跳动):国内访问速度快,语音对话体验好,特别适合实时交互场景
  • 开源模型:成本低,可定制性强,适合大规模部署

AI,我们自由的“多巴胺引擎”:挣脱生存引力,构建价值星辰

2025-07-21 00:00:00

(本文是根据我跟 Gemini 2.5 Pro 一个小时的语音聊天,全自动生成的)

人类对自由的追求,是一场与内心深处生物本能的深刻对话。在展开这场对话之前,我们必须先理解 “自由” 的两种核心面貌,正如哲学家以赛亚·伯林所阐述的:

  • 第一种,是“免于……的自由”(Freedom From),即消极自由。它致力于摆脱外部的束缚、强制与干涉。这是为我们的人生划定一个神圣的、不受侵犯的“空间”,其终极形态是财务自由——你免于为生计而出卖劳动的强制。
  • 第二种,是“去做……的自由”(Freedom To),即积极自由。它追求的是成为自己意志的主人,拥有足够的能力与资源去实现自我价值。这是赋予我们行动的“力量”,其终极形态是创造自由——你能够将想象变为现实。

理解了这对概念,我们才能洞察一个更深层的秘密,这个秘密由 2025 年图灵奖得主、强化学习之父 Richard Sutton 在其经典教科书《强化学习》中揭示:驱动我们快乐的,并非静态的 “奖励” 本身,而是动态的 “奖励预测误差” 。真正让我们的大脑分泌多巴胺、感受到快乐的,是 “实际所得” 与 “先前预期” 之间的正向差距

一个完全可预测的、没有惊喜的世界,无论多么富足,其奖励预测误差都趋近于零。这从生物学上解释了为何纯粹的 “Freedom From”——一个安逸、无忧但一成不变的港湾——最终可能导致空虚。相反,充满挑战、探索与创造的 “Freedom To”,则是一个持续产生正向预测误差的强大引擎。

今天,AI 的崛起,正以前所未有的方式,将这个引擎的钥匙交到我们每一个人手中。

搭建免安装客户端的 IKEv2 隧道,解决 Cursor 地区限制

2025-07-18 02:00:00

(感谢 Koutian Wu 师弟完整的调试部署,并在评论中指出原版文章中的几处技术问题,文中已经修正)

随着 Cursor、Claude Code 等工具在中国的访问受限,传统的 HTTP/SOCKS 代理已经无法满足日常需求。这些工具不仅在服务端进行了地区限制,还可能采用多层次的技术手段来检测用户的真实地理位置(当前仅采用一部分,未来可能升级):

  1. 基础 IP 数据库匹配:传统的 GeoIP 数据库查询
  2. 时区一致性检测:通过 JavaScript 获取客户端时区,与 IP 地理位置进行交叉验证
  3. DNS 解析检查:利用 Geo DNS 解析结果检查真实位置
  4. WebRTC IP 泄露检测:通过 WebRTC 获取用户真实 IP 地址
  5. CloudFlare 源地址获取:通过 CloudFlare 的 HTTP 头信息获取真实源地址

目前大多数 HTTP/SOCKS 代理只能应对基础检测方式,而对于更复杂的多维度检测往往无能为力。三层隧道由于工作在网络层,能够更彻底地隐藏用户的真实网络环境。

除了绕过地理位置限制,三层隧道还适用于以下场景:

  1. 服务器访问控制:避免把公司服务器的 SSH 访问端口暴露在公共互联网上
  2. 开发测试环境:避免把公司的测试服务器、内部 API 等暴露在公共互联网上
  3. 安全网络环境:在不受信任的公共 WiFi 环境下,确保通信安全

虽然 WireGuard、OpenVPN 等方案稳定高效,但需要安装专用客户端,在多设备使用场景下略显繁琐。

IKEv2 作为现代化的 VPN 标准,不仅具备出色的性能和稳定性,更重要的是,它已经原生集成在 macOS、Windows、iOS、Android 等主流操作系统中,无需安装任何第三方客户端。

本文将基于《巧用香港中转,搭建丝滑稳定的中美三层隧道》的架构思路,构建一个 国内 -> 香港 -> 美国 的 IKEv2 隧道三级跳方案。

用 Vibe Coding 解决 LLM 限制采样的面试题

2025-07-15 22:00:00

这是我司的一道面试题。

有人说我们的 Vibe Coding 编程题太难了,其实我司的 2 小时 Vibe Coding 面试题都基本不需要自己写代码。只要把题输到 prompt 里面,跟 LLM 持续交互提需求和改进方向,AI 就给你自己做完了。

为什么叫 Vibe Coding?就是让你尽量少直接写代码。人和 AI 的分工变得非常明确:人负责把控方向、定义问题、审查结果,而 AI 负责具体的实现。像 Claude Code 这种就是一个极致,人不准动代码,只有 LLM 能动代码。

下面,我将通过这道面试题的完整经历,来展示 Vibe Coding 是如何运作的。这整个探索过程并非一帆风顺,AI 的初期方案存在严重缺陷。正是通过我不断的审查和方向修正,我们才最终抵达了那个可用的解决方案。这不仅是关于一个技术问题的解答,更是一次关于未来软件开发模式的深度探索。

值得一提的是,这篇文章本身,也是我在 Cursor 中,让 Gemini 2.5 Pro 根据我的工作日志(包含我与 AI 的所有对话、代码的演进过程)自动生成的。从我开始向 Cursor 提出最初的问题,到完成最终可用的程序,再到生成这篇图文并茂的博客文章,整个过程仅花费了 1.5 小时。

The Challenge: LLM 限制采样

一个学英语的软件需要保证其内置的 LLM 输出的所有单词都必须在一个 3000 词的词库范围内。

要求:

  1. 使用大语言模型(LLM)的限制采样(Constrained Sampling)方法,修改推理框架(如 transformers)中的 token 采样算法,保证 LLM 输出的所有内容都在这个给定的 3000 词的词库范围内。
  2. 当然,要允许输出标点符号、空格、换行等,但不允许输出特殊字符、中文、法语、表情符号等。
  3. 词库中单词的大小写变换都认为是合法的单词,例如词库中有 apple 一词,那么 appleAppleAPPLE 都认为是合法的输出。
  4. 3000 词的词库可以从网上随便找一个常见英语单词表。
  5. 要求限制采样算法性能尽可能好。

巧用香港中转,搭建丝滑稳定的中美三层隧道

2025-07-12 12:30:00

在之前的文章《搭建全程美国 IP、无需手动设置代理的三层隧道》中,我们通过 国内服务器 -> 美国服务器 的架构,解决了访问全球服务时遇到的诸多网络问题。但一个新的性能瓶颈逐渐显现:国内服务器与美国服务器之间的公网连接,在高峰时段延迟高、丢包严重。

这导致即便我们使用了隧道,依然会遇到 SSH 操作卡顿、在线会议掉线、API 请求超时等问题。根本原因在于中美之间的国际互联网链路,如同一条节假日的高速公路,拥堵是常态。

面对这个问题,一个反直觉的解决方案浮出水面:如果直路不通,我们绕路走会不会更快?