Jimmy Song | 宋净超的 RSS 预览

用 JSON Prompt 构建 3D 图标：结构化提示词的强大实践

2025-08-03 10:00:00

最近在 x.com 上看到一则关于生成 3D 图标的 JSON 格式提示词，让我产生了浓厚兴趣。此前我接触到的提示词大多是自然语言描述，或者仅用简单的标签区分系统和用户输入，而像这样结构化的 JSON Prompting 还是第一次见到。实际尝试后，发现这种方式的效果确实非常出色。

下面是我试用改提示词生成的图标，分别是千问、VS Code 和 Obsidian，可以看到这三个图标在风格上保持了一致性，同时又能清晰地表达各自的品牌特色，唯一有点区别的是背景色调——千问的背景色比起另外两个更加暗淡了一些。

使用 JSON Prompt 生成 3D 图标：Qwen、VS Code 和 Obsidian

相比传统自然语言提示词（prompt），这种“结构化”的方式更清晰、稳定、强大，特别适合需要精细控制的图像生成任务。在这篇文章中，我将以一个 Jelly 风格的 3D 图标生成为例，详细解析 JSON Prompt 的写法和最佳实践。

什么是 JSON Prompting？

JSON Prompting，顾名思义，是用 JSON 的格式撰写提示词，将任务目标、渲染细节、输出要求等用结构化方式传达给模型。它不是一句话的模糊请求，而是一个"输入说明书"，就像开发者写配置文件一样。

我使用如下 JSON Prompt 来生成图标：

{
 "style": "Jelly 3D Icon",
 "object": "User-uploaded logo or emoji (Qwen)",
 "base": {
 "shape": "Rounded square",
 "material": "Soft translucent jelly-like material",
 "color": "A strong contrasting color to icon (e.g. purple, green, blue)",
 "lighting": "Inner glow and soft ambient shadows that gently fade outward"
 },
 "icon": {
 "material": "Jelly/glassy translucent look, softly glowing from within",
 "color": "Brighter tone or brand color, always with a jelly-glass texture",
 "depth": "3D extruded with rounded edges and subtle bottom shadow",
 "placement": "Centered with even padding inside base"
 },
 "render": {
 "camera": "Front orthographic view with centered framing",
 "lighting": "Studio-quality lighting with soft top-left highlight and directional drop shadow underneath icon",
 "shadow": {
 "style": "Soft diffused base shadow with slight blur",
 "position": "Directly under icon, slightly offset down",
 "opacity": 0.15,
 "spread": "Medium, matching other icons in set"
 },
 "background": "Soft warm grey or pastel cream for consistency",
 "dimensions": "1:1 square ratio, minimum 1024x1024",
 "file_format": "PNG"
 },
 "style_notes": "Ensure consistent lighting and shadow softness across the set. Shadows should appear slightly beneath and behind the icon with soft blur — matching the Spotify, Camera, and Weather icon samples exactly. Avoid flat or harsh shadows. Emphasize clean separation between icon and base through shadow and depth."
}

为什么要用 JSON 格式，而不是自然语言？

结构清晰：每个需求独立成字段，避免遗漏和歧义。
机器易解析：AI 更擅长理解结构化数据，参数定位更准确。
便于复用：模板化、批量生成和修改更方便，适合标准化场景。
沟通高效：像需求文档一样，团队成员一看就懂。
易于自动化：方便用脚本生成、校验和分析。

自然语言适合创意任务，JSON 格式适合精确、标准、可控的内容生成。两者可结合使用，根据需求选择。

这段 prompt 看似复杂，其实是由多个语义清晰的模块组成。下面我们逐个拆解。

字段结构与写作要点解析

在了解了整体结构和优势后，我们可以更细致地拆解每个字段的作用和写作技巧。下面将逐项解析 JSON Prompt 的各个部分，帮助你掌握结构化提示词的核心要点与实用写法。

1. 顶层参数：任务风格与目标对象

"style": "Jelly 3D Icon",
"object": "User-uploaded logo or emoji (Qwen)"

style 决定视觉基调，是整个图标风格的锚点；
object 明确了要被图像化的核心元素，尽可能具体，例如"logo"或某个 emoji 表情。

最佳实践：

使用项目中已有的视觉语言关键词（如"jelly"、“glass”、“3D extrusion"等）；
对对象的描述避免泛泛，要尽量明确具体。

2. base 区块：定义图标底板

"base": {
 "shape": "Rounded square",
 "material": "Soft translucent jelly-like material",
 "color": "...",
 "lighting": "..."
}

这部分用于设置 icon 背后的底板样式，包括形状、材质、颜色和光照；
非常适用于生成多个统一风格图标时保持一致性。

最佳实践：

shape 使用常规图形（如圆角方、圆形等），有助于保持现代风格；
color 可以使用对比色引导，例如"strong contrast to icon”。

3. icon 区块：定义图标主体

"icon": {
 "material": "...",
 "color": "...",
 "depth": "...",
 "placement": "..."
}

material 与 depth 共同定义图标的质感和立体层次；
placement 用于居中并维持边距对称，强调图形对齐和审美平衡。

最佳实践：

使用 depth: “3D extruded” 明确建模方式；
统一材质表达，比如都为 jelly-glass 系列，能让图标呈现果冻般通透感。

4. render 区块：定义渲染方式与输出格式

"render": {
 "camera": "...",
 "lighting": "...",
 "shadow": {...},
 "background": "...",
 "dimensions": "...",
 "file_format": "PNG"
}

控制图像生成的"拍摄视角"和"工作室灯光"效果；
shadow 子字段提供高度可控的阴影设置；
dimensions 和 file_format 保证输出用于网页或印刷时的稳定性。

最佳实践：

始终指定分辨率（如 1024x1024），防止 AI 生成模糊图；
使用 background: pastel cream 统一背景风格，避免杂乱。

5. style_notes：设计师级别的主观审美引导

"style_notes": "Ensure consistent lighting and shadow softness across the set..."

这一段让 AI 理解美学意图，虽然是补充说明，却能在高质量模型中起到很大作用。

最佳实践：

模拟你正在对一个人类渲染师下达风格指南；
多使用相对概念词（如"avoid harsh shadows", “match Spotify-style icons”）。

写作总结：JSON Prompt 的通用模板

你可以将这套模式复制到其他内容生成任务中，比如：

{
 "task": "generate image",
 "style": "3D glass icon",
 "object": "light bulb emoji",
 "base": { ... },
 "icon": { ... },
 "render": { ... },
 "style_notes": "..."
}

无论是生成图标、产品展示图还是网页插图，只要结构化表达得当，AI 的输出会更精准。

JSON 提示词的核心优势

JSON 提示是一种结构化的向 AI 传达需求的方式，与常规模糊的指令不同，它通过特定格式清晰地列出任务需求。例如，想要写一篇关于某个应用的公众号文章，常规提示可能是"写一篇关于[应用名称]的公众号文章"，而 JSON 提示则像"{‘任务’: ‘写公众号文章’, ‘主题’: ‘[应用名称] 应用’, ‘长度’: ‘短篇，1000 字以内’, ‘语气’: ‘专业但亲和’}"，详细说明了任务、主题、长度和语气等要求。

JSON 提示的优势主要体现在以下几个方面：

清晰明确：它避免了 AI 对模糊词汇的猜测，如"有趣"这类词在常规提示中可能让 AI 理解模糊，但 JSON 提示可精确界定需求。
符合 AI 处理习惯：JSON 格式与 AI 训练所基于的代码类似，符合 AI 处理数据的习惯。
节省时间：使用 JSON 提示能节省时间，无需多次调整提示以获取满意结果。

JSON 提示词的使用方法

在使用 JSON 提示词时，应遵循以下原则：

使用清晰标签：明确写出"任务"并阐述具体任务，如"写公众号文章"。
详细阐述：添加诸如受众、风格等细节信息。
将大任务拆解：对于复杂任务，通过嵌套部分将其细化。

比如为创业者朋友获取书籍推荐，可使用"{‘任务’: ‘推荐书籍’, ‘主题’: ‘更好的思维’, ‘受众’: ‘创业人士’, ‘格式’: ‘5 本书，每本附带简短的一句话总结’}“这样的 JSON 提示。

JSON 提示词与常规提示的对比

以撰写关于个人创业者保持专注的公众号文章为例，先使用常规提示"写一篇关于创业者专注力的公众号文章”，得到的内容普通、缺乏特色；而后使用 JSON 提示，详细规定平台、主题、结构和语气等，结果生成的文章以引人入胜的问题开篇，包含具体实用的技巧和真实案例，结尾还引发了大量读者评论，充分体现了 JSON 提示在生成特定平台内容时的优势。

JSON 提示词的适用场景

JSON 提示适用于需要精确控制 AI 输出的场景，能让用户清晰地传达需求，获得符合预期的结果。但在需要创意和自由发挥的内容创作方面，如创作充满想象力的儿童故事或科幻小说创意，它并不适用，此时常规的自由提示更能激发创意。

结语：结构化提示词是更工程化的创作方式

使用 JSON Prompt 的过程让我意识到一个趋势：我们需要的不只是"让 AI 懂你"，而是"教 AI 明确做事"。

相比自然语言那种带有不确定性的"请求式"对话，JSON Prompt 更像是一个规范、一个参数表、一个需求文档。这种方式尤其适合开发者、设计师、产品经理等需要构建稳定创作链条的人。

如果你也在做多图生成、多场景文案、内容模板化创作，不妨试一试 JSON Prompting。你会发现，它不仅让 AI 输出更强，也会让你自己思路更清晰。

WisperFlow 被严重高估了：试用一周后我选择卸载

2025-08-03 10:00:00

WisperFlow 是近年来在生产力社区和 AI 圈子备受关注的语音识别工具，由 Tanay Kothari 创办，支持 Mac、Windows 和 iOS 平台。它主打“AI 驱动的高效语音转写”，具备多语言识别、自动整理文本、智能指令等功能，通过快捷键激活，交互体验流畅。自发布以来，WisperFlow 获得了多轮风险投资，2025 年由 Menlo Ventures 领投的 A 轮融资高达 3000 万美元，累计融资约 5600 万美元，背后有知名 AI 基金和硅谷创业孵化器的支持。

在社交媒体、效率工具论坛和播客节目中，WisperFlow 经常被推荐为“提升写作效率”“解放双手”的必备应用。许多自媒体和 KOL 也将其列为年度 AI 工具榜单前列，甚至被称为“语音输入领域的革命性产品”。据官方数据，用户留存率超过 80%，付费转化率接近 19%。正因如此，我也带着极高的期待开始了自己的试用之旅。

说实话，最初我是带着很高的期待下载的，但高频用了一周后，我果断选择卸载。这个产品并不是不能用，而是根本配不上它在社区里被吹捧的名声。以下是我作为一个中文用户的真实使用体验：

1. 服务质量不稳定，常常出现幻觉与错误

它最让我惊喜的，是偶尔能自动给我转写成 Markdown 格式的文本，还能适度地删减冗余、重复语句，看起来就像有人帮我整理了文稿。

幻觉内容会反复出现，一天几次，严重干扰我对文本准确性的信任。
偶尔识别速度很慢，说完话之后等上十几秒才能出现内容。

作为语音转写工具，这种不确定性已经是"致命缺陷"。

2. 非实时转写，使用体验割裂

只有你说完一句或一段，它才会统一转写输出。
对于我这种习惯一口气说很多内容的人，等待的这几秒反而让我觉得焦虑，担心"它到底听到了没有？““会不会漏？”

语音输入是为了提高效率的，不该让我在每句话后都焦急等待响应。

3. 问题特别迷惑：误识别指令

我在 VS Code 中说了一句"改写这段内容”，结果它真的尝试对我的文本进行改写操作！

我翻遍了设置，没找到关闭"命令识别"的选项。我想要的只是一个纯粹的语音转文字工具，而不是一个误会我每一句话意图的"助手"。

4. 收费贵、限制多、不值得

免费用户每周只允许转写 2000 个单词，这个额度其实很容易就用完了。
要解锁完整功能，需要每月订阅 $12 美元，说实话，以目前的体验来看完全不值这个价格。

5. 占用空间大，性价比低

最后一个让我卸载的理由其实最简单：

它没有我已有的语音输入工具更好用，还占了我 500+ MB 的磁盘空间。

比如 Mac OS 自带的语音输入工具，还有我的罗技 MX Master 3 鼠标，它们都提供了稳定的语音输入体验。

这些工具不收费，体验还更好。

总结：WisperFlow 被严重高估了

WisperFlow 是个有想法的产品，但目前的质量和体验，远远达不到它被宣传的高度。

它不是实时语音识别工具。
它不是 AI 写作助手。
它甚至不是一个稳定的语音输入工具。

我并不是不愿意付费，而是目前这个工具在中文语境下的表现，完全不值得订阅成本。如果你只是想要一个高效、稳定的语音输入工具，建议优先考虑操作系统自带的功能或者 Logi 的软硬件组合方案。

Cline 获 3200 万美元融资，AI 编码新时代来袭！

2025-08-01 14:27:13

北京时间 2025 年 8 月 1 日，Cline 团队在 x.com 宣布成功完成 3200 万美元融资。它也是我最近试用的各种 AI 工具中最喜欢的之一，因为它可以是开源的，可以对接几乎所有大模型，甚至是本地的模型。

从黑客马拉松到 2.7M 开发者社区

今天早晨，一个激动人心的消息在科技圈刷屏：开源 AI 编码工具 Cline 宣布完成 3200 万美元的种子轮及 A 轮融资，由Emergence Capital和Pace Capital领投，1984 Ventures 等知名投资机构跟投。这一项目仅在一年内从一个黑客马拉松创意成长为拥有270 万开发者社区的明星产品。这不仅是一次资本的加持，更标志着 AI 驱动的编码新时代正在悄然到来！

我也用过 Cline，确实挺好用的，可以最大发挥大模型的优势，对 token 的消耗也比较透明，但是确实挺贵的。

新闻亮点：透明与开放的 AI 革命

Cline 的成功并非偶然。其核心吸引力在于其开源透明的开发模式。不同于市场上许多隐藏模型细节和定价的 AI 工具，Cline 公开了提示词（prompts）、模型使用情况以及 API 定价（例如每任务 0.2903 美元，每 API 请求 0.0185 美元），让开发者能够清晰掌握成本并充分发挥 AI 潜力。这一策略深得开发者青睐：根据 2023 年斯坦福大学的一项研究，超过 70% 的开发者更倾向于使用透明度高的 AI 工具，以确保信任和预算可控。

创始人 Saoud Rizwan 在帖子中提到，Cline 最初只是一个小型项目，如今已成长为一个支持开发者社区的强大平台。其支持的模型包括 OpenAI、Anthropic、Google Gemini 等顶级 AI 技术，并允许用户根据需求选择任意模型，无论是每天 5 美元还是 500 美元，开发者都能自由探索 AI 的极致能力。这种“无约束模型使用”的理念，让 Cline 在竞争中脱颖而出。

行业背景：AI 编码的崛起

AI 编码工具近年来迅速崛起。从 GitHub Copilot 到 Claude，AI 正在重新定义软件开发流程。根据微软 2025 年发布的 AI 趋势报告，过去一年中，企业领导者对生成式 AI 的使用率从 55% 激增至 75%。Cline 的出现恰逢其时，尤其是在开源 AI 工具需求激增的背景下。2025 年 4 月，Instaclustr 的数据显示，GitHub 上私有开源 AI 项目的数量同比增长 38%，凸显了开发者对定制化 AI 工具的热切需求。

Cline 的另一个亮点是其企业级功能的扩展。得益于本次融资，该团队计划推出访问控制、集中式账单管理以及 JetBrains 支持等功能，目标是加速企业采用。这与 GetDX 今年早些时候发布的报告相呼应，该报告指出，AI 编码工具在企业中的成功秘诀在于治理和培训，而非单纯的技术部署。

团队与未来：24 人小团队的“大梦想”

目前，Cline 的团队仅有 24 人，位于美国旧金山。尽管规模不大，但他们展现了惊人的执行力。帖子中还附上了团队合影，充满活力与自信。此外，Cline 正在全球招聘人才，致力于让“每个人都能使用最强大的编码助手”。这不仅是一个技术愿景，更是一个开放合作的宣言。

分析与启示：AI 的边界与潜力

Cline 的模式引发了业内思考。传统的 AI 工具往往通过订阅制或限制上下文窗口来优化成本，而 Cline 选择让开发者直接面对模型的原始能力。这种“成本透明 + 无约束”的策略，是否会成为未来趋势？微软专家在 2025 年趋势预测中指出，AI 代理的边界将越来越清晰，人类监督将成为关键。Cline 的人机协作界面（human-in-the-loop GUI）正是这一趋势的体现，确保每一步操作都在开发者许可下进行，既安全又高效。

对于开发者而言，Cline 的开源性质提供了宝贵的机会。通过 GitHub 上的 Cline 项目（已获 48.4K 星），可以深入研究其代码，结合本地需求进行二次开发。

结语：AI 编码的未来已来

从黑客马拉松到 270 万开发者社区，再到 3200 万美元融资，Cline 的故事是创新与信任结合的缩影。作为一名关注科技发展的读者，你是否也期待 AIcoding 工具的进一步突破？或许，未来每一位程序员的 IDE 中，都将有一个像 Cline 这样的智能助手。让我们拭目以待！

参考链接：

Cline 官方 GitHub：https://github.com/cline/cline
Forbes 报道：https://t.co/5qSALoopQ5

理解 KubeSphere 的“转身”，但遗憾它没有好好告别

2025-08-01 10:30:00

说实话，看到青云宣布 KubeSphere 暂停开源版下载和支持的消息（见 Announcement on the Adjustment of the KubeSphere Open Source Project #6550），我挺感慨的。

这让我想起 2023 年 Docker 公司清理未付费的“开源账户”的事件。当时很多项目的 CI/CD pipeline 一夜之间崩了。你会意识到，这不是单纯的技术问题，而是“信任危机”——当你以为可以依赖某个开源项目的长期可用性时，突然间你成了局外人。

KuberSphere 提供全栈的 Kubernetes 容器云 PaaS 解决方案

KubeSphere 自 2018 年开始活跃，是我见证成长的国产开源项目之一。从早期的容器平台可视化起步，到后来支持 DevOps、微服务治理、多租户等功能，它在中国云原生社区积累了不少真实用户，也吸引了很多布道者和贡献者。如今，它选择暂停开源版产品的发行，或许是正式走上了 COSS（Commercial Open Source Software）的道路：将过去的核心能力商业化运营，以支撑团队发展。

这件事本身并不难理解，毕竟开源从来不是慈善。我们都知道，真正持续维护一个项目的成本是极高的，尤其在 GenAI 浪潮之下，基础设施公司的生存压力也确实在加剧。转型商业化无可厚非，问题在于——缺乏提前沟通与过渡期的安排。

社区不是不能理解商业化，但不能接受“突然断供”

在 GitHub 的公告发出之前，没有任何预警；镜像仓库直接下线、安装链接清空，用户反馈拉不动镜像、节点无法更新、生产环境受影响——这是“断供”，不是“转型”。

更让人心凉的是，社区用户在 Issue #6550 下面提出种种担忧、请求延长支持、寻求镜像备份，有的理性、有的情绪化，而官方不到 24 小时便关闭了评论区，仿佛把门一关就能关掉一切讨论。这不是社区治理的方式，而是企业控制产品的方式。

如何更成熟地看待这种变化？

作为开源社区的参与者，我更倾向于用一种建设性的视角来看待这种事件。

1. 别慌，先看清动机

从公告内容看，KubeSphere 的核心代码依旧保留在 GitHub，并继续以 Apache License 2.0 + 附加条款发布，这意味着项目并没有闭源，而是暂停了“发行版”的发布和免费支持。

这有点像 Kubernetes 当年从 Docker runtime 切换到 containerd，虽然引起不小争议，但生态可以演进，用户可以迁移。问题不在变化，而在沟通方式。

2. 拥抱替代方案，保持技术多样性

云原生的精神就是“组件化”和“可替换性”。无论是 Rancher、OpenShift，其实都有能力替代 KubeSphere 提供的功能，只不过部署与运维方式不同。

别把所有的基础设施绑定在一个项目上，才是云原生真正的思维方式。

3. 与其抱怨，不如参与共建

如果你依旧想使用 KubeSphere，其实完全可以组织社区维护 fork，搭建自己的镜像仓库、构建 CI/CD pipeline。这次事件也许能促成更真实意义上的“去中心化社区治理”。

你用，你也得负责——这就是开源的本质。

写在最后

我并不想苛责青云的决定。作为一家基础设施公司，它们可能在长时间的业务探索中，发现完全免费提供复杂系统的方式难以为继，开始探索稳定的商业路径是情理之中。但作为一个影响深远的开源项目，KubeSphere 本可以有一个更平稳的告别方式。

它本可以提前三个月发预告，留下旧版本镜像、搭建文档存档站点、设立社区转交机制。它本可以告诉每一位曾经为之 PR、提 issue、分享部署经验的人：“谢谢你们参与了这段旅程，我们要换一种方式走下去了。”

可惜，它没有。

开源不是免费午餐，而是一段长期的伙伴关系。信任比技术更难建立，也更容易崩塌。但我仍愿意相信，中国的开源生态会从每一次波折中学会更成熟地构建未来。

我期待下一个真正社区驱动的云原生平台，也希望今天离开的用户，能找到新的归属，而不是在寒心中默默放弃。

打造你的 AI 能力图谱：我上线了一个开发者专属的人工智能资源库

2025-07-28 20:50:00

欢迎来探索人工智能的无限可能！

过去两天，我为我的个人博客 jimmysong.io 增加了一个全新的页面：jimmysong.io/ai/。这是一个我亲手整理的 AI 资源库，目标是帮助开发者更高效地掌握和应用前沿人工智能技术。

资源库内容

这个资源库包含我精心筛选的优质内容，覆盖了从入门学习到落地实践的多个维度：

教程：系统学习 LLM、RAG、Agents、模型训练、部署等方向的优质材料
模型：主流开源与闭源大模型，包括 LLaMA、Gemma、Claude、GPT 系列等
工具：构建与调试 AI 应用的实用工具，如 LangChain、LlamaIndex、AnythingLLM、Flowise 等
项目：优秀的开源项目和框架，适合参考、复用甚至参与贡献
产品：值得关注的 AI 产品，用于灵感启发或集成使用
资源库：涵盖多个领域的 awesome-style 索引项目，方便进一步探索

标签系统

同时，我还根据内容的特性打上了标签，包括：

agent
RAG
数据
训练
图像生成
大语言模型
编程
前端等

未来我还会持续细化分类和标签体系，让这个资源库变得更结构化、可导航、易检索。

多语言与多模式支持

目前该页面支持：

中英文双语，适合不同读者群体
资源浏览支持卡片模式和列表模式切换
每个资源都附带：
- 项目官网链接
- GitHub 页面（如有）
- 简要介绍与分类标签
- GitHub 评论区（可直接登录账号留言交流）

欢迎参与

AI 世界日新月异，每天都有新模型、新框架、新产品问世，我也在努力跟进。如果你发现有哪些值得加入的资源，欢迎告诉我，我会及时补充。也欢迎收藏这个页面，定期来看有没有新内容。

👉 访问地址：jimmysong.io/ai/

感谢大家一直以来的支持！

当前 AI 编程与氛围编程工具研究报告

2025-07-25 12:00:00

下面的报告是通过 ChatGPT Agent 生成的，我的账号今天获的了 ChatGPT Agent 功能，试了下，让它出一个氛围编程的报告。

ChatGPT Agent 生成的报告

注意：本报告由 ChatGPT Agent 生成，请自行判断是否真实。

下面的视频是 Agent 运行的视频，可以感受下。

下面是帮助你快速了解本文的思维导图。

下面是 ChatGPT Agent 生成的报告正文，你也可以访问原始链接查看。

一、背景与概念

人工智能（AI）正在迅速改变软件开发流程。在传统模式下，开发者需要手动编写每一行代码，而 AI 编程 使用大型语言模型（LLMs）为程序员提供代码补全、生成测试、审查代码和查找缺陷等辅助功能，使开发工作效率大幅提高。氛围编程（Vibe Coding）则进一步强调开发者把注意力放在想法和产品逻辑上，通过自然语言描述需求，由 AI 生成代码并构建应用。该术语由 Andrej Karpathy 在 2025 年提出。Replit 的博客解释说，氛围编程就是用自然语言指令指导 AI 编写代码，你无需学习语言或复杂概念即可构建应用。这一模式使非技术人员也能参与应用开发，极大降低了门槛。然而，氛围编程并非所有 AI 辅助编程的统称，一些技术专家提醒，不经审查地接受 AI 生成的代码只适用于低风险的原型项目。

二、AI 编程工具分类

2.1 集成开发环境（IDE）类

这些工具将 AI 功能嵌入开发环境，提供完整的编辑、调试和版本控制体验。

工具/平台	核心特点（关键词）
Cursor	VS Code 衍生的 AI 第一开发环境；支持多文件上下文、自然语言编辑、内置终端、Composer 工作区以及 Agent 模式；支持 Claude 3.7、GPT‑4 等模型，免费版每月 2K 补全，付费版每月 20 美元。
GitHub Copilot	AI 配对编程工具；提供上下文感知的代码补全、聊天调试、测试生成和 PR 总结；集成 Visual Studio Code、JetBrains、Neovim 等多种环境；支持 GPT‑4o、Claude 3.5/3.7 和 Gemini 2.0；免费套餐每月 2K 补全，付费版本每月 10 美元起。
Windsurf	Codeium 的下一代 AI IDE；提供 Cascade AI 助手与多模型（GPT‑4o、Claude 3.5 Sonnet 等）协同；支持终端集成、Git 与 SSH；提供 Autocomplete 和 Super Complete 功能及自定义规则系统；免费版具备基本功能，付费版月费约 15 美元。
JetBrains AI Assistant	深度集成于 JetBrains 系列 IDE（IntelliJ IDEA、PyCharm 等）；提供代码补全、自然语言聊天、项目范围分析、文档与测试生成，并支持本地 LLM（Ollama）以及多个云模型；付费版每月约 10 美元。
Amazon CodeWhisperer	Amazon 推出的 AI 编程助手；根据上下文提供代码片段、函数补全并生成文档，同时扫描安全漏洞；支持 Python、JavaScript、C#、Rust、PHP、Kotlin、SQL 等语言；个人免费版，专业版月费约 15 美元。
Tabnine	基于深度学习的代码补全工具；具备代码重构建议、代码 lint、自动文档生成和自定义风格；企业版支持本地服务器保护代码隐私；基础版免费，专业版月费约 9 美元。
AskCodi	支持 Python、Java、TypeScript、Rust、Kotlin 等多语言的 AI 助手；提供代码生成、问题解答和改进建议；可集成 VS Code、PyCharm、IntelliJ；需订阅付费。
Xcode AI Assistant	Apple 在 Xcode 16 中推出的本地 AI 模型；针对 Swift/SwiftUI 开发提供代码补全、预览数据生成、基本重构等，完全离线运行；在使用 Apple Silicon Mac 时免费提供。
Trae	字节跳动推出的 AI IDE；提供双模式：Builder 通过自然语言描述生成应用，Chat 提供交互式协助；支持 Claude 3.7 Sonnet 和 GPT‑4o 模型，界面简洁，适合各种规模项目；专业版每月 3 美元起。

为了确保表格内容简洁，表格中只包含关键词。本报告正文对部分工具提供了更详细说明。

2.2 命令行（CLI）类

命令行工具通过终端直接与 AI 交互，适合习惯于命令行的开发者，并且提供原生的文件和代码操作能力。

工具/平台	核心特点
Aider	开源的 AI 配对工程工具，支持开发者选择 Claude 4、OpenAI o3/o4、DeepSeek 等模型；会在每次会话后显示消耗的 tokens 和费用；支持本地与云模型、自动 Git 提交、语音输入、lint、测试、图像和网页上下文；可在 Cursor 或 Copilot 终端中使用。
Claude Code	Anthropic 的终端工具，允许对任意代码库进行修改、修复错误、执行测试并与 GitHub Actions 集成；内建 WebSearch、WebFetch、MultiEdit 等工具，强调隐私和安全，具备权限管理和内存跟踪；适用于企业环境。
Codex CLI	OpenAI 的开源轻量级 CLI 代理；可读取、修改和运行本地代码，支持审阅模式（Suggest、Auto Edit、Full Auto）；支持文本、图像和草图输入；通过 `AGENTS.md` 设置代码库导航规则；提供安全机制防止 prompt 注入；默认使用 codex‑1 模型，可切换至其他模型。
Gemini CLI	Google 发布的开放源码 AI 代理，与 Gemini Code Assist 共用技术；免费版提供每分钟 60 次、每天 1,000 次请求，并拥有 100 万 token 的上下文窗口；支持项目自动化、搜索结合（通过 Google Search 获取实时上下文）、MCP 扩展和自定义提示，并可无界整合进 VS Code。
Warp	开发者喜爱的终端工具，其 2.0 版本支持 Agentic CLI；允许在多个项目并行运行 AI 代理；提供 MCP 工具、Warp Drive、多仓库数据库等上下文；可配置代理的自治程度；强调安全与企业级功能。

2.3 氛围编程／应用生成平台

这些平台基于自然语言描述快速生成应用，面向非程序员和快速原型开发。

工具/平台	主要特点
Replit Agent	Replit 提供的氛围编程平台，通过自然语言描述即可生成应用并提供一键部署；用户负责描述与迭代，AI 生成代码、修复错误并给出建议。
Lovable	专注于 React 应用和 Supabase 后端的氛围编程平台；用户使用自然语言描述需求，AI 负责数据库建模、前端编写和部署；提供一键发布和 Figma 设计生成界面。
Bolt (StackBlitz)	浏览器端 AI 开发环境，用于快速原型和全栈应用；支持 React、Vue、Svelte、Expo 等框架；具备实时预览、内置终端、错误检测修复、Netlify 部署等功能。

三、工具详细分析

3.1 IDE 类工具

Cursor – AI 第一的代码编辑器

Cursor 基于 VS Code 构建，为 AI 辅助开发提供了更深入的集成。它支持多种交互模式：普通编辑模式可使用 Tab 键接受 AI 补全，Chat 模式可以查询解释函数或调试问题，Composer 工作区适用于生成复杂功能或重构，Agent 模式则允许 AI 自动制定计划并执行多步任务。Cursor 还提供内置终端、自动测试生成和文档撰写功能，并允许用户使用 Claude 3.7 和 GPT‑4 等模型或自定义 API 密钥。在隐私模式下，代码不会上传到模型服务器。免费版每月提供约 2,000 次补全，付费版 20 美元起。

GitHub Copilot – 深度集成的配对编程助手

GitHub Copilot 由 GitHub 和 OpenAI 合作开发，提供实时代码建议、多候选补全、错误检测和测试生成。Copilot Chat 支持回答代码疑问、生成 CLI 命令、撰写 PR 描述并辅助调试。它支持 14 种语言，集成 VS Code、JetBrains IDE、Neovim、Xcode 等多个平台，并允许用户在 GPT‑4o、Claude 3.5/3.7 和 Gemini 2.0 之间切换模型。免费版限制为每月 2,000 次补全，付费版 10 美元起。

Windsurf – 集成 Cascade AI 助理的全功能 IDE

Windsurf 是 Codeium 的全栈 AI IDE，采用 VS Code 内核，并附带 Cascade AI 助手。Cascade 支持多模型协同（GPT‑4o、Claude 3.5 Sonnet、DeepSeek-V3 等），提供实时协作、上下文感知的代码理解和终端集成。开发环境支持 Git、SSH 和 Dev Container，还可通过 Autocomplete 与 Super Complete 实现预测下一行文字或意图的功能。免费版包括 Cascade Base 模型，付费版采用按点数计费。

JetBrains AI Assistant

JetBrains AI Assistant 集成在 IntelliJ IDEA、PyCharm 等 IDE 中，提供上下文感知的补全、自然语言聊天、项目范围分析、文档与提交信息生成、测试生成等功能。它支持选择 OpenAI、Google、Anthropic、JetBrains Mellum 以及本地模型 O llama，可在本地运行以保护隐私。需要订阅 JetBrains IDE，本身 AI 订阅每月约 10 美元。

Amazon CodeWhisperer

CodeWhisperer 使用 Amazon 的 AI 模型，根据代码上下文提供代码片段、函数补全，并自动生成文档和扫描安全漏洞。它支持多种语言并集成 VS Code、JetBrains 等 IDE。个人免费版功能有限，专业版月费约 15 美元。

Tabnine

Tabnine 以深度学习数据集为基础，提供智能代码补全、重构建议、代码 lint 和自动文档生成。它强调隐私保护——企业版可在本地服务器上运行模型。免费版仅提供基础补全，专业版月费约 9 美元。

AskCodi

AskCodi 支持多语言代码生成、问题解答和改进建议，并集成 VS Code、PyCharm 等 IDE。用户需以明确结构提出问题，付费计划才可解锁全部功能。

Xcode AI Assistant

Apple 在 Xcode 16 中内置的 AI 助手为 Swift 开发者提供离线运行的代码补全、预览数据和基本重构建议。由于模型本地运行，不会泄露代码。

Trae

Trae 是字节跳动推出的 AI IDE，采用双模式：Builder 模式允许用户通过自然语言描述生成应用，Chat 模式用于交互式辅助。它支持 Claude 3.7 Sonnet 和 GPT‑4o，多模式适合不同工作流，价格相对低廉。

3.2 命令行工具

Aider – 开源命令行 AI 工程师

Aider 将 AI 集成到命令行，支持在终端中选择使用 Anthropic Claude 4、OpenAI o3/o4、DeepSeek 等模型。它会在每次会话结束后显示 token 使用和费用，帮助开发者优化成本。Aider 自动提交修改到 Git，并支持通过语音输入给出指令；还能自动运行 lint 和测试、处理图像或网页上下文。Aider 的开源性质和 Python 包安装方式使其易于使用。

Claude Code – 面向企业的安全 CLI

Anthropic 的 Claude Code 强调隐私和安全，允许修改代码、修复错误、运行测试并与 GitHub Actions 集成。它包含 WebSearch、WebFetch 和 MultiEdit 等工具，并支持严格的权限管理、防 prompt 注入和日志追踪。与 Aider 和 Codex CLI 不同，Claude Code 是闭源的，需要安装 Node 18+ 并使用 Anthropic API。

Codex CLI – OpenAI 的本地代理

Codex CLI 是 OpenAI 发布的实验性开源命令行代理，可读取、修改和运行本地代码，并针对不同文件提供 Suggest、Auto Edit 和 Full Auto 等批准模式。它支持文本、图像和草图作为输入，还允许通过在项目根目录创建 AGENTS.md 文件定义代码库导航、测试命令和风格指南。Codex CLI 默认使用 codex‑1 模型（优化版 o4‑mini）实现低延迟代码问答，并通过 login with ChatGPT 简化授权。安装方式为 npm install -g @openai/codex 并设置 API 密钥即可。

Gemini CLI – Google 的开放源码 AI 代理

Google 在 2025 年推出 Gemini CLI，它与 Gemini Code Assist 共享技术，可直接在终端调用 Gemini 模型。免费版通过个人 Google 账号可使用 Gemini 2.5 Pro 模型，拥有 100 万 token 的上下文窗口，并提供业界最高的免费额度（每分钟 60 次、每日 1,000 次请求）。Gemini CLI 还具备通过 Google Search 获取实时外部上下文、支持 MCP 扩展、可自定义提示并可脚本化使用。其开源许可为 Apache 2.0，方便开发者审查和扩展。

Warp – 多代理终端与安全环境

Warp 2.0 引入 Agentic CLI，允许在一个或多个项目中并行运行 AI 代理。它提供 MCP 工具、Warp Drive 与多仓库数据库，支持自定义代理自治等级，并强调企业级安全，确保模型不会在未经许可的情况下训练用户数据。

3.3 氛围编程平台

氛围编程定义

氛围编程是一种面向非程序员和快速原型的开发方法，用户以自然语言描述需求，AI 负责生成应用。Replit 解释道，氛围编程让人们通过描述想法来构建应用，而不必学习语言或理解复杂概念；这样的流程包括描述、AI 理解并生成代码、用户微调、运行和迭代。Lovable 的博客指出，氛围编程的核心是完全信任 AI 而不阅读生成的代码。不过，有专家强调氛围编程适用于低风险原型项目，生产场景仍需要代码审查和测试。

Replit Agent

Replit 提供了氛围编程套件：用户先用自然语言描述需求，AI 代理生成代码、搭建数据库并部署，用户再通过 Assistant 微调细节；最后可以一键部署应用。这种流程大大缩短了从想法到应用的时间，使创业者、教育者等非程序员也能独立创建应用。

Lovable

Lovable 专注于 React 应用与 Supabase 后端，用户只需描述需求，AI 自动生成前端、数据库和鉴权等功能，并提供一键部署。Lovable 通过这种约束化的技术栈保证代码干净、最佳实践符合现代标准。其博客举例说明，通过自然语言指令，一小时内即可构建出完整的活动管理应用。Lovable 认为氛围编程使非开发者也能创建应用，缩短原型时间，并通过实时反馈和 GitHub 集成确保代码质量。

Bolt (StackBlitz)

Bolt 是 StackBlitz 推出的浏览器端 AI 开发环境，适用于快速原型和全栈应用。它支持 React、Vue、Svelte、Expo 等框架，内置终端、实时预览、热重载和 Netlify 部署。AI 会根据自然语言生成代码并检测错误，提供修复建议；同时允许导入 npm 包并查看项目历史记录。免费版每天提供 150K tokens，付费版每月 20 美元。

3.4 模型级对话助手

虽然本报告侧重 IDE 和 CLI，但必须提及 ChatGPT、Claude、Gemini 等模型级对话助手。它们通过聊天界面提供代码解释、算法设计、调试和架构建议，是使用范围最广的 AI 编程工具之一。Builder.io 文章指出，Claude 擅长保持长期对话上下文并提供深度解释，适合复杂重构和调试；ChatGPT 支持 50+ 语言并提供优秀的 web 浏览和代码生成能力；Gemini 拥有多模态能力和强大的推理功能，尤其适合需要图片或语音输入的编码任务。这些模型通常提供免费版本和不同等级的付费订阅，用户可根据用量和需求选择。

四、对比与观察

IDE vs CLI – IDE 类工具将 AI 功能融入熟悉的开发环境，适合需要完整编辑、调试和项目管理体验的开发者；CLI 工具提供了更低层次的控制和更快的反馈，适合在终端工作或自动化流程中使用。Aider 和 Codex CLI 属于开源工具，便于自定义；Claude Code 与 Gemini CLI 强调企业安全和高可扩展性。CLI 工具往往需要一定的配置和命令行熟悉度。
功能对比 – IDE 工具通常提供自动补全、聊天问答、文档和测试生成，以及代码审查等功能；CLI 工具强调文件操作、批准模式、安全控制和多代理运行。氛围编程平台则追求极简体验，通过自然语言描述即可生成应用，适合低代码/无代码场景。
模型与定价 – 多数工具支持多模型切换，例如 Cursor 和 Copilot 支持 GPT‑4o、Claude 3.7 Sonnet、Gemini 2.0 等；Aider 与 Codex CLI 允许自定义模型和 API 密钥。定价模式从免费版（有限配额）到订阅制和按用量计费不等，企业应用需考虑 token 消耗和隐私保护。
安全与隐私 – 企业用户关注代码安全和数据隐私。JetBrains AI Assistant 提供本地模型选项；Claude Code 和 Warp 具有权限管理和日志追踪；Gemini CLI 与 Codex CLI 提供 prompt 注入防护和审批模式。
氛围编程的潜力与风险 – 氛围编程平台大幅降低了软件开发门槛，使非程序员能够通过自然语言创建应用。然而专家提醒，这种方法适用于原型和低风险项目，生产级应用仍需经过代码审查、测试和安全检查。

五、结论与建议

AI 编程生态在 2025 年蓬勃发展，工具类型多样，从集成开发环境到命令行代理再到氛围编程平台，覆盖了不同经验水平的开发者。IDE 类工具（如 Cursor、Copilot、Windsurf）适合希望在熟悉环境中使用 AI 助手的开发者；CLI 工具（Aider、Codex CLI、Gemini CLI 等）则为喜欢终端或需要自动化脚本的用户提供了强大的控制能力；氛围编程工具（Replit Agent、Lovable、Bolt 等）则让非程序员能够快速实现想法。

选择工具时应考虑以下因素：

使用场景和工作流：需要完整 IDE 还是命令行工具？
支持的模型和语言：是否支持常用编程语言、可否自定义模型。
成本与配额：免费额度是否足够，付费模式是否适合团队规模。
隐私与安全：是否提供本地模型、权限控制、防 prompt 注入等安全特性。
长期可维护性：氛围编程虽然方便，但对于生产应用仍需代码审查和测试。

总之，AI 编程工具正从"辅助"走向"合作伙伴"。利用这些工具可以提高开发效率、促进创新，但开发者仍需保持批判性思维，理解生成代码的原理，确保代码质量与安全。

从 ChatGPT 生成的结果来看，它覆盖了市面上的主流 AI 编程工具，如 ChatGPT、Gemini、Cursor、Claude Code 等。但是对于最新发布的一些工具，比如 Kiro、CodeBuddy、Qwen Coder 等，它目前还无法给出具体的使用建议。但是从整体效果上来看，它的准确度以及时效性尚可，可以作为参考。

Jimmy Song | 宋净超修改