MoreRSS

site iconJimmy Song | 宋净超修改

Tetrate 布道师,云原生社区 创始人,CNCF Ambassador,云原生技术专家。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Jimmy Song | 宋净超的 RSS 预览

用 JSON Prompt 构建 3D 图标:结构化提示词的强大实践

2025-08-03 10:00:00

最近在 x.com 上看到一则关于生成 3D 图标的 JSON 格式提示词,让我产生了浓厚兴趣。此前我接触到的提示词大多是自然语言描述,或者仅用简单的标签区分系统和用户输入,而像这样结构化的 JSON Prompting 还是第一次见到。实际尝试后,发现这种方式的效果确实非常出色。

下面是我试用改提示词生成的图标,分别是千问、VS Code 和 Obsidian,可以看到这三个图标在风格上保持了一致性,同时又能清晰地表达各自的品牌特色,唯一有点区别的是背景色调——千问的背景色比起另外两个更加暗淡了一些。

使用 JSON Prompt 生成 3D 图标:Qwen、VS Code 和 Obsidian
使用 JSON Prompt 生成 3D 图标:Qwen、VS Code 和 Obsidian

相比传统自然语言提示词(prompt),这种“结构化”的方式更清晰、稳定、强大,特别适合需要精细控制的图像生成任务。在这篇文章中,我将以一个 Jelly 风格的 3D 图标生成为例,详细解析 JSON Prompt 的写法和最佳实践。

什么是 JSON Prompting?

JSON Prompting,顾名思义,是用 JSON 的格式撰写提示词,将任务目标、渲染细节、输出要求等用结构化方式传达给模型。它不是一句话的模糊请求,而是一个"输入说明书",就像开发者写配置文件一样。

我使用如下 JSON Prompt 来生成图标:

{
 "style": "Jelly 3D Icon",
 "object": "User-uploaded logo or emoji (Qwen)",
 "base": {
 "shape": "Rounded square",
 "material": "Soft translucent jelly-like material",
 "color": "A strong contrasting color to icon (e.g. purple, green, blue)",
 "lighting": "Inner glow and soft ambient shadows that gently fade outward"
 },
 "icon": {
 "material": "Jelly/glassy translucent look, softly glowing from within",
 "color": "Brighter tone or brand color, always with a jelly-glass texture",
 "depth": "3D extruded with rounded edges and subtle bottom shadow",
 "placement": "Centered with even padding inside base"
 },
 "render": {
 "camera": "Front orthographic view with centered framing",
 "lighting": "Studio-quality lighting with soft top-left highlight and directional drop shadow underneath icon",
 "shadow": {
 "style": "Soft diffused base shadow with slight blur",
 "position": "Directly under icon, slightly offset down",
 "opacity": 0.15,
 "spread": "Medium, matching other icons in set"
 },
 "background": "Soft warm grey or pastel cream for consistency",
 "dimensions": "1:1 square ratio, minimum 1024x1024",
 "file_format": "PNG"
 },
 "style_notes": "Ensure consistent lighting and shadow softness across the set. Shadows should appear slightly beneath and behind the icon with soft blur — matching the Spotify, Camera, and Weather icon samples exactly. Avoid flat or harsh shadows. Emphasize clean separation between icon and base through shadow and depth."
}

为什么要用 JSON 格式,而不是自然语言?

  • 结构清晰:每个需求独立成字段,避免遗漏和歧义。
  • 机器易解析:AI 更擅长理解结构化数据,参数定位更准确。
  • 便于复用:模板化、批量生成和修改更方便,适合标准化场景。
  • 沟通高效:像需求文档一样,团队成员一看就懂。
  • 易于自动化:方便用脚本生成、校验和分析。

自然语言适合创意任务,JSON 格式适合精确、标准、可控的内容生成。两者可结合使用,根据需求选择。

这段 prompt 看似复杂,其实是由多个语义清晰的模块组成。下面我们逐个拆解。

字段结构与写作要点解析

在了解了整体结构和优势后,我们可以更细致地拆解每个字段的作用和写作技巧。下面将逐项解析 JSON Prompt 的各个部分,帮助你掌握结构化提示词的核心要点与实用写法。

1. 顶层参数:任务风格与目标对象

"style": "Jelly 3D Icon",
"object": "User-uploaded logo or emoji (Qwen)"
  • style 决定视觉基调,是整个图标风格的锚点;
  • object 明确了要被图像化的核心元素,尽可能具体,例如"logo"或某个 emoji 表情。

最佳实践:

  • 使用项目中已有的视觉语言关键词(如"jelly"、“glass”、“3D extrusion"等);
  • 对对象的描述避免泛泛,要尽量明确具体。

2. base 区块:定义图标底板

"base": {
 "shape": "Rounded square",
 "material": "Soft translucent jelly-like material",
 "color": "...",
 "lighting": "..."
}
  • 这部分用于设置 icon 背后的底板样式,包括形状、材质、颜色和光照;
  • 非常适用于生成多个统一风格图标时保持一致性。

最佳实践:

  • shape 使用常规图形(如圆角方、圆形等),有助于保持现代风格;
  • color 可以使用对比色引导,例如"strong contrast to icon”。

3. icon 区块:定义图标主体

"icon": {
 "material": "...",
 "color": "...",
 "depth": "...",
 "placement": "..."
}
  • material 与 depth 共同定义图标的质感和立体层次;
  • placement 用于居中并维持边距对称,强调图形对齐和审美平衡。

最佳实践:

  • 使用 depth: “3D extruded” 明确建模方式;
  • 统一材质表达,比如都为 jelly-glass 系列,能让图标呈现果冻般通透感。

4. render 区块:定义渲染方式与输出格式

"render": {
 "camera": "...",
 "lighting": "...",
 "shadow": {...},
 "background": "...",
 "dimensions": "...",
 "file_format": "PNG"
}
  • 控制图像生成的"拍摄视角"和"工作室灯光"效果;
  • shadow 子字段提供高度可控的阴影设置;
  • dimensions 和 file_format 保证输出用于网页或印刷时的稳定性。

最佳实践:

  • 始终指定分辨率(如 1024x1024),防止 AI 生成模糊图;
  • 使用 background: pastel cream 统一背景风格,避免杂乱。

5. style_notes:设计师级别的主观审美引导

"style_notes": "Ensure consistent lighting and shadow softness across the set..."

这一段让 AI 理解美学意图,虽然是补充说明,却能在高质量模型中起到很大作用。

最佳实践:

  • 模拟你正在对一个人类渲染师下达风格指南;
  • 多使用相对概念词(如"avoid harsh shadows", “match Spotify-style icons”)。

写作总结:JSON Prompt 的通用模板

你可以将这套模式复制到其他内容生成任务中,比如:

{
 "task": "generate image",
 "style": "3D glass icon",
 "object": "light bulb emoji",
 "base": { ... },
 "icon": { ... },
 "render": { ... },
 "style_notes": "..."
}

无论是生成图标、产品展示图还是网页插图,只要结构化表达得当,AI 的输出会更精准。

JSON 提示词的核心优势

JSON 提示是一种结构化的向 AI 传达需求的方式,与常规模糊的指令不同,它通过特定格式清晰地列出任务需求。例如,想要写一篇关于某个应用的公众号文章,常规提示可能是"写一篇关于[应用名称]的公众号文章",而 JSON 提示则像"{‘任务’: ‘写公众号文章’, ‘主题’: ‘[应用名称] 应用’, ‘长度’: ‘短篇,1000 字以内’, ‘语气’: ‘专业但亲和’}",详细说明了任务、主题、长度和语气等要求。

JSON 提示的优势主要体现在以下几个方面:

  1. 清晰明确:它避免了 AI 对模糊词汇的猜测,如"有趣"这类词在常规提示中可能让 AI 理解模糊,但 JSON 提示可精确界定需求。
  2. 符合 AI 处理习惯:JSON 格式与 AI 训练所基于的代码类似,符合 AI 处理数据的习惯。
  3. 节省时间:使用 JSON 提示能节省时间,无需多次调整提示以获取满意结果。

JSON 提示词的使用方法

在使用 JSON 提示词时,应遵循以下原则:

  1. 使用清晰标签:明确写出"任务"并阐述具体任务,如"写公众号文章"。
  2. 详细阐述:添加诸如受众、风格等细节信息。
  3. 将大任务拆解:对于复杂任务,通过嵌套部分将其细化。

比如为创业者朋友获取书籍推荐,可使用"{‘任务’: ‘推荐书籍’, ‘主题’: ‘更好的思维’, ‘受众’: ‘创业人士’, ‘格式’: ‘5 本书,每本附带简短的一句话总结’}“这样的 JSON 提示。

JSON 提示词与常规提示的对比

以撰写关于个人创业者保持专注的公众号文章为例,先使用常规提示"写一篇关于创业者专注力的公众号文章”,得到的内容普通、缺乏特色;而后使用 JSON 提示,详细规定平台、主题、结构和语气等,结果生成的文章以引人入胜的问题开篇,包含具体实用的技巧和真实案例,结尾还引发了大量读者评论,充分体现了 JSON 提示在生成特定平台内容时的优势。

JSON 提示词的适用场景

JSON 提示适用于需要精确控制 AI 输出的场景,能让用户清晰地传达需求,获得符合预期的结果。但在需要创意和自由发挥的内容创作方面,如创作充满想象力的儿童故事或科幻小说创意,它并不适用,此时常规的自由提示更能激发创意。

结语:结构化提示词是更工程化的创作方式

使用 JSON Prompt 的过程让我意识到一个趋势:我们需要的不只是"让 AI 懂你",而是"教 AI 明确做事"。

相比自然语言那种带有不确定性的"请求式"对话,JSON Prompt 更像是一个规范、一个参数表、一个需求文档。这种方式尤其适合开发者、设计师、产品经理等需要构建稳定创作链条的人。

如果你也在做多图生成、多场景文案、内容模板化创作,不妨试一试 JSON Prompting。你会发现,它不仅让 AI 输出更强,也会让你自己思路更清晰。

WisperFlow 被严重高估了:试用一周后我选择卸载

2025-08-03 10:00:00

WisperFlow 是近年来在生产力社区和 AI 圈子备受关注的语音识别工具,由 Tanay Kothari 创办,支持 Mac、Windows 和 iOS 平台。它主打“AI 驱动的高效语音转写”,具备多语言识别、自动整理文本、智能指令等功能,通过快捷键激活,交互体验流畅。自发布以来,WisperFlow 获得了多轮风险投资,2025 年由 Menlo Ventures 领投的 A 轮融资高达 3000 万美元,累计融资约 5600 万美元,背后有知名 AI 基金和硅谷创业孵化器的支持。

在社交媒体、效率工具论坛和播客节目中,WisperFlow 经常被推荐为“提升写作效率”“解放双手”的必备应用。许多自媒体和 KOL 也将其列为年度 AI 工具榜单前列,甚至被称为“语音输入领域的革命性产品”。据官方数据,用户留存率超过 80%,付费转化率接近 19%。正因如此,我也带着极高的期待开始了自己的试用之旅。

WisperFlow UI
WisperFlow UI

说实话,最初我是带着很高的期待下载的,但高频用了一周后,我果断选择卸载。这个产品并不是不能用,而是根本配不上它在社区里被吹捧的名声。以下是我作为一个中文用户的真实使用体验:

1. 服务质量不稳定,常常出现幻觉与错误

它最让我惊喜的,是偶尔能自动给我转写成 Markdown 格式的文本,还能适度地删减冗余、重复语句,看起来就像有人帮我整理了文稿。

网络错误
网络错误
  • 幻觉内容会反复出现,一天几次,严重干扰我对文本准确性的信任。
  • 偶尔识别速度很慢,说完话之后等上十几秒才能出现内容。
WisperFlow 出现幻觉
WisperFlow 出现幻觉

作为语音转写工具,这种不确定性已经是"致命缺陷"。

2. 非实时转写,使用体验割裂

  • 只有你说完一句或一段,它才会统一转写输出。
  • 对于我这种习惯一口气说很多内容的人,等待的这几秒反而让我觉得焦虑,担心"它到底听到了没有?““会不会漏?”

语音输入是为了提高效率的,不该让我在每句话后都焦急等待响应。

3. 问题特别迷惑:误识别指令

我在 VS Code 中说了一句"改写这段内容”,结果它真的尝试对我的文本进行改写操作!

我翻遍了设置,没找到关闭"命令识别"的选项。我想要的只是一个纯粹的语音转文字工具,而不是一个误会我每一句话意图的"助手"。

4. 收费贵、限制多、不值得

  • 免费用户每周只允许转写 2000 个单词,这个额度其实很容易就用完了。
  • 要解锁完整功能,需要每月订阅 $12 美元,说实话,以目前的体验来看完全不值这个价格。

5. 占用空间大,性价比低

最后一个让我卸载的理由其实最简单:

它没有我已有的语音输入工具更好用,还占了我 500+ MB 的磁盘空间。

WisperFlow 占用空间
WisperFlow 占用空间

比如 Mac OS 自带的语音输入工具,还有我的罗技 MX Master 3 鼠标,它们都提供了稳定的语音输入体验。

罗技鼠标自带的语音输入
罗技鼠标自带的语音输入

这些工具不收费,体验还更好。

总结:WisperFlow 被严重高估了

WisperFlow 是个有想法的产品,但目前的质量和体验,远远达不到它被宣传的高度。

  • 它不是实时语音识别工具。
  • 它不是 AI 写作助手。
  • 它甚至不是一个稳定的语音输入工具。

我并不是不愿意付费,而是目前这个工具在中文语境下的表现,完全不值得订阅成本。如果你只是想要一个高效、稳定的语音输入工具,建议优先考虑操作系统自带的功能或者 Logi 的软硬件组合方案。

Cline 获 3200 万美元融资,AI 编码新时代来袭!

2025-08-01 14:27:13

Cline 融资
Cline 融资

北京时间 2025 年 8 月 1 日,Cline 团队在 x.com 宣布成功完成 3200 万美元融资。它也是我最近试用的各种 AI 工具 中最喜欢的之一,因为它可以是开源的,可以对接几乎所有大模型,甚至是本地的模型。

从黑客马拉松到 2.7M 开发者社区

今天早晨,一个激动人心的消息在科技圈刷屏:开源 AI 编码工具 Cline 宣布完成 3200 万美元的种子轮及 A 轮融资,由Emergence CapitalPace Capital领投,1984 Ventures 等知名投资机构跟投。这一项目仅在一年内从一个黑客马拉松创意成长为拥有270 万开发者社区的明星产品。这不仅是一次资本的加持,更标志着 AI 驱动的编码新时代正在悄然到来!

我也用过 Cline,确实挺好用的,可以最大发挥大模型的优势,对 token 的消耗也比较透明,但是确实挺贵的。

Cline VS Code UI
Cline VS Code UI

新闻亮点:透明与开放的 AI 革命

Cline 的成功并非偶然。其核心吸引力在于其开源透明的开发模式。不同于市场上许多隐藏模型细节和定价的 AI 工具,Cline 公开了提示词(prompts)、模型使用情况以及 API 定价(例如每任务 0.2903 美元,每 API 请求 0.0185 美元),让开发者能够清晰掌握成本并充分发挥 AI 潜力。这一策略深得开发者青睐:根据 2023 年斯坦福大学的一项研究,超过 70% 的开发者更倾向于使用透明度高的 AI 工具,以确保信任和预算可控。

创始人 Saoud Rizwan 在帖子中提到,Cline 最初只是一个小型项目,如今已成长为一个支持开发者社区的强大平台。其支持的模型包括 OpenAI、Anthropic、Google Gemini 等顶级 AI 技术,并允许用户根据需求选择任意模型,无论是每天 5 美元还是 500 美元,开发者都能自由探索 AI 的极致能力。这种“无约束模型使用”的理念,让 Cline 在竞争中脱颖而出。

行业背景:AI 编码的崛起

AI 编码工具近年来迅速崛起。从 GitHub Copilot 到 Claude,AI 正在重新定义软件开发流程。根据微软 2025 年发布的 AI 趋势报告,过去一年中,企业领导者对生成式 AI 的使用率从 55% 激增至 75%。Cline 的出现恰逢其时,尤其是在开源 AI 工具需求激增的背景下。2025 年 4 月,Instaclustr 的数据显示,GitHub 上私有开源 AI 项目的数量同比增长 38%,凸显了开发者对定制化 AI 工具的热切需求。

Cline 的另一个亮点是其企业级功能的扩展。得益于本次融资,该团队计划推出访问控制、集中式账单管理以及 JetBrains 支持等功能,目标是加速企业采用。这与 GetDX 今年早些时候发布的报告相呼应,该报告指出,AI 编码工具在企业中的成功秘诀在于治理和培训,而非单纯的技术部署。

团队与未来:24 人小团队的“大梦想”

目前,Cline 的团队仅有 24 人,位于美国旧金山。尽管规模不大,但他们展现了惊人的执行力。帖子中还附上了团队合影,充满活力与自信。此外,Cline 正在全球招聘人才,致力于让“每个人都能使用最强大的编码助手”。这不仅是一个技术愿景,更是一个开放合作的宣言。

Cline 团队只有 24 人
Cline 团队只有 24 人

分析与启示:AI 的边界与潜力

Cline 的模式引发了业内思考。传统的 AI 工具往往通过订阅制或限制上下文窗口来优化成本,而 Cline 选择让开发者直接面对模型的原始能力。这种“成本透明 + 无约束”的策略,是否会成为未来趋势?微软专家在 2025 年趋势预测中指出,AI 代理的边界将越来越清晰,人类监督将成为关键。Cline 的人机协作界面(human-in-the-loop GUI)正是这一趋势的体现,确保每一步操作都在开发者许可下进行,既安全又高效。

对于开发者而言,Cline 的开源性质提供了宝贵的机会。通过 GitHub 上的 Cline 项目(已获 48.4K 星),可以深入研究其代码,结合本地需求进行二次开发。

结语:AI 编码的未来已来

从黑客马拉松到 270 万开发者社区,再到 3200 万美元融资,Cline 的故事是创新与信任结合的缩影。作为一名关注科技发展的读者,你是否也期待 AIcoding 工具的进一步突破?或许,未来每一位程序员的 IDE 中,都将有一个像 Cline 这样的智能助手。让我们拭目以待!

参考链接:

理解 KubeSphere 的“转身”,但遗憾它没有好好告别

2025-08-01 10:30:00

说实话,看到青云宣布 KubeSphere 暂停开源版下载和支持的消息(见 Announcement on the Adjustment of the KubeSphere Open Source Project #6550),我挺感慨的。

这让我想起 2023 年 Docker 公司清理未付费的“开源账户”的事件。当时很多项目的 CI/CD pipeline 一夜之间崩了。你会意识到,这不是单纯的技术问题,而是“信任危机”——当你以为可以依赖某个开源项目的长期可用性时,突然间你成了局外人。

KuberSphere 提供全栈的 Kubernetes 容器云 PaaS 解决方案
KuberSphere 提供全栈的 Kubernetes 容器云 PaaS 解决方案

KubeSphere 自 2018 年开始活跃,是我见证成长的国产开源项目之一。从早期的容器平台可视化起步,到后来支持 DevOps、微服务治理、多租户等功能,它在中国云原生社区积累了不少真实用户,也吸引了很多布道者和贡献者。如今,它选择暂停开源版产品的发行,或许是正式走上了 COSS(Commercial Open Source Software)的道路:将过去的核心能力商业化运营,以支撑团队发展。

这件事本身并不难理解,毕竟开源从来不是慈善。我们都知道,真正持续维护一个项目的成本是极高的,尤其在 GenAI 浪潮之下,基础设施公司的生存压力也确实在加剧。转型商业化无可厚非,问题在于——缺乏提前沟通与过渡期的安排

社区不是不能理解商业化,但不能接受“突然断供”

在 GitHub 的公告发出之前,没有任何预警;镜像仓库直接下线、安装链接清空,用户反馈拉不动镜像、节点无法更新、生产环境受影响——这是“断供”,不是“转型”。

更让人心凉的是,社区用户在 Issue #6550 下面提出种种担忧、请求延长支持、寻求镜像备份,有的理性、有的情绪化,而官方不到 24 小时便关闭了评论区,仿佛把门一关就能关掉一切讨论。这不是社区治理的方式,而是企业控制产品的方式。

如何更成熟地看待这种变化?

作为开源社区的参与者,我更倾向于用一种建设性的视角来看待这种事件。

1. 别慌,先看清动机

从公告内容看,KubeSphere 的核心代码依旧保留在 GitHub,并继续以 Apache License 2.0 + 附加条款发布,这意味着项目并没有闭源,而是暂停了“发行版”的发布和免费支持。

这有点像 Kubernetes 当年从 Docker runtime 切换到 containerd,虽然引起不小争议,但生态可以演进,用户可以迁移。问题不在变化,而在沟通方式。

2. 拥抱替代方案,保持技术多样性

云原生的精神就是“组件化”和“可替换性”。无论是 Rancher、OpenShift,其实都有能力替代 KubeSphere 提供的功能,只不过部署与运维方式不同。

别把所有的基础设施绑定在一个项目上,才是云原生真正的思维方式。

3. 与其抱怨,不如参与共建

如果你依旧想使用 KubeSphere,其实完全可以组织社区维护 fork,搭建自己的镜像仓库、构建 CI/CD pipeline。这次事件也许能促成更真实意义上的“去中心化社区治理”。

你用,你也得负责——这就是开源的本质。

写在最后

我并不想苛责青云的决定。作为一家基础设施公司,它们可能在长时间的业务探索中,发现完全免费提供复杂系统的方式难以为继,开始探索稳定的商业路径是情理之中。但作为一个影响深远的开源项目,KubeSphere 本可以有一个更平稳的告别方式。

它本可以提前三个月发预告,留下旧版本镜像、搭建文档存档站点、设立社区转交机制。它本可以告诉每一位曾经为之 PR、提 issue、分享部署经验的人:“谢谢你们参与了这段旅程,我们要换一种方式走下去了。”

可惜,它没有。

开源不是免费午餐,而是一段长期的伙伴关系。信任比技术更难建立,也更容易崩塌。但我仍愿意相信,中国的开源生态会从每一次波折中学会更成熟地构建未来。

我期待下一个真正社区驱动的云原生平台,也希望今天离开的用户,能找到新的归属,而不是在寒心中默默放弃。

打造你的 AI 能力图谱:我上线了一个开发者专属的人工智能资源库

2025-07-28 20:50:00

欢迎来探索人工智能的无限可能!

AI 资源库截图
AI 资源库截图

过去两天,我为我的个人博客 jimmysong.io 增加了一个全新的页面:jimmysong.io/ai/。这是一个我亲手整理的 AI 资源库,目标是帮助开发者更高效地掌握和应用前沿人工智能技术。

资源库内容

这个资源库包含我精心筛选的优质内容,覆盖了从入门学习到落地实践的多个维度:

  • 教程:系统学习 LLM、RAG、Agents、模型训练、部署等方向的优质材料
  • 模型:主流开源与闭源大模型,包括 LLaMA、Gemma、Claude、GPT 系列等
  • 工具:构建与调试 AI 应用的实用工具,如 LangChain、LlamaIndex、AnythingLLM、Flowise 等
  • 项目:优秀的开源项目和框架,适合参考、复用甚至参与贡献
  • 产品:值得关注的 AI 产品,用于灵感启发或集成使用
  • 资源库:涵盖多个领域的 awesome-style 索引项目,方便进一步探索

标签系统

同时,我还根据内容的特性打上了标签,包括:

  • agent
  • RAG
  • 数据
  • 训练
  • 图像生成
  • 大语言模型
  • 编程
  • 前端等

未来我还会持续细化分类和标签体系,让这个资源库变得更结构化、可导航、易检索。

多语言与多模式支持

目前该页面支持:

  • 中英文双语,适合不同读者群体
  • 资源浏览支持卡片模式和列表模式切换
  • 每个资源都附带:
    • 项目官网链接
    • GitHub 页面(如有)
    • 简要介绍与分类标签
    • GitHub 评论区(可直接登录账号留言交流)

欢迎参与

AI 世界日新月异,每天都有新模型、新框架、新产品问世,我也在努力跟进。如果你发现有哪些值得加入的资源,欢迎告诉我,我会及时补充。也欢迎收藏这个页面,定期来看有没有新内容。

👉 访问地址:jimmysong.io/ai/

感谢大家一直以来的支持!

当前 AI 编程与氛围编程工具研究报告

2025-07-25 12:00:00

ChatGPT 新推出的 Agent 模式
ChatGPT 新推出的 Agent 模式

下面的报告是通过 ChatGPT Agent 生成的,我的账号今天获的了 ChatGPT Agent 功能,试了下,让它出一个氛围编程的报告。

ChatGPT Agent 生成的报告
注意:本报告由 ChatGPT Agent 生成,请自行判断是否真实。

下面的视频是 Agent 运行的视频,可以感受下。

下面是帮助你快速了解本文的思维导图。

下面是 ChatGPT Agent 生成的报告正文,你也可以访问原始链接查看。

一、背景与概念

人工智能(AI)正在迅速改变软件开发流程。在传统模式下,开发者需要手动编写每一行代码,而 AI 编程 使用大型语言模型(LLMs)为程序员提供代码补全、生成测试、审查代码和查找缺陷等辅助功能,使开发工作效率大幅提高。氛围编程(Vibe Coding)则进一步强调开发者把注意力放在想法和产品逻辑上,通过自然语言描述需求,由 AI 生成代码并构建应用。该术语由 Andrej Karpathy 在 2025 年提出。Replit 的博客解释说,氛围编程就是用自然语言指令指导 AI 编写代码,你无需学习语言或复杂概念即可构建应用。这一模式使非技术人员也能参与应用开发,极大降低了门槛。然而,氛围编程并非所有 AI 辅助编程的统称,一些技术专家提醒,不经审查地接受 AI 生成的代码只适用于低风险的原型项目。

二、AI 编程工具分类

2.1 集成开发环境(IDE)类

这些工具将 AI 功能嵌入开发环境,提供完整的编辑、调试和版本控制体验。

工具/平台 核心特点(关键词)
Cursor VS Code 衍生的 AI 第一开发环境;支持多文件上下文、自然语言编辑、内置终端、Composer 工作区以及 Agent 模式;支持 Claude 3.7、GPT‑4 等模型,免费版每月 2K 补全,付费版每月 20 美元。
GitHub Copilot AI 配对编程工具;提供上下文感知的代码补全、聊天调试、测试生成和 PR 总结;集成 Visual Studio Code、JetBrains、Neovim 等多种环境;支持 GPT‑4o、Claude 3.5/3.7 和 Gemini 2.0;免费套餐每月 2K 补全,付费版本每月 10 美元起。
Windsurf Codeium 的下一代 AI IDE;提供 Cascade AI 助手与多模型(GPT‑4o、Claude 3.5 Sonnet 等)协同;支持终端集成、Git 与 SSH;提供 Autocomplete 和 Super Complete 功能及自定义规则系统;免费版具备基本功能,付费版月费约 15 美元。
JetBrains AI Assistant 深度集成于 JetBrains 系列 IDE(IntelliJ IDEA、PyCharm 等);提供代码补全、自然语言聊天、项目范围分析、文档与测试生成,并支持本地 LLM(Ollama)以及多个云模型;付费版每月约 10 美元。
Amazon CodeWhisperer Amazon 推出的 AI 编程助手;根据上下文提供代码片段、函数补全并生成文档,同时扫描安全漏洞;支持 Python、JavaScript、C#、Rust、PHP、Kotlin、SQL 等语言;个人免费版,专业版月费约 15 美元。
Tabnine 基于深度学习的代码补全工具;具备代码重构建议、代码 lint、自动文档生成和自定义风格;企业版支持本地服务器保护代码隐私;基础版免费,专业版月费约 9 美元。
AskCodi 支持 Python、Java、TypeScript、Rust、Kotlin 等多语言的 AI 助手;提供代码生成、问题解答和改进建议;可集成 VS Code、PyCharm、IntelliJ;需订阅付费。
Xcode AI Assistant Apple 在 Xcode 16 中推出的本地 AI 模型;针对 Swift/SwiftUI 开发提供代码补全、预览数据生成、基本重构等,完全离线运行;在使用 Apple Silicon Mac 时免费提供。
Trae 字节跳动推出的 AI IDE;提供双模式:Builder 通过自然语言描述生成应用,Chat 提供交互式协助;支持 Claude 3.7 Sonnet 和 GPT‑4o 模型,界面简洁,适合各种规模项目;专业版每月 3 美元起。

为了确保表格内容简洁,表格中只包含关键词。本报告正文对部分工具提供了更详细说明。

2.2 命令行(CLI)类

命令行工具通过终端直接与 AI 交互,适合习惯于命令行的开发者,并且提供原生的文件和代码操作能力。

工具/平台 核心特点
Aider 开源的 AI 配对工程工具,支持开发者选择 Claude 4、OpenAI o3/o4、DeepSeek 等模型;会在每次会话后显示消耗的 tokens 和费用;支持本地与云模型、自动 Git 提交、语音输入、lint、测试、图像和网页上下文;可在 Cursor 或 Copilot 终端中使用。
Claude Code Anthropic 的终端工具,允许对任意代码库进行修改、修复错误、执行测试并与 GitHub Actions 集成;内建 WebSearch、WebFetch、MultiEdit 等工具,强调隐私和安全,具备权限管理和内存跟踪;适用于企业环境。
Codex CLI OpenAI 的开源轻量级 CLI 代理;可读取、修改和运行本地代码,支持审阅模式(Suggest、Auto Edit、Full Auto);支持文本、图像和草图输入;通过 AGENTS.md 设置代码库导航规则;提供安全机制防止 prompt 注入;默认使用 codex‑1 模型,可切换至其他模型。
Gemini CLI Google 发布的开放源码 AI 代理,与 Gemini Code Assist 共用技术;免费版提供每分钟 60 次、每天 1,000 次请求,并拥有 100 万 token 的上下文窗口;支持项目自动化、搜索结合(通过 Google Search 获取实时上下文)、MCP 扩展和自定义提示,并可无界整合进 VS Code。
Warp 开发者喜爱的终端工具,其 2.0 版本支持 Agentic CLI;允许在多个项目并行运行 AI 代理;提供 MCP 工具、Warp Drive、多仓库数据库等上下文;可配置代理的自治程度;强调安全与企业级功能。

2.3 氛围编程/应用生成平台

这些平台基于自然语言描述快速生成应用,面向非程序员和快速原型开发。

工具/平台 主要特点
Replit Agent Replit 提供的氛围编程平台,通过自然语言描述即可生成应用并提供一键部署;用户负责描述与迭代,AI 生成代码、修复错误并给出建议。
Lovable 专注于 React 应用和 Supabase 后端的氛围编程平台;用户使用自然语言描述需求,AI 负责数据库建模、前端编写和部署;提供一键发布和 Figma 设计生成界面。
Bolt (StackBlitz) 浏览器端 AI 开发环境,用于快速原型和全栈应用;支持 React、Vue、Svelte、Expo 等框架;具备实时预览、内置终端、错误检测修复、Netlify 部署等功能。

三、工具详细分析

3.1 IDE 类工具

CursorAI 第一的代码编辑器

Cursor 基于 VS Code 构建,为 AI 辅助开发提供了更深入的集成。它支持多种交互模式:普通编辑模式可使用 Tab 键接受 AI 补全,Chat 模式可以查询解释函数或调试问题,Composer 工作区适用于生成复杂功能或重构,Agent 模式则允许 AI 自动制定计划并执行多步任务。Cursor 还提供内置终端、自动测试生成和文档撰写功能,并允许用户使用 Claude 3.7 和 GPT‑4 等模型或自定义 API 密钥。在隐私模式下,代码不会上传到模型服务器。免费版每月提供约 2,000 次补全,付费版 20 美元起。

GitHub Copilot深度集成的配对编程助手

GitHub Copilot 由 GitHub 和 OpenAI 合作开发,提供实时代码建议、多候选补全、错误检测和测试生成。Copilot Chat 支持回答代码疑问、生成 CLI 命令、撰写 PR 描述并辅助调试。它支持 14 种语言,集成 VS Code、JetBrains IDE、Neovim、Xcode 等多个平台,并允许用户在 GPT‑4o、Claude 3.5/3.7 和 Gemini 2.0 之间切换模型。免费版限制为每月 2,000 次补全,付费版 10 美元起。

Windsurf集成 Cascade AI 助理的全功能 IDE

Windsurf 是 Codeium 的全栈 AI IDE,采用 VS Code 内核,并附带 Cascade AI 助手。Cascade 支持多模型协同(GPT‑4o、Claude 3.5 Sonnet、DeepSeek-V3 等),提供实时协作、上下文感知的代码理解和终端集成。开发环境支持 Git、SSH 和 Dev Container,还可通过 Autocomplete 与 Super Complete 实现预测下一行文字或意图的功能。免费版包括 Cascade Base 模型,付费版采用按点数计费。

JetBrains AI Assistant

JetBrains AI Assistant 集成在 IntelliJ IDEA、PyCharm 等 IDE 中,提供上下文感知的补全、自然语言聊天、项目范围分析、文档与提交信息生成、测试生成等功能。它支持选择 OpenAI、Google、Anthropic、JetBrains Mellum 以及本地模型 O llama,可在本地运行以保护隐私。需要订阅 JetBrains IDE,本身 AI 订阅每月约 10 美元。

Amazon CodeWhisperer

CodeWhisperer 使用 Amazon 的 AI 模型,根据代码上下文提供代码片段、函数补全,并自动生成文档和扫描安全漏洞。它支持多种语言并集成 VS Code、JetBrains 等 IDE。个人免费版功能有限,专业版月费约 15 美元。

Tabnine

Tabnine 以深度学习数据集为基础,提供智能代码补全、重构建议、代码 lint 和自动文档生成。它强调隐私保护——企业版可在本地服务器上运行模型。免费版仅提供基础补全,专业版月费约 9 美元。

AskCodi

AskCodi 支持多语言代码生成、问题解答和改进建议,并集成 VS Code、PyCharm 等 IDE。用户需以明确结构提出问题,付费计划才可解锁全部功能。

Xcode AI Assistant

Apple 在 Xcode 16 中内置的 AI 助手为 Swift 开发者提供离线运行的代码补全、预览数据和基本重构建议。由于模型本地运行,不会泄露代码。

Trae

Trae 是字节跳动推出的 AI IDE,采用双模式:Builder 模式允许用户通过自然语言描述生成应用,Chat 模式用于交互式辅助。它支持 Claude 3.7 Sonnet 和 GPT‑4o,多模式适合不同工作流,价格相对低廉。

3.2 命令行工具

Aider开源命令行 AI 工程师

Aider 将 AI 集成到命令行,支持在终端中选择使用 Anthropic Claude 4、OpenAI o3/o4、DeepSeek 等模型。它会在每次会话结束后显示 token 使用和费用,帮助开发者优化成本。Aider 自动提交修改到 Git,并支持通过语音输入给出指令;还能自动运行 lint 和测试、处理图像或网页上下文。Aider 的开源性质和 Python 包安装方式使其易于使用。

Claude Code面向企业的安全 CLI

Anthropic 的 Claude Code 强调隐私和安全,允许修改代码、修复错误、运行测试并与 GitHub Actions 集成。它包含 WebSearch、WebFetch 和 MultiEdit 等工具,并支持严格的权限管理、防 prompt 注入和日志追踪。与 Aider 和 Codex CLI 不同,Claude Code 是闭源的,需要安装 Node 18+ 并使用 Anthropic API。

Codex CLIOpenAI 的本地代理

Codex CLI 是 OpenAI 发布的实验性开源命令行代理,可读取、修改和运行本地代码,并针对不同文件提供 Suggest、Auto Edit 和 Full Auto 等批准模式。它支持文本、图像和草图作为输入,还允许通过在项目根目录创建 AGENTS.md 文件定义代码库导航、测试命令和风格指南。Codex CLI 默认使用 codex‑1 模型(优化版 o4‑mini)实现低延迟代码问答,并通过 login with ChatGPT 简化授权。安装方式为 npm install -g @openai/codex 并设置 API 密钥即可。

Gemini CLIGoogle 的开放源码 AI 代理

Google 在 2025 年推出 Gemini CLI,它与 Gemini Code Assist 共享技术,可直接在终端调用 Gemini 模型。免费版通过个人 Google 账号可使用 Gemini 2.5 Pro 模型,拥有 100 万 token 的上下文窗口,并提供业界最高的免费额度(每分钟 60 次、每日 1,000 次请求)。Gemini CLI 还具备通过 Google Search 获取实时外部上下文、支持 MCP 扩展、可自定义提示并可脚本化使用。其开源许可为 Apache 2.0,方便开发者审查和扩展。

Warp多代理终端与安全环境

Warp 2.0 引入 Agentic CLI,允许在一个或多个项目中并行运行 AI 代理。它提供 MCP 工具、Warp Drive 与多仓库数据库,支持自定义代理自治等级,并强调企业级安全,确保模型不会在未经许可的情况下训练用户数据。

3.3 氛围编程平台

氛围编程定义

氛围编程是一种面向非程序员和快速原型的开发方法,用户以自然语言描述需求,AI 负责生成应用。Replit 解释道,氛围编程让人们通过描述想法来构建应用,而不必学习语言或理解复杂概念;这样的流程包括描述、AI 理解并生成代码、用户微调、运行和迭代。Lovable 的博客指出,氛围编程的核心是完全信任 AI 而不阅读生成的代码。不过,有专家强调氛围编程适用于低风险原型项目,生产场景仍需要代码审查和测试。

Replit Agent

Replit 提供了氛围编程套件:用户先用自然语言描述需求,AI 代理生成代码、搭建数据库并部署,用户再通过 Assistant 微调细节;最后可以一键部署应用。这种流程大大缩短了从想法到应用的时间,使创业者、教育者等非程序员也能独立创建应用。

Lovable

Lovable 专注于 React 应用与 Supabase 后端,用户只需描述需求,AI 自动生成前端、数据库和鉴权等功能,并提供一键部署。Lovable 通过这种约束化的技术栈保证代码干净、最佳实践符合现代标准。其博客举例说明,通过自然语言指令,一小时内即可构建出完整的活动管理应用。Lovable 认为氛围编程使非开发者也能创建应用,缩短原型时间,并通过实时反馈和 GitHub 集成确保代码质量。

Bolt (StackBlitz)

Bolt 是 StackBlitz 推出的浏览器端 AI 开发环境,适用于快速原型和全栈应用。它支持 React、Vue、Svelte、Expo 等框架,内置终端、实时预览、热重载和 Netlify 部署。AI 会根据自然语言生成代码并检测错误,提供修复建议;同时允许导入 npm 包并查看项目历史记录。免费版每天提供 150K tokens,付费版每月 20 美元。

3.4 模型级对话助手

虽然本报告侧重 IDE 和 CLI,但必须提及 ChatGPTClaudeGemini 等模型级对话助手。它们通过聊天界面提供代码解释、算法设计、调试和架构建议,是使用范围最广的 AI 编程工具之一。Builder.io 文章指出,Claude 擅长保持长期对话上下文并提供深度解释,适合复杂重构和调试;ChatGPT 支持 50+ 语言并提供优秀的 web 浏览和代码生成能力;Gemini 拥有多模态能力和强大的推理功能,尤其适合需要图片或语音输入的编码任务。这些模型通常提供免费版本和不同等级的付费订阅,用户可根据用量和需求选择。

四、对比与观察

  1. IDE vs CLI – IDE 类工具将 AI 功能融入熟悉的开发环境,适合需要完整编辑、调试和项目管理体验的开发者;CLI 工具提供了更低层次的控制和更快的反馈,适合在终端工作或自动化流程中使用。Aider 和 Codex CLI 属于开源工具,便于自定义;Claude Code 与 Gemini CLI 强调企业安全和高可扩展性。CLI 工具往往需要一定的配置和命令行熟悉度。

  2. 功能对比 – IDE 工具通常提供自动补全、聊天问答、文档和测试生成,以及代码审查等功能;CLI 工具强调文件操作、批准模式、安全控制和多代理运行。氛围编程平台则追求极简体验,通过自然语言描述即可生成应用,适合低代码/无代码场景。

  3. 模型与定价 – 多数工具支持多模型切换,例如 Cursor 和 Copilot 支持 GPT‑4o、Claude 3.7 Sonnet、Gemini 2.0 等;Aider 与 Codex CLI 允许自定义模型和 API 密钥。定价模式从免费版(有限配额)到订阅制和按用量计费不等,企业应用需考虑 token 消耗和隐私保护。

  4. 安全与隐私 – 企业用户关注代码安全和数据隐私。JetBrains AI Assistant 提供本地模型选项;Claude Code 和 Warp 具有权限管理和日志追踪;Gemini CLI 与 Codex CLI 提供 prompt 注入防护和审批模式。

  5. 氛围编程的潜力与风险 – 氛围编程平台大幅降低了软件开发门槛,使非程序员能够通过自然语言创建应用。然而专家提醒,这种方法适用于原型和低风险项目,生产级应用仍需经过代码审查、测试和安全检查。

五、结论与建议

AI 编程生态在 2025 年蓬勃发展,工具类型多样,从集成开发环境到命令行代理再到氛围编程平台,覆盖了不同经验水平的开发者。IDE 类工具(如 Cursor、Copilot、Windsurf)适合希望在熟悉环境中使用 AI 助手的开发者;CLI 工具(Aider、Codex CLI、Gemini CLI 等)则为喜欢终端或需要自动化脚本的用户提供了强大的控制能力;氛围编程工具(Replit Agent、Lovable、Bolt 等)则让非程序员能够快速实现想法。

选择工具时应考虑以下因素:

  • 使用场景和工作流:需要完整 IDE 还是命令行工具?
  • 支持的模型和语言:是否支持常用编程语言、可否自定义模型。
  • 成本与配额:免费额度是否足够,付费模式是否适合团队规模。
  • 隐私与安全:是否提供本地模型、权限控制、防 prompt 注入等安全特性。
  • 长期可维护性:氛围编程虽然方便,但对于生产应用仍需代码审查和测试。

总之,AI 编程工具正从"辅助"走向"合作伙伴"。利用这些工具可以提高开发效率、促进创新,但开发者仍需保持批判性思维,理解生成代码的原理,确保代码质量与安全。

评论

从 ChatGPT 生成的结果来看,它覆盖了市面上的主流 AI 编程工具,如 ChatGPT、Gemini、Cursor、Claude Code 等。但是对于最新发布的一些工具,比如 Kiro、CodeBuddy、Qwen Coder 等,它目前还无法给出具体的使用建议。但是从整体效果上来看,它的准确度以及时效性尚可,可以作为参考。

参考链接