2026-03-18 21:00:00
最近一轮知识库信息放在一起看,结论很清楚: Agent 已经从“能不能做”进入“能不能稳定做、持续做、规模做”。
真正决定成败的,不是模型上限,而是工程治理下限。
很多团队现在都能把 Agent 跑起来:接 IM、调工具、跑自动化流程。 但一上真实业务就出问题:串会话、误操作、成本飙升、结果不可复盘。 这类问题本质上不是 Prompt 问题,而是系统边界没有建好。
第一步不是提并发,而是先把并发“关进笼子”:
如果这一层没做,业务一上量就会出现“同一用户前后文互相污染”,后面所有优化都白做。
Agent 接了终端、文件、外部 API 后,风险不再是“答错一句话”,而是“做错一件事”。
必须落地三件事:
没有这层,任何一次误调用都可能直接变生产事故。
生产环境里,失败不是例外,是常态。 要提前把“故障时怎么继续”设计好:
目标只有一个:在坏环境下还能跑,不把服务打穿。
纯技术落地如果不转成“可复用内容”,团队学习曲线会重复踩坑。
建议固定复盘模板:
技术治理 + 内容沉淀同时做,才能形成长期复利。
Agent 落地不是“再接一个模型”,而是“先建一套护栏”。 先把系统变成可控工程,再把效率放大。 这一步做对了,后面才是真正的规模化红利。
2026-03-12 01:50:00
很多团队把 Agent 做到第二阶段都会遇到同一个问题:
单个 Agent 已经不够用,要拆“角色分工”。
一台机器放不下所有任务,要跨多台主机部署。
代理之间需要通信协作,但又不能互相污染上下文。
这篇文章基于 OpenClaw 官方文档,系统讲清四件事:单机多 Agent 怎么搭、单主机多 OpenClaw 实例何时可用、多 OpenClaw 主机怎么协作、代理间如何通信才稳定可控。
在 OpenClaw 里,一个 agent 本质是一个“完整隔离单元”,它拥有自己的:
workspace(包括 AGENTS.md/SOUL.md/USER.md 与本地文件上下文)
agentDir(认证与 agent 级状态)
sessions(会话与路由状态)
所以“多 Agent”是工程级隔离,而不是同一上下文里改几段提示词。
先给结论:一个 Gateway + 多个 agent + 显式 bindings 路由 是官方推荐范式。
一台主机只跑一个 Gateway(官方架构约束)。
Gateway 持有所有渠道连接(Telegram/WhatsApp/Slack/…)。
通过 bindings 把不同 channel/account/peer 的入站消息,确定性路由到不同 agent。
每个 agent 使用独立 workspace 和 agentDir,避免认证与会话冲突。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 |
|
同一 Gateway 内,agent 间协作优先走 session 工具:
sessions_send:向另一个 session 发消息并等待结果(可超时控制)。
sessions_spawn:派生隔离子代理执行长任务,完成后回传摘要。
这两类通信在同一 Gateway 内是“内生通信”,上下文边界更清晰、可追踪性更好。
有些团队会在同一台机器上启动多个 OpenClaw 进程(而不是一个 Gateway 托管多个 agent)。这个方案不是主路径,但在“强隔离”诉求下可用。
适用场景:
你需要把不同业务线彻底隔离到不同进程生命周期。
你希望为不同实例配置不同端口、不同状态目录、不同系统服务策略。
必须满足的工程约束:
每个实例使用独立 OPENCLAW_STATE_DIR。
每个实例使用独立 Gateway 端口(避免 WS/HTTP 端口冲突)。
每个实例的 channel 账号登录状态独立管理,避免同账号并发占用。
每个实例独立 workspace/agentDir,避免会话与认证污染。
实践建议:如果目标只是“多人格/多角色协作”,优先选择单 Gateway + 多 agent + bindings。只有当你明确需要“进程级隔离”时,再采用单主机多实例。
这里最容易误解:OpenClaw 官方当前核心是“单 Gateway 控制面”。跨主机协作不是默认内建成“跨 Gateway 透明 RPC”。
所以工程上要用“桥接层”把多主机连起来。
Host-A 的 agent 通过消息渠道(如 Telegram Bot/群)发任务。
Host-B 作为另一个 OpenClaw 实例在同渠道接收并处理。
处理结果再通过渠道回发到 Host-A 或人工会话。
优点:部署快,稳定性高,几乎不用改 OpenClaw 内核。
Host-A 将任务打包成结构化事件(JSON)投递给 Host-B 的接收端。
Host-B 的 Hook/入口会话消费事件并触发 agent 执行。
回传可走 webhook 回调或消息渠道。
优点:便于与现有后端系统集成,适合平台化。
两台 OpenClaw 通过外部队列/任务系统(如 Redis Streams、Kafka、SQS)解耦。
OpenClaw 只做“智能执行器”,任务编排交给外部工作流层。
优点:吞吐与治理能力最好,但实施复杂度最高。
控制消息:任务编号、优先级、超时、重试策略。
业务消息:输入参数、上下文摘要、期望输出格式。
回执消息:状态(accepted/running/done/failed)、结果摘要、错误分类。
Orchestrator Agent:接任务、拆解、派发、汇总。
Worker Agent:按契约执行单一子任务。
Reviewer Agent:做一致性检查与质量门禁。
幂等键:每个任务都要有业务 id,重复投递可安全去重。
超时与降级:sessions_send/外部桥接必须有 timeout 与 fallback。
上下文最小化:跨代理只传“必要上下文 + 结构化结果”,不要整段历史硬转发。
在跨系统、跨组织的多代理协作里,可以把 OpenClaw 作为运行时,把 A2A/ANP 当作“外部互联协议层”。
A2A(Agent2Agent):Google 发起的开放互操作协议,强调任务生命周期、能力发现(Agent Card)、长任务状态同步,以及基于 HTTP / SSE / JSON-RPC 的标准化通信。
ANP(Agent Network Protocol):国内社区推动的开源协议,重点放在开放网络中的智能体身份与安全通信(例如 DID 身份、认证与加密通道)。
一个实用落地方式:
OpenClaw 内部(同 Gateway 或同实例)优先用 sessions_send / sessions_spawn。
OpenClaw 与外部 Agent 平台协作时,可通过桥接层接入 A2A。
在跨组织、需要身份自治与安全互信的场景,可评估引入 ANP 作为身份与通信补充层。
注意:协议选型要看你的治理边界——企业内统一平台优先 A2A 生态兼容,开放网络互联优先关注 ANP 的身份与安全模型成熟度。
把多个 agent 复用同一个 agentDir,导致认证/会话冲突。
bindings 规则不够具体,出现“路由命中漂移”。
把跨主机协作当成同机 sessions_send,结果通信链路设计不完整。
没有幂等,重试时重复执行副作用(重复发消息/重复写库)。
没有统一状态模型,排障时看不到“任务卡在哪一跳”。
第一步:先在单机把“多 Agent + bindings + sessions_spawn”跑顺。
第二步:引入一种跨主机桥接(先渠道桥接,再升级 webhook/队列)。
第三步:补齐治理(幂等、重试、审计、告警、权限边界)。
这样做的好处是:每一步都可验证,不会把复杂度一次性打满。
OpenClaw 的多 Agent 架构要点可以压缩成一句话:
同机协作用 Gateway 内生会话工具,跨机协作用外部桥接层;隔离、路由、幂等是稳定性的三根柱子。
如果你正在做多代理系统,不要先追求“最智能”,先把“能稳定协作”做出来。
OpenClaw 官方文档:Gateway Architecture
https://docs.openclaw.ai/concepts/architecture
OpenClaw 官方文档:Multi-Agent Routing
https://docs.openclaw.ai/concepts/multi-agent
OpenClaw 官方文档:Session Tools(sessions_send / sessions_spawn)
https://docs.openclaw.ai/concepts/session-tool
OpenClaw 官方文档:Sub-Agents
https://docs.openclaw.ai/tools/subagents
OpenClaw 官方文档:Configuration Reference
https://docs.openclaw.ai/gateway/configuration-reference
Google Developers Blog:Announcing the Agent2Agent Protocol (A2A)
https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/
A2A 协议官方文档(Linux Foundation 托管)
https://a2a-protocol.org/latest/
ANP 官方文档(中文)
https://www.agent-network-protocol.com/zh/guide/
ANP 身份与加密通信层
https://agentnetworkprotocol.com/docs/concepts/identity/
2026-03-03 00:15:00
上一篇聊了「OpenClaw 是什么」。这一篇更偏工程视角:OpenClaw 到底怎么实现一个可长期运行的 Agent 系统?消息是怎么进来的?怎么路由到 Agent?工具调用与定时任务如何编排?
如果你做过 Agent 落地,会很熟悉这些关键词:channel、tool、session、cron、memory、安全边界、幂等、观测……OpenClaw 的价值在于把这些抽象成一套可部署的 runtime。

你可以把 OpenClaw 想成三层:
1) 接入层(Channels):连接外部世界(Telegram/钉钉/QQ/…),负责收消息、发消息。
2) 编排层(Gateway + Routing + Sessions):决定“这条消息交给哪个 Agent/哪个会话”,并维护状态与生命周期。
3) 执行层(Agents + Tools/Skills + Jobs):Agent 负责决策,Tools 负责执行,Jobs(cron 等)负责触发。
对应到工程实体,大致是:
关键约束(和官方架构一致):一台主机一个 Gateway、连接首帧必须是
connect握手、事件流默认不回放(客户端需自行补拉状态)。
把它拆成 8 步,你会发现它是一条典型的事件驱动流水线:
1) Channel 收到事件
2) 插件标准化(Normalize)
3) 封装输入(Envelope)
4) 路由(Routing/Binding)
5) 会话选择(Session Key)
6) Agent 推理(Decide)
7) 工具执行(Tools/Skills)
8) 回传与发送(Outbound Deliver)
这条链路里,最容易做坏的其实是第 2~5 步:输入不干净、路由不清晰、session 混乱,都会让 Agent “聪明但不稳定”。OpenClaw 的设计重点正是在这里。
一个可落地的 Agent 系统,工具调用必须具备三种属性:
OpenClaw 的 skill 机制,本质是在做“把提示词工程变成可维护的工程资产”。你不希望每次靠大模型临场发挥写一堆 shell;你希望它遵循一个稳定的脚本与约定。
很多 Agent 项目死在“能对话,但不能跑”。原因是:
OpenClaw 的 cron 设计可以抽象成:
一个很实用的经验:凡是“每天推送/定时汇总/提醒”的任务,都要把幂等写成硬性要求。这比“写得更聪明”重要得多。
以语音为例,很多系统会把语音转写结果作为“附件描述”塞进消息里,但 Agent 可能把它当噪声过滤掉,最后表现为“不回复”。
更可靠的做法是:
这其实是一条通用原则:
Agent 真正在乎的是“它以为用户说了什么”。 所以多模态处理的结果要进入“正文层”,而不是“旁注层”。
下面这套方法论与 OpenClaw 强相关,但本质上是通用的 Agent 工程原则。
越早把副作用收敛到执行层,你的系统越稳。
很多 Agent 项目后期会失控,本质原因是:所有能力都堆在一个巨大的代码/提示词里,无法升级、无法替换、也无法复用。
OpenClaw 的架构里有两个非常值得复用的抽象:
你在研发其他项目时可以照搬这套思想:
这样系统才具备“长期演进能力”:
你会发现 OpenClaw 的心智模型很像: - event in → route → session → agent → tools → deliver
这其实就是一个状态机。把“会话键/幂等键/任务键”定义清楚,系统就会稳定。
OpenClaw 里很多稳定性来自于“约束前置”:
工程上你可以把它抽象成:
推荐最低配:
last_date(今天发过就退出)last_hash(内容一致就退出)把它当成产品级需求,而不是“优化项”。
一个很反直觉的点:
所以先把日志、运行记录、失败原因打通,后面再谈“更聪明”。
建议至少做到:
Agent 的安全不是模型能解决的,是架构要解决的。
OpenClaw 的架构并不神秘:它把 Agent 的生产化问题拆解为一组工程模块(channel、session、tool、cron、memory、安全策略),并把“核心流程”做成可运行、可观测、可扩展的系统。
如果你要复用它的方法论,记住一句话就够:
让 LLM 做决策,让系统做约束,让工具做执行。
这就是把 Agent 从 demo 推向长期运行系统的关键。
2026-03-01 00:00:00
这两年大家对「Agent」的讨论越来越多:能自动查资料、能写代码、能跑流程、还能定时汇总。但真要把它放进日常工作流,会立刻遇到几个现实问题:它怎么和你的消息渠道连起来?怎么定时?怎么拿到你本机/服务器的上下文?怎么安全地执行命令?怎么长期稳定运行?
OpenClaw 解决的不是“再做一个聊天机器人”,而是把这些“让 Agent 变成生产力”的工程问题打包成一套可部署、可扩展的运行时。
一句话:OpenClaw 是一个面向个人/团队的 Agent 运行时(Agent Runtime)。
它更像一个“智能操作系统/中枢”,把三件事连接起来:
1) 你的输入输出渠道(Channels):比如 Telegram、钉钉、QQ、Slack…你在哪里说话,它就在哪里接收与回复。
2) 可执行的工具系统(Tools/Skills):不仅是“搜索”,还包括:跑脚本、读写文件、定时任务、发消息、抓网页、处理媒体、接入第三方服务等。
3) Agent 的会话与状态(Sessions/Memory/Jobs):把对话、任务、定时推送、长期记忆等组织起来,能持续运行、可追踪、可回放。
从使用感受上,它像一个“你自己的 AI 助理平台”,而不是单次问答。
把大模型当聊天工具,最多做到“回答问题”。但现实工作更像“完成任务”:
这些都需要一个稳定的执行层。
你可以用各种 bot、脚本、cron、Webhook、爬虫、自动化平台……但拼在一起时,常见问题是:
OpenClaw 的定位就是把这些“胶水层”标准化。
Agent 不应该只存在于一次对话里,而应该具备:
Agent 一旦能执行命令、能发消息、能访问外部链接,就一定会遇到:
OpenClaw 的思路是:把工具权限、通道策略、定时任务、敏感能力控制放进同一套配置与运行时里。
OpenClaw 里你可以把系统理解成:
一个典型的工作流是:
1) 你在 Telegram/钉钉/QQ 里发一句话:
“每天 10 点给我推送 AI 新闻”
2) Agent 把它变成一个 cron job(带去重与失败重试)。
3) 到点了 cron 自动触发,agent 做检索→整理→发送消息。
4) 你觉得格式不对,再要求调整;之后就稳定每天按你的格式推送。
如果你只想快速体验 OpenClaw 的核心价值,可以按这个顺序:
1) 选一个入口渠道:先接 Telegram/钉钉/QQ 其中一个(你日常最常用的)。
2) 跑通一条闭环任务:例如“每天 10:00 推送 AI 新闻”。
3) 把输出格式固定下来:标题、条目数量、每条的字段(描述/日期/链接)。
4) 加入幂等/去重:同一天已发送就退出(避免重复轰炸)。
5) 再逐步加技能:比如从“新闻推送”升级到“跟踪你的关注源 + 只推相关内容”。
这一套的关键是:先让系统进入稳定运行状态,而不是一上来追求大而全。
Demo 1:每日新闻推送(带去重)
last_date/last_hash 做幂等;发送失败有退避重试Demo 2:语音消息→转写→直接回复
1) 先从一个强需求开始:例如“每天 10 点新闻推送”。从 0 到 1 跑通,价值立刻可见。
2) 格式标准化:输出要固定模板,后面才能自动化复用。
3) 幂等与去重:定时推送必须有“今天已发则退出”的逻辑。
4) 给 Agent 明确的权限边界:哪些能访问、哪些不能执行,越早设定越省心。
5) 把它当成一个长期系统:日志、状态文件、失败重试、降级策略都要有。
OpenClaw 的价值在于:它让 Agent 具备“能接入你真实工作流、能长期稳定运行、能安全执行工具”的工程底座。
当你不再把 AI 当成一次性问答,而是当成一个可以持续协作的“数字员工/助理”,你需要的就不是一个聊天窗口,而是一套运行时——这就是 OpenClaw 为什么会出现。
2026-02-27 00:00:00
截至文章发布时间(2026-02-26),2026 年 AI 的关键变化不再是“又出了一个更强的模型”,而是 多模态内容生成、Agent 工程化、可交付系统 这三件事在同一时期快速叠加,让 AI 从“能演示”走向“能交付”。
这篇文章不做流水账式盘点,而是选 3 个热度高、信号明确的事件作为锚点:Seedance 2.0(视频)、OpenClaw(Agent 系统)、Genie3(世界模型/交互式生成)。基于这些事件,再抽象出一套更可复用的产品化方法论:怎么把 AI 能力沉到工程系统里,做成长期可运营的生产力。
Seedance 2.0 的信号意义不在于“又一个视频模型”,而在于它把注意力放在 可控性与交付链路:
它代表视频生成的竞争从“能生成”走向“能按需求生成、能被工作流接住、能进入生产链路”。
数据来源: - https://seed.bytedance.com/zh/seedance2_0
OpenClaw 的热度值得作为一个产品化信号来理解:它并不是提出了新模型,而是把一套 Agent 工程结构做成了可运行、可迭代、可维护的系统形态(通道、自动化、工具操作、长任务执行等)。
其核心价值不在“模型更聪明”,而在于把 AI 能力组织成了工程系统所需要的形状:可配置、可观测、可回放、可重试、可治理。
(公开报道提及 OpenClaw/Clawdbot 的现象与影响)
数据来源: - https://www.news.cn/world/20260203/a173cb66c98a4b1bb551d588fd2f0209/c.html
除了内容生成与 Agent,2026 年一个值得关注的方向是:模型不仅生成内容,也在尝试生成“可交互环境”。公开报道提到,基于世界模型 Genie 3 的工具向公众开放,用户可以通过自然语言描述创建并探索可交互的三维虚拟世界。
它的信号意义在于:生成式 AI 的产品形态,开始从“出一段内容”走向“生成一个可探索/可操作的环境”,为游戏、仿真、训练与数字孪生等方向带来新变量。
数据来源: - https://www.news.cn/world/20260203/a173cb66c98a4b1bb551d588fd2f0209/c.html
这三个事件看似分散,但背后其实收敛成同一套规律:把 AI 当作工程系统的一部分,而不是一个会聊天的黑盒。
Seedance 2.0 强调“导演级操控与工业交付”,OpenClaw 强调“能跑、能闭环”,共同指向一个结论:
工程上对应的抓手一般是:结构化输出、工具调用、失败模式分析、回放与重试。
OpenClaw 这类系统能跑进真实环境,一个关键原因是:它更像“可维护工作流 + 智能节点”的组合,而不是“把所有步骤都交给一个大模型”。
更稳的落地路径是:
当系统要长期运行、并且会遇到重试、定时、跨系统同步时,最重要的不是“提示词更强”,而是把关键约束写成契约并强制执行:
没有契约,就没有可维护性;没有可维护性,就没有规模化。
Seedance 2.0 这类模型强调工业交付,本质上对工程提出了更硬的要求:格式、编码、超时、重试、质量评估、审计追踪。
多模态真正落地通常离不开:
Genie3 这类方向如果要产品化,除了“能生成”,还需要三件事:
这也再次回到同一个核心:能力提升很重要,但决定能否落地的,往往是工程系统如何承接它。
截至 2026-02-26,我更愿意把今年 AI 的主线称为“工程化的胜利”:
接下来一年,决定胜负的可能不是“谁的模型强 3 分”,而是:
谁能把 AI 做成一套可维护、可扩展、可协作、可审计的工程系统。
2025-12-27 19:29:34
接近2025年底,概括总结了一下2025这一年的一些AI关键事件。
| 时间 | 事项 | 备注 |
|---|---|---|
| 2025.12.16 | OpenAI GPT-Image-1.5 | 不管是从零生成,还是对图片进行局部编辑,更接近你脑子里想的那个结果;并且生成速度最高可达 4 倍提升。实测:比配套Nano Banana Pro强。 |
| 2025.12.11 | OpenAI GPT 5.2 | GPT-5.2 能够在真实复杂工作流程中高效协作,从代码分析、财务建模、工程设计,到研究论文分析、实验结果推理,都能提供高质量辅助。 |
| 2025.11.21 | Google Nano Banana Pro (aka Gemini 3.0 Pro Image) |
全球首个“推理至像引擎”,不仅是绘画,更是理解物理规律与空间逻辑。作为 Nano Banana 的旗舰升级版,它像人类一样“思考”和“规划”场景,生成前所未有的逻辑一致性,完美文本和高分辨率的视觉作品。 |
| 2025.11.16 | Google Gemini 3.0 pro | 全面高刷。同时发布Antigravity 编程IDE,生成式前端UI能力遥遥领先,可以快速实现各种交互式H5应用。 |
| 2025.11.12 | OpenAI GPT 5.1 | 将GPT-5 和 GPT-5 Mini 合并为一个能适应问题难度的自适应调整思考用量的模型。相比GPT5,语气更亲切、更幽默,更善于遵循指令。整体性能介于GPT-5 和 GPT-5 Mini 之间。 |
| 2025.10.16 | Google Veo 3.1 | 主打更强叙事与音频控制、音乐韵律与多参考图拼接,接入 Gemini API与Vertex AI。Flow与Gemini可用。可合成多人物场景、语音同步,片段最长约146秒;规格至1080p/24fps。 |
| 2025.10.01 | OpenAI Sora2 | 非常好的物理世界理解能力,同时推出了Sora APP,定位AI短影音。号称视频领域的GPT-3.5时刻。 |
| 2025.09.09 | 字节发布 Seedream 4.0 | 定位“生成与编辑一体化”专业工具。编辑能力强甚至部分超过nano banana。 |
| 2025.08.27 | Google Nano Banana (aka Gemini 2.5 Flash Image) |
具有极好的编辑能力,能够多图融合、强一致性,替代GPT4o成为图片编辑的王者。SOTA of 图像模型。 |
| 2025.08.26 | 通义万相 Wan2.2-S2V-14B | 一个可以跑动的14B视频模型,仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级叙事/人视频。 |
| 2025.08.26 | 即梦AI智能多模 | 传统的拼接是两个团队,各干各的,最后硬拼在一起。而堆叠多帧是一个全真全参数带上下文的团队,大家各让一步处理,因此能做到四宽的一致性。堆叠多帧背后的底层逻辑:即一体的全局考虑。 |
| 2025.08.21 | GenSpark AI Designer | 一款革命性的AI设计工具,能够一键生成完整的多屏设计方案,涵盖Logo、包装、网站设计等多个领域,极大地降低了设计门槛。 |
| 2025.08.20 | DeepSeek V3.1 | 代码能力极高,但文本能力并未提高,甚至有某些下降。 |
| 2025.08.19 | Qwen-Image-Edit | 全能图像编辑。 |
| 2025.08.08 | OpenAI GPT5 | 一个统一的系统,包含一个能够解决大多数问题的智能快速模型、一个能够解决复杂长问题的深度推理模型,以及一个实时语音器。可以根据对话类型、复杂性、工具需求判断意图并快速决定使用哪个模型。 |
| 2025.08.06 | OpenAI 开源模型 GPT-oss-120b和GPT-oss-20b |
性能与兼容性兼具,非英文表现不好。 |
| 2025.08.05 | Google Genie3 | 新一代生成式世界模型——Genie3。根据文本创造一个可以实时交互的世界。 |
| 2025.08.04 | Qwen-image | 通义千问团队开源的首个图像生成基础模型,在解决传统文生图模型文字渲染难题上实现了突破性进展,尤其在中文场景下表现突出。 |
| 2025.07.23 | Qwen3-coder | 拥有卓越的代码Agent能力,在Agentic Coding、Agentic Browser-Use 和 Foundational Coding Tasks 上均取得了开源模型的 SOTA 效果。 |
| 2025.07.12 | Kimi K2 | 将模型权重代码全量开源。大模型竞技场LMArena排行榜中,Kimi K2综合排名斩获全球第五,在开源大模型中位居全球第一。 |
| 2025.07.09 | xAI Grok 4 | 极其激进的快速迭代。推出 Grok 4 Heavy,引入多智能体架构,针对复杂科研任务优化,算力规模再创新高。 |
| 2025.07.05 | Gemini CLI | 开源命令行界面工具,它将谷歌强大的 Gemini AI 模型直接集成到开发者常用的终端环境中,更擅长服务于编程。 |
| 2025.07.02 | Flux图像模型 Kontext Dev模型正式开始 |
强一致性、强理解力。 |
| 2025.06.24 | Imagen4 | 显著改善文本渲染效果,进一步提升了文本转图像的生成质量。 |
| 2025.06.22 | Gemini 2.5 Flash/Pro | |
| 2025.06.11 | Seedance1.0 | 字节跳动推出的一款高性能和推理极致的视频语言生成模型。 |
| 2025.05.23 | Claude code | 智能化辅助写代码工具,旨在帮助开发者通过自然语言命令理解、浏览和修改整个代码库,前端编程领域无人能敌。 |
| 2025.05.21 | Veo3 | 首个可生成视频背景音效模型,体会画面感、配合感、生成人物对话,物理模拟与口型同步表现优异。 |
| 2025.04.29 | Qwen3 | 国产最强开源模型。 |
| 2025年5月 | Loverr设计Agent | 2025年7月28日正式上线。 |
| 2025.04.05 | Meta Llama 4 | Meta发布开源模型 Llama 4(包含Scout和Maverick版本)。 |
| 2025.03.26 | GPT4o改图能力 | 一致性能力好,响应慢。 |
| 2025.03.06 | 通用Agent Manus, GenSpark, Flowith |
|
| 2025.02.17 | xAI Grok 3 | Elon Musk 发布 Grok 3,宣称其为“地球上最聪明的AI”。 |
| 2025.01.20 | DeepSeek R1 | 国产开源推理模型,媲美OpenAI o1。 |