2026-04-07 22:30:00
最近看AI漫剧有点看疯魔了。如果你也经常刷短视频,会发现现在的AI漫剧无论是剧情(“男主活了800岁的叶家老祖扮猪吃老虎”),还是画面呈现,都已经卷到了一个新高度。
但过去很长一段时间,真在动手做AI短剧的创作者,都会遇到一个极其痛苦的效率瓶颈:工具割裂,工作流太散。
即使有了 Seedance 2.0 这样强大的基座模型(单次最多生成 15 秒),距离一部完整的漫剧还差得远——写完整剧本、设计角色、拆分场景分镜、保持一致性,最后再手动连贯成完整视频,每一个环节都需要在不同的工具和页面之间反复横跳。
为了解决长视频制作的一致性和连贯性瓶颈,我们需要真正的全链路工作流整合。
以前做AI漫剧,几乎是一个纯纯的“手工活”:
这就导致,明明我们有了非常强大的单点生成工具,却很难高频、稳定地量产长视频内容。
最近,主攻动画的AI视频工具 OiiOii 接入了满血不排队的 Seedance 2.0 API。它的核心突破并不在于模型本身,而在于工作流的封装与整合。
它解决了创作者最核心的痛点:
这就相当于从“手动驾驶”直接进化到了“自动导航”。你只需要给出目的地(剧情描述),系统自动帮你完成中间所有的挂挡、踩油门和方向盘修正。
随着基础模型的红利期逐渐平缓,AI 视频的下半场竞争,一定是“工作流”的竞争。
单点技术的惊艳已经不足以构成护城河,谁能把这些散落的技术节点,封装成普通用户可以轻易上手、稳定产出的标准化流水线,谁就能吃下这波内容爆发的红利。
对于我们日常的 AI 创作也是一样:不要局限于寻找“最强模型”,而要思考如何搭建“最顺畅的工作流”。
2026-04-06 00:17:00
很多人开始配置自己的 Agent 时,都会很快遇到一个问题:
SOUL.md 和 AGENTS.md 看起来都像是在“定义 Agent”,它们到底有什么区别?
如果这两个文件不分清,后面就很容易出现一种典型混乱:人格写进岗位说明,业务流程写进行为准则,文件越写越多,Agent 反而越来越不像一个稳定的助手。
先说结论:
SOUL.md 负责定义 这个 Agent 怎么做人、怎么做事、什么不能碰
AGENTS.md 负责定义 这个 Agent 是干什么的、服务谁、交付什么、按什么流程工作
一句话:
SOUL.md 是灵魂,AGENTS.md 是岗位说明书。
原因其实很简单:这两个文件都在描述 Agent,而且都不是技术配置项,而是自然语言规则。
于是很容易出现下面这种误写:
SOUL.md 里写“每周发 3 篇小红书”AGENTS.md 里写“说话别太啰嗦,先给结论”表面上看都能运行,但问题在于:
这就像你在公司里把“企业文化”和“岗位 KPI”写进同一张纸。
短期看没事,长期一定乱。
SOUL.md 适合放什么SOUL.md 更适合放那些跨任务长期有效的行为原则。
也就是:不管这个 Agent 今天在写文章、查资料、做排期,还是和你对话,它都应该稳定遵守的那一层规则。
它更像下面这些问题的答案:
它适合放的内容,大致可以分成 4 类:
比如:
比如:
比如:
比如:
这些东西有一个共同点:
它们不依赖具体业务,而定义的是这个 Agent 的稳定人格和做事方式。
AGENTS.md 适合放什么如果说 SOUL.md 解决的是“怎么做人”,那么 AGENTS.md 解决的就是“你到底是干什么的”。
它更适合放那些业务身份、职责范围、目标、流程和输出物。
它更像下面这些问题的答案:
通常来说,AGENTS.md 更适合放 5 类内容。
比如:
比如:
比如:
比如:
比如:
这些内容有一个共同点:
它们定义的是这个 Agent 的工作岗位,而不是性格。
如果你拿到一条规则,不知道该放哪,就问自己一句:
它到底在回答“我怎么做事”,还是“我做什么事”?
放进 SOUL.md。
例如:
放进 AGENTS.md。
例如:
这是区分这两个文件最省脑子的办法。
SOUL.md
很多人喜欢把一切“对 Agent 的要求”都堆进 SOUL.md,因为它名字听起来更高级。
但这会带来两个问题:
SOUL.md 变成一个无边界的大杂烩AGENTS.md 反而变空,只剩一句角色介绍这样做的后果是,Agent 会越来越像“有很多态度,但没什么明确职责”。
反过来也一样。
如果你把所有业务流程和 KPI 都塞进 AGENTS.md,却不定义风格和原则,那 Agent 通常会变成另一个问题:
所以真正合理的方式,不是二选一,而是:
SOUL.md 负责“人格和准则”AGENTS.md 负责“业务和工作”两者配合,Agent 才会既稳定,又有明确产出。
最简单的模板可以是这样。
SOUL.md只保留 4 类:
AGENTS.md只保留 5 类:
如果你按这个思路来写,后面维护会轻松很多。
因为每次新增规则时,你都知道自己是在改:
这两个东西一旦分清,整个 Agent 配置就会明显稳定下来。
Agent 配置这件事,表面上看是在写几个 Markdown 文件,本质上其实是在回答两个问题:
前一个问题,交给 SOUL.md。
后一个问题,交给 AGENTS.md。
如果你把这两个文件的边界理顺了,后面很多配置问题都会变简单。
因为你终于不是在“堆规则”,而是在真正地设计一个有灵魂、也有岗位职责的 Agent。
2026-03-31 01:10:00
过去一年,围绕 AI Agent 的讨论大多集中在模型能力本身。
但如果把最近几篇有代表性的内容放在一起看,一个更关键的变化已经出现:AI Agent 的竞争重心,正在从“模型能力展示”转向“工程系统能力”。
这里的“工程系统能力”,不是一句空话。它至少包含四层:
如果只记一条:2026 年的 Agent,已经不再只是“大模型 + 工具调用”,而是在走向一套完整的软件工程体系。
以 Cursor 发布 Composer 2 为例,这类发布最容易被表面解读为“又一个新模型上线”。但如果只盯着 benchmark 分数,其实会错过真正重要的信息。
真正值得关注的是:垂直场景优化,正在从提示词层面的工程技巧,变成底层模型层面的产品策略。
过去大家默认的路径是:
而现在,越来越多产品开始反过来做:
在代码生成领域,这个逻辑尤其成立。因为对开发者来说,关键指标从来不是“会不会聊天”,而是:
所以代码模型的价值,不在于“像人一样懂很多”,而在于“在狭窄但高价值的任务里做到足够可靠”。
从工程视角看,这一步非常重要。因为一旦模型专用化开始成立,系统设计就会自然进入下一阶段:
一句话:模型层一旦专用化,Agent 系统就不再是单核结构,而开始具备多能力模块化特征。
如果模型层的关键词是“专用化”,那么框架层的关键词就是“生产化”。
以 AgentScope Java 这类框架为代表,可以明显看到一个趋势:企业级 Agent 框架的卖点,已经从“快速做 Demo”转向“纳入生产治理体系”。
一个 Demo 能跑起来,解决的是“能不能演示”;而一个生产系统能跑下去,解决的是另一组完全不同的问题:
这些问题很少出现在社交媒体上的 Agent 演示视频里,但它们决定了系统是否能进入真实业务。
这也是为什么 Java 框架在企业 Agent 讨论里开始重新获得存在感。不是因为 Java 在模型创新上领先,而是因为大量企业核心系统、权限体系、服务治理体系本来就在 Java 世界里。谁更容易接入这些系统,谁就更容易跨过“从试验到生产”的门槛。
从架构角度看,生产化框架至少意味着三件事。
它可能被启动、暂停、中断、恢复、观察、接管。这说明 Agent 已经不再是单纯的“函数调用”,而更接近“状态化任务单元”。
生产环境里,最终结果固然重要,但更重要的是:
没有过程可见性,就没有治理能力。
企业不会为了 Agent 重写整套权限和运维体系。真正可落地的框架,必须反过来适应既有系统,而不是要求企业围着 Agent 转。
因此,从这一步开始,Agent 就越来越像软件基础设施问题,而不是一个单独的 AI 功能问题。
过去一段时间,“多智能体”几乎成了 Agent 讨论里的政治正确。但真正有实践经验的团队,反而越来越强调另一条原则:Single Agent First。
这个原则看起来保守,其实非常工程化。原因很简单:多智能体架构虽然听起来强大,但它天然会引入新的系统成本:
如果业务复杂度还没高到需要这些机制,那么多智能体带来的收益,很可能不足以覆盖它引入的复杂度。
因此,更合理的路径不是“先上多智能体,再想办法降复杂度”,而是:
这个“阈值”通常出现在几类场景:
这意味着,多智能体的本质不是“更聪明”,而是更适合处理复杂系统中的职责拆分与流程编排问题。
从这一点看,多智能体更像微服务演进中的服务拆分:
当模型专用化、框架生产化、架构分层化之后,会自然冒出下一个问题:多个 Agent 之间如何协作?
如果没有标准协议,所谓“多智能体”很容易退化成一种脆弱的私有编排:
这也是 A2A 这类协议值得关注的原因。它的价值,不是又发明了一个新缩写,而是试图回答协作系统里最基础的几个问题:
这件事为什么重要?因为它标志着“上下文工程”的边界正在上移。
过去谈上下文工程,大家主要关注的是:
但在多 Agent 系统里,这些问题不再只发生在“人和模型之间”,还发生在“Agent 和 Agent 之间”。
于是新的工程问题出现了:
当这些问题成为主问题时,Agent 系统的本质就已经变了。它不再只是“一个大模型加若干外挂工具”,而是在向“分布式协作系统”靠近。
把前面四层连起来,可以看到一条非常清晰的演进链路:
这四者不是并列关系,而是递进关系。
因为一旦你开始使用专用模型,就会需要调度;一旦你进入调度,就会需要框架与治理;一旦任务复杂度提高,就会需要角色拆分;一旦角色拆分发生,就会需要标准化协作协议。
所以今天讨论 Agent,最容易犯的错误,就是仍然把它理解成一个单点能力增强工具。实际上,它正在逐步变成一套软件系统的基础设施层。
从这个意义上说,Agent 的下半场竞争,本质上是软件工程能力的竞争。
如果这个判断成立,那么技术团队下一步最值得做的,不是继续沉迷“模型榜单更新”,而是反过来重建自己的落地顺序:
不要先问“哪个模型最强”,要先问:
没有任务边界,讨论 Agent 架构几乎一定会失真。
先验证这几个东西:
很多“多智能体需求”,最后会发现其实是“单智能体上下文和工具设计没做好”。
包括:
这些能力越晚补,代价越大。因为它们通常不是外挂功能,而是会反向影响你的框架选择与系统边界。
如果只看单个新闻,最近这些变化看起来是分散的:一个代码模型升级了,一个 Java Agent 框架火了,一篇多智能体选型文章刷屏了,又出现了新的协作协议。
但把它们放在一起,就会看到更本质的趋势:AI Agent 正在从“可演示的智能能力”,演化成“可治理、可扩展、可协作的软件系统”。
这意味着接下来的竞争,不只是“谁更聪明”,而是:
对于真正做落地的人来说,这反而是个好消息。因为从这一刻开始,Agent 不再只是模型厂商的游戏,而重新变成了系统设计者、架构师和工程团队的主战场。
2026-03-24 16:36:02
很多团队在接 OpenClaw Gateway 时,第一反应是:到底该用哪个接口?
答案不是“哪个更新就用哪个”,而是看你的目标:是先把能力接入,还是把系统做成可控、可观测、可治理的平台。
如果你只记一条:Chat Completions 适合快接入,OpenResponses 适合复杂编排,Gateway WS 适合平台控制面。
本文按工程落地视角,把三种协议放到同一张决策图里讲清楚。
先明确一个问题:同一个 Gateway 为什么要提供三种接口?
这是“分层设计”而不是“重复造轮子”——兼容层负责接入效率,原生协议负责控制力与系统治理。
这是 OpenClaw 的原生控制面协议。客户端通过 WebSocket 握手(connect),声明 role/scopes/caps,然后以 req/res/event 方式通信。
它最适合做:
一句话:最完整,但接入门槛最高。
/v1/chat/completions)这是面向存量生态的兼容接口。你已有 OpenAI SDK 或上层框架时,几乎可以低改造迁移。
它最适合做:
一句话:上手最快,迁移成本最低。
/v1/responses)这是更现代的兼容接口,强调 item 化输入、工具回合、多模态输入(文件/图片)和更细颗粒度的流式事件。
它最适合做:
一句话:语义更完整,适合复杂场景。
选 Chat Completions。
原因:复用现有 SDK,改造最小,最快出结果。
选 OpenResponses。
原因:输入输出语义更现代,工具回合、多模态、事件流更顺手。
选 Gateway WS。
原因:只有原生协议能把角色、权限、节点能力、审批、配置纳入一套统一治理模型。
目标:验证价值,不纠结架构完美。
目标:提升工具编排能力和事件可观测性。
目标:统一权限、审批、配置与节点编排,做成平台而不是脚本集合。
OpenClaw Gateway 三种接口不是替代关系,而是分层协作关系。
对工程团队来说,真正重要的不是“选哪个最先进”,而是:
这才是协议选型的终局。
2026-03-18 21:00:00
最近一轮知识库信息放在一起看,结论很清楚: Agent 已经从“能不能做”进入“能不能稳定做、持续做、规模做”。
真正决定成败的,不是模型上限,而是工程治理下限。
很多团队现在都能把 Agent 跑起来:接 IM、调工具、跑自动化流程。 但一上真实业务就出问题:串会话、误操作、成本飙升、结果不可复盘。 这类问题本质上不是 Prompt 问题,而是系统边界没有建好。
第一步不是提并发,而是先把并发“关进笼子”:
如果这一层没做,业务一上量就会出现“同一用户前后文互相污染”,后面所有优化都白做。
Agent 接了终端、文件、外部 API 后,风险不再是“答错一句话”,而是“做错一件事”。
必须落地三件事:
没有这层,任何一次误调用都可能直接变生产事故。
生产环境里,失败不是例外,是常态。 要提前把“故障时怎么继续”设计好:
目标只有一个:在坏环境下还能跑,不把服务打穿。
纯技术落地如果不转成“可复用内容”,团队学习曲线会重复踩坑。
建议固定复盘模板:
技术治理 + 内容沉淀同时做,才能形成长期复利。
Agent 落地不是“再接一个模型”,而是“先建一套护栏”。 先把系统变成可控工程,再把效率放大。 这一步做对了,后面才是真正的规模化红利。
2026-03-12 01:50:00
很多团队把 Agent 做到第二阶段都会遇到同一个问题:
单个 Agent 已经不够用,要拆“角色分工”。
一台机器放不下所有任务,要跨多台主机部署。
代理之间需要通信协作,但又不能互相污染上下文。
这篇文章基于 OpenClaw 官方文档,系统讲清四件事:单机多 Agent 怎么搭、单主机多 OpenClaw 实例何时可用、多 OpenClaw 主机怎么协作、代理间如何通信才稳定可控。
在 OpenClaw 里,一个 agent 本质是一个“完整隔离单元”,它拥有自己的:
workspace(包括 AGENTS.md/SOUL.md/USER.md 与本地文件上下文)
agentDir(认证与 agent 级状态)
sessions(会话与路由状态)
所以“多 Agent”是工程级隔离,而不是同一上下文里改几段提示词。
先给结论:一个 Gateway + 多个 agent + 显式 bindings 路由 是官方推荐范式。
一台主机只跑一个 Gateway(官方架构约束)。
Gateway 持有所有渠道连接(Telegram/WhatsApp/Slack/…)。
通过 bindings 把不同 channel/account/peer 的入站消息,确定性路由到不同 agent。
每个 agent 使用独立 workspace 和 agentDir,避免认证与会话冲突。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 |
|
同一 Gateway 内,agent 间协作优先走 session 工具:
sessions_send:向另一个 session 发消息并等待结果(可超时控制)。
sessions_spawn:派生隔离子代理执行长任务,完成后回传摘要。
这两类通信在同一 Gateway 内是“内生通信”,上下文边界更清晰、可追踪性更好。
有些团队会在同一台机器上启动多个 OpenClaw 进程(而不是一个 Gateway 托管多个 agent)。这个方案不是主路径,但在“强隔离”诉求下可用。
适用场景:
你需要把不同业务线彻底隔离到不同进程生命周期。
你希望为不同实例配置不同端口、不同状态目录、不同系统服务策略。
必须满足的工程约束:
每个实例使用独立 OPENCLAW_STATE_DIR。
每个实例使用独立 Gateway 端口(避免 WS/HTTP 端口冲突)。
每个实例的 channel 账号登录状态独立管理,避免同账号并发占用。
每个实例独立 workspace/agentDir,避免会话与认证污染。
实践建议:如果目标只是“多人格/多角色协作”,优先选择单 Gateway + 多 agent + bindings。只有当你明确需要“进程级隔离”时,再采用单主机多实例。
这里最容易误解:OpenClaw 官方当前核心是“单 Gateway 控制面”。跨主机协作不是默认内建成“跨 Gateway 透明 RPC”。
所以工程上要用“桥接层”把多主机连起来。
Host-A 的 agent 通过消息渠道(如 Telegram Bot/群)发任务。
Host-B 作为另一个 OpenClaw 实例在同渠道接收并处理。
处理结果再通过渠道回发到 Host-A 或人工会话。
优点:部署快,稳定性高,几乎不用改 OpenClaw 内核。
Host-A 将任务打包成结构化事件(JSON)投递给 Host-B 的接收端。
Host-B 的 Hook/入口会话消费事件并触发 agent 执行。
回传可走 webhook 回调或消息渠道。
优点:便于与现有后端系统集成,适合平台化。
两台 OpenClaw 通过外部队列/任务系统(如 Redis Streams、Kafka、SQS)解耦。
OpenClaw 只做“智能执行器”,任务编排交给外部工作流层。
优点:吞吐与治理能力最好,但实施复杂度最高。
控制消息:任务编号、优先级、超时、重试策略。
业务消息:输入参数、上下文摘要、期望输出格式。
回执消息:状态(accepted/running/done/failed)、结果摘要、错误分类。
Orchestrator Agent:接任务、拆解、派发、汇总。
Worker Agent:按契约执行单一子任务。
Reviewer Agent:做一致性检查与质量门禁。
幂等键:每个任务都要有业务 id,重复投递可安全去重。
超时与降级:sessions_send/外部桥接必须有 timeout 与 fallback。
上下文最小化:跨代理只传“必要上下文 + 结构化结果”,不要整段历史硬转发。
在跨系统、跨组织的多代理协作里,可以把 OpenClaw 作为运行时,把 A2A/ANP 当作“外部互联协议层”。
A2A(Agent2Agent):Google 发起的开放互操作协议,强调任务生命周期、能力发现(Agent Card)、长任务状态同步,以及基于 HTTP / SSE / JSON-RPC 的标准化通信。
ANP(Agent Network Protocol):国内社区推动的开源协议,重点放在开放网络中的智能体身份与安全通信(例如 DID 身份、认证与加密通道)。
一个实用落地方式:
OpenClaw 内部(同 Gateway 或同实例)优先用 sessions_send / sessions_spawn。
OpenClaw 与外部 Agent 平台协作时,可通过桥接层接入 A2A。
在跨组织、需要身份自治与安全互信的场景,可评估引入 ANP 作为身份与通信补充层。
注意:协议选型要看你的治理边界——企业内统一平台优先 A2A 生态兼容,开放网络互联优先关注 ANP 的身份与安全模型成熟度。
把多个 agent 复用同一个 agentDir,导致认证/会话冲突。
bindings 规则不够具体,出现“路由命中漂移”。
把跨主机协作当成同机 sessions_send,结果通信链路设计不完整。
没有幂等,重试时重复执行副作用(重复发消息/重复写库)。
没有统一状态模型,排障时看不到“任务卡在哪一跳”。
第一步:先在单机把“多 Agent + bindings + sessions_spawn”跑顺。
第二步:引入一种跨主机桥接(先渠道桥接,再升级 webhook/队列)。
第三步:补齐治理(幂等、重试、审计、告警、权限边界)。
这样做的好处是:每一步都可验证,不会把复杂度一次性打满。
OpenClaw 的多 Agent 架构要点可以压缩成一句话:
同机协作用 Gateway 内生会话工具,跨机协作用外部桥接层;隔离、路由、幂等是稳定性的三根柱子。
如果你正在做多代理系统,不要先追求“最智能”,先把“能稳定协作”做出来。
OpenClaw 官方文档:Gateway Architecture
https://docs.openclaw.ai/concepts/architecture
OpenClaw 官方文档:Multi-Agent Routing
https://docs.openclaw.ai/concepts/multi-agent
OpenClaw 官方文档:Session Tools(sessions_send / sessions_spawn)
https://docs.openclaw.ai/concepts/session-tool
OpenClaw 官方文档:Sub-Agents
https://docs.openclaw.ai/tools/subagents
OpenClaw 官方文档:Configuration Reference
https://docs.openclaw.ai/gateway/configuration-reference
Google Developers Blog:Announcing the Agent2Agent Protocol (A2A)
https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/
A2A 协议官方文档(Linux Foundation 托管)
https://a2a-protocol.org/latest/
ANP 官方文档(中文)
https://www.agent-network-protocol.com/zh/guide/
ANP 身份与加密通信层
https://agentnetworkprotocol.com/docs/concepts/identity/