2026-06-15 16:24:46
前段时间,我的 GPT 账户意外被封,被迫开始全面试用国产模型
过去两周,我深度使用了 DeepSeek v4 Pro、Xiaomi Mimo 2.5 Pro、Minimax M3 和 Kimi 2.7,覆盖编码、文字创作和 Hermes Agent 自动化三大场景
以下是真实使用体验
DeepSeek v4 Pro:资深老编辑
文字能力确实顶尖,总结、翻译、摘要、润色都让我非常满意。但代码生成、长时任务和 Agent 工具调用只能算差强人意。它更像一位经验丰富的老编辑——文笔一流,但让他写代码或处理复杂流程,就有点力不从心
Xiaomi Mimo 2.5 Pro:六边形战士
综合能力最均衡,没有明显短板。文字、代码、逻辑都在线,像一个公司里随时能顶上的得力助手,交给他的任务基本都能稳妥完成。
Minimax M3:名校实习生
文字功底不如 DeepSeek,但在长时任务和 Agent 工具调用上表现很稳定。缺点是"智商"偶尔着急,复杂推理会卡壳。像一个名校毕业的实习生——执行力不错,但遇到需要深度思考的问题还得再带一带
Kimi 2.7:准旗舰水准
这是四款中表现最好的,整体能力接近 GPT 5.5 的水准。除了发布第一天有些不稳定,后续更新后体验大幅提升,目前是我最常用的国产模型
国产模型的共同痛点:稳定性
然而,这些模型都有一个通病——输出稳定性不足
以我的 Hermes Agent 为例:我有十几个定时自动化任务,在 GPT 5.5 下可以数月稳定运行
但同样的 Prompt 和任务流交给上述国产模型,几乎每天都会有一两个任务莫名其妙报错
诡异的是,这些报错任务单独手动执行时,又能顺利通过
这种"薛定谔的报错"让我很难完全信任它们处理无人值守的长时任务
我的当前工作流
因此,我对国产模型和 GPT 5.5 采取了不同的信任策略:
一次性、短时任务 → 首选 Kimi 2.7,效率和质量都足够
代码开发、复杂项目、长时自动化任务 → 仍回退到 GPT 5.5,稳定性是底线
简单来说:国产模型我已经敢用,但还不敢完全放手,关键任务仍需人工审查代码和结果,充当最后一道防线。
PS:至于GLM 5.2,我对智普伤透心了,没有好感,故略过
2026-06-11 21:04:48
今天我在推上发现一个新的 AI Agent 软件:Osaurus
一打开官网,就能看到几只可爱的小恐龙蹦蹦跳跳,哈哈😆
下载体验了下,onboarding 做的很不错,满满的可爱风,小白上手也很简单
本以为只是徒有其表,想不到功能很全,不仅有记忆功能,还支持多智能体,每个智能体都有独立的记忆和数据,还有沙盒、技能、工具、计划任务等等一堆功能
其中有4个功能特色让我很惊喜:
1. 文件夹监听器:它可以监视某个文件夹的更改,然后自动触发工作任务!
2. 本地隐私脱敏:它会安装一个本地模型,在数据流出到模型厂商时,自动检测内容并脱敏!
3. 支持本地部署模型
4. 所有数据本地加密存储
更重要的是,上手零门槛
不需要搞复杂的配置,不需要运行一堆命令,装好就能用。
打开对话框,跟它说话就好啦~对新手超级友好
对于老手,想要进阶,则可以去设置里进行自定义
不过目前仅支持 Mac
可爱是真的可爱,好用是真的好用,安全是真的安全,强烈推荐下载玩一玩哈!
2026-06-05 09:48:49
先说说我的配置:
Mac mini M4 Pro,64G内存,1T SSD,Sequoia 15.7.7
LM Studio 0.4.16
模型:gemma-4-12B、gemma-4-12B-it-q8、qwen3.6-27b-q8
昨天 Gemma 4 12B 原生多模态发布,我在 LM Studio 上试了下,体验很一般,原生和量化的模型速度都很慢,最快只有 20 token/s
mp3音频还无法识别,估计应该是 LM Studio 还没适配
整体体验下来,编程和文学方面,Qwen 3.6 27B 吊打 Gemma 4
所以,如果你的显存 < 32G, 那么可以用 Gemma 4,如果 > 32G,Qwen 3.6是更好的选择
2026-06-02 14:21:22
我做为一个程序员,从最开始的小龙虾,一直折腾到 Hermes 河马,中间见过太多小白踩坑,
特别是小龙虾,从入门到放弃😆,每天都在修它,而不是再用它
以及 Hermes,虽然相比小龙虾稳定多了,但对非技术的人来说,从零搭一套能稳定跑的 AI 助理,还是挺难的。
所以我把自己踩过的坑、群友问过最多的问题,整理了一份教程
希望能帮到想入门 Hermes 和 AI 助理,但不知道从哪下手的你
不需要你会写代码,从 0 搭出一个AI 个人助理 🤖
加油!!
2026-05-01 17:24:00
多 Agent 协作,是当下最热门的表演项目。
一张架构图里塞十几个 Agent:研究、写作、代码、审查、规划、执行……看起来很热闹,很“先进”。
但我越来越觉得,这个方向容易走偏。
一个人不该直接管一堆 Agent。精力有限,不可能每种任务都手动挑一个专门的 Agent,再去判断谁先做、谁后做、谁来检查谁。
老板也不会直接管所有员工,可行的组织方式,一定是分层的。
有人定方向,有人负责拆分,有人执行,有人检查结果。
Agent 系统也该这样。
用户只需要面对一个主 Agent,主 Agent 理解目标后,再自己判断:
- 任务要不要拆分?
- 要不要创建子 Agent?
- 哪些可以并行?
- 哪些结果需要验证?
- 什么时候继续?
- 什么时候停止?
这才是合理的系统边界。
Hermes 新添加的 `/goal` 命令有意思的地方就在这里。
它没有堆“监督 Agent + 执行 Agent”的热闹架构,它选了一条更克制的路:
主 Agent 执行一轮,每轮结束后,`goal_judge` 判断目标是否完成,没完成,就生成 continuation prompt,继续下一轮。
这个循环不是无限跑,Hermes 默认给 `/goal` 设置了 20 轮,目标达成、用户暂停、预算耗尽,或者被用户打断,循环都会停下来。
Agent 系统的价值,不在 Agent 数量。
数量多,只会让架构图更好看。
真正难的是闭环:目标怎么进入系统,过程怎么被反馈校正,结果怎么被验证,什么时候继续,什么时候停。
Hermes `/goal` 的价值就在这里。
它把 Agent 从“聊完一轮就结束”,推进到“围绕目标持续收敛”。
这才是系统