2025-04-26 12:17:55
AI 让我再次幻想 iPad 成为生产力工具。
AI makes me fantasize about iPad becoming a productivity tool again.
2025-04-25 17:39:54
We're seeing incredible benchmark results from models like o3, Claude 3.7, and Gemini 2.5 (AIME 2024: 96.7%, GPQA Diamond: 87.7%). Yet, deploying these often reveals struggles with practical tasks. Why? Our evaluation methods are lagging.
* Saturated Tests: Benchmarks aren't effectively differentiating the top models' real-world usefulness anymore.
* Contamination Concerns: High scores might reflect test familiarity, not genuine problem-solving ability.
* Wrong Focus: We're testing for complex math puzzles but maybe not for drafting a persuasive customer email – a far more common business need.
* Nuance Needed: Automated scoring can't capture the subtleties human evaluation can, especially for qualitative tasks.
Moving Forward: Relying solely on current benchmarks gives a distorted view. We urgently need evaluation frameworks, likely involving more human-in-the-loop testing, that measure the capabilities businesses and users actually need. The focus must shift from leaderboard rankings to tangible, real-world performance.
2025-04-25 09:42:24
关于 OpenAI 的下一步,一个越来越清晰的战略方向可能指向“社交”。纯粹的模型能力竞赛似乎正进入平缓期,领先者难以甩开追赶者。此时,真正的护城河在于应用层的用户黏性。ChatGPT 的 Memory 功能是提升个性化黏性的重要一步,但这仍是“单人游戏”。
真正的强黏性来自网络效应。设想:用 AI 生成的旅行计划,一键分享给家人朋友协作;创作出惊艳的漫画或音乐,发布在社区获得共鸣。这种基于 AI 内容创作 + 社交分享/协作的模式,一旦形成用户关系和内容沉淀,迁移成本极高,无论对手模型多强。
竞争:Google 在 AI 上虽强,但缺乏社交基因;Meta 坐拥全球最大社交网络,可在现有场景注入 AI,但其自研大模型能力(相对 OpenAI 顶尖模型)和 AI 原生应用探索或需加速;Grok + X 是一个变量,但受限于 X 的平台特性。这似乎给 OpenAI 留出了一个“AI 原生社交”的窗口期。
社交格局已定?但 TikTok 的崛起给我们重要启发:即使在 Meta 的绝对优势下,基于“短视频”新内容形态 + “算法推荐”新分发机制的组合,依然能颠覆市场。关键在于抓住技术变革带来的新范式。
那么 OpenAI 手中的“新范式”是什么?正是 AI 生成内容 (AIGC) 和 AI 辅助创作。用户不再只是记录和分享现实,而是能低门槛地“创造”:一句话生成吉卜力风格图片、用语音输入让 AI 润色成文章、快速生成代码或音乐片段… 这极大地拓展了内容边界和创作者基数。
战略上,OpenAI 可能会双轨并行:在 ChatGPT 中“内嵌”分享协作功能进行试水,同时探索独立的“AI 社交应用”,寻找那个独特的价值主张 (Value Proposition)。挑战巨大,如何设计出真正吸引人的、不同于现有平台的 AI 社交体验是核心。
当然,做社交挑战重重:社区运营、内容审核(尤其是 AIGC)、隐私安全、用户习惯迁移… 对 OpenAI 都是新课题。但这步棋若走成,将是其从技术领先走向生态垄断的关键一步,可能彻底重塑 AI 应用和社交媒体的未来。拭目以待。
2025-04-22 17:55:56
企业一旦进入攻守模式,就会更多的思考对手,而不是思考用户。
京东为什么要杀到外卖来,和美团为什么要做电商,在这个意义上,并不是一回事。
2025-04-19 13:59:10
实测:
在 Gemini 2.5 Pro、OpenAI o3 和 Claude 3.5/3.7 Sonnet 横向评测之后,发现 AI Coding 目前最大的瓶颈是:
我的颈椎。
2025-04-14 13:01:49
时间从不站在复杂系统这边。一个微小缺陷最终会在长链条中滋长成致命错误。业务没有"从头再来"的奢侈。用户需求不断涌入,增加功能容易,减少功能却会挨骂。系统只能持续熵增,混乱在表面下累积...
智能再强大,也无法改写历史,对抗时间流逝。
https://pt.plus/04-14-25-intelligence-cannot-rewrite-history/