2025-04-19 10:26:49
Gemini 2.0 Flash 成了行业最低幻觉率的大语言模型。
Google 的 Gemini 2.0 Flash-001 实现了突破,幻觉率仅为 0.7%,成为 2025 年官方认证的行业最低幻觉率大语言模型(LLM)。这相比于 2024 年 Gemini 1.5 Flash 的 3.4% 幻觉率,在短短六个月内将幻觉率降低了 2.7 个百分点。这一成就标志着历史性里程碑,因为 Google 和 OpenAI 的 AI 模型首次将幻觉率降至 1% 以下,OpenAI 的 o3 Mini High 模型紧随其后,幻觉率为 0.8%。
看起来我的 Gemini Advanced 还是值得的,夹带随便用 Google NotebookLM。
2025-04-18 09:05:26
Re 详细: https://note.mowen.cn/note/detail?noteUuid=krfmHf7j_Sd0-4zIQYZQk
2025-04-18 09:05:01
记录下:以下是一些在人工智能 (AI)、科技 (Technology) 和摄影 (Photography) 领域活跃且值得关注的 Twitter 用户,包括研究人员、行业专家、媒体和摄影师等。
2025-04-17 15:52:23
历史的痕迹,我离开锤科之后 HandShaker 就不再 Github上维护了。最初叫 SmartFinder,这名字还是我起的。HandShaker 是老罗起的。
2025-04-17 08:41:30
OpenAI 发布了 o3 和 o4-mini 两款全新模型
4 月 16 日,OpenAI 正式发布了 o3 和 o4-mini 两款全新模型
OpenAI 推出了更强大的推理模型,同时这事标志着 ChatGPT 正式迈入“智能体”时代。
这次更新,不是简单的“更聪明一点”,而是一次范式转移。o3 和 o4-mini 拥有完整工具调用能力,可以自主判断是否需要搜索、写代码、分析图片,甚至生成图像。它们不再是被动回答问题的聊天机器人,而是可以主动思考、执行任务的智能体。
早上爬起来翻了一下 OpenAI 的官网,我们可以这样理解:过去的 ChatGPT 更像是一个知识丰富的顾问,而现在的 o3,更像是一个能动手解决问题的超级助手。你只需提出目标,它就能自动拆解任务、调用工具、生成结果。
官网例子,你问:“预测今年夏天加州的用电趋势。”它会自己去查找公共数据、写 Python 代码建模、画出图表、给出解释——整个过程不到一分钟。
o3 是旗舰模型,推理能力强大,尤其擅长编程、数学、科学和图像分析。在多个学术评测中,它刷新了 SOTA,比如 Codeforces、SWE-bench 和 MMMU。相比 o1,o3 在复杂任务中重大错误减少了 20%,可以说是质的飞跃。
o4-mini 则是小而强的代表。它在成本和速度上更具优势,适合高频调用场景。在 AIME 数学竞赛中,它是表现最好的模型之一。虽然体积更小,但在数学、编程、图像任务中依然表现亮眼。
当然,o3 和 Claude3.7 谁更厉害,我没有定论。之前有观察者认为 OpenAI 忽视了大模型在 Coding 领域的强大潜力,被 Anthropic 甩在身后。现在看起来并没有。
这次更新的另一个亮点,是图像思维能力的全面开放。用户可以上传手绘草图、白板照片、甚至模糊截图,模型都能理解其含义,并将其纳入推理链条中。图像不再只是输入,成为思维的一部分。
更重要的是,o3 和 o4-mini 不只是能用工具,而是“知道什么时候该用工具”。它们通过强化学习学会了如何判断问题的复杂度,是否需要搜索、编程或图像处理,从而生成更有条理、更符合人类思维习惯的答案。
AI 的进展如同一场静悄悄的深刻革命。模型不再只是“回答者”,而是“执行者”。未来的 ChatGPT,将不仅仅是对话伙伴,而是可以真正完成任务的数字智能体。
在我看来,AGI 如何定义并不重要,人如何重新审视自身,如何与 AI 协作创造未来,也许是更宏大的研究课题。
目前,OpenAI 已经把这两款模型开放给所有 ChatGPT Plus、Pro 和 Team 用户,API 也同步上线。
免费用户也可以在“Think”模式中体验 o4-mini。
我们正站在一个新时代的门口——一个由智能体驱动、工具协作、自动完成任务的新时代。
————
喝☕️,热身运动,收拾走人,并不是太兴奋了,而是楼上装修吵死了 🤦♂️
今日领悟,退休必须得独栋房子,否则装修就能干掉你
2025年4月17日
2025-04-16 11:30:19
哈哈,是的。文章附这里:https://note.mowen.cn/note/detail?noteUuid=W6k3dZ4dkyyBRUmOCFd2I