2025-12-27 19:29:34
接近2025年底,概括总结了一下2025这一年的一些AI关键事件。
| 时间 | 事项 | 备注 |
|---|---|---|
| 2025.12.16 | OpenAI GPT-Image-1.5 | 不管是从零生成,还是对图片进行局部编辑,更接近你脑子里想的那个结果;并且生成速度最高可达 4 倍提升。实测:比配套Nano Banana Pro强。 |
| 2025.12.11 | OpenAI GPT 5.2 | GPT-5.2 能够在真实复杂工作流程中高效协作,从代码分析、财务建模、工程设计,到研究论文分析、实验结果推理,都能提供高质量辅助。 |
| 2025.11.21 | Google Nano Banana Pro (aka Gemini 3.0 Pro Image) |
全球首个“推理至像引擎”,不仅是绘画,更是理解物理规律与空间逻辑。作为 Nano Banana 的旗舰升级版,它像人类一样“思考”和“规划”场景,生成前所未有的逻辑一致性,完美文本和高分辨率的视觉作品。 |
| 2025.11.16 | Google Gemini 3.0 pro | 全面高刷。同时发布Antigravity 编程IDE,生成式前端UI能力遥遥领先,可以快速实现各种交互式H5应用。 |
| 2025.11.12 | OpenAI GPT 5.1 | 将GPT-5 和 GPT-5 Mini 合并为一个能适应问题难度的自适应调整思考用量的模型。相比GPT5,语气更亲切、更幽默,更善于遵循指令。整体性能介于GPT-5 和 GPT-5 Mini 之间。 |
| 2025.10.16 | Google Veo 3.1 | 主打更强叙事与音频控制、音乐韵律与多参考图拼接,接入 Gemini API与Vertex AI。Flow与Gemini可用。可合成多人物场景、语音同步,片段最长约146秒;规格至1080p/24fps。 |
| 2025.10.01 | OpenAI Sora2 | 非常好的物理世界理解能力,同时推出了Sora APP,定位AI短影音。号称视频领域的GPT-3.5时刻。 |
| 2025.09.09 | 字节发布 Seedream 4.0 | 定位“生成与编辑一体化”专业工具。编辑能力强甚至部分超过nano banana。 |
| 2025.08.27 | Google Nano Banana (aka Gemini 2.5 Flash Image) |
具有极好的编辑能力,能够多图融合、强一致性,替代GPT4o成为图片编辑的王者。SOTA of 图像模型。 |
| 2025.08.26 | 通义万相 Wan2.2-S2V-14B | 一个可以跑动的14B视频模型,仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级叙事/人视频。 |
| 2025.08.26 | 即梦AI智能多模 | 传统的拼接是两个团队,各干各的,最后硬拼在一起。而堆叠多帧是一个全真全参数带上下文的团队,大家各让一步处理,因此能做到四宽的一致性。堆叠多帧背后的底层逻辑:即一体的全局考虑。 |
| 2025.08.21 | GenSpark AI Designer | 一款革命性的AI设计工具,能够一键生成完整的多屏设计方案,涵盖Logo、包装、网站设计等多个领域,极大地降低了设计门槛。 |
| 2025.08.20 | DeepSeek V3.1 | 代码能力极高,但文本能力并未提高,甚至有某些下降。 |
| 2025.08.19 | Qwen-Image-Edit | 全能图像编辑。 |
| 2025.08.08 | OpenAI GPT5 | 一个统一的系统,包含一个能够解决大多数问题的智能快速模型、一个能够解决复杂长问题的深度推理模型,以及一个实时语音器。可以根据对话类型、复杂性、工具需求判断意图并快速决定使用哪个模型。 |
| 2025.08.06 | OpenAI 开源模型 GPT-oss-120b和GPT-oss-20b |
性能与兼容性兼具,非英文表现不好。 |
| 2025.08.05 | Google Genie3 | 新一代生成式世界模型——Genie3。根据文本创造一个可以实时交互的世界。 |
| 2025.08.04 | Qwen-image | 通义千问团队开源的首个图像生成基础模型,在解决传统文生图模型文字渲染难题上实现了突破性进展,尤其在中文场景下表现突出。 |
| 2025.07.23 | Qwen3-coder | 拥有卓越的代码Agent能力,在Agentic Coding、Agentic Browser-Use 和 Foundational Coding Tasks 上均取得了开源模型的 SOTA 效果。 |
| 2025.07.12 | Kimi K2 | 将模型权重代码全量开源。大模型竞技场LMArena排行榜中,Kimi K2综合排名斩获全球第五,在开源大模型中位居全球第一。 |
| 2025.07.09 | xAI Grok 4 | 极其激进的快速迭代。推出 Grok 4 Heavy,引入多智能体架构,针对复杂科研任务优化,算力规模再创新高。 |
| 2025.07.05 | Gemini CLI | 开源命令行界面工具,它将谷歌强大的 Gemini AI 模型直接集成到开发者常用的终端环境中,更擅长服务于编程。 |
| 2025.07.02 | Flux图像模型 Kontext Dev模型正式开始 |
强一致性、强理解力。 |
| 2025.06.24 | Imagen4 | 显著改善文本渲染效果,进一步提升了文本转图像的生成质量。 |
| 2025.06.22 | Gemini 2.5 Flash/Pro | |
| 2025.06.11 | Seedance1.0 | 字节跳动推出的一款高性能和推理极致的视频语言生成模型。 |
| 2025.05.23 | Claude code | 智能化辅助写代码工具,旨在帮助开发者通过自然语言命令理解、浏览和修改整个代码库,前端编程领域无人能敌。 |
| 2025.05.21 | Veo3 | 首个可生成视频背景音效模型,体会画面感、配合感、生成人物对话,物理模拟与口型同步表现优异。 |
| 2025.04.29 | Qwen3 | 国产最强开源模型。 |
| 2025年5月 | Loverr设计Agent | 2025年7月28日正式上线。 |
| 2025.04.05 | Meta Llama 4 | Meta发布开源模型 Llama 4(包含Scout和Maverick版本)。 |
| 2025.03.26 | GPT4o改图能力 | 一致性能力好,响应慢。 |
| 2025.03.06 | 通用Agent Manus, GenSpark, Flowith |
|
| 2025.02.17 | xAI Grok 3 | Elon Musk 发布 Grok 3,宣称其为“地球上最聪明的AI”。 |
| 2025.01.20 | DeepSeek R1 | 国产开源推理模型,媲美OpenAI o1。 |
2025-08-25 19:29:34
最近利用出差在高铁和飞机上的时间,读完了《太白金星有点烦》这本书。总体感觉挺有意思的,作者用诙谐的笔法把现代职场政治、官僚主义与古典神话《西游记》完美融合,让人真觉得西游记是不是就是这么回事。当然,这些感觉之余也在时刻对照目前公司中是否有这些问题,所幸民营企业也不敢这么搞,万幸万幸。
故事从太白金星(李长庚)的视角展开。在书中,原本宏大的“西天取经”不再是一场纯粹的弘扬佛法之旅,而是一项由天庭和西天联合开发、层层外包的“重点项目”。
马伯庸最天才的地方在于他把“仙界”写成了“职场”。 * 层级森严: 佛祖和玉帝是大BOSS,菩萨和星君是中层领导,李长庚是资深项目经理。 * 潜规则: 没背景的妖怪一棒打死,有背景的妖怪被主人接走。书中将这种《西游记》原本的讽刺进一步具体化为:如何写汇报材料才能既掩盖错误又突出业绩。 * 读者的共鸣: 每一个打工人都能在李长庚身上看到自己——为了KPI奔波,在领导的暗示中揣摩意图,在繁琐的流程中消耗生命。
这本书不仅仅是恶搞,它对原著细节的挖掘极其深厚。 * 它解释了为什么有的关卡漏洞百出,为什么神仙的坐骑总是“不小心”走失。 * 通过李长庚的视角,作者重新审视了孙悟空、猪八戒等人的形象。孙悟空不再只是单纯的叛逆者,而是被纳入体制内、必须学会配合演出的“高级顾问”。
虽然表面上充满了幽默和讽刺,但书的内核是有些致郁且深刻的。 * 李长庚在算计了一辈子后,感到了一种深深的疲惫和荒诞感。 * “超脱”: 最终李长庚的悟道,不是因为累积了多少功德,而是他看穿了这套体制的虚伪,选择回归自我的本真。这种从“入世”到“出世”的转变,给现代职场人提供了一种心理上的抚慰。
马伯庸的文字极其流畅,充满了“马式冷幽默”。他擅长用现代公文词汇去描述神仙对话,产生了一种强烈的反差萌。例如,把因果报应说成“利益分配”,把降妖伏魔说成“外勤任务”。
一句话简评: 这是一部披着神话外衣的职场生存指南,也是一首写给所有疲惫灵魂的解脱之诗。它告诉我们:“成仙”不在于位次的高低,而在于能否在满地鸡毛的生活中,找回那个清醒的自己。
2025-02-23 19:29:34
本文内容来自一次内部分享。主要是对目前非常火的DeepSeek的一些自己的认知和理解。
DeepSeek是一个由中国公司推出的媲美ChatGPT o1能力的开源推理大模型,其中文能力更强,而且由于背后公司数据的特点,在金融方面具有优势。
这里所说的推理大模型是相对于之前的非推理模型,更加强化了推理、逻辑分析和决策能力,可以看做是把之前的CoT能力直接做到了模型里。
DeepSeek本身是包括V3和R1两个模型,参数都达到6000亿,也就是现在市面上很多人说的满血版。而DeepSeek开源的几个蒸馏版本的模型其实本质还是qwen和llama,只是用了R1的推理数据做了微调。
综合了各种榜单和一些评测,并基于公司实际使用的经验,对现在主流的大模型做了如下梯队排名:

在选择模型时需要注意:
通过这个梯度,也可以看到DeepSeek并不是能力最强的,但R1确实是国内最好的推理模型。而非推理模型国内的通义千问是能力最强的。这里需要提到的一点就是Kimi其实也和DeepSeek差不多同一时间推出了推理模型的,能力也没有差太多,但由于不是完全开源的,所以被DeepSeek给完全盖住了。
如第一部分所说,本质上DeepSeek是一个中国公司做到了O1水平并且开源了的推理大模型。具体来说,之所以它这么火有以下几点:
国内外很多大模型厂商,为什么是DeepSeek做出来了呢?
这里还想提的是,春节期间所谓的国运一说,我觉得如果DeepSeek在不长的时间能追上甚至超过o3,那真的可以说国运了。
DeepSeek由于受限于显卡的性能(H800),通过工程优化上的创新提升了算法效率,从而也大大降低了成本。
推理模型是有使用场景的,适合需要深度思考的场景,如设计、审查、推理、复杂计算等。如果让其做一些简单的任务,如实现代码,可能会思考来思考去,反而降低效率。结合推理模型+非推理模型是现在一种常用的方式,如DeepSeek R1 + Claude 3.5 sonnet就是使用R1来做方案设计,使用Claude来写代码。
不同于之前的非推理模型,推理模型的提示词跟侧重于描述清楚任务目标,过多的引导反而是干扰。
此外,通过DeepSeek对蒸馏模型的证明,一些行业模型也可以通过DeekSeek R1的推理数据来微调,实现蒸馏的效果。
2024-06-05 19:29:34
5月底去了一趟旧金山,和一些华人AI科学家进行了交流,也参加了旧金山由GPTDao和微软联合举办的GenAI大会。这里输出一些收获。
2024-04-08 19:29:34
这是来自Quora上的一个问题:Is it required to be a developer/coder to become a CTO? Why can’t an architect become a CTO. 下面是里面的最佳答案。自己比较认同其中的观点,CTO确实是需要有编程背景的,而真正意义上的软件架构师也是具有编程背景的,所以也是可以成为CTO的。
作为一家创业公司的CTO,你需要了解以下几点:
(1)从上到下对整个技术栈有一个全面的了解,包括每一层的替代方案和取舍权衡。
(2)如何以一种能够给你想要招聘的工程师留下深刻印象的方式进行严肃编程。
(3)如何自我学习你需要了解的技术知识,以及如何在至少100码外就能嗅出技术上的废话。
(4)如何领导工程团队,如何管理工程团队(以及两者之间的区别是什么,因为它们非常不同)。
(5)如何可靠地估计实现其他C级领导愿景所需的工作量。如何向他们沟通可能的权衡,并如何经常从一个过于模糊或过于具体的起点找到真正的需求。
(6)如何向从资深的高级工程师到极其愚蠢的媒体等各方面代表公司的技术愿景。
(7)如何保护你的团队免受不必要的变化,并如何带领他们以及公司其他部分经历必要的变革。
(8)如何指导工程师关于他们的成长和职业目标,无论是作为个体还是团队成员。
(9)如何发现可能的技术和公司问题,并在它们影响工程团队的动力之前清除它们。
(10)如何保持工程团队的持续发展,这可能意味着扮演IT角色,充当工程师,或周末架子搭建者(原文是weekend shelf-builder,不太理解,可能指的是自我驱动去做一些事情的意思)。
你如何达到这个目标?需要你通过在创业公司的工程团队持续工作并向各种听众做技术演讲。从我看着当初我的CTO说“我希望有一天能做到这个位置”,到我准备好自己做这件事,我花了10年的时间。
编辑:既然这个问题有所融合且稍微有所变化,我想直接回应它。
CTO确实可以是一名架构师,但软件架构师是一名开发者。
有些公司有他们称之为“架构师”的人,但他们实际上从未真正建立过系统。他们在销售会议中在白板上画大框和线条,然后就走开了。
我们在Sun公司有一个词来称呼这些人,我们称他们为“市场技术人员(Marketechts)”。并且,一个市场技术人员会成为一个糟糕的CTO,因为他们谈论和思考的是广泛的概括,而不是完成工作的真正细节。
2024-04-07 19:29:34
这是来自开源项目awesome-cto的一篇文章,也是自己曾有过的疑问。自己目前担任CTO这个岗位已经6年多了,现在对这个问题的认知:其实CTO这个角色的职责还是要根据CEO的期望来定。初创团队CTO一般就是一个高级开发工程师,随着团队规模增大,会逐渐转换为架构师、技术经理,最后有些CTO会去负责基础技术研究,有些CTO则统管整个研发团队,还有一些则会去管理部分业务。不管如何,这个职责还是要看CEO心里的期望是什么。
我曾经为一个关于企业创新中首席技术官角色的小型讨论会准备演讲稿,我再次意识到围绕CTO角色存在相当多的混淆。讨论CTO角色时总是首先遇到的问题是,没有一个公认的定义来说明CTO的实际工作内容。这个角色根据公司的类型以及技术在公司中的角色非常不同。
一段时间以前,我做了一些挖掘,研究CTO角色的历史以及如何最好地分类它们。我在这里发布,因为它可能具有普遍的兴趣。一些我使用的来源在这个笔记的末尾。
当Edge的创始人约翰·布罗克曼采访内森·默夫沃德时,他的第一个问题是“什么是CTO”,对此内森回答说:
“我哪知道。你知道的,当比尔和我讨论我接受这份工作时,有一刻他说,好的,那些成功的CTO的杰出例子是什么。大约五分钟后我们决定,好吧,肯定有一些,但我们并没有准确知道谁是伟大的CTO,因为许多实际上是伟大的CTO们并没有那个头衔,至少一些有那个头衔的人可以说并不擅长它。
我的工作是在微软思考未来的技术。如果你想拥有一个伟大的未来,你必须开始在现在思考它,因为当未来到来时,你将没有时间。”
第一个CTO在八十年代末出现。许多公司开始利用其研发实验室交付的结果,这些实验室的主管被提升到可以使用技术为公司提供战略优势的位置。这个角色发展成了非常不同的职位,有几种方式可以对它们进行分类。有充分的理由遵循任何一个分类模型,但我相信汤姆·贝瑞的四象限提供了关于什么使CTO成功的最佳框架:
在前两个模型中,CTO直接管理一个工程部门,他/她在组织中的影响力主要通过他们自己组织中的技术开发来施加。我遇到过管理拥有500 - 1000名工程师或更多的部门的CTO。
在最后两个模型中,CTO扮演的角色需要他/她影响其他部门执行新的方向。为了保证这种影响力水平,CTO通常是执行团队的一部分或接近执行团队,通常向CEO汇报。CTO确实监督一个小团队(通常根据公司的大小为10-50名工程师),该团队充当高风险技术方向的孵化器。
以下是一些参考链接。
原文链接:https://www.allthingsdistributed.com/2007/07/the_different_cto_roles.html