MoreRSS

site iconYutao Zhou | 失眠海峡修改

我主要专注于常见的计算机视觉主题,包括对象检测和图像分割等。目前我正在研究自动驾驶技术,包括感知,高清地图等。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Yutao Zhou | 失眠海峡的 RSS 预览

AI 博客问题挑战

2026-06-14 22:20:37

kaix.in 这里看到了这个问卷,最初应该来自这里,感觉还挺有的说的,所以来填一下~


1. How was your first experience with AI models?

虽然现在说到 AI,默认指的是 LLM 或 VLM,但当年玩 VGG 和 ResNet 的我也曾自认为是在玩 AI。所以我先说这些早期的深度学习模型,再说 LLM/VLM。

实际上,在玩 VGG 和 ResNet 这些深度学习模型之前,咱是玩 Sobel 算子、HOG 算子之类的,所以第一印象实际上来自这些传统方法与深度学习方法之间的巨大效果差异。那也是我第一次领略到从「人类把自己的知识和经验总结成固定规律,用于新场景」到「把数据准备好、任务定义好、设计一个模型,而规律的总结交给损失函数与优化器」这种范式转变的震撼。图像分类、语义分割、目标检测、实例分割这些问题一个个被 DL 范式解决,我觉得深度学习真的厉害。但模型是不是真的有智能?我不敢确定,因为那时候模型还在工具的范畴。

老实说,之前我对自然语言相关的研究了解极少。当 2023 年 ChatGPT 展现出爆炸性效果时,我意识到这是下一个范式:AI 的能力可能是从语言这种形式中涌现,而不是从视觉形式中涌现。最大的震撼来自于:1)用语言作为介质的巧妙构思和极高的上限;2)它真能 work!

如果不是做过相关的算法研究,可能无法深刻地 get 到用语言作为介质这个思路的创新性和高上限。以目标检测为例,从当初的 R-CNN 这类目标检测器,到后来的 YOLO 这类检测器,最大的创新都在「任务定义」这个点上,一个更好的任务定义基本上就可以开创一个方向、引领一个时代。而用语言描述万物这个任务定义极其通用,比如目标检测可以通过文本输出框坐标来做;结构化输出可以通过输出 JSON 来做;写代码本身就是文本输出。文本灵活且能包含巨量信息,人类文明很大一部分就沉淀在语言中(剩下的在图像和 DNA 中)。

第二个震撼来自于:这样的 AI 模型真能 work,并且是来自「建模下一个 token」这样大道至简的方案。通过建模下一个 token,模型有了上下文理解的能力,有了看起来像是「说话」的能力。这时候不管它真的有没有智能,它看起来已经有智能了。

所以说,对于 LLM 的第一印象,主要还是出于算法工程师的本能,对这种「用语言建模一切」的思路拍大腿叫好。然后才是在 ChatGPT 里面问东问西,并且不断被「这也能答对」的瞬间惊艳。

2. Do you use AI, or are you completely opposed to using it?

我当然用 AI,并且我也推荐使用它,但我还是在几个问题上对它抱有疑虑,并且我觉得人类真的应该先想想这些问题。这一题的回答覆盖了第六题,到时候不再重复叙述。

第一是 AI 与人类福祉之间的关系。AI 能够提升人类的生产力,没问题,我们喜欢更高的生产力,但是「更高的生产力」和「更高的人类福祉」两者之间,真的能够画上等号吗?我们到底应该追求前者还是追求后者?老有所依,幼有所养,衣食住行无忧,这是我们尚在为之奋斗、暂未达成的目标。在此基础上,人还有更多需求,社交、娱乐、创作、实现自己的人生抱负,等等。那么现在要回答的是:AI 的发展,1)能不能解决这些问题;2)是否应该由人人享受;3)是否人人都能享受。作为技术人员我会认为,AI 终究能够解决这些问题;但是后两点,我没想清楚,留给哲学家、统治者、大公司来想想吧。

第二是 AI 对于文明是贡献和推动更多,还是会拖拽着文明,使之再也不得进步。我们已经知道,AI 基本上已经吃光人类累积的文本;我们还知道,Stack Overflow 这种过去大量累积知识和见解的网站,如今基本没什么新问题、新回答了。AI 能否持续创造新颖和有意义的内容,能否持续回答人类对这个世界源源不断产生的疑问,甚至在人类已经高度依赖 AI 之后,还能不能源源不断地提出好问题?现在 AI 强大的信息检索和整合输出能力会给人一个错觉,仿佛它是全知全能的,但这只是一个错觉。我们仍然需要保留好奇、质疑、逻辑推理这些通向新知的能力,并尽可能不要把它们全部交给 AI。

3. Do you have any preference among different models, for example Claude vs. ChatGPT? If so, how do you choose?

我属于那种愿意逮着一个觉得还算好用的模型就一直用的类型。最先接触的是 ChatGPT,所以 chatbot 这类产品就基本上没换过;最先接触的 coding agent 是 OpenCode,所以也就一直在用了;最先接触的用于 vibe coding 的模型是 Claude Opus,所以……诶,这个不是我不想用,只是 Copilot 的订阅现在变得太贵了,我只好退回了 GPT-5.3 Codex。

我特别不想换来换去,我甚至连 thinking effort 都不想调,我觉得现在还让我调 medium、high、xhigh,只说明模型提供商还是没把产品做好。给我一个就好了。同样,我懒得在模型之间比来比去,我只在我的财力范围内找一个用就完事了。

4. What aspects of AI models do you like, and what do you not like?

我喜欢的方面其实第一题已经答过了,就是它用一种简单的建模实现了广阔的可能性。我不好大放厥词,但我确实不是很喜欢它仍然是概率模型这一点。

当前这个问题还没有定论:人的大脑是不是概率模型呢?这个问题我胡思乱想过很多很多次。比如我开车停在路口等红灯,到底是什么约束我不踩油门撞死行人?是我作为一个普通人「此刻踩下油门的概率远远低于保持刹车」,还是我的脑中有某种机制,从根本上让我不可能去踩油门,除非出现了其他的原因,比如我就是想杀人。

据物理学家说,也许这个世界的本质就是依概率运行的,所以也许人脑也不例外,只是一个参数量很大、功耗很低、收敛极好的概率模型。如果真是这样,我还是会觉得有点不安,因为我仍然希望我绝对不会突然抽风,没事在红灯前踩下油门,我希望我的脑子是有保险装置的。

5. How do you feel about AI-generated images? Does it annoy you if someone uses them in a blog post?

现在 AI 生成图像和视频越来越好了,我总体上不是持有「AI 创作不属于原创」这类观点的人。在 AI 生图的过程中,模型作为生产工具,token 作为介质,创作者仍然需要具备想象力和描述自己创作理念的能力,所以我认为这仍然属于创作,自然也不太反感它被用在博客创作中。但是!还是希望用到的 AI 图更有创造性,也更有信息量一些。

6. The internet is flooded with AI slop now, full of generated text, images, audio, and video. How do you filter it from authentic human creation? Do you have a strategy?

对于某些 AI 内容,我已经不太能分辨了。我觉得在不远的未来,我可能完全无法分辨,我想不到什么能够长期有效的方法。

关于人类内容耗尽的思考,见上面第 2 题。

7. Are you hopeful for a better future with AI, or a dystopian one?

虽然第 2 题中的疑虑仍然悬在我的头顶,但对于 AI 技术,我还是很兴奋。AI 的应用空间巨大,AI 自身也还有很多问题等待人类去解决。我们正在见证历史,这种大规模的技术革命可不是每代人都能看到、都能参与的。

也许咱们正在刻意地回避这些隐患,只顾投身 AI 的远大前程。希望有一天,当隐患真的成为问题时,咱们能想出解决方案吧。

东京游记 Vol. 2 - 街头逛逛

2026-06-07 12:55:38

上一篇东京游记 Vol. 1已经是快两年前写的了,实在是有点惭愧😂。实际上当时旅行的一些细节也有点忘了,但我记得在晴空塔上俯瞰东京,写字楼、商场楼、居民小楼鳞次栉比延伸至天际线,实在是震撼于这座城市的规模之大、建筑之密。后来我在广州的广州塔上俯瞰广州,本来以为这种大规模城市都这样;但是并不是如此,东京的规模是独一档的。

有了这样的整体视角,自然地就想知道这样的水泥钢铁森林细看如何,又是什么人、怎样地生活在里面?

在不同的街区,东京街面风貌也很不同。比如池袋附近灯红酒绿,但是走不了多远就是静谧的居民区。实际上除了某些繁华的商圈闹市,东京给我的感觉还是安静干净的社区居多。受到经常看的一些旅行博主的影响,我觉得除了景点之外,当地人的生活状态也是很值得看的。不过毕竟不见得有机会深入了解,在街巷、商超、菜市场走走看个大概吧。

位于池袋西口附近,早有耳闻

我感觉蔬菜水果的价格并不离谱,但为什么传说日本水果很贵,而且确实在日本吃饭也感觉蔬菜偏少呢?

前两天雨水比较多,街上人少一点,我自己的鞋子也全湿透了。吸取一个教训:外出旅行不仅要穿舒服的鞋子,最好它还防水。

一个特别感到奇妙的点,是东京的乌鸦真的 超 级 多!原因主要是日本把乌鸦视为神鸟,并且客观上乌鸦能够获得足够的食物,又缺乏天敌。尤其是早晨,走在街上总能听到乌鸦叫声,也能看到乌鸦在前夜留下的垃圾堆附近翻找啄食。

涩谷十字路口也是我一直想去看看的地方,据说是世界上人流量最大的十字路口。我们在附近的楼上找到了一片落地窗刚好可以俯瞰。十字路口不远处,八公还在等待他的主人回来。

原宿竹下通也是必参观点,这里仍然给人很「亚」的感觉。说起来,上初中的时候我所理解的日系,其实就是原宿风。跟之后所理解的极简主义的日系风格不是一回事。

话说有人知道为什么日本人都撑一模一样的透明雨伞么???

关于东京的交通,有几方面的主要印象。首先是路面偏窄,但是维护很好,车道线什么的很规范清晰。然后是轨道交通的发达程度令我大开眼界,不仅是线路四通八达,更在于地铁站本身的规模之大、连通性之好,不禁有一个疑问:日本人是不是把东京地下彻底挖空了???

JR 山手线名不虚传,确实挤,也确实很多「人身事故」。不过我想在东京交通安全还是挺有保障的,至少我过街时所有的车都会礼让,这点让人觉得很文明。国内的话,目前只有上海也给我类似的感觉。

新宿的歌舞伎町其实没有想象中那么…怎么说?没那么乱?总体感觉就是一条酒吧街,年轻人聚会的地方。不过应该还有些要点门道才能体验到的东西。

媒体总说日本泡沫经济之后就陷入了凑活过的状态,其实我从街头的观感上并不觉得,商业仍然极其繁荣有序。如果只看涩谷、新宿、原宿、银座附近发达的商业,那只看到了东京的一半,另一半则是极其多彩的文化。关于这次去东京参观的文旅景点,留到下一篇日志吧~(不会是两年后,嗯嗯)

音浪太强不晃会被撞到地上

2026-05-31 12:20:48

最近一周广州的天气可以说热到了离谱的程度。30 多度的气温,高达 98% 的相对湿度,共同造就了 27 度的露点温度、40 多度的体感温度、7000 平方公里的露天桑拿房。迈出空调房一步,首先是眼镜立刻被水气覆盖,然后热浪从四面八方袭来。尝试把自己架成稻草人的样子,企图通过扩大的一点散热面积来降温,没用的,热浪极负责地保障身体的任何一个角落享受相同的炙烤。

心想着天气也未免太晴朗了,顶着这个炙烤走去吃麦当劳,刚坐下 5 分钟,雷声轰鸣,暴雨倾盆而下,掌管天气的神明情绪极不稳定,可能需要心理咨询。没办法,硬着头皮从雨中冲回去吧。这还只是五月啊!

这天气还给我带来个麻烦。开车过抬杆时老是识别不到我的车牌,我只好左右腾挪,后视镜也全糊看不清,结果不小心把别人的车给蹭了一下……不过不是很严重,对方说后面去店里看看再说。

我真的受够了,
受够了台北盆地,
天气不是太热,
就是他妈下大雨。


近期解锁了新的运动形式:拳击🥊。2024 年保持了比较好的运动频率,整年运动能力和身体状况都比较好,然而 2025 年急转直下,几乎就没怎么动。我复盘了一下,工作太忙固然是一个原因,可能还有一个原因是 2024 年在健身房花了大几万,有点透支了…… 到 2026 明显感觉运动能力退坡严重,看了看存款天晴了雨停了我又觉得我行了,于是去之前的健身房又买了几万的课。

我向来不爱练力量,因为我主要看中减重、体能、心肺、跑跳、运动能力、灵活性这些维度,练力量带来的体态提升之类的我不是很看重(科不科学另说),所以之前上的一直是功能性训练课。不过同样的课上久了也真的枯燥,今年想换换口味。

我一直非常羡慕轻量级拳击运动员的身体状态,精瘦,但是动若脱兔十分敏捷,这种基本上就是我的理想型。所以在功能性训练恢复体能的基础上,搭配了一些拳击课来入入门。到现在为止上了两节了,体感良好。知道拳击的消耗很大,没想到这么大。持续架手、移动、出拳、踢腿,暴打教练一小时真的酣畅淋漓。


最近一段时间真的 vibe coding 上头,昨天晚上又搞到凌晨三点,还是在装修博客🤦。最近一个月我花在写博客的时间是花在写博客时间的好几倍,这是错的!

自己为了兴趣是一回事,公司为了提高生产力要求员工用 AI、考核 AI 使用、甚至让员工自费又是另一回事了。昨天读到一篇博文:公司该为员工使用 AI 工具付费吗?,详细内容大家有兴趣自己去看,大体上博主还是觉得公司为了自己的利益有义务给员工提供足够的 token,但是作为员工自身来说,使用 AI 也是提高自己的竞争力,所以“公司不给 token 就绝不自费使用 AI”这种想法也是幼稚的。

如果一板一眼讲道理,我想不到什么员工要自费使用 AI 来让公司获益的动力。公司付钱,买断员工每天的 8~10 小时的知识积累、创造力、沟通力、工具运用能力。使用 AI,我觉得属于工具运用能力这个范畴。能力强的员工可以高效运用 AI,就跟古法时代能力强的员工能够熟练使用 Office 三件套一样。古法时代公司要为员工为了给公司创造价值而使用的 Office 套件付费,现在当然也要为 token 付费。AI 是生产工具,token 是生产资料,员工没义务自备。

但是要是说实际上……大家都明白,谁还没被裹挟着自费用 AI,还得是自费用最好的 AI 来辅助工作呢?不管公司提不提供,要是不用 AI 现在还能赶上趟吗?AI 浪潮下,咱不是去冲浪,就是被淹死在沙滩上。

飞到太空游泳,
绕着月亮潜入地球,
嗨到过头想保留永久,
脑袋一直找着出口,
水星里面泡个温泉,
意识飞的越来越远,
金星海滩冲个音浪,
自由穿梭在低音之上,
音浪太强不晃会被撞到地上,
音浪太强不晃会被撞到地上,
音浪太强不晃会被撞到地上,
音浪太强不晃会被撞到地上。

熊猫小A: 人生呐,就是关关难过关关过!

2026-05-27 23:56:06

还是想稍微记录一下,这篇日志里面提到的让人很没底的晋升通过啦~虽然算是低空飘过,过程煎熬,但是结果是好的。一方面那些夜都没白熬,另一方面一次冲上也是最好的事,不然后面的竞争本身也会更激烈。

人生呐,就是关关难过关关过!

总之!容我小小开心一下(先盘算下怎么用涨薪犒劳一下自己🤔)

金刚怒目,菩萨低眉,尼姑思凡

2026-05-24 13:47:41

大学期间有段时间我很迷自由主义,到处搜刮相关的书、电影、音乐来听,但是现在大多数已经忘光,不过我印象很深、到现在也没忘记的内容,其中包括李敖在 2005 年回大陆,在北大、清华、复旦三所高校做的系列演讲。李敖在北京大学质问现在的北大还有没有北洋军阀时期北大的骨气;在清华赞扬其务实精神、科工强国;在复旦更加缓和,聊起了「数风流人物,还看锦涛」。李敖语不惊人死不休,在三个讲堂上当众宣布:我放弃自由主义了!

当然,他肯定没放弃自由主义,他实际上想说的是:要放弃「主义」式的做事方法。「主义」式的做事方法容易留在嘴巴上,容易向外求而非向内求,容易把事情做得有破坏性、做得硬邦邦,不够灵活也不够实用,在中国没有实际可行性,连中国自己都不搞共产主义了,甚至都不搞社会主义了,要冠上中国特色四个字,因为这些主义都不好使了。这三场演讲充满对人之常情的宽容,对现实实用的追求。因此李敖说,分别叫做:金刚怒目菩萨低眉尼姑思凡

那时还是个愣头青的我飘在半空中,只听到了政治理想这一层。但这又何尝不是一种愣头青社会化的直接指南呢?


我的社会化毫无疑问是发生在毕业那一年,可以说是断崖式社会化。那一年我写当一个小镇青年,虽然实际上疫情结束后我还是回北京,后又来到广州,继续做大城市青年。不过有个主旨没变:就是关于如何对待远方理想以及眼下事物。而且几年过去了,如果说当年还在犹豫怎么选,现在就完全不拧巴了,那当然是要注重自己本心,注重周边可及的实在的人和事。

之所以有这样的转变,原因肯定很多。参加工作后被推着走,同时经济独立之后能够挺直腰板跟父母更对等地讲话,构成了环境与物质条件。不过现在回想起来,2020 年下半年研究生实验室关系的热络也构成了重要的推动力。我在倒带贰零贰零有写,实验室的大师兄就是一个笃信「为人要有温度」这件事的人,那时候大家玩得很开心。作为一个 I 人的我在那时候开始觉得其实身处集体,跟大家玩到一起,互相开玩笑也是非常愉快的事情。我现在也还是这么认为。

但这个「热络期」后面还有一个戏剧化且不愉快的发展。那时我快毕业,一位坚持严格女权主义的小师妹进组了,她看到实验室的师兄师姐们竟然抽烟喝酒,竟然聊一些完全不进步甚至落后的话题,这让她极不适应。所以一两年后她彻底憋不住了,在朋友圈把我们骂了一个遍。她自己的心理状态堪忧,也很难受。

在朋友圈里面突然被骂成封建余孽的我们这些实验室前辈,都觉得愕然。小师妹眼里面的「酒桌劝酒很下头」,被劝的那位自己却现身说法其实是玩得很开心的。大家对于同一件事物的视角差异,引发了巨大的理解隔阂。

现在多元化的社会中,多元本身就是一种普世正确。然而多元导致的隔阂又改如何填补?有些人会说:认为「多元化」导致隔阂、想要填补隔阂,这本身就是反多元的。这我不同意。人是社会动物,活在社会里,社会是由人群构成的,需要寻求合作。

所以,当身边的人持有不同的想法,甚至是持有「明显更落后」的想法时,你该怎么办?金刚怒目,还是菩萨低眉,亦或者尼姑思凡呢。放在上面这件事里,这个问题既问我们,也问这位小师妹。

李敖在北大的演讲,首先抛了几个答案:嗝儿了(我不活了),颠儿了(我跑了),得儿了(我隐身了),蔫儿了(我认怂了),翻儿了(我跟你们拼了)。这些态度要么是消极的,要么是暴力的,既不可以改变任何事情,也不能够让当事人得到真正的内心平静,都是错误答案。

再看看现在世界的现状,国家阵营,思想阵营整天打个不停,可能最牛的思想家们也还没想出正确答案。不过自由主义也好,女权主义也好,任何主义也罢,我同意李敖:还是先求诸于己,求诸于本心吧。

周末生活志|2026W21

2026-05-17 20:38:24

  • 之前喝的 manner 豆子喝完了,这次换朋友送的皮爷的中烘豆。调磨邪了门了怎么调都是偏细最后浪费了 50 多克豆子,心疼。不过调好后整了一杯美式,好喝的👍

  • 把昨晚想写的蒸汽波和中式梦核博文给写了,一看已经下午两点多,赶紧出门去商场对付一口午饭。避雷“大师兄西北菜”,餐具邋遢到了离谱的程度,油渍还在碗上明晃晃地挂着就端出来用了。

  • 去看最近大火的小成本电影《给阿嬷的情书》。潮汕方言电影,讲的也是潮汕人下南洋、寄侨批的故事。两三年前在汕头某个地方看到了侨批的介绍和展览,当时对这些书信的内容也留下了很深的印象。有写信回来给父母大人请安的,有汇报询问家庭琐事的,有跟久未见面的妻子诉说思念的,总之都是最真实的日常见真情。这部电影感人至深,我哭的稀里哗啦,大推荐!

  • 看完电影想着去街边买点小吃回家。没想到今天广州奥体中心是周传雄演唱会,叠加下雨,路上堵成香肠。艰难停车后买了钵钵鸡、手抓饼、水果而返。回家再来杯(潮汕)奶茶来为美滋滋的周六夜收尾!

  • 周日睡饱了起床,突发奇想尝试在博客上新开一个板块用来展示订阅的 RSS 的最近更新方便我平时串门。让 Codex 搞了一个出来,美滋滋取名叫「Dokodemo(任意门)」。但是部署到服务器之后发现好多 RSS 都有反爬保护,加载不出来…这样体验就不好了,遂 revert。

  • 下午来探一家位于华景路的咖啡店「忍忍咖啡」,路边违停时把轮毂给蹭了可恶。不过主打的琥珀黄油 dirty 喝起来极香极浓郁,好评!巴斯克蛋糕就中规中矩。店里不是很大,挤了蛮多潮男潮女,潮男恐惧症犯了。

  • 最近补海贼王漫画上瘾,适逢网飞的海贼真人版第二季最近上了。我没看过海贼动漫,现在再补也有点太长了,也许看真人版是不错的选择!于是果断下载来看,有啥感想后面再分享~