2025-01-30 12:55:18
不做 zero to one 是因为太花时间,这只是表层原因。花时间是因为 zero to one 如同刮彩票一样,你也不知道什么时候能刮得到奖,也不知道会挂到什么奖,时间和结果都不可控。不可控的机会其实也是可以做,多少中国人能在美国完成「别问什么时候能毕业」的博士学位。
中国难以 zero to one 的真正原因是政策的不可预测性。你想要成为下一个教培行业还是网游行业?还是等政策指明政府想要什么,再在那个方向上使劲吧。如果那个方向能获得政府扶持,那就更好了。如果 zero to one 搞出来不可控的结果,撞上了政策的反方向,直接被抓走也不是不可能的。
2025-01-30 01:27:07
RT Rep. Jake Auchincloss 🟧
I come from a family of doctors & cancer researchers. My district is full of medical professionals. RFK, Jr. is an anti-vax conspiracist. While we hear from him today, here’s the facts on what he did to kids in Samoa & why the Senate must reject him:
2025-01-30 01:15:55
Re @donglu 所有的痛苦都来自不能 resolve 的 internal conclicts。当然,这是长期进化的结果,小孩从一出生就要在 safety 和 growth 之间平衡,所以妈妈不在的时候可以哭着找妈妈,但妈妈在的时候可以自己玩,玩的时候可能做一些对自己很不安全的事情。
2025-01-30 01:10:07
Re @garrulous_abyss 脱离农业社会的时间还不够长,还存在至少一代活着的人默认使用农业社会的思考方式,也就是小孩是几乎免费的农业生产力。
2025-01-29 11:59:01
美国人一样会骂其他美国人的记忆如同金鱼一样短,连 2020 年的痛以及该怪罪谁都不记得了。(1929 年是大萧条的起点。)
2025-01-29 10:08:01
有 Shein 的顾客发现收到的包裹里的商品清单背后写着「Help me」。 https://www.reddit.com/r/Weird/s/fmG4H6R1HS
2025-01-28 11:11:33
Re @feltanimalworld 中文可以很 concise,但如果统治集团想要糊弄民众,天天用只有 fluffy 没有 substance 的中文,最终导致使用这门语言的普通人都说不好话,那也是很正常的人。
2025-01-28 05:18:26
RT Shivers
It's hard to believe, but due to H100 restrictions, DeepSeek was forced to train R1 manually, with thousands of Chinese citizens holding flags to act as logic gates.
2025-01-27 16:48:18
RT fin
看了下DeepSeek论文,做了点笔记和思考
DeepSeek降低训练成本会不会让算力需求下降?看历史就知道了,GPT4级别token价格在一年半之内降低了100~1000倍,也没有类似的担忧(如图)
AI算力通缩是必然现象,长线旋律就是十年加速六个数量级:软件/算法加速三个数量级,硬件加速三个数量级
------------------------------
先从DeepSeek R1论文本身说起
Deepseek本身并没有像chatgpt o1那样做test time scaling获得更强推理能力,属于post-training后训练范畴,看起来和chatgpt o1不是一个路子(o1是推理的时候专门扩大“思考步骤”或“搜索过程"再挑出最优,推理时耗费比o4高几个数量级),只不过在benchmark/推理水平上达到了相同的水平
所以从推理token价格来说,deepseek和o1比降低了27倍也是合理的。
DeepSeek-R1 是在 “DeepSeek-V3-Base” 这个预训练好...