Logo

site iconCat Chen | 陈广琛 的 twitter 的 RSS

请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Cat Chen | 陈广琛 的 twitter 的 RSS 预览

不做 zero to one 是因为太花时间,这只是表层原因。花时间是因为 zero to one 如同刮彩票一样,你也不知道什么时候能刮得到奖,也不知道会挂到什么奖,时间和结...

2025-01-30 12:55:18

不做 zero to one 是因为太花时间,这只是表层原因。花时间是因为 zero to one 如同刮彩票一样,你也不知道什么时候能刮得到奖,也不知道会挂到什么奖,时间和结果都不可控。不可控的机会其实也是可以做,多少中国人能在美国完成「别问什么时候能毕业」的博士学位。

中国难以 zero to one 的真正原因是政策的不可预测性。你想要成为下一个教培行业还是网游行业?还是等政策指明政府想要什么,再在那个方向上使劲吧。如果那个方向能获得政府扶持,那就更好了。如果 zero to one 搞出来不可控的结果,撞上了政策的反方向,直接被抓走也不是不可能的。



OōEli.eth: 实际上,我们从过去的发展中就可以看到,中国公司很喜欢做从1.0到2.0的事情,却很少做从0到1的事情,因为后者太花时间了。

RT Rep. Jake Auchincloss 🟧: I come from a family of doctors & cancer researchers. My district is full of medical professionals. RFK, Jr. is an anti...

2025-01-30 01:27:07

RT Rep. Jake Auchincloss 🟧
I come from a family of doctors & cancer researchers. My district is full of medical professionals. RFK, Jr. is an anti-vax conspiracist. While we hear from him today, here’s the facts on what he did to kids in Samoa & why the Senate must reject him:

Re @donglu 所有的痛苦都来自不能 resolve 的 internal conclicts。当然,这是长期进化的结果,小孩从一出生就要在 safety 和 growth 之间平衡,所以妈妈不在的...

2025-01-30 01:15:55

Re @donglu 所有的痛苦都来自不能 resolve 的 internal conclicts。当然,这是长期进化的结果,小孩从一出生就要在 safety 和 growth 之间平衡,所以妈妈不在的时候可以哭着找妈妈,但妈妈在的时候可以自己玩,玩的时候可能做一些对自己很不安全的事情。

Re @garrulous_abyss 脱离农业社会的时间还不够长,还存在至少一代活着的人默认使用农业社会的思考方式,也就是小孩是几乎免费的农业生产力。

2025-01-30 01:10:07

Re @garrulous_abyss 脱离农业社会的时间还不够长,还存在至少一代活着的人默认使用农业社会的思考方式,也就是小孩是几乎免费的农业生产力。

美国人一样会骂其他美国人的记忆如同金鱼一样短,连 2020 年的痛以及该怪罪谁都不记得了。(1929 年是大萧条的起点。)

2025-01-29 11:59:01

美国人一样会骂其他美国人的记忆如同金鱼一样短,连 2020 年的痛以及该怪罪谁都不记得了。(1929 年是大萧条的起点。)

有 Shein 的顾客发现收到的包裹里的商品清单背后写着「Help me」。 https://www.reddit.com/r/Weird/s/fmG4H6R1HS

2025-01-29 10:08:01

有 Shein 的顾客发现收到的包裹里的商品清单背后写着「Help me」。 https://www.reddit.com/r/Weird/s/fmG4H6R1HS

Re @boiledwater 禁鸦片的最佳手段,还是自己种更廉价的鸦片……

2025-01-28 11:19:01

Re @boiledwater 禁鸦片的最佳手段,还是自己种更廉价的鸦片……

Re @feltanimalworld 中文可以很 concise,但如果统治集团想要糊弄民众,天天用只有 fluffy 没有 substance 的中文,最终导致使用这门语言的普通人都说不好话,...

2025-01-28 11:11:33

Re @feltanimalworld 中文可以很 concise,但如果统治集团想要糊弄民众,天天用只有 fluffy 没有 substance 的中文,最终导致使用这门语言的普通人都说不好话,那也是很正常的人。

RT Shivers: It's hard to believe, but due to H100 restrictions, DeepSeek was forced to train R1 manually, with thousands of Chinese citizens holding f...

2025-01-28 05:18:26

RT Shivers
It's hard to believe, but due to H100 restrictions, DeepSeek was forced to train R1 manually, with thousands of Chinese citizens holding flags to act as logic gates.

RT fin: 看了下DeepSeek论文,做了点笔记和思考 DeepSeek降低训练成本会不会让算力需求下降?看历史就知道了,GPT4级别token价格在一年半之内降低了100~1000倍,...

2025-01-27 16:48:18

RT fin
看了下DeepSeek论文,做了点笔记和思考

DeepSeek降低训练成本会不会让算力需求下降?看历史就知道了,GPT4级别token价格在一年半之内降低了100~1000倍,也没有类似的担忧(如图)

AI算力通缩是必然现象,长线旋律就是十年加速六个数量级:软件/算法加速三个数量级,硬件加速三个数量级

------------------------------
先从DeepSeek R1论文本身说起

Deepseek本身并没有像chatgpt o1那样做test time scaling获得更强推理能力,属于post-training后训练范畴,看起来和chatgpt o1不是一个路子(o1是推理的时候专门扩大“思考步骤”或“搜索过程"再挑出最优,推理时耗费比o4高几个数量级),只不过在benchmark/推理水平上达到了相同的水平

所以从推理token价格来说,deepseek和o1比降低了27倍也是合理的。

DeepSeek-R1 是在 “DeepSeek-V3-Base” 这个预训练好...