Yunfeng | 王云峰的 RSS 预览

解决Manus Blog自动跳转无法访问的问题

2025-07-21 19:18:34

近日，Manus 在blog中分享了关于agent搭建的一些实操经验，很有用，但由于Manus本身在中国区无法访问，blog会在内容加载完成后执行额外检查，因此访问manus.im/blog子域名时，先是可以看到blog的内容，然后跳转到manus.im/unavailable。

这与Manus技术分享的初衷相悖，既然将内部技术分享出来，肯定是想让更多地人看到学习，一起进步，因此希望未来Manus能将blog子域名下的地域检查去掉。不过在此之前，有一些简单的方法可以解决此问题，下面是咨询Gemini 2.5 Pro后得到的一些解决办法。

方法一：最简单快捷的“手速流”

当页面内容一出现，立即按下键盘上的 Esc 键。

原理：Esc键会停止浏览器加载页面，包括正在执行或即将执行的JavaScript脚本。因为跳转命令通常是在页面主要内容加载后由脚本触发的，所以及时按下Esc可以有效阻止它。

方法二：浏览器阅读模式

现代浏览器（如Chrome、Safari、Edge、Firefox）大多内置了“阅读模式”或“阅读器视图”。

操作：在地址栏通常会有一个像书本或文章一样的图标。在页面开始跳转前，迅速点击这个图标。
原理：阅读模式会提取网页的主要文本和图片，忽略掉大部分脚本和样式。它通常在跳转脚本执行前就完成了内容提取。

方法三：禁用JavaScript（诊断和访问的利器）

这是最可靠的方法之一，因为绝大多数此类跳转都是由JavaScript驱动的。

操作（临时禁用）：

按 F12 或 Ctrl+Shift+I (Mac: Cmd+Opt+I) 打开开发者工具。
按 Ctrl+Shift+P (Mac: Cmd+Shift+P) 打开命令菜单。
输入 “JavaScript”，然后选择 “Disable JavaScript”（禁用JavaScript）。
保持开发者工具开启状态，刷新页面。
现在页面将不会跳转，你可以随意浏览。
看完后，重复步骤2-3，选择 “Enable JavaScript” 来恢复。

Pytorch转ONNX报错-Cannot insert a Tensor that requires grad as a constant

2025-07-09 19:16:09

pytorch模型转换onnx的时候，遇到了下面的报错信息：

1	RuntimeError: Cannot insert a Tensor that requires grad as a constant. Consider making it a parameter or input, or detaching the gradient

翻译过来就是不能将一个需要梯度的tensor转换为constant。

定位到报错的层，是一个Conv2D，看起来是它对应的weight设置了requires_grad为True。本以为直接修改requires_grad = False 就可以了，但比较诡异的是，实际试下来并不行。

具体来说，尝试了下面的方案，都不work:

给forward 函数增加torch.inference_mode() 装饰符
在报错的层前面加torch.no_grad() context
给输入增加.detach() 函数，去掉梯度
给层对应的weight设置requires_grad 为False

最后还是在网上发现了解决方案，尝试之后是work的。具体来说，就是将对应模型的所有层的参数都设置为requires_grad = False:

1 2	for param in model.parameters(): param.requires_grad = False

大功告成。

用MOSS-TTSD生成相声

2025-07-06 19:12:21

昨天看到周舒畅老师的AI短剧论视觉大模型 VLM 的轻量化，以讲相声的形式来表现，觉得很有意思，如果加上声音，就真的是一个技术领域的搞笑相声了。刚好最近出了一个开源的播客生成工具MOSS-TTSD，还没来得及试，正好借这个机会玩一玩。

选择了岳云鹏和孙越的几秒的参考音频，对上面AI短剧的内容进行格式化整理，然后直接跑MOSS-TTSD的开源代码，第一次跑就成功了，还是很丝滑的。

生成的效果如下：

视频

发音效果挺好，中文、英文单词发音都没明显问题，音色相似度差一些，孙越的参考声音换了几个都不太行，可能还有细节问题待定位。

总之，这个方向能玩的东西还是很多，未来可期。

张小珺明超平访谈观点总结

2025-07-02 19:10:45

之前有一次，和做投资人的高中同学聊天，他提到了投资了“小明”的创业公司，这里的小明指的是明超平。后面渐渐了解了明超平的经历。今天在B站看到张小张小珺和小明的访谈，听完后收获很大，创业者的顶级认知很有启发，这里摘录一些我觉得有收获的观点，对访谈的原文做了删减和流畅化的改写。

明超平背景：武大自动化系毕业，后转做产品经理，毕业后在One Plus 一加手机就职，后去字节做剪映产品，离职后加入MoonShot，负责海外产品Noisee。目前离职创业，做项目YouWare，一个用户分享、创造内容的社区。

下面是访谈的一些观点和访谈内容。

用户大于Ego:

每个人会有自己去解读一个数据的方法。但是你有没有真的和你的用户聊过1个小时，你有没有每天泡在你的discod server里面跟不同的用户交流。然后就看他们创作的作品，他们怎么在分享，怎么在回应别人的评论的。这个可能是我们做决定的时候很重要一个点。大家会把自己的观点摆在桌面上，但是会回到用户场景里面，看用户是怎么去聊这件事情的，然后会有个直觉上的共识。

成长性思维：没有东西是学不会的

那两年之后我就后来我就发现，其实我对困难的那个害怕程度几乎就等于没有。就是你总会觉得这个事情能被克服掉的，只要你找到合适的人，找到合适的资料，你就能把它给学会。没有东西你学不会。

产品的功能不用太多

很多人会以为我讲的越多观众听得越多，不会你讲的越多，观众收入信息就越多。这里跟今天我们做产品很像。今天你会堆一堆的feature，你会认为用户会需要100个功能，实际上真的不需要，他可能只需要三个功能就好了。绝大多数产品里90%的功能用户都没打开过。剪映也是这样子的，很多功能应该用户都没有打开过的。那更别说像office，adobe这样的产品，里面有1000个功能，但你常用的没有那么多。

为什么离开一加去字节：反馈太慢了

去的原因很简单，就one plus一年做一款手机太慢了。就是我那会儿就觉得我要有更快的反馈，产品经理这个岗位其实你是需要做很多决策，并且你要知道这些决策对还是错，不断去纠偏你的直觉的。但你一年如果只能做一款手机，然后这一款手机里你只负责其中一个模块，你的纠偏，你的反馈的周期实在是太慢了。那你去自己研究会发现两个星期一个版本，三年下来你可能做了多少个版本？几十个几百个版本。然后每个版本里头可能有十个feature，十个feature里面可能有五个实验。所以这些东西一积累下来之后，你会很好的肌肉记忆。就以至于到后面基本上一个功能一个方案出现，你不做AB实验，你大概心里就有个数，它大概是一个什么样的数据了，可能是涨多少跌多少。这个真的是自己很强的东西。

在字节学到的方法论：数据驱动，快速迭代，极致执行

没有几个方法论，数据驱动就是唯一的。数据驱动背后是一套体系，叫做首先做任何一件事情的时候，你要有一个先验的判断。这个相应的判断其实是一个预测，是一个观点，就是做不做这件事情，做这件事情会带来什么样的结果，你自己心里要有个数。然后第二件事情是非常快速的极致的去执行它。而且这个东西你要做快的话，一定不是一个大而全的东西，一定是一个很糙的东西。然后MVP的一个东西，能不做的都不做，这个是这个也是我们今天很重要的一个产品理念，基本上能不做都不做，今天能不做就今天不做，能一直不做就一直不做。只有这样你才能足够快，快了之后，你需要去拿到你的用户反馈，拿到你的数据，然后去验证，去复盘。这个复盘最重要一个点是跟你最开始的那个先验去做一次对比。就是你的后验结果，和你的先验判断之间，gap在哪里。然后这个会形成一个很重要的一个认知的提升。就是我做过一个判断，这个判断对了错了，我得到了原因。为什么？我认为它会涨五个点，但实际上它跌了五个点。我发现了一系列的原因之后，在我下一次再做类似的判断的时候会变得更准。对这样的事情重复几百次之后，基本上训练过的人都会有很好的产品直觉，数据的直觉。

数据驱动方法的核心弊端：磨灭掉很多灵光一现的创意

数据驱动方法会磨灭掉很多灵光一现的创意。不同的公司我觉得确实是不太一样的。就是苹果是不做数据，不做AB实验的，但他依然可以得到一个很好的产品。但今天可能确实也很多功能也不太好。我觉得这代表了两种东西，google和字节，Facebook，我觉得他们是通过数据体系来驱动的。为什么做这件事情？数据驱动在拉高整体的平均水平。因为这些公司有大量的员工，这些员工可能来自不同的背景。怎么能够让不同背景不同文化的人，他能够在一套体系里更快的融入到这个体系里去deliver，去产出价值，是需要一套基建的。这套基建其实是一套数据基建。它能让刚进来的校招生，只有60分的人，同时能够在一星期，两星期的时间里交出80分的结果。但同时它磨灭了最顶级的，比如说100分的一个天才，他有一些灵光一现的创意。这个创意首先数据是验证不出来的，但其次是有可能你的数据做出来之后，发现它的数据是负向的。在短期来看是负向的。比如说很多颠覆式的创新，其实无法被AB实验出来的。你说iphone 4 是能被这种多点触控屏，然后home键只有一个，把传统键盘干掉，AB实验不出来，特斯拉AB实验不出来，你发现所有颠覆式创新型的东西都验证不出来。

数据是一种后视镜，能看到过去的路，但没法引导你往前开

一个很重要点在于数据。在我的眼里，我对它的比喻叫做开车的后视镜，你可以看到你过去走过的路，有哪些坎坷，有哪些弯道，有哪些直线，但他没法指引你往前开，这是一个蛮重要的点。

关于张一鸣：极致的humble

但字节有一鸣。一鸣很厉害，我觉得respect，太强了，然后都是偶像男神。极致的humble。就是有一些很小的创业团队，然后你会发现当他们（HR?）已经足够的hungry了，就足够饥渴的在市场上找项目了，这毕竟是人家的工作。然后他发现基本上他聊过的大多数项目里，一鸣都已经聊过了。这个当时是让我很震惊的，这个level的人现在还在聊这种项目。足够respect。我觉得你今天应该很少有一个这么大体量的公司前CEO还能干这样的事情。我觉得很多创业公司的founder都不一定有这么强的动手能力，实际的在一线去接触一些新的团队、新的年轻人、新的项目，这个我太佩服了，非常hands on。

23年加入MoonShot时，和杨植麟聊了十个小时，在聊什么？

中午开始聊，聊到晚上，是聊平常干什么？然后聊聊音乐，聊聊艺术，聊聊爱好。他要像滑雪，然后稍微聊聊产品，聊聊过去的经历，然后是到晚上八点钟，我们饿了去吃饭，去吃披萨的时候，因为也很晚了，八点了，吃完披萨可能那天走的时候是十点。然后就说那还是要不给我讲一下技术。然后在吃披萨的时候，他就跟我讲他为什么觉得token prediction很重要，那时候还在讲压缩即智能，他为什么认为压缩即智能？然后用很简单的方式给我讲明白。那个时候其实我也聊过很多创业团队，他是唯一一个给我讲明白的。而且那天是左手拿着披萨，右手桌上这么画，然后你都能听明白的时候，你就觉得这个人真的很厉害。

为什么从字节离职创业

时间是我最重要的东西。在字节里面，我不能接受说我今天在这里上班，但是我不干这里的事情，然去研究我自己的东西，所以我那会儿必须得出来。因为我觉得AI发展特别快，技术的发展特别快，我必须得足够长的时间沉浸式的去研究这个东西到底在干嘛，市场上的人在干嘛，产品在干嘛。但如果我在字节里面，我其实90%的精力还是得在做剪映这款产品。然后你得开会，你得写报告，你的论证是否OK。

Noisee这个产品的诞生

首先是23年底的时候，我看到了Suno，Suno这个产品让我觉得蛮有意思。那会他没火，然后我在它discord里面泡着，它discod里面的用户特别活跃，他们会真的share prompt， share音乐，然后不断的去交流，我这个音乐做的怎么样。我其实很羡慕。因为你发现那会儿其他的AI社区、AI平台、AI产品在discod里面，他是真把它当工具用的，没有像一个平台一样这么活跃的去交流的。我们在想这个产品还有点意思，然后我就一直在里头泡着。然后你发现这里面用户创作音乐的热情非常大，我当时就想出来一个问题，音乐是一个门槛创非常高的品类，几乎我当时所在的那层楼，能做音乐的估计不超过三个人，可能一个人都没有。但Suno的出现让每个人一天可能就能做出来好多首音乐了。那它会带来一个什么样的变化呢？就是这些音乐它得有个地方去，你能明显看到他们的分享欲望特别强。他不可能所有的人都往这个discod里面分享，也不可能就放在自己的手机里头。所以我就去看传统的一些音乐制作人，他们做出来的作品会往哪里放分享。有spotify，有sound cloud，有youtube。然后我就去看了一下youtube，你会发现所有的音乐人分享到youtube的视频，到今天你会发现都是一张静态的封面，然后播两分钟的音乐。我想OK这个可能有机会，为什么有机会呢？是因为那时候的视频生成的技术其实很差，这跟今天没法比。首先风格一致性不可控，然后人物一致性不可控。上一个片段人长这样，下一个片段人变了，这都是那个时候最大的问题。所以我们当然都知道拿视频生成去做故事片是最好的，因为它具有消费价值。还有很多人说要做短剧，但你懂剪辑的人或懂创作人都知道，比如说一个电影它是一个故事，故事最重要的一个事情是什么？首先是你人物的一致，你不可能今天男主角上一秒长这样，下一秒长这样，这个问题解决不了，这件事情就不work。所以在那个阶段里头，我们就在想，既然这个事情不work，反过来想，有没有什么内容品类是对一致性要求不高，甚至于说它不一致反而会带来更多想象力的。我们看了一下，确实有。你会发现到今天可能稍微有一些故事的内容出现了。在一年以前，在各种媒体上、B站上、youtube上，你发现AI视频基本上都是movie trailer，就是一段音乐，然后几个片段来回闪，之间没有任何关联性。然后这个其实是一个很有意思的品类。你不care上一个片段和下一片段是不是同一个人，他可能是一个人，可能不是一个人，反而会因为这样的跳切的方式让你产生很强的想象力。这可能是另外一个故事，另外一个角色同样的品类是什么？是音乐的MV，那就更抽象了，就是你可以完全换个环境，反而是人脑子里会脑补这背后的情绪是什么样子，是这样子是那样子。好，我们想说OK Suno出现了非常多的音乐作者，然后这些音乐分享在youtube上是形态是很差的，是一张图。今天的多模态也做不了故事，但是可以做音乐MV。那是不是可以做一个结合，就服务这帮Suno的用户，他把Suno链接丢进来，我就给他一个音分享到youtube上，我们在discod做了这样一个尝试。我们就是说我们是一个独立开发者，然后在Suno的频道里头把很多用户分享的作品说，我自己本地有一个项目，我把你的这个东西做成了一个MV，你喜欢吗？丢到群里头就爆炸了。你知道discord里面是有一个禁忌，就是你是不允许在别人的圈子里面丢自己圈子的链接的，但那会儿因为我做的这个事情，当时吸引了非常多Suno的用户，他们就都找我要说能不能把链接给我。但实际上那会儿我们连产品都没有，我们是拿剪映剪的，我们把链接拿下来，然后拿剪映剪了个片子丢回去，然后第二天十个链接，我们就两个实习生一起剪片子，剪了十个链接丢回去。然后你发现他们的管理员对我们就特别喜欢，以至于后面我们真的发我们自己产品的时候，我们有自己的那个channel以后，很多人问这个是什么产品？这个Noisee在哪里可以访问,我是不敢发的，因为我觉得这个东西是禁忌，是不允许发的。然后他们的管理员直接就把我们的产品的链接直接丢进去了，就帮我们打广告。所以那一波其实帮我们带来了早期的种子用户。然后到次年，就是24年的三月份的时候，Suno发了V3。V3对于他来讲是爆发式的一波，就直接到基本上DAU了，那一波增长就把我们也带火了，所有的用户一进来发现，做了音乐之后，还有一个MV就形成了一个很好的组合，叫做Suno做音乐。做完音乐之后Noisee生成一个视频，然后把它分享到别的平台，像一个完美的组合，所以就这么出圈了。然后那会儿其实海外有一些VC像a6z来联系我，能不能交流。然后什么华纳音乐、spotify也跟我们聊了两次。

Noisee为什么关掉

为什么会海外那个产品关掉呢？是因为kimi刚好那个阶段也火了，24年3月份，所以大家觉得应该把所有的资源集中到一个产品上。不可惜，我觉得挺好的。我觉得这个决定我当时挺支持的。我到今天会回想，我觉得他不只是关停的问题，他可能最开始就不应该做这个产品。说对创公司来讲，你应该bet的是一些非共识，是一些大厂不认可但你认可，或者说大厂来不及做，但你愿意做的一些东西。但那个时候你发现sora已经发布，虽然发了个期货，但你已经看到了这里面没有非共识，因为他在这件事情上是领先所有人的，特别是后面可灵又发了一个模型，连快手这样的大公司都已经意识到，或者说他找到了这里面的know how做出来这么好的模型，创业公司你就没机会了。因为这里面没有非共识了。除非今天还有人有非共识，说我今天用auto aggressive搞这个视频生成，能搞得成本更低、更快更好，那我觉得非常的respect。但如果说走同样的技术路线，同样的资源重复再做一遍，浪费社会资源，浪费精力。 . 真正让我有一些伤感的是这个域名都打不开的时候，就是这个时候我已经离职了，然后有一天我们的前团队里的实习生跟我说这个停了，然后我就打开那个域名，Noisee.ai，这个域名访问不了了，那一瞬间还是很伤感的。

产品VS 技术Demo

我们的很多用户说，Sora发了，但很多用户都用不了了，然后他们用我们的产品，因为我用户d是一个成品，而不是一个clip，这是我们很重要的一个产品的理念。我们认为用户需要的是一个可以被分享，可以被浏览，可以被观看的一个片子，而不是一个5秒的，甚至不叫视频，是一个五秒的技术。因为它都没有声音。所以我们一直强调一件事情是我们要deliver给用户的是一个结果，是一个完整的片子。它是MV，这个MV它就是带转场，然后带各种片段，带音乐的。所以那会儿我们的很多用户说sora like，他觉得这个产品就跟sora很像，甚至比sora更好。但这不是技术上的更好，是一种体验上的更好。就是他觉得他拿到的在别的地方拿到的是一个4秒的clip，但在我们这里拿到的是一个一分钟的完整的MV，而且它是带视觉体验和听觉体验的，这个是被很多人忽略掉的。

为什么要做AI Native的产品

虽然我也有这样的mind set，但实际上在我自己创业过程中，我又把这个错误又犯了一遍。The bitter lesson又来了一遍。就是在我们之前的产品里头，拿AI coding的方式生成网站，生成游戏，生成一些作品的时候。在去年的时候，我还是觉得它的设计不具备美感，或者说有时候会有一些错误出现。然后我不能接受这样的体验。所以我就想说，我们要不要给他一些模板，给他一些框架？这个框架可能是一串CSS代码，一串JS代码。然后用户使用的过程里头，我们把这个东西塞到context里面。然后模型就基于这个CSS和JS去帮他写一个网站。这个CSS JS是被我们设计师设计过的，所以它一定很好看。然后我们设计了50套这样的模板，然后用户做出来的东西就会很好看。但后来我把这个产品停掉了，一个最重要的原因就是突然意识到: 这个产品非常的不AI ative。不AI Native的一个重要的特征是什么？是今天Sonnet 3.5到3.7，3.7到4.0，4.0到5.0，每一次跃升的时候，你的产品到底有被赋能多少？你的产品体验有提升多少？如果你的产品体验提升很少，它不是那种5倍，10倍的提升的话，那大概率证明你这个产品就没有被赋能。这个背后的一个问题是：为什么我一定要做一个AI Native产品？是在于说，这个时代AI是一个很重要的变量。如果你要做一个大的事情，或者做一个大的有价值的公司，你一定得契合这个时代最大的变量。这个最大的变量可能有好几个。今天可能最大的一个变量是model本身的智能，但它不是唯一变量，大概率还有其他的变量。几个变量叠加在一块儿，你才可能造就出一个伟大的公司。如果你连这个时代为最伟大、最重要的变量，AI这个变量跟你无关，那你离一个伟大的公司已经很远了。所以我就把那个产品停了。

AI时代产品的价值体现：token消耗速度

我有一天晚上失眠，就是一直在想一个问题: 假设我是一个VC或者说投资人，去看这个市场上好的AI创业公司或者好的AI产品，它应该具备什么样的特征？是看DAU吗？还是看什么？因为DAU也是从移动互联网时代来的时候，DAU才变成一个关键的指标。今天AI时代，是不是还是那个关键的指标，我其实是不确定的。然后我那会儿得到一个很重要的结论是，我要去看那个token的消耗的速度。这个事情其实后面我觉得Manus产品发布之后，我看到他们的访谈，包括他们分享的东西，其实不谋而合，我当然会心一笑，我觉有意思。就是因为他们在讲token的消耗速度，其实代表了这个产品本身的价值有多大。

做产品的初心

我执着只是在于我希望用户去更好的创作，他的创意能够被无负担，无限制的，更直接的被表达出来。今天我们的表达还是很受限，你得学很多的产品，学很多的工具，无论是今天剪一个播客还是剪一个视频，都还是挺高的成本的。而且有时候你会受限，你脑子其实有画面，你要剪一个什么样的动画，但你技能达不到，然后你就放弃了。创意就没有被表达出来，我觉得是很可惜的浪费了。所以这个是我觉得最重要的一个事情。我们希望我们产品能够让大家更自由的去表达它的创意。我也不愿意界定我的产品到底是一个工具，是一个社区，还是一个内容平台。我觉得这都是我构建的一个环境，一个容器。他们所有东西加在一块儿能够帮助我的用户更好的去表达他的idea，这个是我最看重的，我没有做内容指定，因为也有一种可能性在于说没有内容。我的coding agent足够聪明的话，也能够解决好这个问题，甚至于code验证在对话的过程中，他就能告诉你可以做什么，然后把这个事情做得更好，可以往什么样方向去优化，用户只需要点yes no yes no结束，就跟导演一样，导演就是这样子坐在那个监视器边，咔，过，重拍，就这样，这是我追求的。但他至于是不是一个内容平台，我觉得那是形态问题，我还是比较关注用户价值和创作的价值本身。

未来agent的交互方式

一定还是视觉的方式，这是最高效的。人发展到今天，80%的信息是通过视觉获取的。所以你大概率还是得通过视觉，所以它还是需要一个界面。这也是为什么刚才说我脑海里的那个OS，它的也是动态的UI或者动态界面的一个很重要的点是未来你的agent它可能背后会拿到巨量的信息，这个信息根本就不是你平常能消费得了的。那这些信息怎么呈现给你？他不可能是一个程序员提前给你选好的界面，它一定是动态的。今天你可能需要展示视频，明天可能展示网站，后天展示什么图片、文字、paper, 乱七八糟各种各样的东西。这个界面能不能够动态的变化，能不能在毫秒级的去动态的变化，这个是蛮重要的。实话讲我觉得这里我有两层价值特别大。一层价值是任务发起那一层，就是比如说那个OS调度那一层，到底用谁不用谁，因为他他来分配这个价值的体系。另外一条是这个价值链条的最后那一层，就是我到底要去怎么样去呈现它，因为你现那一块是你直接跟用户做交互的过程。你可能通过声音好多模态的方式，声音去控制它，语音去控制，或者手去点它。我觉得这都是存在的，这都不会变。因为我们人的传感器就这么几个，就眼睛、手、耳朵对吧？所以你变来变去可能就这个东西，只不过这个东西是在一个实体的屏上，一个固定的东西上，还是在一个虚拟的地方上，还是它未来可能存在于只是两个电信号传到你的脑子里的芯片上都有可能。

中国创业者可以自信地去做自己

我觉得今天的创业者也可以做自己了。你可以非常自信的去表达你的审美、你的偏好、你的品味、你对产品的理解，你对商业的理解。就像我觉得我们也在做类似的事情，我们做我们的产品就是按照我们想做的方式，我不会说我要尽可能让我的产品长得像一个美国人做出来产品，我为什么要这样？我就是一个中国人，我就是一个中国团队做出来我想deliver的价值。我不觉得我们的审美，我们在价值上，在认知理解上就比其他的团队要差。比如说我们的logo就是一个中国结，我觉得这挺好的。我希望用我们的logo表明，我们想变成一个社区，这个社区把人连接在一块，把他们的创意连接在一块儿，把他们的作品连接在一块。

世界观和顺势而为

你要说真说有什么独特的世界观，我就是始终有一个metal，或者我默认的前提里就是，我能做的东西其实很有限，我们团队能做的东西也很有限。但是你又想做一个有趣的东西，或者能够服务更多人、带来更大价值的东西的话，它不依靠个人的努力，它不依靠今天22个人每天工作24小时，一年365天无休就能做了。而是你要被这个世界上很重要的趋势去赋能，去推动。所以你要说这可能是一种世界观的方式，就是怎么样去找到这里面背后的趋势，这里面的规律，而不是简单的通过自己所有的努力。努力的人其实是很多的那可能在努力背后那个趋势推动着你，你才有可能有可能到达next level。就很像冲浪，可能80%的时间是在那坐着等，就等浪来看浪的方向，然后你加速才能够站起来。但是浪没来，你再怎么加速也没用，你如果逆浪而行，那你就更更完蛋了，那就会被拍飞。我觉得这个是雷军学长经常说的顺势而为。我一直在研究他这句话，还每隔一段时间都会对这句话有一种不一样的理解。其实没有人不愿意顺势而为，只是大家不知道势在哪儿而已。因为大势都很微弱，特别是早期的时候，基本是很难观测到的。这个我觉得是更难的一个点。找到趋势是比努力更重要，或者说你的努力，你的资源，你的精力应该是放在那里，而不应该放在怎么让大家一天工作24小时上。

大厂和创业的区别

在大厂待久了，大家还是挺喜欢确定性的事情。比如说做个组织架构的调整，可能大家就崩溃了，调个两次，人走一半，但调个业务方向也可能人走一半。但实话讲，在创业公司里，调个业务方向好像就跟吃饭喝水一样差不多。包括有些事情可能有些需求今天做，明天停，这都是很容易发生的事情。很多大厂的同学我觉得是不一定能接受的。今天我们的团队就慢慢的都很能接受这件事情。而且特别是当你已经明明知道一件事情就是不对的时候，你不变，这个才是最大的错误。

做CEO里面不擅长的地方

还是不够aggressive，我觉得就是nice。我觉得跟做这么多年产品可能也有关系，就同理性很强。我举个真实的例子，比如说有的项目有的产品的体验，你就是觉得有问题，然后你很难忍受，你很暴躁。然后你很希望有人今天晚上加班加到12点，加到两点把这个事情解决掉。但你的另一面会告诉你，何必？大家都挺累的。然后你会换位思考一下，就是如果我的老板12点告诉我要做一个事情，这事情怎么了？今天不做地球就转不了了吗？然后你就想，算了，还是让员工走吧。

投资人是镜子

投资人是镜子，你从投资人那里去看一下真实的自己。我觉得我以前学游泳的时候，包括很多人都应该会遇到类似的问题。我是体育运动都会，游泳、跑步、打球、骑车，脑子里觉得自己都是运动员，打球的时候觉得自己是科比，然后录个视频之后发现怎么这么丑。有的时候觉得自己是孙杨，实际上游的七扭八歪的。我觉得投资人对我来讲就是一个很重要的竞争，它是客观的。我也希望他们能够客观的去告诉我，他看到什么问题，看到哪里做的好，哪里不好，外界的环境是什么样子。因为团队实话讲，毕竟你是有光环的。有光环就大家要么怕你，要么可能会顺着你的想法来。这个其实是一个潜在的问题。但我希望我每次跟我们投资人去交流，其实都是希望从他那里看到一个真实的自己。比如说我可能会在他们那里看到一个犹豫的自己，一个徘徊的自己，一个不够坚决的自己。我觉得挺好的，然后我才能知道这个问题在哪，再去改。

创业像下围棋

每天都是感觉在下棋。围棋里面有一个东西叫打谱。打谱的意思是一盘棋下完之后，你会去复盘，把这个棋谱摆在面前去分析它。我觉得我们今天很多时候是有一些误会的，重要的不是最终的那个棋谱长什么样子，重要的是下棋的那个顺序。我们不能今天看到抖音长这个样子，微信长这样子，facebook， youtube长这个样子，所以我做一个一模一样的东西出来，就代表着你能做成这样。不是的，就相当于一盘围棋，你把一个棋谱完全复刻出来是没意义的。你要知道的是这中间每一步棋，第一步、第二步、第三步、第40步、50步，它为什么下在这里？因为第50步如果你下错了，其实可能就没有第100步了。所以顺序很重要，做产品优先级，顺序是一种很重要的体现。什么样的东西做，什么样东西不做，什么样东西能三年后做，什么样东西今天必须做，这个是我不断拷问大家的问题。

Qwen VLo 效果实测

2025-06-28 19:06:35

2025年6月26日，Qwen团队发布了Qwen VLo，一个定位是“unified multimodal understanding and generation model”的模型，包括多模态的理解和生成。

根据官方的介绍博客，Qwen VLo包含下面的功能：

图像生成：文生图、2D卡通图像转真实图像
图像编辑：例如修改某个主体、更换颜色、更换风格
图像算法能力：例如检测框、canny 算子、图像分割结果

经过一段时间的测试，我个人的总结是：

生图能力：效果比较差，感觉是一两年前生图模型的水平
图像风格转换：效果比较稳定，生图有美感
图像编辑能力：还算可以，有一些case做不好
检测框：能稳定生成，单人没问题，多人场景下也不算很准
图像分割：没有成功
canny算子：细节更丰富，但有一些地方与原图并非完全对齐

再单独吐槽一个点，刚开始没找到Qwen VLo的入口，看微信公众号文章的留言才发现，并不是以一个模型列在可选模型列表中的，而是不管选择什么模型，只要做生图任务或者上传图片进行对话，都调用Qwen VLo。这种不遵从用户已有习惯的设置，随意而为的做法，用户体验很差，要是没看到留言回复，真的不知道怎么用。

下面详细展开我上面总结中各个条目的实际结果。