HJ | 杭建的 RSS 预览

DeepSeek简单分享

2025-02-23 19:29:34

本文内容来自一次内部分享。主要是对目前非常火的DeepSeek的一些自己的认知和理解。

DeepSeek是什么？

DeepSeek是一个由中国公司推出的媲美ChatGPT o1能力的开源推理大模型，其中文能力更强，而且由于背后公司数据的特点，在金融方面具有优势。

这里所说的推理大模型是相对于之前的非推理模型，更加强化了推理、逻辑分析和决策能力，可以看做是把之前的CoT能力直接做到了模型里。

DeepSeek本身是包括V3和R1两个模型，参数都达到6000亿，也就是现在市面上很多人说的满血版。而DeepSeek开源的几个蒸馏版本的模型其实本质还是qwen和llama，只是用了R1的推理数据做了微调。

DeepSeek生态位

综合了各种榜单和一些评测，并基于公司实际使用的经验，对现在主流的大模型做了如下梯队排名：

在选择模型时需要注意：

开源模型可以私有化部署提供无审查的服务
国内模型在中文上有优势

通过这个梯度，也可以看到DeepSeek并不是能力最强的，但R1确实是国内最好的推理模型。而非推理模型国内的通义千问是能力最强的。这里需要提到的一点就是Kimi其实也和DeepSeek差不多同一时间推出了推理模型的，能力也没有差太多，但由于不是完全开源的，所以被DeepSeek给完全盖住了。

DeepSeek为什么这么火?

如第一部分所说，本质上DeepSeek是一个中国公司做到了O1水平并且开源了的推理大模型。具体来说，之所以它这么火有以下几点：

ChatGPT o1出来后，给业界出了一道题，然后DeepSeek给解出来了，并且是以低成本的方式实现了，甚至还给开源了。
对于国内来说，由于zz原因，很长一段时间是无法使用国外的第一梯队大模型的。所以，有了DeepSeek这种能用的模型，自然是迅速出圈。
对于国外来说，则是高估了领先中国的速度，低估了中国的追赶速度。

为什么是DeepSeek?

国内外很多大模型厂商，为什么是DeepSeek做出来了呢？

DeepSeek背后是幻方量化，这家公司号称多内私募量化四巨头，非常赚钱，有一年就捐了3个亿做慈善。虽然DeepSeek是相对独立的一家公司，但其中的关联肯定小不了，所以大概率是不缺钱的，也不是奔着赚钱去的。因此，可以类似高校一样单纯的做研究。与之相比，Kimi就有商业化的诉求，所以能看到Kimi在大量的投放广告。
DeepSeek的招人门槛很高，虽然创始人是浙大的，但团队成员基本上是清北级别的。
DeepSeek曾号称有国内最多的A100显卡。
创始人梁文峰是很有技术追求的一个人，不管是量化还是大模型，据各种报道，都是自己亲身在一线写代码、写论文的。
我自己的认知，其实OpenAI推出o1后，大家都在研究，都在探索，方法也都有区别，DeepSeek这次做出来是有一点运气成分。

这里还想提的是，春节期间所谓的国运一说，我觉得如果DeepSeek在不长的时间能追上甚至超过o3，那真的可以说国运了。

DeepSeek的创新

DeepSeek由于受限于显卡的性能（H800），通过工程优化上的创新提升了算法效率，从而也大大降低了成本。

DeepSeekMoE：采用了大量细粒度的专家，因此推理时，能大幅降低成本。
负载均衡优化：采用Auxiliary-loss-free算法提高了MoE路由的效率。
内存优化：重计算、使用CPU内存和参数共享
通信优化：DualPipe
计算优化：FP8混合精度训练
其他：MLA(多头潜在注意力)、MTP（多Token预测）、GPRO（强化学习算法）等
NSA：原生稀疏注意力，长文本能力

使用

推理模型是有使用场景的，适合需要深度思考的场景，如设计、审查、推理、复杂计算等。如果让其做一些简单的任务，如实现代码，可能会思考来思考去，反而降低效率。结合推理模型+非推理模型是现在一种常用的方式，如DeepSeek R1 + Claude 3.5 sonnet就是使用R1来做方案设计，使用Claude来写代码。

不同于之前的非推理模型，推理模型的提示词跟侧重于描述清楚任务目标，过多的引导反而是干扰。

此外，通过DeepSeek对蒸馏模型的证明，一些行业模型也可以通过DeekSeek R1的推理数据来微调，实现蒸馏的效果。

美国AI之旅

2024-06-05 19:29:34

5月底去了一趟旧金山，和一些华人AI科学家进行了交流，也参加了旧金山由GPTDao和微软联合举办的GenAI大会。这里输出一些收获。

一个华人科学家分享他们团队在做消费级设备（车载、手机）大模型的创业。苹果最近发布的Apple Intelligence也是类似的思路。之前陈天奇团队做的mlc-llm同样是在做这样的事情，再结合特斯拉的FSD也是基于Transformer的自动驾驶决策，这个方向还是很有机会的。但国内貌似很少听到类似的项目。
Amino: 一家华人创办的VC公司。看到他们投的一家针对美国移民多这一特点的电商平台，每个国家的人进去看到都是来自这个国家的商品，这个估计只有美国是合适的。另外，他们也分享了目前硅谷还是创业者导向的，一个好的创业项目，需要投资人去争取。这家公司的创始人有个抖音号叫硅谷李师傅，在持续分享硅谷的一些东西。
Meta AI：分享了Meta大模型方面的进展，印象比较深刻的是实时图像生成，可以边输入提示词，边生成图像。网址：https://www.meta.ai/?icebreaker=imagine
Tesla：分享了他们在自动驾驶方面的进展。特斯拉的FSD不同于目前主流自动驾驶技术的是使用了基于Transformer的驾驶决策，通过使用保险公司大量驾驶分数好的司机的数据来训练这个模型，对比Waymo基于激光雷达，成本会低非常多。但受限于保密的原因，其他有干货的东西感觉不是很多。
Nvidia: 分享了他们正在开发的多模态大模型。自己这次发现英伟达虽然主要精力在芯片，但其实也在大量地做各种AI模型层、应用层的尝试，包括后来在GenAI会议上Jim Fan讲的具身智能，这里有这个分享的总结：https://mp.weixin.qq.com/s/DF0GBx99vodq0dYM98iRFA%E3%80%82
听了Google科学家讲述Google在多模态大模型方面的进展。印象比较深的一点，就是现在业界对小公司的包容度大，对大公司包容度小，因此经常会放大谷歌的问题，某种维度上是不公平的。
硅谷的人才流动很频繁，没有什么绝对的技术壁垒，而且硅谷是没有竞业协议的。所以，OpenAI的优势并没有那么绝对。目前谷歌已经从OpenAI挖回来了不少大模型人才。
旧金山GenAI Summit 2024
- 硅谷这边各种小的应用都能支撑起一家创业公司，比如会场在用的otter.ai就是实时记录会议内容，和钉钉、飞书的闪记的功能是一样的。
- 华人团队做的天机阁AI测算，这个是我们公司比较关注的一个赛道，天机阁的应用体验做的很一般，但测算的体验确实不错。应该是有自己的专有数据的。
- Groq的AI加速芯片：在芯片层面提速的AI服务。这个之前贾杨青是质疑过其成本的。
- 贾杨青的Lepton AI是在做AI云原生，能够快速部署大模型应用。
- 合成数据对AI发展的重要性：随着现实数据逐渐被用完，需要大量的合成数据来训练模型，这方面目前还存在着很多挑战。
贾杨青分享中提到的理查德·萨顿教授的作品《痛苦的教训》中的一句话："从70年的人工智能研究中可以得出的最大教训是，利用计算的通用方法最终是最有效的，而且差距很大。"
- 通用方法：在人工智能研究中，通用方法指的是那些可以应用于广泛问题的算法和技术，而不是专门为特定问题设计的解决方案。通用方法通常具有更广泛的适用性和更长的生命周期。
- 利用计算：这一点强调了计算能力的重要性。在过去的几十年中，计算机的处理能力和速度有了巨大的提升，这使得复杂的算法和大规模数据处理成为可能。
- 最有效的：萨顿教授指出，通用方法结合强大的计算能力，往往比特定问题的专用方法更有效。也就是说，使用计算能力来推动通用算法的发展，能够在更大范围内取得成功，并且效果更显著。
- 差距很大：这一点强调了效果上的显著差异。萨顿教授认为，通用方法相对于专用方法，其优势不仅仅是略胜一筹，而是有着明显的、显著的效果提升。
- 总的来说，萨顿教授的这句话提醒我们，在人工智能领域，应该注重发展那些可以广泛应用的通用算法，并充分利用现代计算技术的力量。这样的方法不仅更为高效，而且在各种不同的应用场景中都能表现出色。
美国对新事物的接受度没有那么高，因此Tesla在美国反而没有国内常见。不过，FSD在美国已经全面推行。打Uber的时候司机开启了FSD，整体感觉还是很丝滑的。
美国的油价挺高的，所以日本车在美国占用率很高，随处可见的也是丰田、本田这些车。
Google的Waymo在旧金山随处可见，有同行的朋友有邀请码体验了一下，驾驶没有任何问题，基本和打普通出租车没有任何区别。但其改造一辆车的成本非常昂贵，后来听朋友说，由于特斯拉的RoboTaxi即将发布，Waymo的很多人都离职了。特斯拉的FSD目前看来才是未来的自动驾驶发展方向。

CTO都必须是程序员出身吗？为什么架构师做不了CTO？

2024-04-08 19:29:34

这是来自Quora上的一个问题：Is it required to be a developer/coder to become a CTO? Why can’t an architect become a CTO. 下面是里面的最佳答案。自己比较认同其中的观点，CTO确实是需要有编程背景的，而真正意义上的软件架构师也是具有编程背景的，所以也是可以成为CTO的。

作为一家创业公司的CTO，你需要了解以下几点：

（1）从上到下对整个技术栈有一个全面的了解，包括每一层的替代方案和取舍权衡。

（2）如何以一种能够给你想要招聘的工程师留下深刻印象的方式进行严肃编程。

（3）如何自我学习你需要了解的技术知识，以及如何在至少100码外就能嗅出技术上的废话。

（4）如何领导工程团队，如何管理工程团队（以及两者之间的区别是什么，因为它们非常不同）。

（5）如何可靠地估计实现其他C级领导愿景所需的工作量。如何向他们沟通可能的权衡，并如何经常从一个过于模糊或过于具体的起点找到真正的需求。

（6）如何向从资深的高级工程师到极其愚蠢的媒体等各方面代表公司的技术愿景。

（7）如何保护你的团队免受不必要的变化，并如何带领他们以及公司其他部分经历必要的变革。

（8）如何指导工程师关于他们的成长和职业目标，无论是作为个体还是团队成员。

（9）如何发现可能的技术和公司问题，并在它们影响工程团队的动力之前清除它们。

（10）如何保持工程团队的持续发展，这可能意味着扮演IT角色，充当工程师，或周末架子搭建者（原文是weekend shelf-builder，不太理解，可能指的是自我驱动去做一些事情的意思）。

你如何达到这个目标？需要你通过在创业公司的工程团队持续工作并向各种听众做技术演讲。从我看着当初我的CTO说“我希望有一天能做到这个位置”，到我准备好自己做这件事，我花了10年的时间。

编辑：既然这个问题有所融合且稍微有所变化，我想直接回应它。

CTO确实可以是一名架构师，但软件架构师是一名开发者。

有些公司有他们称之为“架构师”的人，但他们实际上从未真正建立过系统。他们在销售会议中在白板上画大框和线条，然后就走开了。

我们在Sun公司有一个词来称呼这些人，我们称他们为“市场技术人员（Marketechts）”。并且，一个市场技术人员会成为一个糟糕的CTO，因为他们谈论和思考的是广泛的概括，而不是完成工作的真正细节。

不同的CTO角色 by Werner Vogels (Amazon CTO)

2024-04-07 19:29:34

这是来自开源项目awesome-cto的一篇文章，也是自己曾有过的疑问。自己目前担任CTO这个岗位已经6年多了，现在对这个问题的认知：其实CTO这个角色的职责还是要根据CEO的期望来定。初创团队CTO一般就是一个高级开发工程师，随着团队规模增大，会逐渐转换为架构师、技术经理，最后有些CTO会去负责基础技术研究，有些CTO则统管整个研发团队，还有一些则会去管理部分业务。不管如何，这个职责还是要看CEO心里的期望是什么。

我曾经为一个关于企业创新中首席技术官角色的小型讨论会准备演讲稿，我再次意识到围绕CTO角色存在相当多的混淆。讨论CTO角色时总是首先遇到的问题是，没有一个公认的定义来说明CTO的实际工作内容。这个角色根据公司的类型以及技术在公司中的角色非常不同。

一段时间以前，我做了一些挖掘，研究CTO角色的历史以及如何最好地分类它们。我在这里发布，因为它可能具有普遍的兴趣。一些我使用的来源在这个笔记的末尾。

当Edge的创始人约翰·布罗克曼采访内森·默夫沃德时，他的第一个问题是“什么是CTO”，对此内森回答说：

“我哪知道。你知道的，当比尔和我讨论我接受这份工作时，有一刻他说，好的，那些成功的CTO的杰出例子是什么。大约五分钟后我们决定，好吧，肯定有一些，但我们并没有准确知道谁是伟大的CTO，因为许多实际上是伟大的CTO们并没有那个头衔，至少一些有那个头衔的人可以说并不擅长它。

我的工作是在微软思考未来的技术。如果你想拥有一个伟大的未来，你必须开始在现在思考它，因为当未来到来时，你将没有时间。”

第一个CTO在八十年代末出现。许多公司开始利用其研发实验室交付的结果，这些实验室的主管被提升到可以使用技术为公司提供战略优势的位置。这个角色发展成了非常不同的职位，有几种方式可以对它们进行分类。有充分的理由遵循任何一个分类模型，但我相信汤姆·贝瑞的四象限提供了关于什么使CTO成功的最佳框架：

基础设施管理者 - 在CIO的角色变得过于复杂的公司中，CTO承担了基础设施和IT运营的责任：数据中心运营、网络运营、应用开发和维护、安全性和其他直线功能。CIO保留了如何在组织内实际使用技术的责任。这主要是在IT处于纯支持角色的传统业务中使用的模型。
技术愿景家和运营经理 - 这种模式通常在.com和其他以信息技术为关键因素实施商业战略的技术导向公司中发现。CTO负责确定如何使用技术来实施商业战略。这是角色的“技术愿景家”方面。但随后，CTO负责实际集成和运行技术，即“运营经理”的角色。在这种模式中，CTO通常是业务的共同创始人或第一批雇员之一。
面向外部的技术专家 - 我们经常在使用技术为客户和合作伙伴提供产品和服务的公司中看到这种模型；CTO是客户和内部开发之间的中介，并且是产品组合开发的主要影响者。CTO与关键客户保持着不断的联系，并显著参与市场研究。一些较大的软件公司成功使用了这种模式，拥有多个CTO，他们是经验丰富的技术专家，其主要任务是成为客户的桥梁。一些中间件领域的软件公司的CTO还将客户联系描述为他们的主要活动。
大思考者 - 在这个模型中的CTO主要花时间评估如何在内部使用技术来开发新的商业模式和业务线，以及如何预先阻止竞争对手使用技术来颠覆市场。这个CTO的责任通常包括高级技术、竞争分析、技术评估、原型实验室、合作伙伴关系、计划和架构标准。

在前两个模型中，CTO直接管理一个工程部门，他/她在组织中的影响力主要通过他们自己组织中的技术开发来施加。我遇到过管理拥有500 - 1000名工程师或更多的部门的CTO。

在最后两个模型中，CTO扮演的角色需要他/她影响其他部门执行新的方向。为了保证这种影响力水平，CTO通常是执行团队的一部分或接近执行团队，通常向CEO汇报。CTO确实监督一个小团队（通常根据公司的大小为10-50名工程师），该团队充当高风险技术方向的孵化器。

以下是一些参考链接。

Aspatore Inside the Minds Series, Leading CTOs
Mark Minevich, The CTO Handbook
Tom Berray and Raj Sampath, the Role of the CTO: Four Models for Success
Roger Smith, the Role of the Chief Technology Officer in Strategic Innovation, Project Execution, and Mentoring
Roger Smith, 5 Patterns of the Chief Technology Officer

原文链接：https://www.allthingsdistributed.com/2007/07/the_different_cto_roles.html

如何使用AI生成长视频？

2024-03-27 19:29:34

今年最火的AI技术应该是OpenAI在春节期间发布的Sora了。相比起其他视频生成产品就3、4秒的时长，Sora是碾压式的存在。但Sora没有对外开放，所以要生成长视频，暂时也没有其他完整的好的方案。综合各种资料来看，目前最可行的方案应该就是：写剧本/分镜——>生图——>生视频->视频拼接，本质上就是通过多个短时长的视频组成一个完整的长视频。下面就详细讲述一下。

详细的步骤：

脚本确认：拆分镜头，初步确定生成内容。这一步就是需要针对要生成的内容撰写剧本，并拆分成数个镜头。
单帧图片
- 使用Midjourney（V6的语义理解能力有明显提升），DALL-E 3（语义理解能力较好）进行文/图生图
- 审查已生成图片中的细节问题，调整、更换合适的主题内容，并重新生成符合要求的图片
- 使用PS处理图片中的不合理细节，添加未被AI生成的元素
- 使用Stable Diffusion图生图进行图片放大和细节优化
- 使用PS进行图片的最后优化
- 人物不一致可以使用换脸进行统一
图生视频
- 使用RunWay/Pika/SVD/Animatediff实现图片生成短视频，可以综合利用各个视频服务的优点，如RunWay的运动笔刷、Pika的面部表情等，其中Pika还可以对局部视频进行重绘。
视频合成
- 使用剪映/iMove进行短视频片段合成与特效转场处理
- 添加配音和配乐，根据卡点节奏进行视频剪辑与重新生成内容替换(如需要声音)

每一步使用的软件以及关键点如下：

场景描述需要分镜，这里用GPT4来做场景拆解，场景的描述提示词模版如下：

 需要将一段场景的描述改写成一个时长30秒的分镜脚本，再根据每个分镜脚本的文字描述生成单张图片，之后通过图片生成视频，最后将视频进行拼接成最终的成品视频。

 场景描述如下：

 xxx

 分镜脚本结构如下：
 ‒ 序号：递增数字 
 ‒ 景别：远景/全景/中景/近景/特写 
 ‒ 风格：真实影像风格/日本动漫风格/水墨画风格等（在Dalle3里无法直接写作者的名字，比如新海诚，但Midjourney是可以的。） 
 ‒ 角色：具体到是什么样的角色，有什么特殊的颜色、道具、服饰等等。 
 ‒ 环境：森林、家、海边等等 
 ‒ 镜头移动：描述每个分镜中镜头的动作或变化 
 ‒ 比例：16:9/2.35:1等等

 分镜要求如下：
 1. 每个分镜时长4s
 2. xxx
 3. 内容和风格需要xxx

 每一个分镜后续会通过Midjourney进行图片生成。现在请给出每一个分镜脚本以及对应的Midjourney提示词，以Markdown Table的方式输出。

图像需要保持一致性，包括人物和周围场景
- DALL-E 3：一致性可以通过GenID
- Midjourney V6: 最新版有了ref，一致性功能
图生视频这一步，需要结合多种视频软件一起使用。每个软件的特点如下：
- Pixverse: 免费无限生成，有一致性角色功能(效果一般)，可用于无限生成视频后择优选取
- Runway: 每次生成消耗5积分，做角色动作和部分运动镜头会好一点
- Pika: 每次生消耗10积分，做角色动作和面部表情
- Stable Video: 每次生成消耗10积分，适合生成风景视频
换脸的话，可以使用roop或者facefusion，这里有其colab版本：https://github.com/dream80/roop_colab。
视频拼接，可以使用剪映或者苹果电脑上的iMovie。

通过以上方案，基本可以实现长视频的生成，但目前AI生成视频的崩坏率极高，可控性差，所以需要生成很多视频，从中选取最符合预期的。

AI技术概览（PPT版）

2024-02-01 19:29:34

随着2022年底ChatGPT引爆AIGC行业，层出不穷的各种LLM和AIGC应用都让人感觉新的时代马上就要到来。由于业务的需要，2023年自己的主要精力主要放在了AI这部分的跟进与研究。年底给公司做了一次AI技术的科普分享，这里先放出PPT，详细内容待后续的文章补充。

AI已来

AI元年：2023
之前
- 垂直类AI应用：美颜、换脸、推荐、自动驾驶等，每个模型解决特定问题，“人工智障”的对话机器人
- 使用门槛高，主要是研发环节的直接接触
- 以“今日头条”为代表的个性化推荐系统相关AI人才的哄抢
现在
- 大模型，生成式AI：AI对话、AI绘画、AI视频、AI音乐，一个模型解决所有问题
- 使用门槛低，自然语言编程（GPTs store）
- 以“ChatGPT”（2022年11月30号）为代表的大模型人才的哄抢

AI是什么

人工智能：使机器能够以类似于人类智能的方式执行复杂任务的科学和工程，是一门多个领域的交叉学科。
- 机器：运算速度、记忆容量、钢铁身躯
人类：~~判断力、创造力、对人类情感的理解~~与同理、逻辑推理能力
三大学派：符号主义、连接主义、行为主义
- 符号主义：机器拟人心
- 连接主义：机器拟人脑
- 行为主义：机器拟人身
AGI：人工通用智能，也可以叫做通用人工智能或者强人工智能。指的是人工智能系统应该能够像人类一样具备广泛的智能能力，而不仅仅是在某些特定的任务或领域中表现出色。
Agent：AI智能体，能够感知其环境并以自主的方式在该环境中行动以达成其目标的系统。

AI发展大事记

人工智能的萌芽：人工智能之父图灵，1950年提出图灵测试。
人工智能的起点：1956年达特茅斯会议，开启人工智能第一次高潮
第一次低谷：20世纪70年代初，各种人工智能承诺无法兑现
人工智能第二次高潮：20世纪80年代，知识工程和专家系统为代表的符号主义
第二次低谷：20世纪80年代末到90年代初时期，专家系统的局限性
平稳期：20世纪90年-2000年初。1997年深蓝”击败国际象棋冠军
人工智能第三次高潮：2006年，深度学习算法的提出；2012年AlexNet在ImageNet挑战赛的横空出世；2016、2017年AlphaGo打败围棋冠军
AI元年：2023年，生成式AI-ChatGPT、StableDifussion、MidJourney

机器学习、深度学习

实现人工智能的方法。
机器学习：一种可以让机器根据历史经验自动改进自身的学习算法。
深度学习：机器学习的一种，“无监督特征学习”（Unsupervised Feature Learning），以多层神经网络为代表。
- 人类认知过程：分层迭代，逐级抽象

LLM

GenAI：相对于判别式AI（Discriminative AI），能够生成新的内容->AIGC
LLM是生成式AI的一种
最可能通向AGI的方法：Transformer
大语言模型：文本->x，多模态->多模态
- NLP
- 涌现：鹦鹉vs乌鸦；人类智能的本质？

大模型产业链

大模型=计算机 or 操作系统, GPTs store
我们的位置 -> 应用层!

GenAI应用概览

GenAI数据：https://zw73xyquvv.feishu.cn/wiki/M2BywHAvCiioSzk9qXHczwJZnOd

ChatBot

ChatGPT
微软Copilot：微软基于ChatGPT的ChatBot应用，集成了DALL.E-3、suno.ai等插件
KimiChat: 大尺寸上下文（文字、pdf文档等)、实时联网
其他大模型的ChatBot：Claude+、文心一言、豆包、讯飞星火、通义千问…
POE：ChatBot聚合

AI绘画

Stable Diffusion：生态最丰富的开源图像生成项目
DALL-E 3：语义理解能力最强的图像生成产品
Midjourney: 质量最好的图像生成产品
一些大模型聊天机器人自带的绘图：插件、Agent方式
Magnific.ai: 图像精修， https://mp.weixin.qq.com/s/x3F59AcMxG8bmajXO3OXmg
Meta SAM: 图像分割

AI语音

Whisper：基于大模型的ASR，自动语言识别
Elevenlabs：TTS，目前最先进的商业化TTS
OpenAI TTS: TTS，OpenAI开源
Suno.ai: 文生音乐，https://app.suno.ai/song/9a782a3b-fde7-44ae-896f-c4d57698efa9/%C2%A0(中文版的 I'll Be There For You，根据中国文化做稍微的改动)
so-vits-svc：歌声转换，孙燕姿唱周杰伦的歌

AI视频

Runway: 目前技术最先进的视频生成产品
Pika：文本->视频，720p, 4秒
Morph Studio：文本->视频，1080P，7秒文生视频“黑马”Morph Studio来袭：好用、1080P 、7秒时长还免费
Stable Video Diffusion: StableAI开源的视频生成技术，https://replicate.com/stability-ai/stable-video-diffusion
HeyGen：数字人播报视频生成，霉霉说中文
WonderStudio: 视频CG角色替换，https://www.youtube.com/watch?v=YuUsunFIJCU
图片 -> 真人跳舞视频：通义千问“全民舞王”
- MagicDance
- Animate Anyone

其他

文本->3D
- Mesah.ai
- Tripo3D.ai
图片->网页: https://screenshottocode.com/
图片/文本->网页、UI：https://v0.dev/

我们可以做什么

基于大模型的产品研发
个人
- 文章总结摘要：https://kimi.moonshot.cn/chat/cm6p88kudu6f77a0fqig
- 写儿童故事：https://chat.openai.com/share/6c86a6a3-5cda-45e8-af10-4bb4cd2476fb
- 专业问题解答：https://chat.openai.com/share/0d9de7f4-eba3-4eba-be2b-0dd89b146d53
工作
辅助编程: Genie、Github Copilot
分析需求文档，输出摘要和模块
基于LLM的研发全流程

展望

新摩尔定律：宇宙中的智能数量每18个月翻一番
所有的应用都值得用AI重构一遍
AI不会取代人类，但会AI的会取代不会AI的人类

HJ | 杭建修改