2025-02-23 19:29:34
本文内容来自一次内部分享。主要是对目前非常火的DeepSeek的一些自己的认知和理解。
DeepSeek是一个由中国公司推出的媲美ChatGPT o1能力的开源推理大模型,其中文能力更强,而且由于背后公司数据的特点,在金融方面具有优势。
这里所说的推理大模型是相对于之前的非推理模型,更加强化了推理、逻辑分析和决策能力,可以看做是把之前的CoT能力直接做到了模型里。
DeepSeek本身是包括V3和R1两个模型,参数都达到6000亿,也就是现在市面上很多人说的满血版。而DeepSeek开源的几个蒸馏版本的模型其实本质还是qwen和llama,只是用了R1的推理数据做了微调。
综合了各种榜单和一些评测,并基于公司实际使用的经验,对现在主流的大模型做了如下梯队排名:
在选择模型时需要注意:
通过这个梯度,也可以看到DeepSeek并不是能力最强的,但R1确实是国内最好的推理模型。而非推理模型国内的通义千问是能力最强的。这里需要提到的一点就是Kimi其实也和DeepSeek差不多同一时间推出了推理模型的,能力也没有差太多,但由于不是完全开源的,所以被DeepSeek给完全盖住了。
如第一部分所说,本质上DeepSeek是一个中国公司做到了O1水平并且开源了的推理大模型。具体来说,之所以它这么火有以下几点:
国内外很多大模型厂商,为什么是DeepSeek做出来了呢?
这里还想提的是,春节期间所谓的国运一说,我觉得如果DeepSeek在不长的时间能追上甚至超过o3,那真的可以说国运了。
DeepSeek由于受限于显卡的性能(H800),通过工程优化上的创新提升了算法效率,从而也大大降低了成本。
推理模型是有使用场景的,适合需要深度思考的场景,如设计、审查、推理、复杂计算等。如果让其做一些简单的任务,如实现代码,可能会思考来思考去,反而降低效率。结合推理模型+非推理模型是现在一种常用的方式,如DeepSeek R1 + Claude 3.5 sonnet就是使用R1来做方案设计,使用Claude来写代码。
不同于之前的非推理模型,推理模型的提示词跟侧重于描述清楚任务目标,过多的引导反而是干扰。
此外,通过DeepSeek对蒸馏模型的证明,一些行业模型也可以通过DeekSeek R1的推理数据来微调,实现蒸馏的效果。
2024-06-05 19:29:34
5月底去了一趟旧金山,和一些华人AI科学家进行了交流,也参加了旧金山由GPTDao和微软联合举办的GenAI大会。这里输出一些收获。
2024-04-08 19:29:34
这是来自Quora上的一个问题:Is it required to be a developer/coder to become a CTO? Why can’t an architect become a CTO. 下面是里面的最佳答案。自己比较认同其中的观点,CTO确实是需要有编程背景的,而真正意义上的软件架构师也是具有编程背景的,所以也是可以成为CTO的。
作为一家创业公司的CTO,你需要了解以下几点:
(1)从上到下对整个技术栈有一个全面的了解,包括每一层的替代方案和取舍权衡。
(2)如何以一种能够给你想要招聘的工程师留下深刻印象的方式进行严肃编程。
(3)如何自我学习你需要了解的技术知识,以及如何在至少100码外就能嗅出技术上的废话。
(4)如何领导工程团队,如何管理工程团队(以及两者之间的区别是什么,因为它们非常不同)。
(5)如何可靠地估计实现其他C级领导愿景所需的工作量。如何向他们沟通可能的权衡,并如何经常从一个过于模糊或过于具体的起点找到真正的需求。
(6)如何向从资深的高级工程师到极其愚蠢的媒体等各方面代表公司的技术愿景。
(7)如何保护你的团队免受不必要的变化,并如何带领他们以及公司其他部分经历必要的变革。
(8)如何指导工程师关于他们的成长和职业目标,无论是作为个体还是团队成员。
(9)如何发现可能的技术和公司问题,并在它们影响工程团队的动力之前清除它们。
(10)如何保持工程团队的持续发展,这可能意味着扮演IT角色,充当工程师,或周末架子搭建者(原文是weekend shelf-builder,不太理解,可能指的是自我驱动去做一些事情的意思)。
你如何达到这个目标?需要你通过在创业公司的工程团队持续工作并向各种听众做技术演讲。从我看着当初我的CTO说“我希望有一天能做到这个位置”,到我准备好自己做这件事,我花了10年的时间。
编辑:既然这个问题有所融合且稍微有所变化,我想直接回应它。
CTO确实可以是一名架构师,但软件架构师是一名开发者。
有些公司有他们称之为“架构师”的人,但他们实际上从未真正建立过系统。他们在销售会议中在白板上画大框和线条,然后就走开了。
我们在Sun公司有一个词来称呼这些人,我们称他们为“市场技术人员(Marketechts)”。并且,一个市场技术人员会成为一个糟糕的CTO,因为他们谈论和思考的是广泛的概括,而不是完成工作的真正细节。
2024-04-07 19:29:34
这是来自开源项目awesome-cto的一篇文章,也是自己曾有过的疑问。自己目前担任CTO这个岗位已经6年多了,现在对这个问题的认知:其实CTO这个角色的职责还是要根据CEO的期望来定。初创团队CTO一般就是一个高级开发工程师,随着团队规模增大,会逐渐转换为架构师、技术经理,最后有些CTO会去负责基础技术研究,有些CTO则统管整个研发团队,还有一些则会去管理部分业务。不管如何,这个职责还是要看CEO心里的期望是什么。
我曾经为一个关于企业创新中首席技术官角色的小型讨论会准备演讲稿,我再次意识到围绕CTO角色存在相当多的混淆。讨论CTO角色时总是首先遇到的问题是,没有一个公认的定义来说明CTO的实际工作内容。这个角色根据公司的类型以及技术在公司中的角色非常不同。
一段时间以前,我做了一些挖掘,研究CTO角色的历史以及如何最好地分类它们。我在这里发布,因为它可能具有普遍的兴趣。一些我使用的来源在这个笔记的末尾。
当Edge的创始人约翰·布罗克曼采访内森·默夫沃德时,他的第一个问题是“什么是CTO”,对此内森回答说:
“我哪知道。你知道的,当比尔和我讨论我接受这份工作时,有一刻他说,好的,那些成功的CTO的杰出例子是什么。大约五分钟后我们决定,好吧,肯定有一些,但我们并没有准确知道谁是伟大的CTO,因为许多实际上是伟大的CTO们并没有那个头衔,至少一些有那个头衔的人可以说并不擅长它。
我的工作是在微软思考未来的技术。如果你想拥有一个伟大的未来,你必须开始在现在思考它,因为当未来到来时,你将没有时间。”
第一个CTO在八十年代末出现。许多公司开始利用其研发实验室交付的结果,这些实验室的主管被提升到可以使用技术为公司提供战略优势的位置。这个角色发展成了非常不同的职位,有几种方式可以对它们进行分类。有充分的理由遵循任何一个分类模型,但我相信汤姆·贝瑞的四象限提供了关于什么使CTO成功的最佳框架:
在前两个模型中,CTO直接管理一个工程部门,他/她在组织中的影响力主要通过他们自己组织中的技术开发来施加。我遇到过管理拥有500 - 1000名工程师或更多的部门的CTO。
在最后两个模型中,CTO扮演的角色需要他/她影响其他部门执行新的方向。为了保证这种影响力水平,CTO通常是执行团队的一部分或接近执行团队,通常向CEO汇报。CTO确实监督一个小团队(通常根据公司的大小为10-50名工程师),该团队充当高风险技术方向的孵化器。
以下是一些参考链接。
原文链接:https://www.allthingsdistributed.com/2007/07/the_different_cto_roles.html
2024-03-27 19:29:34
今年最火的AI技术应该是OpenAI在春节期间发布的Sora了。相比起其他视频生成产品就3、4秒的时长,Sora是碾压式的存在。但Sora没有对外开放,所以要生成长视频,暂时也没有其他完整的好的方案。综合各种资料来看,目前最可行的方案应该就是:写剧本/分镜——>生图——>生视频->视频拼接,本质上就是通过多个短时长的视频组成一个完整的长视频。下面就详细讲述一下。
详细的步骤:
每一步使用的软件以及关键点如下:
场景描述需要分镜,这里用GPT4来做场景拆解,场景的描述提示词模版如下:
需要将一段场景的描述改写成一个时长30秒的分镜脚本,再根据每个分镜脚本的文字描述生成单张图片,之后通过图片生成视频,最后将视频进行拼接成最终的成品视频。
场景描述如下:
xxx
分镜脚本结构如下:
‒ 序号:递增数字
‒ 景别:远景/全景/中景/近景/特写
‒ 风格:真实影像风格/日本动漫风格/水墨画风格等(在Dalle3里无法直接写作者的名字,比如新海诚,但Midjourney是可以的。)
‒ 角色:具体到是什么样的角色,有什么特殊的颜色、道具、服饰等等。
‒ 环境:森林、家、海边等等
‒ 镜头移动:描述每个分镜中镜头的动作或变化
‒ 比例:16:9/2.35:1等等
分镜要求如下:
1. 每个分镜时长4s
2. xxx
3. 内容和风格需要xxx
每一个分镜后续会通过Midjourney进行图片生成。现在请给出每一个分镜脚本以及对应的Midjourney提示词,以Markdown Table的方式输出。
图像需要保持一致性,包括人物和周围场景
图生视频这一步,需要结合多种视频软件一起使用。每个软件的特点如下:
换脸的话,可以使用roop或者facefusion,这里有其colab版本:https://github.com/dream80/roop_colab。
视频拼接,可以使用剪映或者苹果电脑上的iMovie。
通过以上方案,基本可以实现长视频的生成,但目前AI生成视频的崩坏率极高,可控性差,所以需要生成很多视频,从中选取最符合预期的。
2024-02-01 19:29:34
随着2022年底ChatGPT引爆AIGC行业,层出不穷的各种LLM和AIGC应用都让人感觉新的时代马上就要到来。由于业务的需要,2023年自己的主要精力主要放在了AI这部分的跟进与研究。年底给公司做了一次AI技术的科普分享,这里先放出PPT,详细内容待后续的文章补充。
GenAI数据:https://zw73xyquvv.feishu.cn/wiki/M2BywHAvCiioSzk9qXHczwJZnOd
基于LLM的研发全流程