2024-06-05 19:29:34
5月底去了一趟旧金山,和一些华人AI科学家进行了交流,也参加了旧金山由GPTDao和微软联合举办的GenAI大会。这里输出一些收获。
2024-04-08 19:29:34
这是来自Quora上的一个问题:Is it required to be a developer/coder to become a CTO? Why can’t an architect become a CTO. 下面是里面的最佳答案。自己比较认同其中的观点,CTO确实是需要有编程背景的,而真正意义上的软件架构师也是具有编程背景的,所以也是可以成为CTO的。
作为一家创业公司的CTO,你需要了解以下几点:
(1)从上到下对整个技术栈有一个全面的了解,包括每一层的替代方案和取舍权衡。
(2)如何以一种能够给你想要招聘的工程师留下深刻印象的方式进行严肃编程。
(3)如何自我学习你需要了解的技术知识,以及如何在至少100码外就能嗅出技术上的废话。
(4)如何领导工程团队,如何管理工程团队(以及两者之间的区别是什么,因为它们非常不同)。
(5)如何可靠地估计实现其他C级领导愿景所需的工作量。如何向他们沟通可能的权衡,并如何经常从一个过于模糊或过于具体的起点找到真正的需求。
(6)如何向从资深的高级工程师到极其愚蠢的媒体等各方面代表公司的技术愿景。
(7)如何保护你的团队免受不必要的变化,并如何带领他们以及公司其他部分经历必要的变革。
(8)如何指导工程师关于他们的成长和职业目标,无论是作为个体还是团队成员。
(9)如何发现可能的技术和公司问题,并在它们影响工程团队的动力之前清除它们。
(10)如何保持工程团队的持续发展,这可能意味着扮演IT角色,充当工程师,或周末架子搭建者(原文是weekend shelf-builder,不太理解,可能指的是自我驱动去做一些事情的意思)。
你如何达到这个目标?需要你通过在创业公司的工程团队持续工作并向各种听众做技术演讲。从我看着当初我的CTO说“我希望有一天能做到这个位置”,到我准备好自己做这件事,我花了10年的时间。
编辑:既然这个问题有所融合且稍微有所变化,我想直接回应它。
CTO确实可以是一名架构师,但软件架构师是一名开发者。
有些公司有他们称之为“架构师”的人,但他们实际上从未真正建立过系统。他们在销售会议中在白板上画大框和线条,然后就走开了。
我们在Sun公司有一个词来称呼这些人,我们称他们为“市场技术人员(Marketechts)”。并且,一个市场技术人员会成为一个糟糕的CTO,因为他们谈论和思考的是广泛的概括,而不是完成工作的真正细节。
2024-04-07 19:29:34
这是来自开源项目awesome-cto的一篇文章,也是自己曾有过的疑问。自己目前担任CTO这个岗位已经6年多了,现在对这个问题的认知:其实CTO这个角色的职责还是要根据CEO的期望来定。初创团队CTO一般就是一个高级开发工程师,随着团队规模增大,会逐渐转换为架构师、技术经理,最后有些CTO会去负责基础技术研究,有些CTO则统管整个研发团队,还有一些则会去管理部分业务。不管如何,这个职责还是要看CEO心里的期望是什么。
我曾经为一个关于企业创新中首席技术官角色的小型讨论会准备演讲稿,我再次意识到围绕CTO角色存在相当多的混淆。讨论CTO角色时总是首先遇到的问题是,没有一个公认的定义来说明CTO的实际工作内容。这个角色根据公司的类型以及技术在公司中的角色非常不同。
一段时间以前,我做了一些挖掘,研究CTO角色的历史以及如何最好地分类它们。我在这里发布,因为它可能具有普遍的兴趣。一些我使用的来源在这个笔记的末尾。
当Edge的创始人约翰·布罗克曼采访内森·默夫沃德时,他的第一个问题是“什么是CTO”,对此内森回答说:
“我哪知道。你知道的,当比尔和我讨论我接受这份工作时,有一刻他说,好的,那些成功的CTO的杰出例子是什么。大约五分钟后我们决定,好吧,肯定有一些,但我们并没有准确知道谁是伟大的CTO,因为许多实际上是伟大的CTO们并没有那个头衔,至少一些有那个头衔的人可以说并不擅长它。
我的工作是在微软思考未来的技术。如果你想拥有一个伟大的未来,你必须开始在现在思考它,因为当未来到来时,你将没有时间。”
第一个CTO在八十年代末出现。许多公司开始利用其研发实验室交付的结果,这些实验室的主管被提升到可以使用技术为公司提供战略优势的位置。这个角色发展成了非常不同的职位,有几种方式可以对它们进行分类。有充分的理由遵循任何一个分类模型,但我相信汤姆·贝瑞的四象限提供了关于什么使CTO成功的最佳框架:
在前两个模型中,CTO直接管理一个工程部门,他/她在组织中的影响力主要通过他们自己组织中的技术开发来施加。我遇到过管理拥有500 - 1000名工程师或更多的部门的CTO。
在最后两个模型中,CTO扮演的角色需要他/她影响其他部门执行新的方向。为了保证这种影响力水平,CTO通常是执行团队的一部分或接近执行团队,通常向CEO汇报。CTO确实监督一个小团队(通常根据公司的大小为10-50名工程师),该团队充当高风险技术方向的孵化器。
以下是一些参考链接。
原文链接:https://www.allthingsdistributed.com/2007/07/the_different_cto_roles.html
2024-03-27 19:29:34
今年最火的AI技术应该是OpenAI在春节期间发布的Sora了。相比起其他视频生成产品就3、4秒的时长,Sora是碾压式的存在。但Sora没有对外开放,所以要生成长视频,暂时也没有其他完整的好的方案。综合各种资料来看,目前最可行的方案应该就是:写剧本/分镜——>生图——>生视频->视频拼接,本质上就是通过多个短时长的视频组成一个完整的长视频。下面就详细讲述一下。
详细的步骤:
每一步使用的软件以及关键点如下:
场景描述需要分镜,这里用GPT4来做场景拆解,场景的描述提示词模版如下:
需要将一段场景的描述改写成一个时长30秒的分镜脚本,再根据每个分镜脚本的文字描述生成单张图片,之后通过图片生成视频,最后将视频进行拼接成最终的成品视频。
场景描述如下:
xxx
分镜脚本结构如下:
‒ 序号:递增数字
‒ 景别:远景/全景/中景/近景/特写
‒ 风格:真实影像风格/日本动漫风格/水墨画风格等(在Dalle3里无法直接写作者的名字,比如新海诚,但Midjourney是可以的。)
‒ 角色:具体到是什么样的角色,有什么特殊的颜色、道具、服饰等等。
‒ 环境:森林、家、海边等等
‒ 镜头移动:描述每个分镜中镜头的动作或变化
‒ 比例:16:9/2.35:1等等
分镜要求如下:
1. 每个分镜时长4s
2. xxx
3. 内容和风格需要xxx
每一个分镜后续会通过Midjourney进行图片生成。现在请给出每一个分镜脚本以及对应的Midjourney提示词,以Markdown Table的方式输出。
图像需要保持一致性,包括人物和周围场景
图生视频这一步,需要结合多种视频软件一起使用。每个软件的特点如下:
换脸的话,可以使用roop或者facefusion,这里有其colab版本:https://github.com/dream80/roop_colab。
视频拼接,可以使用剪映或者苹果电脑上的iMovie。
通过以上方案,基本可以实现长视频的生成,但目前AI生成视频的崩坏率极高,可控性差,所以需要生成很多视频,从中选取最符合预期的。
2024-02-01 19:29:34
随着2022年底ChatGPT引爆AIGC行业,层出不穷的各种LLM和AIGC应用都让人感觉新的时代马上就要到来。由于业务的需要,2023年自己的主要精力主要放在了AI这部分的跟进与研究。年底给公司做了一次AI技术的科普分享,这里先放出PPT,详细内容待后续的文章补充。
GenAI数据:https://zw73xyquvv.feishu.cn/wiki/M2BywHAvCiioSzk9qXHczwJZnOd
基于LLM的研发全流程
2024-01-27 19:29:34
得闲看了一下博客,发现从2021年开始文章就很少了。主要是由于工作的需要,从那时开始基本上都在不停地学习新的东西,每个东西学习和使用的时间都不长,能分享的东西也就不多。而自己年终总结也停留在了2021年。今天想着梳理一下从2021年开始自己的一些感悟吧,也算是总结,也算是一个阶段的分享。
2021-2023可以分为三个阶段
2021年开始做了一年多的游戏业务,从开始的休闲游戏到后来的网赚游戏,经历了好几次转型。最终以失败告终。
这段经历让我深深体会到了前美团COO干嘉伟的一段话:从职能管理到业务管理,这是一个非常大的跨越。哪怕你是一个非常有经验的职能管理者,管过几千人的团队,也不意味着你就可以顺理成章地孵化出一个5个人的独立业务,二者的能力要求完全不一样。
当然,一个业务的成功很多时候也得看很多客观因素的,比如市场环境、机会等等。但换个角度的话,每个行业总有成功的,为什么不是自己呢?
现在反思来看,自己其实不具备负责一整个业务的能力的。对于一个业务负责人来说,去识别业务的关键环节,并采取有效办法去解决是核心能力。而自己确实识别出来了一些关键点,但却跳不出舒适区,没有弄脏自己的双手去解决问题。这也导致了一次次业务转型的失败。
2022年下半年开始,停了游戏业务,也关了一些其他业务。在互联网行业夏然而止的境况下,也试着去探索Web3业务。
由于这个话题的敏感性,过程这里就不过多提及了。最终差不多了做了半年,发现其实Web3的本质还是加密货币,其他的都是一种概念炒作而已,也决定停滞了。好的地方时经历了这个学习过程,整个团队算是破除了对Web3的神秘感。
2022年底随着ChatGPT的火爆,一下子点燃了AI行业。而随着23年疫情的结束,也开始了对AI这方面的探索。所以,整个23年是一直处于对AI的学习过程。
首先,肯定逃不开ChatGPT,原理、使用、提示词工程、微调、应用开发等等,都有涉猎。
然后,就是Stable Diffusion、MidJourney等AI绘画产品,逐步都引入了设计团队,很大程度节省了人力,提高了交付效率。
再者就是后来各种开源的LLM,从LLaMA开始,一系列国内国外的模型层出不穷。
概括来看,2023年,AI绘画已经可以用在工业场景了,LLM也能够达到真人水平的聊天水平。但受限于很多限制,除了类似ChatGPT这种LLM原生的聊天应用,杀手级的toC应用一直没有出现(c.ai的留存有问题),这个也是大家目前都在探索的方向。
这个过程也伴随我们的AI应用的从0到1,一路踩坑,一路成长。
除了上面之外,在南京算是待了三年了,还有一些对南京这个城市的感悟。