MoreRSS

site iconHJ | 杭建修改

《Java工程师修炼之道》作者。重度Java使用者,专注于JavaEE、系统架构、分布式等后端技术。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

HJ | 杭建的 RSS 预览

美国AI之旅

2024-06-05 19:29:34

5月底去了一趟旧金山,和一些华人AI科学家进行了交流,也参加了旧金山由GPTDao和微软联合举办的GenAI大会。这里输出一些收获。

  1. 一个华人科学家分享他们团队在做消费级设备(车载、手机)大模型的创业。苹果最近发布的Apple Intelligence也是类似的思路。之前陈天奇团队做的mlc-llm同样是在做这样的事情,再结合特斯拉的FSD也是基于Transformer的自动驾驶决策,这个方向还是很有机会的。但国内貌似很少听到类似的项目。
  2. Amino: 一家华人创办的VC公司。看到他们投的一家针对美国移民多这一特点的电商平台,每个国家的人进去看到都是来自这个国家的商品,这个估计只有美国是合适的。另外,他们也分享了目前硅谷还是创业者导向的,一个好的创业项目,需要投资人去争取。这家公司的创始人有个抖音号叫硅谷李师傅,在持续分享硅谷的一些东西。
  3. Meta AI:分享了Meta大模型方面的进展,印象比较深刻的是实时图像生成,可以边输入提示词,边生成图像。网址:https://www.meta.ai/?icebreaker=imagine
  4. Tesla:分享了他们在自动驾驶方面的进展。特斯拉的FSD不同于目前主流自动驾驶技术的是使用了基于Transformer的驾驶决策,通过使用保险公司大量驾驶分数好的司机的数据来训练这个模型,对比Waymo基于激光雷达,成本会低非常多。但受限于保密的原因,其他有干货的东西感觉不是很多。
  5. Nvidia: 分享了他们正在开发的多模态大模型。自己这次发现英伟达虽然主要精力在芯片,但其实也在大量地做各种AI模型层、应用层的尝试,包括后来在GenAI会议上Jim Fan讲的具身智能,这里有这个分享的总结:https://mp.weixin.qq.com/s/DF0GBx99vodq0dYM98iRFA%E3%80%82
  6. 听了Google科学家讲述Google在多模态大模型方面的进展。印象比较深的一点,就是现在业界对小公司的包容度大,对大公司包容度小,因此经常会放大谷歌的问题,某种维度上是不公平的。
  7. 硅谷的人才流动很频繁,没有什么绝对的技术壁垒,而且硅谷是没有竞业协议的。所以,OpenAI的优势并没有那么绝对。目前谷歌已经从OpenAI挖回来了不少大模型人才。
  8. 旧金山GenAI Summit 2024
    • 硅谷这边各种小的应用都能支撑起一家创业公司,比如会场在用的otter.ai就是实时记录会议内容,和钉钉、飞书的闪记的功能是一样的。
    • 华人团队做的天机阁AI测算,这个是我们公司比较关注的一个赛道,天机阁的应用体验做的很一般,但测算的体验确实不错。应该是有自己的专有数据的。
    • Groq的AI加速芯片:在芯片层面提速的AI服务。这个之前贾杨青是质疑过其成本的。
    • 贾杨青的Lepton AI是在做AI云原生,能够快速部署大模型应用。
    • 合成数据对AI发展的重要性:随着现实数据逐渐被用完,需要大量的合成数据来训练模型,这方面目前还存在着很多挑战。
  9. 贾杨青分享中提到的理查德·萨顿教授的作品《痛苦的教训》中的一句话:"从70年的人工智能研究中可以得出的最大教训是,利用计算的通用方法最终是最有效的,而且差距很大。"
    • 通用方法:在人工智能研究中,通用方法指的是那些可以应用于广泛问题的算法和技术,而不是专门为特定问题设计的解决方案。通用方法通常具有更广泛的适用性和更长的生命周期。
    • 利用计算:这一点强调了计算能力的重要性。在过去的几十年中,计算机的处理能力和速度有了巨大的提升,这使得复杂的算法和大规模数据处理成为可能。
    • 最有效的:萨顿教授指出,通用方法结合强大的计算能力,往往比特定问题的专用方法更有效。也就是说,使用计算能力来推动通用算法的发展,能够在更大范围内取得成功,并且效果更显著。
    • 差距很大:这一点强调了效果上的显著差异。萨顿教授认为,通用方法相对于专用方法,其优势不仅仅是略胜一筹,而是有着明显的、显著的效果提升。
    • 总的来说,萨顿教授的这句话提醒我们,在人工智能领域,应该注重发展那些可以广泛应用的通用算法,并充分利用现代计算技术的力量。这样的方法不仅更为高效,而且在各种不同的应用场景中都能表现出色。
  10. 美国对新事物的接受度没有那么高,因此Tesla在美国反而没有国内常见。不过,FSD在美国已经全面推行。打Uber的时候司机开启了FSD,整体感觉还是很丝滑的。
  11. 美国的油价挺高的,所以日本车在美国占用率很高,随处可见的也是丰田、本田这些车。
  12. Google的Waymo在旧金山随处可见,有同行的朋友有邀请码体验了一下,驾驶没有任何问题,基本和打普通出租车没有任何区别。但其改造一辆车的成本非常昂贵,后来听朋友说,由于特斯拉的RoboTaxi即将发布,Waymo的很多人都离职了。特斯拉的FSD目前看来才是未来的自动驾驶发展方向。

CTO都必须是程序员出身吗?为什么架构师做不了CTO?

2024-04-08 19:29:34

这是来自Quora上的一个问题:Is it required to be a developer/coder to become a CTO? Why can’t an architect become a CTO. 下面是里面的最佳答案。自己比较认同其中的观点,CTO确实是需要有编程背景的,而真正意义上的软件架构师也是具有编程背景的,所以也是可以成为CTO的。


作为一家创业公司的CTO,你需要了解以下几点:

(1)从上到下对整个技术栈有一个全面的了解,包括每一层的替代方案和取舍权衡。

(2)如何以一种能够给你想要招聘的工程师留下深刻印象的方式进行严肃编程。

(3)如何自我学习你需要了解的技术知识,以及如何在至少100码外就能嗅出技术上的废话。

(4)如何领导工程团队,如何管理工程团队(以及两者之间的区别是什么,因为它们非常不同)。

(5)如何可靠地估计实现其他C级领导愿景所需的工作量。如何向他们沟通可能的权衡,并如何经常从一个过于模糊或过于具体的起点找到真正的需求。

(6)如何向从资深的高级工程师到极其愚蠢的媒体等各方面代表公司的技术愿景。

(7)如何保护你的团队免受不必要的变化,并如何带领他们以及公司其他部分经历必要的变革。

(8)如何指导工程师关于他们的成长和职业目标,无论是作为个体还是团队成员。

(9)如何发现可能的技术和公司问题,并在它们影响工程团队的动力之前清除它们。

(10)如何保持工程团队的持续发展,这可能意味着扮演IT角色,充当工程师,或周末架子搭建者(原文是weekend shelf-builder,不太理解,可能指的是自我驱动去做一些事情的意思)。

你如何达到这个目标?需要你通过在创业公司的工程团队持续工作并向各种听众做技术演讲。从我看着当初我的CTO说“我希望有一天能做到这个位置”,到我准备好自己做这件事,我花了10年的时间。

编辑:既然这个问题有所融合且稍微有所变化,我想直接回应它。

CTO确实可以是一名架构师,但软件架构师是一名开发者。

有些公司有他们称之为“架构师”的人,但他们实际上从未真正建立过系统。他们在销售会议中在白板上画大框和线条,然后就走开了。

我们在Sun公司有一个词来称呼这些人,我们称他们为“市场技术人员(Marketechts)”。并且,一个市场技术人员会成为一个糟糕的CTO,因为他们谈论和思考的是广泛的概括,而不是完成工作的真正细节。

不同的CTO角色 by Werner Vogels (Amazon CTO)

2024-04-07 19:29:34

这是来自开源项目awesome-cto的一篇文章,也是自己曾有过的疑问。自己目前担任CTO这个岗位已经6年多了,现在对这个问题的认知:其实CTO这个角色的职责还是要根据CEO的期望来定。初创团队CTO一般就是一个高级开发工程师,随着团队规模增大,会逐渐转换为架构师、技术经理,最后有些CTO会去负责基础技术研究,有些CTO则统管整个研发团队,还有一些则会去管理部分业务。不管如何,这个职责还是要看CEO心里的期望是什么。


我曾经为一个关于企业创新中首席技术官角色的小型讨论会准备演讲稿,我再次意识到围绕CTO角色存在相当多的混淆。讨论CTO角色时总是首先遇到的问题是,没有一个公认的定义来说明CTO的实际工作内容。这个角色根据公司的类型以及技术在公司中的角色非常不同。

一段时间以前,我做了一些挖掘,研究CTO角色的历史以及如何最好地分类它们。我在这里发布,因为它可能具有普遍的兴趣。一些我使用的来源在这个笔记的末尾。

当Edge的创始人约翰·布罗克曼采访内森·默夫沃德时,他的第一个问题是“什么是CTO”,对此内森回答说:

“我哪知道。你知道的,当比尔和我讨论我接受这份工作时,有一刻他说,好的,那些成功的CTO的杰出例子是什么。大约五分钟后我们决定,好吧,肯定有一些,但我们并没有准确知道谁是伟大的CTO,因为许多实际上是伟大的CTO们并没有那个头衔,至少一些有那个头衔的人可以说并不擅长它。

我的工作是在微软思考未来的技术。如果你想拥有一个伟大的未来,你必须开始在现在思考它,因为当未来到来时,你将没有时间。”

第一个CTO在八十年代末出现。许多公司开始利用其研发实验室交付的结果,这些实验室的主管被提升到可以使用技术为公司提供战略优势的位置。这个角色发展成了非常不同的职位,有几种方式可以对它们进行分类。有充分的理由遵循任何一个分类模型,但我相信汤姆·贝瑞的四象限提供了关于什么使CTO成功的最佳框架:

  • 基础设施管理者 - 在CIO的角色变得过于复杂的公司中,CTO承担了基础设施和IT运营的责任:数据中心运营、网络运营、应用开发和维护、安全性和其他直线功能。CIO保留了如何在组织内实际使用技术的责任。这主要是在IT处于纯支持角色的传统业务中使用的模型。
  • 技术愿景家和运营经理 - 这种模式通常在.com和其他以信息技术为关键因素实施商业战略的技术导向公司中发现。CTO负责确定如何使用技术来实施商业战略。这是角色的“技术愿景家”方面。但随后,CTO负责实际集成和运行技术,即“运营经理”的角色。在这种模式中,CTO通常是业务的共同创始人或第一批雇员之一。
  • 面向外部的技术专家 - 我们经常在使用技术为客户和合作伙伴提供产品和服务的公司中看到这种模型;CTO是客户和内部开发之间的中介,并且是产品组合开发的主要影响者。CTO与关键客户保持着不断的联系,并显著参与市场研究。一些较大的软件公司成功使用了这种模式,拥有多个CTO,他们是经验丰富的技术专家,其主要任务是成为客户的桥梁。一些中间件领域的软件公司的CTO还将客户联系描述为他们的主要活动。
  • 大思考者 - 在这个模型中的CTO主要花时间评估如何在内部使用技术来开发新的商业模式和业务线,以及如何预先阻止竞争对手使用技术来颠覆市场。这个CTO的责任通常包括高级技术、竞争分析、技术评估、原型实验室、合作伙伴关系、计划和架构标准。

在前两个模型中,CTO直接管理一个工程部门,他/她在组织中的影响力主要通过他们自己组织中的技术开发来施加。我遇到过管理拥有500 - 1000名工程师或更多的部门的CTO。

在最后两个模型中,CTO扮演的角色需要他/她影响其他部门执行新的方向。为了保证这种影响力水平,CTO通常是执行团队的一部分或接近执行团队,通常向CEO汇报。CTO确实监督一个小团队(通常根据公司的大小为10-50名工程师),该团队充当高风险技术方向的孵化器。

以下是一些参考链接。

原文链接:https://www.allthingsdistributed.com/2007/07/the_different_cto_roles.html

如何使用AI生成长视频?

2024-03-27 19:29:34

今年最火的AI技术应该是OpenAI在春节期间发布的Sora了。相比起其他视频生成产品就3、4秒的时长,Sora是碾压式的存在。但Sora没有对外开放,所以要生成长视频,暂时也没有其他完整的好的方案。综合各种资料来看,目前最可行的方案应该就是:写剧本/分镜——>生图——>生视频->视频拼接,本质上就是通过多个短时长的视频组成一个完整的长视频。下面就详细讲述一下。

详细的步骤:

  1. 脚本确认:拆分镜头,初步确定生成内容。这一步就是需要针对要生成的内容撰写剧本,并拆分成数个镜头。
  2. 单帧图片
    • 使用Midjourney(V6的语义理解能力有明显提升),DALL-E 3(语义理解能力较好)进行文/图生图
    • 审查已生成图片中的细节问题,调整、更换合适的主题内容,并重新生成符合要求的图片
    • 使用PS处理图片中的不合理细节,添加未被AI生成的元素
    • 使用Stable Diffusion图生图进行图片放大和细节优化
    • 使用PS进行图片的最后优化
    • 人物不一致可以使用换脸进行统一
  3. 图生视频
    • 使用RunWay/Pika/SVD/Animatediff实现图片生成短视频,可以综合利用各个视频服务的优点,如RunWay的运动笔刷、Pika的面部表情等,其中Pika还可以对局部视频进行重绘。
  4. 视频合成
    • 使用剪映/iMove进行短视频片段合成与特效转场处理
    • 添加配音和配乐,根据卡点节奏进行视频剪辑与重新生成内容替换(如需要声音)

每一步使用的软件以及关键点如下:

  1. 场景描述需要分镜,这里用GPT4来做场景拆解,场景的描述提示词模版如下:

     需要将一段场景的描述改写成一个时长30秒的分镜脚本,再根据每个分镜脚本的文字描述生成单张图片,之后通过图片生成视频,最后将视频进行拼接成最终的成品视频。
    
     场景描述如下:
    
     xxx
    
     分镜脚本结构如下:
     ‒ 序号:递增数字 
     ‒ 景别:远景/全景/中景/近景/特写 
     ‒ 风格:真实影像风格/日本动漫风格/水墨画风格等(在Dalle3里无法直接写作者的名字,比如新海诚,但Midjourney是可以的。) 
     ‒ 角色:具体到是什么样的角色,有什么特殊的颜色、道具、服饰等等。 
     ‒ 环境:森林、家、海边等等 
     ‒ 镜头移动:描述每个分镜中镜头的动作或变化 
     ‒ 比例:16:9/2.35:1等等
    
     分镜要求如下:
     1. 每个分镜时长4s
     2. xxx
     3. 内容和风格需要xxx
    
     每一个分镜后续会通过Midjourney进行图片生成。现在请给出每一个分镜脚本以及对应的Midjourney提示词,以Markdown Table的方式输出。
    
  2. 图像需要保持一致性,包括人物和周围场景

    • DALL-E 3:一致性可以通过GenID
    • Midjourney V6: 最新版有了ref,一致性功能
  3. 图生视频这一步,需要结合多种视频软件一起使用。每个软件的特点如下:

    • Pixverse: 免费无限生成,有一致性角色功能(效果一般),可用于无限生成视频后择优选取
    • Runway: 每次生成消耗5积分,做角色动作和部分运动镜头会好一点
    • Pika: 每次生消耗10积分,做角色动作和面部表情
    • Stable Video: 每次生成消耗10积分,适合生成风景视频

    换脸的话,可以使用roop或者facefusion,这里有其colab版本:https://github.com/dream80/roop_colab

  4. 视频拼接,可以使用剪映或者苹果电脑上的iMovie。

通过以上方案,基本可以实现长视频的生成,但目前AI生成视频的崩坏率极高,可控性差,所以需要生成很多视频,从中选取最符合预期的。

AI技术概览(PPT版)

2024-02-01 19:29:34

随着2022年底ChatGPT引爆AIGC行业,层出不穷的各种LLM和AIGC应用都让人感觉新的时代马上就要到来。由于业务的需要,2023年自己的主要精力主要放在了AI这部分的跟进与研究。年底给公司做了一次AI技术的科普分享,这里先放出PPT,详细内容待后续的文章补充。

AI已来

  • AI元年:2023
  • 之前
    • 垂直类AI应用:美颜、换脸、推荐、自动驾驶等,每个模型解决特定问题,“人工智障”的对话机器人
    • 使用门槛高,主要是研发环节的直接接触
    • 以“今日头条”为代表的个性化推荐系统相关AI人才的哄抢
  • 现在
    • 大模型,生成式AI:AI对话、AI绘画、AI视频、AI音乐,一个模型解决所有问题
    • 使用门槛低,自然语言编程(GPTs store)
    • 以“ChatGPT”(2022年11月30号)为代表的大模型人才的哄抢

AI是什么

  • 人工智能:使机器能够以类似于人类智能的方式执行复杂任务的科学和工程,是一门多个领域的交叉学科。
    • 机器:运算速度、记忆容量、钢铁身躯
  • 人类:判断力、创造力、对人类情感的理解与同理、逻辑推理能力
  • 三大学派:符号主义、连接主义、行为主义
    • 符号主义:机器拟人心
    • 连接主义:机器拟人脑
    • 行为主义:机器拟人身
  • AGI:人工通用智能,也可以叫做通用人工智能或者强人工智能。指的是人工智能系统应该能够像人类一样具备广泛的智能能力,而不仅仅是在某些特定的任务或领域中表现出色。
  • Agent:AI智能体,能够感知其环境并以自主的方式在该环境中行动以达成其目标的系统。

AI发展大事记

  • 人工智能的萌芽:人工智能之父图灵,1950年提出图灵测试。
  • 人工智能的起点:1956年达特茅斯会议,开启人工智能第一次高潮
  • 第一次低谷:20世纪70年代初,各种人工智能承诺无法兑现
  • 人工智能第二次高潮:20世纪80年代,知识工程和专家系统为代表的符号主义
  • 第二次低谷:20世纪80年代末到90年代初时期,专家系统的局限性
  • 平稳期:20世纪90年-2000年初。1997年深蓝”击败国际象棋冠军
  • 人工智能第三次高潮:2006年,深度学习算法的提出;2012年AlexNet在ImageNet挑战赛的横空出世;2016、2017年AlphaGo打败围棋冠军
  • AI元年:2023年,生成式AI-ChatGPT、StableDifussion、MidJourney

机器学习、深度学习

  • 实现人工智能的方法。
  • 机器学习:一种可以让机器根据历史经验自动改进自身的学习算法。
  • 深度学习:机器学习的一种,“无监督特征学习”(Unsupervised Feature Learning),以多层神经网络为代表。
    • 人类认知过程:分层迭代,逐级抽象

LLM

  • GenAI:相对于判别式AI(Discriminative AI),能够生成新的内容->AIGC
  • LLM是生成式AI的一种
  • 最可能通向AGI的方法:Transformer
  • 大语言模型:文本->x,多模态->多模态
    • NLP
    • 涌现:鹦鹉vs乌鸦;人类智能的本质?

大模型产业链

  • 大模型=计算机 or 操作系统, GPTs store
  • 我们的位置 -> 应用层!

GenAI应用概览

GenAI数据:https://zw73xyquvv.feishu.cn/wiki/M2BywHAvCiioSzk9qXHczwJZnOd

ChatBot

  • ChatGPT
  • 微软Copilot:微软基于ChatGPT的ChatBot应用,集成了DALL.E-3、suno.ai等插件
  • KimiChat: 大尺寸上下文(文字、pdf文档等)、实时联网
  • 其他大模型的ChatBot:Claude+、文心一言、豆包、讯飞星火、通义千问…
  • POE:ChatBot聚合

AI绘画

AI语音

AI视频

其他

我们可以做什么

展望

  • 新摩尔定律:宇宙中的智能数量每18个月翻一番
  • 所有的应用都值得用AI重构一遍
  • AI不会取代人类,但会AI的会取代不会AI的人类

这三年的一些感悟

2024-01-27 19:29:34

得闲看了一下博客,发现从2021年开始文章就很少了。主要是由于工作的需要,从那时开始基本上都在不停地学习新的东西,每个东西学习和使用的时间都不长,能分享的东西也就不多。而自己年终总结也停留在了2021年。今天想着梳理一下从2021年开始自己的一些感悟吧,也算是总结,也算是一个阶段的分享。

2021-2023可以分为三个阶段

  • 游戏
  • Web3
  • AI

游戏

2021年开始做了一年多的游戏业务,从开始的休闲游戏到后来的网赚游戏,经历了好几次转型。最终以失败告终。

这段经历让我深深体会到了前美团COO干嘉伟的一段话:从职能管理到业务管理,这是一个非常大的跨越。哪怕你是一个非常有经验的职能管理者,管过几千人的团队,也不意味着你就可以顺理成章地孵化出一个5个人的独立业务,二者的能力要求完全不一样。

当然,一个业务的成功很多时候也得看很多客观因素的,比如市场环境、机会等等。但换个角度的话,每个行业总有成功的,为什么不是自己呢?

现在反思来看,自己其实不具备负责一整个业务的能力的。对于一个业务负责人来说,去识别业务的关键环节,并采取有效办法去解决是核心能力。而自己确实识别出来了一些关键点,但却跳不出舒适区,没有弄脏自己的双手去解决问题。这也导致了一次次业务转型的失败。

Web3

2022年下半年开始,停了游戏业务,也关了一些其他业务。在互联网行业夏然而止的境况下,也试着去探索Web3业务。

由于这个话题的敏感性,过程这里就不过多提及了。最终差不多了做了半年,发现其实Web3的本质还是加密货币,其他的都是一种概念炒作而已,也决定停滞了。好的地方时经历了这个学习过程,整个团队算是破除了对Web3的神秘感。

AI

2022年底随着ChatGPT的火爆,一下子点燃了AI行业。而随着23年疫情的结束,也开始了对AI这方面的探索。所以,整个23年是一直处于对AI的学习过程。

首先,肯定逃不开ChatGPT,原理、使用、提示词工程、微调、应用开发等等,都有涉猎。

然后,就是Stable Diffusion、MidJourney等AI绘画产品,逐步都引入了设计团队,很大程度节省了人力,提高了交付效率。

再者就是后来各种开源的LLM,从LLaMA开始,一系列国内国外的模型层出不穷。

概括来看,2023年,AI绘画已经可以用在工业场景了,LLM也能够达到真人水平的聊天水平。但受限于很多限制,除了类似ChatGPT这种LLM原生的聊天应用,杀手级的toC应用一直没有出现(c.ai的留存有问题),这个也是大家目前都在探索的方向。

这个过程也伴随我们的AI应用的从0到1,一路踩坑,一路成长。

其他

除了上面之外,在南京算是待了三年了,还有一些对南京这个城市的感悟。

  • 南京真的算是互联网沙漠了,尤为明显的就是各种技术大会基本就没有在南京开的,虽然上海、杭州都离得不远,但要想完整地参加一次会议,怎么着也得住一晚才行。
  • 南京这个地方,可以看做是东部的西安,还是以研究所、体制内为主的好单位居多。其中14所,据说是全国待遇最好、也是最难进的研究所。自己当时毕业时,投了简历就没啥下文了。
  • 南京比起其他同量级的城市,挺小的。在这里开车即使再堵车,也就是十几二十分钟的事情。
  • 南京对人才的拥抱程度我感觉是不太好的,自己当时用人才资格购房时遇到的一些事情,真的无力吐槽。这个状况貌似也和西安差不多,就先把人给吸引过去,然后就不管了或者直接割这波人的韭菜。
  • 自己待过时间比较长的城市如果自己选定居顺序的话,应该是:杭州>北京>南京>西安。当时如果有北京户口的话,为了下一代,无脑北京也没问题。
  • 23年在成都开了分公司,对比起来,成都招互联网的研发人员比南京容易,薪资还比南京便宜。南京就很尴尬。
  • 南京的教育很卷,据说中考硬卡50%升学率,考不上要么技校,要么就花钱出国。然后江苏最厉害的南京大学对本省每年貌似也就招500左右的学生,与浙大每年在浙江招四五千人相比,真的是很吝啬与照顾本省学生了。当然,好的学校总数确实比浙江多,东南大学、南理、南邮、南师等等,211学校还是不少的。
  • 我自己感觉南京的城市规划是有问题的。在南京开车,有时候就突然来到一片区域感觉进了县城一样,破破旧旧的感觉。尤其有个宁芜铁路,直接把南京主城区分割成了两半,周围的小区一到晚上就只能伴随着一些柴油货车的鸣笛声入睡了。每次经过这地方,一大群人、自行车、电动车等待火车经过放开闸机的景象,犹如回到了90年代。