MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

沉淀·静水流深——机器之心2024年度AI榜单揭晓

2024-12-27 15:00:00


光而不耀,静水深流。几代科研人员和从业者的探索与沉淀,在 2024 年盛放,写下人工智能发展史上至今最为璀璨的一章。 


诺贝尔奖始终见证着人类智慧的巅峰。今年,AI for Science 的力量首次得到这一科学领域至高荣誉的认可。


2024 年,「百模大战」的竞争态势也愈发激烈。各大参与者不敢有丝毫松懈,持续迭代优化的同时,也显著提升了中国大模型的全球竞争力。


自 OpenAI 发布 Sora 掀起视频生成革命以来,国内顶尖科技企业竞相布局视频大模型赛道,多模态大模型正成为推动国产 AI 实力跃升的重要引擎。


与此同时,基于大模型的创新应用也如雨后春笋般涌现。创业者们抓住机遇,在智能问答、搜索、写作、翻译、视频创作等领域不断探索。当每一个应用都可能被大模型重新定义,谁能抵挡住打造下一个改变亿万人生活的「现象级应用」的诱惑? 


在无数科研人员和从业者的不懈耕耘下,2024 年中国人工智能领域更加精彩。这些默默付出的汗水,这些令人瞩目的成就,都值得被铭记。这一年,我们见证了国内科技企业在人工智能领域和大模型方向的重大创新,产品和应用的落地开花;也见证了一批极具潜力的 AI 创业公司崭露头角。


然而,技术的浪潮中更需要清醒的目光。比如,在风起云涌的视频大模型赛道,谁在技术上实现了实质性突破?这些创新又将在哪些场景创造真正的价值?科技巨头和 AI 公司的技术进步包含多少实质性的技术进步?


带着这些思考与期待,机器之心精心策划了 2024 年度榜单,记录中国人工智能奋进的这一年, 勾勒技术创新的璀璨未来。


今日,「AI 中国」机器之心 2024 年度评选正式揭晓:


最强技术实力企业 TOP 10



人工智能领军企业 TOP 20


大模型最具潜力创业企业 TOP 10


最佳大模型 TOP 20


最佳大模型产品及应用 TOP 20


ScienceAI 领军企业 TOP 10


AGI前夜的思考:2025年将出现真正的AI智能体,年轻人需要快速适应

2024-12-27 11:47:00

机器之心报道
作者:Panda、蛋酱

2025 新年将至。对于新的一年和未来几年,你对 AI 领域有什么期待和设想呢?你是否认为 AGI 将要实现了而人类社会的一切都将因之而改变。

创业公司 Exa 的 CEO Will Bryk 在 X 上发了一篇长文,以「AGI 前夜的思考」为题,详细阐述了他对 o3 模型的看法、对未来几年的预测以及 AI 领域面临的主要挑战和风险。之后,他还给年轻人提出了一些建议,以帮助他们为不可避免的 AI 时代做好准备。


这篇文章启发了不少讨论和深度思考:



针对此文,网友们也有很多的好奇,一个关键问题是:毕竟 o3 在高计算量模式下每个任务的成本达到了数千美元。


答案也很简洁:Money is all you need!


接下来,让我们看看 Will Bryk 这篇充满未来主义的文章究竟说了什么以及预言了一个怎样的未来。

AGI 前夜的思考

o3 本不应该让人震惊。OpenAI 在 2 个月前就已经放出了测试时间扩展图,而计算机的发展历史已经告诉我们应该相信趋势线,不管这个趋势多么令人难以置信。真正令人震惊的是这才不过 2 个月时间。2 个月,本科水平的 AI 就进化成了博士水平的 AI。在人类看来,变化激动人心,但快速变化则会让人震惊。

接下来会发生什么是显而易见的。任何任务,只要能够定义其奖励函数,o3 这样的模型都能非常尤其特别(reeeaally)擅长对其进行优化。数学和编程都是非常容易设计奖励函数的任务。写小说要难点。

所以这意味着在短期内(1 年),就会出现尖峰模型。它们在数学、编码和一般推理方面基本上能达到 AGI 级别,但写的小说还很普通。尽管更好的推理能力能让这些模型整体上给人更聪明的感觉,但对于它们没有针对性强化学习过的任务(即未在其训练数据中),它们仍然会失败。

当时间拉到更长范围(1-3 年),我们会不断为其增加新的训练领域(情绪数据、感官数据等),直到补齐各个盲点。此时,这些模型显然就是 AGI 了 —— 可能 Gary Marcus 不会这样想。

Gary Marcus 是 AGI 即将实现论的强烈反对者

智能体将在 2025 年真正到来。o3 这样的模型没有道理不能使用浏览器 / 应用程序。这类任务的奖励模型很容易设计。自动化计算机工作也是一个巨大的市场,因此对于需要说明其巨额开支用途的实验室来说,这能提供巨大的激励。我猜想,到 2025 年 12 月,你就能让你的计算机完成各种工作流程了,不管是浏览网页 / 应用,还是搬运数据。

AI 将会给哪些工作造成重大影响?

在各种知识类工作中,受影响最大的可能是数学家。数学家的工作领域范围是符号空间。他们的工作与物理世界几乎没有联系,因此不会受到物理世界的阻碍。LLM 是符号空间之王。数学其实并不难,灵长类动物只是不擅长而已。正则表达式也是一样。

OpenAI 的 o3 模型在数学和科学基准上都表现非常出色

一个大问题是制作研究级合成数据很难。我猜也没那么难。博士级数学和研究员级数学在我们看来在质量上有所不同,但在 AI 看来可能是一样的,只是需要更多数量级的强化学习。

我给数学家 700 天时间。(这听起来很疯狂,但如果说 o6 还不能打败数学家,听起来同样疯狂;所以我对这个预测的把握超过一半,就像这篇文章中的所有其他预测一样)。还有 700 天,人类就不再是已知宇宙中数学领域的顶尖群体了

我们软件工程师呢?短期内,AI 将助益软件工程师。每位软件工程师都能晋升为技术主管,很不错。在那些完全采用 LLM 的人看来,到 2025 年底,编程将更像是编排一堆小任务再让小智能体去执行

任何有明确规范的 PR(拉取请求)都可由 o4 系统完成,并且错误率也小得可以接受。不过,也有个问题:上下文窗口太小,无法装下一个代码库,但 Sam 这样的领导者也很清楚这一点。

AI 自动化将很快接替所有人类软件工程师吗?并不会。软件工程不只是基于明确清晰的提示词做 PR。不同于数学家,软件工程师需要不断与物理世界(也就是其他人)互动。工程师必须与客户和团队合作,才能理解他们的需求。当工程师设计架构或编写代码时,会涉及到大量有关组织的上下文知识。o4 将无法做到这一点。但是 o4 将帮助有上下文的工程师提速 10 倍以上。

如果软件工程师提速 10 倍了,那么就会需要更少的软件工程师吗?嗯,如果说的是一家具体的公司,那么可能软件工程师需求确实会下降,因为他们可以用更精简的团队实现相同的产出。然而,全世界对软件工程师的需求可能会增加,因为这个世界肯定还需要 10 倍以上的高质量软件。所以我认为我们将看到精简公司应用开发的黄金时代。每个人和每家企业都将获得自己的个性化微应用。

更长远地看(大于 2 年就算是长期了),软件工程将变得完全不同,但很难说会变成怎样。当 o6 系统问世并且完全整合进我们的应用,又怎么会不变呢?3 年后,前端工程师这样的岗位可能就不存在了。很奇怪吗?没那么怪啦 ——30 年前也同样不存在前端工程师。

回头看看,我们能看到每一代软件都会发生天翻地覆的改变。软件的核心一直都围绕着将需求变成纯逻辑。在抽象层级上,这种转变过程已经从二进制代码上升到了 Python。现在则是向英语等自然语言上升。


能用英语编程就为非技术人士进入这一领域打开了大门。但最好的开发者依然还是那些能在各个抽象层级上移动的人。

简而言之,由于软件工程实际上就是通过代码来理解和解决组织的需求,因此软件工程完全自动化的那天就是所有组织完全自动化的一天

前面已经讨论了一些知识工作者,那 AI 对体力工作者有何影响呢?AI 也会接替体力劳动,但会更慢一些,因为还必须处理重力和摩擦。不过,o 系列模型对机器人帮助不大,毕竟一次需要思考一个小时的模型对生产线上的机器人来说没多大用处。

而基础模型的进步能提供帮助,而 o 系列模型可帮助训练这些模型,但我认为这无法解决机器人领域的最大障碍。我认为,这个最大障碍是硬件提升以及快速 / 可靠的感知 + 动作模型。这些需要更长的时间才能获得改进(好几年)。

只有当机器人开始制造机器人并且 AI 开始进行 AI 研究时,才可能出现机器人技术的疯狂快速发展。这可能会由 o 系列模型实现,但我认为还需要再等几年。

波士顿动力的人形机器人已能后空翻

优化测试时间计算 vs 继续扩大规模

之前的讨论都是以年为单位,但也许可以「计算」为单位。时间能决定人类的产出,而计算能决定 AI 的产出,而 AI 产出将逐渐成为研究机构最重要的事情。正因为此,科技巨头正在激烈地竞相构建超级计算集群,比如 Meta 的 2GW 集群、xAI 新增的 10 万台 H100。


所有实验室都将快速跟进 OpenAI ,研发测试时间计算模型,有些实验室可以通过更多的计算来弥补起初较差的算法。他们会像赶上 GPT-4 一样赶上 o 系列模型。要造出这些模型,需要结合常识和每个实验室的秘密配方。

目前尚不清楚 OpenAI 在 o 系列模型方面有多少秘密配方,但它们的提升速度表明这是一种算法上的进步(更容易复现),而不是某种独特的数据组合(更难复现)。

在这个测试时间计算时代,我不清楚拥有更多计算更重要还是更优模型更重要。一方面,你可以通过投入更多的测试时间计算来弥补较差的模型。另一方面,稍好一点的模型可能会节省大量的计算。

如果 xAI 直接凭借更擅长打造超大集群而最终赶上了 OpenAI,那一定会很有意思。

无论如何,模型护城河都不会持续超过一年时间,因为实验室像交换棒球卡一样交换着研究者,也许更重要的是,实验室之间的研究者会一起聚会和睡觉。另外,我认为研究者非常理想化,如果出现状况,会乐于分享信息。

现在的情况有点疯狂。AI 竞赛就像核竞赛,但竞争双方会在周末聚会,并在推特上互相挑衅:打赌你不会在 2025 年拥有最大的核弹,哈哈……

AI 竞赛将继续给人一种嬉皮娱乐的感觉,直到政府介入和 / 或发生一些非常糟糕的事情。

o 系列模型会以几种有趣的方式改变计算扩展的动态。

o 系列模型将激励大规模扩建,因为它们能随着计算的增加而获得明显的收益。计算提供商最喜欢看到这样的 Scaling Law。我猜,当 Sam 想要一个数万亿美元的计算集群时,看到的就是这个定律。


对英伟达来说,这不见得是好事。o 系列模型使得推理比训练更重要。我认为,超级优化的推理芯片比训练芯片更容易制造,因此英伟达在这方面的护城河并没有那么不可撼动。

非常推测:如果 o 系列模型能释放全世界的聚合计算来训练最好的模型呢?比如,如果我们把 Macbook Pro 合在一起,组成一个推理千兆集群,那么开放源代码就能打败封闭源代码,那该有多酷?

AI 将会从根本上改变科学研究

计算之外的另一个新指数是代码本身。如果一个实验室拥有使用最智能模型的唯一或特别途径,他们的软件工程师的生产力比其他实验室高出 2 倍,那么他们就能更快地接近下一个生产力翻番的目标。

除非代码速度达到极限,有一长串实验需要运行,实验室再次陷入计算瓶颈。(我不知道,动态变化很难。如果能看到实验室如何模拟计算与人力之间的关系,那将是一件超酷的事)。

虽然所有这些计算建设和知识工作自动化听起来都很疯狂,但只有当科学家们开始感受到 AGI 的时候,这一切才会变得真正疯狂。我指的是物理学家、化学家和生物学家。

它会从任何理论名称开始,理论物理学是第一位的。如果数学真的被解决了(写这篇文章听起来都很荒谬,但这并不意味着不可能),那么理论物理学也不会落后太多。它也生活在符号领域,LLM 将在这个领域成为超人。

2024 年的诺贝尔物理学和化学奖授予了 AI 研究者

当我们有一百万个 AI 冯诺伊曼在卢萨纳(Meta 即将建立的数据中心)的田野上日夜工作时,会发生什么?它们能以多快的速度读完上个世纪成千上万篇物理学论文,并立即吐出更多正确的 token?

显然,这是难以预测的部分。理论物理、化学、生物学,如果这些对于用 RL 训练出来的 LLM 来说是个笑话呢?在这一点上,我们有什么合理的理由来证明它不会是笑话呢?

是的,我们还没有从这些模型中看到真正的创新,但它们主要是在高中 / 大学阶段,而这些年龄段的人并不会发明新的物理学。我们现在处于阶段性水平,所以我们可能会开始看到一些创造性。

一旦人工智能开始不断提出新的科学理论,进步的瓶颈将是在物理世界中进行测试和实验。那里的瓶颈是劳动力和材料。到那时,如果没有能制造出更多机器人的机器人,那才叫奇怪呢。因此,劳动力问题已经解决。然后,机器人可以开采材料。这里的时间表会很慢,因为建造 / 运输实物需要很长的时间,但这是几年而不是几十年。

AI 发展的阻碍与风险

我以上所说的一切,都是假定人工智能和机器人的研究 / 开发不会遇到新的瓶颈,而且模型可以随心所欲地学习。这几乎肯定不会发生,阻碍人工智能发展的最大瓶颈将是人类

另一个风险是,人工智能会失控。也就是说,它会造成我们无法预料的大灭绝。特别是随着强化学习重回游戏,人工智能现在正在发现自己的优化方案,而不是试图匹配人类数据(匹配人类更安全)。但到目前为止,这些模型的底层大脑仍然是一个 LLM,而 LLM 已经显示出了对人的理解能力。

但我的兴奋感肯定多于害怕感。

未来十年可能实现的目标

我一直向往的科幻世界即将到来。它来得比预想的要快一些,因此我感到恐惧,但在所有可能到达那里的路径中,我不知道最好的路径会有多好。这是一个相当不错的时间表。

我最希望在十年内实现的目标是:

  • 一些疯狂酷炫的物理发现;

  • 最初由机器人建造的火星和月球基地;

  • 完美的家庭教师 / 建议(快到了,需要良好的检索能力、记忆力和更多的个性);

  • 零副作用的生物强化药物;

  • 乘坐超级优化的无人机四处飞行;

  • 使用核聚变、地热和大量太阳能等超级清洁能源;

  • 一些意想不到:人工智能天文学家在望远镜数据中发现外星信号?人工智能化学家轻松设计出室温超导体?人工智能物理学家统一了一些理论?人工智能数学家解决了黎曼猜想?


这些看起来不再是科幻小说,而是近在咫尺的科学现实。

那么,这一切将何去何从?最终我们会得到超级智能,这意味着我们会得到物理定律所允许的一切,我希望能长生不老,并看到其他恒星系统。我还希望把我们的肉体升级到更好的东西。但到目前为止,我最想知道宇宙从何而来。

10 年前,我开始写日记,讲述我是多么想知道这个答案,以及人工智能将如何把我们带到那里,而现在这一切可能真的发生了,这太疯狂了。

我们现在生活的世界,这一切听起来都有可能实现。每一次新的人工智能发展都会让更多的人意识到这一点,o3 就是最近的一次。

我们应当守护我们的未来并适应变化

未来不超级棒的唯一可能就是我们这些人把它搞砸了。

人们认为人工智能实验室的人在控制我们的未来。我不这么认为。他们的工作已经确定。他们只是在探究模型架构,而就算这个实验室不做,也有另外的实验室来做。


但是,很多东西都是完全不确定的。这意味着我们是未来的守护者。我们每一个人都有责任帮助我们的世界渡过未来的艰难时期,让我们拥有一个美好的未来,而不是一个可怕的未来。

有很多方法可以帮助我们:帮助制造能让社会更稳定或让人们更聪明的产品(例如帮助人们规范社交媒体的应用程序)。帮助人们了解正在发生的事情(在社交媒体上提供更多高质量的评论、一个非常好的搜索引擎等)。帮助清理我们的街道,让这座要求把我们带入乌托邦的城市不会看起来反乌托邦。

几乎每个与我交谈过的人都害怕在人工智能世界中失去意义,你可能也是。我想对你说,这不正好相反吗?你生活在历史最重要的时期,你有能力影响它。帮助拯救世界就足够了,不是吗?你想回到那个只有你的事业进步而不是世界都在进步的时代吗?

也许,人们需要做的转变是从「通过个人成功获得意义」到「通过集体成功获得意义」。我们目前的许多工作很快就会自动化,我们必须适应。如果你从一项特定的技能中获得意义,这项技能可能在 5 年后就不再需要了,那你就倒霉了。但如果你能从力所能及的帮助世界中获得意义,那么这种意义永远不会消失。

对于所有因为 o3 而得到建议的新毕业生,我的建议是:学习成为一个高水平的问题解决者和出色的团队合作者。你在学习过程中学到的具体技能并不重要,因为世界变化太快。但是,在很长一段时间内,跳跃性地解决问题和与团队良好合作将非常重要。

你可能还需要接受不稳定世界中的不稳定生活。这会变得很奇怪。你可能不会在郊区有两个孩子和一条狗。你可能会在星际方舟上有两个机器人孩子和一只人工智能狗。

我们正生活在 AGI 的前夜,我希望你们能帮助 AGI 顺利过渡,这样我就能在公元 3024 年的圣诞夜,在四光年外绕着 Altman Centauri 运行的星球上向你们问好。

原文链接:https://x.com/WilliamBryk/status/1871946968148439260

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


2024即将结束,中国AI应用支棱起来了吗?这家公司交出95分答卷

2024-12-27 11:47:00

机器之心原创
机器之心编辑部

在 AI 生成的这些视频中,你能判断出哪个是 Sora 生成的吗?

左为 Sora 生成,右为国产智象多模态大模型生成。

12 月 10 日,OpenAI 发布了 Sora。但与 10 个月前的预览效果相比,正式发布并没有带来预期的震撼效果。许多国产模型在某些方面甚至超越了 Sora。

与此同时,关于图像、视频生成模型应用前景的问题也被再次提起。记得 2 月份 Sora 刚发布预览版的时候,国内 AI 公司就是否跟进这一方向出现了一波分歧 —— 有人认为这个方向有着广阔的应用前景,值得做;但也有人认为这类模型的商业化要五年甚至十年,因此坚持不做。10 个月后,我们看到,那些选择去做的公司不仅在模型效果上有所突破,也确实摸索出了一些当前就可以落地的场景。

贡献上述 demo 的智象未来(HiDream.ai)就是这样一家公司。

智象未来成立于 2023 年 3 月,核心团队在几年前就开始研究视频、图像生成模型。如今,他们的智象多模态生成大模型已经更新到了 3.0 版本,还发布了理解大模型 1.0

该公司 CTO 姚霆告诉机器之心,其实在视频、图像生成领域,「我们不需要等到基础模型达到 100 分才去做应用。在现有的基础模型能力之上,如果你能找到真正解决用户痛点的场景,并在应用上做得很深,真正做到端到端的 95 分以上,用户就会买单。

基于这一发现,智象未来对他们的模型做了很多场景驱动的优化,特别关注基础模型在上层应用中的表现,去解决用户「最后一公里」的问题,同时也在探索效果更好、效率更高的模型架构。我们将在下文中详细探讨这些内容。

从场景出发去优化模型
智象多模态生成大模型迎来 3.0 版本

什么样的模型才是用户真正需要的?姚霆在采访中分享了他从用户反馈中观察到的现象。

他提到,「我们和一些 90 后、00 后的年轻人聊过,他们认为目前 AI 生成的一分钟单镜头视频,他们根本不会看,因为觉得有些无聊。但一些简单的、带特定 IP 的动态壁纸,却能吸引他们付费。」这些应用并不复杂,「但他们的要求很精准 ——IP 的每个细节不能变,比如五官。」

B 端场景也类似,比如需要将商品 logo 印在衣服上,要求效果自然、直接可用。 

这些现象揭示了模型和应用之间的 gap:研究人员以为他们要把基础模型做到 100 分才会有人买单,因此拼命让模型参加各种能彰显通用能力的「考试」。而用户其实只想要一个在解决自己特定问题上能达到 95 分的模型。现阶段,这样的模型并不好找。这种 gap 让姚霆意识到,从场景需求的角度出发去优化模型,才有可能做出真正好用的产品。

智象多模态生成大模型 3.0 就是在这样的理念下被打磨出来的。总的来说,它实现了三大方面的优化:

  • 一是画面质量和相关性提升;

  • 二是镜头运动和画面运动更可控;

  • 三是特色场景下的生成效果提升。


画面质量更高,相关性更强

对于图像生成模型来说,过硬的画面质量和遵循提示的能力是模型落地的基础。为了在这些方面实现提升,智象未来在技术架构上引入了 Diffusion Transformer (DiT) + Autoregressive model (AR) 的混合架构。

DiT 的优势无需多言。在 Sora 发布后,它已经成为视觉生成模型的主流架构。不过与此同时,也有不少学者在研究基于 AR 的视觉生成路线,因为这类模型的可扩展性已经在语言模型中得到了验证。而且,它们可以通过一个 token 化的过程打通语言、视觉等多种模态,把生成和理解统一在一个框架内,提升生成模型的可控性(如 IP 保持、提示遵循)。

考虑到两种架构各有其优点和局限性,智象未来团队选择将二者融合,使得新架构在保持 DiT 中连续图像编码优势的同时实现自回归过程和轻量化扩散过程结合。最终,除了提高生成质量和可控性,这种融合还带来了一个好处,就是模型推理速度的提升,这可以让用户更快地得到生成结果。

下图显示了智象多模态生成大模型与其他模型在图像生成效果上的差异。可以看到,在画面设计方面,智象多模态生成大模型的角色设计明显更加立体、生动,例如愤怒角色带有火焰效果,快乐角色微笑明显。在与提示的相关性方面,智象多模态生成大模型的生成效果最贴合文字描述,各个角色的情绪特征都表达得准确且生动。架构升级所带来的提升一目了然。


与此同时,智象多模态生成大模型的视频生成质量也有所提升,因为智象未来延续了之前高效的时空建模方法,并进一步增大了 DiT 模型的规模,从而实现了对复杂高清细节和逻辑关系的时空建模,提升了每帧的画面质量和整体相关性。


影视级运镜与生动的画面运动

广义的视频运动本质上包含了复杂的全局镜头运动和局部画面运动。当前的很多模型都存在两种运动的不协调问题(想象一下,一个人在小路上往前走,后面的山却没有逐渐往后退),从而影响了画面的真实感和可用性。

为了解决这个问题,智象未来把镜头运动和画面运动进行联合训练,强化了对于影视级别镜头的学习和模拟,同时也提升了画面本身运动的自然度。

如下面这几个视频所示,智象多模态生成大模型能够处理非常复杂的镜头运动,如平移、缩放、旋转等,而且在镜头变化的同时,主体也在发生合理的变化(如蚂蚁随着镜头变焦而缩小),且主体动作非常连贯、丝滑(如旋转镜头中车的运动)。


「所有真实的视频都需要这样的(运镜水平)。哪怕是一个简单的宣传片,它也要过渡自然,里面有一些运镜手法。再延伸一下,运镜手法其实是可控性的一种,生成内容要遵从给定的运镜指令,不然的话这个工具就没法用了。」在提及这一方向的优化动机时,姚霆解释说。

特色场景拿来即用

用户真实的开放场景是最考验模型泛化性和垂域特色的,智象未来利用多场景学习放大多模态生成大模型的产品能力特色,实现不同特色场景下的生成效果提升,完成了用户「最后一公里」的需求。

以营销场景下的 IP 迁移功能举例(如商品 logo 等),虽然场景很简单,但要想达到让用户付费的水平,必须做到端到端的 95 分以上,在技术上就需要更多地去考虑如何兼顾用户侧生成内容的真实性以及最大化 IP 保持的程度。

如下图所示,在将 logo 迁移到商品上之后,智象多模态生成大模型能够做到毫不突兀地将其与商品融为一体,而且在需要适当变形的情况下(比如右下角的咖啡杯),模型也能「随机应变」,同时保持 IP 与原图完全一致,做到了拿来即用。
 
 
在视频生成中,智象多模态生成大模型也能把IP(例如上述生成的带logo的咖啡杯)自然地嵌入广告场景。


理解、生成相辅相成
智象多模态理解大模型 1.0 亮相

在多模态大模型中,理解与生成是相辅相成的。因此,智象未来在生成大模型 3.0 的训练中加入了理解增强。同时,他们还专门推出了一个新的理解大模型 —— 智象多模态理解大模型 1.0。这个模型通过对物体级别的画面建模以及事件级别的时空建模,实现了更精细、准确的图像与视频内容理解。

此外,这一理解大模型还可以进一步服务于理解增强的多模态生成技术,搭配多模态生成大模型实现多模态检索 + 多模态内容编辑与生成的创作平台。

这个平台的运行效果如下:你只需输入文字描述,即可在系统中搜索到可用的视频片段,并通过文字交互的形式进行编辑。在现实中,基于真实视频进行二次创作的操作需求可能比从头开始制作视频更为常见,尤其是在一些以 IP 为核心的二次创作场景中。因此,基于智象多模态理解大模型 1.0 和多模态生成大模型 3.0 打造的这个系统有望大幅降低创作门槛,提高创作效率。
 

让 AIGC「飞入寻常百姓家」

对于做生成式模型的公司来说,最近发生了一些值得关注的趋势。一方面,所有人都在讨论「scaling law 是否到头,预训练是否即将终结」。另一方面,多模态大模型正在被寄予更高的期望,有人认为这类模型有望展现出新的 scaling law,并最终通往 AGI。

然而,这些讨论并没有在姚霆心中泛起太多波澜。

当谈到多模态大模型技术未来是否就是 AGI,他有着更接地气的观点,「我们倾向于在基础模型的通用性和对垂直应用的泛化性之间找一个平衡。AGI 不是我们的目标,应用才是。

这样的理念帮助他们在商业化方面取得了亮眼的成绩。据悉,该公司目前已累计服务了全球一百多个国家和地区的一千多万个人用户和四万多家企业客户,其中包括中国移动、中国联通、人民网、央视网、联想、科大讯飞、商汤、微软、上影、华策、彩讯、捷成世纪等头部企业。鉴于多模态大模型的应用尚处于起步阶段,这样的成绩并不多见。

姚霆表示,未来,他们会继续坚持这一路线,以更接地气方式致力于用户最后「一公里」的问题,让 AIGC「飞入寻常百姓家」。

最新融资消息

智象未来科技有限公司是全球领先的多模态生成式人工智能初创企业。公司自主研发的智象多模态大模型是超百亿级别的大模型,拥有目前行业中最丰富的多模态版权语料库,具备强大的视觉内容生成与理解能力,同时是首批完成模型和算法双备案的多模态大模型。

近日,智象未来获得数亿元人民币 Pre-A 和 A 轮融资。已完成的 Pre-A 轮融资,领投方是在文化科技领域内知名的投资机构敦鸿资本。正在进行的 A 轮融资,领投金额过亿元人民币,领投方系以合肥产投为主的国资基金,跟投方有安徽省人工智能母基金,湖北省长江电影集团有限公司等,目前还有知名战略资本正在持续推进当中。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]





把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

2024-12-27 11:47:00

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

论文一作为北卡罗来纳大学教堂山分校张子健,指导老师为北卡罗来纳大学教堂山分校助理教授 Huaxiu Yao。共同第一作者为华盛顿大学 Kaiyuan Zheng,其余作者包括来自北卡教堂山的 Mingyu Ding、来自华盛顿大学的 Joel Jang、Yi Li 和Dieter Fox,以及来自芝加哥大学的 Zhaorun Chen、Chaoqi Wang。

 
  • 论文标题:GRAPE: Generalizing Robot Policy via Preference Alignment

  • 论文链接:https://arxiv.org/abs/2411.19309

  • 项目地址:https://grape-vla.github.io

  • 代码地址:https://github.com/aiming-lab/GRAPE


研究背景

近年来,视觉-语言-动作模型(Vision-Language-Action, VLA)在诸多机器人任务上取得了显著的进展,但它们仍面临一些关键问题,例如由于仅依赖从成功的执行轨迹中进行行为克隆,导致对新任务的泛化能力较差。

此外,这些模型通常通过微调来复制在不同环境下由专家收集的演示数据,这导致了分布偏差,并限制了它们对多样化操作目标(如效率、安全性和任务完成)的适应能力。

方法部分

为了解决这一问题,我们提出了 GRAPE,一种即插即用的算法,通过偏好对齐提升机器人策略的泛化能力,并支持将 VLA 模型对齐到任意设定的目标。GRAPE 的框架如下图所示:

图 1:GRAPE 的框架

GRAPE 带来了以下三大优势,显著增强了 VLA 模型的泛化性:

  1. GRAPE 在轨迹层面通过强化学习(RL)目标对 VLA 进行对齐,赋予模型全局决策能力,而不仅仅是简单的行为克隆;

  2. GRAPE 隐式建模了成功和失败尝试中的奖励,从而提升对多样化任务的泛化能力;

  3. GRAPE 采用可扩展的偏好合成算法。GRAPE 通过与任意目标对齐的偏好对轨迹进行排序,进而使得 VLA 模型能被对齐到设定的目标上。


具体而言,GRAPE 的框架可以被拆成三个部分:Trajectory-wise Preference Optimization、Customized Preference Synthesis 和 Iterative Online Alignment。以下是这三个部分的详细介绍:

Trajectory-wise Preference Optimization(轨迹级偏好优化):

GRAPE 将逐步训练的 VLA 模型扩展到轨迹级别,并通过强化学习(RL)目标进行训练,确保对齐后的策略能够优先选择被接受的轨迹,而非被拒绝的轨迹。

具体而言,我们基于 DPO 的 Loss 函数进行了改进,引入了一种全新的 TPO_Loss,使得模型能够学习轨迹级别的偏好。我们利用模型在任务中采集的较优与较劣的尝试(分别计为 ζ_w,ζ_l),建立了 TPO 偏好数据集,最终使得模型在 TPO 训练后在全局层面获得了对齐,并增强了其鲁棒性。

图 2 TPO-Loss 公式

Customized Preference Synthesis(定制化偏好合成):

基于 TPO-Loss 的设计,我们需要对于轨迹的优劣进行建模,从而构建对应的偏好数据集。然而,对于一些复杂的机器人任务,并没有能够用于轨迹排序的奖励模型。

针对这个问题,GRAPE 引入了一种可扩展算法,将复杂操作任务分解为独立阶段,并通过一个大型视觉-语言模型提出的关键点,自动引导偏好建模过程中的时空约束。这些约束具有灵活性,可根据需求进行定制,使模型与不同目标(如安全性、效率或任务完成)保持一致。

Iterative Online Alignment(迭代式在线对齐):

GRAPE 通过以下迭代循环不断优化对齐过程:1)在线样本采集,2)合成偏好排序,3)轨迹级偏好优化。这种方法逐步提升了 VLA 策略的泛化能力,并使其与任意目标更好地对齐。

实验结果

真机泛化实验

我们在域内任务以及五种分布外泛化(OOD)任务上评估了 GRAPE 的性能,这些 OOD 任务包括:视觉(新的视觉环境)、主体(未见过的物体)、动作(未见过的操作)、语义(未见过的提示)和语言落地泛化(物体处于未见过的空间位置)。

结果显示,GRAPE 在这些 OOD 任务上的表现分别比最先进的 OpenVLA-SFT 模型提升了 20.7%、27.5%、10.0%、5.0% 和 26.7%。这充分体现了通过偏好对齐过程所实现的卓越泛化能力。

仿真泛化实验

我们进一步在 Simpler-EnvLIBERO 环境中评估了 GRAPE 的性能,重点考察三种 OOD 任务的泛化能力:主体(未见过的物体)、物理属性(未见过的物体尺寸 / 形状)和语义(未见过的提示)。

结果显示,GRAPE 在这些 OOD 任务上相较 OpenVLA-SFT 模型分别提升了 8.0%12.3% 19.0% 的表现。

图 3:真机与仿真实验统计结果

特定对齐目标分析

GRAPE 能够高效地将机器人策略与通过自然语言指定的多种目标对齐,例如任务完成、安全性和效率。这些目标被融入多阶段的成本函数中,进而影响采样轨迹的排序。

实验表明,当对齐目标为更安全或更高效的操作策略时,GRAPE 可将碰撞率降低 44.31%,或将执行轨迹的长度缩短 11.15%。

图4:指定的对齐目标(安全),训练后的模型学会了安全地执行操作

结论

本文提出了 GRAPE,一种即插即用的 VLA 模型对齐框架,在多种机器人任务场景下均能使用,能够基于轨迹偏好提升机器人策略的泛化能力,并支持将模型对齐到指定目标。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]



轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机

2024-12-27 11:47:00

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

本文介绍了基于强化学习的无人机控制策略零样本泛化到真实世界的关键因素。作者来自于清华大学高能效计算实验室,通讯作者为清华大学汪玉教授和于超博士后,研究方向为强化学习和具身智能。

控制无人机执行敏捷、高机动性的行为是一项颇具挑战的任务。传统的控制方法,比如 PID 控制器和模型预测控制(MPC),在灵活性和效果上往往有所局限。而近年来,强化学习(RL)在机器人控制领域展现出了巨大的潜力。通过直接将观测映射为动作,强化学习能够减少对系统动力学模型的依赖。

然而,「Sim2Real」(从仿真到现实)的鸿沟却始终是强化学习应用于无人机控制的难点之一。如何实现无需额外微调的策略迁移,是研究者们追逐的目标。尽管有许多基于强化学习的控制方法被提出,但至今学界仍未就训练出鲁棒且可零微调部署的控制策略达成一致,比如:奖励函数应该如何设计才能让无人机飞得平稳?域随机化在无人机控制中到底该怎么用?
 
最近,清华大学的研究团队为我们带来了一个突破性的答案。他们详细研究了训练零微调部署的鲁棒 RL 策略所需的关键因素,并提出了一套集成五大技术、基于 PPO 的强化学习框架 SimpleFlight这一框架在轨迹跟踪误差上比现有的 RL 基线方法降低了 50% 以上!如果你正为强化学习策略无法实际控制无人机而发愁,那么 SimpleFlight 能够帮助你训练出无需额外微调就能在真实环境中运行的鲁棒策略。

  • 论文标题:What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study

  • 论文链接:https://arxiv.org/abs/2412.11764

  • 开源代码及模型项目网站:https://sites.google.com/view/simpleflight


实验效果一览

为了验证 SimpleFlight 的有效性,研究人员在开源的微型四旋翼无人机 Crazyflie 2.1 上进行了广泛的实验。

实验中,无人机的位置、速度和姿态信息由 OptiTrack 运动捕捉系统以 100Hz 的频率提供,并传输到离线计算机上进行策略解算。策略生成的 collective thrust and body rates( CTBR) 控制指令以 100Hz 的频率通过 2.4GHz 无线电发送到无人机。

研究人员使用了以下两种类型的轨迹作为基准轨迹:

  • 平滑轨迹:包括八字形和随机多项式轨迹八字形轨迹具有周期性,研究人员测试了三种速度:慢速 (15.0s 完成)、正常速度 (5.5s 完成) 和快速 (3.5s 完成)。随机多项式轨迹由多个随机生成的五次多项式段组成,每个段的持续时间在 1.00s 和 4.00s 之间随机选择。

  • 不可行轨迹:包括五角星和随机之字形轨迹五角星轨迹要求无人机以恒定速度依次访问五角星的五个顶点。研究人员测试了两种速度:慢速 (0.5m/s) 和快速 (1.0m/s)。随机之字形轨迹由多个随机选择的航点组成,航点的 x 和 y 坐标在 -1m 和 1m 之间分布,连续航点之间由直线连接,时间间隔在 1s 和 1.5s 之间随机选择。


图 1:四种轨迹的可视化
策略的训练数据包括平滑随机五次多项式和不可行之字形轨迹。训练过程持续 15,000 个 epoch,训练完成后,将策略直接部署到 Crazyflie 无人机上进行测试,没有进行任何微调。值得注意的是,由于策略在不同随机种子下表现稳定,研究人员在 3 个随机种子中随机挑选了一个策略而没有选择表现最好的那个。

表 1:SimpleFlight 与基线算法的表现对比
研究人员将 SimpleFlight 与两种 SOTA 的 RL 基线方法 (DATT [1] 和 Fly [2]) 进行了比较,如表 1 所示。结果表明,SimpleFlight 在所有基准轨迹上都取得了最佳性能,轨迹跟踪误差降低了 50% 以上,并且是唯一能够成功完成所有基准轨迹(包括平滑和不可行轨迹)的方法。图 2 是一些真机飞行的视频。

图 2:SimpleFlight 在 Crazyflie 2.1 无人机上的实验效果
研究人员指出,这些对比的核心目的并非进行绝对的横向评价,而是为了表明:SimpleFlight 实现了目前所知的在 Crazyflie 2.1 上的最佳控制性能,尽管没有依赖任何新的算法改进或复杂的架构升级。SimpleFlight 的意义更在于作为一套关键训练因素的集合,它能够轻松集成到现有的四旋翼无人机控制方法中,从而帮助研究者和开发者进一步优化控制性能。

此外,研究人员还进行了额外实验,将 SimpleFlight 部署到一款由团队自制的 250mm 轴距四旋翼无人机上。这款无人机配备了 Nvidia Orin 处理器,进一步验证了 SimpleFlight 在不同硬件平台上的适应性与效果。自制无人机的飞行视频和结果已上传至项目官网,供感兴趣的同行参考。

SimpleFlight 的五大核心秘诀

那么,SimpleFlight 是如何做到的呢?研究人员主要是从优化输入空间设计、奖励设计和训练技术三方面来缩小模拟到现实的差距,并总结出了以下 5 大关键因素:

  1. 采用与未来一段参考轨迹的相对位姿误差、速度和旋转矩阵作为策略网络的输入,这使得策略可以进行长距离规划,并更好地处理具有急转弯的不可行轨迹。研究人员指出,在强化学习策略的学习中,采用旋转矩阵而不是四元数作为输入,更有利于神经网络的学习。

  2. 将时间向量添加到价值网络的输入。无人机的控制任务通常是随时间动态变化的,时间向量作为价值网络的额外输入,增强了价值网络对时间信息的感知,从而更准确地估计状态值。

  3. 采用 CTBR 指令作为策略输出动作,使用连续动作之间的差异的正则化作为平滑度奖励。在无人机控制中,不平滑的动作输出可能导致飞行过程中的不稳定,甚至出现震荡和意外偏离轨迹的情况。而现实中的无人机由于硬件特性和动态响应的限制,比仿真环境更容易受到这些不稳定动作的影响。研究人员比较了多种平滑度奖励方案,结果表明使用连续动作之间的差异的正则化作为平滑度奖励,可以获得最佳的跟踪性能,同时鼓励策略输出平滑的动作,避免在现实世界中产生不稳定的飞行行为。

  4. 使用系统辨识对关键动力学参数进行校准,并选择性地应用域随机化手段。研究人员通过系统辨识对关键动力学参数进行了精确校准,确保仿真模型能够尽可能接近真实无人机的动力学特性。然而,研究也发现,域随机化的应用需要极为谨慎。对于那些能够通过系统辨识达到合理精度的参数,过度引入域随机化可能会适得其反。这是因为不必要的随机化会显著增加强化学习的学习复杂度,导致性能下降。换句话说,域随机化并非 「越多越好」,需要通过合理选择哪些参数应用随机化。

  5. 在训练过程中使用较大的 batch size。在 SimpleFlight 的训练过程中,研究人员特别关注了 batch size 对策略性能的影响。他们通过实验发现,增大 batch size 尽管对仿真环境中的性能提升并不显著,但在真实无人机上的表现却得到了显著改善。这表明,大 batch size 在缩小模拟与现实之间的 Sim2Real Gap 方面,扮演了关键角色。这种现象背后的原因可能与强化学习的泛化能力有关。在大 batch size 的训练中,策略能够在更广泛的状态分布上进行学习,从而提升其应对真实环境中复杂情况的鲁棒性。这种改进不仅帮助策略更好地适应现实世界中的不确定性,还减少了从仿真到现实部署时可能出现的性能退化问题。


另外值得注意的是,SimpleFlight 框架集成在研究人员自主开发的高效无人机仿真平台 OmniDrones,该平台基于 NVIDIA 的 Isaac Sim 仿真环境搭建,允许用户在 GPU 并行模拟之上轻松设计和试验各种应用场景,可以实现每秒超过 10^5 步的仿真速度,极大地加速了强化学习策略的训练。

图 4:OmniDrones 仿真平台示意图,来源:https://arxiv.org/abs/2309.12825
还等什么?赶快试试 SimpleFlight,把你的强化学习策略送上无人机吧!

Reference:
[1] Huang, K., Rana, R., Spitzer, A., Shi, G. and Boots, B., 2023. Datt: Deep adaptive trajectory tracking for quadrotor control. arXiv preprint arXiv:2310.09053.
[2] Eschmann, J., Albani, D. and Loianno, G., 2024. Learning to fly in seconds. IEEE Robotics and Automation Letters.

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]