Logo

site icon机器之心

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心 RSS 预览

扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)

2024-11-21 12:41:00

机器之心原创

编辑:Panda

子 Coze OpenAPI 不仅具备低延时、定制化、随时打断和音色克隆等优势,还整合了子强大的智能体生态。


基于 AI 的无限游戏最近开始赢得关注,但实际上你现在就可以在自己的电脑上实现类似跑团的无限游戏。有意思的是,就算你大开脑洞,胡乱游戏,大模型 AI 也能帮你把故事圆起来,让这个游戏无限地继续下去。

你甚至可以召唤郭德纲来战斗

这个 AI 游戏主持人的声音是不是很有代入感?这其实是使用扣子正在内测的智能语音对话 OpenAPI 实现的。当然,无限游戏并非扣子智能语音对话 OpenAPI 所能实现的唯一功能。扣子智能体商店中那些智能体会的技能它都行,比如查询天气或新闻、口语练习、角色扮演、创建播客等等。

举个例子,我们这里就生成了一个播客,使用的素材是我们前些天发布的文章《LeCun 赞转!类 Sora 模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘》。


更重要的是,通过智能语音对话 OpenAPI。你还能将智能实时对话能力引入你自己的应用!

不管是微信小程序还是自己的应用或游戏,又或者就只是你自己的设备终端,扣子的 AI 智能体都能通过新上线的智能语音对话 OpenAPI 入驻进来。

简单想象一下,我们就能发现扣子智能语音对话 OpenAPI 的无穷妙用。比如我们可以将自家的产品信息配置到扣子智能体的知识库中,然后通过扣子智能语音对话 OpenAPI 为我们的网站和应用引入一个智能客服,它能以实时通话的方式为用户解答一些常见问题。


用自然语言搭建一个技术问答应用

要展现一个工具的强大,光是结果好还不够,还得用起来方便,下面我们就逐步演示一下可以如何使用扣子智能体平台和智能语音对话 OpenAPI 轻松构建一个 AI 技术问答应用(基于扣子提供的网页版 Playground)。有趣的是,这里的整个演示过程都是零代码的!

首先,你需要一个扣子专业版账户。由于目前扣子智能语音对话 OpenAPI 正处于内测阶段,因此你还需要申请内测权限,你可以在这里免费申请:
https://www.coze.cn/survey/7431180581536268314?FG_source=17

接下来,你需要构建一个智能体。基于扣子智能体平台,你只需要用一句话描述你的核心功能,剩下的交给 AI,就能轻松获得一个智能体。


当然,你也可以对 AI 创建的智能体进行更进一步的编排,优化其人设和回复逻辑,还能添加知识库以及设置开场白;更重要的是,还能为其设计工作流 —— 这个过程既能使用思维链(CoT)和检索增强式生成(RAG)等技术,还能将外部工具整合进来,比如集成外部知识库、调用外部模型和工具等等。

考虑到最近 Scaling Laws 是否撞墙的问题备受热议,我们也正好做过几篇报道,下面我们就把这几篇文章导入到这个智能体的知识库中。

 
智能体编排完成后,点击发布。这里注意我们需要勾选「Agent as API」以便后续我们通过 OpenAPI 调用该智能体。

然后我们就可以进入 Playground,获取权限后,调用该智能体,同时选取合适的音色。
 

之后,我们就可以通过扣子智能语音对话 OpenAPI 来了解所谓的「扩展律撞墙」是什么了。(我们这里顺便演示了其支持随时打断的功能,这对真实应用来说具有非常实际的价值。)


不仅如此,扣子智能语音对话 OpenAPI 也支持用户传入文本或网络链接(只要对应的智能体配置了链接读取等合适的插件即可)。当然,由于这里演示的仅仅是 Playground,还不是完整的应用,因此在传入数据时还需要采用 json 格式,下面演示了其对我们最近发布的一篇文章的分析:


如此,一个简易版的实时语音技术问答助理就搭建完成了。实际上,只要搭配上好看的网页前端,这就可以作为一个小应用发布了。而通过配置具有更复杂工作流程的智能体,扣子智能语音对话 OpenAPI 也能实现更加复杂的应用。

五大优势,以智能赋能人机交互

宏观来看,语音交互技术可以简化成四个步骤:语音识别(ASR)、语义理解(NLU)、对话管理和任务处理、语音合成(TTS)。

在相关技术发展早期,每个步骤的处理都很机械和呆板,用户和应用都只能按照预设的指令进行交互。在最早期的时候,机器甚至没法识别人类的语音指令,而是需要人类用户通过数字按键来给出反馈,比如「业务办理请按 1,业务查询请按 2,人工服务请按 * 号键」。事实上,现在许多客服系统依然还在使用这种老旧范式。


之后随着语音识别和早期自然语音处理(NLP)技术的发展,人类开始可以通过语音方式与计算机互动。不过那时候不管是 ASR 还是 NLP 或是 TTS,都仅支持单一语种,也很难应对稍微复杂的交互场景。早期的 Siri 和 Google Assistant 等很多早期的语音助手便是采用了这一范式。


之后,大模型时代到来了。AI 理解人类语言的能力实现了质的飞跃,但两侧语音端的处理依然有待改进。一方面是 ASR 还很难应对多语言混合输入的场景,另一方面 TTS 也无法准确实现多语言输出。用户得到的语音反馈更像是毫无特色和情感的「棒读」。


到了今年,智能语音交互进入了变革之年,代表性事件便是今年 5 月份 OpenAI 发布了具备实时语音对话功能的大模型 GPT-4o。而扣子则在这个基础上更进了一步,不仅实现了实时、智能、自然的多语言语音交互,还将智能体整合进了其工作流程中,从而可以完成更加丰富多样的任务。这让其在这场正在持续的「智能语音大乱斗」中占据了一个领先位置。


总结起来,扣子智能语音对话 OpenAPI 具有 5 大显著优势。

优势 1:强大的 AI 智能体能力

智能体很可能是 LLM 实现大规模实际应用的又一范式。它能让 LLM 超脱仅仅作为问答机器人的水平,更深度地参与到用户的数字或物理生活中。正如著名 AI 研究者吴恩达说的那样:「大多数 LLM 的优化方向都是回答问题,这主要是为了提供良好的消费者体验,而且我们已经能够将它们『嫁接』到复杂的智能体工作流程中,从而构建有价值的应用。现在的趋势是以原生方式为智能体构建用于特定操作的 LLM,这能极大提升智能体的性能。我相信未来几年这个方向的智能体将获得巨大提升。」

扣子智能体平台正是这一愿景的实践者,而扣子那强大的智能体生态便是扣子智能语音对话 OpenAPI 最重大的优势之一。

扣子是新一代 AI 大模型智能体开发平台,其整合了插件、长短期记忆、工作流、卡片等丰富能力,可帮助用户快速搭建个性化或具备商业价值的智能体,并发布到豆包、飞书等平台,并且其使用门槛非常低,并不需要用户具备编程能力 —— 用户只需简短几句描述需求的自然语言,该平台就能用 AI 帮你自动构建合适的智能体。

 使用扣子商店右下角扣子助手,一句话创建智能体

自今年 2 月份国内版上线以来,扣子智能体开发平台已经成长为国内智能体平台的重要引领者,其上已经部署了大量来自官方和社区的智能体,其中不少已经收获了数十万用户。


通过整合智能体,扣子智能语音对话 OpenAPI 可让用户以语音方式完成各种不同的任务,比如执行订单、生成图像、执行重复性的工作流程等等。只要智能体能做到的,扣子智能语音对话 OpenAPI 都能将其整合进来。

优势 2:识别精准

扣子智能语音对话 OpenAPI 在语音识别(ASR)方面使用了先进的大模型技术,具备上下文理解和超强的抗干扰能力,从而能带来更为精准的语音转文本体验。

它不仅能识别常见对话内容,还能在多轮对话中进行上下文关联 —— 当用户提到前文中的名词或代称时,系统会根据对话背景自动关联,避免重复确认。此外,扣子智能语音对话在面对嘈杂环境或复杂声学背景时表现出色,能够识别出清晰的文本,减少因噪声导致的误识别问题。

针对垂直领域,OpenAPI 提供了专门的语料支持,不论是医疗、金融还是法律领域,系统均能精准识别专业术语。此外,它对中英混合表达的语音识别也有良好的支持,提升了应用在多语种环境中的适应性。

优势 3:稳健的实时通信能力

实时通信是智能语音对话体验的核心要素之一,尤其是在对话连续性和即时性要求高的应用场景中,低延迟可以极大地提升用户体验。

扣子智能语音对话 OpenAPI 在这方面的解决方案是火山引擎的 RTC(Real-Time Communication)技术。该技术已经在实践中得到了验证,可显著降低通信链路中的延迟,使得系统响应更加即时,不再有卡顿和延时问题。而这些年的研究进步已经让火山引擎 RTC 实现了超低时延视频传输和云端音频流式处理,并对 AI 语音能力的全链路进行了优化(RTC-ASR-LLM-TTS),能实现智能体的实时响应。

据了解,火山引擎 RTC 已经大幅降低了从声音采集到 AI 回复语音响应这个全链路流程的时延,最低可至 1 秒。相较之下,之前的工作流程往往需要好几秒的处理时间。

火山引擎 RTC 与儿歌点点合作的 「AI 伙伴」演示,展示了其实时性能以及支持打断的能力

这样的低延迟能力使扣子智能语音对话 OpenAPI 在客服、教育、远程协作等场景下具备明显优势,不仅可以快速响应用户的语音输入,还能在多轮对话中保持稳定顺畅的互动。

此外,火山引擎 RTC 还具备优秀的抗弱网能力,在弱网环境下也能保持通话顺畅,避免因丢字引起智能体理解和回答偏差。

RTC 还让智能体可被实时「打断」了。也就是说,智能体可根据人类对话的节奏和停顿来随时响应。它可以立马中断当前的输出,也能即时根据用户指令给出反馈。相较之前还需手动点击「打断」按钮的做法,这种做法显然更加自然,就像是与真人交流一样。

这项能力在实际应用中具有极其重要的价值。比如当用户在对话过程中突然提出新的问题或修改需求时,系统能够迅速捕捉并响应打断指令,灵活调整对话流程,无需等待当前话语结束。在客服、在线咨询和智能助理等场景中,这一能力可显著提升交互的自然度和应变性,使得对话更贴合真实人类沟通习惯,进一步提升用户体验。

优势 4:语言效果自然

在文本转语音(TTS)方面,扣子智能语音对话 OpenAPI 使用了大模型技术,从而让生成的语音更加自然、情感丰富,具有高保真的个性化特点。

基于大模型的 TTS 引擎能够智能分析文本内容,针对语句的情绪、意图和语气进行调节,使输出的语音在语调、节奏和情感表达上更贴近真人。

另外,扣子智能语音对话 OpenAPI 还支持中英文混合语句,能够实现流畅切换,在多语种表达场景中更显真实可靠。无论是客服系统需要温和耐心的语气,还是播报系统需要富有激情的表达,扣子智能语音对话 OpenAPI 都能自动适应,避免了传统 TTS 语音机械、单调的问题。

此外,生成的语音在韵律、气口和情感表达等方面也有细致优化,让用户听到的语音不仅真实可信,更富有感染力,适用于从广告配音到客户服务等广泛的应用场景。

优势 5:支持自定义音色

扣子智能语音对话 OpenAPI 不仅预置了丰富的音色(包括 20 多种中文音色以及一些英语、日语和西班牙语等其它语言的音色),还提供了一项特别的音色克隆功能,用户只需提供一小段语音录制,便可生成自己的专属音色。

扣子智能语音对话 OpenAPI 的多音色示例,包括一个定制音色

这一功能可让企业和个人用户将音色品牌化,为语音服务增加更多的个性和辨识度。在市场推广、品牌营销或个性化服务中,用户可以通过特有的音色与品牌形象建立联系,使用户的声音成为独特的品牌标识。

目前,系统在内测期间允许每位用户创建一个专属音色。未来,这一音色自定义功能将进一步拓展,或允许多音色的并行生成和使用,满足更多元化的声音需求。

内测邀请中

扣子智能语音对话 OpenAPI 现已向扣子专业版用户开放邀测申请!

作为一款强大的智能体对话工具,扣子智能语音对话 OpenAPI 拥有极其广泛的应用潜力 —— 无论是在线客服、远程教育、智能助理,还是在金融、医疗等专业领域,都能帮助企业快速实现智能化的实时语音交互。

未来,随着大模型及智能体能力的提升,扣子智能语音对话 OpenAPI 也能为开发者的应用带去更强大的智能能力,像无限游戏一样开启无限可能。或许某一天,扣子智能语音对话 OpenAPI 可以成为入口,造就钢铁侠的 Jarvis 那样的超级 AI 助理。


扣子智能语音对话 OpenAPI 支持多平台接入,团队也会提供用于不同场景和平台的 SDK。

扣子团队表示,邀测期间暂不收取语音功能费用,仅根据智能体调用次数和 Token 消耗收取专业版的基础费用。而内测用户的福利是每日 1 小时、每月 20 小时的实时通话体验时长,足以满足基础测试和常规使用。如有更高时长需求,用户可根据实际情况提出额外申请,以满足不同场景的深度测试需要。

在希腊神话中,普罗米修斯通过盗取火种赋予了人类智慧和文明的火花。同样,扣子智能语音对话 OpenAPI 就恰如应用领域的普罗米修斯,能为各行各业的应用赋予实时智能语音能力,开启技术实践的新篇章。

如果您想参与内测体验,关注「扣子Coze」公众号回复「语音」即可申请内测。期待大家的体验反馈!


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]





推理性能直逼o1,DeepSeek再次出手,重点:即将开源

2024-11-21 12:41:00

机器之心报道
编辑:佳琪、蛋酱

DeepSeek 又出手了,这次又是重磅炸弹。

昨晚,DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。

在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等权威评测中,DeepSeek-R1-Lite-Preview 模型已经大幅超越了 GPT-4o 等顶尖模型,有三项成绩还领先于 OpenAI o1-preview


背后的秘诀,就是「深度思考」。

更多的强化学习、原生的思维链、更长的推理时间,能让大模型的性能更强,这在领域内已经是广泛共识。这种模式其实非常像人类大脑的深度思考。

与 OpenAI o1 有点不一样的是,DeepSeek-R1-Lite-Preview 会在回复中展示「思路链」推理,也就是响应查询和输入的不同链或「思路」,并解释它在做什么以及为什么这样做。

就像是解题时,有人喜欢将每一步骤都详尽地写在卷子上,而 DeepSeek-R1-Lite-Preview 更进一步:把内心 OS 也都写出来了。

DeepSeek 官方表示,DeepSeek R1 系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。已经发布的 DeepSeek-R1-Lite-Preview 使用的是一个较小的基座模型,尚未完全释放长思维链的潜力。


对于用户的 Prompt,DeepSeek-R1-Lite-Preview 会有一个很长的推理过程。如上图中的红色实线所示,模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票(Majority Voting),模型思维链长度增加展现出了更高的效率。

最惊艳的是,发布即上线:所有用户均可通过官网开启与 DeepSeek-R1-Lite-Preview 的对话,但注意要先在输入框中打开「深度思考」模式,每天限制 50 次使用


体验地址:http://chat.deepseek.com/

不得不说,对 o1 直接发起冲击的 DeepSeek,着实让国内 AI 社区振奋了一把:

图源:https://www.zhihu.com/question/4689435060/answer/36575793425

由于 DeepSeek-R1-Lite-Preview 目前仅支持网页使用,没有发布完整代码供独立第三方分析或基准测试,也没有通过 API 提供 DeepSeek-R1-Lite-Preview 以进行同类独立测试,也没有解释 DeepSeek-R1-Lite-Preview 是如何训练或构建的博客文章或技术论文,大家心中其实还有许多的「问号」。

但 DeepSeek 已经表示,正式版 DeepSeek-R1 模型会完全开源,还会公开技术报告,部署 API 服务

图源:https://www.zhihu.com/question/4689435060/answer/36604051127

回想起上一次,DeepSeek-V2 的开源和 API 降价,直接引发了国产大模型厂商的降价浪潮。同样的力度再来一波,不知道大家如何顶住。

耐心等待的时间里,我们先来实测一下。

一手实测体验

与 OpenAI o1 相同的是,根据问题的复杂程度,它也需要「思考」数十秒后再回答。

虽然有些过程中的思路在人类看来可能毫无意义,甚至是错误的,但据初步测评,DeepSeek-R1-Lite-Preview 回复的最终整体准确率还是比较高的。

比如它可以回答 GPT-4o 和 Claude 系列都翻车过的问题 —— 经典陷阱题「Strawberry 这个词中有多少个字母 R?」和「9.11 和 9.9 哪个更大?」。

有用户在 DeepSeek Chat 上使用这些 Prompt 进行测试,回复结果和思考用时情况如下:

Strawberry 这个词中有多少个字母 R?用时 29 秒。

9.11 和 9.9 哪个更大?用时 9 秒。

不过在数草莓的问题上,R1-Lite-Preview 有时也会困惑,数出「只有 2 个 r」的答案:


机器之心也实测了一把,似乎对于中文,R1-Lite-Preview 的准确率更高:


对于需要动脑的问题,R1-Lite-Preview 的表现也可圈可点,比如它可以破解行测题的逻辑陷阱:



由 LeCun 提出的物理题:圆周上均匀分布了 7 根轴,每根轴上都有一个齿轮。每个齿轮都与其左边和右边的齿轮啮合。齿轮从 1 到 7 编号,依次沿圆周排列。问题是:如果齿轮 3 顺时针旋转,问齿轮 7 会沿什么方向旋转?


得出解来十分丝滑:


接下来,给 R1-Lite-Preview 上点强度,看看它能否笑对大学物理的噩梦:《电磁学千题解》。


在 34 秒内,它根据题意列出了对应的公式,得到了正确答案:


至于 R1-Lite-Preview 被全球顶级编程竞赛(codeforces)等权威评测检验过的代码能力,让它手撕大厂秋招级别的 Leetcode 经典题「岛屿问题」试一下:



运行起来也没大问题。

然而,相比推理、物理和编程,R1-Lite-Preview 的数学能力可能没那么让人放心。

比如科技博主 @Transformer - 周问了一道中学水平的数列题,只有 o1 和 o1mini 做对了,R1-Lite-Preview 没想出关键的破题思路,而是「蒙」出了答案。


而对于最能考验人类大脑的深度思考能力的 IMO 国际数学奥林匹克竞赛试题,R1-Lite-Preview 的表现是这样的:


这道代数题相当难,全球仅有 5 个人全对。在长达 162 秒的思考过程中,R1-Lite-Preview 洋洋洒洒地把解题思路写成了一篇小论文,可能它的老师也教过 —— 把解题过程写上能得一半分。



令人遗憾的是,最终答案 c=1 是错的,正确答案如下:


而另一位「解题过程没写全」的选手 OpenAI o1 却给出了正确答案:


这说明,DeepSeek-R1-Lite-Preview 仍有进步空间,也更让我们期待完整版模型的发布了。

各位读者已经试用了吗?欢迎在评论区分享有趣的实测案例。

参考链接:
https://mp.weixin.qq.com/s/e1YnTxZlzFvjcmrLLTA8fw
https://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]



神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

2024-11-21 12:41:00

机器之心报道

编辑:泽南、小舟

租用 H100 的钱只需 233 美元。

还记得 Andrej Karpathy 纯 C 语言复现 GPT-2 大模型的项目吗?

今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。

llm.c 旨在大幅简化大模型的训练,ta 使用纯 C 语言 / CUDA,不需要 245MB 的 PyTorch 或 107MB 的 cPython。不过即使是这样的优化,复现 GPT-2 级别的模型也需要在 8 块 H100 上花费 45 分钟进行训练。

没想到几个月过去,业界水平居然有了指数级的提升,让 Karpathy 本人都感到惊叹:


在 GitHub 上出现了一个新项目「Modded-NanoGPT」,对技术进行了大幅度的迭代,现在实现相同的结果只需要 5 分钟。该研究的作者 Keller Jordan 曾在 Hive AI 工作,一直以来的研究方向都着重于模型训练的优化。他在本周三表示,利用具有大序列长度的 FlexAttention,他已把速度的记录从 7.2 分钟提升到了 5 分钟。


现在有了 FlexAttention 和较大的 seqlen,文档的拆分更少了,因此语言建模在训练和验证时都变得更容易。该记录在 HellaSwag 上的准确率略有降低,约为 29%,而之前的记录和 Andrej Karpathy 的原始训练准确率约为 30%。

让我们看看他是怎么做的:


项目链接:https://github.com/KellerJordan/modded-nanogpt/tree/master

Modded-NanoGPT

该项目名为「Modded-NanoGPT」,它是 llm.c 存储库的 PyTorch GPT-2 训练器的改进变体:

  • 10B tokens-->1B tokens
  • 8xH100 上花 45 分钟训练 -->8xH100 上花 5 分钟训练

Modded-NanoGPT 采用如下技术:

  • 先进的架构:旋转嵌入、QK-Norm 和 ReLU^2;
  • 新优化器:Muon;
  • 嵌入中的 Untied Head;
  • 投影和分类层初始化为零(muP-like);
  • 架构 shortcut:值残差和嵌入 shortcut(部分遵循论文《Value Residual Learning For Alleviating Attention Concentration In Transformers》);
  • 动量(Momentum)warmup;
  • Tanh soft logit capping(遵循 Gemma 2);
  • FlexAttention。

要进行训练,请运行以下三个命令:

pip install -r requirements.txtpip install --pre torch --index-url https://download.pytorch.org/whl/nightly/cu124 —upgrade # install torch 2.6.0python data/cached_fineweb10B.py 10 # downloads only the first 1.0B training tokens to save time./run.sh

在网络连接良好的 8xH100 上,训练应在 20 分钟内完成。

结果将是一个具有 124M 活跃参数的 transformer,在 10 亿 Fineweb tokens 上训练了 1875 steps,实现了约 3.278 的验证损失。相比之下,默认的 llm.c PyTorch 训练器在 100 亿 tokens 上训练了 19560 steps 后,验证损失 >3.28。

值得一提的是,要在更少的 GPU 上运行 Modded-NanoGPT,只需修改 run.sh 以获得不同的 --nproc_per_node。如果内存不足,只需在 train_gpt2.py 中将 device_batch_size 缩小到 16 或 32。

这里有一个适用于全新 8xH100 实例的启动脚本:

sudo apt-get updatesudo apt-get install vim tmux python3-pip python-is-python3 -ygit clone https://github.com/KellerJordan/modded-nanogpt.gitcd modded-nanogpttmux

pip install numpy==1.23.5 huggingface-hub tqdmpip install --upgrade torch &python data/cached_fineweb10B.py 18

如果 CUDA 或 NCCL 版本与你当前的系统设置不兼容,Docker 可以成为一种有用的替代方案。这种方法标准化了 CUDA、NCCL、CUDNN 和 Python 的版本,减少了依赖性问题并简化了设置。注意:系统上必须已安装 NVIDIA 驱动程序。

sudo docker build -t modded-nanogpt .sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt python data/cached_fineweb10B.py 18sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt sh run.sh

有一个问题在于,NanoGPT 训练很快是很好,但它可能无法扩展,只是过拟合了 val 损失?Keller Jordan 表示,这很难反驳,因为「按规模」是一个无限类别(如果这些方法对 >100T 的模型就不奏效了怎么办?),因此无法完全证明。此外,作者也同意快速运行中使用的一些方法不太可能扩展。但如果读者关心 1.5B 模型,他们可能会被这个结果说服:

直接将快速运行(10/18/24 版本)扩展到 1.5B 参数可以得到一个具有 GPT-2(1.5B)级 HellaSwag 性能的模型,它要比 Karpathy 的基线便宜 2.5 倍(233 美元对比 576 美元):



Muon optimizer

除了在前人的肩膀上探索,新项目也使用了 Keller Jordan 自研的优化方式。比如这个 Muon 优化器,据他所说是目前已知最快的优化器,适用于包括 CIFAR-10 和 GPT-2 规模语言建模在内的各种训练场景。

Muon 的定义如下:


其中 NewtonSchulz5 是 Newton-Schulz 之后的迭代,它近似地用 U @ V.T 替换 G,其中 U, S, V = G.svd ()。

@torch.compiledef zeroth_power_via_newtonschulz5 (G, steps=5, eps=1e-7): assert len (G.shape) == 2 a, b, c = (3.4445, -4.7750, 2.0315) X = G.bfloat16 () / (G.norm () + eps) if G.size (0) > G.size (1): X = X.T for _ in range (steps): A = X @ X.T B = b * A + c * A @ A X = a * X + B @ X if G.size (0) > G.size (1): X = X.T return X.to (G.dtype)

对于这种训练场景,Muon 具有以下有利特性:

  • 内存使用量比 Adam 低
  • 采样效率提高约 1.5 倍
  • 挂钟开销小于 2%

总结

作者表示,生成此优化器的许多选择都是通过追求 CIFAR-10 快速运行而通过实验获得的。其中值得一提的经验包括:

  • 在更新中使用 Nesterov 动量,在动量之后应用正交化。
  • 使用特定的五次 Newton-Schulz 迭代作为正交化方法。
  • 使用五次多项式的非收敛系数以最大化零处的斜率,从而最小化必要的 Newton-Schulz 迭代次数。事实证明,方差实际上并不那么重要,因此我们最终得到一个五次多项式,它在重复应用后(快速)收敛到 0.68、1.13 的范围,而不是到 1。
  • 在 bfloat16 中运行 Newton-Schulz 迭代(而 Shampoo 实现通常依赖于在 fp32 或 fp64 中运行的逆 pth 根)。

使用 Newton-Schulz 迭代进行正交化的方法可以追溯到 Bernstein & Newhouse (2024),他们建议将其作为计算 Shampoo 预处理器的方法,并从理论上探索了没有预处理器累积的 Shampoo。Keller Jordan 特别感谢了论文作者之一 Jeremy Bernstein 的协助。

如果我们在这里使用 SVD 而不是 Newton-Schulz 迭代,那么这个优化器就会因为太慢而无法使用。Bernstein & Newhouse 还指出,没有预处理器累积的 Shampoo 相当于谱范数中的最陡下降,因此 Shampoo 可以被认为是一种平滑谱最陡下降的方法。所提出的优化器可以被认为是平滑谱最陡下降的第二种方法,与 Shampoo 相比,它具有不同的内存和运行时权衡。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]



诺奖得主哈萨比斯新作登Nature,AlphaQubit解码出更可靠量子计算机

2024-11-21 12:41:00

机器之心报道

编辑:杜伟、陈陈

谷歌「Alpha」家族又壮大了,这次瞄准了量子计算领域。

今天凌晨,新晋诺贝尔化学奖得主、DeepMind 创始人哈萨比斯参与撰写的新论文登上了 Nature,主题是如何更准确地识别并纠正量子计算机内部的错误。

我们知道,量子计算机有潜力彻底改变药物发现、材料设计和基础物理学。不过前提是:我们得让它们可靠地工作。

虽然对于传统计算机花费数十亿年才能解决的某些问题,量子计算机在几小时内就可以搞定。然而,量子计算机比传统计算机更容易受到噪声的影响。如果想要量子计算机更可靠,尤其是在大规模情况下,则需要更准确地识别和纠正内部的错误。


因此,谷歌 DeepMind 联合谷歌量子 AI 团队发表了一篇论文,推出了 AI 解码器 AlphaQubit,它能够以 SOTA 准确性识别并纠正量子计算的错误。据介绍,这项工作汇集了谷歌 DeepMind 的机器学习知识和谷歌量子 AI 的纠错专业知识,从而加速构建可靠量子计算机的进程。

两支团队表示,准确识别量子计算机错误是促使它们能够大规模执行长时间计算的关键一步,将为科学突破和更多新领域的发现打开大门。


Nature 论文的标题为《Learning High-accuracy Error Decoding for Quantum Processors》,即《学习量子处理器的高准确性错误解码》。


  • Nature 地址:https://www.nature.com/articles/s41586-024-08148-8

谷歌 CEO 桑达尔・皮查伊表示,「AlphaQubit 使用了 Transformers 解码量子计算机,从而达到量子纠错准确性新 SOTA。这是 AI + 量子计算的激动人心的交集。」


我们接下来看 AlphaQubit 的技术细节和实验结果。

量子计算纠错的原理

量子计算机利用最小尺度上物质的独特属性,例如叠加和纠缠,以比传统计算机少得多的步骤解决某些类型的复杂问题。该技术依赖于量子比特,它们可以利用量子干涉筛选大量可能性以找到答案。

不过,量子比特的自然量子态很脆弱,可能受到各种因素的干扰,包括硬件中的微观缺陷、热量、振动、电磁干扰甚至宇宙射线,可以说无处不在。

量子纠错通过使用冗余提供了一种解决方案:将多个量子比特分组为单个逻辑量子比特,并定期进行一致性检查。AlphaQubit 解码器通过利用这些一致性检查来识别逻辑量子比特中的错误,从而保留量子信息,并进行纠错。

如下动图展示了边长为 3(码距离)的量子比特网格中 9 个物理量子比特(小灰色圆圈)如何形成逻辑量子比特。

其中,在每个步骤中,另外 8 个量子比特在每个时间步骤执行一致性检查(正方形和半圆形区域,失败时为蓝色和品红色,否则为灰色),以通知神经网络解码器(AlphaQubit)。在实验结束时,AlphaQubit 确定发生了哪些错误。


谷歌构建了一个神经网络解码器

AlphaQubit 是一个基于神经网络的解码器,基于 Transformers 构建,而该架构也是当今许多大型语言模型的基础。

下图为 AlphaQubit 的纠错和训练流程。a 为表面码的一轮纠错。b 为解码训练阶段。预训练样本要么来自数据无关的 SI1000 噪声模型,要么来自使用 p_ij 或 XEB 方法从实验数据得出的误差模型。


AlphaQubit 使用一致性检查(consistency checks)作为输入,旨在预测逻辑量子比特在实验结束时的状态是否与初始准备状态发生了翻转。通过一致性检查,可以识别并纠正计算过程中出现的错误,确保逻辑量子比特状态保持正确。

最终,AlphaQubit 可以报告其预测的置信度,从而有助于提高整体量子处理器的性能。


实验及结果

实验测试了 AlphaQubit 对量子处理器 Sycamore 中的逻辑量子比特的保护效果。谷歌使用量子模拟器在各种设置中生成了数亿个示例。然后,通过为 AlphaQubit 提供来自特定 Sycamore 处理器的数千个实验样本,针对特定解码任务对其进行微调。


在对 Sycamore 量子处理器的新数据进行测试时,AlphaQubit 在准确率方面设立了新的标准。在规模最大的 Sycamore 实验中,AlphaQubit 的错误率比张量网络方法低 6%。此外,AlphaQubit 的错误率比相关匹配方法低 30%。

在 Sycamore 量子处理器的实验中,解码准确性因实验规模而异。对于小规模实验(距离 3,对应 17 个物理量子比特)和大规模实验(距离 5,对应 49 个物理量子比特),AlphaQubit 的解码准确性均优于其他方法。

具体而言,AlphaQubit 的表现超过了张量网络(TN)方法,后者在大规模实验中难以扩展。同时,AlphaQubit 也优于相关匹配方法,尽管该方法在准确性和扩展性方面表现良好,但在解码准确性上仍不及 AlphaQubit。 


在一系列实验中,解码器 AlphaQubit 犯的错误最少。


良好的泛化能力

为了评估 AlphaQubit 在更大规模且错误率更低的量子计算机上的适应性,研究人员使用模拟的量子系统数据对其进行了训练,规模达到 241 个量子比特,超出了 Sycamore 平台的现有能力。


结果显示,AlphaQubit 的性能优于现有的主要算法解码器,表明其在未来中型量子设备上也将具备良好的适用性。

在不同规模的实验中,即从距离 3(17 个量子比特)到距离 11(241 个量子比特)的实验中,AlphaQubit 的解码准确性始终优于相关匹配方法。需要注意的是,张量网络解码器由于在大规模实验中运行速度过慢,未在此图中显示。


最后,该系统还展示了一些高级功能,例如能够接收和报告输入和输出的置信度。这些信息丰富的界面有助于进一步提高量子处理器的性能。

当谷歌研究员在包含多达 25 轮纠错的样本上训练 AlphaQubit 时,它在多达 100,000 轮的模拟实验中保持了良好的性能,表明它能够泛化到训练数据之外的场景。

迈向更实用的量子计算

AlphaQubit 在利用机器学习进行量子误差纠错方面取得了重要的里程碑。但谷歌表示他们仍然面临速度和可扩展性方面的重大挑战。

例如,在一个快速的超导量子处理器中,每秒需要进行上百万次一致性检查。虽然 AlphaQubit 在准确识别错误方面表现出色,但目前还无法实时纠正超导处理器中的错误。谷歌还需要找到更高效的数据训练方法,用于支持基于 AI 的解码器。


目前,谷歌正在结合机器学习和量子误差纠错的前沿技术,努力克服这些挑战,为实现可靠的量子计算机铺平道路,这些技术将有能力解决世界上一些最复杂的问题。

参考链接:
https://blog.google/technology/google-deepmind/alphaqubit-quantum-error-correction/
https://x.com/GoogleDeepMind/status/1859273143157657735

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]



NeurIPS 2024 | 水印与高效推理如何两全其美?最新理论:这做不到

2024-11-21 12:41:00

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

本文第一作者为毕业于马里兰大学计算机系的博士胡正冕,其导师为 Heng Huang。他的主要研究方向是采样与机器学习理论,曾在 ICML、NeurIPS、ICLR、EMNLP 等顶会上发表多篇论文。邮箱: [email protected]

近日,DeepMind 团队将水印技术和投机采样(speculative sampling)结合,在为大语言模型加入水印的同时,提升其推理效率,降低推理成本,因此适合用于大规模生产环境。这项研究发表在了 Nature 杂志上,给出了两种具体的结合方法,分别在水印检测效果和生成速度上达到了现有最优水平,但无法同时兼顾两者。

无独有偶,另一组来自马里兰大学的研究人员针对同一个问题进行了理论角度的深入分析。他们发现了一个「不可行」定理,证明了不存在一个算法可以同时达到最优的推理效率和最高的水印强度。因此,任何水印系统都必须在这两个目标之间进行权衡。这项名为「Inevitable Trade-off between Watermark Strength and Speculative Sampling Efficiency for Language Models」的研究已被 NeurIPS 2024 会议接收。


  • 论文地址: https://arxiv.org/pdf/2410.20418

  • 代码仓库: https://github.com/xiaoniu-578fa6bff964d005/AcceleratedUnbiasedWatermark



无偏水印与投机采样方法

无偏水印方法 [1] 是一种将水印嵌入到生成文本的技术,它在理论上保证不影响生成文本的质量和多样性,并让水印无法被人察觉。这种水印方法可用于版权保护和来源追踪。其核心思想是在生成过程中对候选 token 的概率进行重新加权,并要求调整后的概率分布在对水印的随机私钥进行平均后,在数学期望上与原始分布相同,从而避免引入偏差。

投机采样方法 [2,3] 是一种加速大语言模型推理的技术。此方法利用较小的草稿模型快速生成草稿序列,再通过目标模型对这些草稿进行验证和修正。草稿模型规模较小,生成速度更快但质量较低;目标模型并行进行验证,接受符合条件的部分。这种方法可以在保持生成质量的同时,显著提升推理效率,降低计算成本,已成为大规模应用中不可或缺的工具。

「不可行」定理

研究者提出了一个两次重加权框架,分别对草稿模型和目标模型的输出分布进行重加权。这个框架具有很高的自由度,两次重加权函数可以不同,验证算法也可以任意选择,只要满足最终算法保持输出概率分布,从而维持输出质量即可。

在此框架下,研究者严格描述并证明了一个「不可行」定理:当词汇表大小大于 2 时,任何试图同时保持水印强度和加速效果的方法都必然使用两个平凡的重加权函数。


这个定理揭示了水印强度和投机采样效率之间存在一个不可避免的权衡,必须在两者之间做出选择。任何潜在的方法都无法同时达到在不考虑加速情况下最好的水印技术的检测效率,和在不考虑水印情况下最好的投机技术的加速效果。此结果也为未来的研究指明了方向:在设计新算法时研究者需要考虑这个理论限制,根据应用需求在两个目标之间进行平衡。

两种结合方法

即便「不可行」定理揭示了水印强度和采样效率之间存在不可避免的权衡,此研究给出了两种具体的结合水印和投机采样的方法,使得其分别满足以下两点性质:

1. 保持水印强度的方法优先确保水印的可检测性,即使这可能会牺牲一定的采样效率。这种方法首先对目标模型和草稿模型的输出概率分布进行重加权并从中采样,然后基于两个重加权分布进行投机采样。

2. 保持采样效率的方法优先保证生成速度,即使水印的强度可能有所降低。这种方法仍然对目标模型和草稿模型的输出概率分布进行重加权并从中采样,但接下来基于两个未经过重加权的分布进行投机采样。

这两种方法体现了不同的取舍,使用者可以根据具体应用场景和需求进行选择。

实验结果

研究人员在多种文本生成任务以及多种语言模型上进行了实验。他们引入了两个指标:平均每步接受的 token 数(AATPS)衡量投机采样效率,每个 token 的平均负对数 P 值(ANLPPT)衡量水印强度。


实验结果验证了理论分析的正确性,证实了水印强度和采样效率之间确实存在权衡。保持水印强度的方法在水印强度上与传统无偏水印方法相当,但采样效率相比原始投机采样方法有所下降;保持采样效率的方法在采样效率上与原始投机采样方法相当,但水印强度有明显降低。这表明根据实际需求,可以选择优先保证水印强度或采样效率的策略。

总结

此研究从理论角度证明了水印可检测性和投机采样效率之间存在根本冲突,这种冲突并不仅限于现在已有的方法,而是一个普遍规律。鉴于投机采样已经成为降低推理成本不可或缺的工具,高可检测水印系统带来的推理成本增加在未来将持续存在。

将水印技术与投机采样结合这个行为虽然可以让水印更接近实用,但同时也可能带来一些伦理问题,如未经披露的跟踪行为。在实际应用中,人们应当谨慎、合乎伦理地应用无偏水印方法,并向用户明确说明其存在,工作原理和意义。

[1] Unbiased Watermark for Large Language Models
[2] Fast Inference from Transformers via Speculative Decoding 
[3] Accelerating Large Language Model Decoding with Speculative Sampling 

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]