2026-04-23 04:00:00

Kimi-K2.6 是 Moonshot AI 在 4 月 20 日正式发布并开源的旗舰大语言模型,具备强大的长上下文推理、多模态理解和工具调用能力。本文将详细介绍如何使用 vLLM 部署 Kimi-K2.6 模型,并附上性能基准测试。
根据各大榜单排名以及实测表现,Kimi-K2.6 在多项评测中表现出色,是当前开源模型中的佼佼者。
在 Artificial Analysis Intelligence Index 中得分如下:

详细专项能力测评:

Arena AI Code Arena-WebDev 得分如下:

从榜单数据来看,Kimi-K2.6 和 GLM-5.1 各有千秋,二者也都基本达到了 Claude Opus 4.6 的水平。
本文所有测试均在以下环境完成:
|
|
首先安装 HuggingFace CLI 工具用于下载模型:
|
|
Kimi-K2.6 原生提供 Int4 精度版本,模型权重约需 595 GB 显存,加上推理时的 KV Cache,官方推荐最低显存为 714 GB。
H100 80G × 8 也能跑起来,但由于总显存只有 640 GB,余量较紧,上下文长度会受到一定限制。
|
|
由于单机多卡即可运行,因此在 Kubernetes 中可以直接使用 Deployment 进行部署:
使用 vllm/vllm-openai:v0.19.1-cu130 镜像即可
|
|
部署要点:
ResourceClaimTemplate 声明 4 块 GPU,由 DRA 调度器自动分配hostPath 挂载到 /app/model 和 /app/eagle-model
| 参数 | 说明 |
|---|---|
--tensor-parallel-size |
张量并行数,通常等于 GPU 数量 |
--attention-config.use_trtllm_ragged_deepseek_prefill |
启用 TRT-LLM 优化的不规则 prefill,加速长上下文处理 |
--tool-call-parser kimi_k2 |
使用 Kimi-K2.6 工具调用解析器 |
--reasoning-parser kimi_k2 |
启用 Kimi-K2.6 推理能力解析 |
--enable-auto-tool-choice |
启用自动工具选择 |
--trust-remote-code |
信任模型中的远程代码 |
--gpu-memory-utilization |
GPU 显存利用率,建议 0.85–0.95 |
--speculative-config |
启用 EAGLE-3 投机解码(测试显示当前版本效果不佳,接受率仅 1.28%) |
部署完成后,验证服务是否正常运行:
|
|
Kimi-K2.6 支持开启/关闭思考模式,通过 chat_template_kwargs 参数控制。
|
|
开启思考模式(默认):
|
|
关闭思考模式:
|
|
Kimi-K2.6 支持视觉-语言多模态输入:
|
|
使用 vLLM 内置的 benchmark 工具进行测试:
|
|
|
|
关键指标解读:
| 指标 | 含义 | 测试结果 |
|---|---|---|
| TTFT | Time To First Token,首 token 延迟 | 平均 162 ms |
| TPOT | Time Per Output Token,每个 token 的生成时间 | 平均 24.4 ms |
| 吞吐量 | Output token throughput | 1182 tok/s |
在 vLLM 启动参数中添加 --speculative-config 启用 EAGLE-3 投机解码:
|
|
在此配置下再次运行基准测试:
测试结果:
|
|
结果分析:
开启推测解码后,性能反而下降约 46%(吞吐量从 1182 tok/s 降至 631 tok/s)。根本原因是 EAGLE-3 投机模型的接受率仅 1.28%,远低于有效阈值(通常需要 60%+ 才有正收益)。
过低的接受率直接导致:
ps:本次测试开启推测解码后产生负收益,推测是当前 EAGLE-3 模型与 Kimi-K2.6 的适配参数或配置方式存在问题(1.28% 的接受率明显异常)。在官方给出更明确的配置指引前,不建议开启 推测解码功能。
Kimi-K2.6 是一个综合能力非常强的开源模型,长上下文、多模态、工具调用、推理能力都具备,部署起来也不算复杂,单机多卡就能跑。
对于编码任务来说,模型选择也比较简单:
从榜单数据来看,Kimi-K2.6 和 GLM-5.1 各有千秋,二者也都基本达到了 Claude Opus 4.6 的水平。 当然,各家发布时都喜欢标榜「超越 Claude」,但真落到实际使用上,Claude 的体感依旧是目前最稳的——不过最近网上关于 Claude “降智” 的吐槽也不少。
最后再扯一句题外话。从 GLM-5 到 GLM-5.1 再到这次的 Kimi-K2.6,国产大模型的迭代速度确实肉眼可见。虽然跟 OpenAI、Anthropic、Google 这”御三家”比,整体差距还在,但也算是”能够干活”了。
哦对,DeepSeek V4 什么时候发?(手动狗头)
2026-04-16 04:00:00

你是否遇到过这样的困扰:手头有 OpenAI、Claude、本地部署的多个 AI 模型:
New API 就是来解决这些问题的。
New API 是什么?
Next-Generation LLM Gateway and AI Asset Management System
New API 是新一代 AI 基座平台,为您的 AI 应用提供统一的基础设施。承载所有 AI 应用,管理您的数字资产,连接未来的统一接口平台。
核心特性:
技术架构:
上一篇文章 LiteLLM:打造统一 AI 网关 介绍了 LiteLLM——一个轻量的多模型聚合网关,可以通过统一的 API 接口调用 OpenAI、Claude、Gemini 等各种模型,还提供了 SDK,非常适合在 Python 项目中直接集成使用。
两者都是优秀的多模型聚合网关,但定位不同:
| 特性 | New API | LiteLLM |
|---|---|---|
| 定位 | 企业级 AI 平台 | 开发者工具 |
| 用户管理 | ✅ 完整的用户体系 | ❌ 无 |
| 计费系统 | ✅ 内置支付和计费 | ⚠️ 仅成本追踪 |
| 权限控制 | ✅ 令牌分组、模型限制 | ⚠️ 基础权限 |
| 可视化界面 | ✅ 完整管理后台 | ✅ 使用监控 |
| SDK 集成 | ❌ 无 | ✅ Python SDK |
| 适用场景 | 对外提供 AI 服务 | 代码内集成调用 |
选择建议:
|
|
使用 SQLite(默认):
|
|
使用 MySQL:
|
|
| 变量名 | 说明 | 默认值 |
|---|---|---|
SESSION_SECRET |
会话密钥(多机部署必填) | - |
SQL_DSN |
数据库连接字符串 | SQLite |
REDIS_CONN_STRING |
Redis 连接字符串 | - |
STREAMING_TIMEOUT |
流式超时时间(秒) | 300 |
浏览器访问 http://ip:3000/ 进入界面,首次访问需要初始化管理员账号。

设置完成后使用管理员账号登录。
渠道是 New API 与上游模型服务的连接配置。

添加渠道:
在「渠道管理」页面添加新的渠道:
例如添加本地 vLLM 部署的 GLM-5:
http://vllm-server:8000/v1
your-api-key
glm-5
模型映射:
可以为模型设置别名,方便统一管理:
|
|

模型配置:
如果使用自定义模型,需要在「模型管理」中配置:
价格设置示例:

| 模型 | 输入价格 | 输出价格 |
|---|---|---|
| GLM-5.1 | $1.00/1M | $4.00/1M |
| Qwen3.5 | $0.50/1M | $2.00/1M |
令牌是用户调用 API 的凭证。

创建令牌:
在「令牌管理」页面创建令牌:
创建后会生成一个 API Key,格式如:sk-xxxxxxxxxxxx
令牌权限控制:
可以为令牌设置:

在首页可以看到:
http://your-domain:3000
|
|
|
|
本文介绍了 New API 的部署和基本使用:
| 功能 | 说明 |
|---|---|
| 一键部署 | Docker/Docker Compose 快速启动 |
| 多模型聚合 | 支持 OpenAI、Claude、Gemini 等格式 |
| 用户管理 | 多用户、令牌分组、权限控制 |
| 计费系统 | 在线充值、按量计费、价格策略 |
| 可视化管理 | 完整的 Web 管理后台 |
New API 适合场景:
New API vs LiteLLM 选型指南:
| 场景 | 推荐 | 原因 |
|---|---|---|
| 对外提供 AI 服务、需要收费 | New API | 内置用户管理、计费系统 |
| 企业内部多用户使用 | New API | 权限控制、用量统计完善 |
| Python 项目内集成多模型 | LiteLLM | Python SDK,代码级调用 |
| 个人开发测试 | LiteLLM | 轻量、配置简单 |
相关文章:
2026-04-08 04:00:00

为什么需要 LiteLLM?
当你在使用多个 AI 模型时,会遇到这些问题:
LiteLLM 通过统一的 OpenAI 兼容接口解决了这些问题,让你只需修改 model 参数就能切换模型。
核心功能:
LiteLLM 作为统一网关,接收所有客户端请求,然后根据 model 参数自动路由到对应的后端模型服务。无论是本地部署的 vLLM,还是云端 API(OpenAI、Claude 等),都可以通过同一套接口调用。
本文将介绍如何在 Kubernetes 环境中部署 LiteLLM,并配置 PostgreSQL 作为数据库。
部署完成后,你可以像这样统一调用不同的模型:
|
|
⚠️ 重要安全提醒
ps:主要影响 PyPI 包,如果是 Docker Image 则不受影响。
如果你的环境中有 LiteLLM,请立即检查版本:
|
|
如果你不幸安装了 1.82.7 或 1.82.8,请假设所有凭证已泄露,立即:
详细信息请参考官方安全公告:LiteLLM Security Update - March 2026 Github Issue: https://github.com/BerriAI/litellm/issues/24518
PostgreSQL 需要 StorageClass,使用 LocalPathStorage:
|
|
查看部署状态:
|
|
使用 Bitnami PostgreSQL Helm Chart 部署:
|
|
查看部署状态:
|
|
OK,准备工作完成,接下来可以开始部署 LiteLLM 了。
|
|
|
|
查看 Pod 状态:
|
|
LiteLLM 对外提供 OpenAI API 格式的端点,会根据 model 自动路由到不同的后端 Provider 上:
|
|
|
|
服务启动后,访问 4000 端口,进入 LiteLLM UI 界面:
|
|
账号 admin,密码为配置文件中指定的 MASTER_KEY:

登录后,跳转到界面上 Usage 页面可以看到不同模型的具体的使用情况:

以及具体请求:

本文详细介绍了 LiteLLM AI Gateway 的 Kubernetes 部署:
LiteLLM 的核心价值:
| 功能 | 说明 |
|---|---|
| 一行代码切换模型 | 只需修改 model 参数,无需改业务代码 |
| 可视化监控 | Web UI 实时查看调用次数、Token 消耗、成本统计 |
| 多模型负载均衡 | 自动在多个模型实例间分配请求 |
| OpenAI 兼容 | 无缝对接现有使用 OpenAI API 的应用 |
如果你已经在使用 vLLM 部署本地模型,可以参考我的其他文章:
2026-03-31 04:00:00

Qwen3.5 是阿里云最新开源的大语言模型系列,提供了从 0.8B 到 397B 的多种规格,在推理能力和效率之间取得了良好平衡。
面对如此丰富的模型规格,该如何选择?本文将首先分析各规格模型的特点和适用场景,帮助你找到最适合的那一款,然后介绍如何使用 vLLM 在 Kubernetes 环境中部署 Qwen3.5 模型。
根据各大榜单排名以及实测表现,Qwen3.5 系列在性能和质量的权衡上表现出色。

本文所有测试均在以下环境完成:
|
|
Qwen3.5 已形成从 0.8B 到 397B 的完整开源矩阵,分为三大梯队:
| 系列 | 模型 | 特点 |
|---|---|---|
| 轻量稠密系列 | 0.8B / 2B / 4B / 9B / 27B | 全参数激活,部署简单,适合个人/边缘场景 |
| 中型 MoE 系列 | 35B-A3B / 122B-A10B | 激活参数小,速度快成本低,适合企业级服务 |
| 旗舰 MoE 系列 | 397B-A17B | 开源旗舰,全场景最强,对标闭源第一梯队 |
所有模型均支持视觉-语言多模态输入,原生上下文长度 256K tokens,最高可扩展至 1M tokens。
根据官方测评数据,比较推荐下面 4 个规格:
| 模型 | 激活参数 | 综合能力 | 代码能力 | Agent 能力 | 中文能力 |
|---|---|---|---|---|---|
| Qwen3.5-27B | 27B | 88.5 | HumanEval 89.1 | BFC-Lv4 48.5% | 90.5 |
| Qwen3.5-35B-A3B | 3B | 89.7 | HumanEval 87.9 | BFC-Lv4 52.3% | - |
| Qwen3.5-122B-A10B | 10B | 90.8 | HumanEval 88.7 | BFC-Lv4 50.7% | 91.7 |
| Qwen3.5-397B-A17B | 17B | 91.5 | HumanEval 89.3 | BFC-Lv4 49.8% | 92.3 |
选型建议:
首先安装 HuggingFace CLI 工具用于下载模型:
|
|
常见问题:安装失败
如果遇到 No module named pip 错误,通常是因为虚拟环境损坏:
|
|
Qwen3.5 提供多种规格和精度版本,根据你的硬件配置选择:
|
|
官方文档:https://docs.vllm.ai/projects/recipes/en/latest/Qwen/Qwen3.5.html
以下以 Qwen3.5-397B-A17B-GPTQ-Int4 为例,展示如何在 Kubernetes 中部署:
|
|
关键参数说明:
| 参数 | 说明 |
|---|---|
--tensor-parallel-size |
张量并行数,通常等于 GPU 数量 |
--reasoning-parser qwen3 |
启用 Qwen3 推理能力 |
--tool-call-parser qwen3_coder |
使用 Qwen3 工具调用解析器 |
--enable-auto-tool-choice |
启用自动工具选择 |
--quantization moe_wna16 |
MoE 模型量化方式 |
--max-model-len 262144 |
最大上下文长度 |
--enable-prefix-caching |
启用前缀缓存加速 |
|
|
Qwen3.5 支持开启/关闭思考模式:
开启思考模式(默认):
|
|
关闭思考模式:
|
|
使用 vLLM 内置的 benchmark 工具进行测试:
|
|
|
|
关键指标解读:
| 指标 | 含义 | 测试结果 |
|---|---|---|
| TTFT | Time To First Token,首 token 延迟 | 平均 308ms |
| TPOT | Time Per Output Token,每个 token 生成时间 | 平均 29.5ms |
| 吞吐量 | Output token throughput | 1005 tok/s |
本文详细介绍了使用 vLLM 部署 Qwen3.5 模型的完整流程:
如果你想在 Claude Code 中使用本地部署的模型,可以参考我的另一篇文章《Claude Code 也能跑本地模型?CCR 多模型智能路由》,了解如何通过 Claude Code Router 实现对接。
另外,如果你对 GLM-5 模型的部署感兴趣,也可以参考《vLLM + GLM-5:打造高性能本地大模型推理服务》。
2026-03-26 04:00:00

GLM-5 是智谱 AI 最新发布的大语言模型,具备强大的推理能力和工具调用能力。本文将详细介绍如何使用 vLLM 框架在生产环境中部署 GLM-5 模型。
根据各大榜单排名以及实测表现,GLM-5 在多项评测中表现出色,是当前开源模型中的佼佼者。

本文涵盖以下内容:
本文所有测试均在以下环境完成:
|
|
首先安装 HuggingFace CLI 工具用于下载模型:
|
|
常见问题:安装失败
如果遇到 No module named pip 错误,通常是因为虚拟环境损坏:
|
|
GLM-5 提供了多种精度版本,根据你的硬件配置选择:
|
|
官方文档:https://github.com/vllm-project/recipes/blob/main/GLM/GLM5.md
由于 GLM-5 需要最新版 transformers 支持,官方镜像暂未包含,需要构建自定义镜像。
创建 Dockerfile:
|
|
构建镜像:
|
|
已推送到公共仓库:
lixd96/vllm-openai:v0.17.1-cu130,可直接拉取使用
|
|
关键参数说明:
| 参数 | 说明 |
|---|---|
--tensor-parallel-size |
张量并行数,通常等于 GPU 数量 |
--tool-call-parser glm47 |
使用 GLM 系列工具调用解析器 |
--reasoning-parser glm45 |
启用 GLM 推理能力 |
--enable-auto-tool-choice |
启用自动工具选择 |
--trust-remote-code |
信任模型中的远程代码 |
--gpu-memory-utilization |
GPU 显存利用率,建议 0.85-0.95 |
部署完成后,验证服务是否正常运行:
|
|
GLM-5 支持开启/关闭思考模式,通过 chat_template_kwargs 参数控制:
开启思考模式(默认):
|
|
关闭思考模式:
|
|
使用 vLLM 内置的 benchmark 工具进行测试:
|
|
|
|
关键指标解读:
| 指标 | 含义 | 测试结果 |
|---|---|---|
| TTFT | Time To First Token,首 token 延迟,衡量用户等待第一个响应的时间 | 平均 144ms,响应迅速 |
| TPOT | Time Per Output Token,每个 token 的生成时间,反映流式输出的流畅度 | 平均 31.6ms |
本文详细介绍了使用 vLLM 部署 GLM-5 模型的完整流程:
如果你想在 Claude Code 中使用本地部署的 GLM-5 模型,可以参考我的另一篇文章《Claude Code 也能跑本地模型?CCR 多模型智能路由》,了解如何通过 Claude Code Router 实现对接。
2026-03-19 04:00:00

Claude Code 是 Anthropic 推出的强大 AI 编程助手,但每月的订阅费用让很多开发者望而却步。
通过 Claude Code Router (CCR),我们可以:
本文将手把手教你搭建这套方案,让你的 AI 编程助手成本降低 90% 以上。
首先需要在你的开发机器上安装 Claude Code:
|
|
Claude Code Router 是一个 Node.js 包,用于桥接 Claude Code 和本地模型:
|
|
安装完成后,验证两个工具是否正常工作:
|
|
在服务器上下载 GLM5 模型:
根据硬件配置选择合适的版本
|
|
使用 vLLM 框架部署模型服务,确保已安装 GPU 驱动和 NVIDIA Container Toolkit。
由于 GLM5 需要最新版的 transformers 支持,官方镜像暂未包含,需要先构建自定义镜像:
已经推送到 lixd96/vllm-openai:v0.17.1-cu130,直接拉取即可 docker pull lixd96/vllm-openai:v0.17.1-cu130
构建自定义镜像:
创建 Dockerfile:
|
|
构建并推送镜像:
|
|
启动服务:
|
|
关键参数说明:
--gpus 和 --tensor-parallel-size 参数--shm-size 16g 确保容器有足够共享内存--enable-auto-tool-choice 启用工具调用功能,--tool-call-parser glm47 使用 GLM 系列的工具调用解析器--reasoning-parser glm45 启用 GLM 的推理能力--trust-remote-code 允许加载模型的自定义代码--tensor-parallel-size 4 在多 GPU 上并行处理部署完成后,验证服务是否正常运行:
|
|
如果一切正常,你应该能看到模型的响应输出。
核心配置文件如下:
|
|
创建或编辑配置文件 ~/.claude-code-router/config.json:
|
|
配置说明:
your-server-ip 替换为实际的服务器 IP 地址debug,生产环境建议改为 info
使用 ccr code 替代原来的 claude 命令:
效果如下:

启动后,在 claude 界面输入以下命令切换模型
|
|
之后就可以正常使用了。
ps: 不切换模型也可以,只是终端会一直显示用的 Claude 的模型。
前面我们介绍了单一模型的配置方式,但在实际使用中,不同类型的任务对模型能力的要求各不相同。
Claude Code Router 的强大之处在于支持对接多个模型,并根据任务类型自动路由到最合适的模型。
不同任务对模型的需求差异很大:
| 任务类型 | 特点 | 推荐模型策略 |
|---|---|---|
| 日常对话 | 频率高、响应快 | 轻量级模型,节省资源 |
| 代码生成 | 需要准确性和逻辑性 | 中等能力模型 |
| 复杂推理 | 需要深度思考 | 顶级能力模型 |
| 长文本处理 | 需要大上下文窗口 | 支持长上下文的模型 |
| 图像理解 | 需要多模态能力 | 视觉语言模型 |
通过合理配置,可以实现:
以下是一个对接多个模型服务商的完整配置:
|
|
default(默认路由)
background(后台任务)
think(思考密集型)
longContext(长上下文)
longContextThreshold 时自动切换webSearch(网络搜索)
image(图像任务)
Claude Code Router 的核心原理是通过启动一个 HTTP 中转服务,在不修改 Claude Code 源码的情况下完成请求的转发和格式转换。
Claude Code 使用 Anthropic API 规范进行通信,而大多数模型服务商(如 OpenAI、DeepSeek 等)使用 OpenAI API 规范。CCR 的作用就是:
|
|
CCR 的核心优势在于可以根据任务特点选择最合适的模型,实现成本与质量的平衡:
| 任务类型 | 特点 | 推荐策略 |
|---|---|---|
| 日常开发 | 频率高、响应要求快 | 性价比高的主力模型 |
| 复杂推理 | 需要深度思考 | 推理能力强的模型 |
| 图像理解 | 需要多模态能力 | 支持视觉的模型 |
| 后台任务 | 自动触发、频率高 | 轻量快速模型 |
| 长文本 | 需要大上下文 | 支持长上下文的模型 |
成本对比:
|
|
通过合理配置路由策略,将高频低难度任务分配给低成本模型,仅在必要时调用高端模型,月成本可降低 90% 以上。
如果运行 ccr code 时报错:“Unable to connect to Anthropic services”,可以修改 ~/.claude.json 文件,在最外层添加以下配置:
|
|
保存后重新运行即可。
本文介绍了如何通过 Claude Code Router 打破 Claude Code 的使用限制:
CCR 还支持对接更多 Provider,如 DeepSeek、智谱 AI、OpenAI 等,可根据实际需求灵活组合。如果你也在寻找高性价比的 AI 编程方案,不妨试试这套配置。