MoreRSS

site iconAnZhihe | 安志合修改

国学和传统文化爱好者,IT行业从业者,运维和SRE。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

AnZhihe | 安志合的 RSS 预览

常用AI模型介绍及多模型组合使用场景

2025-12-08 05:37:51

常用AI模型介绍及TEI模型推理框架

bge-m3模型是一种先进的文本嵌入模型,能够将文本转换为高维向量,从而实现高效的文本相似度计算、分类等任务。

bge-reranker-v2-m3是一个轻量级的重排序模型,具有强大的多语言能力,易于部署,推理速度快。

TEI(全称:Text Embeddings Inference)是由Huggingface推出的高性能推理框架,旨在简化和加速文本嵌入(Embedding)和重排序(Reranker) 模型在生产环境中的部署。TEI支持基于HTTP和gRPC协议的服务接口,能够高效处理文本嵌入的生成和基于文本相关性的重排序等任务;TEI框架同时也支持多种嵌入模型和重排序模型,并提供了灵活的请求批处理、模型管理和动态调度功能。通过TEI,开发者可以轻松地扩展和优化文本嵌入和重排序服务,以满足实时应用和批量处理的需求,特别适用于自然语言处理相关的在线推理任务,能够满足RAG(全称:Retrieval-Augmented Generation)、信息检索 (IR)、自然语言理解 (NLU)、文本分类以及个性化推荐系统等下游应用场景。

简单来说,BGE系列是处理文本的"专家",而LLM和VLM是内容"生成者",TEI和vLLM则是让这些模型高效运行的"发动机"。下面这个表格可以让我们快速了解它们各自的特点和角色。

模型/框架名称 核心功能与特点 开发者/来源 典型应用场景
BGE-M3 文本嵌入模型:将文本转换为向量。支持密集检索多向量检索稀疏检索多语言(100+),处理长文档(最长8192 token)。 BAAI 文本相似度计算、语义搜索、作为RAG系统的检索器。
BGE-Reranker-v2-M3 重排序模型:对检索结果进行精排。基于BGE-M3,具备强大跨语言能力,模型轻量,推理速度快。 BAAI 在RAG、搜索引擎中优化检索结果,提升Top结果的相关性。
Text Embeddings Inference (TEI) 嵌入模型推理框架:专为部署文本嵌入和重排序模型设计的高性能框架。支持HTTP/gRPC协议。 Hugging Face 用于生产环境,高并发、低延迟地提供嵌入向量生成和重排序服务。
Large Language Model (LLM) 大语言模型:理解和生成人类语言。参数规模巨大,能力广泛(文本生成、翻译、总结等)。 OpenAI等多家机构 作为RAG系统、对话机器人的生成核心,进行内容创作、问答等。
vLLM LLM推理和服务框架:核心是PagedAttention技术,实现高吞吐量的LLM推理。兼容OpenAI API。 UC Berkeley 用于生产环境,高效、低成本地部署和服务各类LLM。
Vision Language Model (VLM) 视觉语言模型多模态模型,能同时处理图像、视频和文本信息,并生成文本响应。 NVIDIA等多家机构 视觉问答、图像/视频内容理解与总结、多模态对话。

将 Text Embeddings Inference (TEI) 和 vLLM 组合使用,是构建高性能生产级 AI 应用的一个非常出色的方案。简单来说,这个组合的核心思想是 「让专业的工具做专业的事」TEI 负责「理解」语义并进行检索,vLLM 负责「生成」高质量的文本下面这个表格清晰地展示了两者在典型工作流(如RAG)中的核心分工与合作。

阶段 核心任务 推荐引擎 引擎优势
检索阶段 文本向量化、语义检索、结果重排序 Text Embeddings Inference (TEI) 为嵌入和重排序模型量身定制,高并发、低延迟 。
生成阶段 基于检索到的上下文,生成流畅、准确的答案 vLLM 专精于文本生成,通过 PagedAttention 等技术实现高吞吐低延迟的推理 。

通用使用场景与组合策略

这些模型和工具在实际项目中,尤其是在构建复杂的AI应用时,常常协同工作。一个典型的例子是检索增强生成(RAG)系统,它能够结合外部知识库,让LLM生成更准确、信息更丰富的答案。

RAG Pipeline

1764775690514879.png

如上图所示,检索排序模型是信息检索及RAG pipeline中的重要组成部分。与向量模型与稀疏检索模型相比,检索排序模型会利用更加复杂的判定函数以获得更加精细的相关关系。通常,系统会首先借助向量模型(BGE-M3-Dense)与稀疏检索模型(BGE-M3-Sparse)分别从向量数据库与倒排索引中初步获取粗粒度的候选文档(coarse-grained candidates)。紧接着,系统会进一步利用排序模型(BGE Re-Ranker)进一步过滤候选集,并最终获得精细的文档集(fine-grained candidates),以支持下游大语言模型完成检索增强任务(RAG)。

下图直观展示了一个增强型RAG系统的工作流程,其中也包含了引入视觉信息的可能性:

1764775878388473.png

在这个流程中:

  1. 检索(Retrieval)BGE-M3 模型为文档库生成嵌入向量并建立索引。当用户提问时,用它进行初步的语义检索,找出相关文档。如果问题涉及图像(例如“找出所有与图片描述相似的文档”),则可以先用VLM理解图像内容,生成描述文本,再将此文本交给BGE-M3进行检索。

  2. 精排(Reranking):初步检索可能返回大量结果,使用 BGE-reranker-v2-m3 对结果进行重新评分和排序,筛选出最相关的几条,从而提升最终答案的质量。

  3. 生成(Generation):将精排后的文档和用户问题一起构成提示词(Prompt),提交给由 vLLM 引擎服务的高性能 LLM,生成最终准确且丰富的答案。

在整个过程中,TEI 框架可以负责高效、稳定地部署和运行 BGE-M3 和 BGE-reranker 模型,确保检索和精排服务的性能与延迟满足要求。


参考:

NVIDIA GPU架构演进及使用场景

2025-12-01 05:27:22

在人工智能和深度学习领域,NVIDIA 凭借其强大的 GPU 产品线占据着举足轻重的地位。NVIDIA 拥有数十款功能各异的 GPU 产品,可用于部署和运行不同规模的机器学习模型,从边缘设备到大规模数据中心,几乎涵盖了所有应用场景。然而,NVIDIA GPU 的命名规则较为复杂,涉及架构代号(如 Ampere、Hopper)、性能等级(如 A100、A40)以及其他技术特征等多重维度,这使得用户在选择时容易感到困惑,同时也是不小的挑战。因此,了解NVIDIA GPU架构演进,充分理解这些不同显卡的核心参数、性能特征、成本效益,在实际需求场景使用时才能做出最佳选择。 

在了解 NVIDIA GPU架构之前,我们先来简单了解下 NVIDIA GPU 的核心参数,这样能够更好地帮助我们了解这些 GPU 的差别和各自的优势。

  • CUDA Core:CUDA Core 是 NVIDIA GPU 上的计算核心单元,用于执行通用的并行计算任务,是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力,CUDA Core 指的是一个执行基础运算的处理元件,我们所说的 CUDA Core 数量,通常对应的是 FP32 计算单元的数量。

  • Tensor Core:Tensor Core 是 NVIDIA Volta 架构及其后续架构(如 Ampere 架构)中引入的一种特殊计算单元。它们专门用于深度学习任务中的张量计算,如[矩阵乘法]和卷积运算。Tensor Core 核心特别大,通常与深度学习框架(如 TensorFlow 和 PyTorch)相结合使用,它可以把整个矩阵都载入寄存器中批量运算,实现十几倍的效率提升。

  • RT Core:RT Core 是 NVIDIA 的专用硬件单元,主要用于加速光线追踪计算。正常数据中心级的 GPU 核心是没有 RT Core 的,主要是消费级显卡才为光线追踪运算添加了 RTCores。RT Core 主要用于游戏开发、电影制作和虚拟现实等需要实时渲染的领域。

NVIDIA GPU 讲解

NVIDIA GPU 架构的演进

NVIDIA GPU架构的演进是一部典型的"需求驱动创新"的历史。它从专注于图形渲染出发,逐步演变为承载通用计算和人工智能计算的强大引擎。为了对这段演进史有一个直观的整体认知,首先我们用GPU产品发布时间线来概括其核心里程碑:

Snipaste_2025-12-01_20-00-43.png

wmremove-transformed.jpeg

接下来,我们来详细解读每一个架构的代际创新,以及它们如何塑造了今天的计算格局。

详细架构演进解读

架构代号 首发年份 核心创新与驱动因素 代表性产品 历史意义与定位
Tesla 2008 统一着色器模型;CUDA计算平台诞生 GeForce 8000系列;Tesla C/C/D系列 通用计算的破冰者:将GPU从纯粹的图形处理器转变为潜在的并行计算 accelerator。
Fermi 2010 首个为GPU计算设计的架构;ECC显存;更完善的GPU计算生态 GeForce 400/500系列;Tesla M/C系列 计算架构的奠基者:建立了GPU计算的可靠性和实用性,真正吸引了科学计算领域的目光。
Kepler 2012 追求能效比;动态并行;GPU直接通信 GeForce 600/700系列;Tesla K系列(如K80) 云数据中心的先驱:其低功耗设计使大规模GPU服务器部署成为可能,开启了云GPU服务。
Maxwell 2014 极致能效优化;大幅提升每瓦特性能 GeForce GTX 900系列(如GTX 980 Ti) 消费级市场的优化大师:证明了在性能提升的同时,功耗可以得到出色控制。
Pascal 2016 拥抱AI浪潮;NVLink高速互联;16nm工艺;HBM2显存 Tesla P100;GeForce GTX 10系列 AI计算的铺路者:为深度学习的爆发提供了关键的高速互联和大容量显存支持。
Volta 2017 专用AI核心;Tensor Cores;NVSwitch Tesla V100;TITAN V AI时代的革命者:专用硬件(Tensor Core)的引入,使AI训练和推理性能提升了数个量级。
Turing 2018 AI+光追融合;RT Cores;Tensor Cores下放消费级 GeForce RTX 20系列;Quadro RTX系列 图形技术的再革命:将实时光线追踪和AI降噪(DLSS)带入消费级市场,重塑了图形保真度标准。
Ampere 2020 统一AI与HPC;第三代Tensor Core;稀疏化;MIG RTX 30系列;A100;A40 数据中心的主力军:在AI训练/推理、HPC和图形领域提供了前所未有的综合性能,是目前应用最广泛的架构之一。
Hopper 2022 专为巨型模型打造;Transformer引擎;第四代NVLink H100;H200 超大规模AI的引擎:针对万亿参数模型的训练和推理进行了专门优化,确立了新一代数据中心的标准。
Ada Lovelace 2022 极致图形体验;第三代RT Core;DLSS 3 GeForce RTX 40系列;RTX 5000/6000 Ada 图形技术的再突破:通过光流加速器和AI帧生成,在图形领域实现了质的飞跃。
Blackwell 2024 超大规模AI与HPC;第二代Transformer引擎;芯片间高速互联 B100/B200;GB200 下一代计算平台:旨在支撑万亿参数模型的实时推理和持续训练,目标是降低超大规模AI的总拥有成本。

NVIDIA 技术架构

演进的核心驱动力

从上述演进历程中,我们可以清晰地看到几条主线:

  1. 从通用到专用

  • 早期的架构(Tesla到Kepler)主要优化通用并行计算

  • 从Pascal开始,特别是Volta引入Tensor Core后,NVIDIA开始集成针对特定领域(尤其是AI)的专用硬件,实现了性能的飞跃。后来的RT Core也是同一思路在图形领域的体现。

  • 对带宽和互联的极致追求

    • 从GDDR5到HBM2/HBM2e/HBM3,显存带宽不断提升,以喂饱越来越多的计算核心。

    • 互联技术从PCIe到NVLink/NVSwitch,再到Blackwell的芯片间高速互联,都是为了解决多GPU系统内部的数据传输瓶颈,这对于大规模AI训练至关重要。

  • 能效比的持续优化

    • 每一代架构都在寻求在给定的功耗下提供更高的性能,这是GPU能够进入从移动设备到超大规模数据中心的每一个角落的关键。

  • 软件与硬件的协同进化

    • CUDA的诞生是这一切的基础。随着硬件演进,NVIDIA不断丰富其软件栈(cuDNN, TensorRT等),构建了无与伦比的软件生态护城河,使开发者能充分利用硬件能力。

    总结

    NVIDIA GPU架构的演进史,是一部从图形处理器 到 并行计算 accelerator 再到 AI引擎 的进化史。其成功关键在于,它敏锐地捕捉到了AI这一未来趋势,并通过前瞻性的架构设计(专用核心)和强大的软件生态,牢牢抓住了时代机遇,最终确立了在人工智能计算领域的绝对领导地位。


    NVIDIA 主流GPU核心参数速览

    下表汇总了T4、V100、A40、A100、A800、H100、H200、H800和B100的主要规格,可以依据架构、显存、关键特性和典型应用场景这些维度进行横向对比。

    GPU 型号 架构 显存 显存带宽 关键特性 典型应用场景
    T4 Turing 16 GB GDDR6 320+ GB/s 低功耗(70W),支持INT4/INT8精度,视频编解码能力强 AI推理、视频处理、边缘计算
    V100 Volta 16/32 GB HBM2 900-1134 GB/s 首批Tensor Core GPU,强大的FP64双精度计算能力 科学计算、传统AI训练、高性能计算仿真
    A40 Ampere 48 GB GDDR6 696 GB/s 强大的专业图形能力(第二代RT Core),支持vGPU虚拟化 专业图形渲染(光线追踪)、虚拟工作站、VR/AR
    A100 Ampere 40/80 GB HBM2e 1.6-2.0 TB/s 第三代Tensor Core,支持MIG(多实例GPU),稀疏性优化 数据中心级AI训练与推理、HPC、大规模数据分析
    A800 Ampere 40 GB HBM2e 1.6 TB/s A100的替代型号,互联带宽调整以符合特定贸易法规 与A100类似,适用于AI、数据科学和HPC工作负载
    H100 Hopper 80-94 GB HBM3 3.35-3.9 TB/s 专用Transformer引擎,第四代Tensor Core,支持FP8精度 大规模AI训练与推理(尤其大语言模型)、高性能计算
    H200 Hopper 141 GB HBM3e 4.8 TB/s H100的升级版,显存容量与带宽显著提升 超大规模AI模型(特别是LLM推理和训练)
    H800 Hopper 80 GB HBM3e 3.35 TB/s H100的替代型号,互联带宽调整以符合特定贸易法规 与H100类似,适用于大规模AI训练与推理
    B100 Blackwell 192 GB HBM3e (预计) 8 TB/s (预计) 新一代架构,集成Transformer引擎,AI算力大幅提升 下一代超大规模AI与高性能计算

    英伟达GPU参数速查表请注意:以上GPU部分详细规格和特性可能仍在更新中,建议在决策前访问NVIDIA官方网站获取最权威和最新的数据。

    如何根据场景选择GPU?

    面对众多选项,您可以从以下几个方面考虑,找到最适合您业务的GPU:

    • 1. 明确主要工作负载
      不同的任务需要不同类型的计算资源。

      • 大规模AI训练与推理:尤其是千亿参数级别的大语言模型(LLMs),需要极高的AI算力大显存H100H200和未来的B100是为此设计的标杆。对于参数规模稍小的模型,A100A800是性能与成本平衡的可靠选择。

      • AI推理:对于高并发、低延时的在线推理场景,T4凭借其低功耗和对INT8/INT4精度的支持,是性价比极高的选择。

      • 高性能计算(HPC)与科学模拟:许多科学计算应用(如气候模拟、分子动力学)依赖强大的双精度(FP64) 性能。V100A100在此领域表现出色。

      • 专业图形与渲染:如果需要强大的实时图形处理能力,用于虚拟制片、建筑可视化或虚拟工作站(vGPU),那么具备强大RT Core(光追核心) 的A40是更合适的选择。

      • 成本与合规性考量A800H800A100H100的特定版本,在互联带宽上有所调整以符合国际贸易法规。如果您的项目受此限制,它们是直接的替代选项。

    • 2. 评估性能与规模需求

      • 数据中心级:对于需要部署多GPU节点的大规模任务,应考虑支持NVLinkNVSwitch(提升多GPU互联带宽)的型号,如A100、H100。

      • 虚拟化与多租户:如果需要在多个虚拟机(VM)之间共享GPU资源,务必选择支持NVIDIA vGPUMIG(多实例GPU) 技术的GPU。例如,A100和H100支持MIG,可以将单卡物理分割为多个独立实例;A40则支持vGPU,适合虚拟工作站场景。

    总结与建议

    简单来说,这几款GPU可以这样快速定位:

    • H100/H200/B100:追求极致AI算力,专为超大规模模型打造。

    • A100/A800:需要均衡的数据中心级性能,是经久考验的全能与性价比之选。

    • T4:专注于高能效的AI推理视频处理

    • V100:用于科学模拟等传统HPC或预算有限的AI项目。

    • A40:主要面向专业图形设计、渲染和虚拟化


    参考:

    英伟达GPU参数速查表

    2025-11-29 23:29:38

    ◎NVIDIA GPU参数速查表 | 更新日期:20251129
    GPU型号 产品架构 产品形态 算力情况,挂*为稀疏值 显存 显存带宽 GPU互联 详细参数
    GB300 Blackwell
    Ultra
    多芯组合,2个B300和1个Grace CPU FP4:30/38.9P*
    FP8:10/20P*
    FP16:5/10P*
    TF32:2.5/5P*
    576G HBM3e 16TB/s Nvlink 2x1.8TB/s 查看
    B300 Blackwell
    Ultra
    SXM FP4:15/17.5P?*
    FP8:4.5/9P*
    FP16:2.25/4.5P*
    TF32:1.12/2.25P*
    FP64:40T
    288G HBM3e 8TB/s Nvlink 1.8TB/s 查看
    GB200 Blackwell 多芯组合,2个B200和1个Grace CPU FP4:20/40P*
    FP8:10/20P*
    FP16:5/10P*
    TF32:2.5/5P*
    FP64:90T
    384G HBM3e 16TB/s Nvlink 2x1.8TB/s 查看
    B200 Blackwell SXM FP4:9/18P*
    FP8:4.5/9P*
    FP16:2.25/4.5P*
    TF32:1.12/2.25P*
    FP64:40T
    192G HBM3e 8TB/s Nvlink 1.8TB/s 查看
    B100 Blackwell SXM FP16:1.8/3.5P*
    TF32:0.9/1.8P*
    FP64:30T
    192G HBM3e 8TB/s Nvlink 1.8TB/s 查看
    H20标准款 Hopper SXM INT8和FP8:296T
    FP16:148T
    TF32:59.8T
    96G HBM3 4TB/s NVlink 900GB/s 查看
    H20大显存 Hopper SXM INT8和FP8:296T
    FP16:148T
    TF32:59.8T
    141G HBM3e 4.8TB/s NVlink 900GB/s
    H200 Hopper SXM FP8和INT8:1/2P*
    FP16:1/2P*
    TF32:495/989T*
    FP64:67T
    141G HBM3e 4.8TB/s Nvlink 900GB/s 查看
    RTX 4090 Ada PCIe FP16:165T/330T*
    TF32:82.6/165.2T*
    源于AutoDL官网
    24G GDDR6x
    新增48G
    1TB/s 64GB/s 查看
    RTX 4090D Ada PCIe FP16:147/294T*
    TF32:73.54/147T*
    源于AutoDL官网
    24G GDDR6x 1TB/s 64GB/s 查看
    RTX 5090 Blackwell PCIe 5.0 FP16:210T/420T?
    TF32:108T
    源自网络,供参考
    32G GDDR7 1.8TB/s PCIe 128GB/s 查看
    RTX 5090D Blackwell PCIe 5.0 FP16:150/297T*?
    TF32:未找到
    源自网络,供参考
    32G GDDR7 1.8TB/s PCIe 128GB/s 查看
    H100 Hopper SXM FP8和INT8:1/2P*
    FP16:1/2P*
    TF32:495/989T*
    FP64:67T
    80G HBM3 3.35TB/s Nvlink 900GB/s 查看
    H100 Hopper PCIe FP16:0.8/1.6P*
    TF32:378/756T*
    FP64:51T
    80G HBM3 2TB/s PCIe 128GB/s 查看
    H800 Hopper SXM FP16:1/2P*
    TF32:495/989T*
    FP64:1T
    80G HBM3 3.35TB/s Nvlink 400GB/s 查看
    H800 Hopper PCIe FP16:0.8/1.6P*
    TF32:378/756T*
    FP64:0.8T
    80G HBM3 2TB/s PCIe 128GB/s 查看
    A100 Ampere SXM FP16:0.3/0.6P*
    TF32:156/312T*
    FP64:19.5T
    80GHBM2e 2TB/s Nvlink 600GB/s 查看
    A100 Ampere PCIe FP16:0.3/0.6P*
    TF32:156/312T*
    FP64:19.5T
    80GB HBM2e 2TB/s PCIe 64GB/s 查看
    A800 Ampere SXM FP16:0.3/0.6P*
    TF32:156/312T*
    FP64:19.5T
    80GHBM2e 2TB/s Nvlink 400GB/s 查看
    A800 Ampere PCIe FP16:0.3/0.6P*
    TF32:156/312T*
    FP64:19.5T
    80GB HBM2e 2TB/s PCIe 64GB/s 查看
    L40S Ada PCIe FP16:366/733T*
    TF32:181/366*
    48G GDDR6x 864GB/s 64GB/s 查看
    L40 Ada PCIe FP16:181/362T*
    TF32:90.5/181*
    48G GDDR6x 864GB/s 64GB/s 查看
    L20 Ada PCIe FP16:119.5T
    TF32:59.8T
    48G GDDR6x 864GB/s 64GB/s 查看
    A40 Ampere PCIe

    FP16:149.7/299.4*

    TF32:74.8/149.6*

    48G GDDR6x 696GB/s

    Nvlink

    112GB/s

    PCIe

    64GB/s

    查看
    L4 Ada PCIe FP16:121/242T*
    TF32:60.5/121*
    24G GDDR6x 300GB/s 64GB/s 查看
    L2 Ada PCIe FP16:96.5T
    TF32:48.3T
    24G GDDR6x 300GB/s 64GB/s 查看
    V100 Volta PCIe

    FP16:32.71T
    FP32:16.35T
    FP64:8.177T

    16/32G HBM2 1.13TB/s

    Nvlink

    300GB/s

    PCIe

    32GB/s

    查看

    T4

    Turing PCIe

    FP16:65.13T
    FP32:8.141T
    FP64:254.4G

    16G GDDR6x 320GB/s 32GB/s 查看

    请注意:以上内容根据公开数据整理,建议在决策前访问NVIDIA官方网站获取最权威和最新的数据!


    参考:

    高效沟通(三):沟通方式及技巧

    2025-11-21 12:00:10

    沟通方式

    好的沟通方式有很多种,我主要介绍最常用的三种:尊重、倾听和情绪控制

    尊重

    尊重对方在高效沟通中非常重要,也是一个很关键的前提。这里你需要记住以下两个原则。

    • 我可以不同意你,但是会捍卫你说话的权利。即便在你不认同对方观点的情况下,也要尊重对方的表达,认真聆听,这个时候有可能你会发现不一样的东西,从而改变自己最初不准确的认知。

    • 赢得对方的尊重需要先尊重对方。在你对他人表现出足够的尊重之后,同时你也能够赢得对方的尊重,他会更乐于跟你交谈,而且交流的内容也会更为细致和深入,从而实现良好的沟通效果。此外,在这样的背景下,当你和对方出现观点不一致的情况时,对方也会更乐于聆听你,并顺着你的思路去思考。

    所以可以说,尊重对方并赢得对方尊重的沟通方式,通常会进行得比较深入,沟通效果也会很不错。

    注意,尊重并不代表要低三下四、随声附和,做一个墙头草可以让别人很容易和你相处,但要赢得对方的尊重,这还远远不够,你一定要和对方有观点上的交互,甚至是碰撞。沟通的目的不是为了附和对方,而是产生一种更完整更全面的认知。只有当双方都愿意接受不同的观点时,此时的沟通才会迸发出更多的火花,而这一切都需要发生在相互尊重的基础之上。

    倾听

    《沟通的艺术》一书中将“倾听”定位为至少与“说”同等重要的沟通形式,足以见其重要性。作者认为,倾听与听或者听到有很大不同,它是解读别人所说信息的过程,包含听到、专注、理解、回应和记忆五大元素。

    上面的说法有点高大上,我们还是实在一点。我们之所以要倾听,就是因为倾听可以让我们获得更多信息,对对方有更多的了解。倾听能让对方感觉到自己被尊重,所以才会跟你分享更多的信息。这其实是沟通中的高级技巧,因为当你掌握了对方很多信息时,你就可以了解这个人,也就对你越有利。所以,面试的时候,一般来说会面试的面试官基本上都不多说话,都是在听你讲,你讲的越多,他就了解你越多。那些电视里访谈类节目中的主持人都是很厉害的倾听高手,因为他们要挖到被采访人更多的信息。

    你一定要学会倾听,掌握到更多的信息,因为掌握不了足够的信息就会信息不对称,信息不对称就会做出错误的假设。尤其是在谈判的时候,你觉得他的利益点是这个,而实际上他的利益点可能是另外一个。所以,倾听其实不仅仅只是听,还要思考,要思考更深层的原因,不要被表象所迷惑,才会有更高效率的沟通,这才有助于你做出正确的决定。

    情绪控制

    能否控制好自己的情绪对于沟通效果来说至关重要。如果动不动就生气或者心怀戒心,通常会令沟通很难进行,更不用说实现高效沟通。如果能控制好自己的情绪,时刻保持理性思考,这不仅会使所沟通问题得到顺利解决,而且能给对方留下好的印象,进而形成良好的人际关系。我们都会说某个人的 EQ 比较高,并不是说这个人很会说话,很会说话、有随机应变能力的人通常都是 IQ 高,EQ 高的人一般都是可以控制自己情绪的人。

    具体该怎样做呢?我建议遵循以下两个原则。

    • 不要过早或者过度打岔和反驳。倾听对方,即便有不同意见,也要耐心地听对方说完,不要打岔或反驳。断章取义是件非常可怕的事儿,因为当你听对方完整讲述完之后,很多时候会改变自己在聆听过程中的某些想法或者看法。此外,打断别人说话,是很不礼貌的事儿,次数多了,会给对方留下坏印象。

    • 求同存异,冷静客观。每个人的知识储备不同,生长环境不同,经历和性格等也不同,所以看待和理解问题时,自然会有很大差异。所以,要懂得尊重这些差异,客观公正地思考问题,并给出相应的建议和看法。

    切莫在冲动之下,说出很多一些过分或过激的话,因为言语的力量是巨大的,杀伤力有时难以预估。举一个有些极端的例子。假如你和铁哥们儿吵架了,对方一气之下,打了你两拳,你很有可能过两天就忘记了。但是如果对方说了几句伤你心的话,这种伤心则有可能会持续很久很久,甚至你们可能会因此而绝交。

    人是有情感的动物,并不是所有的人都能够控制得住自己的情绪的,尤其是血气方刚的年轻人。有时候,我会自己告诫自己,情绪是自己的,不是别人的,不应该被别人 hack 了。所以,无论发生什么事,自己才是自己心情的主人,而不是别人。话虽这样说,但是要做到并不容易。有时候,我也不能很好控制我的情绪,到今天都还不行,这也是我要用一生去成长的事……

    沟通技巧

    掌握了上面的沟通方式,下面来看几个我经常用的沟通技巧。

    引起对方的兴趣

    第一是引起对方的兴趣。如果对方没有兴趣的话,那么他是不愿意跟你沟通的。但你要怎样引起对方的兴趣呢?我现在也在创业。我出去跟客户谈,我技术好,是没有用的。只有利益,才能引起对方的兴趣。

    举一个真实的例子,为了找一家银行谈合作,我找了一堆关系,给我介绍了某个银行的副行长。见面的时候我的着装有些随意,而周围的人都穿着衬衫和西裤,很正式。估计要不是别人介绍的,他一眼都不想看我,几句话就能把我打发了。

    他一开始就问我:你是谁?你们公司叫什么名字?没听说过。注册资本多少?哎呀几十万呀……我被这几个问题搞得非常地狼狈和不堪,完全不知道该怎么往下继续。在这样的情况下,如果你是我你会怎么办呢?该怎样吸引他的兴趣呢?

    真实情况是我只用了 20 分钟时间就搞定了这件事。我分享一下,我是怎么做到的。

    首先,我见他之前做了一些功课,收集了一些信息。银行和金融业,今年下半年整个形势都是很糟糕的,银行贷款都办不了。国家货币在紧缩,还有 P2P 这些乱七八糟的事儿。于是,我就跟他说,我这边有一个客户,这个客户的现金流比较大,一天的流水大概是 3-5 个亿……

    还没等我讲完,他就打断了我,立马说:哦?!请坐,那个谁,过来倒点儿水……当一个人对你有兴趣了以后,后面的事就比较好谈了。当然,我并不是在忽悠他,我做的技术项目本来就是为大规模并发的场景而生的,所以,能用得上这些技术的用户基本上来说都是有一定的业务量的,也是有相应的现金流的……

    直达主题,强化观点

    第二是直达主题,强化观点。要做到这点,你需要做的是过滤信息,简明扼要地表达。信息不要空泛笼统,而要可以准确执行。亚马逊要求员工都有一个技能叫做 deal with ambiguity。ambiguity 就是歧义的、模糊的,不知道怎么执行的。工程师的情结通常是我写出来的代码 1 就是 1,0 就是 0。

    但很多时候产品需求都是很模糊的。而且很多时候,整个世界都是模糊的、有歧义的。有的人这么说,有的人那么说。你都不知道自己该信谁。所以亚马逊要求员工有一个能力就是,你一定要有把模糊的理解变成准确理解的能力,因为如果不这样,你是写不出代码来的。

    这种过滤掉无用或者非关键信息的能力很重要。确定自己的目标,学会抓重点,知道自己要什么和不要什么,这样你要的才会更鲜明。当一些事情变得简明和鲜明起来时,你才会表现出有力量的观点和话语。而这些被强化过的观点和话语,只需要一句,就会在对方脑子里形成一个小爆点,要么击中了对方的软处(扎心),要么会让对方产生深度思考。只有这样,你的信息才算是真正地传达过去,并在对方的脑子里生根发芽,这就是所谓的影响力!

    要有这样的能力,你需要通过反复练习来获得。在表达之前,要想明白自己表达的目的是什么,先组织一下自己要表达的内容,然后结合自己的表达目的反思这些信息中,哪些是有用信息,哪些是无用信息。留下有用信息之后,思考是否有更加简单明了的表达方式,是不是可以一句话就行。当你开始把大量的信息提炼浓缩成“金句”的时候,你就真正开始成为沟通的高手了。

    这里有个小技巧是换位思考,假设你自己获取到这样的信息会怎样理解和执行,甚至可以尝试多维度来理解,自己跟自己“互搏”,逐渐修正,直到令自己满意。这个过程需要花不少心思,也需要长时间的坚持和锻炼。你要对自己有信心。

    基于数据和事实

    第三是用数据和事实说话。你跟别人沟通,要尽量少说“可能、也许、我觉得就这样”等字眼,你最好通过数据和证据,通过权威的引用和证词,通过相关的实例和亲身的事例来让你的观点有不可被辩驳不可被质疑的特性。当你的信息出现了这样的特性时,接收信息的人,基本上来说,就会无条件地相信。别人会无条件地相信你说的话,你想想这是一种多么牛的沟能方式!

    我记得我在亚马逊的时候,产品经理整天在数据仓库里做各种的统计和分析,然后拿着数据来说服老板和开发人员开一个新的项目。当那些数据和事实放在你面前时,你真的是只有认命的份儿了。

    所以,在很多时候,我们要在沟通之前注意收集相关的数据和事实,多做一些沟通相关的功课,你的沟通会更有效率。基本上来说,数据、事实、证据和权威是沟通中的大规模杀伤性武器!

    小结

    总结一下今天的内容。简单来说,在沟通过程中,你要牢记三大沟通方式:尊重对方、倾听对方和情绪控制,从今天开始,你就可以在和别人沟通的时候刻意练习这几大沟通方式了。然后我还和你分享了几个对我帮助很大的沟通技巧。

    • 一是沟通之前,你要想方设法引起对方的兴趣,这里面你要思考对方最关注什么,你可以帮到他什么。

    • 二是直达主题,强化观点,要做到这一点,你需要过滤信息,简明扼要地表达。也就是说你要明确自己的沟通目的,然后围绕目的不断迭代自己的表达内容。同时,你可以用换位思考法来进一步确保自己的表达能够准确无误传递给对方。

    • 三是用数据和实例说话。沟通的时候,你应该尽量少用“可能”、“也许”之类不确定的话术,转而使用数据和实例等确定性的语言来夯实你的观点,当然,这中间你要学会如何积累“实例”。 这三样东西不仅可以帮你解决绝大多数问题,而且可以把你的沟通变得简单粗暴、直接有效。

    采用这样的方式和技巧,我想你基本上可以解决 80%-90% 以上的沟通问题了。还是那句话,我能做到的,你一定也可以。加油!

    来源:《左耳听风专栏:高效沟通》

    大语言模型级别划分及使用场景

    2025-11-12 11:45:42

    模型参数量的基本概念

    我们通常用参数数量来衡量模型的规模。参数是模型在训练过程中学习的变量,这些变量用于根据输入数据做出预测或生成输出。参数数量通常以B(Billion,十亿)为单位。"B"代表"Billion"(十亿),比如常见的大语言模型级别规模:

    • 7B = 70亿参数

    • 32B = 320亿参数

    • 70B = 700亿参数

    • 910B = 9100亿参数

    "参数"是什么?

    可以把它想象成模型大脑中的 “神经元” 或 “突触连接”是模型通过训练学到的内部知识表示。每个参数都是一个数值,共同构成了模型的"大脑"。

    • 在训练过程中,模型通过海量的文本(或图像)数据学习。

    • 在这个过程中,它会逐步调整和优化其内部数以十亿甚至万亿计的、微小的 “权重” 和 “偏置” ,这些就是参数

    • 每一个参数都负责捕捉数据中某种细微的模式、关联或知识,比如“苹果”和“红色”经常一起出现,或者一个复杂的语法规则。

    参数量,直接反映了模型内部结构的复杂程度。模型的大小(参数量)通常与其能力相关:参数量越大,模型通常能够捕捉更复杂的模式,但同时也需要更多的计算资源和内存,并且推理速度可能更慢。


    模型级别总览

    以下是主流大语言模型的级别划分及其核心特征概览:

    1762918070214865.png

    各级别模型详解

    1. 轻量级模型(7B及以下)

    代表模型: Qwen2.5-1.5B/7B, Llama-3-8B, ChatGLM-6B, Gemma-7B

    • 特点

      • 体积小,速度快:可以在CPU或单张消费级GPU(如RTX 4090)上流畅运行,响应延迟极低。

      • 成本极低:非常适合个人开发者、学术研究或大规模部署在边缘设备。

      • 能力聚焦:在通用知识、推理和编程上能力有限,但经过高质量训练或精调后,能在特定任务上表现出色。

    • 典型使用场景

      • 边缘计算与端侧部署:部署在手机、平板、嵌入式设备上,提供本地化的AI助手功能。

      • 高速响应场景:作为智能客服的“第一响应”模块,处理简单、高频的问答。

      • 特定任务工具:通过精调,专门用于文本分类、实体识别、内容过滤、代码补全(小型)等。

      • 研究与教育:学生和研究人员低成本学习模型原理、进行微调实验的理想选择。


    2. 主力性能模型(13B - 34B)

    代表模型: Qwen2.5-32B, Llama-3-70B(注:虽名为70B,但常被归于此性能级别), Yi-34B

    • 特点

      • 性能与效率的甜蜜点:在保持相对可控的部署成本下,提供了非常强大的通用能力(推理、知识、编程)。

      • 综合能力强:通常在各种公开评测中表现优异,是许多开源应用的“中坚力量”。

      • 需要专业级GPU:通常需要1-2张数据中心级GPU(如A100, H100, H20)进行高效推理。

    • 典型使用场景

      • 企业级私有部署:作为企业内部的通用AI助手,处理文档分析、报告撰写、代码开发等任务。

      • 高质量的聊天机器人:提供流畅、聪明、知识丰富的对话体验。

      • 复杂内容创作:撰写文章、策划方案、编写脚本等。

      • 高级检索增强生成(RAG):能够更好地理解和整合外部知识,给出精准的回答。


    3. 高性能模型(~70B)

    代表模型: Llama-2/3-70B, Qwen1.5-72B, DeepSeek-67B

    • 特点

      • 逼近顶尖性能:在绝大多数任务上表现出色,非常接近顶级闭源模型(如GPT-3.5)的能力。

      • 资源消耗大:需要多张(通常≥4张)高端GPU进行推理,部署和运维成本高。

      • 强大的推理与思维链:在解决复杂数学问题、逻辑推理和深层代码逻辑时优势明显。

    • 典型使用场景

      • 复杂推理与问题解决:用于高级数学推理、逻辑谜题解答、战略分析。

      • 高质量的代码生成与审查:生成复杂、完整的项目代码,进行深入的代码调试和分析。

      • 作为闭源模型的替代:当企业需要完全的数据控制权,同时又追求顶级模型性能时,会选择此级别模型进行私有化部署。


    4. 尖端/前沿模型(百B/千B级)

    代表模型: 混元-910B, GPT-4, Claude-3 Opus

    • 特点

      • 追求极致能力:代表了当前大模型技术的最高水平,在需要深度知识和复杂思维链的任务上具有突破性能力。

      • 通才:几乎在所有NLP任务上都有顶级表现,尤其擅长处理模糊、开放性的指令。

      • 极高的成本:训练和推理成本天文数字,通常仅通过API提供服务,或由超大型企业用于内部核心业务。

    • 典型使用场景

      • 前沿科学研究:辅助科学家进行科学发现、文献综述和假设生成。

      • 超高难度内容创作:创作长篇小说、影视剧本、复杂的商业分析报告等。

      • 颠覆性产品应用:作为下一代AI产品的核心大脑,处理前所未有的复杂任务。


    场景化选择建议

    为了方便选择,这里提供一个直接的指南:

    你的身份/需求 推荐级别 理由
    个人开发者/学生 轻量级 (7B及以下) 硬件门槛低,学习成本低,足以完成大多数个人项目和学习。
    中小企业(追求性价比) 主力性能级 (13B-34B) 能力强大,足以应对大多数企业应用,部署成本相对可控。
    大型企业(核心业务) 高性能级 (~70B) 性能卓越,满足核心业务对质量和可靠性的高要求,可私有化部署保障数据安全。
    所有企业(通用功能) 尖端模型API 无需管理基础设施,直接获得最强大的能力,按使用量付费,灵活高效。
    需要快速响应的场景 轻量级 (7B及以下) 延迟最低,吞吐量高。
    处理复杂、开放性问题 尖端模型API 模型具备最强的理解和推理能力。

    硬件需求参考表

    模型级别 最小GPU配置 内存需求 推理速度 部署成本
    7B RTX 4090 (24GB) 16GB ⚡⚡⚡⚡ 💰
    32B 2×A100 (80GB) 80GB ⚡⚡⚡ 💰💰
    70B 4×H100 (80GB) 160GB ⚡⚡ 💰💰💰
    910B GPU集群(32+) 1.8TB+ 💰💰💰💰💰
    模型级别 最小GPU配置 内存需求 推理速度 部署成本
    7B RTX 4090 (24GB) 16GB ⚡⚡⚡⚡ 💰
    32B 2×A100 (80GB) 80GB ⚡⚡⚡ 💰💰
    70B 4×H100 (80GB) 160GB ⚡⚡ 💰💰💰
    910B GPU集群(32+) 1.8TB+ ⚡ 💰💰💰💰💰


    重要提醒:参数量不是唯一标准

    虽然参数量很重要,但并不是参数越多,模型就一定越好。模型的最终能力还取决于:

    1. 训练数据的质量与规模:干净、高质量、大规模的数据是训练出优秀模型的基础。

    2. 训练方法和架构:例如,MoE(混合专家)架构可以让模型在拥有庞大参数量的同时,实际计算成本更低(如Mixtral 8x7B模型)。

    3. 对齐优化:通过RLHF(人类反馈强化学习)等技术让模型更符合人类的价值观和使用习惯。

    核心思想:没有“最好”的模型,只有“最适合”的模型。择合适的模型级别需要在任务需求、预算限制、技术能力之间找到最佳平衡点。建议从具体场景出发,先试用不同级别的模型,再做出决策。