AnZhihe | 安志合的 RSS 预览

NVIDIA GPU架构演进及使用场景

2025-12-01 05:27:22

在人工智能和深度学习领域，NVIDIA 凭借其强大的 GPU 产品线占据着举足轻重的地位。NVIDIA 拥有数十款功能各异的 GPU 产品，可用于部署和运行不同规模的机器学习模型，从边缘设备到大规模数据中心，几乎涵盖了所有应用场景。然而，NVIDIA GPU 的命名规则较为复杂，涉及架构代号（如 Ampere、Hopper）、性能等级（如 A100、A40）以及其他技术特征等多重维度，这使得用户在选择时容易感到困惑，同时也是不小的挑战。因此，了解NVIDIA GPU架构演进，充分理解这些不同显卡的核心参数、性能特征、成本效益，在实际需求场景使用时才能做出最佳选择。

在了解 NVIDIA GPU架构之前，我们先来简单了解下 NVIDIA GPU 的核心参数，这样能够更好地帮助我们了解这些 GPU 的差别和各自的优势。

CUDA Core：CUDA Core 是 NVIDIA GPU 上的计算核心单元，用于执行通用的并行计算任务，是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力，CUDA Core 指的是一个执行基础运算的处理元件，我们所说的 CUDA Core 数量，通常对应的是 FP32 计算单元的数量。
Tensor Core：Tensor Core 是 NVIDIA Volta 架构及其后续架构（如 Ampere 架构）中引入的一种特殊计算单元。它们专门用于深度学习任务中的张量计算，如[矩阵乘法]和卷积运算。Tensor Core 核心特别大，通常与深度学习框架（如 TensorFlow 和 PyTorch）相结合使用，它可以把整个矩阵都载入寄存器中批量运算，实现十几倍的效率提升。
RT Core：RT Core 是 NVIDIA 的专用硬件单元，主要用于加速光线追踪计算。正常数据中心级的 GPU 核心是没有 RT Core 的，主要是消费级显卡才为光线追踪运算添加了 RTCores。RT Core 主要用于游戏开发、电影制作和虚拟现实等需要实时渲染的领域。

NVIDIA GPU 讲解

NVIDIA GPU 架构的演进

NVIDIA GPU架构的演进是一部典型的"需求驱动创新"的历史。它从专注于图形渲染出发，逐步演变为承载通用计算和人工智能计算的强大引擎。为了对这段演进史有一个直观的整体认知，首先我们用GPU产品发布时间线来概括其核心里程碑：

接下来，我们来详细解读每一个架构的代际创新，以及它们如何塑造了今天的计算格局。

详细架构演进解读

架构代号	首发年份	核心创新与驱动因素	代表性产品	历史意义与定位
Tesla	2008	统一着色器模型；CUDA计算平台诞生	GeForce 8000系列；Tesla C/C/D系列	通用计算的破冰者：将GPU从纯粹的图形处理器转变为潜在的并行计算 accelerator。
Fermi	2010	首个为GPU计算设计的架构；ECC显存；更完善的GPU计算生态	GeForce 400/500系列；Tesla M/C系列	计算架构的奠基者：建立了GPU计算的可靠性和实用性，真正吸引了科学计算领域的目光。
Kepler	2012	追求能效比；动态并行；GPU直接通信	GeForce 600/700系列；Tesla K系列（如K80）	云数据中心的先驱：其低功耗设计使大规模GPU服务器部署成为可能，开启了云GPU服务。
Maxwell	2014	极致能效优化；大幅提升每瓦特性能	GeForce GTX 900系列（如GTX 980 Ti）	消费级市场的优化大师：证明了在性能提升的同时，功耗可以得到出色控制。
Pascal	2016	拥抱AI浪潮；NVLink高速互联；16nm工艺；HBM2显存	Tesla P100；GeForce GTX 10系列	AI计算的铺路者：为深度学习的爆发提供了关键的高速互联和大容量显存支持。
Volta	2017	专用AI核心；Tensor Cores；NVSwitch	Tesla V100；TITAN V	AI时代的革命者：专用硬件（Tensor Core）的引入，使AI训练和推理性能提升了数个量级。
Turing	2018	AI+光追融合；RT Cores；Tensor Cores下放消费级	GeForce RTX 20系列；Quadro RTX系列	图形技术的再革命：将实时光线追踪和AI降噪（DLSS）带入消费级市场，重塑了图形保真度标准。
Ampere	2020	统一AI与HPC；第三代Tensor Core；稀疏化；MIG	RTX 30系列；A100；A40	数据中心的主力军：在AI训练/推理、HPC和图形领域提供了前所未有的综合性能，是目前应用最广泛的架构之一。
Hopper	2022	专为巨型模型打造；Transformer引擎；第四代NVLink	H100；H200	超大规模AI的引擎：针对万亿参数模型的训练和推理进行了专门优化，确立了新一代数据中心的标准。
Ada Lovelace	2022	极致图形体验；第三代RT Core；DLSS 3	GeForce RTX 40系列；RTX 5000/6000 Ada	图形技术的再突破：通过光流加速器和AI帧生成，在图形领域实现了质的飞跃。
Blackwell	2024	超大规模AI与HPC；第二代Transformer引擎；芯片间高速互联	B100/B200；GB200	下一代计算平台：旨在支撑万亿参数模型的实时推理和持续训练，目标是降低超大规模AI的总拥有成本。

NVIDIA 技术架构

演进的核心驱动力

从上述演进历程中，我们可以清晰地看到几条主线：

从通用到专用

早期的架构（Tesla到Kepler）主要优化通用并行计算。
从Pascal开始，特别是Volta引入Tensor Core后，NVIDIA开始集成针对特定领域（尤其是AI）的专用硬件，实现了性能的飞跃。后来的RT Core也是同一思路在图形领域的体现。

对带宽和互联的极致追求

从GDDR5到HBM2/HBM2e/HBM3，显存带宽不断提升，以喂饱越来越多的计算核心。
互联技术从PCIe到NVLink/NVSwitch，再到Blackwell的芯片间高速互联，都是为了解决多GPU系统内部的数据传输瓶颈，这对于大规模AI训练至关重要。

能效比的持续优化

每一代架构都在寻求在给定的功耗下提供更高的性能，这是GPU能够进入从移动设备到超大规模数据中心的每一个角落的关键。

软件与硬件的协同进化

CUDA的诞生是这一切的基础。随着硬件演进，NVIDIA不断丰富其软件栈（cuDNN, TensorRT等），构建了无与伦比的软件生态护城河，使开发者能充分利用硬件能力。

总结

NVIDIA GPU架构的演进史，是一部从图形处理器到并行计算 accelerator 再到 AI引擎的进化史。其成功关键在于，它敏锐地捕捉到了AI这一未来趋势，并通过前瞻性的架构设计（专用核心）和强大的软件生态，牢牢抓住了时代机遇，最终确立了在人工智能计算领域的绝对领导地位。

NVIDIA 主流GPU核心参数速览

下表汇总了T4、V100、A40、A100、A800、H100、H200、H800和B100的主要规格，可以依据架构、显存、关键特性和典型应用场景这些维度进行横向对比。

GPU 型号	架构	显存	显存带宽	关键特性	典型应用场景
T4	Turing	16 GB GDDR6	320+ GB/s	低功耗(70W)，支持INT4/INT8精度，视频编解码能力强	AI推理、视频处理、边缘计算
V100	Volta	16/32 GB HBM2	900-1134 GB/s	首批Tensor Core GPU，强大的FP64双精度计算能力	科学计算、传统AI训练、高性能计算仿真
A40	Ampere	48 GB GDDR6	696 GB/s	强大的专业图形能力（第二代RT Core），支持vGPU虚拟化	专业图形渲染（光线追踪）、虚拟工作站、VR/AR
A100	Ampere	40/80 GB HBM2e	1.6-2.0 TB/s	第三代Tensor Core，支持MIG（多实例GPU），稀疏性优化	数据中心级AI训练与推理、HPC、大规模数据分析
A800	Ampere	40 GB HBM2e	1.6 TB/s	A100的替代型号，互联带宽调整以符合特定贸易法规	与A100类似，适用于AI、数据科学和HPC工作负载
H100	Hopper	80-94 GB HBM3	3.35-3.9 TB/s	专用Transformer引擎，第四代Tensor Core，支持FP8精度	大规模AI训练与推理（尤其大语言模型）、高性能计算
H200	Hopper	141 GB HBM3e	4.8 TB/s	H100的升级版，显存容量与带宽显著提升	超大规模AI模型（特别是LLM推理和训练）
H800	Hopper	80 GB HBM3e	3.35 TB/s	H100的替代型号，互联带宽调整以符合特定贸易法规	与H100类似，适用于大规模AI训练与推理
B100	Blackwell	192 GB HBM3e (预计)	8 TB/s (预计)	新一代架构，集成Transformer引擎，AI算力大幅提升	下一代超大规模AI与高性能计算

英伟达GPU参数速查表，请注意：以上GPU部分详细规格和特性可能仍在更新中，建议在决策前访问NVIDIA官方网站获取最权威和最新的数据。

如何根据场景选择GPU？

面对众多选项，您可以从以下几个方面考虑，找到最适合您业务的GPU：

1. 明确主要工作负载
不同的任务需要不同类型的计算资源。

大规模AI训练与推理：尤其是千亿参数级别的大语言模型（LLMs），需要极高的AI算力和大显存。H100、H200和未来的B100是为此设计的标杆。对于参数规模稍小的模型，A100和A800是性能与成本平衡的可靠选择。
AI推理：对于高并发、低延时的在线推理场景，T4凭借其低功耗和对INT8/INT4精度的支持，是性价比极高的选择。
高性能计算（HPC）与科学模拟：许多科学计算应用（如气候模拟、分子动力学）依赖强大的双精度（FP64）性能。V100和A100在此领域表现出色。
专业图形与渲染：如果需要强大的实时图形处理能力，用于虚拟制片、建筑可视化或虚拟工作站（vGPU），那么具备强大RT Core（光追核心）的A40是更合适的选择。
成本与合规性考量：A800和H800是A100和H100的特定版本，在互联带宽上有所调整以符合国际贸易法规。如果您的项目受此限制，它们是直接的替代选项。

2. 评估性能与规模需求

数据中心级：对于需要部署多GPU节点的大规模任务，应考虑支持NVLink和NVSwitch（提升多GPU互联带宽）的型号，如A100、H100。
虚拟化与多租户：如果需要在多个虚拟机（VM）之间共享GPU资源，务必选择支持NVIDIA vGPU或MIG（多实例GPU）技术的GPU。例如，A100和H100支持MIG，可以将单卡物理分割为多个独立实例；A40则支持vGPU，适合虚拟工作站场景。

总结与建议

简单来说，这几款GPU可以这样快速定位：

H100/H200/B100：追求极致AI算力，专为超大规模模型打造。
A100/A800：需要均衡的数据中心级性能，是经久考验的全能与性价比之选。
T4：专注于高能效的AI推理和视频处理。
V100：用于科学模拟等传统HPC或预算有限的AI项目。
A40：主要面向专业图形设计、渲染和虚拟化。

参考：

英伟达GPU参数速查表

2025-11-29 23:29:38

**◎NVIDIA GPU参数速查表** | 更新日期：20251129
GPU型号	产品架构	产品形态	算力情况，挂*为稀疏值	显存	显存带宽	GPU互联	详细参数
GB300	Blackwell Ultra	多芯组合，2个B300和1个Grace CPU	FP4：30/38.9P* FP8：10/20P* FP16：5/10P* TF32：2.5/5P*	576G HBM3e	16TB/s	Nvlink 2x1.8TB/s	查看
B300	Blackwell Ultra	SXM	FP4：15/17.5P?* FP8：4.5/9P* FP16：2.25/4.5P* TF32：1.12/2.25P* FP64：40T	288G HBM3e	8TB/s	Nvlink 1.8TB/s	查看
GB200	Blackwell	多芯组合，2个B200和1个Grace CPU	FP4：20/40P* FP8：10/20P* FP16：5/10P* TF32：2.5/5P* FP64：90T	384G HBM3e	16TB/s	Nvlink 2x1.8TB/s	查看
B200	Blackwell	SXM	FP4：9/18P* FP8：4.5/9P* FP16：2.25/4.5P* TF32：1.12/2.25P* FP64：40T	192G HBM3e	8TB/s	Nvlink 1.8TB/s	查看
B100	Blackwell	SXM	FP16：1.8/3.5P* TF32：0.9/1.8P* FP64：30T	192G HBM3e	8TB/s	Nvlink 1.8TB/s	查看
H20标准款	Hopper	SXM	INT8和FP8：296T FP16：148T TF32：59.8T	96G HBM3	4TB/s	NVlink 900GB/s	查看
H20大显存	Hopper	SXM	INT8和FP8：296T FP16：148T TF32：59.8T	141G HBM3e	4.8TB/s	NVlink 900GB/s	查看
H200	Hopper	SXM	FP8和INT8：1/2P* FP16：1/2P* TF32：495/989T* FP64：67T	141G HBM3e	4.8TB/s	Nvlink 900GB/s	查看
RTX 4090	Ada	PCIe	FP16：165T/330T* TF32:82.6/165.2T* 源于AutoDL官网	24G GDDR6x 新增48G	1TB/s	64GB/s	查看
RTX 4090D	Ada	PCIe	FP16：147/294T* TF32：73.54/147T* 源于AutoDL官网	24G GDDR6x	1TB/s	64GB/s	查看
RTX 5090	Blackwell	PCIe 5.0	FP16：210T/420T？ TF32：108T 源自网络，供参考	32G GDDR7	1.8TB/s	PCIe 128GB/s	查看
RTX 5090D	Blackwell	PCIe 5.0	FP16：150/297T*？ TF32：未找到源自网络，供参考	32G GDDR7	1.8TB/s	PCIe 128GB/s	查看
H100	Hopper	SXM	FP8和INT8：1/2P* FP16：1/2P* TF32：495/989T* FP64：67T	80G HBM3	3.35TB/s	Nvlink 900GB/s	查看
H100	Hopper	PCIe	FP16：0.8/1.6P* TF32：378/756T* FP64：51T	80G HBM3	2TB/s	PCIe 128GB/s	查看
H800	Hopper	SXM	FP16：1/2P* TF32：495/989T* FP64：1T	80G HBM3	3.35TB/s	Nvlink 400GB/s	查看
H800	Hopper	PCIe	FP16：0.8/1.6P* TF32：378/756T* FP64：0.8T	80G HBM3	2TB/s	PCIe 128GB/s	查看
A100	Ampere	SXM	FP16：0.3/0.6P* TF32：156/312T* FP64：19.5T	80GHBM2e	2TB/s	Nvlink 600GB/s	查看
A100	Ampere	PCIe	FP16：0.3/0.6P* TF32：156/312T* FP64：19.5T	80GB HBM2e	2TB/s	PCIe 64GB/s	查看
A800	Ampere	SXM	FP16：0.3/0.6P* TF32：156/312T* FP64：19.5T	80GHBM2e	2TB/s	Nvlink 400GB/s	查看
A800	Ampere	PCIe	FP16：0.3/0.6P* TF32：156/312T* FP64：19.5T	80GB HBM2e	2TB/s	PCIe 64GB/s	查看
L40S	Ada	PCIe	FP16：366/733T* TF32：181/366*	48G GDDR6x	864GB/s	64GB/s	查看
L40	Ada	PCIe	FP16：181/362T* TF32：90.5/181*	48G GDDR6x	864GB/s	64GB/s	查看
L20	Ada	PCIe	FP16：119.5T TF32：59.8T	48G GDDR6x	864GB/s	64GB/s	查看
A40	Ampere	PCIe	FP16：149.7/299.4* TF32：74.8/149.6*	48G GDDR6x	696GB/s	Nvlink 112GB/s PCIe 64GB/s	查看
L4	Ada	PCIe	FP16：121/242T* TF32：60.5/121*	24G GDDR6x	300GB/s	64GB/s	查看
L2	Ada	PCIe	FP16：96.5T TF32：48.3T	24G GDDR6x	300GB/s	64GB/s	查看
V100	Volta	PCIe	FP16：32.71T FP32：16.35T FP64：8.177T	16/32G HBM2	1.13TB/s	Nvlink 300GB/s PCIe 32GB/s	查看
T4	Turing	PCIe	FP16：65.13T FP32：8.141T FP64：254.4G	16G GDDR6x	320GB/s	32GB/s	查看

请注意：以上内容根据公开数据整理，建议在决策前访问NVIDIA官方网站获取最权威和最新的数据！

参考：

高效沟通(三)：沟通方式及技巧

2025-11-21 12:00:10

沟通方式

好的沟通方式有很多种，我主要介绍最常用的三种：尊重、倾听和情绪控制。

尊重

尊重对方在高效沟通中非常重要，也是一个很关键的前提。这里你需要记住以下两个原则。

我可以不同意你，但是会捍卫你说话的权利。即便在你不认同对方观点的情况下，也要尊重对方的表达，认真聆听，这个时候有可能你会发现不一样的东西，从而改变自己最初不准确的认知。
赢得对方的尊重需要先尊重对方。在你对他人表现出足够的尊重之后，同时你也能够赢得对方的尊重，他会更乐于跟你交谈，而且交流的内容也会更为细致和深入，从而实现良好的沟通效果。此外，在这样的背景下，当你和对方出现观点不一致的情况时，对方也会更乐于聆听你，并顺着你的思路去思考。

所以可以说，尊重对方并赢得对方尊重的沟通方式，通常会进行得比较深入，沟通效果也会很不错。

注意，尊重并不代表要低三下四、随声附和，做一个墙头草可以让别人很容易和你相处，但要赢得对方的尊重，这还远远不够，你一定要和对方有观点上的交互，甚至是碰撞。沟通的目的不是为了附和对方，而是产生一种更完整更全面的认知。只有当双方都愿意接受不同的观点时，此时的沟通才会迸发出更多的火花，而这一切都需要发生在相互尊重的基础之上。

倾听

《沟通的艺术》一书中将“倾听”定位为至少与“说”同等重要的沟通形式，足以见其重要性。作者认为，倾听与听或者听到有很大不同，它是解读别人所说信息的过程，包含听到、专注、理解、回应和记忆五大元素。

上面的说法有点高大上，我们还是实在一点。我们之所以要倾听，就是因为倾听可以让我们获得更多信息，对对方有更多的了解。倾听能让对方感觉到自己被尊重，所以才会跟你分享更多的信息。这其实是沟通中的高级技巧，因为当你掌握了对方很多信息时，你就可以了解这个人，也就对你越有利。所以，面试的时候，一般来说会面试的面试官基本上都不多说话，都是在听你讲，你讲的越多，他就了解你越多。那些电视里访谈类节目中的主持人都是很厉害的倾听高手，因为他们要挖到被采访人更多的信息。

你一定要学会倾听，掌握到更多的信息，因为掌握不了足够的信息就会信息不对称，信息不对称就会做出错误的假设。尤其是在谈判的时候，你觉得他的利益点是这个，而实际上他的利益点可能是另外一个。所以，倾听其实不仅仅只是听，还要思考，要思考更深层的原因，不要被表象所迷惑，才会有更高效率的沟通，这才有助于你做出正确的决定。

情绪控制

能否控制好自己的情绪对于沟通效果来说至关重要。如果动不动就生气或者心怀戒心，通常会令沟通很难进行，更不用说实现高效沟通。如果能控制好自己的情绪，时刻保持理性思考，这不仅会使所沟通问题得到顺利解决，而且能给对方留下好的印象，进而形成良好的人际关系。我们都会说某个人的 EQ 比较高，并不是说这个人很会说话，很会说话、有随机应变能力的人通常都是 IQ 高，EQ 高的人一般都是可以控制自己情绪的人。

具体该怎样做呢？我建议遵循以下两个原则。

不要过早或者过度打岔和反驳。倾听对方，即便有不同意见，也要耐心地听对方说完，不要打岔或反驳。断章取义是件非常可怕的事儿，因为当你听对方完整讲述完之后，很多时候会改变自己在聆听过程中的某些想法或者看法。此外，打断别人说话，是很不礼貌的事儿，次数多了，会给对方留下坏印象。
求同存异，冷静客观。每个人的知识储备不同，生长环境不同，经历和性格等也不同，所以看待和理解问题时，自然会有很大差异。所以，要懂得尊重这些差异，客观公正地思考问题，并给出相应的建议和看法。

切莫在冲动之下，说出很多一些过分或过激的话，因为言语的力量是巨大的，杀伤力有时难以预估。举一个有些极端的例子。假如你和铁哥们儿吵架了，对方一气之下，打了你两拳，你很有可能过两天就忘记了。但是如果对方说了几句伤你心的话，这种伤心则有可能会持续很久很久，甚至你们可能会因此而绝交。

人是有情感的动物，并不是所有的人都能够控制得住自己的情绪的，尤其是血气方刚的年轻人。有时候，我会自己告诫自己，情绪是自己的，不是别人的，不应该被别人 hack 了。所以，无论发生什么事，自己才是自己心情的主人，而不是别人。话虽这样说，但是要做到并不容易。有时候，我也不能很好控制我的情绪，到今天都还不行，这也是我要用一生去成长的事……

沟通技巧

掌握了上面的沟通方式，下面来看几个我经常用的沟通技巧。

引起对方的兴趣

第一是引起对方的兴趣。如果对方没有兴趣的话，那么他是不愿意跟你沟通的。但你要怎样引起对方的兴趣呢？我现在也在创业。我出去跟客户谈，我技术好，是没有用的。只有利益，才能引起对方的兴趣。

举一个真实的例子，为了找一家银行谈合作，我找了一堆关系，给我介绍了某个银行的副行长。见面的时候我的着装有些随意，而周围的人都穿着衬衫和西裤，很正式。估计要不是别人介绍的，他一眼都不想看我，几句话就能把我打发了。

他一开始就问我：你是谁？你们公司叫什么名字？没听说过。注册资本多少？哎呀几十万呀……我被这几个问题搞得非常地狼狈和不堪，完全不知道该怎么往下继续。在这样的情况下，如果你是我你会怎么办呢？该怎样吸引他的兴趣呢？

真实情况是我只用了 20 分钟时间就搞定了这件事。我分享一下，我是怎么做到的。

首先，我见他之前做了一些功课，收集了一些信息。银行和金融业，今年下半年整个形势都是很糟糕的，银行贷款都办不了。国家货币在紧缩，还有 P2P 这些乱七八糟的事儿。于是，我就跟他说，我这边有一个客户，这个客户的现金流比较大，一天的流水大概是 3-5 个亿……

还没等我讲完，他就打断了我，立马说：哦？！请坐，那个谁，过来倒点儿水……当一个人对你有兴趣了以后，后面的事就比较好谈了。当然，我并不是在忽悠他，我做的技术项目本来就是为大规模并发的场景而生的，所以，能用得上这些技术的用户基本上来说都是有一定的业务量的，也是有相应的现金流的……

直达主题，强化观点

第二是直达主题，强化观点。要做到这点，你需要做的是过滤信息，简明扼要地表达。信息不要空泛笼统，而要可以准确执行。亚马逊要求员工都有一个技能叫做 deal with ambiguity。ambiguity 就是歧义的、模糊的，不知道怎么执行的。工程师的情结通常是我写出来的代码 1 就是 1，0 就是 0。

但很多时候产品需求都是很模糊的。而且很多时候，整个世界都是模糊的、有歧义的。有的人这么说，有的人那么说。你都不知道自己该信谁。所以亚马逊要求员工有一个能力就是，你一定要有把模糊的理解变成准确理解的能力，因为如果不这样，你是写不出代码来的。

这种过滤掉无用或者非关键信息的能力很重要。确定自己的目标，学会抓重点，知道自己要什么和不要什么，这样你要的才会更鲜明。当一些事情变得简明和鲜明起来时，你才会表现出有力量的观点和话语。而这些被强化过的观点和话语，只需要一句，就会在对方脑子里形成一个小爆点，要么击中了对方的软处（扎心），要么会让对方产生深度思考。只有这样，你的信息才算是真正地传达过去，并在对方的脑子里生根发芽，这就是所谓的影响力！

要有这样的能力，你需要通过反复练习来获得。在表达之前，要想明白自己表达的目的是什么，先组织一下自己要表达的内容，然后结合自己的表达目的反思这些信息中，哪些是有用信息，哪些是无用信息。留下有用信息之后，思考是否有更加简单明了的表达方式，是不是可以一句话就行。当你开始把大量的信息提炼浓缩成“金句”的时候，你就真正开始成为沟通的高手了。

这里有个小技巧是换位思考，假设你自己获取到这样的信息会怎样理解和执行，甚至可以尝试多维度来理解，自己跟自己“互搏”，逐渐修正，直到令自己满意。这个过程需要花不少心思，也需要长时间的坚持和锻炼。你要对自己有信心。

基于数据和事实

第三是用数据和事实说话。你跟别人沟通，要尽量少说“可能、也许、我觉得就这样”等字眼，你最好通过数据和证据，通过权威的引用和证词，通过相关的实例和亲身的事例来让你的观点有不可被辩驳不可被质疑的特性。当你的信息出现了这样的特性时，接收信息的人，基本上来说，就会无条件地相信。别人会无条件地相信你说的话，你想想这是一种多么牛的沟能方式！

我记得我在亚马逊的时候，产品经理整天在数据仓库里做各种的统计和分析，然后拿着数据来说服老板和开发人员开一个新的项目。当那些数据和事实放在你面前时，你真的是只有认命的份儿了。

所以，在很多时候，我们要在沟通之前注意收集相关的数据和事实，多做一些沟通相关的功课，你的沟通会更有效率。基本上来说，数据、事实、证据和权威是沟通中的大规模杀伤性武器！

小结

总结一下今天的内容。简单来说，在沟通过程中，你要牢记三大沟通方式：尊重对方、倾听对方和情绪控制，从今天开始，你就可以在和别人沟通的时候刻意练习这几大沟通方式了。然后我还和你分享了几个对我帮助很大的沟通技巧。

一是沟通之前，你要想方设法引起对方的兴趣，这里面你要思考对方最关注什么，你可以帮到他什么。
二是直达主题，强化观点，要做到这一点，你需要过滤信息，简明扼要地表达。也就是说你要明确自己的沟通目的，然后围绕目的不断迭代自己的表达内容。同时，你可以用换位思考法来进一步确保自己的表达能够准确无误传递给对方。
三是用数据和实例说话。沟通的时候，你应该尽量少用“可能”、“也许”之类不确定的话术，转而使用数据和实例等确定性的语言来夯实你的观点，当然，这中间你要学会如何积累“实例”。这三样东西不仅可以帮你解决绝大多数问题，而且可以把你的沟通变得简单粗暴、直接有效。

采用这样的方式和技巧，我想你基本上可以解决 80%-90% 以上的沟通问题了。还是那句话，我能做到的，你一定也可以。加油！

来源：《左耳听风专栏：高效沟通》

大语言模型级别划分及使用场景

2025-11-12 11:45:42

模型参数量的基本概念

我们通常用参数数量来衡量模型的规模。参数是模型在训练过程中学习的变量，这些变量用于根据输入数据做出预测或生成输出。参数数量通常以B（Billion，十亿）为单位。"B"代表"Billion"（十亿），比如常见的大语言模型级别规模：

7B = 70亿参数
32B = 320亿参数
70B = 700亿参数
910B = 9100亿参数

"参数"是什么？

可以把它想象成模型大脑中的 “神经元” 或 “突触连接”。是模型通过训练学到的内部知识表示。每个参数都是一个数值，共同构成了模型的"大脑"。

在训练过程中，模型通过海量的文本（或图像）数据学习。
在这个过程中，它会逐步调整和优化其内部数以十亿甚至万亿计的、微小的 “权重” 和 “偏置” ，这些就是参数。
每一个参数都负责捕捉数据中某种细微的模式、关联或知识，比如“苹果”和“红色”经常一起出现，或者一个复杂的语法规则。

参数量，直接反映了模型内部结构的复杂程度。模型的大小（参数量）通常与其能力相关：参数量越大，模型通常能够捕捉更复杂的模式，但同时也需要更多的计算资源和内存，并且推理速度可能更慢。

模型级别总览

以下是主流大语言模型的级别划分及其核心特征概览：

各级别模型详解

1. 轻量级模型（7B及以下）

代表模型： Qwen2.5-1.5B/7B, Llama-3-8B, ChatGLM-6B, Gemma-7B

特点：

体积小，速度快：可以在CPU或单张消费级GPU（如RTX 4090）上流畅运行，响应延迟极低。
成本极低：非常适合个人开发者、学术研究或大规模部署在边缘设备。
能力聚焦：在通用知识、推理和编程上能力有限，但经过高质量训练或精调后，能在特定任务上表现出色。

典型使用场景：

边缘计算与端侧部署：部署在手机、平板、嵌入式设备上，提供本地化的AI助手功能。
高速响应场景：作为智能客服的“第一响应”模块，处理简单、高频的问答。
特定任务工具：通过精调，专门用于文本分类、实体识别、内容过滤、代码补全（小型）等。
研究与教育：学生和研究人员低成本学习模型原理、进行微调实验的理想选择。

2. 主力性能模型（13B - 34B）

代表模型： Qwen2.5-32B, Llama-3-70B（注：虽名为70B，但常被归于此性能级别）, Yi-34B

特点：

性能与效率的甜蜜点：在保持相对可控的部署成本下，提供了非常强大的通用能力（推理、知识、编程）。
综合能力强：通常在各种公开评测中表现优异，是许多开源应用的“中坚力量”。
需要专业级GPU：通常需要1-2张数据中心级GPU（如A100, H100, H20）进行高效推理。

典型使用场景：

企业级私有部署：作为企业内部的通用AI助手，处理文档分析、报告撰写、代码开发等任务。
高质量的聊天机器人：提供流畅、聪明、知识丰富的对话体验。
复杂内容创作：撰写文章、策划方案、编写脚本等。
高级检索增强生成（RAG）：能够更好地理解和整合外部知识，给出精准的回答。

3. 高性能模型（~70B）

代表模型： Llama-2/3-70B, Qwen1.5-72B, DeepSeek-67B

特点：

逼近顶尖性能：在绝大多数任务上表现出色，非常接近顶级闭源模型（如GPT-3.5）的能力。
资源消耗大：需要多张（通常≥4张）高端GPU进行推理，部署和运维成本高。
强大的推理与思维链：在解决复杂数学问题、逻辑推理和深层代码逻辑时优势明显。

典型使用场景：

复杂推理与问题解决：用于高级数学推理、逻辑谜题解答、战略分析。
高质量的代码生成与审查：生成复杂、完整的项目代码，进行深入的代码调试和分析。
作为闭源模型的替代：当企业需要完全的数据控制权，同时又追求顶级模型性能时，会选择此级别模型进行私有化部署。

4. 尖端/前沿模型（百B/千B级）

代表模型：混元-910B, GPT-4, Claude-3 Opus

特点：

追求极致能力：代表了当前大模型技术的最高水平，在需要深度知识和复杂思维链的任务上具有突破性能力。
通才：几乎在所有NLP任务上都有顶级表现，尤其擅长处理模糊、开放性的指令。
极高的成本：训练和推理成本天文数字，通常仅通过API提供服务，或由超大型企业用于内部核心业务。

典型使用场景：

前沿科学研究：辅助科学家进行科学发现、文献综述和假设生成。
超高难度内容创作：创作长篇小说、影视剧本、复杂的商业分析报告等。
颠覆性产品应用：作为下一代AI产品的核心大脑，处理前所未有的复杂任务。

场景化选择建议

为了方便选择，这里提供一个直接的指南：

你的身份/需求	推荐级别	理由
个人开发者/学生	轻量级 (7B及以下)	硬件门槛低，学习成本低，足以完成大多数个人项目和学习。
中小企业（追求性价比）	主力性能级 (13B-34B)	能力强大，足以应对大多数企业应用，部署成本相对可控。
大型企业（核心业务）	高性能级 (~70B)	性能卓越，满足核心业务对质量和可靠性的高要求，可私有化部署保障数据安全。
所有企业（通用功能）	尖端模型API	无需管理基础设施，直接获得最强大的能力，按使用量付费，灵活高效。
需要快速响应的场景	轻量级 (7B及以下)	延迟最低，吞吐量高。
处理复杂、开放性问题	尖端模型API	模型具备最强的理解和推理能力。

硬件需求参考表

模型级别	最小GPU配置	内存需求	推理速度	部署成本
7B	RTX 4090 (24GB)	16GB	⚡⚡⚡⚡	💰
32B	2×A100 (80GB)	80GB	⚡⚡⚡	💰💰
70B	4×H100 (80GB)	160GB	⚡⚡	💰💰💰
910B	GPU集群(32+)	1.8TB+	⚡	💰💰💰💰💰

模型级别	最小GPU配置	内存需求	推理速度	部署成本
7B	RTX 4090 (24GB)	16GB	⚡⚡⚡⚡	💰
32B	2×A100 (80GB)	80GB	⚡⚡⚡	💰💰
70B	4×H100 (80GB)	160GB	⚡⚡	💰💰💰
910B	GPU集群(32+)	1.8TB+	⚡	💰💰💰💰💰

重要提醒：参数量不是唯一标准

虽然参数量很重要，但并不是参数越多，模型就一定越好。模型的最终能力还取决于：

训练数据的质量与规模：干净、高质量、大规模的数据是训练出优秀模型的基础。
训练方法和架构：例如，MoE（混合专家）架构可以让模型在拥有庞大参数量的同时，实际计算成本更低（如Mixtral 8x7B模型）。
对齐优化：通过RLHF（人类反馈强化学习）等技术让模型更符合人类的价值观和使用习惯。

核心思想：没有“最好”的模型，只有“最适合”的模型。。择合适的模型级别需要在任务需求、预算限制、技术能力之间找到最佳平衡点。建议从具体场景出发，先试用不同级别的模型，再做出决策。

MySQL迁移至达梦数据库全攻略

2025-11-08 21:57:49

迁移概述

将MySQL数据库迁移至达梦数据库是国产化替代过程中的常见信创改造需求。达梦数据库提供了多种迁移工具和方法，使得迁移过程可以高度自动化。根据数据量和业务复杂度的不同，迁移工作可以在几十分钟到数小时完成。

主要迁移方式对比

迁移方式	适用场景	优点	缺点
SQLark百灵连接	30GB以下数据量，追求效率的场景	图形化操作，几分钟完成，一次成功率90%以上	需下载独立工具
DM数据迁移工具(DTS)	大多数迁移场景，尤其是中小型数据库	官方图形化工具，功能全面，向导式操作	对大表迁移需特殊处理
命令行工具(dmfldr)	超大型数据库，批量数据处理	高性能，适合脚本化自动化迁移	操作复杂，需手动转换格式

迁移流程图

MYSQL移植DM8大致有以下步骤：

1.分析待移植系统，确定移植对象。

2.通过数据迁移工具DTS完成常规数据库对象及数据的迁移。

3.对少数数据库对象进行兼容性改写。

4.移植完成后对移植的结果进行校验，确保移植的完整性和正确性。

5.应用系统进行移植、测试和优化。

详见官方迁移文档：

迁移前准备

1. 环境检查与备份

确认版本信息：记录MySQL数据库版本及实例配置，并安装兼容的达梦数据库（推荐DM8）
检查网络与存储：确保迁移机器能同时访问MySQL和达梦数据库，并有足够存储空间
数据备份：务必对源数据库进行完整备份，防止迁移过程中数据丢失
兼容MySQL配置：

数据库类型版本	参数名	参数值	说明
达梦数据库dm8配置	case_sensitive	N	忽略大小写（需在创建实例时指定） SELECT CASE_SENSITIVE(); -- 结果为1表示大小写敏感，0表示大小写不敏感
	COMPATIBLE_MODE	4	兼容mysql模式（需在创建实例时指定）
	ORDER_BY_NULLS_FLAG	2	兼容mysql模式（需在创建实例时指定）
	权限	RESOURCE,PUBLIC,SOI,VTI	授予角色

2. 工具准备

SQLark：从官网(www.sqlark.com)下载
达梦DTS：达梦数据库安装后自带，可在开始菜单中找到
命令行工具：dmfldr（达梦高速数据加载器）

3. 达梦数据库初始化

初始化数据库时，不勾选"字符串比较大小写"，勾选"VARCHAR类型以字符为单位"
创建相应用户和模式并授权（达梦中一个用户对应一个模式，相当于MySQL的数据库）

使用SQLark快速迁移（推荐）

对于追求效率的用户，SQLark是最佳选择，能在几分钟内完成30GB左右数据的迁移。

操作步骤：

创建迁移任务：在SQLark中点击"数据迁移"，选择"仅数据迁移"
连接数据库：从客户端导入或新建MySQL（源库）和达梦（目标库）连接
选择迁移范围：支持全量迁移或指定范围迁移，对大表可单独设置只迁结构不迁数据
环境检查：工具自动检查目标库磁盘空间和参数，按提示解决不通过项
自动化迁移：工具全自动执行迁移，可实时查看进度
迁移校验：完成后查看对象数量和表行数是否一致

使用达梦DTS迁移

达梦自带的DTS工具更适合大多数常规迁移场景。

详细步骤：

打开迁移工具

通过"开始"菜单 → "达梦数据库" → "DM数据迁移工具"

创建迁移工程

右键"迁移管理" → "新建工程"，输入工程名称
在工程下右键"新建迁移"，自定义迁移名称

配置数据源

MySQL源库：选择"MySQL ==> DM"迁移类型

主机名、端口(默认3306)、用户名、密码
指定MySQL驱动包（除DM自带包外需手动提供）
选择要迁移的具体数据库

达梦目标库：

主机名、端口(默认5236)、用户名(默认SYSDBA)、密码(默认SYSDBA)
目的模式选择对应的达梦数据库

选择迁移对象

点击"选择"勾选需要迁移的表，支持全选
高级选项中可设置字符集转换（通常UTF8→UTF-8或GB18030）

审阅并执行迁移

确认配置信息无误后点击"完成"开始迁移
监控迁移进度，处理出现的错误

迁移出错处理

常见的如字段长度不足错误，可在达梦中修改字段长度后，选择"重新迁移出错的对象"。

迁移后校验与适配

1. 数据一致性检查

记录计数比对：在MySQL和达梦中执行SELECT COUNT(*) FROM table_name
抽样数据比对：对关键表抽样查询，对比两边结果是否一致

2. 应用程序适配修改

这是迁移成功的关键环节，需要处理以下差异：

数据库连接配置

# 原MySQL配置
spring.datasource.url=jdbc:mysql://localhost:3306/db
spring.datasource.driver-class-name=com.mysql.jdbc.Driver

# 达梦配置
spring.datasource.url=jdbc:dm://localhost:5236/DB?compatible_mode=mysql&clobAsString=true:cite[2]
spring.datasource.driver-class-name=dm.jdbc.driver.DmDriver:cite[9]

常见SQL语法差异及解决方案

MySQL语法	达梦兼容方案	备注
`str_to_date()`	使用 `date_format()` 代替	`to_date()` 同理
`format()`	使用 `to_char()` 代替	注意格式字符串差异
`group_concat()`	使用 `wm_concat()` 代替
反引号`	完全去除反引号	达梦不支持此符号
`limit m, n`	使用 `rownum` 或 `top`
`column`	使用 `"column"` 或直接去掉	达梦使用双引号

达梦数据库参数调整

在达梦数据库中执行以下SQL，并重启数据库：

sp_set_para_value(1,'ENABLE_BLOB_CMP_FLAG',1);
sp_set_para_value(2,'COMPATIBLE_MODE',4);:cite[2]

COMPATIBLE_MODE=4 表示部分兼容MySQL模式，可解决很多语法兼容性问题。

分页插件配置

Springboot Pagehelper需指定方言：

pagehelper:
  helperDialect: oracle:cite[2]
  reasonable: true
  supportMethodsArguments: true
  params: count=countSql

常见问题与解决方案

自增列赋值报错

问题："无法给自增列赋值"
解决：达梦无法直接对自增列赋值，需改为序列值或设置IDENTITY_INSERT为ON

GroupBy语法不兼容

问题："不是GROUP BY表达式"
解决：设置COMPATIBLE_MODE=4并重启数据库

中文乱码问题

解决：确保达梦数据库使用GB18030或UTF-8字符集，在迁移工具中正确设置字符集转换

日期函数不支持

解决：达梦不支持CURRENT_TIMESTAMP作为默认值，迁移后需执行：ALTER TABLE table_name MODIFY column_name DEFAULT sysdate

大表迁移超时

解决：分批迁移数据，使用dmfldr工具直接导入，对大表先禁用索引和约束

索引已存在报错

解决：达梦schema内不允许索引名重复，如果之前的建表语句中，同一个表对相同的列建了多个索引，则会出现索引已存在报错，删除其中一个索引即可

字符超出长度报错

解决：达梦默认以字节为长度，实际长度定义并无问题，修改建表语句长度为原先3倍左右即可
参考：达梦数据库初始化实例参数说明

关键词冲突

解决：加双引号
参考：https://eco.dameng.com/community/question/ca8b66b801647c1368485b4a1a1062fd

不支持的函数/关键词：

序号	mysql	dm
1	group_concat	wm_concat
2	date_sub	INTERVAL必须加单引号
3	substring_index	substr
4	ignore	不支持
5	is not true	不支持
6	use index	不支持
7	zerofill	不支持
8	after	不支持

参考：

性能优化建议

迁移前：在达梦数据库中适当增大BUFFER参数
迁移中：对大表禁用索引和约束，迁移后重建
迁移后：执行统计信息收集：CALL SP_TAB_STAT_INIT('SYSDBA', 'TABLE_NAME');

通过以上系统化的迁移方案，可以顺利完成MySQL到达梦数据库的迁移工作。根据数据量和业务需求选择合适的迁移工具，并特别注意应用程序的适配修改，这样才能确保迁移后系统的稳定运行。

MySQL迁移达梦数据库方案示例

1. 需求背景

xxxx测试环境，需要将已部署产品数据库从mysql迁移至达梦(dm8)数据库，适配信创改造。

2. 迁移产品及数据库列表

产品集	产品中文名	产品码	xxxx目前版本	内部适配达梦版本	数据库Schema	迁移进展	备注
底座	xx容器云平台	CHEGVA	2.4.2	无需数据库
底座	CNDNS	CNDNS	1.19	1.20	chegva

mysql数据库地址及schema

数据库地址	数据库Schema	实例规格	产品说明
10.96.110.112	chegva	8C16G	云平台
10.96.110.112	cndns	8C16G	云平台

应用系统情况分析

序号	产品类型	产品型号
1	应用后台操作系统	Red Hat Linux
2	数据库后台操作系统	Red Hat Linux
3	后台数据库	MySQL5.7
4	应用开发平台	JAVA
5	应用开发接口	JDBC
6	需要移植的数据库对象	表（数据量）、分区表视图自定义类型触发器、存储过程、函数和其他

3. 迁移方案

3.1. 迁移前准备

确认版本信息：记录MySQL数据库版本配置，并使用兼容的达梦数据库（推荐DM8）
检查网络与存储：确保迁移机器能同时访问MySQL和达梦数据库，并有足够存储空间

3.2. 备份数据

备份待迁移mysql数据库、备份产品相关配置（如需要）

# 备份chegva数据库
mysqldump -h xxx -u root -p'***' --skip-triggers --skip-lock-tables --complete-insert --skip-extended-insert chegva > ./chegva-2025xxxx.sql

3.3. 迁移数据库至达梦

准备迁移工具：

数据迁移工具 DTS：提供了异构数据源之间的评估，迁移和对比功能。DM 数据迁移工具采用向导方式引导用户通过简单的图形化进行兼容性评估操作。
SQLark 百灵连接：支持对 ORACLE、MySQL、PostgreSQL 等主流数据库迁移到达梦数据库进行在线采集评估和自动转化，一键生成源数据库画像，获取源库对象、不兼容对象、大表、大字段表等迁移重难点情况，评估本次迁移需要投入的工作量。SQLark 会根据源库画像，生成合理的迁移策略，为开发者后续进行的自动/手动迁移提供迁移方案参考。

SQLark提供15天免费试用，如未购买，请勿提前安装，以免试用过期

迁移工具使用：

3.4. 应用发布

修改产品数据库配置信息，重新部署产品：

修改发布平台应用数据库连接参数为达梦连接配置，关联schema更改为达梦数据库
修改应用k8s集群中deploy、sts、cm、secret中mysql数据库连接配置为达梦数据库
修改应用程序配置文件、连接字符串为达梦数据库配置

3.5. 验证产品功能

白屏：应用控制台页面各组件标签显示正常
黑屏：应用error.log没有持续打印报错
产品发布自动化测试通过
测试平台平台各个组件测试用例能执行成功
应用链路验证成功

3.6. 回滚方案

切换应用达梦数据库连接配置为mysql连接配置，重新发布应用并验证产品功能

4. 迁移步骤

产品集迁移顺序：PASS平台（底座） → 中间件 → 应用核心组件 → 应用扩展组件 → 监控系统

AnZhihe | 安志合修改