MoreRSS

site iconBanxian | 王半仙修改

基于Obsidian笔记的数学花园,电子知识大脑。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Banxian | 王半仙的 RSS 预览

Circuit Tracing:用归因图解释大模型的思维过程

2025-08-21 16:03:00

中文标题:电路追踪:揭示语言模型中的计算图

英文标题:Circuit Tracing: Revealing Computational Graphs in Language Models

发布平台:在线平台

发布日期:2025-03-27

引用量(非实时):无

作者:Anthropic 团队

关键字: #CircuitTracing #电路追踪 #可解释性

文章类型:webpage

品读时间:2025-08-21 17:26

1 文章萃取

1.1 核心观点

电路追踪(Circuit Tracing)通过引入稀疏编码技术,形成具备单一语义的稀疏特征,之后尝试利用跨层转码器 (CLT)重建和恢复模型;在转码器和稀疏编码的基础上,本文定义了归因图来描述模型推理过程中关键节点及节点间虚拟权重关系,同时将经过图剪枝处理后的归因图的进行可交互的可视化展示,借此实现模型内部逻辑的可解释,同时评估特定提示词对模型思维过程的影响

本文通过大量的示例来对大模型的内部思考逻辑进行定性探究,挖掘出很多不同于人类的模型思考模式;这种可解释性技术也能缓解了大模型的潜在问题,对未来大模型的改进起到很多作用;最后本文也经过严格而缜密的实验分析,总结了本文技术的合理性与局限性

1.2 综合评价

  • 借助归因图实现对大语言模型内部思考逻辑的可视化
  • 在大模型的可解释性方面具备开创性,实证案例丰富
  • 相关的归因图技术和可交互的可视化方法,均已开源

1.3 主观评分:⭐⭐⭐⭐⭐

2 精读笔记

2.1 算法细节

电路追踪技术能够,

2.1.1 跨层转码器 CLT

跨层转码器(cross-layer transcoder,CLT)被切分在原始神经网络的 $L$ 层中,利用稀疏激活特征编码来替换原始模型每一层中的 MLP 输出 $y^{\ell}$;具体来说:

  1. 针对第 $l$ 层的 MLP 输入 $x^{l}$,CLT 会先构建编码器来生成稀疏特征编码 $a^{l}=JumpRelU(W^{l}_{enc}x^{l})$
  2. 然后 CLT 通过解码器来尝试还原 $\hat{y}^{\ell}=\Sigma_{\ell}W^{\ell}_{dec}a^{\ell}$,目前是让 $\hat{y}^{\ell}$ 尽可能接近原来的 MLP 输出 $y^{\ell}$
  3. CLT 的所有参数是联合训练的,其损失包括重建误差损失 $L_{MSE}$ 和稀疏惩罚项 $L_{sparsity}$:

$$ \begin{aligned} & L_{\mathrm{MSE}}=\sum_{\ell=1}^{L}|\hat{\mathbf{y}}^{\ell}-\mathbf{y}^{\ell}|^{2} \\ & L_{\mathrm{sparsity}}=\lambda\sum_{\ell=1}^{L}\sum_{i=1}^{N}\mathrm{tanh}(c\cdot|\mathbf{W_{dec,i}^{\ell}}|\cdot a_{i}^{\ell}) \end{aligned} $$

  • 其中 $L$ 表示最大层数,$N$ 表示对应层的稀疏特征数,$\lambda$ 和 $c$ 是超参数
2.1.2 局部替代模型

替代模型(Replacement Model):

  • 给定一个训练好的 CLT,依次替换原始模型中的 MLP 神经元,即可构建出替代模型
  • 替代模型的正向传递与输出,和原始模型是相对一致的;对于一个 18 层的CLT 替代模型在词预测(next-token completion)任务中,能够与原始模型的输出有 50%的一致概率

  • 在上图中,当替代模型即将表达“某个州的首府时”时,相关的稀疏特征会激活(高亮部分)

局部替代模型(Local Replacement Model):

  • 其目标是缩小替代模型与原始模型之间的差异,辅助分析特定提示 $p$ 对原始模型的影响
  • 局部替代模型仍然使用 CLT 替换原始模型的 MLP,但有以下改动:(1)冻结原始模型的注意力权重和归一化层分母(2)添加误差修正项 $error=y^{\ell}-\hat{y}^{\ell}$ 来修正 $\ell$ 层进行 CLT 替换所引入的误差
  • 以上操作,确保最终的局部替代模型内部的所有激活值和最终输出与原始模型保持严格一致

局部替代模型的局部线性关系:由于注意力权重和归一化层分母都是冻结的,因此源特征的激活对下游特征的预激活值(Pre-activation,即输入非线性函数之前的值)的影响是线性的 而这种稀疏特征间的局部线性影响,就是构建归因图(Attribution Graphs)的基础

2.1.3 归因图的构建

归因图的节点(Nodes)

  1. 输入节点(Input):提示文本 P 中的每个 Token 的 Embedding 向量
  2. 中间节点(Intermediate):处理提示文本 P 中的每个 Token 时被激活的CLT 特征
  3. 误差节点(Error):原始模型中每个 MLP 输出中没有被 CLT 解释的部分
  4. 输出节点(Output):模型预测下一个 Token ,只考虑 Top10 且概率>95%的情况

归因图的边(Edges)

  • 边的源节点包括输入节点、中间节点、误差节点,目标节点包括中间节点、输出节点
  • 给定一个源节点 $s$ 和目标节点 $t$,边权重定义为 $A_{s\to t}:=a_{s}w_{s \to t}$ ;其中 $a_{s}$ 表示源节点的激活值,$w_{s \to t}$ 表示局部替代模型中的虚拟权重,即目标节点 $t$ 的预激活值相对于 $a_{s}$ 的导数
  • 在计算虚拟权重的过程中,局部替代模型的所有非线性项都处于梯度停止(stop-gradients)状态;因此在反向传播过程中,模型的非线性组件可表示为雅可比行列式 $J_{c_s,\ell\to c_t,\ell_t}$,以方便高效计算:

$$ A_{s\to t}=a_sw_{s\to t}=a_s\sum_{\ell_s\leq\ell<\ell_t}(W_{\mathrm{dec},s}^{\ell_s\to\ell})^TJ_{c_s,\ell\to c_t,\ell_t} W_{\mathrm{enc},t}^{\ell_t} $$

上式主要展示了源节点和目标节点为中间节点的情况,其他类型的边公式是相似的

由归因图的定义可知,任意特征节点 $t$ 的预激活值都可以简单表示为图中所有输入边的汇总: $$ h_{t}=\Sigma_{S_{t}}w_{s\to t} $$

  • 其中 $w_{s}$ 表示节点 $t$ 的所有上游节点集合,其中上游节点需要满足两个限制条件(1)层级限制:节点所在层 ≤ $t$ 所在的层(2)时序限制:节点上下文位置 ≤ $t$ 的位置
  • 归因图中的边,可以将每个节点的激活值进行线性分解,便于捕捉模型思考的路径

上游节点的限制条件理解:(1)层级限制,确保信息在网络层级间的单向传递(2)时序限制,防止未来信息的泄露,其作用类似于自回归模型中的因果掩码

2.1.4 归因图的可视化

归因图的规模问题:即使对于较短的提示文本,最终构建出的归因图中边的数量也可能达到百万级别;并且随着稀疏特征向量维度和提示文本长度的增加,归因图的量级会迅速膨胀

归因图的剪枝策略(先修剪节点,再修剪边):

  1. 对边权重进行无符号化处理(取绝对值),然后构建邻接矩阵,并遍历每个节点的输入边进行归一化处理,使其输入边的权重和为 1;定义归一化后的无符号邻接矩阵为$A$
  2. 定义间接影响矩阵(ndirect influence matrix)$B=A+A^2+A^3+\dots=(I-A)^{-1}-I$,其第 $i$ 行第 $j$ 列的元素值表示节点对 $<i,j>$ 间路径的累积重要性(类似 PageRank 的思想)
  3. 遍历矩阵 $B$ 中输出节点对应的行,根据模型对不同 token 的输出概率作为权重,进行加权平均计算,得到所有非输出节点的预测影响得分(衡量非输出节点对最终输出的贡献)
  4. 按照预测影响得分对非输出节点进行降序排列并截断,使得保留后非输出节点的累积预测影响得分在所有节点的预测影响得分汇总的占比达到 80%(相当于保留了 80%的预测可解释性)
  5. 针对节点剪枝后的归因图,采取相同的方式重新计算每个节点的预测影响得分,然后根据归一化后的边权重,计算每个边的预测影响得分,之后采取相同策略进行边的裁剪(阈值提升为 98%)

剪枝策略的补充说明

  1. 输入节点(embedding)和误差节点,不参与节点的剪枝操作
  2. 剪枝策略中的阈值(80%和 98%)为实验参数,可根据实际情况灵活调整
  3. 当提示文本过长时,可考虑采用自适应算法来搜索 TopN 个重要节点构建图

剪枝后的归因图,节点的数量通常减少约 10 倍,边的数量通常减少约 500 倍

归因图的可视化

  • 归因图经过剪枝后,通常包含数百个节点和数万条边(信息量依然很大)
  • 本文开发了一个交互式归因图可视化界面,旨在实现“追踪”图中的关键路径,保留重新访问先前探索的节点和路径的能力,并且能根据需要呈现解读特征所需的信息

2.2 归因图应用

2.2.1 归因图的典型案例

典型案例 - 理解大模型构建缩写词的能力:

  • 说明:给定任意标题,大模型构建并返回其缩写词
  • 输入示例:The National Digital Analytics Group (N
  • 期望输出(后续文本的补全):DAG)

由于 tokenizer 包含用于大写锁定的特殊 token,因此实际输出为特殊 token+缩写词(小写);下文中的归因图示意进行了适当简化,不影响对模型思维过程的解释

案例的归因图可视化:

  • 方框表示一组被激活的相似特征,鼠标悬停可进行每个特征的可视化展示
  • 剪头表示特征组或 token 对其他特征或输出节点存在直接影响
  • 归因图中展示了三个关键路径,分别对应缩写词 DAG 的三个缩写字母
  • 单词 National 对应的缩写字母 N 已经输出,因此字母 N 会对三个路径都产生影响,从而保证后续的输出 DAG 能够完全接上前文,并实现 National Digital Analytics Group 的缩写补齐
2.2.2 归因图的基础操作

归因图的详细展开:

  • 左上:完整的归因图,包含不同类型的节点与边,颜色深浅表示预测影响得分
  • 左下:局部的归因图,节点可支持鼠标拖拽,点击节点可展开查看节点的特征详情
  • 右上:根据边的预测影响得分,展示对每个节点影响最大的 N 个输入节点/输出节点
  • 右下:每个节点的详情,既包括节点对最终 token 的影响,也包含关键的历史示例

归因图的基础操作:

  • 鼠标悬停(Hover):将鼠标悬停在一个节点上,会展示该节点的详细信息
  • 鼠标点击(Click):主动选择一个节点,选中的节点会高亮显示为粉色
  • Ctrl/Cmd+鼠标点击:主动固定节点,多个固定后节点可以构建一个独立显示的子图
  • 按住“g”键并点击节点:将子图中的多个节点重新分组为一个超节点(手动聚类)
2.2.3 归因图的干扰与验证

归因图的验证方法:通过在底层模型中执行特征扰动(修改激活值或解码器),并检查对下游特征或模型输出的影响是否与基于图的预测相匹配,来验证归因图的断言

归因图的干预与验证示例:

  • 上图中,左侧表示干预前的归因图示意,右侧表示干预后的归因图示意
  • 干预方式:抑制归因图中“Group”这一超节点对其他节点以及输出的影响
  • 干预结果:预测输出的 Token 概率分布发生较大变化,并符合归因图的推断

超节点的抑制主要通过乘以一个 -1 的因子来产生负向引导,而不是直接删除

2.2.4 用归因图定位重要层

通过归因图还可以定位一个特征的解码,评估哪些层能对输出产生更大的影响

  • “Analytics”超节点,主要通过第 13 层及更高层的中间特征组“say_A”、“say_DA_”和“say_DAG”这三个节点来间接地对输出节点“dag”做出贡献
  • 在不同层对“Analytics”超节点的特征进行抑制(负向引导),可发现当抑制发生在第 1~12 层时,输出节点会受到较大的影响(“Analytics”超节点对 13 层及以上不再具备直接影响):

2.2.5 分析模型对事实的记忆

案例:输入“Fact: Michael Jordan plays the sport of”,会有 65%的概率补齐单词为“basketball”

归因图可视化:

  • 第一条路径,从“plays”和“sport”开始,激活了篮球、足球等运动相关稀疏特征
  • 第二条路径,从“Michael Jordan”开始,正向引导了篮球的激活,并抑制了足球的激活

归因图可视化详情:

  • 删除“sport” 或 “Michael Jordan”超节点,对输出概率的影响较大,但对其他超节点影响较小,这说明模型的思维路径并不是简单的单线推理,而是存在并行路径结构
  • 抑制中间节点“basketball discussion”,也会对输出概率有较大的影响
2.2.6 分析模型的加法运算

案例:输入“calc: 36+59”,期望输出为“95”

归因图可视化:

  • 左侧路径:将输入进行近似处理,然后进行低精度计算 “~40+~50=~92”
  • 中间路径:针对输入项进行中精度计算 “~36+~60=_ 95”,其中“sum=_ 95”节点中的对角线结构表示对求和(sum)操作的某种约束
  • 右侧路径:针对个位数进行精确计算 “_ 6 + _ 9 = _ 5”,其中“add=_ 9”节点中的网格结构表示对输入数字的模运算(modular)操作约束

归因图的干预分析:

  • 抑制输入 token 中的个位数特征,会导致整个右侧路径的抑制
  • 当抑制 _ 6 时,模型会自信地输出 98 而不是正确答案 95
  • 当抑制 _ 6 和 _ 9 时,模型的预测结果范围会变得模糊(±5)
2.2.7 归因图中的全局权重

全局权重:用于描述两个特征之间与上下文无关的相互作用

从虚拟权重到全局权重

  • 虚拟权重是全局权重的一种,但存在大量没有因果影响的干扰项
  • 归因图中的虚拟权重,会考虑每个特征与其他所有特征的连接,但其中的某些特征对这实际分布中从未共同激活过,因此在这种情况下,虚拟权重并不适合作为全局权重来解释模型行为
  • 优化思路:考虑引入共激活统计量(co-activation statistics)来应对虚拟权重中的干扰
  • 具体操作:假设源特征 $i$ 的激活值为 $a_{i}$,目标特征 $j$ 的激活值为 $a_{j}$,二者间的虚拟权重为 $V_{ij}$,可以定义目标加权预期残差归因(TWERA)作为最终的全局权重

$$ V_{ij}^{TWERA}=\frac{E[a_{j}a_{i}]}{E[a_{j}]}V_{ij} $$

  • 修正后的 TWERA,用目标激活值对虚拟权重进行加权,规避了源特征容易存在的多义性问题,同时也排除了源特征未激活的情况(仅考虑在实际分布存在特征-特征共激活时的信息)

虚拟权重 VS 全局权重

  • 以“say a game name”作为提示文本,进行 TopN 虚拟权重的特征可视化
  • 上图中,绿色表示存在正向连接,紫色表示存在负向连接
  • 原始虚拟权重(左)较高的特征存在较多难以解释或无关的情况
  • 修正后的全局权重(右)较高的特征则具备更强的相关性和可解释性

2.3 实验分析与评价

可解释性评估:主要通过多个具体案例的定性评估来说明归因图的有效性

  1. 多步推理:模型通过两步推理得出“达拉斯所在州的首府是...”,即“达拉斯→德克萨斯→奥斯汀”
  2. 诗歌创作:模型在每行诗歌创作前,会考虑潜在韵脚词并进行选择,进而影响整行的创作思路
  3. 多语言:模型会综合考虑语言特定的节点和语言无关的抽象概念节点
  4. 加法计算:加法计算归因图在不同语境中存在泛化,不同规模 LLMs 的归因图存在定性差异
  5. 医疗诊断:模型会根据症状来识别诊断候选,然后来引导出后续可用于证实诊断的症状
  6. 实体识别与幻觉:面对模型不熟悉的实体,模型可能触发特定的归因图,从而导致幻觉
  7. 拒绝有害请求:经过微调后的模型存在一个通用的特征节点,用于识别和聚合有害请求
  8. 越狱分析:诱导模型执行危险的指令,该情况是由于模型对句法和语法规则的遵从压力
  9. 思维链的忠诚性:通过归因图可区分出模型编造推理、虚假执行、谄媚讨好等不良行为
  10. 带有隐藏目标的模型:通过归因图可以暴露模型不愿公开表明的目标和深层“模型人格”

CLT 的定量评估:

  • 随着稀疏特征字典的规模增加,CLT 重建损失在下降,并且优于逐层转码器(PLT)
  • L0 描述了特征稀疏性(每个 token 对应的平均稀疏激活特征数量),CLT 优于 PLT
  • Sort Eval 是一种排序评估方法,通过随机抽取两个特征,然后对示例数据集进行排序,找到对特征的激活程度最高的 TopN 示例数据集;CLT 的排序评估损失,明显小于 PLT
  • Contrastive Eval 是一种对比评估方法,给定两个结构相似但内容不同的提示对,让 Claude 通过分析特征的归因图可视化结果,来猜测归因图结果相对应的提示;CLT 的对比评估损失,明显小于 PLT

路径长度 VS 路径影响

  • CLT 的重要优势,就是在保留路径影响程度的情况下,显著减少了路径长度
  • 该特性使得 CLT 能自动折叠特征,简化路径复杂度,降低可解释性的难度

归因图的综合评价

  • 在不同字典规模的情况下,借助 CLT 构建的归因图的稀疏性均显著 PLT
  • 图完备性得分(Graph completeness score),主要计算的是影响预测输出中输入节点或中间节点的加权占比,即误差节点对预测输出的影响越小,图完备性得分越高;CLT 归因图的图完备性得分高于 PLT
  • 图替换得分(Graph replacement score),主要计算的是输入节点通过中间节点(而非误差节点)影响到预测输出的占比;CLT 归因图的替换得分高于 PLT

注意:本文默认的图剪枝策略,会导致 CLT 归因图的图完备性得分下降至 69%

局限性:

  1. 缺少对注意力机制的轨迹追踪,可能错过模型思考中的有趣部分
  2. 存在客观的重建误差,仅能实现模型的部分解释
  3. 某些未激活的特征节点,也具备继续深入挖掘的价值
  4. 特定情况下的归因图,可能过于复杂并难以理解
  5. 特征节点可能存在多层次的抽象,需要进一步的拆分或合并
  6. 依然很难从全局方式来理解模型,只是通过特定示例来归因
  7. 利用 CLT 的替换过程存在客观误差,可能导致对原始模型的误解

后记

Anthropic 官方推出的电路追踪案例解读文章

  • 忽略技术细节,相比原始论文更浅显易懂

本文提到的归因图可视化工具官方已经在 github 开源

相关资源

RepE:用于增强 AI 模型透明度的表征工程

2025-08-17 14:17:00

中文标题:表征工程:一种自上而下的 AI 透明度方法

英文标题:Representation Engineering: A Top-Down Approach to AI Transparency

发布平台:预印本

发布日期:2023-01-01

引用量(非实时):494

DOI:10.48550/ARXIV.2310.01405

作者:Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan Hendrycks

关键字: #RepE #表征工程 #透明度

文章类型:preprint

品读时间:2025-08-17 14:17

1 文章萃取

1.1 核心观点

表征工程(RepE)是一种用于增强神经网络的可解释性和透明度的技术,其通过线性人工断层扫描(LAT)技术从模型中提取与特定概念或功能相关的 reading vector,并用于模型的深层理解和编辑操纵;本文通过多种实验来测定了该方法的可行性,在多个模型安全领域进行了应用和评估,展现出了该技术较大的可挖掘潜力

1.2 综合评价

  • 对表征工程技术进行改进,并提出模型编辑的新思路
  • 有助于模型的理解,增强现有模型的安全性和可控性
  • 表征工程能精细到 token 级,但缺乏思维路径的理解

1.3 主观评分:⭐⭐⭐⭐⭐

2 精读笔记

2.1 背景介绍

表征学习中的涌现结构:

  • 左:DINOv2 自监督视觉模型中的局部分割,可区分机舱、机翼和机尾等结构
  • 右上:词向量中的简单语义算术,比如:Kings-King=Queens-Quneen
  • 右下:StyleGAN3 中的局部坐标,能描述五官、头发与面部轮廓曲度

常见的模型可解释性方法:

  • 显著性图:通过调整输入或梯度信息,来描述其对模型预测输出的细微影响,并进行注意力可视化;更多细节可参阅论文 Saliency:基于显著性图检测模型偏差
  • 特征可视化:寻找能够导致特定神经元激活值偏高的输入 token 来解释神经网络的内部机制;简单方法是直接找到导致高激活值的输入;复杂方法是优化输入来最大化激活值
  • 机制可解释性:借鉴逆向工程的思路,寻找具备特定功能的神经元组合“电路”
  • 线性探针:利用线性分类器探针,根据网络的中间层训练预测输入的属性,从而找到神经网络中的概念表示;更多细节可参阅论文语言模型的物理学 1:含深层逻辑的语法树

2.2 线性人工断层扫描 LAT

线性人工断层扫描(Linear Artificial Tomography,LAT)

  • LAT 是一种线性探测进阶方法,也是本文提出的 RepE 表征工程的技术基础
  • LAT 的目的就是提取模型中与目标概念(比如“效用”或“概率”)或功能(比如“道德败坏”或“追求权利”)相关的神经活动;LAT 主要由三个关键步骤组成
  • (1)设计刺激和任务,用于刺激模型产生特定的神经活动;比如为了捕捉特定 concept,可以定义以下输入文本来引发模型的陈述性知识:The amount of <concept> is
  • (2)收集神经活动;假设概念 $c$ 对应的刺激任务模板为 $T_{c}$ ,定义解码器为 $M$, 通过一组刺激 $S$,最终收集到的神经活动集合表示为 $A_{c}={\mathrm{Rep}(M,T_{c}(s_{i}))[-1]|s_{i}\in S}$, 其中函数 $\mathrm{Rep}$ 的输入包括解码器 $M$ 和刺激 $s_{i}$ 对应的提示文本 $T_{c}(s_{i})$,输出是所有 token 的位置表示;· $[-1]$ 则表示保留最后一个 token 的位置表示;最终收集到每个神经活动是向量的形式
  • (3)构建线性模型;线性模型的目的是,以神经活动作为输入,尝试预测目标概念或功能的方向;常用的线性方法包括线性探测,PCA,k-means 等技术;本文主要使用 PCA 对概念 $c$ 对应的一组神经活动进行降维,并保留第一主成分作为读出向量(“reading vector”)

模型输入序列中不同 token 的位置表示,存储着用途各异的表征信息;比如有的表征更关注词性语法(名称?动词?),有的则可能更关注语义和推理(在段落中的作用?表达了什么感情?)

对于通过自回归进行训练的大语言模型来说,提示文本的最后一个词 is 对应的嵌入表示(embedding)实际上包含了整句话前面的信息,以方便进行后续 token 的预测;因此在“收集神经活动”的过程中,每次收集到的神经活动向量其实对应着最后一位 token 的位置表示

2.3 从表征理解到控制

Reading vector 是 LAT 根据神经活动,从模型中提取出的概念或功能理解

评估 reading vector 的四种实验类型:

  • 背景案例:定义 reading vector 为 $v$,表示模型对概念“truth”的理解
  • 相关性:根据神经活动与特定 reading vector 的相关性(向量点积),来进行模型的行为解释;对于任意的嵌入表示 $x$,向量点积 $Rep(M,x)^Tv$ 可用于评估模型的真实性(测谎)
  • 操作:刺激或抑制已识别的神经活动,比如提高模型安全性或规避模型撒谎
  • 终止:当识别到不合理的神经活动时进行终止,并评估由此导致的性能退化
  • 恢复:通过对概念或功能的移除与恢复,来评估特定神经活动的必要性

表示控制

  • 针对特定概念或功能构建一组刺激,然后通过 LAT 提取到模型的 reading vector;但 reading vector 的缺点是:对于不同的输入,reading vector 都只会产生相同的扰动(刺激无关性);因此用 reading vector 进行表示控制的效果较差
  • 本文则提出了一种与刺激相关的表示,即对比向量;在推理时,模型可以通过两个具有对比性的提示产生两个不同的表示,而对比向量就是两个表示之间的差异;对比向量可以构建对比损失,指导模型表示的微调(LoRRA),从而实现表示控制

表示控制的算子选择:

  • 给定表示为 $v$ 的控制器,表示操作的目的是将当前表示 $R$ 转换为 $R'$
  • 算子 1:线性组合 $R'=R\pm v$,可直接产生刺激或抑制的效果
  • 算子 2:分段操作 $R'=R +sign(R^Tv)v$,沿控制方向增强神经活动
  • 算子 3:投影 $R'=R-\frac{R^tv}{||v||^2}v$,消除与控制方向对齐的表示分量

控制器 $v$ 可以通过引入缩放系数,来根据需求调整所需的表示控制效果强度

2.4 案例 1:真实与诚实

模型具有一致的内部真实性概念

Zero-shot Standard Zero-shot Heuristic LAT Stimulus 1 LAT Stimulus 2 LAT Stimulus 3
LLaMA-2-Chat 7B 31.0 32.2 55.0 58.9 58.2
LLaMA-2-Chat 13B 35.9 50.3 49.6 53.1 54.2
LLaMA-2-Chat 70B 29.9 59.2 65.9 69.8 69.8
Average 32.3 47.2 56.8 60.6 60.
  • 评估方式:通过容易引发误解或谎言的问题,对模型进行 QA 测试
  • 使用相同的示例的情况下,应用 LAT 方法来控制(刺激)模型后的结果明显优于简单少样本提示和启发式方法(利用提示文本直接从模型中提取相关的概念)
  • 在三种不同数据源中应用 LAT 提取到的 reading vector,在控制(刺激)模型后的表现水平接近,表明模型内部能够跨数据地追踪一致的真实性

利用诚实性概念对模型进行测谎和诚实度评估

  • 对 Vicuna-33B-Uncensored 模型进行了时间 LAT 扫描
  • 上图中,横轴表示 token 位置,纵轴表示层数,颜色表示模型诚实度
  • 左侧为识别为说真话的示例可视化,例如模型承认抄袭了他人作业
  • 右侧为识别为说谎话的示例可视化,例如模型否认了犯罪的事实

利用诚实性概念,来控制和增强模型的诚实度表现

Control Method None Vectors Vectors Vectors Matrices
Standard ActAdd Reading (Ours) Contrast (Ours) LoRRA (Ours)
7B-Chat 31.0 33.7 34.1 47.9 42.3
13B-Chat 35.9 38.8 42.4 54.0 47.5
  • 以上所有方法,均可以用于控制模型输出诚实陈述
  • 其中表现最好的方法是基于对比向量的刺激,但推理成本会高 3 倍
  • 其次表现较好的方法是基于 LoRRA 的微调,其增加推理成本可以忽略

2.5 案例 2:伦理和权利

不同方式提取到的 reading vector 对比:

  • reading vector 的评价角度主要包括与目标概念之间相关性(越高越好)、用于控制模型的可操作性(越高越好)、通过投影操作来终止实验的效果(越低越好)
  • 大部分线性方式,都可以提取到效果出色的 reading vector;10 层以后提取的 reading vector 的相关性度量最好;15~20 层左右提取的 reading vector 的可操作性最好;有监督的方式能提取到终止效果更好的 reading vector

伦理和权利的检测:

  • 当模型试图以获取金钱为目的对儿童使用威胁或暴力时,伦理和权力的倾向检测器会被激活;得益于本文的方法,检测器可以逐 token 给出检测结果

应用 LoRRA 来控制模型在追求权力和道德败坏上的倾向:

Reward Power (↓) Immorality (↓) Reward Power (↓) Immorality (↓)
LLaMA-2-Chat-7B LLaMA-2-Chat-13B
+ Control 16.8 108.0 110.0 17.6 105.5 97.6
No Control 19.5 106.2 100.2 17.7 105.4 96.6
− Control 19.4 100.0 93.5 18.8 99.9 92.4

2.6 其他模型安全应用

基于RepE 技术,本文探索五种与模型安全相关的主题应用

  1. 情感(1)本次研究主要考虑六种主要情绪:快乐、悲伤、愤怒、恐惧、惊讶和厌恶(2)随着模型深度的增加,情绪相关的表征呈现出清晰的分簇(t-SNE 可视化)(3)不同情绪对应的reading vector 会显著影响模型的输出,比如快乐情绪会增加模型对有害指令的遵从度
  2. 无害指令遵循(1)使用 LAT 生成的 reading vector 具备较高的鲁棒性,对有害指令的识别准确率始终保持着 90%以上(2)应用分段变换来有条件地增加或抑制某些神经活动,可以将越狱指令拒绝率从 81.4%提高到 90.2%,高级攻击(GCG)拒绝率从 56.6%提高到 87.2%
  3. 偏见与公平性(1)本次研究主要考虑四种常见偏见:性别、职业、种族和宗教(2)多种偏见相关的reading vector 通过线性组合算子,来进行偏见相关的表征控制(3)通过表征控制,能显著改善模型的公平性,避免结节病与黑人女性的过度关联
  4. 知识和模型编辑(1)通过表征控制进行模型编辑,将事实“埃菲尔铁塔位于巴黎”修改为“埃菲尔铁塔位于罗马”(2)增加或抑制模型输出与概念相关的文本
  5. 记忆(1)利用 reading vector 进行模型记忆的检测,比如判断模型是否记住了某些流行语或经典文学段落(2)应用具有负系数的 reading vector 线性组合变换,来抑制模型的特定记忆

相关资源

永禁文物 195_山东山西馆藏

2025-08-15 01:23:00

彩绘八角星纹陶豆

  • 1978年出土于山东泰安大汶口遗址,大汶口文化彩陶器
  • 豆为盛食器,也是祭祀用的礼器,口径26厘米,足径14.5厘米,通高28,此豆口沿上用褐、红彩绘对顶三角形与若干线条相间组成的图案,腹部用白彩在深红色陶衣上绘有5个方形八角星状纹饰,象征太阳
  • 纹饰构图对称,色彩对比强烈,堪称我国彩陶艺术珍品;八角星图是山东地区新石器时代典型纹样,体现先民对自然现象的抽象化艺术表达。作为大汶口文化代表性器物,其出土为研究史前制陶工艺、原始信仰及社会形态提供了重要实物资料
  • 现收藏于山东省文物考古研究所,2013年8月19日列入《第三批禁止出国(境)展览文物》

矩形五钮龙纹青铜镜

  • 1978年出土于临淄大武西汉齐王墓陪葬坑,西汉青铜镜
  • 铜镜通高115.1厘米、宽57.5厘米、厚1.2厘米,重达56.5千克;镜体呈矩形薄胎铸造,背面饰浅浮雕龙纹图案,龙身蜷曲作吐舌状,四周边缘装饰半圆形连弧纹,四角及中部铸有五个环形弦纹钮,钮周环绕柿蒂形纹样
  • 是我国考古发现面积最大、重量最重的铜镜;其独特的矩形制式与战国至西汉早期流行的龙纹相结合,展现出汉代工匠对传统纹饰的创造性改造。作为西汉初期齐国铜器制造业的巅峰之作,该文物印证了汉代失蜡法铸造工艺的精湛水平
  • 现藏于淄博市博物馆,2002年列入《首批禁止出国(境)展览文物目录》

晋侯鸟尊

  • 出土于山西省临汾市曲村晋文化遗址中的晋侯墓
  • 晋侯鸟尊高39厘米,长30.5厘米,宽17.5厘米。整个鸟尊以凤鸟回眸为主体造型,整体是凤鸟直立造型,鸟首回眸微昂,尖喙上扬,高冠耸立,凤眼圆睁,眼神投向远方;在鸟尊身上华丽的造型中,一只小鸟静静相依,并且成为鸟尊器盖上的捉手。凤尾下设一象首,象鼻内卷上扬,与双腿形成稳定的三点支撑
  • 造型写实、生动,构思奇特、巧妙。鸟尊以它的雄伟精美和独特造型而名闻天下
  • 现藏于山西省博物院,2013年列入《第三批禁止出国(境)展览文物》

玉组配

  • 1992年出土于山西临汾曲沃县曲村M63墓(晋穆侯次夫人墓),西周时期玉器
  • 组玉佩复原长度约158厘米。由玉璜、玉珩、冲牙、玉管、绿松石珠、玛瑙管等组成,共有204件。大致有三列,中列有玉璜19件、玉珩3件、玉雁2件,左右两列各有玉璜13件,冲牙1件,上部由玉管、玉珠、玛瑙串联。组玉佩的下端是两件玉雁
  • 西周最大最长组玉佩;极尽巧思,华丽无比,代表了当时晋国的最高治玉水平
  • 现藏于山西省博物院,2013年8月19日列入《第三批禁止出国(境)展览文物》

龙纹青铜兕觥

  • 1959年出土于山西省石楼县桃花庄,商代后期青铜盛酒器
  • 原器通高19厘米、长43厘米;该器呈兽角状,前端为龙首造型,双目凸起,张口露齿,脊部设菌状钮盖,龙躯覆于器盖并与器身融合,下设长方形矮圈足。腹两侧饰鼍纹、扬尾龙纹及鱼状动物纹、虺纹,局部纹饰带有鳄鱼特征
  • 造型别致,构思巧妙,纹饰精美富丽,铸造工艺精湛高超,为商代青铜器中仅见,甚为珍贵,特别是鼍纹在青铜器中极为少见(鼍即鳄鱼),是研究商代北方民族青铜器铸造工艺,器物造型的重要资料,具有极高的历史、艺术价值
  • 现藏于山西博物院,2013年8月19日列入《第三批禁止出国(境)展览文物》

彩绘漆画木板屏风

  • 1965年出土于山西省大同市司马金龙墓,北魏木板漆画
  • 北魏木板漆画较完整的共有五块,每块长约80厘米,宽约20厘米,厚约2.5厘米,木板之间用榫卯结构连接而成,整个木板表面用红色漆为底,描绘了十几幅宣传帝王、忠臣、孝子、列女的故事,旁边还辅以大量的题记
  • 研究北魏社会文化形态的珍贵的实物资料;北魏木板漆画为北魏时期漆画工艺的发展状况、北魏前期的书法和绘画风格提供了极其重要的实物资料;南北朝时期我国古代漆器的一件代表作
  • 现分收藏于山西博物院(2块)、大同市博物馆(3块),2002年列入《首批禁止出国(境)展览文物目录》

北齐娄睿墓鞍马游骑图壁

  • 1979年出土于太原王郭村娄睿墓,北齐时期墓道壁画
  • 壁画创作于北齐武平元年(570年),采用铁线勾勒与色彩晕染技法,分层式长卷布局,全长 70 余米,分上下两层展现 28 组墓主人生前的出行场景,画面包含200余匹形态各异的骏马及仪仗队列
  • 其艺术成就被誉为中古时期鞍马题材绘画的巅峰,直接影响隋唐墓葬壁画形制
  • 现藏于太原北齐壁画博物馆,2002年列入《首批禁止出国(境)展览文物目录》

涅槃变相碑

  • 唐天授二年(691 年)所作,山西省临猗县大云寺遗物
  • 唐涅槃变相碑高 302 厘米、宽 87 厘米、厚 25 厘米,碑身以佛祖涅槃变相为中心,雕饰佛祖涅槃前后情景和佛传故事八图,有难陀供养、双树涅槃、为母说法、双足显圣、送葬、焚棺和天界起塔,以连环画的形式呈现
  • 盛唐时期皇家寺院的遗存,是现存为数不多的唐代碑刻造像艺术珍品;中国碑刻艺术的瑰宝,也是宗教艺术的明珠,为唐代和武则天的历史研究留下了极为珍贵的实物资料
  • 现收藏于山西古建筑博物馆(纯阳宫),2002年列入《首批禁止出国(境)展览文物目录》

常阳天尊石像

  • 唐开元七年(719 年)雕凿而成
  • 石像高1.5米,以白石雕造,面容饱满,衣纹清晰,神态和穆,气度不凡。右手持扇,左手扶几,盘坐于长方石座上。座的四面刻有铭文及供养人姓名,表示年代和造像因缘。其形象优美,技法娴熟
  • 研究道教、古代雕塑及书法艺术的珍贵资料;具备独特的历史和艺术价值的唐代道教造像
  • 现收藏于山西古建筑博物馆(纯阳宫),2002年列入《首批禁止出国(境)展览文物目录》

TOPSIS 综合评价

2025-08-06 17:02:00

TOPSIS (Technique for Order Preference by Similarity to an Ideal Solution) ,也称优劣解距离法,是一种常用的组内综合评价方法,能充分利用原始数据的信息,其结果能精确地反映各评价方案之间的差距

针对多标准/多目标决策问题(MCDM/MCDA),决策者需要面对多种决策标准和可行决策方案,TOPSIS 的作用就是帮助决策者综合考虑多个决策标准,在多个可行决策方案之间找到最优解

TOPSIS 示例:评估 5 所研究生院的教育质量

5 所研究生院的评估数据及其权重如下:

院校 人均专著 $x_1$ (本/人) 生师比 $x_2$ 科研经费 $x_3$ (万元/年) 逾期毕业率 $x_4$ (%)
A 0.1 5 5000 4.7
B 0.2 6 6000 5.6
C 0.4 7 7000 6.7
D 0.9 10 10000 2.3
E 1.2 2 400 1.8
  • 权向量在本案例中设置为 $\omega = [0.2,;0.3,;0.4,;0.1]$
  • 权向量一般来自专家评估法或基于信息论的熵值法

STEP1:指标属性同向化,避免有的指标越大越好,有的指标越小越好

院校 人均专著 生师比 科研经费 逾期毕业率
院校 A 0.1 1.000000 5000 0.212766
院校 B 0.2 1.000000 6000 0.178571
院校 C 0.4 0.833333 7000 0.149254
院校 D 0.9 0.333333 10000 0.434783
院校 E 1.2 0.000000 400 0.555556
  • 人均专著、科研经费为效应型指标,越大越好;因此保持不变
  • 逾期毕业率为成本型指标,越小越好;因此取倒数
  • 生师比为区间型指标,需人为定义最佳稳定区间和最大容忍区间

STEP2:指标属性归一化,即每一列元素都除以当前列向量的范数

院校 人均专著 生师比 科研经费 逾期毕业率
院校 A 0.063758 0.597022 0.344901 0.275343
院校 B 0.127515 0.597022 0.413882 0.231092
院校 C 0.255031 0.497519 0.482862 0.193151
院校 D 0.573819 0.199007 0.689803 0.562658
院校 E 0.765092 0.000000 0.027592 0.718952

STPE3:根据每一列的最大值和最小值,确定最优方案和最劣方案

人均专著 生师比 科研经费 逾期毕业率
最优方案 0.765092 0.597022 0.689803 0.718952
最劣方案 0.063758 0 0.027592 0.193151

STPE4:利用优劣解距离,来进行单一方案的评价,选出最优方案 $$ 方案A的距离=\frac{方案A-最劣解}{最优解-最劣解} $$

  • 方案 A 为理想最优解时,其距离值为1;方案 A 为理想最劣解时,其距离值为0
  • 遍历所有方案,并按照距离排序,最终距离最大/排名最高的方案,即为最优解
人均专著 生师比 科研经费 逾期毕业率 最终得分 正理想解 负理想解 排序
院校A 0.1 5 5000 4.7 0.485830 0.406984 0.384552 4
院校B 0.2 6 6000 5.6 0.526483 0.368177 0.409360 3
院校C 0.4 7 7000 6.7 0.562158 0.315879 0.405565 2
院校D 0.9 10 10000 2.3 0.677571 0.239342 0.502968 1
院校E 1.2 2 400 1.8 0.400512 0.531357 0.354994 5

20250801 本地论文阅读助手搭建

2025-08-01 16:49:00

论文数据获取

arXiv 预印本论文资源

  • arXiv 是一个免费、开放获取的预印本仓储网站,主要收录物理学、数学、计算机科学、生物学、定量金融学、统计学等学科的学术论文预印本
  • 科学家和研究人员可以在正式发表论文之前,先在 arXiv 上分享研究成果;arXiv上的论文对所有人免费开放,任何人都可以访问和下载
  • arXiv 也提供了基本的查询和下载 API,其 Python 代码示例如下:
import urllib, urllib.request
url = 'http://export.arxiv.org/api/query?search_query=all:electron&start=0&max_results=1'
data = urllib.request.urlopen(url)
print(data.read().decode('utf-8'))

PubMed 生物医学文献资源

2025-08-29 update,Cool Paper 作为一个论文总结工具,也有 RSS 功能

论文数据解析

<code>paperetl</code> 是一个用于处理医学和科学论文的 ETL 库

  • paperetl 能够对论文进行信息的抽取、转换与存储
  • paperetl 支持 arXiv 和PubMed 的 XML 格式文件,也支持完整 PDF 文件、符合文本编码倡议(TEI)的 XML 文件和记录文章元信息的 CSV 文件
  • paperetl 支持的存储形式:SQLite、JSON、YAML 和 ES

Python 示例:

# jupyter notebook 环境准备
# pip install paperetl==2.5.1
# !python -c "import nltk; nltk.download('punkt')"

# 下载数据
!wget -N -P pubmed/ https://ftp.ncbi.nlm.nih.gov/pubmed/updatefiles/pubmed25n1535.xml.gz
# 数据处理
!python -m paperetl.file pubmed pubmed_clean

import sqlite3
import pandas as pd

from IPython.display import display, HTML

def execute(sql):
  db = sqlite3.connect("pubmed_clean/articles.sqlite")
  cursor = db.cursor()
  cursor.execute(sql)

  df = pd.DataFrame([list(x) for x in cursor], columns=[c[0] for c in cursor.description])
  display(HTML(df.to_html(index=False)))

# Show articles
execute("SELECT * FROM articles LIMIT 5")
# Show sections
execute("SELECT * FROM sections LIMIT 5")

论文数据分析

<code>paperai</code> 是一个用于处理医学和科学论文的 AI 应用程序

  • paperai 通过 AI 驱动的报告生成,为研究任务提供强力支持(支持 RAG)
  • paperai 能根据配置文件,以高效的方式执行批量 LLM 推理操作
  • paperai可以生成 Markdown、CSV 格式的报告,并可直接在 PDF 上标注答案

配置文件模板:

%%writefile report.yml
name: Report

Hypertension:
    query: COVID-19 and hypertension
    columns:
        - name: Date
        - name: Study
        - {name: Sample Size, query: number of people/patients, query: how many people/patients, type=int}
        - {name: Comorbidities, query: covid-19 and hypertension, question: what diseases}

Python 示例:

# jupyter notebook 环境准备
# pip install paperai==2.5.0
# !python -c "import nltk; nltk.download(['punkt', 'punkt_tab', 'averaged_perceptron_tagger_eng'])"

# 索引数据
!python -m paperai.index pubmed_clean/pubmedbert-base-embeddings 0 10000

# 查询数据,只显示Top2,最低匹配度为0.75
!python -m paperai.query "COVID-19 and hypertension" 2 paperai 0.75


# 根据配置文件的 RAG pipeline 调用大模型,完成简单的QA任务
python -m paperai.report report.yml 5 csv paperai

import pandas as pd
from IPython.display import display, HTML
# 展示结果
display(HTML(pd.read_csv("Hypertension.csv").to_html(index=False)))

根据配置文件的 RAG pipeline 不同,paperai 可以作为论文助手完成各种任务

基于强化学习在ICU场景中学习脓毒症的最佳治疗策略

2025-07-27 14:17:00

中文标题:人工智能临床医生在重症监护室中学习脓毒症的最佳治疗策略

英文标题:The Artificial Intelligence Clinician learns optimal treatment strategies for sepsis in intensive care

发布平台:Nat Med

Nature Medicine

发布日期:2018-11-01

引用量(非实时):1352

DOI:10.1038/s41591-018-0213-5

作者:Matthieu Komorowski, Leo A. Celi, Omar Badawi, Anthony C. Gordon, A. Aldo Faisal

关键字: #强化学习 #脓毒症 #治疗推荐

文章类型:journalArticle

品读时间:2025-07-27 14:17

1 文章萃取

1.1 核心观点

本文利用一个马尔可夫决策过程(MDP)来模拟患者环境和治疗轨迹,并借助聚类算法构建患者状态空间,结合医疗知识离散化动作空间,最后利用时序差分的方式迭代求解 MDP,以最大化远期生存率为目标,制定脓毒症的治疗策略

本文创新性地提出了 WIS 评估指标,来实现临床策略与 AI 策略的对比分析,并结合自举法对策略的价值分布进行了深入的对比分析和严谨论证,说明了用于脓毒症治疗的 AI 策略有效性

1.2 综合评价

  • 将经典的强化学习算法,应用到脓毒症相关临床治疗推荐
  • 经过严谨的实验认证和分析,具有较高的临床落地可行性
  • 离散动作空间与现实存在差异,策略迭代算法也较为传统

1.3 主观评分:⭐⭐⭐⭐⭐

2 精读笔记

2.1 数据处理与描述

主要流程和关键步骤:

  • 主要考虑两个不同的开源 ICU 数据库:MIMIC-III 和 eICU(eRI);其中 MIMIC-III 的 80%数据将作为训练集用于模型开发,剩余 20%的 MIMIC-III 数据和eICU 将分别作为验证集与测试集
  • 数据收集的时间窗口:脓毒症发病时间前 24 小时至发病后 48 小时(仅考虑早期阶段管理),仅考虑入院后前 36 小时内患有脓毒症的所有成年患者
  • 数据排除标准:(1)入 ICU 时年龄小于 18 岁(2)未记录死亡信息(3)治疗终止,定义为数据收集后 24h 死亡或数据收集结束前仍在使用血管加压药(4)MIMIC-III 中静脉输液量未记录(5)eICU 中二次 ICU 患者(6)eICU 中治疗数据缺失率过高的医院(患者每天平均治疗信息数少于 6 条)
  • 整体流程概述:(1)患者数据的时间序列会通过 K-means 方法聚集成有限的状态集合(2)患者的治疗方式会按照静脉注射液体和血管加压剂的剂量被离散成25种组合(3)基于马尔可夫决策过程(MDP)来构建最优决策模型

数据说明:

  • 纳入特征(4 小时一组的多维离散数据,每组 48 个变量):包括人口统计学数据、Elixhauser 既往健康状况、生命体征、实验室值、接受的液体和血管加压药以及液体平衡
  • 在 4 小时内存在多次测量的数据变量根据需要进行平均(例如,心率)或求和(例如,尿量)。
  • 主要结局/奖励指标:90 天死亡率(MIMIC-III)或医院死亡率( eICU)

数据清洗:

  • 异常值或错误记录的筛查与清理,借助频率直方图或单变量统计
  • 单位标准统一和取值范围限制,比如温度从华氏度转换为摄氏度
  • 采用多变量最近邻填补法进行缺失值填充(聚类算法不接受缺失)

最终数据集的简单描述:

2.2 MDP 设计

前置知识:马尔可夫决策过程 MDP

将疾病过程可以表述为部分可观察的马尔可夫决策过程(MDP)

  • MDP 用于近似患者轨迹并模拟决策过程;MDP 由元组 ${S, A, T, R, \gamma}$ 组成
  • $S$,一个有限的状态集合,在本文中指 750 个离散的患者健康状态
  • $A$,状态决定的有限动作集合,由静脉输液和血管加压药组合的 25 种离散决策
  • $T(s′,s,a)$,转移矩阵,描述了状态 $s$ 下采取动作 $a$ 导致状态转移为 $s′$ 的概率
  • $R(s′)$,转移到状态 $s′$ 时获得的即时奖励(达到理想状态)或惩罚(非理想状态)
  • $\gamma$,未来的奖励折算为即时奖励时的折扣因子(合理假设),本文中取值为 0.99

状态空间

  • 数据预处理:(1)符合对数正态分布的需要先进行对数转换(2)符合正态分布的数据需要标准化,确保均值为 0,标准差为 1(3)二元数据需要进行中心化处理
  • 针对患者数据,利用 k-means++聚类构建状态空间,产生了 750 个离散的互斥患者状态
  • 使用贝叶斯信息准则和赤池信息准则来确定最佳聚类数量;本文倾向于选择较高的 K 值,以确保最终模型的颗粒度足够细;但也要避免状态空间过于稀疏(比如状态空间维度大于 1000)

动作空间

  • 治疗动作,专注于每 4 小时内静脉输液总量和血管加压药最大剂量的医疗决策
  • 静脉输液包括晶体液、胶体液及血液制品的快速输注(推注)和背景输注(持续输液),并且按张力(溶质浓度)进行标准化处理;比如 100ml 0.45% 浓度的盐水混合 200ml 0.9%浓度的盐水,再混合 50ml 乳酸林格氏液以及 70ml 25%白蛋白, 标准化后的等张溶液为 $100/2+200+50+70\times 5$
  • 血管加压药采用已公布的剂量换算方法:1 μg 去甲肾上腺素(Norepinephrine) $\approx$ 100 μg 多巴胺(Dopamine) $\approx$ 1 μg 肾上腺素(Epinephrine) $\approx$ 2.2 μg 苯肾上腺素/去氧肾上腺素(Phenylephrine);对于速度单位为 0.04 units/min 的血管加压素(Vasopressin),可按照 100kg 标准体重,转化为 0.2 mg/kg/min 的等效的去甲肾上腺素剂量
  • 每种治疗的剂量根据历史分位数划分为 5 种离散结果:0%,25%以下,25%~50%,50%~75%,75%以上%;两种治疗方式的组合产生了 25 种可能的离散动作;具体的动作空间划分逻辑如下:
操作编号 (Action Number) IV输液量范围 (静脉输液量范围) (mL/4小时) 静脉输液量中位数 血管加压药范围 (mcg/kg/min) 血管加压药中位数
1 0 0 0 0
2 ]0-50] 30 ]0-0.08] 0.04
3 ]50-180] 85 ]0.08-0.22] 0.13
4 ]180-530] 320 ]0.22-0.45] 0.27
5 >530 946 >0.45 0.68

高渗胶体 (特指 25%白蛋白):1mL 的25%白蛋白能吸引约 4mL 的组织液进入血管,总共产生约 5mL 的血容量扩张效果。因此,其效能是等张溶液的5倍

在高风险环境(执行不良策略可能导致伤害)中,将动作空间限制为已知选项是提高模型安全性的合理选择。因此需要将可选动作集限制为临床医生频繁采取的动作,并排除了出现次数少于五次的转移

奖励设置:

  • 当患者存活时,在每个患者的轨迹结束时释放正奖励(奖励为+100)
  • 如果患者死亡,则每个患者的轨迹结束时发放负奖励(惩罚为-100)
  • 考虑到奖励衰减因子,不同治疗措施的回报取值在-100~100 之间

2.3 MDP 建模

前置知识:时序差分算法 TD

最优策略 $\pi^*$

  • 基于 MDP 给出最大化长期奖励的决策,从而提高患者的预期生存率
  • 从一个随机策略开始,Q-Learning 逐渐迭代评估和改进,收敛到最优策略
  • 给定一个状态 $s$,最优策略 $\pi^*$ 能给出未来预估价值最大化的动作 $a$

$$ \pi^{\star}(s)\leftarrow\underset{a}{\operatorname*{\mathrm{argmax}}}Q^{\pi^{\star}}(s,a)\forall s $$

WIS ——基于自助法的离线策略评估(OPE)

  • 目的:基于临床实际发生的患者轨迹来评估 AI 学习到的策略价值
  • 定义患者轨迹组成的集合为 $D$,两个需要对比的策略分别为 $\pi_{0}$ 和 $\pi_{1}$
  • $\rho_{t}$ 描述了时刻 $t$ 下两个对比策略的相对价值优势:$\rho_{t}=\pi_{1}(a_{t}|s_{t})/\pi_{10}(a_{t}|s_{t})$
  • $w_t$ 描述了时刻 $t$ 下两个对比策略的平均累积价值优势:$w_{t}=\Sigma_{i=1}^{|D|}(\Pi_{j=1}^t\rho_{j})$

$V_{WIS}$ 描述了特定患者轨迹下,两个对比策略的评估: $$ V_{WIS}=\frac{\Pi_{j=1}^H\rho_{j}}{w_{H}}\left(\sum_{t=1}^{H}\gamma^{t-1}r_{t}\right) $$

  • 其中 $H$ 表示特定患者轨迹的长度(最大时刻)
  • $\gamma$ 表示奖励的衰减因子;$r_{t}$ 表示时刻 $t$ 的即时奖励
  • 公式右侧描述了每个时刻的即时奖励衰减折现(折现到 $t=0$ 时刻)
  • 公式左侧描述了每个时刻的累积价值优势,分母起到标准化的作用

$WIS$ 作为策略的最终对比评估,汇总了所有患者轨迹下的 $V_{WIS}$ $$ WIS=\frac{1}{|D|}\sum_{i=1}^{|D|}V_{WIS}^{(i)} $$

策略评估的置信区间

  • 重复随机选择 80% 患者,构建了 500 个模型
  • 剩余的 20% 患者用于 AI 策略和医生策略的对比评估(WIS)
  • 最后利用 500 个模型结果,构建策略评估的 95%置信区间

最佳策略的选择:

  • 由于 AI 策略在设计时考虑了探索性,因此行为策略的方差/变异性较大
  • 针对此情况,本文考虑基于 WIS 最大的原则,剔除部分 WIS 较低的模型
  • 而对于最佳 AI 策略,则需要结合自助法寻找 WIS 的 95%置信下限最大的策略
  • 该方式寻找的策略,能够最大化 AI 策略的理论统计安全性

2.4 实验评价

状态空间与 MDP 属性

  • (a)状态空间中 750 个状态的 PCA 可视化,大小表示数量,颜色表示平均死亡率;可以发现聚类得到的离散状态中,平均死亡率存在明显的自然梯度,说明其能够有效地区分患者的严重程度
  • (b)筛选数据中最高频的 100 种标准国际疾病分类(ICD),并依次计算对应疾病患者在 750 种离散状态中的累积和,累积顺序会优先考虑对应疾病患者数更多的状态;大部分患者都集中在少数状态中,不同 ICD 疾病的累积和曲线存在差异,说明状态空间能捕捉到一些临床概念和患者既往病史信息
  • (c)本文中状态的预期寿命符合指数衰减模型(相关系数为 0.99),说明状态信息满足无记忆性
  • (d)750个状态中预期寿命与指数衰减函数之间相关系数的分布,相关系数中位数为 0.97
  • (e)分别根据贝叶斯信息准则(BIC)、赤池信息准则(AIC)和簇内总平方和作为簇数量的评价函数,得出 AIC 曲线拐点对应的的 K 值约为2,000,以及 BIC 曲线拐点对应的的 K 值在400~500;本文最终选定 K 值为 750

最佳 AI 策略的评估与校验

  • (a)随着迭代过程的进行,最佳 AI 策略的 95%下界(LB)逐渐超过了最佳临床策略的 95%上界(UB);整体来说,AI 策略的 95%下限有 66.4%的时间超过了临床医生策略的 95%上限
  • (b)不同策略的价值分布对比,相对于 AI 策略,零药物策略收敛的更快,而随机策略的波动性最大
  • (c)基于 2000 次重采样,评估不同治疗措施回报(标准在-100~100 的区间)与死亡率的关系(蓝线表示原始数据,红线表示平滑数据);整体来说,低频治疗措施与高死亡率风险相关,而高频治疗措施则带来了更好的生存率
  • (d)基于 2000 次重采样,评估不同结局(蓝色表示存活,红色表示死亡)的平均治疗回报

临床策略与 AI 策略的动作对比与评估

  • (a)通过 2,000 次重采样的自举法构建的模型,并对比两种策略的估计价值分布;临床策略和 AI 策略的中位数估计价值分别为 56.9(四分位距,54.7–58.8)和 84.5(四分位距,84.3–87.7)
  • (b)临床策略的离散动作空间分布可视化(c)AI 策略的离散动作空间分布可视化;二者对比来看,AI 策略更倾向于更少的静脉输液和更多的血管加压药使用;临床策略中血管加压药剂量有 58%的情况下非常接近 AI 建议值(<0.02 ug/kg 或 <10%);临床策略中静脉输液剂量有 36%的情况下非常接近 AI 建议值(<10ml/h 或 <10%)
  • (d)两种策略的静脉输液剂量差异与死亡率的关系(e)两种策略的血管加压药剂量差异与死亡率的关系;通过自举法可验证,当实际剂量与 AI 策略建议的剂量匹配时,预期死亡率最低;与 AI 策略相比,临床策略过多或过少地使用任一治疗措施都与死亡率剂量依赖性增加相关

其他补充:

  • 平移 4h 实验室结果数据,模拟现实中数据延迟的情况,WIS 估计无显著变化
  • 基于随机森林分类模型,估计策略输入与 AI 策略推荐结果之间的相对重要性,实现一定的模型可解释性;最终结果也显示,AI 策略的临床可解释性,其策略的制定主要依赖合理的临床和生物参数
  • 当临床医生的实际治疗与 AI 临床医生建议的政策不一致时,这通常表现为血管加压药用量不足。早期使用低剂量血管加压药已被建议在脓毒症治疗中发挥作用;这可以避免过量输液,而过量输液已被与较差的预后相关联;本文研究结果支持这一策略
  • 模型可以提供关于最佳决策的额外见解,不是针对短期复苏目标,而是遵循长期生存轨迹
  • 局限性:存在数据缺失而导致的患者排除;多中心的脓毒症定义和结局指标存在差异

2.5 附录与补充

MIMIC-III 的数据清洗流程图:

eICU 的数据清洗流程图:

最终建模考虑到的特征信息(48 个变量):

Category (类别) Items (项目) Type (类型) Available in MIMIC-III (在 MIMIC-III 中的可用性) Available in eRI (在 eRI 中的可用性)
Demographics (人口统计学)
Age (年龄) Cont. + +
Gender (性别) Binary + +
Weight (体重) Cont. + +
Readmission to intensive care (重返重症监护) Binary + +
Elixhauser score (premorbid status) (Elixhauser 评分(既往病史)) Cont. + +
Vital signs (生命体征)
Modified SOFA (修改后的 SOFA 评分) Cont. + +
SIRS (全身炎症反应综合征) Cont. + +
Glasgow coma scale (格拉斯哥昏迷评分) Cont. + +
Heart rate, systolic, mean and diastolic blood pressure, shock index (心率, 收缩压, 平均和舒张压, 休克指数) Cont. + +
Respiratory rate, SpO2 (呼吸频率, 血氧饱和度) Cont. + +
Temperature (体温) Cont. + +
Lab values (实验室值)
Potassium, sodium, chloride (钾, 钠, 氯) Cont. + +
Glucose, BUN, creatinine (葡萄糖, 尿素氮, 肌酐) Cont. + +
Magnesium, calcium, ionized calcium, carbon dioxide (镁, 钙, 离子钙, 二氧化碳) Cont. + +
SGOT, SGPT, total bilirubin, albumin (谷草转氨酶, 谷丙转氨酶, 总胆红素, 白蛋白) Cont. + +
Hemoglobin (血红蛋白) Cont. + +
White blood cells count, platelets count, PTT, PT, INR (白细胞计数, 血小板计数, 部分凝血活酶时间, 凝血酶原时间, 国际标准化比值) Cont. + +
pH, PaO2, PaCO2, base excess, bicarbonate, lactate, PaO2/FiO2 ratio (pH, 动脉氧分压, 动脉二氧化碳分压, 碱剩余, 碳酸氢盐, 乳酸, 动脉氧分压/吸入氧浓度比) Cont. + +
Ventilation parameters (通气参数)
Mechanical ventilation (机械通气) Binary + +
FiO2 (吸入氧浓度) Cont. + +
Medications and fluid balance (药物和液体平衡)
Current IV fluid intake over 4h (当前 4 小时内的静脉输液) Cont. + +
Maximum dose of vasopressor over 4h (4 小时内血管加压药的最大剂量) Cont. + +
Urine output over 4h (4 小时内尿量) Cont. + +
Cumulated fluid balance since admission (includes preadmission data when available) (自入院以来累积液体平衡(如有,包含入院前数据)) Cont. + +
Outcome (结果)
Hospital mortality (住院死亡率) Binary + +
90-day mortality (90 天死亡率) Binary + +

后记

1 关于本文的质疑

2019-02-08 其他团队在尝试复现本文结论时发现的关键问题(复现对应的开源代码):

一、模型只关注长期结果,而忽略了关键的短期治疗目标

  • 当患者的 MAP 持续低于推荐的 65 mmHg 目标(20 h~ 35 h),AI 策略未建议任何治疗
  • 说明 AI 策略未能学习到 MAP 与血管加压药和静脉输液需求之间的关系
  • 临床决策需要在短期结果(例如维持生理平均动脉压或适当的每小时尿量)和长期结果(例如预防肾脏损伤或死亡率)之间取得平衡;而原文的 AI 策略仅关注长期结果,完全忽略了短期收益(例如维持生理血压)

二、有限的状态和时间离散化忽略了低频的严重事件和紧急事件

  • 原文将患者数据进行 4h 的下采样,会严重限制 AI 策略检测和响应患者快速恶化的情况;比如血管加压治疗是一种高度反应性的干预措施,对于 MAP 低于 65 的患者,医生会考虑使用血管加压药来提高血压,而由于药效的反应时间很快,因此患者 MAP 会很快恢复,而反应到 4h 的患者数据总结,可能会显示患者 MAP 一直正常
  • 原文根据患者的数据将其离散化为 759 种状态,并通过建模评估不同状态之间的转移概率,而忽略了患者治疗所需的时序趋势;因此低频事件(即快速失代偿)均被 AI 临床医生几乎忽视;由于健康患者数据占比达到了三分之二,因此对于基于治疗长期结局采样的评估指标,也会错误地认为零用药(zero drug)策略是一种成功的给药策略

三、原文提出的可解释性方法存在一定的误导性

  • 原文基于随机森林模型,通过输入患者数据来预测临床或 AI 的医疗决策,并通过特征重要性分析二者之间的差异关系;但模型的可解释性,仅能说明影响决策的主要因素,而无法论证决策的合理性;AI 策略很有可能,对轻中度患者进行不合理的干预治疗(反正不死就行),或针对重度患者撤回治疗(反正大概率治不好)
  • 随机森林模型本身的建模过程具备随机变化,即时针对同一个目标建模,也可能会有不同特征重要性分布
  • 随机森林模型作为可解释性方法,只能提供一种全局的度量,而无法给出个体 AI 策略的合理性依据

四、数据存在特异性,同时在第三方验证队列中表现较差

  • 原文对数据集的清洗逻辑,导致第三方队列( Philips Healthcare)中的脓毒症发病率异常(83.5%);同时因为预期每天至少有 6 条治疗措施记录,导致 49%的患者数据因为缺失问题,而最终能满足原文要求的数据仅有 2.3%;这种大幅度的数据清洗,很让人怀疑策略的泛化能力
  • 原文 AI 策略在两种数据集中存在显著的差异,在 MIMIC 中静脉输液剂量不足高 1.2 升的阶段平均死亡率翻倍,但在第三方队列( Philips Healthcare)中死亡率无明显变化

其他问题:代码未开源(不过原文作者后来在 19 年 2 月份提供了开源代码)

2 关于作者对质疑的回应

2019-03-06 原文作者对算法和实验进行补充说明,以回应质疑

整体来说,作者也承认了自身模型的局限性,但也强调目前模型的有效性和未来潜力

一、关于临床安全性的整体评价

  • 本文模型是基于观察数据的回顾性评估,距离实际临床决策落地仍存在较大差异
  • 本文模型的目标是在最佳治疗决策尚未建立的情况下,借助日常护理数字化过程所积累的数据,辅助识别临床最佳治疗决策,改善患者的个体化差异,将可能的行动范围缩小到更理性的选择集
  • AI 策略的可行决策集仅限于临床决策中相对频繁的部分,AI 策略给出的决策中有至少 2/3 都是训练数据中存在的高频治疗决策(出现率>5%); 当前的 AI 策略不支持罕见或历史未出现的治疗决策

二、基于模拟轨迹验证转移矩阵和 AI 策略的合理性

  • 本文基于蒙特卡洛模拟 MDP (随机游走)来生成患者的虚拟轨迹
  • 虚拟轨迹从随机采样的初始状态开始,遵循学习到的转移矩阵和 AI 决策执行治疗决策并进行状态的概率转移,直到虚拟轨迹达到患者的停止状态(死亡或成功出院)
  • 针对 1,000 批次的患者模拟了 2,500 条虚拟轨迹(总共 2,500 万条虚拟轨迹),以产生分布的估计值。最终的模拟死亡率为 22.47%(标准差 0.86%),实际死亡率为 22.5%;预测轨迹的平均长度为 14.51 个时间步(标准差 0.23),而实际平均轨迹长度为 14.42 个时间步(标准差 3.75)

三、零药物策略高价值估计的解释

  • WIS 估计的运作方式,需要加权有效的数据;零药物策略的 WIS 估计将丢弃曾接受过任何药物的的患者数据,而仅考虑健康患者,而不是临床策略或AI 策略那样作用于所有患者
  • 相比于零药物策略,临床策略的治疗决策其实更接近 AI 策略;对于无治疗记录的健康患者,AI 策略倾向于不给予血管加压药和液体(不存在明显偏见)

四、关于短期奖励和长期奖励的解释

  • 避免低血压是脓毒症管理的重要组成部分。但个体的最佳血压值存在不确定性,且替代指标也存在局限。既往随机对照试验表明,在脓毒症中不同血压目标间的死亡率无差异;
  • 患者可能需要更加个体化的治疗目标,且这些目标可能随时间变化
  • 大量证据表明,针对或改善短期生理指标(血压、尿量、氧合)最终可能导致更差的长期生存;本文选择 90 天生存率作为奖励信号,因为这才是对患者真正重要的
  • 人类临床医生在尝试平衡短期和长期目标时往往表现不佳。例如,当试图通过(通常过量的)液体冲击来改善血压和尿量时,这可能会损害长期器官功能和生存

五、关于选择 4 小时作为时间分辨率的解释

  • 本文尝试从强化学习的角度给出推荐治疗策略,但并未能解决实际临床的大多数问题:如何快速判断患者的液体反应性?如何平衡静脉液体和血管加压药?如何设定合理的复苏目标?
  • 4 小时的时间分辨率是数据可用性与建模急性变化能力之间的初始权衡
  • 本文模型的后续迭代可能会缩短这个时间间隔或采用其他方法来建模急性变化能力

六、关于模型可解释性的争议点说明

  • 本文方法有助于理解 AI 策略的工作机制,但无法在个体患者层面提供可解释性
  • 两个随机森林模型看起来不同,是因为它们试图预测不同的因变量
  • 针对强化学习的可解释性是一个新兴领域,希望未来有更多的方法

七、关于外部验证集相关的争议点说明

  • 两个数据集由于数据提取过程的差异,可能存在脓毒症的定义分歧;但二者都遵循国际 sepsis 3.0 的标准定义;至于 83.5% 的脓毒症患病率,可能是对数据流程的理解偏差导致的计算问题
  • eICU 数据集是“真实世界”数据的典型例子:它规模庞大,但反映了医疗数据集的现实情况,因此数据杂乱且不完美;这种数据质量问题可能引入偏倚的潜在风险,也是回顾性研究的局限性
  • 根据原作者的测试,AI 策略在两种数据集中并不存在剂量差与死亡率间的显著差异

八、其他补充与解释

  • AI 算法可能指向新的或不常见的治疗模式;因此对于健康患者,不能无端地判定其不需要治疗策略的干预;一项双盲随机临床试验报告称,与标准临床护理相比,早期血管加压治疗可提高休克控制效果
  • 日常临床实践中的差异很大。当给予错误治疗剂量时,医源性损伤是可能且确实会发生的
  • “所有模型都是错误的,但有些是有用的。”——乔治·博克斯(George Box)
  • 本文方法表明,医疗推理范围可以从单一决策(如经典因果推理)扩展到整体治疗策略

相关资源