2025-08-21 16:03:00
作者:Anthropic 团队
关键字: #CircuitTracing #电路追踪 #可解释性
文章类型:webpage
品读时间:2025-08-21 17:26
电路追踪(Circuit Tracing)通过引入稀疏编码技术,形成具备单一语义的稀疏特征,之后尝试利用跨层转码器 (CLT)重建和恢复模型;在转码器和稀疏编码的基础上,本文定义了归因图来描述模型推理过程中关键节点及节点间虚拟权重关系,同时将经过图剪枝处理后的归因图的进行可交互的可视化展示,借此实现模型内部逻辑的可解释,同时评估特定提示词对模型思维过程的影响
本文通过大量的示例来对大模型的内部思考逻辑进行定性探究,挖掘出很多不同于人类的模型思考模式;这种可解释性技术也能缓解了大模型的潜在问题,对未来大模型的改进起到很多作用;最后本文也经过严格而缜密的实验分析,总结了本文技术的合理性与局限性
- 借助归因图实现对大语言模型内部思考逻辑的可视化
- 在大模型的可解释性方面具备开创性,实证案例丰富
- 相关的归因图技术和可交互的可视化方法,均已开源
电路追踪技术能够,
跨层转码器(cross-layer transcoder,CLT)被切分在原始神经网络的 $L$ 层中,利用稀疏激活特征编码来替换原始模型每一层中的 MLP 输出 $y^{\ell}$;具体来说:
$$ \begin{aligned} & L_{\mathrm{MSE}}=\sum_{\ell=1}^{L}|\hat{\mathbf{y}}^{\ell}-\mathbf{y}^{\ell}|^{2} \\ & L_{\mathrm{sparsity}}=\lambda\sum_{\ell=1}^{L}\sum_{i=1}^{N}\mathrm{tanh}(c\cdot|\mathbf{W_{dec,i}^{\ell}}|\cdot a_{i}^{\ell}) \end{aligned} $$
替代模型(Replacement Model):
局部替代模型(Local Replacement Model):
局部替代模型的局部线性关系:由于注意力权重和归一化层分母都是冻结的,因此源特征的激活对下游特征的预激活值(Pre-activation,即输入非线性函数之前的值)的影响是线性的 而这种稀疏特征间的局部线性影响,就是构建归因图(Attribution Graphs)的基础
归因图的节点(Nodes)
归因图的边(Edges)
$$ A_{s\to t}=a_sw_{s\to t}=a_s\sum_{\ell_s\leq\ell<\ell_t}(W_{\mathrm{dec},s}^{\ell_s\to\ell})^TJ_{c_s,\ell\to c_t,\ell_t} W_{\mathrm{enc},t}^{\ell_t} $$
上式主要展示了源节点和目标节点为中间节点的情况,其他类型的边公式是相似的
由归因图的定义可知,任意特征节点 $t$ 的预激活值都可以简单表示为图中所有输入边的汇总: $$ h_{t}=\Sigma_{S_{t}}w_{s\to t} $$
上游节点的限制条件理解:(1)层级限制,确保信息在网络层级间的单向传递(2)时序限制,防止未来信息的泄露,其作用类似于自回归模型中的因果掩码
归因图的规模问题:即使对于较短的提示文本,最终构建出的归因图中边的数量也可能达到百万级别;并且随着稀疏特征向量维度和提示文本长度的增加,归因图的量级会迅速膨胀
归因图的剪枝策略(先修剪节点,再修剪边):
剪枝策略的补充说明
剪枝后的归因图,节点的数量通常减少约 10 倍,边的数量通常减少约 500 倍
归因图的可视化
典型案例 - 理解大模型构建缩写词的能力:
The National Digital Analytics Group (N
DAG)
由于 tokenizer 包含用于大写锁定的特殊 token,因此实际输出为特殊 token+缩写词(小写);下文中的归因图示意进行了适当简化,不影响对模型思维过程的解释
案例的归因图可视化:
DAG
的三个缩写字母National
对应的缩写字母 N
已经输出,因此字母 N
会对三个路径都产生影响,从而保证后续的输出 DAG
能够完全接上前文,并实现 National Digital Analytics Group
的缩写补齐归因图的详细展开:
归因图的基础操作:
归因图的验证方法:通过在底层模型中执行特征扰动(修改激活值或解码器),并检查对下游特征或模型输出的影响是否与基于图的预测相匹配,来验证归因图的断言
归因图的干预与验证示例:
超节点的抑制主要通过乘以一个
-1
的因子来产生负向引导,而不是直接删除
通过归因图还可以定位一个特征的解码,评估哪些层能对输出产生更大的影响
案例:输入“Fact: Michael Jordan plays the sport of”,会有 65%的概率补齐单词为“basketball”
归因图可视化:
归因图可视化详情:
案例:输入“calc: 36+59”,期望输出为“95”
归因图可视化:
归因图的干预分析:
全局权重:用于描述两个特征之间与上下文无关的相互作用
从虚拟权重到全局权重
$$ V_{ij}^{TWERA}=\frac{E[a_{j}a_{i}]}{E[a_{j}]}V_{ij} $$
虚拟权重 VS 全局权重
可解释性评估:主要通过多个具体案例的定性评估来说明归因图的有效性
CLT 的定量评估:
路径长度 VS 路径影响
归因图的综合评价
注意:本文默认的图剪枝策略,会导致 CLT 归因图的图完备性得分下降至 69%
局限性:
Anthropic 官方推出的电路追踪案例解读文章
本文提到的归因图可视化工具官方已经在 github 开源
- 论文在线地址
- 本地文件地址:
- 本地 Zotero 地址:
2025-08-17 14:17:00
DOI:10.48550/ARXIV.2310.01405
作者:Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan Hendrycks
文章类型:preprint
品读时间:2025-08-17 14:17
表征工程(RepE)是一种用于增强神经网络的可解释性和透明度的技术,其通过线性人工断层扫描(LAT)技术从模型中提取与特定概念或功能相关的 reading vector,并用于模型的深层理解和编辑操纵;本文通过多种实验来测定了该方法的可行性,在多个模型安全领域进行了应用和评估,展现出了该技术较大的可挖掘潜力
- 对表征工程技术进行改进,并提出模型编辑的新思路
- 有助于模型的理解,增强现有模型的安全性和可控性
- 表征工程能精细到 token 级,但缺乏思维路径的理解
表征学习中的涌现结构:
Kings-King=Queens-Quneen
常见的模型可解释性方法:
线性人工断层扫描(Linear Artificial Tomography,LAT)
concept
,可以定义以下输入文本来引发模型的陈述性知识:The amount of <concept> is
模型输入序列中不同 token 的位置表示,存储着用途各异的表征信息;比如有的表征更关注词性语法(名称?动词?),有的则可能更关注语义和推理(在段落中的作用?表达了什么感情?)
对于通过自回归进行训练的大语言模型来说,提示文本的最后一个词
is
对应的嵌入表示(embedding
)实际上包含了整句话前面的信息,以方便进行后续 token 的预测;因此在“收集神经活动”的过程中,每次收集到的神经活动向量其实对应着最后一位 token 的位置表示
Reading vector 是 LAT 根据神经活动,从模型中提取出的概念或功能理解
评估 reading vector 的四种实验类型:
表示控制
表示控制的算子选择:
控制器 $v$ 可以通过引入缩放系数,来根据需求调整所需的表示控制效果强度
模型具有一致的内部真实性概念
Zero-shot Standard | Zero-shot Heuristic | LAT Stimulus 1 | LAT Stimulus 2 | LAT Stimulus 3 | ||
---|---|---|---|---|---|---|
LLaMA-2-Chat | 7B | 31.0 | 32.2 | 55.0 | 58.9 | 58.2 |
LLaMA-2-Chat | 13B | 35.9 | 50.3 | 49.6 | 53.1 | 54.2 |
LLaMA-2-Chat | 70B | 29.9 | 59.2 | 65.9 | 69.8 | 69.8 |
Average | 32.3 | 47.2 | 56.8 | 60.6 | 60. |
利用诚实性概念对模型进行测谎和诚实度评估
利用诚实性概念,来控制和增强模型的诚实度表现
Control Method | None | Vectors | Vectors | Vectors | Matrices |
---|---|---|---|---|---|
Standard | ActAdd | Reading (Ours) | Contrast (Ours) | LoRRA (Ours) | |
7B-Chat | 31.0 | 33.7 | 34.1 | 47.9 | 42.3 |
13B-Chat | 35.9 | 38.8 | 42.4 | 54.0 | 47.5 |
不同方式提取到的 reading vector 对比:
伦理和权利的检测:
应用 LoRRA 来控制模型在追求权力和道德败坏上的倾向:
Reward | Power (↓) | Immorality (↓) | Reward | Power (↓) | Immorality (↓) | |
---|---|---|---|---|---|---|
LLaMA-2-Chat-7B | LLaMA-2-Chat-13B | |||||
+ Control | 16.8 | 108.0 | 110.0 | 17.6 | 105.5 | 97.6 |
No Control | 19.5 | 106.2 | 100.2 | 17.7 | 105.4 | 96.6 |
− Control | 19.4 | 100.0 | 93.5 | 18.8 | 99.9 | 92.4 |
基于RepE 技术,本文探索五种与模型安全相关的主题应用
2025-08-15 01:23:00
2025-08-06 17:02:00
TOPSIS (Technique for Order Preference by Similarity to an Ideal Solution) ,也称优劣解距离法,是一种常用的组内综合评价方法,能充分利用原始数据的信息,其结果能精确地反映各评价方案之间的差距
针对多标准/多目标决策问题(MCDM/MCDA),决策者需要面对多种决策标准和可行决策方案,TOPSIS 的作用就是帮助决策者综合考虑多个决策标准,在多个可行决策方案之间找到最优解
TOPSIS 示例:评估 5 所研究生院的教育质量
5 所研究生院的评估数据及其权重如下:
院校 | 人均专著 $x_1$ (本/人) | 生师比 $x_2$ | 科研经费 $x_3$ (万元/年) | 逾期毕业率 $x_4$ (%) |
---|---|---|---|---|
A | 0.1 | 5 | 5000 | 4.7 |
B | 0.2 | 6 | 6000 | 5.6 |
C | 0.4 | 7 | 7000 | 6.7 |
D | 0.9 | 10 | 10000 | 2.3 |
E | 1.2 | 2 | 400 | 1.8 |
STEP1:指标属性同向化,避免有的指标越大越好,有的指标越小越好
院校 | 人均专著 | 生师比 | 科研经费 | 逾期毕业率 |
---|---|---|---|---|
院校 A | 0.1 | 1.000000 | 5000 | 0.212766 |
院校 B | 0.2 | 1.000000 | 6000 | 0.178571 |
院校 C | 0.4 | 0.833333 | 7000 | 0.149254 |
院校 D | 0.9 | 0.333333 | 10000 | 0.434783 |
院校 E | 1.2 | 0.000000 | 400 | 0.555556 |
STEP2:指标属性归一化,即每一列元素都除以当前列向量的范数
院校 | 人均专著 | 生师比 | 科研经费 | 逾期毕业率 |
---|---|---|---|---|
院校 A | 0.063758 | 0.597022 | 0.344901 | 0.275343 |
院校 B | 0.127515 | 0.597022 | 0.413882 | 0.231092 |
院校 C | 0.255031 | 0.497519 | 0.482862 | 0.193151 |
院校 D | 0.573819 | 0.199007 | 0.689803 | 0.562658 |
院校 E | 0.765092 | 0.000000 | 0.027592 | 0.718952 |
STPE3:根据每一列的最大值和最小值,确定最优方案和最劣方案
人均专著 | 生师比 | 科研经费 | 逾期毕业率 | |
---|---|---|---|---|
最优方案 | 0.765092 | 0.597022 | 0.689803 | 0.718952 |
最劣方案 | 0.063758 | 0 | 0.027592 | 0.193151 |
STPE4:利用优劣解距离,来进行单一方案的评价,选出最优方案 $$ 方案A的距离=\frac{方案A-最劣解}{最优解-最劣解} $$
人均专著 | 生师比 | 科研经费 | 逾期毕业率 | 最终得分 | 正理想解 | 负理想解 | 排序 | |
---|---|---|---|---|---|---|---|---|
院校A | 0.1 | 5 | 5000 | 4.7 | 0.485830 | 0.406984 | 0.384552 | 4 |
院校B | 0.2 | 6 | 6000 | 5.6 | 0.526483 | 0.368177 | 0.409360 | 3 |
院校C | 0.4 | 7 | 7000 | 6.7 | 0.562158 | 0.315879 | 0.405565 | 2 |
院校D | 0.9 | 10 | 10000 | 2.3 | 0.677571 | 0.239342 | 0.502968 | 1 |
院校E | 1.2 | 2 | 400 | 1.8 | 0.400512 | 0.531357 | 0.354994 | 5 |
2025-08-01 16:49:00
arXiv 预印本论文资源
import urllib, urllib.request
url = 'http://export.arxiv.org/api/query?search_query=all:electron&start=0&max_results=1'
data = urllib.request.urlopen(url)
print(data.read().decode('utf-8'))
PubMed 生物医学文献资源
2025-08-29 update,Cool Paper 作为一个论文总结工具,也有 RSS 功能
<code>paperetl</code> 是一个用于处理医学和科学论文的 ETL 库
paperetl
能够对论文进行信息的抽取、转换与存储paperetl
支持 arXiv 和PubMed 的 XML 格式文件,也支持完整 PDF 文件、符合文本编码倡议(TEI)的 XML 文件和记录文章元信息的 CSV 文件paperetl
支持的存储形式:SQLite、JSON、YAML 和 ESPython 示例:
# jupyter notebook 环境准备
# pip install paperetl==2.5.1
# !python -c "import nltk; nltk.download('punkt')"
# 下载数据
!wget -N -P pubmed/ https://ftp.ncbi.nlm.nih.gov/pubmed/updatefiles/pubmed25n1535.xml.gz
# 数据处理
!python -m paperetl.file pubmed pubmed_clean
import sqlite3
import pandas as pd
from IPython.display import display, HTML
def execute(sql):
db = sqlite3.connect("pubmed_clean/articles.sqlite")
cursor = db.cursor()
cursor.execute(sql)
df = pd.DataFrame([list(x) for x in cursor], columns=[c[0] for c in cursor.description])
display(HTML(df.to_html(index=False)))
# Show articles
execute("SELECT * FROM articles LIMIT 5")
# Show sections
execute("SELECT * FROM sections LIMIT 5")
<code>paperai</code> 是一个用于处理医学和科学论文的 AI 应用程序
paperai
通过 AI 驱动的报告生成,为研究任务提供强力支持(支持 RAG)paperai
能根据配置文件,以高效的方式执行批量 LLM 推理操作paperai
可以生成 Markdown、CSV 格式的报告,并可直接在 PDF 上标注答案配置文件模板:
%%writefile report.yml
name: Report
Hypertension:
query: COVID-19 and hypertension
columns:
- name: Date
- name: Study
- {name: Sample Size, query: number of people/patients, query: how many people/patients, type=int}
- {name: Comorbidities, query: covid-19 and hypertension, question: what diseases}
Python 示例:
# jupyter notebook 环境准备
# pip install paperai==2.5.0
# !python -c "import nltk; nltk.download(['punkt', 'punkt_tab', 'averaged_perceptron_tagger_eng'])"
# 索引数据
!python -m paperai.index pubmed_clean/pubmedbert-base-embeddings 0 10000
# 查询数据,只显示Top2,最低匹配度为0.75
!python -m paperai.query "COVID-19 and hypertension" 2 paperai 0.75
# 根据配置文件的 RAG pipeline 调用大模型,完成简单的QA任务
python -m paperai.report report.yml 5 csv paperai
import pandas as pd
from IPython.display import display, HTML
# 展示结果
display(HTML(pd.read_csv("Hypertension.csv").to_html(index=False)))
根据配置文件的 RAG pipeline 不同,
paperai
可以作为论文助手完成各种任务
2025-07-27 14:17:00
Nature Medicine
DOI:10.1038/s41591-018-0213-5
作者:Matthieu Komorowski, Leo A. Celi, Omar Badawi, Anthony C. Gordon, A. Aldo Faisal
文章类型:journalArticle
品读时间:2025-07-27 14:17
本文利用一个马尔可夫决策过程(MDP)来模拟患者环境和治疗轨迹,并借助聚类算法构建患者状态空间,结合医疗知识离散化动作空间,最后利用时序差分的方式迭代求解 MDP,以最大化远期生存率为目标,制定脓毒症的治疗策略
本文创新性地提出了 WIS 评估指标,来实现临床策略与 AI 策略的对比分析,并结合自举法对策略的价值分布进行了深入的对比分析和严谨论证,说明了用于脓毒症治疗的 AI 策略有效性
- 将经典的强化学习算法,应用到脓毒症相关临床治疗推荐
- 经过严谨的实验认证和分析,具有较高的临床落地可行性
- 离散动作空间与现实存在差异,策略迭代算法也较为传统
主要流程和关键步骤:
数据说明:
数据清洗:
最终数据集的简单描述:
前置知识:马尔可夫决策过程 MDP
将疾病过程可以表述为部分可观察的马尔可夫决策过程(MDP)
状态空间
动作空间
0%,25%以下,25%~50%,50%~75%,75%以上%
;两种治疗方式的组合产生了 25 种可能的离散动作;具体的动作空间划分逻辑如下:操作编号 (Action Number) | IV输液量范围 (静脉输液量范围) (mL/4小时) | 静脉输液量中位数 | 血管加压药范围 (mcg/kg/min) | 血管加压药中位数 |
---|---|---|---|---|
1 | 0 | 0 | 0 | 0 |
2 | ]0-50] | 30 | ]0-0.08] | 0.04 |
3 | ]50-180] | 85 | ]0.08-0.22] | 0.13 |
4 | ]180-530] | 320 | ]0.22-0.45] | 0.27 |
5 | >530 | 946 | >0.45 | 0.68 |
高渗胶体 (特指 25%白蛋白):1mL 的25%白蛋白能吸引约 4mL 的组织液进入血管,总共产生约 5mL 的血容量扩张效果。因此,其效能是等张溶液的5倍
在高风险环境(执行不良策略可能导致伤害)中,将动作空间限制为已知选项是提高模型安全性的合理选择。因此需要将可选动作集限制为临床医生频繁采取的动作,并排除了出现次数少于五次的转移
奖励设置:
前置知识:时序差分算法 TD
最优策略 $\pi^*$
$$ \pi^{\star}(s)\leftarrow\underset{a}{\operatorname*{\mathrm{argmax}}}Q^{\pi^{\star}}(s,a)\forall s $$
WIS ——基于自助法的离线策略评估(OPE)
$V_{WIS}$ 描述了特定患者轨迹下,两个对比策略的评估: $$ V_{WIS}=\frac{\Pi_{j=1}^H\rho_{j}}{w_{H}}\left(\sum_{t=1}^{H}\gamma^{t-1}r_{t}\right) $$
$WIS$ 作为策略的最终对比评估,汇总了所有患者轨迹下的 $V_{WIS}$ $$ WIS=\frac{1}{|D|}\sum_{i=1}^{|D|}V_{WIS}^{(i)} $$
策略评估的置信区间
最佳策略的选择:
状态空间与 MDP 属性
最佳 AI 策略的评估与校验
临床策略与 AI 策略的动作对比与评估
其他补充:
MIMIC-III 的数据清洗流程图:
eICU 的数据清洗流程图:
最终建模考虑到的特征信息(48 个变量):
Category (类别) | Items (项目) | Type (类型) | Available in MIMIC-III (在 MIMIC-III 中的可用性) | Available in eRI (在 eRI 中的可用性) |
---|---|---|---|---|
Demographics (人口统计学) | ||||
Age (年龄) | Cont. | + | + | |
Gender (性别) | Binary | + | + | |
Weight (体重) | Cont. | + | + | |
Readmission to intensive care (重返重症监护) | Binary | + | + | |
Elixhauser score (premorbid status) (Elixhauser 评分(既往病史)) | Cont. | + | + | |
Vital signs (生命体征) | ||||
Modified SOFA (修改后的 SOFA 评分) | Cont. | + | + | |
SIRS (全身炎症反应综合征) | Cont. | + | + | |
Glasgow coma scale (格拉斯哥昏迷评分) | Cont. | + | + | |
Heart rate, systolic, mean and diastolic blood pressure, shock index (心率, 收缩压, 平均和舒张压, 休克指数) | Cont. | + | + | |
Respiratory rate, SpO2 (呼吸频率, 血氧饱和度) | Cont. | + | + | |
Temperature (体温) | Cont. | + | + | |
Lab values (实验室值) | ||||
Potassium, sodium, chloride (钾, 钠, 氯) | Cont. | + | + | |
Glucose, BUN, creatinine (葡萄糖, 尿素氮, 肌酐) | Cont. | + | + | |
Magnesium, calcium, ionized calcium, carbon dioxide (镁, 钙, 离子钙, 二氧化碳) | Cont. | + | + | |
SGOT, SGPT, total bilirubin, albumin (谷草转氨酶, 谷丙转氨酶, 总胆红素, 白蛋白) | Cont. | + | + | |
Hemoglobin (血红蛋白) | Cont. | + | + | |
White blood cells count, platelets count, PTT, PT, INR (白细胞计数, 血小板计数, 部分凝血活酶时间, 凝血酶原时间, 国际标准化比值) | Cont. | + | + | |
pH, PaO2, PaCO2, base excess, bicarbonate, lactate, PaO2/FiO2 ratio (pH, 动脉氧分压, 动脉二氧化碳分压, 碱剩余, 碳酸氢盐, 乳酸, 动脉氧分压/吸入氧浓度比) | Cont. | + | + | |
Ventilation parameters (通气参数) | ||||
Mechanical ventilation (机械通气) | Binary | + | + | |
FiO2 (吸入氧浓度) | Cont. | + | + | |
Medications and fluid balance (药物和液体平衡) | ||||
Current IV fluid intake over 4h (当前 4 小时内的静脉输液) | Cont. | + | + | |
Maximum dose of vasopressor over 4h (4 小时内血管加压药的最大剂量) | Cont. | + | + | |
Urine output over 4h (4 小时内尿量) | Cont. | + | + | |
Cumulated fluid balance since admission (includes preadmission data when available) (自入院以来累积液体平衡(如有,包含入院前数据)) | Cont. | + | + | |
Outcome (结果) | ||||
Hospital mortality (住院死亡率) | Binary | + | + | |
90-day mortality (90 天死亡率) | Binary | + | + |
2019-02-08 其他团队在尝试复现本文结论时发现的关键问题(复现对应的开源代码):
一、模型只关注长期结果,而忽略了关键的短期治疗目标
二、有限的状态和时间离散化忽略了低频的严重事件和紧急事件
三、原文提出的可解释性方法存在一定的误导性
四、数据存在特异性,同时在第三方验证队列中表现较差
其他问题:代码未开源(不过原文作者后来在 19 年 2 月份提供了开源代码)
2019-03-06 原文作者对算法和实验进行补充说明,以回应质疑
整体来说,作者也承认了自身模型的局限性,但也强调目前模型的有效性和未来潜力
一、关于临床安全性的整体评价
二、基于模拟轨迹验证转移矩阵和 AI 策略的合理性
三、零药物策略高价值估计的解释
四、关于短期奖励和长期奖励的解释
五、关于选择 4 小时作为时间分辨率的解释
六、关于模型可解释性的争议点说明
七、关于外部验证集相关的争议点说明
八、其他补充与解释