2025-12-31 15:00:00
做一个有温度和有干货的技术分享作者 —— Qborfy
本文参考 roadmap.sh AI Engineer(AI应用开发工程师)RoadMap整理,如有侵权,请联系删除。
学习一门技能最重要的是目标和路线:
2025-07-11 15:00:00
做一个有温度和有干货的技术分享作者 —— Qborfy
前面我们对LangGraph知识有一个基础入门,如果要完成一个真正的Agent工作流应用开发,还是远远不够的。
一个复杂且完整的Agent工作流应用,需要完成以下几个方面:
具体可如下图所示:
这里我们可以和ReAct
推理+输出风格的Agent做对比,这种属于Reflexion
自我反思+动态记忆的Agent模式,有以下几个优点:
我们可以根据下图对比,加深工作流和Agent模式的区别:
目标:实现一个简单的可以按照目标拆分任务实现的Agent工作流
1 |
# 安装LangGraph |
1 |
# 设置LangSimth 环境变量 |
定义计划和计划执行状态数据结构
1 |
# 导入各种类型定义 让大模型按照该定义返回数据结构 |
通过 LLM 生成计划
1 |
from langchain_core.prompts import ChatPromptTemplate |
1 |
# 调用工具的node节点 方便后面扩展使用 |
1 |
# 调用工具的node节点 方便后面扩展使用 |
1 |
# graph的各种节点与状态 |
最终结果如下图:
回顾一下,通过本篇文件我们学习了:
声明:本文部分材料是基于DeepSeek-R1模型生成。
2025-07-03 15:00:00
做一个有温度和有干货的技术分享作者 —— Qborfy
今天我们来学习 损失函数
一句话核心:损失函数 = 用来衡量模型预测值与真实值之间差异的函数,是优化算法的目标
百科定义:损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。
生活化理解:驾校教练 → 根据学员压线距离扣分 → 损失函数就是那套评分标准 → 让学员学会不压线
损失函数主要分为以下三类:
损失函数 | 适用任务 | 抗噪性 | 梯度特性 | 典型应用领域 |
---|---|---|---|---|
均均方误差(MSE) | 回归 | 弱 | 连续可导 | 房价预测、气温预报等连续值预测 |
交叉熵(Cross-Entropy) | 分类 | 强 | 指数衰减 | 图像分类、情感分析 |
合页损失(Hinge Loss) | 分类 | 中 | 分段常数 | 文本分类、支持向量机 |
焦点损失(Focal Loss) | 分类 | 中 | 自适应衰减 | 医学图像分析、异常检测 |
Huber损失 | 生成 | 强 | 连续可导 | 自动驾驶(需平衡噪声与异常值影响) |
损失函数选择黄金准则:
自然界中的损失函数:
蜜蜂采蜜路径规划天然符合 TSP问题最短路径损失,误差<2%
量子计算加速:
谷歌用 量子退火算法优化损失函数,训练速度提升1000倍
损失函数革命:
Contrastive Loss 推动自监督学习崛起(无需人工标注)
惊人数据:
AlphaGo Zero 的损失函数包含 赢棋概率预测 + 落子分布KL散度,双目标驱动模型进化
2025-07-02 15:00:00
做一个有温度和有干货的技术分享作者 —— Qborfy
今天我们来学习 激活函数
一句话核心:激活函数(Rectification Function): 在神经网络模型里,如何把“激活的神经元的特征”通过函数把特征保留并映射出来, 通常
f(x) = wx + b
中f
就是激活函数。
也简单理解成神经网络的 “智能开关”。
百科定义: 激活函数(Activation Function),就是在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。
三大核心功能:
- 引入非线性:使网络能够拟合任意复杂函数(否则多层网络≈单层线性模型)
可以理解:大脑神经元 → 超过阈值才放电 → 激活函数决定信号是否向下传递
目前有 5 个经典主流激活函数:
f(x) = 1/(1+e^(-x))
,输出(0,1)
范围,适用二分类输出层(如信用风险预测),存在梯度问题(梯度消失/爆炸)f(x) = (e^x - e^(-x))/(e^x + e^(-x))
,输出(-1,1)
范围,RNN/LSTM隐藏层(时序数据建模),梯度消失问题仍存在f(x) = max(0,x)
,输出[0,∞)
范围,CNN/Transformer隐藏层(90%现代网络首选),解决梯度消失问题,但是存在Dead ReLU(负输入永久失活)f(x) = max(0.01x,x)
,输出[0,∞)
范围,解决Dead ReLU问题,但存在梯度消失问题,解决Dead ReLU → 负数区保留微小梯度f(x) = x * σ(βx)
,Google Brain提出,β可学习,超越ReLU的基准精度,主要作用在移动端高效模型(MobileNetV3)理解梯度和梯度问题?
梯度:反向传播时,参数更新的方向和大小。
梯度问题:在模型训练的时候,接受反向传播时,如果梯度值很小,那么参数更新就会很慢,甚至无法更新,导致训练过程无法收敛,最终无法得出正确的特征。
函数性能对比表
函数 | 梯度消失 | 计算效率 | 输出中心化 | SOTA精度 | 主要问题 |
---|---|---|---|---|---|
Sigmoid | 严重 | ★★☆ | 否 | 60% | 梯度消失 |
Tanh | 较重 | ★★☆ | 是 | 75% | 梯度消失 |
ReLU | 无 | ★★★★★ | 否 | 90% | Dead ReLU |
Leaky ReLU | 无 | ★★★★☆ | 否 | 92% | 参数$\alpha$敏感 |
Swish | 无 | ★★★☆ | 否 | 95% | 计算稍复杂 |
1 |
# 激活函数效果可视化工具 |
观察重点:
- Sigmoid/Tanh的饱和区(两端平坦) → 梯度消失根源
- ReLU的负数截断 → Dead ReLU问题可视化
神经元激活率实验:
生物化学启发:
Swish函数的平滑性灵感源于 神经突触的离子通道动力学
谷歌的自动搜索:
用强化学习在10万种函数中发现 Swish ($x \cdot \sigma(x)$) 超越人类设计
宇宙学级应用:
欧洲核子研究中心(CERN)用 GELU函数(高斯误差线性单元)处理粒子碰撞数据,误差降低38%
2025-06-30 17:09:52
做一个有温度和有干货的技术分享作者 —— Qborfy
今天我们来学习 深度学习
一句话理解:让计算机像人类大脑一样,通过堆叠多层的‘神经元网络’,从原始数据中自动学习由简单到复杂的多层次特征表达,最终实现智能决策。
对比之前 机器学习, 就是让计算机学会“举一反三”的深度思考能力,如:从认识鸟,到自动分辨出老鹰和麻雀的特征。
定义: 深度学习(也称为深度结构化学习 或分层学习)是基于学习数据表示的更广泛的机器学习方法系列的一部分,而不是特定于任务的算法。学习可以是监督,半监督或无监督。
与传统机器学习对比:
| 能力 | 传统方法 | 深度学习 |
|——————-|——————-|——————-|
| 特征工程依赖度 | 人工设计特征 | 自动学习特征 |
| 数据利用率 | 小样本有效 | 需大规模数据 |
| 处理非结构化数据 | 效果差(如图像) | 核心优势领域 |
核心差别在特征提取环节,深度学习由机器自己完成特征提取,不需要人工提取。
关键认知:深度学习不是单个算法,而是通过层次化特征学习逼近人类智能的工程技术体系。掌握它,就掌握了AI时代的核心生产资料!
深度学习的几个步骤:
人脸识别过程
- 2012年 AlexNet:ImageNet识别错误率从26%降至15% → 引爆深度学习热潮
- 2016年 AlphaGo:战胜李世石 → 证明强化学习+深度网络决策能力
- 2020年 GPT-3:1750亿参数大模型 → 实现语言理解与创作
2025-06-29 15:00:00
做一个有温度和有干货的技术分享作者 —— Qborfy
今天我们来学习 卷积网络CNN
一句话核心:CNN = 模拟人类视觉系统,用
局部感知+参数共享
机制高效处理图像、视频、医学影像等网格数据
简单理解就是将图片数据降低复杂度,在拆分成一个个小块(局部特征),结合统一的参数规划,最终完成图像识别。
定义: 卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一 。由于卷积神经网络能够进行平移不变分类(shift-invariant classification),因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks, SIANN)” 。
传统神经网络痛点:
CNN对比优势:
特性 | 全连接网络 | CNN卷积网络 |
---|---|---|
参数量(1000x1000图) | 10^6 级 | 10^4 级(降99%) |
空间信息处理 | 破坏局部结构 | 保留局部特征关联 |
平移不变性 | 无 | 有(物体移动仍可识别) |
典型应用 | 结构化数据预测 | 图像/视频/医疗影像 |
CNN卷积网络的优势:
卷积执行可视化: https://poloclub.github.io/cnn-explainer/