2025-11-12 19:42:49
强化学习(Reinforcement Learning, RL)是一种让智能体/Agent通过与环境交互、试错学习来获得最优行为策略的机器学习方法。本文用一个简单的 Q-learning 迷宫示例,帮助你快速理解强化学习的基本原理。
强化学习入门:从试错中学习的艺术
Reinforcement Learning 101: The Art of Learning by Trial and Error深度解析强化学习:Q-Learning算法详解
Deep Dive into Reinforcement Learning: Understanding the Q-Learning Algorithm机器如何学会自己做决定?强化学习告诉你答案
How Do Machines Learn to Make Their Own Decisions? Reinforcement Learning Explained从奖励中学习:人工智能的“试错智慧”
Learning from Rewards: The Trial-and-Error Intelligence Behind AI
强化学习的世界中包含五个关键要素:
智能体的目标是学习一个策略 π(a|s),让它在每个状态下选择最优动作,从而获得最大的累积奖励。

其中
(0 ≤
≤ 1)是折扣因子,用于衡量未来奖励相对于即时奖励的重要程度。
Q-learning 是最经典的强化学习算法之一。它通过学习一个 Q 表(Q-table)来记录每个“状态-动作”对的价值。
更新公式如下:

其中:
:学习率(Learning Rate)
:折扣因子(Discount Factor)
:奖励(Reward)
:下一状态(Next State)定义一个 3×5 的迷宫:
import numpy as np
import random
# 1️⃣ 定义迷宫
maze = np.array([
[0, 0, 0, -1, 1],
[0, -1, 0, -1, 0],
[0, 0, 0, 0, 0]
])
n_rows, n_cols = maze.shape
actions = ['up', 'down', 'left', 'right']
Q = np.zeros((n_rows, n_cols, len(actions)))
# 2️⃣ 超参数
alpha = 0.1
gamma = 0.9
epsilon = 0.1
episodes = 500
# 3️⃣ 辅助函数
def is_valid(state):
r, c = state
return 0 <= r < n_rows and 0 <= c < n_cols and maze[r, c] != -1
def next_state(state, action):
r, c = state
if action == 'up': r -= 1
elif action == 'down': r += 1
elif action == 'left': c -= 1
elif action == 'right': c += 1
return (r, c)
def get_reward(state):
r, c = state
if maze[r, c] == 1: return 10
elif maze[r, c] == -1: return -1
return -0.1
# 4️⃣ 训练循环
for episode in range(episodes):
state = (2, 0)
done = False
while not done:
if random.uniform(0, 1) < epsilon:
action_idx = random.randint(0, len(actions)-1)
else:
action_idx = np.argmax(Q[state[0], state[1]])
action = actions[action_idx]
next_s = next_state(state, action)
if not is_valid(next_s):
reward = -1
next_s = state
else:
reward = get_reward(next_s)
Q[state[0], state[1], action_idx] += alpha * (
reward + gamma * np.max(Q[next_s[0], next_s[1]]) - Q[state[0], state[1], action_idx]
)
state = next_s
if maze[state[0], state[1]] == 1:
done = True
print("✅ 训练完成!")
# 5️⃣ 查看学到的路径
state = (2, 0)
path = [state]
while maze[state[0], state[1]] != 1:
action_idx = np.argmax(Q[state[0], state[1]])
next_s = next_state(state, actions[action_idx])
if not is_valid(next_s) or next_s in path:
break
state = next_s
path.append(state)
print("🗺️ 学到的路径:", path)
运行上面的代码后,你会看到类似输出:
✅ 训练完成!
🗺️ 学到的路径: [(2, 0), (2, 1), (2, 2), (1, 2), (0, 2), (0, 3), (0, 4)]
这说明智能体成功学会了走出迷宫 🎯
强化学习使机器能够通过反馈学习最优策略,这类似于人类通过经验学习的方式。
Q-Learning 是许多现代强化学习算法的基础,包括深度 Q 网络(Deep Q-Networks, DQN)。
这个简单的示例展示了完整的强化学习循环:探索 → 反馈 → 改进。
强化学习的魅力在于,它不需要显式答案,而是让机器自己“摸索”出最优策略。你可以在此基础上继续扩展,比如加入 matplotlib 动画可视化 或使用 神经网络(Deep Q-Learning) 解决更复杂的任务。
英文:How Do Machines Learn to Make Their Own Decisions? Reinforcement Learning Explained
本文一共 705 个汉字, 你数一下对不对.
2025-11-10 07:37:45
上两周去了趟意大利罗马,行程是四天三晚。我们选择在周一早上开车去伦敦卢顿机场(London Luton Airport),然后坐飞机到罗马,周四晚上七点多的飞机回英国。车直接停在了 Luton Airport Car Park Terminal 1,四天的停车费是 £84.99,价格比想象中还算可以接受。
之所以选这个时间段,是因为那一周刚好是英国的 half term 假期,如果是周五到周日的航班,机票贵得离谱。避开高峰期,周一走周四回,票价能省下一大截。
订好机票后我才发现,我的地理知识确实不太行——罗马(Rome)和比萨斜塔(Pisa)根本不在一个地方!
两地相隔三百多公里,坐火车单程要三到四个多小时。原以为到意大利顺路就能看到那座传说中“歪着也能成地标”的塔,结果发现完全不是“一路顺风”的事。
不过既然来了,比萨斜塔(Leaning Tower of Pisa)是一定要打卡的。它是意大利最著名的地标之一,位于托斯卡纳大区的比萨市(Pisa),建于12世纪,是一座倾斜的独立钟楼。原本设计是垂直的,但因为地基松软,在建造过程中逐渐倾斜,如今反而成了独一无二的象征。每年都有无数游客来这里摆出“托塔”的经典姿势拍照。
我们在罗马的住宿就在市中心,离 Roma Termini(罗马特米尼火车站) 走路五分钟,是一个私人房东的公寓。第二天一早我们就出发去火车站打算坐车去比萨。
到了才发现——火车票太贵了!来回快车要 350多欧元,单程3个半小时,但得11点才能发车,估计票都快卖光了。按这个时间算,下午三点才能到,比萨都快关门了。工作人员说要不试试别家火车公司,并指了方向。
还好后来找到一班Regionale列车/慢车(意大利也有不同公司的火车),有票也便宜,四个人来回大约 180多欧元,单程大概 4小时15分钟。虽然时间久点,但想着能省一半的钱,也值了。
我们中午两点多到达比萨,天气很好,阳光下的斜塔看起来比照片还要神奇。我们在塔前拍了很多照片,吃了冰淇淋,那一刻,所有的舟车劳顿都觉得值得。
接着我们在广场边逛了逛,旁边还有几座很漂亮的建筑。这里其实是著名的“奇迹广场”(Piazza dei Miracoli),除了比萨斜塔之外,还有比萨大教堂、洗礼堂和纪念墓园。整个广场一片洁白的石质建筑,在阳光下特别耀眼,也难怪会被叫作“奇迹”。
回去的时候有点累了,打了车,花了11欧元到火车站,然后大概五点多又坐上了四个多小时的火车返回罗马,回到公寓已经是九点多。
虽然这趟“罗马—比萨一日游”有点折腾,但也成了这次旅行最有意思的部分之一。毕竟,亲眼看到比萨斜塔那种“歪得恰到好处”的样子,真的很难忘。
朋友还开玩笑说:“你应该上那斜塔上做个伽利略的‘两球实验’。” 我笑着回:“估计现在早就不让高空抛物了。”
比萨斜塔所在的广场其实是一个非常有名的地方,叫做:奇迹广场(Piazza dei Miracoli,又名“奇迹之广场”)
它并不只是那座歪塔而已,整个广场上有四座重要的建筑,都是世界文化遗产的一部分:
更新几张:
2025-11-09 04:23:35
视频:油管/Youtube | B站/小破站 | 微博视频 | 西瓜视频 | 微信视频号 | X/推特 | 小红书 | Facebook
《金融杠杆:从股票到加密货币的放大效应》
《用杠杆撬动财富:传统市场与币圈的机会与风险》
《杠杆交易全解析:小资金如何放大收益,也放大风险》
《金融杠杆揭秘:股票、房地产到加密货币》
《杠杆的魔力与陷阱:跨越传统金融与加密世界》
《币圈杠杆交易:高收益背后的高风险》
《用杠杆玩加密货币,你准备好了吗?》
《Crypto 杠杆揭秘:如何放大收益,也放大风险》
《小本金撬大财富?币圈杠杆的利与弊》
《杠杆在币圈:赚钱快还是亏得快?》
在投资和企业融资中,我们经常听到“杠杆”这个词。金融杠杆(Financial Leverage)就是利用借来的资金进行投资,以小博大的工具。听起来很吸引人,但它既能放大收益,也能放大风险。
在币圈(crypto)投资中,金融杠杆的应用比传统市场更为常见。许多交易平台允许投资者用少量本金借入更多资金进行数字货币交易,这就是所谓的“杠杆交易”。通过杠杆,投资者可以用 1 枚比特币撬动 5 枚甚至 10 枚的交易仓位,如果行情上涨,收益被放大;但一旦行情下跌,亏损也会被无限放大,甚至面临强制平仓的风险。币圈的高波动性,使杠杆既是赚快钱的利器,也可能成为快速亏损的陷阱。
简单来说,金融杠杆就是用“别人的钱”来撬动更大的投资。比如,你手里有 10 万元,想投资一家公司。如果直接投资,你的收益完全取决于这 10 万元。但如果你向银行贷款 40 万,再加上自己的 10 万,总共 50 万去投资,公司赚了 10% 的利润,你的收益就不只是 1 万(10% × 10 万),而是 5 万(10% × 50 万),自有资金的回报率从 10% 提升到了 50%。这就是杠杆的魔力。
当然,杠杆也会放大损失。如果上面的投资亏损 10%,总投资 50 万亏了 5 万,你的自有资金 10 万就只剩 5 万了,损失了 50%。由此可见,杠杆是一把双刃剑:赚得多时更爽,亏得多时更痛。
假设你看好某只股票,手里有 2 万元。你通过保证金交易再借 8 万,总共 10 万投资。如果股票上涨 20%,总资产变为 12 万,你扣除借来的 8 万本金,净赚 2 万,自有资金翻倍,回报率 100%。
但如果股票下跌 20%,总资产只剩 8 万,你还要还银行 8 万,净资产 0,自有资金全部亏光。杠杆让收益和风险都被放大了。
你准备买一套 100 万元的房子,首付 20 万,贷款 80 万。房价一年涨了 10%,房子价值变成 110 万,你卖掉房子还清贷款 80 万,净赚 10 万,自有资金 20 万回报率 50%。
相反,如果房价下跌 10%,房子只值 90 万,还清贷款 80 万,净亏 10 万,自有资金 20 万亏掉一半。
杠杆能放大收益,但过度使用会带来巨大风险。投资者或企业必须评估融资成本、投资回报和市场波动,合理控制杠杆比例。否则,一旦投资失败,可能面临巨额亏损甚至破产。
金融杠杆就像“放大镜”,能让小资金产生大效益,也可能让小亏损变成大灾难。通过实际案例可以看到,懂得使用杠杆并控制风险,才能真正发挥它的威力。
2025-11-07 02:20:43
人生不停的折腾,对喜欢的事和物不断袪魅。来英21载,终于拥有了一个私人牌照。8核SUV,性能强劲,值得拥有![旺柴]
从 X86 CPU 到 X8 CPU:一次有意义的车牌之旅
X8 CPU:属于极客的私人车牌
求而不得的 X86,意外收获的 X8 CPU
一块写着“X8 CPU”的车牌,圆了我的极客梦
给人生加个“X8 CPU”:一块车牌的情绪价值
当极客买车牌:我与 X8 CPU 的故事
8核SUV,性能与情怀的双重升级
不是处理器,是我的车牌——X8 CPU
前几周我在博客里提到过,我参加了一个私人车牌的竞拍——那块车牌是 X86 CPU。这个组合在我看来非常有意义:完整表达出计算机处理器的核心概念,也带着一点极客的味道。
不过理想终究敌不过现实。那天拍卖最后成交价高达 £5050,加上手续费、VAT 等,总价超过 £6000。这个价格实在太贵了,我权衡再三,只能忍痛放弃。
X86 CPU 这个车牌的确是一个“完美的表达”,所以价格自然比一般自定义车牌高。像英国常见的那种格式为 “X?XXX” 的五字符车牌,中间是数字,前后是字母,要想组合出有完整含义的词其实很难,大多只是部分有趣,难以“整体有意义”。
我还是很喜欢 X86 CPU 这个概念,想着有没有类似的替代。拍卖当天没成功,我就去找了几家私人车牌销售网站,比如英国的两大公司 SwiftReg 和 TopReg。没想到,居然被我发现了一个价格合适的——X8 CPU。
这个组合我越看越满意:不仅延续了 X86 CPU 的结构,而且“8”代表“八核(8-core)”,正好契合我对性能和科技的追求。价格也相当划算,只要三百多英镑,加上手续费和 DVLA 官方费用,总共 £649 多一点。可以说性价比非常高。于是我果断入手。
付款后,我发现网站上的这两个车牌立刻从搜索结果中消失,说明被我买走了。整个更换车牌的过程其实非常简单:只需要在网站上填入现有车辆的 V5C 注册号,然后选择一个希望的 transfer 日期。我特地选在从意大利旅游回来、也就是我生日当天生效。因为出发去 Luton 机场前我已经买好四天的停车票,不想再折腾更改车牌号。
两天后,邮寄来的新车牌到了——一白一黄,白的装在车头,黄的装在车尾,另外还附带一个安装小包。
生日当天(就当我的生日礼物了),SwiftReg 发来邮件通知:
我很高兴地确认,您车辆登记号为 X8 CPU 的证书已于今日送达,并且我已经为您完成了合法过户手续。附件是英国车辆牌照管理局 (DVLA) 出具的两份过户确认文件,供您存档。
接下来会发生什么?
– 您现在必须合法地将新车牌悬挂在车辆上——您有充足的时间完成这项工作(所以如果您当天无法完成,也无需担心!)。
– DVLA 已收到通知,并正在为您寄送新的 V5 车辆登记证,以确认新的车辆登记信息。该登记证将在未来 7-14 天内送达。
– 您的车辆路税/Road Tax和 MOT(车辆年检)将自动转移到新的车辆登记信息上,您无需更新。请注意,如果您在线查询状态,DVLA 最多需要 72 小时才能在其数据库中更新车辆的新登记信息。
– 请通知您的保险公司您已更改车辆登记信息。您还需要更新任何停车费、拥堵费、伦敦交通局 (TFL)、超低排放区 (ULEZ) 或收费公路服务信息。
希望您对所享受的服务感到满意,如有任何疑问,请随时与我联系。
I am pleased to confirm that the certificate for your registration X8 CPU arrived today and I have now completed the legal transfer for you. Attached are 2 documents from the DVLA confirming the transfer for your records.
What Happens Next?
– You must now legally display the number plates on the vehicle – you have reasonable time to do this (so don’t worry if you cannot do this the same day!).
– The DVLA have been notified and are processing you a new V5 logbook to your home address confirming the new registration. This will arrive in the next 7-14 days
– Any TAX & MOT will automatically roll over to your new registration, you do not need to update this. Please note it takes upto 72 hours for DVLA to update across their databases to show this new registration on the vehicle if checking the status online.
– Please notify the insurance company you have changed the vehicle registration. You will also need to update any parking, congestion, TFL, ULEZ or toll services.I hope you are pleased with the service received, and if you have any questions do not hesitate to contact me.
于是我当天去车厂安装。整个过程不到十分钟,老板人特别好,居然还没收我工时费,真是意外的小确幸。
当天我在 DVLA 网站上查车牌信息,暂时还查不到(系统更新有延迟),第二天就显示出来了,而原来的旧牌信息也显示为注销。
需要注意的是:车主要自己联系保险公司更新车牌号。我用的是 Allianz,可以直接在网上修改,非常方便,而且 完全免费。而有的保险公司,比如 Admiral,更改任何资料都要人工处理,每次收取大约 £50 的手续费。
另外,MOT 和路税(Tax)都不需要自己操心,DVLA 会自动转到新车牌。你要做的只有两件事:
车厂工人也特别提醒我:“别忘了改保险,不然要是被查出来可要罚款的。”
以后如果想卖车,我得先把 X8 CPU 换回原来的车牌,所以原车牌必须保留。另外,如果将来想再购买另一块私人车牌,也必须先把现有的车牌换回原车牌,否则现有的私人车牌可能会丢失或无法转让。
有天我和儿子聊起私人车牌,小儿子不以为然地说:“这不就是一块塑料吗?不值。” 大儿子则笑着说:“That looks cool, and shows that you have money.”
我顺势和他们聊了聊为什么我会买私人车牌。除了好玩和个性化,其实它还有几层意义:
我甚至查到“999 OK”这个车牌现在挂在一辆蓝色的劳斯莱斯上(2019年第一次注册),不得不说——有钱人也都懂车牌的乐趣。在英国,可以通过GOV.uk来查任何车牌的信息。
人生总在折腾,对喜欢的事物不断“去魅”,又不断重新燃起兴趣。来英国 21 年,终于也拥有了属于自己的私人车牌——X8 CPU。
它不仅是一串字符,更像是一种象征:性能、热爱、坚持,还有那一点点中二的极客浪漫。
我把 X8 CPU 安装到我的保时捷卡宴上,瞬间感觉整辆车都不再是以前那辆普通的破二手车了——有了这个车牌,整车的气质和存在感都提升了不少,开起来心情也莫名好起来。
8核SUV,性能强劲,值得拥有! 🐶💪
Share on X
说实话,第一次晚上有车灯情况下看车后面,才知道后面的灯是连一条线的,很漂亮。我记得之前开车的时候和媳妇说到前面的车后面一条线很美,不知道啥车,凑近了看,是保时捷,然后才大悟,原来自己也有啊,哈哈。
车厂工人在给我换车牌,术业有专攻,有专门的工具安装就是快(不到十分钟)。
这些车牌立买即可,不用竞价。
在DVLA 官网价格会更便宜,这个网站是中介。不过恭喜作者买到自己喜欢的牌照。
啊,原来还可以这样,谢谢。不过这个中介的transfer流程挺丝滑的,交钱不用管任何paper work。
DVLA买的话是给你寄一张文件,然后在DVLA官网把文件的编号填进去就ok, 换私人牌照不需要钱,如果以后你想换车把私人牌照拿下来呢的时候需要花80镑。 大佬卡宴多少买的,挺好看的。
才8盒,早已经16盒、32盒了…
那就不是五位数了。。。 单数字中 8最好,而且发。
2025-11-06 02:33:23
我在英国申请HSBC Overdraft的全过程与心得
什么是HSBC Overdraft?我的申请经验与使用体会
英国银行Overdraft详解:以HSBC为例的真实申请经历
英国HSBC Overdraft申请记:为啥我也办了个透支额度
账户差点扣不上学费,我才去申请了HSBC Overdraft
英国银行透支服务(Overdraft)到底有啥用?我的真实体验
理财角度看HSBC Overdraft:短期周转的小帮手
透支不是坏事?谈谈HSBC Overdraft的利与弊
我最近申请了汇丰银行(HSBC)的透支额度(Overdraft),最高限额是5000英镑。我在网上填写完申请表后,系统提示大概需要一到两个工作日才能出结果。后来我收到一条短信,让我打电话联系HSBC。
我打过去之后,银行工作人员在电话里问了很多问题,比如日常开销情况,并且逐条核对我账户上的支出,主要是想了解哪些是固定支出。我猜他们是要根据收入与支出情况来判断是否批准透支申请。
这里顺便介绍一下 Overdraft。它和信用卡不太一样,是一种短期的银行借款服务。当账户余额不足时,如果正好有房租、学费或其他自动扣款(Direct Debit)要执行,没有 Overdraft 的话,扣款会失败;而有了 Overdraft,银行会临时垫付这笔钱,让账户余额可以为负数,从而确保重要支出顺利完成。透支额度其实就是银行给你的一条“备用资金线”,方便在现金流紧张时应急。当然,透支金额需要尽快还上,因为利息是按天计算的。以 HSBC 为例,透支利率一般在 19% 年利率(EAR,Effective Annual Rate,实际年化利率)左右,具体取决于账户类型和信用情况。
我向银行解释说,因为孩子在上私立学校,所以申请Overdraft主要是为了避免每学期缴学费时出现扣款失败的情况。我还说明我和我太太各承担一半学费,否则单靠我一个人的收入肯定不够。幸运的是,银行最终批准了我的申请,也就是说,只要我需要,银行随时可以为我提供最高5000英镑的透支额度。
哎,穷人才需要这个透支贷款。
Share on X
网友:能让孩子读私立就不是穷人了。
现在中产是最惨的:领不了福利,还各种被割。