Logo

site iconRunye | 算法花园

滴滴、飞猪。分享算法,竞赛性编程,阅读等主题内容。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Runye | 算法花园 RSS 预览

Follow.is 使用

2024-10-12 21:26:06

承蒙 Michael Wong 赠送激活码,我也终于用上 Follow.is

所有权验证

This message is used to verify that this feed (feedId:55450866978608128) belongs to me (userId:42181569844995072). Join me in enjoying the next generation information browser https://follow.is.

【随想集】11 踏上取经的路

2024-09-07 00:00:00

新华社专访 [[黑神话:悟空]] 创作人冯骥时,他说了一句“踏上取经路,比抵达灵山更重要”。之前看[[产品沉思录]]时,少楠也说过一句类似的话 “使唐僧成为唐僧的,不是经书,而是取经的那条路”。在上次随想集中说,说要多写写随想集,大概这就是我取经的路吧。

[[王树森@深度强化学习]]

这两周晚上下班之后,大部分时间都是在看这本书,当然是利用 thinking 10 中提到过的 [[Concept-Descriptor Framework]] 方法边阅读边做卡片,目前 Anki 卡片数量超过 1500+。自己之前看过李宏毅的强化学习,这次看书时经常有感觉之前学过,但是忘记,还是需要通过 Anki 这类工具不断复习。

这本书网上应该能找到 PDF 和 epub 版本,优先推荐 PDF 版本,制作比较精美。唯一的问题是 PDF 版本是作者的初稿,可能有一些错误。或者有实力的读者,干脆直接支持一本纸质书。

李沐讲座

[[@李沐讲座:大语言模型的实践经验和未来预测]] 链接:bilibili

几年前经常在知乎上看李沐写的总结以及在 B 站看李沐带你读论文,去年开始他已经去 LLM 领域创业。难得今年又出来分享一些经验。这个讲座主要有两个部分,大模型经验以及他自己的个人成长。

对于我这种不做大模型的人来说,这部分内容只能当成听他吹吹牛。

李沐个人经历非常丰富,最早主要到他是发现他从百度离职去美国读博士,当时看到人生的另一种可能。不过了解到他是上交 ACM 班的,就又觉得合理了。这部分内容,给我留下最深印象的是,李沐分享了打工人、博士生和创业三个不同角色的精力,还进行了对比。选择不同的角色,需要考虑你自己的动机能不能匹配上这些角色的特点。最后,李沐分享一个持续提升自我的方法,总结。用你导师、上级的角度时常总结。每周、每季度、每年、每五年进行总结。

  • 又找到一些坚持写随想集的理由,每周总结自己的学习和成长。

黑神话:悟空

这两周还是在打这个游戏,大概玩了 13 个小时,目前进度到第二章虎先锋。前一段时间在b站看到,篮球解说徐静雨大概打了虎先锋 100 多次才通过,感觉自己要尝试的次数也差不多。只能说这游戏卖给我们这些动作游戏新手 268 真是超值。

【随想集】10 新思路使用 Anki

2024-08-25 00:00:00

最近经常看 polebug23 每周程序员的下班学习记录 vlog,每个视频会列出一些 topic,写上 up主的理解,然后搭配日常学习相关的画面。挺喜欢这种形式,所以又开始重新写随想集。

新思路使用 Anki

这几年自己断断续续用过几次 Anki,觉得做卡比较麻烦以及卡片都是孤立的,所以也没有坚持下来。前几周看 [[RemNote]] 的文档时,了解到他们提倡地做闪卡的思路 [[Concept-Descriptor Framework]],简单来说是:

  • 从材料中抽取概念,然后层次化组织起来,每个概念下面的描述可以是对概念的解释或者与之的问题。
  • 概念和描述都是可以抽认的对象
  • 更加具体的流程和例子见 @The Concept-Descriptor Note Taking Technique

自己的主力笔记软件是 Logseq,所以尝试[[在 logseq 中实践 CDF]],需要记忆的内容按 Concept 和 Descriptor 的形式写下来,然后借助 [[logseq-anki-sync]] 插件将闪卡同步过到 Anki 中学习。目前实现的效果是:

  • image.png

当然这种复刻还是存在一些问题:

  • 目前自己大概有 700+ 卡片,logseq 同步到 anki 可以在一分钟之内完成,不知道卡片数量增加之后,插件的稳定性如何。
  • [[Piotr Wozniak]] 的理念,复习闪卡时需要不停地编辑卡片。对于我目前的方法来说,复习和编辑其实是割裂在两个软件之间,非常的不方便。想到的解决方法有:
    • 如果是用手机复习,觉得需要修改的卡片打上标记,然后在下一次复习前,在 logseq 中修改卡片。
    • 如果是用电脑复习,从 anki 跳转到 logseq 重新编辑。这种方式需要频繁切换切面,割裂了学习。

话说回来,最理想的方式增强 logseq 中的闪卡功能(可以直接复刻 remnote 的逻辑),但是感觉 logseq 开发者中没有狂热的间隔重复爱好者,可能这只是我最美好的幻想。

黑神话:悟空

本周热度最高的游戏非[[黑神话:悟空]]莫属,自己前几个月就在 PS 上预购普通版的游戏(淘宝上购买港服点卡,最终花费 260 左右)。截止到今天,差不多玩了 10 个小时,由于是 arpg 游戏新手,进度惨不忍睹。昨天下午 50 条命通关幽魂,今天下午挑战白衣秀士差不多 60 次,还是看不到通关的希望。

tana tutorial | how to use semantic functions in tana

2024-08-11 00:00:00

链接:Tana Tutorial | How to use Semantic Functions in Tana (youtube.com)。为了更好了解 logseq db 版本新的 tag 找的这个视频,不过感觉这个 youtuber 还是卖课为主,关于 Supertags 介绍有一些简单。有一说一,logseq db 的 ui 和 tana 还有较大的差距,只能说未来可期。

摘录

[[Supertags]] define what a node is

  • 面向对象语言中的类
  • 定义属性

Fields define relationships

如何使用

  • lowercase for supertags
  • Uppercase for fields

Fields

  • Field Type,类型定义(文本、日期、数字等等)
    • image.png

实现层次化关系

  • image.png

强化学习

2024-07-30 00:00:00

moc

[[什么是强化学习?]]

[[强化学习问题的基本概念]]

[[强化学习与 Markov Decision Process]]

[[强化学习的 Bellman Equation]]

[[Monte-Carlo 和 Temporal-difference]]

[[On-Policy & Off-Policy]]

[[强化学习中不同的方法]]

  • [[强化学习价值函数]]
  • [[Value-base Learning]]
  • [[Policy-base Learning]]
    • [[Policy Gradient]]
      • [[策略梯度定理的证明]]
    • 基础
      • [[REINFORCE]]
      • [[Actor-Critic]]
    • [[Policy Gradient with Baseline]]
      • [[REINFORCE with Baseline]]
      • [[Advantage Actor-Critic]] A2C

[[Q-Learning]] :<-> TD,value-base 方法,利用 critic 网络评价 actor 。
id:: 66659fef-459f-4f58-9bb5-a1efe7e00d0b

  • 通过状态价值函数 Vπ(s)V^{\pi}(s) :<-> 衡量预期的期望。
    id:: 66c0ade2-fb3b-43b7-bacd-847e911e2325
    • V 和 pi、s 相关。
  • [[DQN]] 相对于 Q-Learning 的改进点 :<-> 用 NN 拟合 Q table
    id:: 66a666be-96de-4c9d-b20c-e4bf024ff8c5
    • Q(s,a;θ)Q(s,a)Q(s, a ; \theta) \approx Q^*(s, a)
  • [[DQN 的改进]]
  • [[Continuous Actions]] action 是连续向量时,如何用 Q-Learning 解决。
  • [[为什么 DQN 不适用于连续空间?]]

[[Policy Gradient]]

  • 为什么要用蒙特卡洛搜索? :-> 解决搜索空间庞大的时候,很难对每一个操作都采样充分,利用搜索得到一个比较恰当的得分。
    id:: 66a8850e-4a13-476b-a729-7f2719caf8af
  • 前面介绍的 PG 属于 On-policy。每一次更新参数 $$\theta$$ 后,需要重新进行采样,时间开销大。
  • [[PPO]]

思考怎么定义采取动作后的 reward 和最大 reward 的差异以及用什么方法更新参数。