MoreRSS

site iconRunye | 算法花园修改

滴滴、飞猪。分享算法,竞赛性编程,阅读等主题内容。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Runye | 算法花园的 RSS 预览

Thinking 12 - Coding Cli

2026-03-14 08:00:00

感觉就在这几个月,Claude Code 这样的工具开始在身边火了起来。1 月份自己用 Cluade Code 搭配 kimi-k2.5,刚开始只是用来在 mac 上安装软件和修复环境。

上周终于通过美区 iOS 订阅 20 刀的服务,可惜没过 1 周账号就被封了。后来,改成订阅 ChatGPT Plus 服务来使用 Codex。现在开始用这些服务来完成之前一直没有做完的,导出 Logseq 笔记成为博客文章的脚本。如果你有想法,token is all you need!

另外遗憾的是,公司内部各种安全限制只能用 kimi-k2.5 这样的开源模型,而且各个平台都是 agent 时代之前的产品,总感觉等这些平台接入 coding cli 生态的成本,远高于重新搭建一套。

Pygmalien

2026-02-18 08:00:00

Day 1-2

  • 成长核心: [[甘卓琴]]、[[壶铃]]、[[展品柜]]
    • 2026-02-18-17-01-59
  • 尽量拿:小圆猪发射器、绷带、铁腕战士
    • 2026-02-18-17-46-33
  • 保战力
    • 2026-02-18-17-50-34
  • 低优先级,没东西可以拿:多肉植物、乌瓦希瓦利鸟、盾、传家宝、小圆猪守卫
    • 2026-02-18-17-51-38
  • 看体系、附魔好可以拿
    • 2026-02-18-17-53-31
  • 经济体系
    • 2026-02-18-18-00-30
  • 第一天,3商店(中型和治疗)1事件
  • 事件
    • 蘑菇,4 块钱
    • 丛林:拿钱好过拿收入

Day3-5

  • 工装短裤(生命值和治疗商店)
    • 2026-02-18-18-03-42
  • 成长核心
    • 2026-02-18-18-10-56
  • 泛用过度
    • 2026-02-18-18-11-35
  • 盾猛
    • 2026-02-18-18-11-55
  • 优质过渡
    • 2026-02-18-18-12-31
  • 野怪掉落:剑齿虎、恐狼
    • 2026-02-18-18-12-57
  • 可补充的物品
  • 2026-02-18-18-13-44
  • 其他过渡物品
    • 2026-02-18-18-14-03
  • 其他成长核心
    • 2026-02-18-18-13-30
  • 经济:地球仪
    • 2026-02-18-18-15-11
  • 技能
    • 2026-02-18-18-15-50

Day 6

  • [[裤子无限]]
  • [[玩具无限]]
  • [[地产流]]
  • 要塞冰刀
    • 2026-02-18-19-42-05
  • [[冰猪流]]
    • 2026-02-18-19-42-31
  • 肉猪流
    • 2026-02-18-19-42-56

大巴扎猪猪上分公式化攻略(s10) 新手扫盲可学

+

垂搜 vs 通搜

2026-02-17 08:00:00

垂直送搜索特点

  • • 垂搜的⽂档普遍是结构化的,容易根据⽂档属性标签做 检索筛选。#card
    • • 电商:可以限定品牌、卖家、价格、颜⾊。
    • • 学术:可以限定关键词、作者、期刊、年份。
    • • 本地⽣活:可以限定类⽬、商圈、距离。
  • • 垂搜⽤户的意图明确。#card
    • • ⼤众点评⽤户搜索“寿司”,⽬的是找寿司餐厅。
    • • 淘宝⽤户搜索“拳击”,⽬的是找拳击相关的商品。

生态:客户、创作者与内容

2026-02-17 08:00:00

生态一般是平台发展到一定规模后才需要考虑的问题;这里的生态指的是非红线的生态问题,即不会一旦出现了平台就要倒闭的那种(比如政治敏感话题);而是短期不管看不出什么大问题,但是放任不管,不利于平台长期可持续发展,如计划冷启动、广告主的多样性、素材多样性、创作者变现分布等等 #card

  • 这是个比较典型的规模与生态的问题,规模小的时候这类问题不显著,或者说当时阶段增长是最重要的点,但是当规模变大后,必然会出现一些不健康的问题,通俗点讲就是 “林子大了,什么鸟都有”,这个时候生态问题就不能忽略了

客户生态

  • 常见的客户生态包括
    • 客户结构 #card
      • 如大广告主与小广告主、
      • 广告主的行业分布情况)、
    • 客户操作习惯 #card
      • 如频繁改出价、复制计划、微改素材等行为
  • 前面提到,最极端情况下平台只有一个广告主,这样流量的定价权就在这个广告主手里了;因此 #card
    • 平台肯定希望提升广告主的多样性,让平台总体 cpm 水位能在广告主的竞争中水涨船高
  • 但是广告系统里往往又存在着马太效应,即大部分的钱是由小部分的广告主花的;#card
    • 其原因是很多长尾的中小广告主由于竞价能力、投放经验不足等问题与大广告主不太可比,这部分广告主在投放链路中会由于数据量少,链路相关模型学习不充分等原因,进一步加剧这个问题。
    • 这个时候需要平台对这部分中小的广告主做一些特定的优化,成立对应的中小专项来优化,这部分的一些手段会在客户部分详细说明
  • 另外一个常见的客户生态问题就是客户的投放操作问题,比如说频繁改出价,正常 oCPX 广告中,广告主的出价就是其对转化成本的预期,而这个成本理论上应该是固定的,不过会因为在投放初期由于没有固定成本预期而去调价做试探,比如说一个点赞在不同媒体平台上的成本是不一样的,广告主在一个平台切换到另一个平台后需要做调整,但这种改动也不会很频繁;#card
    • 所以频繁改动出价往往是广告主 hack 平台的一种手段,如把出价从低调到高来 hack 赔付的漏洞,或者在预算不足的时候出一个很大的 bid 来 hack 刹车漏洞,因次平台要有相应的规则来回避这些问题,同时需要有相应的投放引导
  • 除了出价,广告主往往也存在不断复制计划来 hack 系统的行为,因为系统的排序模型往往会使用很多 id 类特征,带来的就是系统的 variance 问题,如两个计划的投放设置、素材都一致,但是很可能因为计划 id 不一致,导致投放效果的不一致,所以广告主有动力通过复制计划来跑更多的量,#card
    • 但这样给平台带来的问题有
      • (1)工程上的压力,如召回的计划或素材变多了
      • (2)素材重复度高;这其实也算是素材生态问题,微改素材的问题也属于同一类问题;
    • 因此,平台侧需要考虑使用 id 类特征带来的问题,或者使用了 id 类特征后需要通过额外的策略来保证广告主的复制是无效的,如托管控制客户复制计划的行为、相似计划的限制剪裁策略、相似素材识别等

创作者生态

  • 创作者的生态,跟客户生态一样,也需要分结构和行业来看,因为创作者变现本身也是个供需的生意,需要明确分粉丝段或分行业的供需问题,如创作者变现的粉丝量分布是否健康,是否只有头部作者有变现,但大部分长尾的创作者压根没有变现;行业上也是类似的,因为内容平台是希望提升其内容的多样性的,对应的需要提升创作者行业的多样性,因为创作者是 ugc 平台素材的一个很重要的供给 #card
    • 除了上面的问题,前面也提到内容平台往往存在 “水下” 问题,即创作者的撮合不走官方撮合平台,而是 B 直接找 K 来达成合作,这会影响平台对营销内容的管控、平台的营收等;这部分会在下面创作者部分详细展开

内容生态

  • 内容多样性问题前面也提到,分别涉及到客户投流内容多样性和创作者创作的内容多样性 #card
    • 对于客户,多样性问题体现在客户投放不把重心放在素材制作,而是放在了计划复制等各种投放的 “骚操作” 上,导致素材重复度高,用户审美疲劳,长期对广告交付的用户体验指标、广告相关转化率都有负向影响;针对这一点,需要平台侧应做相关的引导,引导客户去把精力放到素材制作上
    • 对于创作者,多样性问题体现在其内容是否足够多样,一般而言,内容的多样性与创作者的多样性挂钩,因为往往每个创作者都有自己的创作偏好;因此平台首先需要引进足够多样的创作者,同时平台侧会希望能够有相应的抓手来影响创作者的创作倾向,一般是商机和流量,即把商机和流量更多倾向给平台侧需要扶持的创作者类型
  • 内容质量问题是个很泛的问题,如视频拍摄质量、内容抄袭、内容反智、营销感强等等都算内容质量问题,这些一般需要依靠审核(人 + 机)的方式来识别与降权;#card
    • 另外针对创作者的撮合往往还存在着 “代写代发” 的问题,即创作者并非在真诚分享,而是直接发布 B 写好的笔记(B 为了更多创作者为品牌背书会这么做,创作者也只需要发布写好的笔记就能拿到钱),这样不仅容易导致总体内容营销感强,同时也会带来创作者变现变现的不良风气和现象,需要平台通过机制来抑制这样的趋势

辨析对比学习与向量化召回

2026-02-17 08:00:00

对比学习与向量化召回的区别

  • 首先,向量召回属于有监督学习,对比学习属于自监督学习 #card
    • 这些正样本都来源于用户反馈(标注)​。
      • 在I2I召回中,被同一个用户点击过的物料在向量空间中是相近的。
      • U2I召回中,用户与其点击过的物料在向量空间是相近的。
    • 对比学习不需要用户标注。
      • 用户与其增强版本,物料与其增强版本,
      • 这些正样本都是我们根据一定规则制造出来的。
  • 其次,向量召回重点关注的是负样本。#card
    • 大型推荐系统中的用户反馈源源不断,正样本从来都不是问题。
    • 而对于对比学习,重点、难点恰恰是如何制造正样本。
      • 也就是给定用户或物料,如何增强出与其相似的用户或物料信息。
    • 推荐模型中的特征以类别特征为主,高维、稀疏且相互关联(比如被一个用户点击过的多个物料之间可能存在时序、因果关系)​,简单粗暴地“增强”​,反而降低了产生的正样本的可信度。
    • 因此,阅读将对比学习应用于推荐场景的文章时,重点是看其“数据增强”方法有何创新,其他方面如负样本策略、模型结构、损失设计往往都是向量召回中的常规套路,无甚新意。
  • 最后,向量化召回是主任务,比如替用户找到他喜欢的物料,对推荐效果负直接责任。#card
    • 而对比学习的目的,仅仅是为了纠正模型对小众用户、冷门物料这些少数群体的偏见。
    • 对比学习作为辅助任务,只存在于训练阶段,并不上线,间接影响推荐效果。