iphyer | 桑弧蓬矢射四方的 RSS 预览

NOT IN vs LEFT ANTI JOIN: A Performance Comparison

2025-12-28 06:54:00

When filtering data based on exclusion criteria, the choice between NOT IN and LEFT ANTI JOIN can significantly impact query performance. This post demonstrates why LEFT ANTI JOIN is typically the better choice.

< Revised and generated with help of Claude >

Original Approach (Inefficient)

SELECT product_id, product_category
FROM products_dim
WHERE region_id = 100
    AND product_id NOT IN (
        SELECT product_id
        FROM products_dim
        WHERE region_id = 200
    )
    AND product_category IS NOT NULL

Optimized Approach (Recommended)

SELECT a.product_id, a.product_category
FROM products_dim a
LEFT ANTI JOIN (
    SELECT DISTINCT product_id
    FROM products_dim
    WHERE region_id = 200
) b ON a.product_id = b.product_id
WHERE a.region_id = 100
    AND a.product_category IS NOT NULL

Why This Works

Both queries return exactly the same result: products from region 100 that don’t exist in region 200.

Key Differences

Aspect	NOT IN	LEFT ANTI JOIN
Performance	Slower, less optimized	Faster, better optimized by Spark
Broadcast Risk	Can trigger unwanted broadcasts	Better control, prevents large broadcasts
Execution Plan	Subquery execution	Efficient join strategy
NULL Handling	Unpredictable with NULLs	Predictable behavior

Bottom Line

LEFT ANTI JOIN prevents broadcast errors while delivering the same results faster. When working with large datasets, this optimization can make a substantial difference in query execution time and resource utilization.

USA印象22: 德州海钓记

2025-12-08 06:54:00

这个周末去 Corpus Christ, TX 钓鱼，这里记录一下。

< Revised and generated with help of ChatGPT >

Corpus Christ, TX 简介

Corpus Christi 位于德州南部海岸，是一个面向墨西哥湾的港口城市，有“德州海滨城市（Sparkling City by the Sea）”的昵称。城市以绵长的海滩、观鸟地、以及便利的海上活动闻名，也是通往 Padre Island National Seashore 的主要门户。

Corpus Christi 对钓鱼爱好者来说非常友好，最大的特点是 鱼种丰富、钓点多、全年基本都能钓。

North Packery Jetty

当然我这次其实是在 North Packery Jetty 钓鱼的，看下面的地图，这是一片海岸离岛，而 North Packery Jetty 是伸出海岸的一段大堤。

Corpus Christ, TX 离奥斯汀大概四个小时车程。

但是钓鱼地点，图上箭头所示，其实在离岛上。

North Packery Jetty 属于 Packery Channel 的北侧码头/防波堤 — 是当地最受欢迎的公共钓鱼／海滨区之一。North Packery Jetty 是 Corpus Christi 最热门、最容易上手、鱼种最丰富的岸钓点之一。结构是 岩石防波堤 + 海湾出入口（Packery Channel），因此同时具备 channel 钓点 和 jetty/海边钓点 的优势。

🎣 常见鱼种

Redfish（红鱼）
Speckled Trout（海鳟）
Black Drum（黑鼓）
Sheepshead / Mangrove Snapper（羊头鱼 / 红树林笛鲷）
Flounder（比目鱼）
Spanish Mackerel / Kingfish（西班牙鲭 / 王鱼）
Sharks（小鲨鱼）
Jacks / Tarpon（季节性）

📍 钓点结构与特点

Channel 一侧：水深变化明显，潮汐影响大，红鱼和海鳟常驻。
Jetty 外海一侧：适合追逐 baitfish 的鲭鱼、jack、王鱼、小鲨鱼。
Jetty 尾端：最容易遇到大鱼，但风浪大时要注意安全。
附近沙滩（surf zone）：比目鱼、红鱼、鲨鱼的热点。

📅 最佳钓鱼时间（实用版）

涨潮（Incoming tide）：
- 海鳟、红鱼最活跃
- Channel 侧强烈推荐
退潮（Outgoing tide）：
- 海侧更好
- 西班牙鲭、jack、小鲨鱼常追着小鱼冲出来
一天中的时间：
- 清晨（sunrise）：最稳
- 傍晚（sunset 前后）：活性极高

🪝 推荐钓法与装备

活饵 / Live Bait：

Shrimp（活虾）+ popping cork
Mullet（小鲻鱼）
Cut bait（切饵）适合 drum / shark

路亚 / Artificial：

Soft plastics（软饵）适合红鱼/鳟鱼
Silver spoon（金属亮片）适合鲭鱼、jack
Topwater（早上很有效）

装备建议：

7ft–8ft 中到重型竿
15–30lb 主线（如果目标是鲭鱼/鲨鱼建议更高）
防滑鞋（岩石表面滑）

⚠️ 注意事项

岩石滑、浪大时不要站太外侧
停车通常需要 Beach Parking Permit
退潮末期某些区域水流强，注意脚下与站位
周末人多，抛竿和收线要礼让

总体感受

总体来说，这次在海钓还是挺愉快的。下次可以组织起来。

North Packery Jetty 是一条防波堤，所以直接停车后沿着大堤向前走就行。

风景还是挺好的，动物也挺多，还不怎么怕人。

下竿，开钓！

Bait

海钓还是推荐 Live Bait 路上有很多鱼饵店。比如这家，一般买点活虾就行，我们选了 11 刀的基础款，基本上正好满足，如果不是特别专业的，只是想娱乐体验下。因为如果整个虾挂上去，很容易被小鱼咬掉一部分而不上钩，所以大部分情况都是把虾切成一段段的挂在鱼钩上。

钓鱼证

一般如果只是体验下，推荐买 One Day All Water Permit。

我推荐去 Bass Pro 店里面办理，直接去他们的 Customer Service 办理，现场就可以办理。也可以网上办理，但是不知道为什么网上办理要额外多收 5 刀的手续费。 Bass Pro 估计是希望吸引你来消费，不收取任何手续费，就是直接给钓鱼证的费用。

如果是德州居民需要提供 SSN，驾照，价格大概是 11 刀。如果是父母或者没有德州驾照，可以用护照，但是价格就是非居民价格，贵了 5刀，需要16 刀。

同时对于鱼的尺寸和种类都有要求，我一般都是现场用 ChatGPT 查，然后判断，也可以上网看图识鱼。

工作总结 5

2025-12-06 04:54:00

最近升职了，工作内容一下子不太一样了。不再是把自己的项目做好就行，更多时候要负责沟通、协调，还得主动发起和带项目。这里简单写下这段时间的一些体会，后面如果有新的想法我再来更新。

[Revised by ChatGPT]

面对不确定性

现在接到的很多项目，往往只有一个“大方向”或最终目标，但中间要怎么做没人告诉你。通常我拿到的只有一句话：某个时间点之前要把项目做到什么状态。至于怎么把坑填满，只能自己不断找上下游聊，试、问、补，慢慢把路径摸出来。

一些小经验

1. 想想「接下来三步」(next 3 steps)

做项目的时候，不能只盯着眼前这一小步，不然很容易走成局部最优，或者后面发现埋了技术债。随时在脑子里模拟一下“如果我现在这样做，下一步、再下一步会发生什么”。当然不要求每次都完美看清，但多想几步真的能少踩坑。

提前想到后面两三步，很多时候能让你提前准备，也让你的当下决策更稳更安心。

2. 慢一点，把事情做对

升职之后明显感觉：不能再张口就给答案了。很多时候需要先缓一下，想清楚了再说。
“慢一点”其实不是效率变低，而是把质量放在更前面。你需要靠“把事情做对”来建立信任，而不是靠“做得快”。

3. 多跟人 Sync，特别是比你更资深的 SDE

要做到“慢下来”，一个很有效的方法就是多跟人聊。
多跟 team 里的同事 sync 一下，尤其是那些更资深的 SDE。聊多了你自然会放慢节奏，很多想法能被快速校正，还能从别人那里听到你没想到的点。

功利一点讲，多跟资深 SDE 合作，也有助于你找到未来升职时能帮你背书的人。

小结

从“把事情做好”到“把项目带好”，是完全不一样的体验。
想清楚 next 3 steps、适当慢下来提高质量、多向厉害的人请教，这三点对我现在挺重要。

后面如果有新的踩坑经历或者更好的办法，再来更新。

[书评]《Generative AI with Amazon Bedrock》

2025-09-18 04:54:00

最近读完了 Generative AI with Amazon Bedrock: Build, scale, and secure generative AI applications using Amazon Bedrock。在豆瓣已要求实名记录阅读的情况下，还是用博客写书评吧。

内容由 ChatGPT 生成，大纲是我提供的。

👉 书籍链接 (Amazon)

一句话总结

不必读，这本书内容已经过时。

为什么说过时？

这本书很好地体现了“时代的眼泪”——AI 领域出版物面临的最大挑战：时效性。尽管它出版于 2023 年底，但短短几个月内就显得落伍，原因包括：

技术迭代过快
Amazon Bedrock 持续推出新模型和功能，书中部分 API 已经更新
GenAI 生态系统变化频繁，新的集成方案与最佳实践层出不穷
社区实践经验丰富，真实案例与通用模式不断涌现

建议阅读方式

与其读书，不如：

参考 AWS 官方文档 获取最新信息
关注 AWS 博客与技术社区 的动态
参与线上讨论 获取实时反馈

更大的问题

这不仅是本书的问题，而是整个 AI 技术书籍领域的困境。在快速演进的技术环境下，传统出版模式可能需要改变，例如：

采用 在线更新 的形式
提供 配套的在线资源
转向更注重 原理与设计思路 的写作方式

仍有价值的部分

书中的一些基础概念与设计思路仍具参考意义
适合 选择性阅读，聚焦相对稳定的知识点

总结

在 AI 领域，持续学习与实践远比依赖书籍更重要。

2025规划更新

2025-08-21 04:54:00

2025.08.08 是个值得纪念的大日子，基于此，这里更新下自己的 2025 计划 2024总结并 2025规划。

New 2025 计划

这里重新列举下自己的2024计划。

Major tasks:

[ Done ] Write 2 good Designs
[ Done ] L5
[ Done ] bb
[ ] Give GenAI Demo Speech
[ ] Apply LLM to current project, sync with Edwin/Wtao/Alg/JamesG 2~3 hours per week
[ ] Work on 2 GenAI / ML paper
- Gait Speed
- GenAI for Grocery
[ ] Keep improving L5 SDE and figure out L6 AS

Accumulating tasks:

[ ] Wegiths: 190, target 170
[ ] LeetCode: 613 – > 622, target 1000
[ ] Reviewer: 137 – > 183
[ ] CR #: target top 3 in team

[书评] 推荐《大规模语言模型：从理论到实践》

2025-08-16 04:54:00

很简短的一个博客，推荐下这本书《大规模语言模型：从理论到实践》.

最近读完了这本书，在豆瓣已经必须实名才能记录自己阅读的现在，还是用博客写书评吧。

这本书最好的一点就是有网络版，https://intro-llm.github.io/

事实上，我最先看的是去年的第一版，前几天搜了搜发现更新了第二版，而且作者提供了基于 GitHub 的 Issues 提交页面。

在大预言模型日新月异的现在，基本上，你今天掌握的具体的一些知识点过了六个月可能就过期了，这本书不断更新才是正确的方法。

回过头来说这本书，我觉得是中文领域少有的比较正规的大预言模型学习资料。正规的意思是这本书会按照特定的章法循序渐进地全面介绍一个领域，而不是过于看重细节，防止只见树叶不见泰山的问题。

这本书我推荐大家跳着读，读的时候先想一想如果你自己来写，你会介绍什么。对照着阅读就会发现自己没想道的知识点。不过没必要沮丧，这是完全正常的，学些下就行。

iphyer | 桑弧蓬矢射四方修改