2024-12-21 09:40:12
抖音的推薦演算法?
原文內的連結有GH 的位置
2024-12-15 22:55:47
Re 不過這中間又牽扯到 K8s service 的問題,只要你的 Pod 都還是動態 IP,沒有辦法自己額外註冊,那就還是要大量仰賴 CoreDNS K8s Plugin 去幫忙處理
2024-12-15 22:55:45
Re 後續的改進行為中,我覺得最值得注意的就是 "Decouple the Kubernetes data plane and control plane",
如果有辦法可以讓 DNS 的行為可以從 Control Plane 中脫鉤,某程度來說會解放這一切
2024-12-15 22:55:34
Re 所以這種問題從使用者的角度來看,就是會發生 DNS 解析不到,然後要一路追查才會發現是 CoreDNS 拿不到,原來是 Control Plane 出問題,最後才發現原來是 Telemetry Service 造成的。
2024-12-15 22:55:29
Re 根據先前的文章,可以知道 OpenAI 有使用 Node Local DNS 來強化 Cache 的效果,所以文章內可以看到問題發生後, 20 分鐘內基本上都還可以使用 local 的 DNS,只是這些 stall 的紀錄都不是最新的,然後一旦等到資料過期後,問題就開始浮現.
2024-12-15 22:55:16
Re 以過往 OpenAI 的相關文件,其最大的 Cluster 是上千台節點,以這種規模下,整個 API Server 以及背後的 Control Plane 全部都被塞爆,導致其他正常的請求沒有辦法處理。後續 Controller 沒有辦法順利地去更新 DNS 的紀錄,最終會導致所有想要透過 CoreDNS 詢問 DNS 的服務都會問不到,最終引發慘案