David Yanacek
資深首席工程師 David Yanacek
作者:David
Amazon 的生產服務監控方法
從團隊如何在高層級評估系統運作狀態,到如何放大顯示以了解單一請求詳細資訊,本專題講座將介紹 Amazon 的全方位監控服務。您還可了解 Amazon 百分位數、指標維度、儀表板、日誌分析與分散式追蹤的運用。
Amazon 的卓越營運
在本專題講座中,了解 Amazon 的營運實務。團隊養成的一些習慣 (例如處理回顧、共享知識和定期檢閱操作指標) 如何使團隊進行創新,進而建置更好的工具並執行架構轉移。
大規模架構及營運具備恢復能力的無伺服器系統
本影片將介紹 AWS 如何建置可靠、具備恢復能力的服務,包括避免模式與過載、執行受約束工作、在多層限流、並行防護機制、傳送等冪性請求、在佇列中套用反壓與公平性,以及執行隨機分片。
實作運作狀態檢查
自動偵測及緩解伺服器故障問題,不會因系統誤報機群範圍而產生意外後果。
为分散式系统实现操作可視性的检测
掌握生產系統的運作情況,並使用軟體工具排除故障事件。
使用負載卸除以免過載
面對系統過載時維持可預測性及穩定效能的策略。
使用相依項隔離,以控制並行過載
包含由失敗相依項造成的影響,以便僅影響應用程式中的相關功能。
在多租用戶系統中實現公平性
將公平性建置於多租用戶系統中,進而提供可預測的效能與可用性。
避免無法克服的佇列待處理項目
快速優先處理佇列待處理項目中的重要工作負載,並以防止出現待處理項目為首要任務。