Kubernetes 是運行 AI 工作負載 (如訓練、大型語言模型服務) 的熱門方式,其中也包含 Google Cloud 公開模型 Gemma。Autopilot 模式下的 Google Kubernetes Engine (GKE) 提供了一個完全託管的 Kubernetes 平台,該平台提供 Kubernetes 的強大功能和靈活性,但無需擔心運算節點,因此您可以專注於透過 AI 交付自己的商業價值。

Google Cloud 已公開 Autopilot 中新的「Accelerator」運算類別,它透過資源預留功能改善了GPU 支援,並為大多數 GPU 工作負載提供更低的價格 (您可以先選擇此定價,最終所有工作負載都會被遷移)。此外,新的「Performance」運算類別讓高效能工作負載能夠在 Autopilot 模式下大規模運作。這兩個運算類型還在啟動磁碟上提供了更多可用的臨時儲存空間,為您提供更多空間來下載 AI 模型,而無須透過通用臨時卷 (generic ephemeral volumes) 配置額外空間。透過這些增強功能,使用完全託管的 Kubernetes 平台進行推理及其他運算密集型工作負載效果會更好。

透過在 Autopilot 模式下執行 GKE,您無需預先指定和配置節點,而可以專注於建立工作負載並創造自己的商業價值。作為一個完全託管的平台,一旦建立了工作負載,您就可以以更少的營運成本來運行它。

 

更低價的 GPU、更划算的選擇

Google Cloud 正降低在 Autopilot 模式下,GKE 運行大多數 GPU 工作負載的價格,並轉向新的計費模式,以提高與 Google Cloud 中其他產品和體驗的兼容性。現在,您可以在 GKE 的標準模式和 Autopilot 模式之間以及 Compute Engine 虛擬機間移動工作負載,並保留現有的預留 (Reservation) 和承諾使用折扣 (CUD)。

當您啟用新的定價模型時,資源將根據 Compute Engine 虛擬機資源進行計費,並根據完全託管的體驗收取額外費用。現在,新的定價模式已經可供選擇; 4 月 30 日後將發布 GKE 版本,自動將 GPU 工作負載遷移到這個新模型。這些變化帶來的大多數工作負載的價格都較低 (僅每個 GPU 少於 2 個 vCPU 的 NVIDIA T4 GPU 上之工作負載價格略有上漲)。

以下是 us-central1 區域中幾種工作負載大小的 GPU、CPU 和記憶體資源(額外儲存)的每小時價格比較:

GPU Pod 資源需求 VM 資源 舊價格(GPU Pod) 新價格(Accelerator 運算類別 Pod)
NVIDIA A100 80GB 1 GPU
11 vCPU
148 GB 記憶體
1 GPU
12 vCPU
170 GB 記憶體
USD $6.09 USD $5.59
NVIDIA A100 40GB 1 GPU
11 vCPU
74 GB 記憶體
1 GPU
12 vCPU
85 GB 記憶體
USD $4.46 USD $4.09
NVIDIA L4 1 GPU
11 vCPU
40 GB 記憶體
1 GPU
12 vCPU
48 GB 記憶體
USD $1.61 USD $1.12
NVIDIA T4 1 GPU
1 vCPU
1 GB 記憶體
1 GPU
2 vCPU
2 GB 記憶體
USD $0.46 USD $0.47
NVIDIA T4 1 GPU
20 vCPU
40 GB 記憶體
1 GPU
22 vCPU
48 GB 記憶體
USD $1.96 USD $1.37

 

使用 Accelerator 運算類別時,工作負載按整個節點 VM 容量進行計費,包括突發為系統 Pod 分配的資源。若要立即選擇接受這些更改,請升級至版本 1.28.6-gke.1095000 或更高版本,並將運算類別選擇器新增至現有 GPU 工作負載,如下所示:

高效能 CPU 資源

如果您需要專用的 CPU 資源來處理工作負載,Autopilot 現在會採用與 GPU 類似的方法。您可以在 Compute Engine 的主要機器上運行 GKE Autopilot 工作負載,包含新的 C3、C3D 和 H3,以及 C2、C2D 等!這些資源可以作為 Performance 運算類別的一部分被要求。請看下方範例:

資源預留

資源預留可協助確保您的專案擁有滿足未來需求成長的資源,您以前或許無法在 Autopilot 模式下使用預留,但現在已經可以囉!使用預留非常簡單,它們可以與 GPU (當您選擇新型號時) 和高效能 CPU 一起使用。

 

更大的啟動磁碟

雖然 GKE 允許您將多個持久卷 (persistent volume) 掛載到容器中,每個持久卷在容器中的任何路徑上最多可達 64TB,但為 Pod 提供更大的啟動磁碟讓您可以使用臨時儲存,而無需掛載單獨的卷。當使用 Performance 或 Accelerator 運算類別標籤時,您的工作負載現在可以消耗高達 122GiB 的暫存。需要更多嗎?那您可以安裝永久磁碟以進一步擴展。

 

預算救星:需要時才使用專用硬體!

您可能會想知道,一般 Autopilot Pod 與新型號能怎麼搭配呢?可以這樣想:如果您的工作負載需要專用的高效能 CPU 硬體 (例如 C3 機器提供的硬體),可以使用上述節點選擇器根據這些要求來註解該工作負載。

但是,如何支援與主要工作負載一起運行但不需要相同運算能力的工作負載呢?這就是 Autopilot 模式真正擅長的地方:預設情況下,所有其他工作負載將繼續在標準 Pod 模型上運行,為沒有高效能 CPU 需求的工作負載提供極高的 CP值。在 Autopilot 模式下,只需註解那些需要專用硬體 (如特定 GPU 或機器) 的工作負載,剩下的工作將由 Google Cloud 完成。將其他工作負載留空,Google Cloud 將確保它們不會意外地在專用硬體上運行。這樣,您就可以從每個執行環境中獲得最佳價值:Autopilot 中廣泛適用的預設值,以及在需要時的專用硬體。

 

聽聽 Google Cloud 客戶怎麼說

https://storage.googleapis.com/gweb-cloudblog-publish/images/contextual_ai.max-900x900.jpg

「在 Contextual AI,我們正在建立下一代檢索增強生成 (Retrieval Augmented Generation,RAG)。因果語言模型 (CLM) 經過端到端優化,可解決 RAG 1.0 的痛點並協助企業客戶建立生產級工作流程。為了實現這一目標,我們高度仰賴 GKE Autopilot – 完全託管的 Kubernetes 服務,能處理運行應用程式的複雜性。透過 GKE Autopilot,我們可以輕鬆擴展 Pod、優化資源利用率並確保節點的安全性和可用性。我們也利用新的計費模型,為我們的推理任務提供更具成本效益的 GPU,同時為非 GPU 服務使用一般的 Autopilot Pod。我們很高興能夠用 GKE Autopilot 支援 CLM,在節省成本的前提下提高效能。」Contextual AI 主任工程師 Soumitr Pandey

https://storage.googleapis.com/gweb-cloudblog-publish/images/hotspring.max-900x900.jpg

「我們選擇 GKE Autopilot 作為我們的 ML 基礎架構,因為它使團隊能專注於研究和開發,而非叢集管理。這種方法不僅可自動化整個區域叢集的資源配置,還能簡化我們的營運。 Autopilot 的最新增強功能尤其令人興奮!它們不僅提供統一的資源池,還導入了預留功能,讓我們能夠更好地管控專案期限。」Hotspring 執行長 Jon Mason

本文章翻譯並改寫自 Google Cloud 官方部落格