高效能運算 (HPC) 已成為科學發現、工程創新和業務轉型不可或缺的工具。然而,部署和管理 HPC 環境可能非常複雜且耗時,通常也需要大量專業知識。
為了應對這些挑戰,Google Cloud 開發了 Cloud HPC Toolkit,這是一個開源工具包,可簡化 Google Cloud 上 HPC 工作負載、環境的部署和管理。該工具包使用基礎設施即程式碼 (IaC) 方法,其中環境以人類可讀的 YAML 藍圖描述。它還提供了一組工具,可以自動執行設定和管理 HPC 叢集所涉及的許多任務,使用戶能夠更輕鬆地開始使用 Google Cloud 上的 HPC。
Google Cloud 客戶和 Google 團隊一直在使用 Toolkit 來配置各種 HPC 環境:從使用 Slurm scheduler 的簡單自動擴展 HPC 環境,到為整個組織提供不同工作負載的繁雜 HPC 叢集。從利用 Google Batch 或 Google Kubernetes Engine (GKE) 的 HPC 環境,到利用 Google Cloud 上提供的合作夥伴技術的環境。對於 AI/ML 工作負載,Google Cloud 使用 Cloud HPC Toolkit 來配置基於 GPU 的客製化 HPC 環境,其中 NVIDIA GPU 隨時可以微調和訓練 AI/ML 模型。
Cloud HPC Toolkit 藍圖目錄是什麼?
Cloud HPC Toolkit 藍圖目錄旨在讓任何人都能輕鬆利用各種 HPC 環境。藍圖目錄提供了任何藍圖中關鍵資訊和技術的易於理解的 breakdown,並允許您篩選出滿足您需求的藍圖。
Cloud HPC Toolkit 藍圖目錄是一組預先設定的藍圖,提供部署常見 HPC 工作負載所需的一切內容,讓您可以輕鬆開始在 Google Cloud 上使用 HPC。這些藍圖作為模板,提供各種 HPC 場景的最佳實踐和配置,從而簡化了部署過程。Cloud HPC Toolkit 將這些藍圖作為輸入,並在雲端中配置相應的基礎架構。
透過 Cloud HPC Toolkit 藍圖目錄,您可以快速部署和設定根據您特定需求量身定制的 HPC 環境,而無需從頭開始手動設定和配置每個元件。它們還可以根據用戶特定要求進行擴展,例如特定軟體的安裝。這不僅節省了時間和精力,還降低了部署過程中出現錯誤和不一致的風險。
Cloud HPC Toolkit 藍圖目錄使用情境
除了通用和面向合作夥伴的藍圖之外,Cloud HPC Toolkit 藍圖目錄 現在還包括一組針對特定行業和應用程式量身定制的新用例藍圖。這些藍圖為在特定領域部署 HPC 工作負載提供了更簡化和最佳化的起點。
藍圖目錄 包括基於流行的 HPC scheduler (如 Slurm、HTCondor 和 PBS Pro) 部署叢集的藍圖,這些 scheduler 負責管理和分配 HPC 叢集內的資源。該目錄還包括具有常見儲存選項的藍圖,例如 Filestore、Google Cloud Storage FUSE 或 DDN EXAScaler。這些藍圖為流行的 HPC scheduler 和儲存解決方案提供了即用型設置,確保最佳的資源利用率和簡單、可靠的部署。
作為生命科學 HPC 解決方案的一部分,Google Cloud 提供了用於運行基因組學和藥物發現工作負載(如 GROMACS)的預先配置藍圖。電腦輔助工程解決方案(見上圖)專為運行模擬和設計最佳化任務而定制,包括流行的 CAE 應用程式藍圖,包括 Siemens Star-CCM+、OpenFOAM 和 ANSYS Fluent。天氣預報解決方案針對氣候模型和低延遲、緊密耦合的工作負載進行了最佳化,並包含 WRFV3 的藍圖。這些藍圖提供了運行這些應用程式的預先配置環境,包括必要的軟體依賴項和最佳化設定。
對於機器學習工作負載,Google Cloud 支援最新的 GPU 機器類型,並在具有 Slurm 的 Compute Engine 上提供通用的、支援 ML 的環境,包括對 GPU 和 TPU 以及 Google Kubernetes Engine 的支援。Google Cloud 也提供了使用 QSim 的量子計算模擬藍圖。
Google Cloud 不斷擴展 藍圖目錄,以涵蓋越來越多的 HPC 場景,確保使用者能夠為其工作負載存取最新、最有效的配置。這項持續的開發凸顯了 Cloud HPC Toolkit 致力於為用戶提供全面且最新的 HPC 部署工具包的承諾。
Cloud HPC Toolkit 近期革新
除了新的用例藍圖目錄和新藍圖之外,Google Cloud 還不斷改進 Cloud HPC Toolkit 本身。在最新的版本中,Google Cloud 透過新功能和革新增強了工具包,包括以下:
- 支援 H3 和 A3 VMs
- 支援 Shielded VMs
- Spack 支援、公開建置快取和模組重新設計
- 改善的錯誤訊息和錯誤處理
- 改善的 Chrome 遠端桌面支援
- 最新的 DDN EXAScaler 支援
- 改善的 HTCondor 支援
- 最新的 Slurm on Google Cloud 支援
- GKE 的 Native Filestore 與 Google Cloud Storage 支援
簡而言之,Cloud HPC Toolkit 是一款功能強大的工具,可以幫助各種規模的組織在 Google Cloud 上部署和管理 HPC 工作負載。Cloud HPC Toolkit 的藍圖目錄以及最新的增強功能讓您可以更輕鬆地開始使用 Google Cloud 上的 HPC。
若您的組織目前尚未開始使用 Google Cloud 或 Google Workspace,可以聯繫 Google Cloud 菁英合作夥伴宏庭科技,宏庭提供獨家售前導入諮詢與購買 Google Cloud、Google Workspace 後的專業技術支援,解決您的資料搬遷煩惱及使用上的各種疑難雜症。更重要的是,宏庭科技持續提供客戶第一手 Google Cloud、Google Workspace 最新消息、科技新知電子報與主題豐富的線上研討會/實體工作坊。歡迎填寫連絡表單,讓宏庭科技的專屬顧問團隊帶領您的組織安心擁抱雲端!
本文章翻譯並改寫自 Google Cloud 官方部落格。