無論您所從事的是前沿AI模型的研究、新一代人工智慧應用的開發,或是複雜的優化模擬,這一新版本都為您提供了在性能、效率、可擴展性方面的高度提升。在本期博客中,我們將深入探討此次發布的5大核心功能提升,這些提升與功能的增強成就了這一版本的變革性,從而鞏固了AMD ROCm作為人工智慧和高性能計算開發平台的領先地位。
1> 在ROCm 6.2中擴展了vLLM支持——提升了AMD Instinct™加速器的AI推理能力
AMD 正在擴展對vLLM的支持,以提升AMD Instinct™加速器上AI模型的效率和可擴展性。vLLM專為大語言模型(LLMs)所設計,解決了關鍵的推理難題,例如,高效的多GPU並行運算、降低內存使用資源、最小化計算瓶頸。客戶可通過ROCm文檔中所提供的步驟來啟用vLLM中的各個上游功能,例如:多GPU並行運算、FP8 KV緩存(推理)等,以應對開發中的相關難題。若要觸及到尖端的功能特性,ROCm/vLLM分支還提供了高級實驗功能,例如:FP8 GEMMS(使用8位浮點數的數據類型進行矩陣乘法運算)、“自定義解碼分頁注意力”機制。需要使用這部分功能,請按照此處提供的步驟進行操作,並在克隆git倉庫是選擇rocm/vllm分支。或通過專用的Docker文件獲取(點此獲取)。
隨著ROCm 6.2版本的發布,AMD Instinct™的新、老用戶可以自信地將vLLM集成到AI流水線中,享受最新功能所帶了的性能和效率的提升。
2>ROCm中的Bitsandbytes量化技術支持——提升AMD Instinct™的AI訓練和推理能力,增強內存效率與性能
AMD ROCm所支持的Bitsandbytes量化庫為AI開發帶了革命性的變化,使得AMD Instinct™ GPU加速器上的內存效率和性能有了顯著提升。利用8位優化器可減少在AI訓練過程中對內存的占用,使得開發者可在有限的硬體資源下處理更複雜的模型。“LLM.Int8()”這一量化技術對AI進行了優化,使大語言模型(LLMs)可部署在內存容量較小的系統中。低比特量化技術可以加速AI訓練和推理,進而提升整體效率和生產力。
Bitsandbytes量化技術通過減少內存使用和計算需求,使得更多的用戶可以體驗到先進的AI功能,降低了使用成本,實現了AI開發的全民化,拓展了創新新機會。它所具備的可擴展性,能夠在現有硬體限制內有效管理更大的模型,同時保持接近32位精度版本的準確性。
開發者可以按照此鏈接中的說明,輕鬆將Bitsandbytes與ROCm集成,以便在AMD Instinct™ GPU加速器上進行高效的AI模型訓練和推理,同時降低內存和硬體要求。
3>全新的離線程序創建工具——簡化ROCm的安裝過程
ROCm離線安裝程序創建器為沒有網際網路訪問或本地倉庫鏡像的系統提供了一個完整的解決方案,從而簡化了安裝過程。它創建了一個包含所有必要依賴項的單一安裝程序文件,並提供了一個用戶友好的圖形界面,允許輕鬆選擇ROCm組件和版本,從而使部署變得簡單直接。該工具通過將功能集成到一個統一的界面中,降低了管理多個安裝工具的複雜性,提高了效率和一致性。此外,它還自動化了安裝後的任務,如用戶組管理和驅動程序處理,從而幫助確保安裝的正確性和一致性。
(圖示:簡化的ROCm安裝體驗——使用離線安裝程序創建器圖形界面)
ROCm離線安裝程序創建器從AMD資料庫和操作系統包管理器中下載並打包所有相關文件,有助於確保安裝過程正確且一致,從而降低出錯風險並提高系統整體穩定性。它非常適合沒有網際網路訪問的系統,同時也為IT管理員提供了一個簡化且高效的安裝過程,使ROCm在各種環境中的部署比以往任何時候都更加容易。
4>全新的Omnitrace和Omniperf性能分析工具(Beta版)——在AMD ROCm中引領AI與HPC開發的變革
全新的Omnitrace和Omniperf性能分析工具(Beta版)將通過提供全面的性能分析和簡化的開發工作流,引領ROCm中的AI和HPC開發革命。
Omnitrace提供了跨CPU、GPU、網絡接口控制器(NIC)和網絡結構的系統性能整體視圖,幫助開發者識別並解決瓶頸問題,而Omniperf則提供詳細的GPU內核分析以供微調。這些工具共同優化了應用程序整體和計算內核特定的性能,支持實時性能監控,有助於開發者在整個開發過程中做出明智的決策和調整。
(圖示:Omnitrace性能分析工具)
(圖示:Omniperf性能分析工具)
通過解決性能瓶頸問題,它們有助於確保資源得到高效利用,最終實現快速的AI訓練、推理和HPC模擬。
5>更加廣泛的FP8(數據處理方式)支持——通過使用ROCm 6.2增強AI推理能力
ROCm中的廣泛FP8(數據處理方式)支持可以顯著提升運行AI模型的進程,尤其是在推理方面,它有助於關鍵問題的解決,如內存瓶頸和與更高精度格式相關的高延遲問題,使得在相同的硬體限制下能夠處理更大的模型或批次,從而實現更高效的訓練和推理過程。此外,FP8(數據處理方式)的降低精度計算可以減少數據傳輸和計算中的延遲。
ROCm 6.2在其生態系統中擴展了對FP8(數據處理方式)的支持,實現了從框架到庫等各個方面的性能和效率的提升。
-
Transformer Engine:通過HipBLASLt,在PyTorch和JAX中增加了FP8 GEMM支持,與FP16/BF16相比,最大限度地提高了吞吐量並降低了延遲。
-
XLA FP8:JAX和Flax現在通過XLA支持FP8 GEMM,以提升性能。
-
vLLM集成:進一步優化了具備FP8能力的vLLM。
-
FP8 RCCL:RCCL現在處理FP8特定的集合操作,擴展了其多功能性。
-
MIOPEN:支持基於FP8的Fused Flash注意力機制,提高效率。
-
統一FP8標頭文件:跨庫標準化FP8標頭文件,簡化開發和集成過程。
憑藉ROCm 6.2,AMD再次展示了了其為AI(人工智慧)和HPC(高性能計算)領域提供強大、有競爭力且富有創新性解決方案的承諾。此版本的發布,意味著開發人員擁有了突破邊界所需的工具和支持,這也進一步增強了ROCm作為下一代計算任務首選開放平台的信心。請與我們一同接納這些進步,將您的項目提升至前所未有的性能和效率水平。
評論