MXFP4 革命:4 位 AI 量化終極指南

Avilas

人工智能的爆炸性增長已經觸及“內存牆”,其中性能不僅受到計算速度的限制,而且受到數據移動的限制。 MXFP4 是一種突破性的 4 位數據格式,旨在解決這一瓶頸。本綜合指南深入探討了 MXFP4 革命,涵蓋了從核心技術和硬件支持(NVIDIA、AMD、Intel)到分步 PyTorch 實施教程、性能基準和決策指南的所有內容,可幫助您確定 4 位 AI 是否適合您的項目。

GigXP.com | MXFP4 革命:深入探討 4 位 AI

GigXP.com

技術深度探討
硬體
開發者手冊
決策指南
表現
常問問題

人工智能計算解釋

新的 4 位數據格式如何重塑人工智能的格局,從大規模數據中心到高端邊緣,以及它對開發人員和模型效率的未來意味著什麼。

人工智能模型的不斷增長遇到了一個根本瓶頸:“記憶牆”。我們的計算速度比以往任何時候都快,但是將 GPT-3 等模型的大量權重從內存轉移到處理器會減慢我們的速度。為了解決這個問題,業界聚集在一個新的開放標準周圍:微尺度 FP4 (MXFP4)。本文探討了這種改變遊戲規則的 4 位格式的技術、硬件、軟件和現實世界的影響。

信息圖:“內存牆”問題

GPU計算能力

快速增長(TOPS)

>>

內存帶寬

增長緩慢

MXFP4縮小了模型數據,減少了內存帶寬的負載,突破了牆壁。

技術深入探討:MXFP4 剖析

MXFP4 不僅數量少,而且數量少。這是一個聰明的系統。它使用一個塊浮點表示,其中一組低精度數字共享一個更精確的縮放因子。這結合了 4 位數字的內存節省和浮點的數值穩定性。

信息圖:MXFP4 編號是如何構建的

32 個元素塊

E2M1
E2M1
……
E2M1

每個都是 4 位浮點數

+

共享規模

E8M0

整個塊的一個 8 位指數

結果是有效位寬4.25位,提供巨大的動態範圍和極小的內存佔用。

“直接競爭對手組建 MX 聯盟有力地表明,OCP MXFP4 是一個基礎性的、可互操作的基線,是行業構建的通用語言。”

硬件生態系統:誰支持 MXFP4?

收養就是一切。如果沒有硬件來運行新格式,它就毫無用處。以下是當前的情況,從最新 GPU 的本機加速到現有硬件上的巧妙軟件模擬。

全部
英偉達
AMD
英特爾
原生支持
仿真

小販 產品 支持水平
英偉達 Blackwell(B200、RTX 50 系列) 原生加速
英偉達 料斗 (H100)、Ada(RTX 40 系列) 優化的仿真
AMD cDNA 3 (MI300X) 基於庫(仿真)
英特爾 Xeon 6(P 核) 原生加速
通用的 x86 CPU、Apple 芯片 優化仿真 (llama.cpp)

關於雲人工智能基礎設施的說明

Microsoft Azure 等主要雲提供商是 MX 聯盟的主要成員,並公開認可該標準。但是,使用本機 MXFP4 硬件(即 NVIDIA Blackwell GPU)的特定 VM 實例的推出仍在進行中。雖然您可以通過仿真在現有云 GPU(如 H100)上運行 MXFP4 模型,但要解鎖完整的計算加速,需要在這些下一代實例普遍可用時訪問它們。

軟件和開發人員工具

優秀的硬件需要優秀的軟件。在應用級需求的推動下,MXFP4 生態系統發展迅速。以下是您今天在項目中實現它的方法,從 PyTorch 到 Hugging Face。

一個令人著迷的“反轉”發生了:像“vLLM”和“llama.cpp”這樣的高級庫帶頭衝鋒,在 PyTorch 等核心框架提供本機支持之前實現自定義內核。這種應用程序驅動的模型極大地加速了採用。

使用 MXFP4 和 Hugging Face“變形金剛”


# It's this simple to load a model like gpt-oss
# The library handles hardware detection and kernel selection automatically.

from transformers import pipeline

# Use "auto" to let the library select the best dtype (MXFP4 on compatible HW)
pipe = pipeline(
    "text-generation", 
    model="openai/gpt-oss-20b", 
    torch_dtype="auto", 
    device_map="auto"
)

# Ready to generate text!
result = pipe("The future of AI compute is...")
                    

TensorFlow 差距

與 PyTorch 生態系統形成鮮明對比的是,目前TensorFlow 不支持 MXFP4 數據格式。在可預見的未來,希望利用 MXFP4 的開發人員必須在 PyTorch 生態系統中工作。

開發人員手冊:MXFP4 量化指南

雖然使用預量化模型非常簡單,但您通常需要將自己的 FP16 或 BF16 模型轉換為 MXFP4。這個過程稱為訓練後量化 (PTQ),可以使用為最新硬件設計的現代庫輕鬆完成。

信息圖:訓練後量化 (PTQ) 工作流程

1

加載FP16型號

從標準 16 位格式的訓練模型開始。

2

定義量化配置

指定目標格式(MXFP4 或 NVFP4)和設置。

3

量化並保存

應用配置並保存壓縮模型。

專為 NVIDIA Blackwell 架構設計的“FP-Quant”庫為此過程提供了一個簡單的 API。以下是如何將標準模型轉換為 NVFP4(通常因其更高的精度而受到青睞)。

教程:使用“FP-Quant”將 FP16 模型轉換為 NVFP4


# Ensure you have installed transformers, torch, and fp-quant
# pip install transformers torch fp-quant

from transformers import AutoModelForCausalLM
from fp_quant import FPQuantConfig

# 1. Define the quantization configuration
# We choose 'nvfp4' for best accuracy on Blackwell GPUs.
# 'mxfp4' is also an option for the open standard.
quantization_config = FPQuantConfig(mode="nvfp4")

# 2. Load the original FP16 model and apply the quantization config
# The library will convert the weights on-the-fly.
model_id = "meta-llama/Llama-2-7b-hf"
quantized_model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=quantization_config,
    torch_dtype="bfloat16", # Load original weights in bf16
    device_map="auto"
)

# 3. The model is now quantized and ready for inference or saving
print("Model successfully quantized to NVFP4!")

# To save the quantized model for later use:
# quantized_model.save_pretrained("./llama-2-7b-nvfp4")
                    

MXFP4 適合您嗎?決策指南

在復雜的硬件和軟件生態系統中,選擇正確的量化策略可能令人畏懼。使用此決策樹來確定 MXFP4 是否是您項目的最佳路徑。

從這裡開始:您的主要目標是什麼?

最大推理速度

您有 Blackwell (B200/RTX 50) 硬件嗎?

使用NVFP4/MXFP4。您擁有比 FP8 加速 2 倍的理想硬件。
使用FP8。在 Hopper/Ada 上,它提供最佳速度。 MXFP4 僅提供內存優勢。

最大程度節省內存

需要在一個 GPU 上安裝一個巨大的模型(例如,>80B)?

MXFP4 必不可少。這是將模型擬合到 VRAM 中的關鍵。
考慮FP8。這是一個強大的替代方案,可以節省大量內存。

研究/模型訓練

您對實驗性、研究級代碼感到滿意嗎?

探索MXFP4 訓練食譜。為複雜的研究項目做好準備。
堅持BF16/FP16。 4 位訓練生態系統尚未成熟,無法普遍使用。

本地/業餘愛好者使用

使用消費級 GPU (RTX 30/40/50) 還是強大的 CPU?

使用帶有 MXFP4 的“llama.cpp”模型。它針對本地硬件進行了高度優化。
MXFP4要求太高了。使用通過 `llama.cpp` 進行 INT4/INT8在較小的型號上。

性能:準確性、速度和效率

最終的考驗是性能。這涉及模型精度、推理速度和能源效率之間的三向權衡。現在真正的爭論在於更細粒度的問題:哪種 4 位浮點數最好,需要什麼配方來釋放其潛力?

低精度格式對決

特徵 MXFP4(OCP) NVFP4(NVIDIA) FP8 INT4
塊大小 32 16 不適用 每組
比例因子 E8M0(二的冪) E4M3 FP8(小數) 每個張量浮點數 每組浮動
需要校準嗎? 否(推薦) 是(關鍵)
主要優勢 開放標準 最高準確度 穩健的基線 硬件簡單
主要缺點 不如 NVFP4 準確 所有權 更高的記憶力 遭受異常值之苦

基準:LLM 困惑度(越低越好)

此圖表顯示了不同的量化方法如何縮小 LLaMA-2-7B 模型上 MXFP4 和 BF16 基線之間的精度差距。

基準:相對推理加速(令牌/秒)

此圖表說明了與 16 位基準相比,使用較低精度格式時本機硬件(如 NVIDIA Blackwell)理論上的端到端推理吞吐量增益。

效率紅利:每瓦性能

使用更少比特的直接後果是減少能耗。這種效率的提高對於降低數據中心運營成本和在功耗受限的設備上實現強大的人工智能至關重要。

更少的位

更少的數據移動

降低能源消耗

更高的 TFLOPS/瓦

在物理層面上,每個操作(移動數據、執行算術)都會消耗能量。與 FP16 相比,MXFP4 將每個值的位數減少了 75%,從根本上降低了內存訪問和計算所需的能量,從而在給定的功率範圍內最大限度地提高了性能。

實際應用和案例研究

MXFP4 的理論優勢正在越來越多的實際應用中得到驗證。這些案例研究不僅證明了 4 位人工智能的技術可行性,還證明了它對模型可訪問性和性能的戰略影響。

案例研究 1:“gpt-oss”和大型模型的民主化

挑戰:專家混合 (MoE) 內存負擔

像“gpt-oss”這樣的 MoE 模型具有大量參數,但對於任何給定的輸入僅使用一小部分。這造成了巨大的內存容量問題:所有專家的權重都必須存儲在 VRAM 中,即使它們處於非活動狀態。

MXFP4 解決方案:定向量化

通過將龐大但很少使用的專家層量化為 MXFP4,1200 億個參數模型被壓縮以適應約 63 GB 的 VRAM,使其可以在單個 H100 GPU 上運行,並將最先進的 AI 帶給更廣泛的受眾。

案例研究 2:通過 4 位訓練推進計算機視覺

挑戰:ViT 中的量化靈敏度

視覺變換器 (ViT) 與 NLP 對應物一樣,比舊的 CNN 對量化更敏感。以非常低精度的格式從頭開始訓練它們而不顯著降低準確性一直是一個持續的研究挑戰。

“TetraJet” 突破:近乎無損的精度

研究人員開發了一種新穎的訓練方法(“TetraJet”)來穩定 ViT 的 MXFP4 訓練。結果非常顯著:在 MXFP4 中訓練的 Swin-Tiny 模型與 16 位模型相比,準確度僅下降了 0.18%,證明 4 位模型對於高精度視覺任務是可行的。

戰略展望和最佳實踐

為了成功駕馭 MXFP4 生態系統,開發人員應採用一種戰略方法,將目標與可用硬件和軟件的功能相結合,同時預測低精度 AI 的未來。

另請閱讀:如何在 PC 和 Mac 上玩《漫威未來革命》

MXFP4 採用的最佳實踐

  1. 首先優先考慮推理:MXFP4 最直接的好處在於推理。首先運行預量化模型,無需複雜的 4 位訓練即可實現顯著的成本和性能提升。
  2. 使硬件與工作負載保持一致:為了獲得最大速度,請使用具有本機 FP4 支持的 Blackwell 級硬件。為了節省內存和開發,Hopper 級 GPU 是一個可行的選擇,但要了解計算是模擬的。
  3. 擁抱先進的食譜:不要指望“直接投射”能夠完美地工作。高精度需要使用或實施具有非對稱縮放和專門優化器等技術的高級配方。
  4. 調整塊大小:塊大小是平衡準確性和開銷的關鍵槓桿。較小的塊(如 NVFP4 的 16)可以通過隔離異常值來提高準確性,而較大的塊(如 OCP 標準 32)則更節省內存。

未來是異構的

OCP 標準是基礎,而不是終點。未來在於“異構量化”,其中模型的不同部分在單層甚至單個塊內量化為不同格式(例如 MXFP8、MXFP6、MXFP4),以最佳地平衡精度和性能。

常見問題解答

簡單來說,MXFP4 是什麼?

MXFP4 是一種 4 位浮點數格式,旨在使 AI 模型更小、更快。將其視為一種智能壓縮技術。它不是以全精度存儲每個數字,而是以低精度存儲一組數字(在“塊”中),然後對整個組使用單個共享縮放因子。這使其具有像更大數字一樣的寬動態範圍,但具有 4 位數字的微小內存佔用,這有助於突破現代 GPU 中的“內存牆”瓶頸。

MXFP4 和 NVFP4 有什麼區別?

兩者都是 4 位格式,但它們在兩個關鍵方面有所不同,這些方面犧牲了互操作性和準確性:

  • 塊大小:MXFP4(開放標準)使用的塊大小為 32。 NVFP4(NVIDIA 專有版本)使用較小的塊大小 16。較小的塊可以更好地適應數據的局部變化,這通常會提高準確性。
  • 比例因子:MXFP4 使用粗略的二次方縮放因子 (E8M0)。 NVFP4 使用更精確的 FP8 縮放因子 (E4M3)。這使得 NVFP4 能夠以較小的量化誤差表示數據。

簡而言之,NVFP4 通常更準確, 儘管MXFP4 是開放的、可互操作的標準得到更廣泛的行業聯盟的支持。

我可以在當前的 GPU(例如 H100、RTX 4090)上使用 MXFP4 嗎?

是的,但有一個重要的區別。在 NVIDIA Hopper (H100) 和 Ada(RTX 40 系列)GPU 上,通過軟件模擬支持 MXFP4。這意味著您獲得的主要好處是節省內存,允許您運行更大的模型,但您不會看到完整的計算加速。 MXFP4 操作在這些卡上以 FP8 速度運行。

為了得到完整的2 倍計算加速通過 FP8,您需要具有本機支持的硬件,其中包括 NVIDIA 的 Blackwell(B200、RTX 50 系列)GPU 和英特爾即將推出的 Xeon 6(P 核)CPU。

TensorFlow 支持 MXFP4 嗎?

不可以。目前,TensorFlow 或 TensorFlow Lite 不支持 MXFP4 數據格式。 MXFP4 的生態系統幾乎完全圍繞 PyTorch 以及與其集成的庫構建,例如 Hugging Face“transformers”、“vLLM”和 NVIDIA 的 TensorRT。在可預見的未來,希望使用 MXFP4 的開發人員必須在 PyTorch 生態系統中工作。

結論:MXFP4 準備好迎接黃金時段了嗎?

對於大規模推理:是的,絕對可以。

在“gpt-oss”等模型和強大的庫支持的驅動下,MXFP4 已可用於推理生產,提供巨大的成本和吞吐量優勢。

對於模型訓練:有條件地。

為具有深厚工程專業知識的高級研究團隊做好了準備,但對於普通從業者來說還不是主流、易於使用的選擇。

對於邊緣和移動:僅適用於“高端邊緣”。

適用於功能強大的工作站和高端 PC,但對於低功耗移動和嵌入式設備仍遠未實用。

GigXP.com

© 2024 GigXP.com。版權所有。探索人工智能和計算的未來。