“源神”DeepSeek 突破H800性能上限 FlashMLA重磅開源算力成本還能降

來源：量子位

DeepSeek開源周第一天，降本大法公開——

FlashMLA，直接突破H800計算上限。

它是為HopperGPU開發的高效MLA解碼內核，專門針對可變長度序列進行了優化，目前已經投入生產。

MLA，正是DeepSeek提出的創新注意力架構。從V2開始，MLA使得DeepSeek在系列模型中實現成本大幅降低，但是計算、推理性能仍能與頂尖模型持平。

按照官方介紹來說，FlashMLA使用之后，H800可以達到3000GB/s內存，實現580TFLOPS計算性能。

網友們紛紛點贊：向工程團隊致以崇高的敬意，從Hopper的張量核中擠出了每一個FLOP。這就是我們將LLM服務推向新前沿的方式！

已經有網友用上了。

開源第一天：FlashMLA

目前GitHub頁面已經更新。短短一小時，Star星數已經超過1.2k。

此次已經發布：

支持BF16；

分頁KV緩存，塊大小為64

快速啟動：

FlashAttention是能實現快速且內存高效的精確注意力，主流大模型都有在用。最新的第三代，可以讓H100利用率飆升至75%。訓練速度提升1.5-2倍，FP16下計算吞吐量高達740TFLOPs/s，達理論最大吞吐量75%，更充分利用計算資源，此前只能做到35%。

核心作者是TriDao，普林斯頓大牛，TogetherAI的首席科學家。

而英偉達CUTLASS是CUDAC++模板抽象的集合，用于在CUDA內實現高性能矩陣-矩陣乘法(GEMM)和所有級別和規模的相關計算。MLA，DeepSeek基本架構

最后再來說說，MLA，多頭潛在注意力機制，DeepSeek系列模型的基本架構，旨在優化Transformer模型的推理效率與內存使用，同時保持模型性能。

它通過低秩聯合壓縮技術，將多頭注意力中的鍵（Key）和值（Value）矩陣投影到低維潛在空間，從而顯著減少鍵值緩存（KVCache）的存儲需求。這種方法在長序列處理中尤為重要，因為傳統方法需要存儲完整的KV矩陣，而MLA通過壓縮僅保留關鍵信息。

V2版本中，這一創新性架構把顯存占用降到了過去最常用的MHA架構的5%-13%，實現了成本大幅降低。它的推理成本僅為Llama370B的1/7、GPT-4Turbo的1/70。

而在V3，這一降本提速就更為明顯，直接讓DeepSeek吸引全球目光。

Thewhaleismakingwaves！鯨魚正在掀起波浪！

好了期待一下，接下來的四天會發些什么呢？

久久久精品国产免大香伊-99国产精品无码-一区二区国产精品精华液-亚洲国产精品久久久久网站-九九99亚洲精品久久久久