Galaxy Research:Decentralization人工智能訓練架構、機遇與挑戰
作者:LucasTcheyan、ArjunYenamandra,來源:GalaxyResearch,編譯:金色財經簡介
去年,GalaxyResearch發表了首篇關于Crypto與人工智能交叉領域的文章。文章探討了Crypto無需信任和無需許可的基礎設施如何成為人工智能創新的基礎。其中包括:為應對圖形處理器(GPU)短缺而興起的處理能力(或稱計算)去中心化市場的出現;零知識機器學習(zkML)早期在可驗證的鏈上推理方面的應用;以及自主人工智能代理簡化復雜交互并使用Crypto作為原生交換媒介的潛力。
當時,許多此類舉措尚處于萌芽階段,只是一些引人注目的概念驗證,暗示著其相比中心化方案具有實際優勢,但規模尚未擴大到足以重塑人工智能格局。然而,自那以后的一年里,去中心化人工智能在實現方面取得了有意義的進展。為了抓住這一勢頭并發掘最具前景的進展,GalaxyResearch將在未來一年發布一系列文章,深入探討加密+人工智能前沿領域的特定垂直領域。
本文首發于去中心化訓練,重點介紹致力于在全球范圍內實現基礎模型無許可訓練的項目。這些項目的動機是雙重的。從實踐角度來看,他們認識到全球大量閑置的GPU可以用于模型訓練,從而為世界各地的AI工程師提供原本難以承受的訓練流程,并使開源AI開發成為現實。從理念角度來看,這些團隊的動機在于領先的中心化AI實驗室對我們這個時代最重要的技術革命之一的嚴格控制,以及創造開放替代方案的迫切需求。
更廣泛地講,對于加密領域而言,實現基礎模型的去中心化訓練和后續訓練,是構建完全鏈上AI堆棧的關鍵一步,該堆棧無需許可,且在每一層均可訪問。GPU市場可以接入模型,提供訓練和推理所需的硬件。zkML提供商可用于驗證模型輸出并保護隱私。AI代理可以作為可組合的構建塊,將模型、數據源和協議組合成更高階的應用程序。
本報告探討了去中心化人工智能協議的底層架構、其旨在解決的技術問題以及去中心化訓練的前景。Crypto與人工智能的底層前提與一年前相比保持不變。Crypto為人工智能提供了一個無需許可、無需信任且可組合的價值轉移結算層,F在的挑戰是證明去中心化方法能夠比中心化方法帶來實際優勢。 模型訓練基礎
在深入了解去中心化訓練的最新進展之前,有必要先對大型語言模型(LLM)及其底層架構有一個基本的了解。這將有助于讀者理解這些項目的工作原理,以及它們試圖解決的主要問題。 Transformer
大型語言模型(LLM)(例如ChatGPT)由一種稱為Transformer的架構提供支持。Transformer最早在2017年谷歌的一篇論文中提出,是人工智能開發領域最重要的創新之一。簡而言之,Transformer會提取數據(稱為token),并應用各種機制來學習這些token之間的關系。
詞條之間的關系使用權重進行建模。權重可以被認為是構成模型的數百萬到數萬億個旋鈕,它們不斷被調整,直到能夠一致地預測序列中的下一個詞條。訓練完成后,模型基本上可以捕捉人類語言背后的模式和含義。
Transformer訓練的關鍵組成部分包括:
前向傳遞:在訓練過程的第一步,Transformer會從更大的數據集中輸入一批token;谶@些輸入,模型會嘗試預測下一個token應該是什么。在訓練開始時,模型的權重是隨機的。
損失計算:前向傳播預測隨后會用于計算損失分數,該分數衡量這些預測與輸入模型的原始數據批次中實際標記的差距。換句話說,模型在前向傳播過程中產生的預測與用于訓練它的更大數據集中的實際標記相比如何?在訓練過程中,目標是降低這個損失分數,以提高模型的準確性。
反向傳播:然后使用損失分數計算每個權重的梯度。這些梯度告訴模型如何在下一次前向傳播之前調整權重以減少損失。
Optimizer更新:Optimizer算法讀取這些梯度并調整每個權重以減少損失。
重復:重復上述步驟,直到所有數據都已消耗并且模型開始達到收斂-換句話說,當進一步的優化不再產生顯著的損失減少或性能改進時。 訓練(預訓練和后訓練)
完整的模型訓練過程包含兩個獨立的步驟:預訓練和后訓練。上述步驟是預訓練過程的核心組成部分。完成后,它們會生成一個預先訓練的基礎模型,通常稱為基礎模型。
然而,模型在預訓練后通常需要進一步改進,這被稱為后訓練。后訓練用于以各種方式進一步改進基礎模型,包括提高其準確性或針對特定用例(例如翻譯或醫學診斷)進行定制。
后訓練是讓大型語言模型(LLM)成為如今強大工具的關鍵一步。后訓練有幾種不同的方法。其中最流行的兩種是:
監督微調(SFT): SFT與上述預訓練過程非常相似。主要區別在于,基礎模型基于更精心策劃的數據集或提示和答案進行訓練,因此它可以學習遵循特定指令或專注于某個領域。
強化學習(RL): RL并非通過輸入新數據來改進模型,而是通過對模型的輸出進行獎勵評分,并讓模型更新權重以最大化該獎勵。最近,推理模型(下文將介紹)已使用RL來改進其輸出。近年來,隨著預訓練擴展問題不斷涌現,在訓練后使用RL和推理模型取得了重大進展,因為它無需額外數據或大量計算即可顯著提升模型性能。
具體來說,RL后訓練非常適合解決分散訓練中面臨的障礙(如下所述)。這是因為在RL中大多數時間,模型使用前向傳遞(模型進行預測但尚未改變自身)生成大量輸出。這些前向傳遞不需要機器之間的協調或通信,并且可以異步完成。它們也是可并行的,這意味著它們可以分解為可在多個GPU上同時執行的獨立子任務。這是因為每個rollout都可以獨立計算,只需添加計算即可通過訓練運行來擴大吞吐量。只有在選出最佳答案后,模型才會更新其內部權重,從而降低機器需要同步的頻率。
模型訓練完成后,使用它來生成輸出的過程稱為推理。與需要調整數百萬甚至數十億個權重的訓練不同,推理會保持這些權重不變,并簡單地將它們應用于新的輸入。對于大型語言模型(LLM)來說,推理意味著獲取一個提示,將其運行到模型的各個層,并一步一步地預測最可能的下一個標記。由于推理不需要反向傳播(根據模型的誤差調整權重的過程)或權重更新,因此它在計算方面的要求遠低于訓練,但由于現代模型的規模龐大,它仍然是資源密集型的。
簡而言之:推理是聊天機器人、代碼助手和翻譯工具等應用程序的驅動力。在這個階段,模型將其“學到的知識”付諸實踐。 訓練開銷
促進上述訓練過程需要資源密集型,并且需要高度專業化的軟件和硬件才能大規模運行。世界領先的人工智能實驗室的投入已達到前所未有的水平,從數億美元到數十億美元不等。OpenAI首席執行官SamAltman表示,GPT-4的訓練成本超過1億美元,而Anthropic首席執行官DarioAmodei則表示,超過10億美元的訓練項目已在進行中。
這些成本的很大一部分來自GPU。像NVIDIA的H100或B200這樣的頂級GPU,單價高達3萬美元,據報道,OpenAI計劃到2025年底部署超過一百萬個GPU。然而,僅有GPU的強大功能是不夠的。這些系統必須部署在配備超高速通信基礎設施的高性能數據中心。NVIDIANVLink等技術支持服務器內GPU之間的快速數據交換,而InfiniBand則連接服務器集群,使它們能夠作為單一、統一的計算結構運行。
背景
NousResearch成立于2022年,是一家開源AI研究機構。該團隊最初是一個由開源AI研究人員和開發者組成的非正式團體,致力于解決開源AI代碼的局限性。其使命是“創造并提供最佳的開源模型”。
團隊很早就將去中心化訓練視為主要障礙。具體來說,他們意識到,GPU的訪問以及協調GPU之間通信的工具主要是為了迎合大型中心化AI公司而開發的,這使得資源受限的組織幾乎沒有空間參與到有意義的開發中。例如,NVIDIA最新的BlackwellGPU(例如B200)可以使用NVLink交換系統以高達每秒1.8TB的速度相互通信。這可與主流互聯網基礎設施的總帶寬相媲美,并且只有在中心化、數據中心規模的部署中才能實現。因此,小型或分布式網絡幾乎不可能在不重新思考通信策略的情況下達到大型AI實驗室的性能。
在著手解決去中心化訓練問題之前,Nous已經為人工智能領域做出了重大貢獻。2023年8月,Nous發表了《YaRN:大型語言模型的高效上下文窗口擴展》。這篇論文解決了一個簡單但重要的問題:大多數人工智能模型一次只能記住和處理固定數量的文本(即它們的“上下文窗口”)。例如,一個以2,000字為限制進行訓練的模型,如果輸入的文檔更長,很快就會開始忘記或丟失信息。YaRN引入了一種進一步擴展此限制的方法,而無需從頭開始重新訓練模型。它調整了模型跟蹤單詞位置的方式(就像書中的書簽一樣),這樣即使文本長達數萬字,它仍然可以跟蹤信息流。該方法允許模型處理最多128,000個標記的序列——大約相當于馬克·吐溫的《哈克貝利·費恩歷險記》的長度——同時使用的計算能力和訓練數據比舊方法少得多。簡而言之,YaRN使AI模型能夠一次性“閱讀”并理解更長的文檔、對話或數據集。這是AI能力擴展的一大進步,并已被包括OpenAI和中國的Deepseek在內的更廣泛的研究社區所采用。
DeMo和DisTro
2024年3月,Nous發表了一項分布式訓練領域的突破性成果,名為“DecoupledMomentumOptimization”(DeMo)。DeMo由Nous研究人員BowenPeng和JeffreyQuesnelle與DiederikP.Kingma(OpenAI聯合創始人兼AdamW優化器發明者)合作開發。它是Nous去中心化訓練棧的主要構建模塊,通過減少GPU之間交換的數據量,降低了分布式數據并行模型訓練設置中的通信開銷。在數據并行訓練中,每個節點都保存模型權重的完整副本,但數據集會被拆分成由不同節點處理的塊。
AdamW是模型訓練中最常用的優化器之一。AdamW的一個關鍵功能是平滑所謂的動量(momentum),即模型權重過去變化的運行平均值。本質上,AdamW有助于消除數據并行訓練過程中引入的噪聲,從而提高訓練效率。NousResearch基于AdamW和DeMo創建了一個全新的優化器,將動量拆分為本地部分和跨不同訓練器的共享部分。這通過限制節點之間必須共享的數據量,減少了節點之間所需的通信量。
DeMO選擇性地關注每個GPU迭代過程中變化最快的參數。其邏輯很簡單:變化較大的參數對學習至關重要,應該在優先級更高的工作器之間同步。同時,變化較慢的參數可以暫時滯后,而不會顯著影響收斂。實際上,這可以過濾掉噪聲更新,同時保留最有意義的更新。Nous還采用了壓縮技術,包括一種類似于JPEG壓縮圖像的離散余弦變換(DCT)方法,以進一步減少發送的數據量。通過僅同步最重要的更新,DeMO將通信開銷降低了10倍到1,000倍(具體取決于模型大。。
2024年6月,Nous團隊推出了他們的第二項重大創新,即DistributedTrainingOptimizer(DisTro)。DeMo提供了核心的優化器創新,而DisTro則將其整合到一個更廣泛的優化器框架中,該框架進一步壓縮了GPU之間共享的信息,并解決了GPU同步、容錯和負載平衡等問題。2024年12月,Nous利用DisTro在類似LlaMA的架構上訓練了一個包含150億個參數的模型,證明了該方法的可行性。
Psyche
今年五月,Nous發布了Psyche,這是一個用于協調去中心化訓練的框架,在DeMO和DisTro優化器架構上進行了進一步的創新。Psyche的主要技術升級包括:通過允許GPU在開始下一步訓練時發送模型更新,改進了異步訓練。這最大限度地減少了空閑時間,并使GPU的利用率更接近集中式、緊密耦合的系統。Psyche還進一步改進了DisTro引入的壓縮技術,將通信負載進一步縮小了3倍。
Psyche可以通過完全鏈上(通過Solana)或鏈下設置實現。它包含三個主要參與者:協調器、客戶端和數據提供者。協調器存儲所有必要的信息以促進訓練運行,包括模型的最新狀態、參與的客戶端以及數據分配和輸出驗證?蛻舳耸菍嶋H的GPU提供者,在訓練運行期間執行訓練任務。除了模型訓練之外,它們還參與見證過程(如下所述)。數據提供者(客戶端可以自行存儲)提供訓練所需的數據。
2025年5月,NousResearch啟動了迄今為止規模最大的訓練運行:Consilience,這是一個擁有400億個參數的Transformer,正在Psyche去中心化訓練網絡中對約20萬億個token進行預訓練。訓練仍在進行中。到目前為止,運行基本平穩,但出現了一些損失峰值,表明優化軌跡短暫偏離了收斂。為此,團隊回滾到最后一個健康檢查點,并使用OLMo的Skip-Step保護措施對優化器進行封裝,該保護措施會自動跳過任何損失或梯度范數與均值相差幾個標準差的更新,從而降低未來出現損失峰值的風險。
Solana的角色
雖然Psyche可以在鏈下環境中運行,但它旨在在SolanaBlockchain上使用。Solana充當訓練網絡的信任和問責層,在鏈上記錄客戶承諾、見證人證明和訓練元數據。這為每一輪訓練創建了不可篡改的審計跟蹤,從而能夠透明地驗證誰做出了貢獻、完成了哪些工作以及是否通過了驗證。
Nous還計劃使用Solana來促進訓練獎勵的分配。盡管該項目尚未發布正式的Tokens經濟學,但Psyche的文檔概述了一個系統,其中協調員將跟蹤客戶的計算貢獻并根據已驗證的工作分配積分。然后,這些積分可以通過充當鏈上托管的財務智能合約兌換成Tokens。完成有效訓練步驟的客戶可以根據其貢獻直接從該合約中領取獎勵。Psyche尚未在訓練運行中使用獎勵機制,但一旦正式啟動,該系統預計將在Nous加密Tokens的分配中發揮核心作用。
Hermes模型系列
除了這些研究貢獻外,Nous還憑借其Hermes系列指令調優的大型語言模型(LLM),確立了其領先的開源模型開發者地位。2024年8月,該團隊推出了Hermes-3,這是一套基于Llama3.1進行微調的全參數模型套件,在公開排行榜上取得了頗具競爭力的成績,盡管規模相對較小,卻足以與規模更大的專有模型相媲美。
最近,Nous在2025年8月發布了Hermes-4模型系列,這是迄今為止最先進的模型系列。Hermes-4專注于提升模型的逐步推理能力,同時在常規指令執行方面也表現出色。它在數學、編程、理解和常識測試中均表現出色。團隊秉承Nous的開源使命,公開發布了所有Hermes-4模型權重,供所有人使用和構建。此外,Nous還發布了一個名為NousChat的模型無障礙界面,并在發布后的第一周內免費開放。
Hermes模型的發布不僅鞏固了Nous作為模型構建組織的信譽,也為其更廣泛的研究議程提供了實踐驗證。Hermes的每一次發布都證明了尖端能力可以在開放環境中實現,為團隊的去中心化訓練突破(DeMo、DisTrO和Psyche)奠定了基礎,并最終促成了雄心勃勃的Consilience40B運行。
Atropos
如上所述,由于推理模型的進步以及預訓練的擴展限制,強化學習在后訓練中發揮著越來越重要的作用。Atropos是Nous在去中心化環境下針對強化學習的解決方案。它是一個適用于LLM的即插即用模塊化強化學習框架,可適應不同的推理后端、訓練方法、數據集和強化學習環境。
當使用大量GPU以去中心化的方式進行強化學習后訓練時,模型在訓練過程中生成的即時輸出將具有不同的完成時間。Atropos充當一個rollout處理器,即一個中央協調器,用于協調跨設備的任務生成和完成,從而實現異步強化學習訓練。
Atropos的初始版本于4月發布,但目前僅包含一個協調強化學習任務的環境框架。Nous計劃在未來幾個月內發布補充的訓練和推理框架。 PrimeIntellect
背景
PrimeIntellect成立于2024年,致力于構建大規模去中心化AI開發基礎設施。該團隊由VincentWeisser和JohannesHagemann共同創立,最初專注于整合來自中心化和去中心化提供商的計算資源,以支持高級AI模型的協作式分布式訓練。PrimeIntellect的使命是實現AI開發的民主化,使全球的研究人員和開發者能夠訪問可擴展的計算資源,并共同擁有開放式AI創新。
OpenDiLoCo、INTELLECT-1和PRIME
2024年7月,PrimeIntellect發布了OpenDiLoCo,這是谷歌DeepMind為數據并行訓練開發的低通信模型訓練方法DiLoCo的開源版本。谷歌基于以下觀點開發了該模型:“在現代規模下,通過標準反向傳播進行訓練帶來了前所未有的工程和基礎設施挑戰……難以協調和緊密同步大量加速器!彪m然這種說法側重于大規模訓練的實用性,而非開源開發的精神,但它默認了長期集中式訓練的局限性以及對分布式替代方案的需求。
DiLoCo減少了GPU之間在訓練模型時共享信息的頻率和數量。在集中式設置下,GPU會在訓練的每個步驟后彼此共享所有更新后的梯度。而在DiLoCo中,更新梯度的共享頻率較低,以減少通信開銷。這創建了一個雙重優化架構:各個GPU(或GPU集群)運行內部優化,在每一步后更新自身模型的權重;以及外部優化,內部優化在GPU之間共享,然后所有GPU都會根據所做的更改進行更新。
OpenDiLoCo在其初始版本中展示了90%至95%的GPU利用率,這意味著盡管分布在兩大洲和三個國家,但幾乎沒有任何機器處于閑置狀態。OpenDiLoCo能夠重現相當的訓練結果和性能,而通信量卻減少了500倍(如下圖紫色線追趕藍色線所示)。
訓練步驟中的活躍訓練節點,展示了訓練架構處理動態節點參與的能力
INTELLECT-1是對PrimeIntellect去中心化訓練方法的重要驗證,并獲得了杰克·克拉克(Anthropic聯合創始人)等人工智能思想領袖的稱贊,被認為是去中心化訓練的可行示范。
Protocol
今年2月,PrimeIntellect在其堆棧上又增添了一層,推出了Protocol。Protocol將PrimeIntellect的所有訓練工具連接在一起,創建一個用于去中心化模型訓練的點對點網絡。其中包括:
計算交換GPU以促進訓練運行。
PRIME訓練框架減少了通信開銷并提高了容錯能力。
一個名為GENESYS的開源庫,用于RL微調中有用的合成數據生成和驗證。
一種名為TOPLOC的輕量級驗證系統,用于驗證模型執行和參與節點的輸出。
Protocol 扮演的角色與Nous的Psyche類似,有四個主要參與者:
Workers:一種軟件,使用戶能夠貢獻他們的計算資源用于訓練或其他PrimeIntellectAI相關產品。
驗證者:驗證計算貢獻并防止惡意行為。PrimeIntellect正在努力將最先進的推理驗證算法TOPLOC應用于去中心化訓練。
編排器:計算池創建者管理工作器的一種方式。它的作用與Nous的編排器類似。
智能合約:追蹤計算資源提供者,削減惡意參與者的質押,并自主支付獎勵。目前,PrimeIntellect已在EthereumL2Base的Sepolia測試網上運行,但PrimeIntellect已表示最終計劃遷移到自己的Blockchain上。
對于INTELLECT-2,貢獻者還需要質押測試網加密Tokens才能參與訓練運行。如果他們貢獻了有效的工作,將自動獲得獎勵。如果沒有,他們的質押可能會被削減。雖然此次測試運行期間沒有涉及任何實際資金,但這凸顯了一些加密經濟實驗的初步形式。該領域還需要進行更多的實驗,我們預計加密經濟在安全性和激勵機制方面的應用將有進一步的改變。除了INTELLECT-2之外,PrimeIntellect還在繼續開展本報告未涵蓋的幾項重要計劃,包括:
SYNTHETIC-2,用于生成和驗證推理任務的下一代框架;
PrimeCollectiveCommunicationsLibrary,它實現了高效、容錯的集體通信操作(例如通過IP進行縮減),并提供共享狀態同步機制以保持對等點同步,并允許在訓練期間的任何時候動態加入和離開對等點,以及自動帶寬感知拓撲優化;
持續增強TOPLOC的功能,以實現可擴展、低成本的推理證明,從而驗證模型輸出;
基于INTELLECT2和SYNTHETIC1的經驗教訓,對PrimeIntellect協議和加密經濟層進行改進 PluralisResearch
亞歷山大·朗(AlexanderLong)是一位澳大利亞機器學習研究員,擁有新南威爾士大學的博士學位。他認為開源模型訓練過度依賴領先的人工智能實驗室為其他人提供基礎模型進行訓練。2023年4月,他創立了PluralisResearch,旨在開辟一條不同的道路。
PluralisResearch采用一種名為“協議學習”的方法來解決去中心化訓練問題,該方法被描述為“低帶寬、異構多參與者、模型并行的訓練和推理”。Pluralis的一個主要顯著特征是其經濟模型,該模型為訓練模型的貢獻者提供類似股權的收益,以激勵計算貢獻并吸引頂級開源軟件研究人員。該經濟模型以“不可提取性”的核心屬性為前提:即沒有任何一個參與者能夠獲得完整的權重集,而這又與訓練方法和模型并行性的使用息息相關。
模型并行性
Pluralis的訓練架構利用了模型并行性,這與NousResearch和PrimeIntellect在初始訓練運行中實施的數據并行方法不同。隨著模型規模的增長,即使是H100機架(最先進的GPU配置之一)也難以承載完整的模型。模型并行性通過將單個模型的各個組件拆分到多個GPU上,為這一問題提供了一種解決方案。
模型并行化主要有三種方法。
流水線并行:模型的各層被劃分到不同的GPU上。訓練過程中,每個小批量數據都像流水線一樣流經這些GPU。
張量(層內)并行性:不是為每個GPU提供整個層,而是將每個層內的繁重數學運算分開,以便多個GPU可以同時共享單個層的工作。
混合并行:在實踐中,大型模型會混合使用各種方法,同時使用管道和張量并行,通常還會結合數據并行。
模型并行性是分布式訓練的一個重要進步,因為它允許訓練前沿規模的模型,使較低層級的硬件能夠參與,并確保沒有任何一個參與者可以訪問全套模型權重。
ProtocolLearning和ProtocolModels
協議學習(ProtocolLearning)是Pluralis在去中心化訓練環境中用于模型所有權和貨幣化的框架。Pluralis強調了構成協議學習框架的三個關鍵原則——去中心化、激勵和去信任化。
Pluralis與其他項目的主要區別在于其對模型所有權的關注。鑒于模型的價值主要源于其權重,協議模型(ProtocolModels)嘗試對模型的權重進行拆分,使模型訓練過程中的任何單個參與者都無法擁有全部權重。最終,這將賦予訓練模型的每個貢獻者一定的所有權,從而分享模型產生的收益。
Templar迄今已啟動三輪訓練:TemplarI、TemplarII和TemplarIII。TemplarI是一個包含12億個參數的模型,在全球部署了近200塊GPU。TemplarII正在進行中,正在訓練一個包含80億個參數的模型,并計劃很快啟動更大規模的訓練。Templar現階段專注于訓練參數較小的模型,這是經過深思熟慮的選擇,旨在確保去中心化訓練架構的升級(如上所述)在擴展到更大模型規模之前能夠有效發揮作用。從優化策略和調度到研究迭代和激勵機制,在參數較小的80億個模型上驗證這些想法,使團隊能夠快速且經濟高效地進行迭代。繼近期取得進展并正式發布訓練架構后,團隊于9月推出了TemplarIII,這是一個包含700億個參數的模型,也是迄今為止去中心化領域規模最大的預訓練運行。
TAO和激勵機制
Templar的一個關鍵特色是其與TAO綁定的激勵模型。獎勵根據模型訓練的技能加權貢獻進行分配。大多數協議(例如Pluralis、Nous、PrimeIntellect)都已構建了許可運行或原型,而Templar則完全在Bittensor的實時網絡上運行。這使得Templar成為唯一一個已將實時、無需許可的經濟層集成到其去中心化訓練框架中的協議。這種實時的生產部署使Templar能夠在實時訓練運行場景中迭代其基礎設施。
每個Bittensor子網都使用其自己的“alpha”Tokens運行,該Tokens充當獎勵機制和子網感知價值的市場信號。Templar的alphaTokens稱為gamma。alphaTokens不能在外部市場上自由交易;它們只能通過其子網專用的流動性池,使用自動做市商(AMM)兌換TAO。用戶可以質押TAO來獲得gamma,也可以將gamma贖回為TAO,但不能直接將gamma兌換成其他子網的alphaTokens。Bittensor的動態TAO(dTAO)系統使用alphaTokens的市場價格來確定子網之間的發行分配。當gamma的價格相對于其他alphaTokens上漲時,這表明市場對Templar去中心化訓練能力的信心增強,從而導致子網的TAO發行量增加。截至9月初,Templar的每日發行量約占TAO發行量的4%,在TAO網絡的128個子網中排名前六。
子網的發行機制具體如下:在每個12秒的區塊中,Bittensor鏈會根據子網alphaTokens相對于其他子網的價格比例,向其流動性池發行TAO和alphaTokens。每個區塊最多向子網發行一個完整的alphaTokens(初始發行率,可能會減半),用于激勵子網貢獻者,其中41%分配給礦工,41%分配給驗證者(及其質押者),18%分配給子網所有者。
這種激勵機制通過將經濟獎勵與參與者提供的價值掛鉤,推動對Bittensor網絡的貢獻。礦工有動力提供高質量的AI輸出,例如模型訓練或推理任務,從而獲得驗證者更高的評分,從而獲得更大的產出份額。驗證者(及其質押者)因準確評估和維護網絡完整性而獲得獎勵。
AlphaTokens的市場估值由質押活動決定,確保表現出更高實用性的子網能夠吸引更多TAO的流入和發行,從而營造一個鼓勵創新、專業化和持續發展的競爭環境。子網所有者將獲得一定比例的獎勵,從而受到激勵去設計有效的機制并吸引貢獻者,最終構建一個無需許可的去中心化AI生態系統,讓全球參與共同促進集體智慧的進步。
該機制還引入了新的激勵挑戰,例如保持驗證者的誠實、抵御女巫攻擊以及減少串謀。Bittensor子網經常受到驗證者或礦工與子網創建者之間貓鼠游戲的困擾,前者試圖玩弄系統,后者試圖阻撓他們。從長遠來看,隨著子網所有者學會如何智勝惡意行為者,這些斗爭應該會使該系統成為最強大的系統之一。 Gensyn
Gensyn于2022年2月發布了其首篇精簡版白皮書,闡述了去中心化訓練的框架(Gensyn是我們去年首篇關于理解加密技術與人工智能交集的文章中唯一涵蓋的去中心化訓練協議)。當時,該協議主要側重于AI相關工作負載的驗證,允許用戶向網絡提交訓練請求,由計算提供商處理,并確保這些請求按承諾執行。
最初的愿景還強調了加速應用機器學習(ML)研究的必要性。2023年,Gensyn在此愿景的基礎上,明確提出了在全球范圍內獲取機器學習計算資源的更廣泛需求,以服務于特定AI應用。Gensyn引入了GHOSTLY原則作為此類協議必須滿足的框架:通用性、異構性、開銷、可擴展性、去信任性和延遲。Gensyn一直專注于構建計算基礎設施,此次合作標志著其正式擴展至計算之外的其他關鍵資源。
Gensyn的核心將其訓練技術棧分為四個不同的部分——執行、驗證、通信和協調。執行部分負責處理世界上任何能夠執行機器學習操作的設備上的操作。通信和協調部分使設備能夠以標準化的方式相互發送信息。驗證部分則確保所有操作無需信任即可進行計算。
執行—RLSwarm
Gensyn在這個堆棧中的第一個實現是一個名為RLSwarm的訓練系統,這是一種用于訓練后強化學習的分散協調機制。
RLSwarm旨在允許多個計算提供商在無需許可、信任最小化的環境中參與單個模型的訓練。該協議基于一個三步循環:回答、評審和解決。首先,每個參與者根據提示生成模型輸出(答案)。然后,其他參與者使用共享獎勵函數評估該輸出并提交反饋(評審)。最后,這些評審將用于選出最佳答案,并將其納入模型的下一個版本(解決)。整個過程以點對點的方式進行,無需依賴中央服務器或可信機構。
Verde驗證協議架構
今年8月,Gensyn發布了Judge,這是一個可驗證的AI評估系統,包含兩個核心組件:Verde和可復現的運行時,后者可保證跨硬件的逐位相同結果。為了展示它,Gensyn推出了一款“漸進式揭示游戲”,其中AI模型在信息揭示的過程中對復雜問題的答案進行押注,Judge會確定性地驗證結果,并對準確的早期預測進行獎勵。
Judge意義重大,因為它解決了AI/ML中的信任和可擴展性問題。它能夠實現可靠的模型比較,在高風險環境下提升透明度,并通過允許獨立驗證來降低偏見或操縱的風險。除了推理任務之外,Judge還可以支持其他用例,例如去中心化爭議解決和預測市場,這與Gensyn構建可信分布式AI計算基礎設施的使命相契合。最終,像Judge這樣的工具可以增強可重復性和可問責性,這在AI日益成為社會核心的時代至關重要。
溝通與協調:Skip-Pipe和多元化專家集成
Skip-Pipe是Gensyn針對單個巨型模型在多臺機器上進行切片時出現的帶寬瓶頸問題而提出的解決方案。如前所述,傳統的流水線訓練強制每個微批次按順序遍歷所有層,因此任何速度較慢的節點都會導致流水線停滯。Skip-Pipe的調度程序可以動態跳過或重新排序可能造成延遲的層,從而將迭代時間縮短高達55%,并且即使一半節點發生故障也能保持可用性。通過減少節點間流量并允許根據需要刪除層,它使訓練器能夠將非常大的模型擴展到地理位置分散、帶寬較低的GPU上。
多樣化專家集成解決了另一個協調難題:如何構建一個強大的“混合專家”系統,避免持續的串擾。Gensyn的異構領域專家集成(HDEE)完全獨立地訓練每個專家模型,并僅在最后進行合并。出乎意料的是,在相同的總體計算預算下,最終集成在21個測試領域中的20個領域中超越了統一的基準。由于訓練期間機器之間沒有梯度或激活函數的流動,因此任何空閑的GPU都可以貢獻計算能力。
Skip-Pipe和HDEE共同為Gensyn提供了高效的通信方案。該協議可以在必要時在單個模型內進行分片,或者在獨立性成本更低的情況下并行訓練多個小型專家,并且無需像傳統方式那樣對完美、低延遲的網絡進行操作。
測試網
三月份,Gensyn在一個定制的Ethereumrollup上部署了測試網。團隊計劃逐步更新測試網。目前,用戶可以參與Gensyn的三項產品:RLSwarm、BlockAssist和Judge。如上所述,RLSwarm允許用戶參與RL訓練后流程。八月,團隊推出了BlockAssist,“這是輔助學習的第一個大規模演示,它是一種直接從人類行為中訓練代理的方法,無需手動標記或RLHF”。用戶可以下載Minecraft,并使用BlockAssist來訓練Minecraft模型,從而暢玩游戲。
其他值得關注的項目
以上章節概述了為實現去中心化訓練而實施的主流架構。然而,新的項目也層出不窮。以下是去中心化訓練領域的一些新項目:
Fortytwo: Fortytwo構建于MonadBlockchain之上,專注于群體推理(SLM),其中多個小型語言模型(SLM)在節點網絡中協作處理查詢并生成同行評審的輸出,從而提高準確性和效率。該系統利用閑置筆記本電腦等消費級硬件,無需像集中式AI那樣使用昂貴的GPU集群。該架構包含去中心化的推理執行和訓練功能,例如為專用模型生成合成數據集。該項目已在Monad開發網絡上線。
Ambient: Ambient是即將上線的“有用工作量證明”Layer -1Blockchain,旨在為鏈上始終在線、自主運行的AI代理提供支持,使其能夠在無需中心化監管的無許可生態系統中持續執行任務、學習和演進。它將采用單一開源模型,該模型由網絡礦工協作訓練和改進,貢獻者將因其在訓練、構建和使用AI模型方面的貢獻而獲得獎勵。雖然Ambient強調去中心化推理,尤其是在代理方面,但網絡上的礦工也將負責持續更新支撐網絡的基礎模型。Ambient采用了一種新穎的p roof- o f-logits機制(在該系統中,驗證者可以通過檢查礦工的原始輸出值(稱為logits)來驗證其是否正確運行了模型計算)。該項目基于Solana的一個分叉構建,尚未正式上線。
FlowerLabs: FlowerLabs正在開發一個用于聯邦學習的開源框架Flower,該框架支持跨去中心化數據源進行協作式AI模型訓練,無需共享原始數據,從而在聚合模型更新的同時保護隱私。Flower的成立旨在解決數據集中化問題,它允許機構和個人使用本地數據(例如醫療保健或金融領域)訓練模型,同時通過安全的參數共享為全球改進做出貢獻。與強調Tokens獎勵和可驗證計算的加密原生協議不同,Flower優先考慮在實際應用中保護隱私的協作,使其成為無需Blockchain的受監管行業的理想之選。
Macrocosmos: Macrocosmos在Bittensor網絡上運行,正在開發涵蓋五個子網的完整AI模型創建流程,這些子網專注于預訓練、微調、數據收集和去中心化科學。它引入了激勵編排訓練架構(IOTA)框架,用于在異構、不可靠且無需許可的硬件上對大型語言模型進行預訓練,并已啟動超過10億次參數訓練,并計劃很快擴展到更大的參數模型。
Flock.io:Flock是一個去中心化的AI訓練生態系統,將聯邦學習與Blockchain基礎設施相結合,從而在一個模塊化、Tokens激勵的網絡中實現隱私保護的協作模型開發。參與者可以貢獻模型、數據或計算資源,并獲得與其貢獻成比例的鏈上獎勵。為了保護數據隱私,該協議采用了聯邦學習。這使得參與者能夠使用未與他人共享的本地數據來訓練全局模型。雖然這種設置需要額外的驗證步驟,以防止無關數據(通常稱為數據中毒)進入模型訓練,但它對于醫療保健應用等用例來說是一個有效的推廣方案,在這些應用中,多個醫療保健提供者可以在不泄露高度敏感的醫療數據的情況下訓練全局模型。 前景與風險
在過去的兩年里,去中心化訓練已經從一個有趣的概念轉變為一個在實際環境中運行的有效網絡。雖然這些項目距離預期的最終狀態還很遠,但在實現去中心化訓練的道路上,它們正在取得有意義的進展。回顧現有的去中心化訓練格局,一些趨勢開始顯現:
實時概念驗證已不再是空想。在過去一年中,Nous的Consilience和PrimeIntellect的INTELLECT-2等早期驗證已進入生產規模運行。OpenDiLoCo和ProtocolModels等突破性進展正在分布式網絡上實現高性能AI,促進經濟高效、彈性且透明的模型開發。這些網絡正在協調數十個甚至數百個GPU,實時預訓練和微調中型模型,證明了去中心化訓練可以超越封閉式演示和臨時黑客馬拉松。雖然這些網絡仍非無需許可的網絡,但Templar在這方面脫穎而出;它的成功強化了這樣一種觀點:去中心化訓練正在從簡單地證明底層技術有效,發展到能夠擴展以匹配中心化模型的性能,并吸引大規模生產基礎模型所需的GPU資源。
模型規模不斷擴大,但差距依然存在。從2024年到2025年,去中心化項目的參數模型數量從個位數躍升至300億至400億。然而,領先的人工智能實驗室已經發布了數萬億參數的系統,并憑借其垂直整合的數據中心和最先進的硬件持續快速創新。去中心化訓練能夠利用來自世界各地的訓練硬件,彌補這一差距,尤其是在中心化訓練方法因需要越來越多的超大規模數據中心而面臨越來越大的限制的情況下。但縮小這一差距將取決于高效通信的優化器和梯度壓縮方面的進一步突破,以實現全球規模,以及不可操縱的激勵和驗證層。
訓練后工作流程正日益成為關注的領域。監督式微調、RLHF和特定領域強化學習所需的同步帶寬遠低于全面的預訓練。PRIME-RL和RLSwarm等框架已在不穩定的消費級節點上運行,讓貢獻者能夠利用閑置的周期獲利,同時項目也能快速將定制模型商業化。鑒于RL非常適合去中心化訓練,它作為去中心化訓練項目關注領域的重要性可能會日益凸顯。這使得去中心化訓練有可能率先在RL訓練中找到規;漠a品市場契合點,越來越多的團隊推出RL專用訓練框架就證明了這一點。
激勵和驗證機制落后于技術創新。激勵和驗證機制仍然落后于技術創新。只有少數網絡,尤其是Templar,提供實時Tokens獎勵和鏈上罰沒機制,從而有效地遏制不良行為,并已在實際環境中進行測試。盡管其他項目正在試驗聲譽評分、證人證明或訓練證明方案,但這些系統仍未經驗證。即使技術障礙得以克服,治理也將帶來同樣艱巨的挑戰,因為去中心化網絡必須找到制定規則、執行規則和解決爭議的方法,而不會重復加密DAO中出現的低效現象。解決技術障礙只是第一步;長期生存能力取決于將其與可靠的驗證機制、有效的治理機制以及引人注目的貨幣化/所有權結構相結合,以確保人們對所開展工作的信任,并吸引擴大規模所需的人才和資源。
堆棧正在融合成端到端的流水線。如今,大多數領先的團隊都將帶寬感知優化器(DeMo、DisTrO)、去中心化計算交換(PrimeCompute、Basilica)和鏈上協調層(Psyche、PM、PRIME)結合在一起。最終形成了一個模塊化的開放流水線,它反映了中心化實驗室從數據到部署的工作流程,只是沒有單一的控制點。即使項目沒有直接集成自己的解決方案,或者即使集成了,它們也可以接入其他專注于去中心化訓練所需垂直領域的加密項目,例如數據供應協議、GPU和推理市場以及去中心化存儲主干網。這種周邊基礎設施為去中心化訓練項目提供了即插即用的組件,可以進一步利用這些組件來增強其產品,并更好地與中心化同行競爭。 風險
硬件和軟件優化是一個不斷變化的目標——中央實驗室也在不斷拓展這一領域。Nvidia的BlackwellB200芯片剛剛公布,在MLPerf基準測試中,無論是4050億個參數的預訓練還是700億個LoRA微調,其訓練吞吐量都比上一代快了2.2到2.6倍,為巨頭們大幅降低了時間和能源成本。在軟件方面,PyTorch3.0和TensorFlow4.0引入了編譯器級圖融合和動態形狀內核,從而在同一塊芯片上進一步提升性能。隨著硬件和軟件優化的改進,或新的訓練架構的出現,去中心化訓練網絡也必須跟上步伐,不斷更新其堆棧,以適應最快、最先進的訓練方法,從而吸引人才并激勵有意義的模型開發。這將要求團隊開發出能夠確保持續高性能的軟件(無論底層硬件如何),以及使這些網絡能夠適應底層訓練架構變化的軟件堆棧。
現有企業開源模型,模糊了去中心化和中心化訓練之間的界限。中心化人工智能實驗室大多保持模型封閉,這進一步證明了去中心化訓練是保證開放性、透明度和社區治理的一種方式。盡管最近發布的DeepSeek、GPT開源版本和Llama等項目表明了其向更高開放性的轉變,但在競爭、監管和安全擔憂日益加劇的背景下,這種趨勢能否持續尚不明朗。即使權重被公開,它們仍然反映了原始實驗室的價值觀和選擇——獨立訓練的能力對于適應性、與不同優先事項的協調以及確保訪問不受少數現有企業的限制至關重要。
人才招聘依然困難重重。許多團隊都告訴我們這一點。雖然加入去中心化訓練項目的人才質量有所提升,但他們缺乏領先人工智能實驗室那樣的雄厚資源(例如,OpenAI最近為每位員工提供數百萬美元的“特別獎勵”,或者Meta為挖角研究人員而提供的2.5億美元報價)。目前,去中心化項目吸引的是那些重視開放性和獨立性的使命驅動型研究人員,同時也能從更廣泛的全球人才庫和充滿活力的開源社區中汲取人才。然而,為了在規模上競爭,他們必須通過訓練出與現有企業相當的模型,并完善激勵和貨幣化機制來證明自己,從而為貢獻者創造有意義的收益。雖然無需許可的網絡和加密經濟激勵措施提供了獨特的價值,但無法獲得分銷并建立可持續的收入來源可能會阻礙該領域的長期增長。
監管阻力確實存在,尤其對于未經審查的模型而言。去中心化訓練面臨著獨特的監管挑戰:從設計上來說,任何人都可以訓練任何類型的模型。這種開放性固然是優勢,但也引發了安全隱患,尤其是在生物安全、虛假信息或其他敏感領域濫用方面。歐盟和美國的政策制定者已發出信號,表示將加強審查:歐盟《人工智能法案》對高風險的基礎模型規定了額外義務,而美國機構正在考慮對開放系統進行限制,并可能采取出口式管控措施。單單涉及將去中心化模型用于有害目的的事件,就可能引發全面的監管,從而威脅到無需許可的訓練的根本原則。
分發和貨幣化:分發仍然是一項重大挑戰。包括OpenAI、Anthropic和Google在內的領先實驗室,通過品牌知名度、企業合同、云平臺集成以及直接接觸消費者,擁有巨大的分發優勢。相比之下,去中心化訓練項目缺乏這些內置渠道,必須付出更多努力才能讓模型被采用、獲得信任并嵌入到實際工作流程中。鑒于Crypto在加密應用之外的整合仍處于萌芽階段(盡管這種情況正在迅速改變),這可能會更具挑戰性。一個非常重要且尚未解決的問題是,誰將真正使用這些去中心化訓練模型。高質量的開源模型已經存在,一旦新的先進模型發布,其他人提取或調整它們并不特別困難。隨著時間的推移,去中心化訓練項目的開源性質應該會產生網絡效應,從而解決分發問題。然而,即使他們能夠解決分發問題,團隊也將面臨產品貨幣化的挑戰。目前,Pluralis的項目經理似乎最直接地應對這些貨幣化挑戰。這不僅僅是一個加密xAI問題,而是一個更廣泛的加密問題,凸顯了未來的挑戰。 結論
去中心化訓練已迅速從一個抽象概念演變為協調全球實際訓練運行的有效網絡。過去一年,包括Nous、PrimeIntellect、Pluralis、Templar和Gensyn在內的項目已經證明,將去中心化GPU連接在一起、高效壓縮通信,甚至開始在實際環境中試驗激勵機制是可能的。這些早期演示證明了去中心化訓練可以超越理論,盡管在前沿規模上與中心化實驗室競爭的道路仍然艱難。
即使去中心化項目最終訓練出的基礎模型足以與當今領先的人工智能實驗室相媲美,它們也面臨著最嚴峻的考驗:證明其在理念訴求之外的現實優勢。這些優勢可能通過卓越的架構或獎勵貢獻者的全新所有權和貨幣化方案內生顯現;蛘撸绻行幕F有參與者試圖通過保持權重封閉或注入不受歡迎的對齊偏差來扼殺創新,這些優勢也可能外生顯現。
除了技術進步之外,人們對該領域的態度也開始轉變。一位創始人這樣描述過去一年主要人工智能會議上人們情緒的變化:一年前,人們對去中心化訓練幾乎沒有興趣,尤其是與Crypto結合使用時;六個月前,與會者開始認識到潛在的問題,但對大規模實施的可行性表示懷疑;而近幾個月來,人們越來越認識到,持續的進步可以使可擴展的去中心化訓練成為可能。這種觀念的演變表明,不僅在技術領域,而且在合法性方面,去中心化訓練的勢頭也在增強。
風險是真實存在的:現有企業仍保持著硬件、人才和分銷優勢;監管審查迫在眉睫;激勵和治理機制仍未得到大規模檢驗。然而,其優勢也同樣引人注目。去中心化訓練不僅代表著一種替代的技術架構,更代表著一種構建人工智能的根本性理念:無需許可、全球所有,并與多元化社區而非少數幾家公司保持一致。即使只有一個項目能夠證明開放性能夠轉化為更快的迭代、新穎的架構或更具包容性的治理,這也將標志著Crypto和人工智能的突破性時刻。未來的道路漫長,但成功的核心要素如今已牢牢掌握。