Vitalik新文：未來治理新范式“AI引擎+人類方向盤”

2025年3月03日 16:11

原文標題：AIastheengine,humansasthesteeringwheel

作者：Vitalik，Ethereum創始人；編譯：白水，金色財經

如果你問人們喜歡民主結構的哪些方面，無論是政府、工作場所還是基于Blockchain的DAO，你經常會聽到相同的論點：它們避免權力集中，它們為用戶提供強有力的保證，因為沒有一個人可以隨心所欲地完全改變系統的方向，它們可以通過收集許多人的觀點和智慧來做出更高質量的決策。

如果你問人們不喜歡民主結構的哪些方面，他們經常會給出相同的抱怨：普通選民不夠老練，因為每個選民只有很小的機會影響結果，很少有選民在決策中投入高質量的思考，而且你經常會得到低參與度（使系統易于攻擊）或事實上的中心化，因為每個人都默認信任和復制一些有影響力的人的觀點。

這篇文章的目標是探索一種范式，也許可以使用AI讓我們從民主結構中獲益而沒有負面影響。“AI是引擎，人類是方向盤”。人類只向系統提供少量信息，可能只有幾百位，但都是經過深思熟慮且質量極高的。AI將這些數據視為“目標函數”，并不知疲倦地做出大量決策，盡最大努力實現這些目標。特別是，這篇文章將探討一個有趣的問題：我們能否在不將單個AI置于中心的情況下做到這一點，而是依靠任何AI（或人機混合體）都可以自由參與的競爭性開放市場？

單個“游戲玩家”可以是LLM、相互交互并調用各種互聯網服務的LLM群、各種AI+人類組合以及許多其他構造；作為機制設計師，您不需要知道。理想目標是擁有一個可以自動運行的機制——如果該機制的目標是選擇資助什么，那么它應該盡可能地像Bitcoin或Ethereum區塊獎勵一樣。

這種方法的好處是：

它避免將任何單一模型納入機制；相反，你會得到一個由許多不同參與者和架構組成的開放市場，它們都有自己不同的偏見。開放模型、封閉模型、代理群、人類+AI混合體、機器人、無限猴子等都是公平的游戲；該機制不會歧視任何人。

該機制是開源的。雖然玩家不是，但游戲是開源的——而且這是一種已經被相當充分理解的模式（例如，政黨和市場都以這種方式運作）

該機制很簡單，因此機制設計者將自己的偏見編碼到設計中的途徑相對較少

該機制不會改變，即使從現在開始直到奇點，底層參與者的架構每三個月需要重新設計一次。

指導機制的目標是忠實地反映參與者的根本目標。它只需要提供少量信息，但應該是高質量的信息。

你可以認為該機制利用了提出答案和驗證答案之間的不對稱性。這類似于數獨很難解決，但很容易驗證解決方案是否正確。你(i)創建一個開放的市場，讓玩家充當“解題者”，然后(ii)維護一個由人類運行的機制，執行驗證已提出解決方案的簡單得多的任務。Futarchy

Futarchy最初由RobinHanson提出，意為“為價值投票，但為信念押注”。投票機制選擇一組目標（可以是任何目標，但前提是它們必須是可衡量的），然后將其組合成一個度量M。當您需要做出決定時（為簡單起見，我們假設是YES/NO），您會設置條件市場：您要求人們押注(i)是否會選擇YES或NO，(ii)如果選擇YES，則M的值，否則為零，(iii)如果選擇NO，則M的值，否則為零。有了這三個變量，您就可以確定市場是否認為YES或NO對M的值更有利。

用于信用分配的蒸餾人類判斷的玩具示例，請參閱此處的Python代碼。腳本要求您擔任陪審團，并包含一些預先包含在代碼中的AI生成（和人類生成）完整列表。該機制識別最適合陪審團答案的完整列表的線性組合。在這種情況下，獲勝組合是0.199*Claude的答案+0.801*Deepseek的答案；這個組合比任何單個模型都更符合陪審團的答案。這些系數也將是給予提交者的獎勵。

在這個“擊敗索倫”的例子中，“人類作為方向盤”的方面體現在兩個地方。首先，每個問題都應用了高質量的人類判斷，盡管這仍然利用陪審團作為“技術官僚”績效評估者。其次，有一個隱含的投票機制，決定“擊敗索倫”是否是正確的目標（而不是，比如說，試圖與索倫結盟，或將某條關鍵河流以東的所有領土都交給他作為和平讓步）。還有其他蒸餾的人類判斷用例，其中陪審團的任務更直接地帶有價值觀：例如，想象一個分散的社交媒體平臺（或子社區），陪審團的工作是將隨機選擇的論壇帖子標記為遵守或不遵守社區規則。

在蒸餾人類判斷范式中，存在一些開放變量：

如何進行抽樣？完整名單提交者的作用是提供大量答案；陪審員的作用是提供高質量的答案。我們需要以這樣的方式選擇陪審員，并為陪審員選擇問題，即模型匹配陪審員答案的能力最大程度地表明其總體表現。一些考慮因素包括：

專業知識與偏見的權衡：熟練的陪審員通常專門從事其專業領域，因此讓他們選擇要評級的內容，您將獲得更高質量的輸入。另一方面，過多的選擇可能會導致偏見（陪審員偏愛與他們有聯系的人的內容）或抽樣的弱點（某些內容系統地未評級）

反古德哈特：將有內容試圖“玩弄”人工智能機制，例如，貢獻者生成大量看起來令人印象深刻但無用的代碼。這意味著陪審團可以檢測到這一點，但靜態人工智能模型除非他們努力嘗試，否則不會檢測到。捕捉這種行為的一種可能方法是添加一種挑戰機制，通過該機制，個人可以標記此類嘗試，保證陪審團對其進行判斷（從而激勵人工智能開發人員確保正確捕捉它們）。如果陪審團同意，舉報者將獲得獎勵，如果陪審團不同意，則要支付罰款。

您使用什么評分函數？當前深度資助試點中使用的一個想法是詢問陪審員“A還是B應該獲得更多的信用，以及多多少？”。評分函數為score(x)=sum((log(x[B])-log(x[A])-log(juror_ratio))**2for(A,B,juror_ratio)injury_answers)：也就是說，對于每個陪審團答案，它會詢問完整列表中的比率與陪審員提供的比率有多遠，并添加與距離平方成比例的懲罰（在對數空間中）。這是為了表明評分函數的設計空間很豐富，評分函數的選擇與您向陪審員提出哪些問題的選擇有關。

您如何獎勵完整列表提交者？理想情況下，您希望經常給予多個參與者非零獎勵，以避免壟斷機制，但您也希望滿足以下屬性：參與者不能通過多次提交相同（或略微修改）的答案集來增加獎勵。一種有希望的方法是直接計算最適合陪審團答案的完整列表的線性組合（系數非負且總和為1），并使用這些相同的系數來分割獎勵。也可能有其他方法。

總的來說，目標是采用已知有效、偏見最小化且經受住了時間考驗的人類判斷機制（例如，想象一下法院系統的對抗結構如何包括爭議的兩方，他們擁有大量信息但有偏見，而法官擁有少量信息但可能沒有偏見），并使用開放的人工智能市場作為這些機制的合理高保真度和非常低成本的預測指標（這類似于大預言模型“蒸餾”的工作方式）。深度融資（deepfunding）

深度融資是將人類蒸餾的判斷應用于填寫“X的信用有多少百分比屬于Y？”圖上邊的權重問題。

最簡單的方法是直接用一個例子來說明：

兩級深度融資示例的輸出：Ethereum的思想起源。請在此處查看Python代碼。

這里的目標是分配對Ethereum的哲學貢獻的榮譽。讓我們看一個例子：

這里顯示的模擬深度融資輪次將20.5%的功勞歸于密碼朋克運動，將9.2%的功勞歸于技術進步主義。

在每個節點中，您都會提出一個問題：它在多大程度上是原創貢獻（因此它值得為自己贏得功勞），在多大程度上是其他上游影響的重新組合？對于密碼朋克運動，它有40%是新的，60%是依賴項。

然后，您可以查看這些節點上游的影響：自由主義小政府主義和無政府主義為密碼朋克運動贏得了17.3%的功勞，但瑞士直接民主只獲得了5%。

但請注意，自由主義小政府主義和無政府主義也啟發了Bitcoin的貨幣哲學，因此它通過兩種途徑影響了Ethereum的哲學。

要計算自由主義小政府主義和無政府主義對Ethereum的總貢獻份額，你需要將每條路徑上的邊相乘，然后將路徑相加：0.205*0.6*0.173+0.195*0.648*0.201~=0.0466。因此，如果你必須捐贈100美元來獎勵所有為Ethereum的哲學做出貢獻的人，根據這一模擬的深度融資輪，自由主義小政府主義者和無政府主義者將獲得4.66美元。

這種方法旨在適用于那些在以前的工作基礎上進行工作且結構高度清晰的領域。學術界（想想：引用圖）和開源軟件（想想：庫依賴關系和分叉）就是兩個自然的例子。

一個運作良好的深度資助系統的目標是創建和維護一個全局圖，任何有興趣支持某個特定項目的資助者都能夠將資金發送到代表該節點的地址，資金將根據圖邊緣的權重自動傳播到其依賴項（并遞歸到它們的依賴項等）。

你可以想象一個去中心化協議使用內置深度融資裝置來發行其Tokens：協議內的去中心化治理將選擇一個陪審團，陪審團將運行深度融資機制，因為協議會自動發行Tokens并將其存入與其自身對應的節點。通過這樣做，協議以編程方式獎勵其所有直接和間接貢獻者，讓人想起Bitcoin或Ethereum區塊獎勵如何獎勵一種特定類型的貢獻者（礦工）。通過影響邊緣的權重，陪審團可以不斷定義它重視的貢獻類型。這種機制可以作為Mining、銷售或一次性空投的去中心化和長期可持續的替代方案。增加隱私

通常，要對上述示例中的問題做出正確的判斷，需要能夠訪問私人信息：組織的內部聊天記錄、社區成員秘密提交的信息等。“僅使用單個AI”的一個好處，尤其是在規模較小的環境中，是讓一個AI訪問信息比向所有人公開信息更容易被接受。

為了在這些情況下使蒸餾的人類判斷或深度資助發揮作用，我們可以嘗試使用加密技術安全地讓AI訪問私人信息。這個想法是使用多方計算(MPC)、完全同態加密(FHE)、可信執行環境(TEE)或類似機制來提供私人信息，但僅限于其唯一輸出是直接放入機制中的“完整列表提交”的機制。

如果你這樣做，那么你就必須將機制集限制為AI模型（而不是人類或AI+人類組合，因為你不能讓人類看到數據），并且特定于在某些特定基底（例如MPC、FHE、可信硬件）中運行的模型。一個主要的研究方向是找出近期足夠有效、有意義的實用版本。發動機+方向盤設計的優點

這樣的設計有許多令人期待的好處。迄今為止，最重要的好處是，它們允許構建DAO，讓人類選民控制方向，但他們不會被過多的決策所困擾。它們達到了折衷，每個人不必做出N個決定，但他們擁有的權力不僅僅是做出一個決定（委托通常如何運作），而且更能引發難以直接表達的豐富偏好。

此外，這樣的機制似乎具有激勵平滑特性。我在這里所說的“激勵平滑”是兩個因素的組合：

擴散：投票機制采取的任何單一行動都不會對任何單一參與者的利益產生過大影響。

混亂：投票決策與它們如何影響參與者利益之間的聯系更加復雜且難以計算。

這里的混淆和擴散這兩個術語取自密碼學，它們是密碼和哈希函數安全的關鍵屬性。

當今現實世界中激勵平滑的一個很好的例子是法治：政府高層不會定期采取“給愛麗絲的公司2億美元”、“罰款鮑勃的公司1億美元”等形式的行動，而是通過旨在均勻應用于大量參與者的規則，然后由另一類參與者進行解釋。當這種方法奏效時，好處是它大大減少了賄賂和其他形式腐敗的好處。當它被違反時（在實踐中經常發生），這些問題很快就會被大大放大。

AI顯然將成為未來的重要組成部分，這將不可避免地成為未來治理的重要組成部分。但是，如果你讓AI參與治理，這有明顯的風險：AI有偏見，它可能在訓練過程中被故意破壞，而且AI技術發展如此之快，“讓AI掌權”可能實際上意味著“讓負責升級AI的人掌權”。蒸餾的人類判斷提供了一條前進的替代道路，讓我們能夠以開放的自由市場方式利用AI的力量，同時保持人類控制的民主。

特別感謝DevanshMehta、DavideCrapis和JulianZawistowski的反饋和審查，以及TinaZhen、ShawWalters和其他人的討論。

久久久精品国产免大香伊-99国产精品无码-一区二区国产精品精华液-亚洲国产精品久久久久网站-九九99亚洲精品久久久久