編譯:Jiayu,Cage
AIAgent是我們緊密追蹤的范式變化,Langchain的一系列文章對理解Agent的發(fā)展趨勢很有幫助。在本篇編譯中,第一部分是Langchain團隊發(fā)布的StateofAIAgent報告。他們采訪了1,300多位從業(yè)者,包含開發(fā)者、產品經理、公司高管,揭示了Agent在今年的現(xiàn)狀和落地瓶頸:九成公司都對AIAgent有計劃和需求,但Agent能力的局限讓用戶只能在少數(shù)流程和場景中落地。比起成本和latency,大家更在乎Agent能力的提升,和對其行為的可觀測和可控性。
第二部分我們編譯了LangChain官網的IntheLoop系列文章中對AIAgent關鍵要素的分析:規(guī)劃能力、UI/UX交互創(chuàng)新和記憶機制。文中分析了5種LLM-native產品的交互方式,類比了3種人類的復雜記憶機制,對理解AIAgent,對理解這些關鍵要素有所啟發(fā)。在這一部分我們還加入了一些有代表性的Agent公司casestudy,如ReflectionAI創(chuàng)始人的訪談,來展望接下來2025年AIAgent的關鍵突破口。
在這個分析框架下,我們期待2025年AIAgent應用開始涌現(xiàn),步入人機協(xié)作的新范式。對于AIAgent的規(guī)劃能力,以o3為首的模型正在展現(xiàn)出很強的反思和推理能力,模型公司的進展正在從reasoner逼近到Agent階段。隨著推理能力持續(xù)提升,Agent的“最后一公里”會是產品交互和記憶機制,這更可能是創(chuàng)業(yè)公司突破的機會。關于交互,我們一直期待AI時代的“GUI時刻“;關于記憶,我們相信Context會成為Agent落地的關鍵詞,個人層面的context個性化、企業(yè)層面的context統(tǒng)一都會讓Agent的產品體驗得到大幅提升。
01. Agent使用趨勢:
每個公司都在計劃部署Agent
Agent領域的競爭正在變激烈。在過去一年中,許多Agent框架變得普及:例如使用ReAct結合LLM進行推理和行動、使用multi-agent框架進行編排,或者是使用類似LangGraph這樣更可控的框架。
關于Agent的討論并不全是Twitter上的炒作。大約51%的受訪者目前正在生產中使用Agent。根據(jù)Langchain按公司規(guī)模的數(shù)據(jù),100-2000員工的中型公司在Agent投入生產方面最為積極,比例達到63%。
此外,78%的受訪者有在近期內將采用將Agent投入生產的計劃。很明顯,大家對AIAgent有很強烈的興趣,但實際要做好一個production-ready的Agent對許多人來說仍然是一個難題。
監(jiān)控:Agent應用需要可觀測和可控性
隨著Agent實現(xiàn)功能變得更加強大,就需要管理和監(jiān)控Agent的方法。追蹤和可觀測性工具位列必備清單之首,幫助開發(fā)人員了解Agent的行為和性能。很多公司還使用guardrail(防護控制)以防止Agent偏離軌道。
將Agent投入生產的障礙和挑戰(zhàn)
保證LLM 的高質量performance 很難,回答需要有高準確性,還要符合正確的風格。這是Agent開發(fā)使用者們最關心的問題——比成本、安全等其他因素的重要性高出兩倍多。
LLMAgent是概率式的內容輸出,意味著較強的不可預測性。這引入了更多的錯誤可能性,使得團隊難以確保其Agent始終如一地提供準確、符合上下文的回應。
其他新興主題
在開放性問題中,大家對AIAgent展示出的這些能力有很多稱贊:
管理多步驟任務:AIAgent能夠進行更深入的推理和上下文管理,使它們能夠處理更復雜的任務;
自動化重復性任務:AIAgent繼續(xù)被視為處理自動化任務的關鍵,這可以為用戶解放時間,讓他們去解決更有創(chuàng)造性的問題;
任務規(guī)劃和協(xié)作:更好的任務規(guī)劃確保正確的Agent在正確的時間處理正確的問題,特別是在Multi-agent系統(tǒng)中;
類似人類的推理:與傳統(tǒng)LLM不同,AIAgent可以追溯其決策,包括根據(jù)新信息回顧并修改過去的決策。
此外大家還有兩個最期待的進展:
對開源AIAgent的期待:人們對開源AIAgent的興趣明顯,許多人提到集體智慧可以加速Agent的創(chuàng)新;
對更強大的模型的期待:許多人正在期待由更大、更強大的模型驅動的AIAgent的下一次飛躍—在那時,Agent能夠以更高的效率和自主性處理更復雜的任務。
問答中很多人也提到了Agent開發(fā)時最大的挑戰(zhàn):如何理解Agent的行為。一些工程師提到他們在向公司stakeholder解釋AIAgent的能力和行為時會遇到困難。部分時候可視化插件可以幫助解釋Agent的行為,但在更多情況下LLM仍然是一個黑箱。額外的可解釋性負擔留給了工程團隊。
02.AIAgent中的核心要素
什么是Agentic系統(tǒng)
在StateofAIAgent報告發(fā)布之前,Langchain團隊已經在Agent領域寫了自己的Langraph框架,并通過IntheLoop博客討論了很多AIAgent中的關鍵組件,接下來就是我們對其中關鍵內容的編譯。
首先每個人對AIAgent的定義都略有不同,LangChain創(chuàng)始人HarrisonChase給出的定義如下:
AIAgent是一個用LLM來做程序的控制流決策的系統(tǒng)。
AnAIagentisasystemthatusesanLLMtodecidethecontrolflowofanapplication.
對其實現(xiàn)方式,文章中引入了Cognitivearchitecture(認知架構)的概念,認知架構是指Agent如何進行思考、系統(tǒng)如何去編排代碼/promptLLM:
Cognitive:Agent使用LLM來語義推理該如何編排代碼/PromptLLM;
Architecture:這些Agent系統(tǒng)仍然涉及大量類似于傳統(tǒng)系統(tǒng)架構的工程。
下面這張圖展示了不同層次Cognitivearchitecture的例子:
CaseStudy:
ReflectionAI創(chuàng)始人 Laskin 對Agent未來的愿景
在紅杉資本對ReflectionAI創(chuàng)始人MishaLaskin的訪談中,Misha提到他正在開始實現(xiàn)他的愿景:即通過將RL的SearchCapability與LLM相結合,在他的新公司ReflectionAI中構建最佳的Agent模型。他和聯(lián)合創(chuàng)始人IoannisAntonoglou(AlphaGo、AlphaZero、GeminiRLHF負責人)正在訓練為AgenticWorkflows設計的模型,訪談中的主要觀點如下:
深度是AIAgent中缺失的部分。雖然當前的語言模型在廣度方面表現(xiàn)出色,但它們缺乏可靠完成任務所需的深度。Laskin認為,解決“深度問題”對于創(chuàng)建真正有能力的AIAgent至關重要,這里的能力是指:Agent可以通過多個步驟規(guī)劃和執(zhí)行復雜的任務;
將Learn和Search相結合是實現(xiàn)超人性能的關鍵。借鑒AlphaGo的成功,Laskin強調AI中最深刻的理念是Learn(依靠LLM)和Search(找到最優(yōu)路徑)的結合。這種方法對于創(chuàng)建在復雜任務中可以勝過人類的Agent至關重要;
Post-training和Rewardmodeling帶來了重大挑戰(zhàn)。與具有明確獎勵的游戲不同,現(xiàn)實世界的任務通常缺乏真實獎勵。開發(fā)可靠的rewardmodel,是創(chuàng)建可靠的AIAgent的關鍵挑戰(zhàn)
UniversalAgents可能比我們想象的更接近。Laskin估計,我們可能只用三年時間就可以實現(xiàn)“digitalAGI”,即同時具有廣度和深度的AI系統(tǒng)。這一加速的時間表凸顯了在能力發(fā)展的同時解決安全性和可靠性問題的緊迫性
通往UniversalAgents的道路需要一種的方法。ReflectionAI專注于擴展Agent功能,從一些特定的環(huán)境開始,如瀏覽器、coding和計算機操作系統(tǒng)。他們的目標是開發(fā)UniversalAgents,使其不局限于特定任務。
UI/UX交互
在未來幾年,人機交互會成為research的一個關鍵領域:Agent系統(tǒng)與過去的傳統(tǒng)計算機系統(tǒng)不同,因為延遲、不可靠性和自然語言界面帶來了新的挑戰(zhàn)。因此,與這些Agent應用程序交互的新UI/UX范式將出現(xiàn)。Agent系統(tǒng)仍處于早期階段,但已經出現(xiàn)多種新興的UX范式。下面分別進行討論:
1.對話式交互(ChatUI)
聊天一般分為兩種:流式聊天(streamingchat)、非流式聊天(non-streamingChat)。
流式聊天是目前最常見的UX。它是一個Chatbot,以聊天格式將其思想和行為流回——ChatGPT是最受歡迎的例子。這種交互模式看起來很簡單,但也有不錯的效果,因為:其一,可以使用自然語言與LLM進行對話,這意味著客戶和LLM沒有任何障礙;其二,LLM可能需要一段時間才能工作,流式處理使用戶能夠準確了解后臺發(fā)生的事情;其三,LLM常常會出錯,Chat提供了一個很好的界面來自然地糾正和指導它,大家已經非常習慣于在聊天中進行后續(xù)對話和迭代討論事情。
但流式聊天也有其缺點。首先,流式聊天是一種相對較新的用戶體驗,因此我們現(xiàn)有的聊天平臺(iMessage、FacebookMessenger、Slack等)沒有這種方式;其次,對于運行時間較長的任務來說,這有點尷尬—用戶只是要坐在那里看著Agent工作嗎;第三,流式聊天通常需要由人類觸發(fā),這意味著還需要大量humanintheloop。
非流式聊天的最大區(qū)別在于響應是分批返回的,LLM在后臺工作,用戶并不急于讓LLM立刻回答,這意味著它可能更容易集成到現(xiàn)有的工作流程中。人們已經習慣了給人類發(fā)短信——為什么他們不能適應用AI發(fā)短信呢?非流式聊天將使得與更復雜的Agent系統(tǒng)交互變得更加容易—這些系統(tǒng)通常需要一段時間,如果期望即時響應,這可能會令人沮喪。非流式聊天通常會消除這種期望,從而更輕松地執(zhí)行更復雜的事情。
這兩種聊天方式有以下優(yōu)缺點:
3.電子表格(SpreadsheetUX)
4.生成式UI(GenerativeUI)
“生成式UI”有兩種不同的實現(xiàn)方式。
一種方式是由模型自行生成需要的的原始組件。這類似于Websim等產品。在后臺,Agent主要編寫原始HTML,使其能夠完全控制顯示的內容。但是這種方法允許生成的webapp質量有很高的不確定性,因此最終結果可能看起來波動較大。
5.協(xié)作式UX(CollaborativeUX)
當Agent和人類一起工作時會發(fā)生什么?想想GoogleDocs,客戶可以在其中與團隊成員協(xié)作編寫或編輯文檔,但倘如協(xié)作者之一是Agent呢?
GeoffreyLitt和Ink&Switch合作的Patchwork項目是人類-Agent合作的一個很好的例子。(譯者注:這可能是最近penAICanvas產品更新的靈感來源)。
1.程序記憶(ProceduralMemory):有關如何執(zhí)行任務的長期記憶,類似于大腦的核心指令集
人類的程序記憶:記住如何騎自行車。
Agent的程序記憶:CoALA論文將程序記憶描述為LLM權重和Agent代碼的組合,它們從根本上決定了Agent的工作方式。
在實踐中,Langchain團隊還沒有看到任何Agent系統(tǒng)會自動更新其LLM或重寫其代碼,但是確實存在一些Agent更新其systemprompt的例子。
2.語義記憶(SemanticMemory):長期知識儲備
人類的語義記憶:它由信息片段組成,例如在學校學到的事實、概念以及它們之間的關系。
Agent的語義記憶:CoALA論文將語義記憶描述為事實存儲庫。
在實踐中上,常常是通過使用LLM從Agent的對話或交互中提取信息來實現(xiàn)的。此信息的確切存儲方式通常是特定于應用程序的。然后這些信息在將來的對話中檢索并插入到SystemPrompt中以影響Agent的響應。
3.情景記憶(EpisodicMemory):回憶特定的過去事件
人類的情景記憶:當一個人回憶起過去經歷的特定事件(或“情節(jié)”)時。
Agent中的情景記憶:CoALA論文將情景記憶定義為存儲Agent過去動作的序列。
這主要用于讓Agent按預期執(zhí)行動作。在實踐中,情景記憶的更新通過Few-ShotsPrompt的方法實現(xiàn)。如果相關更新的Few-ShotsPrompt足夠多,那么接下來的更新就通過DynamicFew-ShotsPrompt來完成。
如果一開始就有指導Agent正確完成操作的辦法,后面面對同樣的問題就可以直接使用這種辦法;相反,如果不存在正確的操作方式,或者如果Agent不斷做新的事情,那么語義記憶就會更重要,反而在前面的例子中,語義記憶不會有太大幫助。
除了考慮要在Agent中更新的記憶類型外,開發(fā)人員還要考慮如何更新Agent的記憶:
更新Agent記憶的第一種方法是“inthehotpath”。在這種情況下,Agent系統(tǒng)會在響應之前記住事實(通常通過工具調用),ChatGPT采取這種方法更新其記憶;
更新Agent記憶的另一種方法是“inthebackground”。在這種情況下,后臺進程會在會話之后運行以更新記憶。
比較這兩種方法,“inthehotpath”方法的缺點是在傳遞任何響應之前會有一些延遲,它還需要將memorylogic與agentlogic相結合。
但是,“inthebackground”可以避免這些問題-不會增加延遲,并且memorylogic保持獨立。但是“inthebackground”也有其自身的缺點:記憶不會立即更新,并且需要額外的logic來確定何時啟動后臺進程。
更新記憶的另一種方法涉及用戶反饋,這與情景記憶特別相關。例如,如果用戶對某次交互標評分較高(PostiveFeedback),Agent可以保存該反饋以備將來調用。
基于以上編譯內容,我們期待規(guī)劃、交互、記憶三個組件的同時進步,會讓我們在2025年看到更多可用的AIAgent,進入人機協(xié)同工作的新時代。
免責聲明:Agent 最全 Playbook:場景、記憶和交互創(chuàng)新文章轉發(fā)自互聯(lián)網,版權歸其所有。
文章內容不代表本站立場和任何投資暗示。加密貨幣市場極其波動,風險很高,可能不適合所有投資者。在投資加密貨幣之前,請確保自己充分了解市場和投資的風險,并考慮自己的財務狀況和風險承受能力。此外,請遵循您所在國家的法律法規(guī),以及遵守交易所和錢包提供商的規(guī)定。對于任何因使用加密貨幣所造成的投資損失或其他損失,本站不承擔任何責任。
Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM