Gemini 官網:https://gemini.google.com
Google Gemini 是由 Google DeepMind 開發的一系列多模態大型語言模型,被認為是 LaMDA 和 PaLM 2 的后繼者。Gemini 包括三個模型:Gemini Ultra、Gemini Pro 和 Gemini Nano,分別針對不同的任務優化。Gemini Ultra 設計用于處理高度復雜的任務,Gemini Pro 旨在適應廣泛的任務,而 Gemini Nano 則專為端側設備上的任務設計。Gemini 模型是多模態的,能夠理解和操作文本、代碼、音頻、圖像和視頻等不同類型的信息。這些模型不僅在多種行業基準測試中表現出色,而且還是首個在大規模多任務語言理解(MMLU)測試中超越人類專家的模型,顯示了其在多項選擇題上的卓越理解能力。
Gemini 1.0 的推出標志著 Google 在 AI 領域的一個重要進步,它不僅能夠提高開發者和企業客戶使用 AI 構建和擴展應用的能力,而且也展示了 Google 在負責任地推動 AI 發展方面的承諾。Google 還通過使用其 Tensor Processing Units (TPUs) v4 和 v5e 在 AI 優化的基礎設施上進行大規模訓練,確保了 Gemini 的高效性和可擴展性。此外,Gemini 在安全性和可靠性方面也進行了廣泛的評估,包括偏見和毒性評估,以及對網絡攻擊、說服力和自主性等潛在風險領域的創新性研究。
2023年12月6日,Sundar Pichai 和 Demis Hassabis 通過虛擬新聞發布會宣布了 Gemini 1.0。Gemini Pro 和 Nano 分別被集成到 Bard 和 Pixel 8 Pro 智能手機中,而 Gemini Ultra 則計劃在2024年初為軟件開發者提供,并將被用于 Bard Advanced。Gemini 1.5 在2024年2月15日發布,提供了更快的性能和更高的效率,這得益于包括新架構在內的各種技術進步。
Gemini 模型的技術規格包括基于解碼器的變換器,具有高效訓練和推理的修改,以及長達32,768個令牌的上下文窗口長度。它的數據集是多模態和多語言的,包括網絡文檔、書籍、代碼以及圖像、音頻和視頻數據。Gemini 1.5 Pro 是一種稀疏的專家混合變換器,具有多達1000萬個令牌的可變上下文長度,但具體細節尚不清楚。
Gemini 的發布引發了廣泛的關注和討論,被認為是 Google 在 AI 領域的一次重要突破。它不僅在多模態理解和生成方面展示了先進的能力,而且在編程和科學領域內的應用潛力也引起了人們的興趣。此外,Gemini 的推出被視為 Google 與 OpenAI 之間競爭的一個新篇章,展示了 Google 在構建更復雜、更負責任的 AI 模型方面的持續投資和創新。