梅濤2002年底就進入了微軟,博士5年,他有3年半都在微軟度過。2006年他拿到博士畢業證后,繼續回到微軟工作,直到12年后才離開微軟亞洲研究院。
他說:“在微軟加起來總共15年,不管是技術的價值觀還是公司的文化都是在這邊形成的,第一份工作對一個人的影響很重要。”
而在京東5年的經歷,他確實學到了很多經驗,彌補了自己從技術到產業化的不足。
春節前走的時候,梅濤很坦然的對劉強東說:“我待了5年,想出去做點事情。”劉強東也很贊同。在最近一次梅濤給劉強東回信中,他講述了最近公司的一些進展,劉強東也對梅濤送上了由衷的恭喜。
在創業初期,梅濤獲得最大幫助就是科大的校友,科大人可以說是聚是一團火,散是滿天星。
梅濤公司第一輪投資有15個人是科大校友,他們組成了一個合伙人LLP來支持他。
甚至,梅濤公司會議室的桌子椅子,也是上一個科大人公司搬過來直接捐贈給他們的。
梅濤雖然為人低調,但朋友很多,這些校友無一不在幫助梅濤,包括出謀劃策去融錢、發展公司、搞業務、搞客戶。
“科大人幫科大人的故事就是這么來的,科大人才密度很高,所以我們科大人幫助科大人很有成效。我非常感激母校cn科技大學。”梅濤有些動容的說。
“我自己有個夢想,就是在cn做一家具有硅谷創新精神的公司。”
如今大模型的大潮到了,梅濤也開啟了他的創業之路,成立了HiDream.ai 。梅濤告訴AI科技評論,HiDream.ai 要在基礎模型上超越Stable Diffusion最新版本,而在產品上則要趕超Midjourney。
這是國內第一家喊出來對標Stable Diffusion和Midjourney而且真正希望做到的公司。
在AIGC領域,做圖像生成的基礎模型中,開源的Stable Diffusion無疑是最好的,因為有很多人來做貢獻;而在產品上,由于Midjourney 最早通過社區用戶積累了獨有的用戶反饋,數據的輪子已經轉起來了,同時配合高質量數據集,形成了自己的競爭壁壘。
梅濤告訴AI科技評論,要對標就要對標最好的,這個領域要卷就要跟國外卷,直接做基礎模型底層的正面競爭。目前HiDream.ai 已經在開發一個生成式視覺多模態基礎模型,該模型不僅能夠支持文生圖,還能支持文生視頻、圖生視頻以及文生 3D 等功能。
梅濤認為,必須自己做多模態基礎模型,因為沒有模型就沒有核心壁壘。
1
對標MJ和SD,不在國內卷AI科技評論:聽說你前段時間在找算力?
梅濤:前段時間是在找算力,那個時候確實比較辛苦一些,現在算力問題解決了,已經在用了。
AI科技評論:你現在創業在哪個階段了?
梅濤:我是春節前兩天離開京東,三月初注冊了智象未來科技有限公司。
我們現在做的就是AIGC(人工智能生成內容),主要是生成式多模態基礎模型以及其應用,主要應用會面向設計師來使用,例如游戲設計師、營銷設計師、繪畫設計師等。
在AIGC的路上,我們可以說是一路狂奔。三月注冊公司,四月中旬第一輪融資就結束了,五月初基本的算力資源和核心人員都已經到位,六月底數據和模型的規模都已經達到了60億,七八月份我們就會發布第一版產品。我們的辦公室也從亞運村的一個百平米的公寓搬到了現在的中關村。
AI科技評論:目前很多創業者都在往應用方面走,為什么要堅持做一個基礎模型?
梅濤:因為如果沒有基礎模型,就肯定沒有自己的核心壁壘;另外不自己做,就要用開源的模型或者調用別人的模型,就會相當依賴別人的技術。
我們堅持做一個底層的多模態基礎模型,并不一定要做很大,因為視覺領域生成式基礎模型參數能做到100 億就已經很大了,目前最大也就是十幾億或者二、三十億。
從五月份到現在八個禮拜,我們已經做到了60億規模,目前已經上線了一款應用了,不過還在內測階段,想先在B端客戶推廣使用。
AI科技評論:在算法方面,你們目前能達到什么程度?
梅濤:ChatGPT這個模型它的天花板很高,今天它能做到 1750 億,未來它也能做到1萬億。因為它的模型能力很強,它能夠記住很多知識。當前的視覺模型本身天花板比較低,現在我們給他喂很多的數據,它也只能做到大概十幾個億的參數規模。
我們現在做的第一個事情是,給模型打很強的補丁,增強它的記憶能力,讓它能夠記住更多的信息。另外,我們會在算法層面做很多技術的改進,如encoder、decoder等。
如果今天讓我去做大語言模型,我覺得沒有機會,因為通用的大語言模型確實是大公司做更有優勢。而視覺領域的多模態基礎模型,以及基于此的很多應用對創業公司來說還是有很多機會的。
AI科技評論:國內在圖片或者視頻領域大家其實拉不開差距,你為什么覺得有機會?
梅濤:所以我們不跟國內比,直接對標國外Midjourney和 Stable Diffusion,目前我們已經把Stable Diffusion的最新版本甩在后面了,現在正在追趕Midjourney的最新版。
雖然我們起跑的時候晚了一點,但是我們跑得很快。因為我們有一個很強的團隊,剛好是十一個人,可以組成一支足球隊,團隊都是類似于像華為天才少年這樣級別的選手。而我自己本人在這個領域做了十幾年,我們勤奮、腦子也不笨,我相信我們公司以后會跑的越來越快、走的越來越穩的。
AI科技評論:國內幾乎沒有這樣說自己直接對標這兩家公司,為什么敢把Midjourney和 Stable Diffusion作為對標對象?
梅濤:我們對標的是 Stable Diffusion這種基礎模型,以及Midjourney這樣的應用。我們是國內唯一一家愿意對標Midjourney這種現象級產品的公司,而這個空間還是挺大的。
第一,Midjourney是一個小公司,但是它的數據其實很不錯,數據的輪子已經轉起來了,行業壁壘已經形成;
第二,Midjourney做文生圖,但這個領域也只是滿足專業設計師這個小眾群體 ,只是作為找尋靈感的工具,還沒有正式進入設計師真正的工作流程;
我們的優勢在于不僅做文生圖,還做文生視頻、圖生視頻、文生3D等,多種模態可以隨意切換。現在公司的能力還沒有被釋放出來,但是過去兩個月的實踐證明,在這么短的時間我們就快要追趕上Midjourney了。
我們要對標最好的,而不是關在國內的市場做淺層技術的內卷,一定要走到全球,做Global Market Player。
AI科技評論:你們的產品打算什么時候推出?
梅濤:七八月份,我們也在內測,想先在B端客戶內部的設計師使用,然后再投到社區里傳播。因為生成式AI的產品一定是體驗為主,就是用戶覺得好不好。舉例說你跟 ChatGPT 對話,如果把ChatGPT比喻成一個“高中生”,再來一個低版本的 GPT 3. 0,那你面對的就像一個“小學生”,你肯定就不太愿意跟他對話了。
所以我們一定要把產品打磨到很不錯的程度才會去公開發布。基本到七八月份就可以達到Midjourney V4版本的水平了,趕上它V5 版本甚至未來的V6版本估計得Q4左右。
AI科技評論:您現在做產品會不會結合Stable Diffusion和Midjourney的一些特點?
梅濤:Stable Diffusion和Midjourney就是其中兩道菜,并不是滿漢全席。而我們知道什么菜用什么組合,用什么佐料。
Stable Diffusion 本來是一個開源的模型,它有文字開源、圖片開源,并不是專一在某一個行業里