對話智元合夥人姚卯青:機器人的大規模智能涌現不遠了
“稚暉君”又刷屏了,這一次是因爲其參與創辦的科技公司智元機器人發佈了行業首個通用具身基座模型。
這意味着什麼?簡單來說,今天的機器人還很難像真正的人類一樣行動,是因爲欠缺對真實物理世界的理解,這個具身基座模型就爲解決這一問題而來。通過架構上的創新,其可以僅通過讓機器看視頻,就讓機器人學會人類掌握的部分技能。
根據智元團隊的測試,在通用模型的助力下,機器人執行任務的平均成功率可提升32%。目前智元旗下機器人GO-1在“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(補充飲料)的任務中表現尤爲突出。
一臺機器人,“聰明”與“靈活”同樣重要。這也是不同機器人公司押注的路線,要麼在下半身上有很強的靈活性,可以翻山越嶺,替代人類的體力活;要麼在上半身上擁有足夠的智慧,可以做到許多真實人類能夠執行的細緻任務,而智元機器人自成立之初就希望做到全都要,其先後發佈了遠征、Genie和靈犀三大產品線。
其中,遠征主要是面對商用場景的雙足人形機器人遠征A1、A2系列;Genie主要是面向通用具身操作的輪式雙臂機器人G1,以及一條用於拓展家用場景的小型人形機器人靈犀產品線;靈犀產品線除了此前發佈的X1,還有剛剛發佈的搭載情感計算引擎的雙足智能交互人形機器人靈犀X2,集齊運動、交互、作業三智能。今天,一條X2機器人騎自行車的視頻引發了網友的圍觀。
機器人賽道進化的速度不僅超出普通大衆的想象,甚至也超出了從業者的預估。
去年,智元機器人原本規劃當年度出貨量或爲300臺。2025年,這一數字有望達到數千臺。
自2023年2月創立至今,智元機器人完成了多輪融資,估值超70億元。自此團隊也開啓了馬不停蹄的研發工作,碰到密集的開發期,加班到凌晨也是常有的事情。其創始人之一的彭志輝(人稱:稚暉君)畢業於電子科技大學信通學院,因華爲天才少年以及“B站野生鋼鐵俠”身份而廣受關注。另一合夥人,同時也是智元機器人Genie業務部總裁、具身智能研究院執行院長的姚卯青,畢業於清華大學電子工程系,曾在Waymo、蔚來汽車等公司擔任重要技術職位。
在智元機器人發佈行業首個通用具身模型之際,鳳凰網科技《浪潮》與姚卯青進行了一場對話,我們聊到了智元機器人的技術優勢,以及對機器人賽道發展的思考。談及未來,姚卯青認爲,五年之內,人形機器人必然會走入家庭。
以下是鳳凰網科技和姚卯青的對話,在不改變原意的情況下,經編輯發佈:
談人形機器人賽道爆發:考察團絡繹不絕,銷量翻了幾倍
鳳凰網科技:今年以來,人形機器人行業的關注度非常高,你有沒有更具體的感受?
姚卯青:感受非常切身。一方面,民營企業座談會邀請了行業內的優秀企業家參加,具身智能首次寫入了政府工作報告。另一方面,從從業者角度看,今年春節之後來我們公司交流考察的考察團以及客戶絡繹不絕,明顯比去年更加火爆。
鳳凰網科技:過去投資人普遍覺得這是一個很長的賽道,但現在可能覺得賽道沒有那麼長了?
姚卯青:是的。
鳳凰網科技:這對我們的發展規劃有什麼影響嗎,比如大模型發佈的時間有沒有提前?
姚卯青:大模型的發佈原本就在我們的規劃之中。從去年九、十月份開始,我們就承諾要開源百萬數據,並計劃在擁有百萬數據後訓練大模型並對外開放。從公司發展的節奏來看,行業關注度的提升無疑是一個利好因素,吸引了更多行業內和傳統行業的客戶來購買產品和研發能力。
鳳凰網科技:你現在每天的工作節奏是怎樣的?
姚卯青:雖然大家最近都在倡導不加班,反加班文化,但是作爲一家創業公司,我們的工作節奏確實比較緊張。每天早上 9 點半打卡,但下班通常要到晚上十一二點,研發團隊在忙碌的時候,加班到凌晨也是常有的事。
鳳凰網科技:去年大概在8月,智元設定了一個 300 臺的目標,而今年一下子變成了幾千臺,這個數據變化非常大。
姚卯青:數據一直在變化,尤其是上個月和這個月,很多客戶來諮詢產品,其中不少已經轉化爲銷售線索甚至訂單,感受非常明顯。
鳳凰網科技:有沒有一些超出預期的客戶出現?
姚卯青:有的。最明顯的是一些地方政府加大了對這一領域的投入力度和節奏,不僅是北京、上海這樣的特大城市,一些一線城市和二線城市也開始效仿,出臺相關政策引導具身智能技術的發展。此外,海外市場也非常火熱,美國、日韓等國家的客戶絡繹不絕,他們所在的發達國家人力成本較高,機器人替代人的投資回報率容易證明,對這一事物的接受度也相對較高。
鳳凰網科技:這些客戶前期購買機器人回去的核心訴求還是偏研究更多一些?
姚卯青:目前這個階段,很多客戶購買回去後,主要是基於我們的預訓練能力進行二次開發。
鳳凰網科技:智元機器人能夠如此大規模地鋪開,與你過去在車企的一些經驗有關。你之前也提到過,雖然具身智能和自動駕駛在某些方面有相似之處,但並不完全一樣。具體是哪些不一樣?
姚卯青:軟件設計方面,自動駕駛更多是在高速行駛狀態下實時感知周圍環境,以最安全、高效的方式通行,因此對安全的容忍性和模型推理時延的要求非常高。
而機器人面向的多是工業和服務業中的低速場景,允許以較低頻率進行模型推理,這使得我們可以使用一些大模型技術。硬件方面,機器人的供應鏈和生產工藝成熟度遠不及汽車,汽車是一個分工明確、上下游清晰的成熟產業,研發模式和生產管理體系都非常成熟。而機器人作爲一個新興事物,需要在不成熟的產業鏈中尋求兼容,同時平衡快速創新和量產穩定性,這其中有很多需要權衡的地方。
鳳凰網科技:在供應鏈不成熟的情況下,你們會選擇在某些方面進行自研?
姚卯青:我們在供應鏈上有不少自研部分。軟件方面,我們開源了中間件、操作系統、AimRT 等工作,還完全自研了具身智能的大腦和發佈的大模型。硬件方面,我們自研了核心的關節模組,包括電機、減速器、編碼器等,這些決定了機器人的扭矩密度、耐久性、尺寸和重量等關鍵性能。此外,我們還在研發高自由度的靈巧手,目前有多款在早期打樣階段。
鳳凰網科技:像靈巧手這樣的研發,是通過內部搭建團隊來完成的嗎?
姚卯青:我們通過內部招聘搭建團隊,吸引了一些行業內的優秀專家加入。
鳳凰網科技:今天車企又紛紛下場做人形機器人了,這對智元會有什麼影響?
姚卯青:車企的加入是一個好事。他們人才和資金充裕,可以加速產業鏈和供應鏈的成熟。同時,大家齊頭並進,能夠探索不同的應用方向和技術方案,促進整個技術、產品的迭代和收斂。
談中美具身智能的競爭:中國部分領先,AI方向人才非常緊張
鳳凰網科技:中國在具身智能人才儲備方面夠嗎?
姚卯青:目前來看,人才儲備基本夠用,但在具身智能 AI 領域的頂尖人才比較稀缺。這一領域相對較新,學校培養的人才難以直接滿足工業級 AI 產品的研發需求,需要在工業界有良好的機器人硬件基礎才能進行落地研發。中國在結構、電氣工程師方面儲備雄厚,但在具身智能 AI 方向的人才競爭還很激烈。
鳳凰網科技:像這樣的頂尖人才在全球範圍內也是有限的?
姚卯青:頂尖人才確實不多,他們涉及模仿學習、多模態大模型、真機強化學習和仿真技術等關鍵技術,全球範圍內非常有限。
鳳凰網科技:友商最近也在加碼這塊,對人才的競爭肯定會更激烈,但有一部分人才可能還是會選擇留在大模型行業,他們可能不一定會轉向硬件行業。
姚卯青:確實是,因爲大模型發展的還不錯。
鳳凰網科技:對他們來說,大模型行業離盈虧平衡更近,或者說落地應用的前景更清晰。
姚卯青:大模型已經是一個有千萬用戶天天使用的產品了,雖然盈虧平衡還未快速實現,但產品可用性已經比較成熟。
鳳凰網科技:所以在和大模型這樣的行業競爭人才時,智元有什麼優勢?
姚卯青:一方面,具身智能是一個新興的技術方向,有廣闊的發展空間,相比之下,大語言模型的技術創新相對有限。另一方面,智元在行業內處於頭部領先地位,未來實現創新的可能性更大。
鳳凰網科技:中美在具身智能方面存在差距嗎?
姚卯青:中美在具身智能方面的差距比其他領域要小,甚至中國在某些方面是領先的。
鳳凰網科技:比如在哪些方面?
姚卯青:比如在應用場景方面,中國擁有更多樣的應用機會,尤其是工業製造業中任務明確、場景結構化的部分,這些場景更容易先落地。中國作爲製造業大國,在這方面具有明顯優勢。
鳳凰網科技:智元的融資規模和速度已經領先於行業,你機器人行業長期對資金的需求還是會很強嗎?
姚卯青:這個賽道確實比較燒錢,一方面要大規模生產機器人,另一方面要像 AI 公司大模型一樣投入大量算力訓練模型。智元目前在中國的人形機器人融資排在第一位,但與一些車企的現金儲備相比,資金規模還不算多。因此,我們會在資本市場保持開放狀態,一方面努力實現盈利和盈虧平衡,另一方面根據市場情況動態調整,保持安全的現金流。
鳳凰網科技:長期來看有沒有一個盈虧平衡的目標?
姚卯青:我們內部希望在 2027 年或 2028 年左右達到盈虧平衡。今年我們的收入預計會有比去年數倍的增長,研發效率和費用控制也會更加精細化,所以到 2027 年甚至 2026 年實現盈虧平衡是很有希望的。機器人行業相對而言比較新,毛利率比現在的汽車行業要好一些。
談行業首個具身大模型發佈:機器人走入家庭邁出關鍵一步
鳳凰網科技:智元今天發佈了行業首個具身大模型,你覺得對於行業來說它具有什麼樣的意義?
姚卯青:過去大家都在講具身大模型,但真正用大規模數據去訓練,自研一個幾十億參數的具身模型,這件事此前還沒有人完成。如今我們率先實現了這一目標,大規模量產了機器人,採集了高質量的真機數據,形成了行業內獨一無二的高質量數據集。不僅如此,我們還自研了模型來訓練操作技能,並且在架構上進行了創新。過去一兩年大家關注的 VLA (具身智能大模型)架構,我們在其基礎上加入了Latent Planner(隱式規劃器)的動作空間概念,形成了新的 ViLLA (Vision-Language-Latent-Action)架構,使模型能夠利用更多數據,提升訓練效率和成功率。
鳳凰網科技:所以大家說這個模型可以用人類視頻來學習,它實際上跨越了一個多大的門檻?
姚卯青:這是一個非常重要的突破。以往機器人的策略模型需要使用特定機器人採集的數據來訓練,而我們現在引入的Latent-Action Model(LAM),能夠學習通用的動作表達,不受特定機器人形態的限制,甚至可以學習人類的動作。它從各種數據中學習通用的運動表達,針對特定機器人,只需在通用表達的基礎上添加一個顯式的專家模塊(MOE)來解碼成對應的運動控制。
鳳凰網科技:最初是怎麼想到這個技術路線的?
姚卯青:最初是受到了生成式模型的啓發。生成式模型中的變分自編碼器(VAE)通過壓縮和解壓縮數據來學習緊湊的表徵方式,例如對圖片進行處理時,它可以去掉冗餘信息,實現高效壓縮。我們認爲動作也可以用離散的元素排列組合來表示,於是訓練了一個關於動作表達的 CodeBook(碼本)。我們從今年年初開始進行這方面的測試,逐步發現了準確率的顯著提升。
鳳凰網科技:在這個過程中會不會有一些技術難點?
姚卯青:當然有。AI 開發涉及算力、算法、數據等多個要素,對於機器人的 AI 來說,還需考慮機器人硬件本體。算力方面,需要機器人公司有一定的資源投入;算法方面,市場上現有的算法在數據兼容性、效果泛化性和魯棒性上存在欠缺,有些甚至出現過擬合現象;硬件方面,大規模量產機器人並達到高質量品控和工業級標準是一個巨大的挑戰,包括不同機器之間的一致性,以及每臺機器下線後的傳感器標定、時間同步等專業校準工作。不過,我們團隊在車規級自動駕駛方面有着深厚的經驗,借鑑了其工業級工程基礎,成功實現了機器人量產和高效數據採集。
鳳凰網科技:能舉一個具體的例子嗎?
姚卯青:在數據採集早期,我們沒有進行嚴格的閉環驗證,導致算法使用數據時發現很多不符合預期的問題,比如採集的節拍不符合要求,機器人機械臂的軌跡不自然,或者機器人相機的視野不科學等。爲了解決這些問題,我們加快了從數據到模型研發的閉環效率,通過自動化方式觸發模型訓練驗證,在更短的時間內對新的採集任務進行質量反饋。
鳳凰網科技:你們之前還在上海建了一個數據採集工廠,爲什麼這麼認真對待數據採集這件事,內部會有一些分歧嗎?
姚卯青:內部確實有不同的聲音。有人質疑是否真的需要真實數據,認爲在仿真環境裡就可以訓練,也有人對數據量和機器人採集規模提出疑問。但最終我們分析認爲,機器人操作在仿真環境中有侷限性,真實數據的價值非常高。同時,我們也對數據量進行了調研,發現機器人數據量遠小於大語言模型,要達到相當規模,可能需要幾千萬到一億條短任務數據。基於這些分析,我們決定堅決投入,並且參考了國外友商在數據採集規模上的規劃。
鳳凰網科技:看上去智元走了一條非常難的路線,業內有時候基於自身的優勢,可能會着重突破機器人的上半身或者下半身,但智元一開始的定位就是全部都要做,這是爲什麼?
姚卯青:智元機器人的使命是以通用機器人實現無限生產力,所以我們認爲必須要走這條路,必須要解決這些問題。大規模部署機器人一定是一個像汽車一樣有着嚴格質量標準的量產產業,這要求我們學會整套的質量規劃、管理和測試流程。我們不僅要關注細節,還要從整體上把控,確保機器人在實際生產和服務場景中產生價值。
鳳凰網科技:現在會着重解決哪些場景的應用?
姚卯青:短期內,我們會先解決一些物體轉移和搬運的場景,比如在工廠裡進行物料的上下料轉移、搬運,以及在零售場景中進行物料上架、取貨等操作,這些是我們認爲可以率先攻破的應用場景。
鳳凰網科技:提到工業場景,會讓我們想起一個業內流傳的觀點,人形機器人不一定非要造得像人,你認可這個說法嗎?
姚卯青:從產品角度講,作爲一家創業公司,我們不可能爲每種場景單獨開發一個機械,投入產出比不允許這樣做。所以我們只能設計和生產有限種類的機器人,那麼什麼樣的形態可以覆蓋最多的功能和場景呢?我們認爲,世界是爲人類設計的,一個與人類形態相近的機器人,可以滿足最多的功能需求,這是所謂的最大公約數。
鳳凰網科技:達到這樣一個規模,可能會像大語言模型一樣迎來智能涌現,你覺得會有哪些標誌性的事件發生?
姚卯青:智能涌現不一定是某個特定場景,而是體現在幾個方面:一是操作成功率高,比如達到 95% 甚至 99%;二是具有強魯棒性(衡量的是模型對“髒數據”的抵抗力,在面對輸入數據的小幅變動、噪聲和異常值時仍能保持穩定性能)和泛化性(指模型在未見過的新數據上的表現能力),能在各種真實場景中應用;三是具備與語言打通的指令跟隨能力,能理解並執行模糊的人類指令。
鳳凰網科技:所以目前的機器人離真正的智能涌現還比較遙遠?
姚卯青:目前確實比較初級,這與機器人的硬件形態有關。人類手臂和手具有較高的自由度和活動空間,爲精細化作業提供了基礎,而機器人目前還處於二指夾爪和低自由度靈巧手的階段,缺乏精細觸覺感知和精確的關節控制。但我們相信,2025、2026 年這些方面會成爲行業熱點並取得快速突破。
本文源自:鳳凰網科技