界面新聞記者 | 李如嘉
界面新聞編輯 | 文姝琪
在智元位于上海張江機器人谷的數采工廠里,采集人員正在操縱機械臂完成數據采集。從夾取各類物品,到鏟貓砂、晾衣服,工廠里設置了多個細分場景,每隔一段時間就會進行更換。去年,智元數采工廠采集了100萬條數據,今年希望能有1000萬條數據產出。
在姚卯青的構想下,如果能夠有一億條真機數據,機器人就可以達到類比ChatGPT-3的智商,與常見物品、設備互動,并與人類進行簡單交互。
姚卯青畢業(yè)于清華大學電子工程系,曾在Waymo、蔚來汽車等任職。2024年,他加入智元,擔任合伙人、具身業(yè)務部總裁、具身研究院執(zhí)行院長,負責AI技術開發(fā)及軟件研發(fā)工作。
成立于2023年的智元機器人,是目前中國估值最高的具身智能企業(yè),最新估值達150億,融資方有紅杉中國、高瓴等投資機構,也有上汽、比亞迪等車企,以及騰訊這樣的大廠。
作為曾經的智能駕駛從業(yè)者,姚卯青認為,與智能駕駛相比,具身智能雖然在硬件系統(tǒng)架構上非常類似,但在技術、場景和應用等方面都有更大的想象空間,大模型的突破則讓大家看到了具身智能成功大規(guī)模落地的可能性。
他提到,具身智能真正的壁壘在于操控和大腦。而要完成這些,需要大量數據,這也是智元成立數采工廠的原因。他的樂觀估計是,再需要五年,機器人或許就可以進入家庭,而在第一階段,工廠仍是具身智能最大的需求方。
“機器人不是大模型,最終還是要拼硬件、拼制造?!币γ嘣诓稍L中還表示,在機器人實際落地中,管好一萬多個零件的供應鏈,實現規(guī)?;慨a是一大難關。截至目前,智元已量產下線1000多臺機器人,今年的出貨計劃保持在數千臺。
在他看來,主流資本已經站好隊,留給新成立的公司的機會已經不多,目前牌桌上的玩家要做的就是在更快的創(chuàng)業(yè)節(jié)奏下,做差異化,做量產和商業(yè)閉環(huán)。

以下是界面新聞與智元機器人合伙人姚卯青的采訪,略經編輯:
大模型讓具身智能的成功初見端倪
界面新聞:你之前在Waymo、蔚來,都是在做智能駕駛,為什么會選擇切入機器人賽道?
姚卯青:現在這么多人從智駕切換到機器人賽道,我可以說是最早做出這個選擇的。大部分人都是從去年下半年到今年上半年才集中開始換賽道,我在2023年就已經看到具身智能這個新生事物的潛力和想象力,2024年上半年正式開始做機器人。
在機器人之前,我也嘗試過智能駕駛的創(chuàng)業(yè),現在比較火的一段式端到端,我在2023年上半年就已經著手在做。但當時在找融資的時候,就發(fā)現投資人會覺得自動駕駛好像已經沒那么性感了。智能駕駛發(fā)展到現在,可以實現的功能還比較有限,商業(yè)模式也比較趨同,最終還是作為供應商的角色和車企打交道,生存空間也很有限。當時也有人建議我來做機器人,在了解之后,我覺得它的想象空間會更大。
界面新聞:你當時覺得轉型具身智能的機會點在哪里?
姚卯青:智能駕駛和機器人從硬件系統(tǒng)的架構來講是極其相似的,尤其是在電子電器和傳感器這一層。具體的控制器、執(zhí)行器可能有不一樣,但是從域控制器以上的維度來講,兩者的系統(tǒng)和架構是高度一致的。所以很多過去在智能駕駛工程上、資源上的積累,其實都可以直接復制過來。
但從技術上來說,具身智能更適合做大模型。智能駕駛現在所謂端到端的這些模型,其實都還是小模型。也不是說因為技術能力不足做不了大模型,而是智能駕駛本身的特點就是低延時、高速、安全要求極高,不能讓推理慢且存在幻覺的系統(tǒng)來控制車輛,這是不可能通過安全測試的,所以大家也只能講講概念。但在機器人上,像現在我們外面跑的一些算法已經是大模型,雖然沒有到幾千億參數,也有幾十億參數。
界面新聞:所以大模型這波熱潮也讓你對具身智能更有信心?
姚卯青:對,大模型首先確實是一個劃時代的東西。有了大模型,在2023年具身智能發(fā)展早期,谷歌RT-X等幾份工作給大家看到了一個新的范式,機器人不用再分模塊去做感知、規(guī)劃與控制,用一個大模型就可以端到端地解決這一整套系統(tǒng)。
智能駕駛是讓車從一個結構化的道路從A點走到B點,場景是可預期的,地上有哪些線、哪些交通燈,包括交通規(guī)則也是制定好的。但大家對機器人的想象是和人類一樣的存在,可以在開放世界里執(zhí)行任意任務。原來為自動駕駛這樣專用功能設計的系統(tǒng)是無法適用于這種通用智能的,是大模型的出現讓大家看到了一些成功的端倪。
界面新聞:轉型后為什么選擇加入智元,你覺得智元和其他公司有什么不一樣?
姚卯青:我當時看過很多具身智能的創(chuàng)業(yè)公司,其實最初也沒有特別關注到智元。后來也是有投資人介紹,交流了幾次發(fā)現,首先智元確實資金比較充足。不得不承認,資金是最重要的事情。無論是自動駕駛、大模型,還是具身智能,做這些大賽道,前提就是要有錢。其次智元是有規(guī)劃的,要拿這些錢來堅定投入AI。
雖然整個行業(yè)現在還很早期,但從終局來看,AI能力是必備的,否則機器人就沒有任何用處。雖然算力、算法工程師、數據這些都很貴,但當時智元已經決定一年要用500臺機器人去采數據、做大模型。雖然當時已經有十幾億融資,一年投入這么多在這方面也是風險很大的事情,我覺得這是很難的一個決定。
其次智元整個團隊也更加成熟。做公司只有學術是不夠的,創(chuàng)業(yè)不只是要做科研,還要做生產制造、采購、供應鏈管理,管產品、市場銷售戰(zhàn)略、政府關系、投融資等等,需要非常綜合的能力。尤其機器人也不是大模型,最終還是要拼硬件、拼制造?,F在機器人制造還在一個很初期的階段,要在產業(yè)鏈很不成熟的情況下,帶著供應鏈慢慢成長,做出一個穩(wěn)定可量產的產品,你的團隊要足夠成熟和完整。
一億條數據和五年
界面新聞:剛才提到的大模型主要是在機器人大腦方面的進步。在本體和小腦方面,最近有一些比較大的進展嗎?
姚卯青:本體的話,我覺得重點還是要看誰的作業(yè)能力進展比較快。運動能力雖然比較博眼球,但對ToB(企業(yè))客戶來說,做demo、展示極限運動能力這些意義不是很大,他們關心的還是機器人的負載、速率、穩(wěn)定性等等,能不能去完成工廠里一些復雜的、靈巧的,現在需要大量的工人去完成的事情。比如蘋果這種代工廠,全球有幾十萬工人,這對它們是巨大的負擔。未來工廠可能每年都有削減5%-10%工人數量的指標要求,這就是具身智能第一階段最大的需求方,去做這些傳統(tǒng)工業(yè)自動化做不到的事情。
界面新聞:你覺得現在市面上的這些做機器人本體和小腦運動控制的公司,他們之間有很大壁壘嗎?
姚卯青:我覺得確實不存在太高的壁壘。現在即使估值沒那么高,人員沒那么多的公司,做出的demo也完全不輸一些大一些的公司。只要是1.3米左右的機器人,結合模仿學習和強化學習算法,完全可以去拍一拍demo視頻。
界面新聞:那真正的壁壘在哪里呢?
姚卯青:真正的壁壘肯定在“manipulation”(操控)上,通過操作去完成任務。因為它要求的精度很高,是更加復雜的一套組合操作。走路這種能力其實是固定模式的重復運動,但去完成一個操作任務,涉及到跟物體的交互,還要深度規(guī)劃、組合各種技能。在這個過程中,和機器人交互的物體也在隨著作用力改變狀態(tài),機器人要去動態(tài)閉環(huán)地完成這個任務。
讓機器人翻跟頭,跳起來把自己扔到空中,其實只需要很短的時間,視頻拍十次有一次成功就好了,這些都屬于開環(huán)任務。但像倒水就是一個閉環(huán)的任務,機器人要決定什么時候要倒?jié)M了,什么時候該停下。
界面新聞:那想要完成操控的部分,背后需要做一些什么事情?
姚卯青:需要采集大量的數據。在采集過程中,一是要學會這種物理規(guī)律,二是學會操作時候的接觸位置,三是要學會操作的技術。
我們認為,采集到一億條數據以后,機器人應該可以達到Chat GPT3的智商。去年我們的數采工廠采集了100萬數據,今年希望能夠有1000萬數據產出來。
界面新聞:數據采集的動作精細度要求也很高,耗時長。這樣采下去的話,1億條數據似乎遙遙無期。
姚卯青:其實也還好,因為進行數據采集的機器人數量還可以增大。如果用1000臺機器人進行規(guī)模化采集,1億條數據可能一年時間就能采夠了。
界面新聞:機器人有Chat GPT3的智商是什么效果?
姚卯青:比如二指夾爪的機器人,可以做到對于常見的物品的抓放、擺布、推拉,操作一些常見設備,也可以和人做一些交互。人通過語言指令的形式,可以讓機器人在環(huán)境中去理解、定位,完成相應動作。
界面新聞:那具身智能的商業(yè)化什么時候能到來?
姚卯青:今年應該可以出現局部的一些商業(yè)化場景,包括我們內部就已經在做一些工業(yè)和商業(yè)場景。
界面新聞:你也提到過,五年之后機器人會進入家庭,這個五年是怎么估算的?
姚卯青:一個是數據量,我覺得五年就能收集得差不多。另一個是回過頭看大語言模型的話,從2020年左右GPT 2讓大家有了耳目一新的感覺之后,到現在成為一個成熟的產品,甚至現在一些agent能調用各種應用幫你完成任務,這個周期是五年。那類比到機器人,現在它開始蹣跚學步,可以去顫顫巍巍幫你抓一些東西,已經是一種初期端到端的系統(tǒng)了,而不是寫規(guī)則,用模塊化的方法搞感知規(guī)控,技術的發(fā)展會不斷加速,我覺得五年的時間是可以暢想一下的。
從demo到量產,管好一萬多個零件的供應鏈
界面新聞:你剛才提到機器人和大模型不一樣,最終還是要拼制造?,F在很多具身智能公司都選擇自己做工廠、做供應鏈,建工廠這件事難在哪里呢?
姚卯青:你要管好機器人的這一萬多個零件。首先供應鏈管理不僅僅是說砍價的能力,雖然砍價也重要,但你沒有量,人家都不會搭理你,不會去給你做定制。其次要保證質量,造1000臺機器人,做到一致其實是很難的。因為機器人的控制最主要就是在一些動力參數,像螺絲和結構件這種零部件有誤差,就會嚴重影響到動力學模型。還有可靠性,能保證終生壽命維持在幾萬小時,或者核心零部件能保證十萬小時、一百萬小時的運行。
我們在做的時候,前期其實踩了很多這方面的坑。你以為這些參數設定好了,找人打樣就行,以為是和汽車一樣有很成熟的供應鏈,最后發(fā)現這些供應商都太初期了,經常干著干著都想自己來做,但作為一個小公司,其實不應該什么都自己做,還是要帶著他們成長。
界面新聞:智元現在自己干的部分能有多少呢?
姚卯青:核心的關節(jié),還有電路板這些硬件我們會自己設計,剩下我們更多想做系統(tǒng)的方案設計和集成。
界面新聞:智元前幾天已經開了第一屆供應商大會,這對一個初創(chuàng)公司來說也不是很常見。
姚卯青:確實現在已經用到了上百個供應商,我們需要通過供應商大會總結一下過去一年的量產成果和成績,更重要是對齊我們今年更大的目標,讓他們提前在質量和產能的規(guī)劃上能夠跟上我們。
界面新聞:今年的目標是什么?
姚卯青:我們自己的規(guī)劃是今年有數千臺機器人量產下線,應該是全球來講最大數量了。我們的優(yōu)勢就在比別人量產的早一些,早踩過一些坑。在量產規(guī)模比較大的情況下,對供應鏈才有真正的掌控能力。一方面量大了在開模這些成本上可以分攤,控制成本,另一方面也有更大話語權,對各種工藝、測試、質量標準都能提出自己的規(guī)范。
更快的創(chuàng)業(yè)節(jié)奏下,淘汰賽即將開啟
界面新聞:我們談具身智能經常會談到兩個其他行業(yè)——大模型,還有自動駕駛。你覺得和這兩個行業(yè)相比,具身智能的創(chuàng)業(yè)節(jié)奏有明顯加快嗎?比如市場會很早就要求看到商業(yè)化的結果。
姚卯青:確實有感覺到。大模型大家搞了一年才發(fā)現不能商業(yè)閉環(huán),對具身智能就會有一些杯弓蛇影的情況。和自動駕駛那時候比的話,因為10年前有美元基金,還是存在耐心資本的,現在就少一些。
界面新聞:你會擔心具身智能也像自動駕駛一樣,剛開始期望很高,但發(fā)展了10年也沒能大規(guī)模落地嗎?
姚卯青:技術的發(fā)展肯定是有不確定性,說不擔心是假的。今天沒有人敢說五年后機器人就和人一樣,什么都會、什么都懂,運控和操作能力做的都很完美。但我相信在一些細分領域,它一定比自動駕駛有更大的機會去先實現商業(yè)落地。本質上還是因為車是一個功能已經被定義好的明確形態(tài),對安全性和效率的要求非常高,但機器人的應用場景更廣,總能找到一些適合的場景先落地。
界面新聞:整體創(chuàng)業(yè)節(jié)奏的加快會對企業(yè)帶來一些壓力嗎?
姚卯青:肯定是會的。所以明顯能感覺到中國的具身智能公司和美國是很不一樣的氛圍。美國頭部公司可以不斷去融資、做研究,完全不想商業(yè)化的事,按照OpenAI的路徑走。OpenAI這種燒了這么多錢,還沒有盈利的公司在當下的創(chuàng)業(yè)環(huán)境中是很難存活下來的。
界面新聞:中美之間具身智能公司在估值上也有差距嗎?
姚卯青:中國和美國差太多了。我們的能力應該和美國頭部的人形機器人團隊相當,但在硅谷的估值體系下,美國公司的估值確實比國內高很多。
界面新聞:你會不會覺得大家對中國公司的要求太高,又太卷了?
姚卯青:中國公司就是太卷了。
界面新聞:那你認為未來中美在具身智能賽道上會是怎樣的競爭關系?
姚卯青:我覺得一定是中國公司勝出。因為機器人就是一個硬件制造業(yè),你看新能源汽車、無人機現在已經沒有美國什么事情了,這個只是歷史的反復上演而已。而且美國的制造業(yè)是越來越弱的,加上中國的產業(yè)鏈和高素質的工程師學者越來越多,這是一個此消彼長、差距越來越大的一個過程。
界面新聞:你們怎么看這個大廠未來可能要下場做具身智能這件事情?特別是騰訊也投了你們,上汽、比亞迪也都在投你們,未來會不會被他們收購?
姚卯青:收購肯定不可能的,在中國這個市場里面不存在估值100 多億的公司被收購。我們肯定是要去上市,但上市不是我們的終極目的,是為了支撐我們實現我們的長期愿景。大廠來做機器人的話,和大模型不同,大的互聯網公司不太會做硬件,包括字節(jié)也明確說自己不會去看硬件這些重資產的東西。
未來我覺得具身智能賽道肯定也不會只有我們一家活下來,但是估計現在這么多創(chuàng)業(yè)公司也就會剩下兩三家,因為主流的資本都已經站隊了,新出來的創(chuàng)業(yè)項目持續(xù)融資的難度會大不少。
界面新聞:這意味著現在具身智能賽道開始進入一個冷靜期了嗎?
姚卯青:肯定是開始會進入收斂,然后一些同質化的公司拿錢就會越來越難,或者只能拿個一輪兩輪。到后面大家如果沒有差異化東西出來,也沒有量產或者商業(yè)化閉環(huán),慢慢就會開始淘汰了。
界面新聞:你覺得是做軟件還是硬件的企業(yè)會活得更長一些?
姚卯青:我覺得號稱只做大腦的公司應該比較困難一些,因為一這個耗錢,二它這個東西很難去商業(yè)化。做硬件的話投入稍微小一點,跟跑可能還能堅持的時間久一點,歷史上也不乏跟跑然后能跟上的例子。但一個公司如果只是做一米三的機器人,只做運動控制,那應用場景確實會比較有限。
界面新聞:所以你覺得智元是一個領跑的位置。
姚卯青:是的。
界面新聞:最近智元也宣布了很多合作,包括和階躍星辰還有Physical Intelligence,在合作這件事情上是怎么看的?
姚卯青:我們是很開放的,不會擔心合作方和我們將來產生商業(yè)上的一些競爭和沖突,更多是我們希望去利用他們一些已有的能力來為我們的行業(yè)做賦能。比如階躍用幾萬張卡訓練出基礎模型,我們就沒有必要從頭再干一遍,那就看能不能利用它的多模態(tài)大模型來賦能我們機器人的大腦。
像Pi的話,具身智能的算法本身還遠遠沒有到終局,必須要以開放的心態(tài)跟進現在最主流的一些方向,和最有可能成為將來頭部玩家的一些人去組建一個好的生態(tài)。將來其實我們也并不排斥說,有一個特別好的算法大腦,我們去預裝到我們的機器上去賣給用戶,這也是一個好的模式。