3月27日,2025中關(guān)村論壇年會在北京開幕。今年論壇年會主題為“新質(zhì)生產(chǎn)力與全球科技合作”,邀請諾貝爾獎獲得者、頂級科學家、知名企業(yè)家,分享他們在科學研究、技術(shù)孵化、產(chǎn)品開發(fā)、產(chǎn)業(yè)洞察方面的深刻見解,為中國新質(zhì)生產(chǎn)力的培育,為面向全球的科技創(chuàng)新與交流指引方向。
北京銀河通用機器人有限公司創(chuàng)始人、首席技術(shù)官王鶴先生發(fā)表以下主題演講——《開啟人形機器人的生產(chǎn)力時代》。

王鶴 演講實錄:
各位尊敬的領(lǐng)導、與會嘉賓,我是北京銀河通用機器人有限公司的創(chuàng)始人及CTO王鶴,很榮幸今天在這里跟大家分享和交流關(guān)于人形機器人生產(chǎn)力時代的探索與思考。
首先允許我介紹北京銀河通用機器人有限公司。我們是一家2023年5月在北京海淀中關(guān)村成立的創(chuàng)新企業(yè),我們專注研發(fā)人形機器人硬件和具身智能大模型,目標是實現(xiàn)服務(wù)千行百業(yè)、千家萬戶的通用人形機器人。
一直以來人形機器人寄托了人類對美好生活以及尖端科技的向往。從上世紀70年代以來,人形機器人初具雛形。在這一階段,我們看到具有代表性的本田ASIMO機器人、波士頓動力的Atlas機器人,他們都展現(xiàn)了一定的行走能力和簡單的運動能力。在這背后的技術(shù)是相對傳統(tǒng)的,這些相對傳統(tǒng)的控制技術(shù)也不可避免的有一些局限性,比如說每一個新的運動技能開發(fā)周期比較長,同時對地形的適應(yīng)性差,并且在新的環(huán)境部署當中也會受到一些挑戰(zhàn),可靠性也欠佳。
今天我們也看到了很多機器人秀,實際上今年新春伊始,人形機器人已經(jīng)紅透了大江南北,今年蛇年春晚上,來自中國的宇樹機器人展示了數(shù)分鐘幾十臺的擬人舞蹈。最近國際共建具身智能創(chuàng)新中心的天工機器人,也是一系列復雜的地形里進行奔跑,正在備戰(zhàn)馬拉松比賽。我們看到人形機器人已經(jīng)步入了運動時代,對地形有很強的自適應(yīng)性,而且目前可靠性也非常高。背后是一個無需視覺輸入,基于關(guān)節(jié)狀態(tài)輸入的強化學習技術(shù)引領(lǐng)了這場革命。我們沒有視覺輸入,就培育出了運動健將,但是運動健將絕對不是人形機器人的終點。
我們看到24年特斯拉人形機器人Optimus展示了電車工廠里面把一個又一個的電池插入紅盒子里,進行電池分揀的工作。這樣的能力顯然是依賴連續(xù)的視覺輸入,而我們發(fā)布的銀河通用GBERT大模型機器人也從發(fā)布之初一直到現(xiàn)在不停的展示各種泛化的操作能力。
從我看來,這種以視覺引領(lǐng)、肢體控制、實現(xiàn)自主工作泛化操作的能力,真正讓人形機器人成為人類的榜首,即將開展人形機器人最激動人心的時代,就是生產(chǎn)力時代。在人形機器人的生產(chǎn)力時代,需要的技術(shù)是基于閉環(huán)視覺輸入端到端具身大模型實現(xiàn)任務(wù)的通用和能力的泛化。
今天具身大模型的發(fā)展也遇到了一些困難,其中最為難的一點是數(shù)據(jù)的缺乏,特斯拉的人形機器人訓練出電池分揀的能力需要40人的遙控團隊對人形機器人進行長達數(shù)月的數(shù)據(jù)采集。所以人形機器人的生產(chǎn)力背后潛藏著巨大的、高昂的數(shù)據(jù)成本,這只是一個技能。市場生活中有各種各樣的技能需要學習。短時間內(nèi)很難完全進行采集,成本也非常高。所以我們走向能力通用,現(xiàn)在最大的問題是從哪里獲得足量的數(shù)據(jù)。
作為中國人形機器人的創(chuàng)新企業(yè),銀河通用試圖找到一條破解具身數(shù)據(jù)難題的方式,就是通過大規(guī)模生產(chǎn)和使用合成數(shù)據(jù)來訓練人形機器人。我們制造了大量的數(shù)字物體資產(chǎn),并且在上面合成了大量的符合物理解和仿真模擬的抓取標簽和操作軌跡,并且也可以通過視覺驅(qū)動的強化學習,探索物體的操作方式,這一系列的工作獲得了諸多國際頂尖會議的最佳論文及提名。今年春節(jié)之前,我們也發(fā)布了全球第一個完全基于合成大數(shù)據(jù)端到端訓練的具身大模型。我們合成數(shù)據(jù)覆蓋了各種可能的物體,光照、背景、前景,并且用10億級別的合成大數(shù)據(jù)訓練出了27億參數(shù)的具身大模型,我們的大模型給一個詞,就可以抓取你想抓的東西,語言是開放的,什么詞匯都可以。你可以給它搗亂,視覺閉環(huán)的模型會非常抗干擾。
我們看到通過天量合成大數(shù)據(jù),我們的大模型沒有用任何真實世界的數(shù)據(jù),直接在真實世界部署就獲得了很高的可靠性。這樣的數(shù)據(jù)成本是非常低廉的。如果在真實世界還希望它不僅是抓,還按照你的希望去抓。我們可以看到,比如說我們希望能夠從左到右,從前到后一瓶一瓶的抽取礦泉水,對于怡寶礦泉水,我們只用一個工人進行一個下午的數(shù)據(jù)采集,大約200條數(shù)據(jù),就可以把這個能力訓練出來的。同等難度的插入電池,特斯拉用了40各個人數(shù)月的采集,我們實現(xiàn)了數(shù)百倍的數(shù)據(jù)效率提升。同時我們訓練的大模型還具有很強的舉一反三能力,只用采集一種,比如說怡寶礦泉水,就可以在同類別的物體上,比如說農(nóng)夫山泉和東方樹葉這些飲品上進行抓取。我們看到樣子、高度、蓋的大小、瓶的數(shù)目全部發(fā)生了變化,然而機器人不需要再訓練、采集,直接就可以工作。這種舉一反三的能力進一步降低了數(shù)據(jù)的需求,它真正賦予具身大模型新質(zhì)生產(chǎn)力。
實際上不僅僅是抓取,我們用合成數(shù)據(jù)訓練了掛衣服這種柔性物體操作的能力。在合成大數(shù)據(jù)訓練之后,真實世界面對不同的袖長,不同的顏色,不同的品種,雞心領(lǐng)、圓領(lǐng),各種隨機皺褶的衣服,機器人第一次見就可以把衣服掛起來,這樣的能力也為未來人形機器人在家庭中應(yīng)用訓練了有價值的技能。
實際今天我們已經(jīng)在商業(yè)場景當中進行了落地,我們跟合作伙伴一起搭建了24小時的無人藥店。現(xiàn)在你下單,店里面是人形機器人從貨架上取藥交給快遞員。24小時的藥店,夜間需要買藥也不用店里面讓一個人不睡覺在那里值班了,人形機器人當家作主。同時不僅僅是取貨,它還可以知道把哪個藥上到哪里,這樣取貨上貨完整應(yīng)用構(gòu)成了一個很好的商業(yè)案例。目前在北京已經(jīng)運營了兩家24小時無人藥店,正在開第三、四、五家,并且在今年年底在全中國開100家。我們還在中國新能源電車的車廠里面幫助搬運非常重的箱子,27箱密集擺放的箱子,每一箱,人工智能都有自己的處理辦法,長時間的體力勞動有望用人形機器人新質(zhì)生產(chǎn)力進行賦能。
實際上人形機器人很需要國際合作,去年沿著“一帶一路”,我們到達了阿布扎比,在阿布扎比這個酒店運營了一個圣誕節(jié)期間的禮品店,為上千個賓客帶來的歡聲笑語。
在今年美國CES大展上,銀河通用的人形機器人也入選了英偉達的14個人形機器人合作伙伴,并且我們作為代表性的機器人,最右邊的機器人舉起了英偉達當天發(fā)布的顯卡RTX5090,中國的人形機器人舉起了英偉達的顯卡,這也彰顯了科技的全球合作。實際上一路走來,我從美國斯坦福大學獲得博士學位,今天在北大任教,在中關(guān)村創(chuàng)業(yè),我看到國際交流與合作正是推進人形機器人新質(zhì)生產(chǎn)力的關(guān)鍵。
借中關(guān)村論壇的契機,讓我們一同通過國際合作,攜手打造2025年人形機器人的生產(chǎn)力元年。謝謝大家。
注:本文來源于2025中關(guān)村論壇年會嘉賓現(xiàn)場演講速記,文中內(nèi)容僅代表專家個人觀點