蘋果公司近期在科技領(lǐng)域投下了一枚震撼彈,公開了一項旨在優(yōu)化人形機器人學習效率的創(chuàng)新技術(shù)——PH2D方法。這項技術(shù)巧妙融合了人類教練的專業(yè)指導與機器人示范者的實際操作,為機器人的訓練開辟了一條既經(jīng)濟又高效的全新路徑。
在一篇題為《Humanoid Policy ~ Human Policy》的研究論文中,蘋果詳細闡述了傳統(tǒng)訓練方法的局限性。以往,機器人示范者雖被廣泛采用,但這一過程不僅耗時費力,還需依賴價格高昂的遠程操作數(shù)據(jù)采集設(shè)備,極大地限制了訓練的普及與效率。
蘋果的新方法則通過整合人類教練與機器人示范者的數(shù)據(jù)資源,巧妙地利用了改造后的消費級硬件進行訓練素材的制作。例如,經(jīng)過特別調(diào)整的Apple Vision Pro頭顯,僅需左下角攝像頭即可完成視覺捕捉任務(wù),并結(jié)合ARKit技術(shù),輕松獲取頭部與手部的三維姿態(tài)信息。而另一款改裝后的meta Quest頭顯,則搭載了mini ZED立體攝像頭,成為了一款經(jīng)濟實惠的數(shù)據(jù)采集神器。
在訓練過程中,人類教練負責演示具體的操作動作,如抓取、抬升、倒水等,并同步進行語音講解。這些精心錄制的視頻經(jīng)過降速處理后,成為了機器人學習的寶貴資料。人類教練的專業(yè)指導與實際操作演示相結(jié)合,使得機器人的學習過程更加直觀且易于理解。
蘋果還研發(fā)了一款名為“Human-humanoid Action Transformer”(簡稱HAT)的模型。這款模型能夠統(tǒng)一處理來自人類教練與機器人示范者的多模態(tài)數(shù)據(jù),構(gòu)建了一個通用的行為策略框架。在多項任務(wù)測試中,HAT模型展現(xiàn)出了比僅依靠機器人示范更強的適應能力與穩(wěn)定性。特別是在執(zhí)行垂直抓取等復雜任務(wù)時,其表現(xiàn)更是優(yōu)于傳統(tǒng)的單一數(shù)據(jù)源訓練方式。
雖然目前蘋果僅展示了相關(guān)的機器人燈效原型,但業(yè)內(nèi)已有傳聞稱,該公司正在秘密研發(fā)面向消費者市場的移動式機器人產(chǎn)品。這些機器人預計能夠勝任家務(wù)協(xié)助等基礎(chǔ)任務(wù),為人們的生活帶來極大的便利。研究結(jié)果顯示,這種結(jié)合式的訓練方法不僅顯著降低了訓練成本,還使得機器人在實際場景中的表現(xiàn)力得到了質(zhì)的飛躍。