讓LLM扔塊石頭,結果它發明了投石機?
大模型接到任務:“造一個能把石頭扔遠的結構。”
誰成想,它真的開始動手造了,在一個真實的物理仿真世界里,一邊搭零件,一邊看效果,一邊修改。
最后,它造的投石機,把石頭扔了出去。
這就是來自港中大(深圳)、港中大的研究團隊(Wenqian Zhang, Weiyang Liu, Zhen Liu)帶來的最新研究——《Agentic Design of Compositional Machines》。
他們推出了一個叫BesiegeField的新平臺,它就像一個給大模型的“機械工程師訓練場”,專門測試AI能不能像人一樣,從零開始設計并造出能動的、有功能的復雜機器。
這還沒完。BesiegeField支持上百次的并行實驗,一旦引入強化學習(Reinforcement Learning),大模型就能“自我進化”:從反饋中調整策略,逐步學會結構設計的物理邏輯,最終學會如何“造出能動的結構”。

大模型怎么寫出一個機械結構
首先得明確,這不是讓大模型去畫CAD圖,它也控制不了三維細節。研究者提出了一種叫“組合式機械設計”(Compositional Machine Design)的方法。
說白了,就是把機械結構限定在“用標準零件組裝”這個范圍里。每個零件(比如支架、關節)都有標準尺寸和接口,大模型只需要決定:
用哪些零件
它們之間怎么連
這樣,復雜的設計就被簡化成一個“離散結構組合問題”。到底好不好用?能不能動?穩不穩?交給物理仿真去驗證。
為了讓模型好理解和修改,研究者用了一種類似XML的“結構化表示機制”,設計機械就變成了一種語言模型擅長的結構生成任務。

一個自進化訓練場
上面說的這一切,都發生在BesiegeField這個仿真平臺里。它跑在Linux集群上,能同時跑幾百個機械實驗,并給到完整的物理反饋——比如速度、受力、能量變化、投擲距離、穩不穩定、機械損壞度等等。
這些反饋不僅能驗證設計,還能作為強化學習的“獎勵信號”,指導模型改進策略。
在這個平臺里,模型的設計形成了閉環:生成 → 仿真 → 拿反饋 → 調整 → 再來一次。
就算不更新模型參數,它也能靠反饋優化輸出;如果引入強化學習,模型就能通過這些量化的獎勵信號,系統性地提升設計能力和成功率。
平臺還設計了一系列從易到難的任務,比如直線行駛、投擲、抓取,甚至還有過障礙、地形坡度、穿環投擲等更復雜的場景,構成了一個多樣化的實驗空間。

為什么造機器這么難
造機器的挑戰,不在于零件多少,而在于它們能不能“在動態中協同工作”來完成復雜功能。
拿投石機來說,配重、支點、發射臂必須在關鍵時刻協同發力,才能把能量精準地扔出去。
只要一個地方偏差,整個機器就可能失效:沒配重,打不出去;缺支點,原地轉圈;少了杠桿,石頭飛不起來。

這些問題,只有在真實仿真中才能被發現,也只有這樣,模型才能一步步搞懂“結構到底是怎么動起來的”。
差距有多大?人類設計的投石機能投近200米,而大模型設計的,常常連30米都到不了。
這其中,差距就在于對“結構協同”和“發力效率”的理解。
這也是BesiegeField要解決的核心問題——讓它懂得結構之間“如何協同去完成任務”。

模型真學會造結構了嗎
為了解決單個模型“想不明白”的難題,研究團隊構建了一套“智能體工作流”(Agentic Workflow),讓多個AI協作。

這套系統里有不同角色:
總設計師(Meta-Designer): 負責拆解任務。
結構設計師(Designer): 搭建初始方案。
審查員(Inspector + Refiner): 檢查結構和連通性。
反饋查詢員(Active Env Querier): 跑仿真并從大量反饋數據內抽取對任務最有用的信息報告。
分析/優化員(Refiner): 解讀反饋,提出修改。
團隊測試了多個主流模型,發現在這套工作流下,Gemini 2.5 Pro的表現很突出。

比如在優化投石機時,Gemini 2.5 Pro能根據仿真反饋,識別出“底座太小導致結構失衡”、“旋轉軸方向錯誤導致無法發力”等問題,并提出“移除舊底座”、“重新定位手臂和容器”、“構建新底座”等修改方案。

對比表格顯示,這套“多角色分層設計”(Hierarchical Design)策略,在投石機(Catapult)和小車(Car)任務上,其平均分(Mean)和最高分(Max)都顯著優于以Gemini為代表的部分“單一模型”或簡單的“迭代修改”策略。

關鍵這些成果是模型自己在真實反饋里逐步學會調整的。
怎么讓AI越造越聰明?
有了工作流還不夠,還得讓模型能“自我進化”。研究團隊引入了強化學習(RL),具體用了一種叫RLVR(基于可驗證反饋的強化學習)的策略。
BesiegeField的仿真反饋就是現成的“獎勵信號”(Reward):比如投擲距離多遠?能不能成功執行任務?能運行多久?
研究團隊用了Pass@k Training方法(即在k次嘗試中選獎勵最大的那個樣本作為訓練信號),對Qwen2.5-14B-Instruct這個模型進行持續微調。
效果很明顯。隨著迭代次數增加,模型設計的結構越來越好,投擲距離也越來越遠。

定量數據也顯示,在“Cold-Start + RL”(用少量好例子啟動+強化學習)的策略下,模型在小車任務上的最高分達到了45.72,投石機任務的平均分和最高分也都是最優的。

這是首次證明,LLM確實能借助RL,在仿真反饋中持續提升機械設計能力。
AI創造力的新邊界
總的來說,BesiegeField帶來的不只是一個仿真平臺,更像是一種新的“結構創造范式”。
它把復雜的機械設計,轉變成了一個AI擅長的“結構化語言生成任務”;
它提供了一個閉環,讓模型能在真實的物理反饋中,學會理解力學規律和結構協同;
它支持任務難度可控、流程模塊化、結果可定量評估;
更重要的是,它提供了一個觀察AI如何獲得“空間智能”和“物理智能”的起點。
研究團隊期待,未來AI造的不僅是投石機,而是能奔跑、搬運、協作的各種復雜結構——讓語言模型真正具備“造出會動的東西”的能力。