国产九九精品,国产小视频在线,国产精品大全

讓LLM扔塊石頭，結果它發明了投石機？

大模型接到任務：“造一個能把石頭扔遠的結構。”

誰成想，它真的開始動手造了，在一個真實的物理仿真世界里，一邊搭零件，一邊看效果，一邊修改。

最后，它造的投石機，把石頭扔了出去。

這就是來自港中大（深圳）、港中大的研究團隊（Wenqian Zhang, Weiyang Liu, Zhen Liu）帶來的最新研究——《Agentic Design of Compositional Machines》。

他們推出了一個叫BesiegeField的新平臺，它就像一個給大模型的“機械工程師訓練場”，專門測試AI能不能像人一樣，從零開始設計并造出能動的、有功能的復雜機器。

這還沒完。BesiegeField支持上百次的并行實驗，一旦引入強化學習（Reinforcement Learning），大模型就能“自我進化”：從反饋中調整策略，逐步學會結構設計的物理邏輯，最終學會如何“造出能動的結構”。

大模型怎么寫出一個機械結構

首先得明確，這不是讓大模型去畫CAD圖，它也控制不了三維細節。研究者提出了一種叫“組合式機械設計”（Compositional Machine Design）的方法。

說白了，就是把機械結構限定在“用標準零件組裝”這個范圍里。每個零件（比如支架、關節）都有標準尺寸和接口，大模型只需要決定：

用哪些零件

它們之間怎么連

這樣，復雜的設計就被簡化成一個“離散結構組合問題”。到底好不好用？能不能動？穩不穩？交給物理仿真去驗證。

為了讓模型好理解和修改，研究者用了一種類似XML的“結構化表示機制”，設計機械就變成了一種語言模型擅長的結構生成任務。

一個自進化訓練場

上面說的這一切，都發生在BesiegeField這個仿真平臺里。它跑在Linux集群上，能同時跑幾百個機械實驗，并給到完整的物理反饋——比如速度、受力、能量變化、投擲距離、穩不穩定、機械損壞度等等。

這些反饋不僅能驗證設計，還能作為強化學習的“獎勵信號”，指導模型改進策略。

在這個平臺里，模型的設計形成了閉環：生成 → 仿真 → 拿反饋 → 調整 → 再來一次。

就算不更新模型參數，它也能靠反饋優化輸出；如果引入強化學習，模型就能通過這些量化的獎勵信號，系統性地提升設計能力和成功率。

平臺還設計了一系列從易到難的任務，比如直線行駛、投擲、抓取，甚至還有過障礙、地形坡度、穿環投擲等更復雜的場景，構成了一個多樣化的實驗空間。

為什么造機器這么難

造機器的挑戰，不在于零件多少，而在于它們能不能“在動態中協同工作”來完成復雜功能。

拿投石機來說，配重、支點、發射臂必須在關鍵時刻協同發力，才能把能量精準地扔出去。

只要一個地方偏差，整個機器就可能失效：沒配重，打不出去；缺支點，原地轉圈；少了杠桿，石頭飛不起來。

這些問題，只有在真實仿真中才能被發現，也只有這樣，模型才能一步步搞懂“結構到底是怎么動起來的”。

差距有多大？人類設計的投石機能投近200米，而大模型設計的，常常連30米都到不了。

這其中，差距就在于對“結構協同”和“發力效率”的理解。

這也是BesiegeField要解決的核心問題——讓它懂得結構之間“如何協同去完成任務”。

模型真學會造結構了嗎

為了解決單個模型“想不明白”的難題，研究團隊構建了一套“智能體工作流”（Agentic Workflow），讓多個AI協作。

這套系統里有不同角色：

總設計師（Meta-Designer）： 負責拆解任務。

結構設計師（Designer）： 搭建初始方案。

審查員（Inspector + Refiner）： 檢查結構和連通性。

反饋查詢員（Active Env Querier）： 跑仿真并從大量反饋數據內抽取對任務最有用的信息報告。

分析/優化員（Refiner）： 解讀反饋，提出修改。

團隊測試了多個主流模型，發現在這套工作流下，Gemini 2.5 Pro的表現很突出。

比如在優化投石機時，Gemini 2.5 Pro能根據仿真反饋，識別出“底座太小導致結構失衡”、“旋轉軸方向錯誤導致無法發力”等問題，并提出“移除舊底座”、“重新定位手臂和容器”、“構建新底座”等修改方案。

對比表格顯示，這套“多角色分層設計”（Hierarchical Design）策略，在投石機（Catapult）和小車（Car）任務上，其平均分（Mean）和最高分（Max）都顯著優于以Gemini為代表的部分“單一模型”或簡單的“迭代修改”策略。

關鍵這些成果是模型自己在真實反饋里逐步學會調整的。

怎么讓AI越造越聰明？

有了工作流還不夠，還得讓模型能“自我進化”。研究團隊引入了強化學習（RL），具體用了一種叫RLVR（基于可驗證反饋的強化學習）的策略。

BesiegeField的仿真反饋就是現成的“獎勵信號”（Reward）：比如投擲距離多遠？能不能成功執行任務？能運行多久？

研究團隊用了Pass@k Training方法（即在k次嘗試中選獎勵最大的那個樣本作為訓練信號），對Qwen2.5-14B-Instruct這個模型進行持續微調。

效果很明顯。隨著迭代次數增加，模型設計的結構越來越好，投擲距離也越來越遠。

定量數據也顯示，在“Cold-Start + RL”（用少量好例子啟動+強化學習）的策略下，模型在小車任務上的最高分達到了45.72，投石機任務的平均分和最高分也都是最優的。

這是首次證明，LLM確實能借助RL，在仿真反饋中持續提升機械設計能力。

AI創造力的新邊界

總的來說，BesiegeField帶來的不只是一個仿真平臺，更像是一種新的“結構創造范式”。

它把復雜的機械設計，轉變成了一個AI擅長的“結構化語言生成任務”；

它提供了一個閉環，讓模型能在真實的物理反饋中，學會理解力學規律和結構協同；

它支持任務難度可控、流程模塊化、結果可定量評估；

更重要的是，它提供了一個觀察AI如何獲得“空間智能”和“物理智能”的起點。

研究團隊期待，未來AI造的不僅是投石機，而是能奔跑、搬運、協作的各種復雜結構——讓語言模型真正具備“造出會動的東西”的能力。

未來AI造的不僅是投石機，而是能奔跑、搬運、協作的各種復雜結構——讓語言模型真正具備“造出會動的東西”的能力

電動能源更多>>

新車性能更多>>

汽車測評更多>>

車市科技更多>>

每日報道更多>>

智駕游記更多>>