什麼是世界模型?
世界模型是指一種 AI 內部對「外部世界運作方式」的理解與模擬能力。根據經驗或觀察建立起因果關係(例如:施力會造成移動、角度變化會導致平衡失敗),進而預測接下來會發生什麼,並規劃最合適的行動。
我們先建立一個虛擬的世界 → 再定義這個世界的物理規則與互動方式 → 讓 AI 在這個世界中反覆嘗試與學習 → 最後驗證它是否真的學會如何控制這個世界的運作。
什麼是 Gym?
Gym 是由 OpenAI 開發的一個強化學習模擬環境套件,提供了標準化的「觀察空間(Observation Space)」、「動作空間(Action Space)」、「獎勵機制(Reward Function)」與「環境狀態轉移邏輯」,讓研究者可以快速建構出可供 AI 互動與訓練的虛擬世界。你可以把 Gym 想像成 AI 專屬的「虛擬實驗室」,在這裡,AI 能像小孩一樣學習嘗試、犯錯、修正,最終掌握控制邏輯。
什麼是 PPO?
PPO 是一種策略型強化學習演算法,能在每次更新時「穩定而小幅地調整行為策略」,避免過度學習導致表現不穩定。相比傳統演算法,PPO 結合了學習效率與穩定性,廣泛應用於機器人控制、遊戲 AI、自駕車模擬等領域。透過「限制更新幅度」的方式,確保每一次學習都是朝向更好的方向,但又不會偏離太遠,類似於「一步步修正行為的安全學習法」。