TinyZero 是一個基于 veRL 的強化學習模型,旨在復現
DeepSeeK-R1 Zero 在倒計時和乘法任務中的表現。令人驚訝的是,該項目僅需 30 美元的運行成本(使用 2xH200,每小時 6.4 美元,不到 5 小時),就能實現與 DeepSeeK-R1 Zero 相同的頓悟效果。通過強化學習(RL),3B 基礎語言模型(LM)能夠自主開發(fā)自我驗證和搜索能力。用戶可以通過簡單的安裝步驟和訓練過程,體驗到 TinyZero 的強大功能和創(chuàng)新性。
本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請
點擊舉報。