PPO Trainers - a rbgo Collection

rbgo 's Collections

LLM-Alignment Papers

PPO Trainers

updated Sep 12, 2024

Direct Language Model Alignment from Online AI Feedback

Paper • 2402.04792 • Published Feb 7, 2024 • 35