policy optimization - a Ejafa Collection

Ejafa 's Collections

policy optimization

policy optimization

updated Oct 30, 2025

Ejafa/qwen2-0.5b-instruct-simpo-lr-5e-07-gamma-1.5

Text Generation • 0.5B • Updated Jun 25, 2024 • 14 •
Ejafa/qwen2-1.5b-instruct-simpo-lr-5e-07-gamma-1.5

Text Generation • 2B • Updated Jun 25, 2024 • 12
Ejafa/phi-3-mini-128k-instruct-simpo-lr-5e-07-gamma-1.5

Text Generation • 4B • Updated Jun 25, 2024 • 6
Ejafa/phi-3-mini-128k-instruct-dpo-lr-5e-07

Text Generation • 4B • Updated Jun 25, 2024 • 3