Derek Li's picture

4 5

Derek Li

movefast

·

movefast

AI & ML interests

RL, Planning

Organizations

movefast 's models 27

movefast/iter_1

Text Generation • 8B • Updated Nov 23, 2025 • 1

movefast/Qwen2.5-1.5B-Open-R1-GRPO

2B • Updated Oct 7, 2025 • 46

movefast/qwen3_8b_orm_step_20

8B • Updated Jul 18, 2025

movefast/qwen3_8b_orm_step_35

8B • Updated Jul 18, 2025

movefast/OpenR1-Distill-7B

Text Generation • 8B • Updated Jun 23, 2025 • 2

movefast/Qwen2.5-7B-mult-task-sft-v2-2.5e-6

8B • Updated May 17, 2025

movefast/Qwen2.5-7B-mult-task-sft-v2-5e-6

8B • Updated May 16, 2025

movefast/Qwen2.5-7B-mult-task-sft-v2-1e-5

Text Generation • 8B • Updated May 16, 2025 • 2

movefast/Qwen2.5-7B-mult-task-sft-v1-1e-5

Text Generation • 2B • Updated May 12, 2025 • 8

movefast/Qwen2.5-7B-mult-task-sft-v1

Text Generation • 2B • Updated May 12, 2025 • 2

movefast/Qwen2.5-7B-Instruct-GRPO-Distill

Updated Mar 30, 2025

movefast/Qwen2.5-7B-Open-R1-Distill

Text Generation • 8B • Updated Mar 29, 2025 • 4

movefast/Qwen2.5-7B-Instruct-GRPO-Multi-Task

Updated Mar 29, 2025

movefast/Qwen-2.5-7B-Simple-RL

Text Generation • 8B • Updated Mar 29, 2025 • 1

movefast/Qwen2.5-7B-Instruct-GRPO

Text Generation • 8B • Updated Mar 28, 2025 • 2

movefast/Qwen2.5-7B-Open-R1-GRPO-BLEU

Updated Mar 24, 2025

movefast/Qwen2.5-7B-Open-R1-GRPO-Combined-v2-1e-6

Text Generation • Updated Mar 24, 2025 • 1

movefast/Qwen2.5-7B-Open-R1-GRPO-Rule-Based

Updated Mar 21, 2025

movefast/DeepSeek-R1-Distill-Qwen-1.5B-GRPO

Updated Mar 19, 2025

movefast/Qwen2.5-1.5B-Open-R1-Distill

Updated Mar 19, 2025

movefast/Qwen2.5-7B-Open-R1-GRPO-Combined-1e06

Updated Mar 17, 2025

movefast/Qwen2.5-7B-Open-R1-GRPO-Combined

Updated Mar 14, 2025 • 1

movefast/Qwen2.5-7B-Open-R1-GRPO

Text Generation • Updated Mar 13, 2025 • 125

movefast/peft_last_checkpoint_full_model

Updated Oct 11, 2023

movefast/gpt2_peft_stack-exchange-paired_rmts__100000_2e-05_peft_last_checkpoint

Updated Oct 11, 2023

movefast/stack-llama-2

Updated Sep 22, 2023

movefast/rlbench-finetune-0601

Updated Jun 2, 2023