Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

nm-research updated a model about 9 hours ago

inference-optimization/Laguna-XS.2-speculator.dflash-Qwen235B-500k-ckpt1

nm-research published a model about 9 hours ago

inference-optimization/Laguna-XS.2-speculator.dflash-Qwen235B-500k-ckpt1

MeganEFlynn updated a model 2 days ago

inference-optimization/DFlash-SWA-Causal-Qwen3-8B-Magpie-Ultrachat

View all activity

inference-optimization 's models 371

inference-optimization/Laguna-XS.2-speculator.dflash-Qwen235B-500k-ckpt1

0.6B • Updated about 9 hours ago

inference-optimization/DFlash-SWA-Causal-Qwen3-8B-Magpie-Ultrachat

2B • Updated 2 days ago • 180

inference-optimization/DFlash-SWA-Causal-Qwen3-8B-PerfectBlend

2B • Updated 2 days ago • 51

inference-optimization/Laguna-XS.2-speculator.dflash-Qwen235B-500k-ckpt0

0.6B • Updated 2 days ago • 106

inference-optimization/gpt-oss-2.5B-A1.3B

3B • Updated 4 days ago • 20

inference-optimization/Llama-4-Scout-1.7B-0.4B-Instruct

Image-Text-to-Text • 2B • Updated 4 days ago • 22

inference-optimization/ctest-Qwen3.5-9B-sliding-window-all-speculator.dflash

2B • Updated 4 days ago • 39

inference-optimization/Llama-3.2-0.5B-Instruct

Text Generation • 0.5B • Updated 5 days ago • 921

inference-optimization/ctest-Qwen3.6-27B-speculator-regen.dflash

3B • Updated 5 days ago • 91

inference-optimization/ctest-Qwen3.5-9B-sliding-window-speculator.dflash

2B • Updated 5 days ago • 56

inference-optimization/Laguna-XS.2-speculator.dflash-Qwen235B-ckpt6

0.6B • Updated 5 days ago • 105

inference-optimization/Laguna-XS.2-speculator.dflash-Qwen235B-ckpt5

0.6B • Updated 6 days ago • 444

inference-optimization/Laguna-XS.2-speculator.dflash-Qwen235B-ckpt4

0.6B • Updated 6 days ago • 118

inference-optimization/Laguna-XS.2-speculator.dflash-Qwen235B-ckpt3

0.6B • Updated 7 days ago • 345

inference-optimization/Laguna-XS.2-speculator.dflash-Qwen235B-ckpt2

0.6B • Updated 9 days ago • 131

inference-optimization/dflash-DeepSeek-V4-Flash-speculators-50k

2B • Updated 10 days ago • 30

inference-optimization/Laguna-XS.2-speculator.dflash-Qwen235B-ckpt1

0.6B • Updated 10 days ago • 131

inference-optimization/Gemma4-DFlash-SWA-Causal-Nemo-Cascade

4B • Updated 12 days ago • 117

inference-optimization/Qwen3-1.6B-A0.9B

Text Generation • 2B • Updated 14 days ago • 718

inference-optimization/gemma-4-1B-0.8B-tiny

1B • Updated 14 days ago • 17 • 1

inference-optimization/ctest-Qwen3.5-9B-subset-397-speculator.dflash

2B • Updated 18 days ago • 67

inference-optimization/Qwen3-235B-A22B-Thinking-2507-quantized.w4a16

Text Generation • 32B • Updated 18 days ago • 203

inference-optimization/Qwen3-235B-A22B-Thinking-2507-quantized.w8a8

Text Generation • 235B • Updated 18 days ago • 182

inference-optimization/Qwen3-235B-A22B-Instruct-2507-quantized.w4a16

Text Generation • 32B • Updated 19 days ago • 225

inference-optimization/Qwen3.6-35B-A3B-7.0-bits-mode-noise

Image-Text-to-Text • 32B • Updated 19 days ago • 134

inference-optimization/Qwen3.6-35B-A3B-7.0-bits-mode-hybrid

Image-Text-to-Text • 32B • Updated 19 days ago • 130

inference-optimization/Qwen3.6-35B-A3B-7.0-bits-mode-heuristic

Image-Text-to-Text • 32B • Updated 19 days ago • 160

inference-optimization/Qwen3.6-35B-A3B-6.5-bits-mode-noise

Image-Text-to-Text • 30B • Updated 19 days ago • 133

inference-optimization/Qwen3.6-35B-A3B-6.5-bits-mode-hybrid

Image-Text-to-Text • 30B • Updated 19 days ago • 118

inference-optimization/Qwen3.6-35B-A3B-6.5-bits-mode-heuristic

Image-Text-to-Text • 30B • Updated 19 days ago • 112