LLM Optimization Techniques

Methods for optimizing large language model inference

Related Articles

Q8K128 for Phi-3 Mini: Better Reconstruction, No PPL Win → Phi-3 Mini Mixed Q8K/Q4K Quantization → TinyLlama Q8K Engine →

← Back to Blog