Editing Openai/6939b23e-87cc-8001-bdd9-9546d1143ce9 (section)

==== 1. Weight-only quantization - Only the model’s weights are stored in lower precision. ====
# Activation quantization - During inference, internal activations (layer outputs) are also stored in lower precision.
# Dynamic vs static quantization - Static: pre-compute scaling factors for weights → faster but less flexible - Dynamic: adjust scale during inference → more accurate, slightly slower