Editing Openai/694057b6-101c-8007-9a65-c40578c7252d (section)

===== transport.py owns these details: =====
* Readiness probe: - GET /v1/models → parse JSON → ok/not ok
* Streaming: - Accepts request payload and yields decoded events: - raw bytes, or structured “delta text”, or tool_call payloads (depending on how you decide to parse) - The worker layer treats any bytes after headers as progress and does not need to know SSE details. - Keep transport tolerant: - allow keepalive lines - handle partial JSON frames - raise clear exceptions for irrecoverable protocol errors

Keep “how to parse llama-server’s stream” in one place so it’s easy to adjust.