Skip to content

vllm.entrypoints.serve.instrumentator.health ¶

health `async` ¶

health(raw_request: Request) -> Response

Health check. Returns 503 when paused or dead.

Note: During drain shutdown, middleware returns 503 before reaching here. Designed to be used as the readiness probe in a Kubernetes deployment.

Source code in vllm/entrypoints/serve/instrumentator/health.py

@router.get("/health", response_class=Response)
async def health(raw_request: Request) -> Response:
    """Health check. Returns 503 when paused or dead.

    Note: During drain shutdown, middleware returns 503 before reaching here.
    Designed to be used as the readiness probe in a Kubernetes deployment.
    """
    try:
        client = engine_client(raw_request)
        if await client.is_paused():
            return Response(status_code=503)
        await client.check_health()
        return Response(status_code=200)
    except EngineDeadError:
        return Response(status_code=503)

live `async` ¶

live(raw_request: Request) -> Response

Liveness check. Returns 200 when draining, 503 only when dead.

Source code in vllm/entrypoints/serve/instrumentator/health.py

@router.get("/live", response_class=Response)
async def live(raw_request: Request) -> Response:
    """Liveness check. Returns 200 when draining, 503 only when dead."""
    try:
        await engine_client(raw_request).check_health()
        return Response(status_code=200)
    except EngineDeadError:
        return Response(status_code=503)