feat: upgrade vLLM to 0.15.1 (#561)

vivekkalyan · web-flow · commit 86d347ba30b1 · 2026-02-13T16:11:00.000-08:00
diff --git a/pyproject.toml b/pyproject.toml
@@ -24,7 +24,6 @@ backend = [
     "bitsandbytes>=0.45.2",
     "unsloth==2025.12.9",
     "unsloth-zoo==2025.12.7",
-    "vllm==0.13.0",
     "torch>=2.8.0",
     "torchao==0.14.1",
     "accelerate==1.7.0",
@@ -39,6 +38,7 @@ backend = [
     "pytest>=8.4.1",
     "nbmake>=1.5.5",
     "gql<4",
+    "vllm==0.15.1 ; sys_platform == 'linux'",
 ]
 
 langgraph = [
diff --git a/src/art/vllm/patches.py b/src/art/vllm/patches.py
@@ -7,16 +7,16 @@ def subclass_chat_completion_request() -> None:
     """
     Subclass ChatCompletionRequest so that logprobs are always returned.
     """
-    import vllm.entrypoints.openai.protocol
+    from vllm.entrypoints.openai.chat_completion import protocol
 
-    class ChatCompletionRequest(vllm.entrypoints.openai.protocol.ChatCompletionRequest):
+    class ChatCompletionRequest(protocol.ChatCompletionRequest):
         def __init__(self, *args: object, **kwargs: object) -> None:
             super().__init__(*args, **kwargs)  # ty:ignore[invalid-argument-type]
             self.logprobs = True
             if self.top_logprobs is None:
                 self.top_logprobs = 0
 
-    vllm.entrypoints.openai.protocol.ChatCompletionRequest = ChatCompletionRequest  # ty:ignore[invalid-assignment]
+    protocol.ChatCompletionRequest = ChatCompletionRequest  # ty:ignore[invalid-assignment]
 
 
 def patch_listen_for_disconnect() -> None:
@@ -39,7 +39,7 @@ def patch_tool_parser_manager() -> None:
     """
     Patch ToolParserManager to support streaming tool call logprobs.
     """
-    from vllm.entrypoints.openai.protocol import DeltaMessage
+    from vllm.entrypoints.openai.engine.protocol import DeltaMessage
     from vllm.tool_parsers.abstract_tool_parser import ToolParserManager
 
     get_tool_parser = ToolParserManager.get_tool_parser
diff --git a/src/art/vllm/server.py b/src/art/vllm/server.py
@@ -46,7 +46,8 @@ async def openai_server_task(
     subclass_chat_completion_request()
     # Capture the OpenAIServingModels instance so dynamically added LoRAs
     # are reflected in the model list.
-    from vllm.entrypoints.openai import api_server, serving_models
+    from vllm.entrypoints.openai import api_server
+    from vllm.entrypoints.openai.models import serving as serving_models
 
     serving_models_any = cast(Any, serving_models)
     if not getattr(serving_models_any, "_art_openai_serving_models_patched", False):
@@ -64,22 +65,19 @@ def _init(self, *args: Any, **kwargs: Any) -> None:
     patch_tool_parser_manager()
     set_vllm_log_file(config.get("log_file", "vllm.log"))
 
-    # Patch engine.add_lora to ensure lora_tensors attribute exists
-    # This is needed for compatibility with Unsloth
+    # Patch engine.add_lora to normalize requests across vLLM schema changes.
     add_lora = engine.add_lora
 
     async def _add_lora(lora_request) -> bool:
-        # Ensure lora_tensors attribute exists on the request
-        if not hasattr(lora_request, "lora_tensors"):
-            # For msgspec.Struct, we need to create a new instance with the attribute
-            from vllm.lora.request import LoRARequest
+        from vllm.lora.request import LoRARequest
 
+        if not isinstance(lora_request, LoRARequest):
             lora_request = LoRARequest(
                 lora_name=lora_request.lora_name,
                 lora_int_id=lora_request.lora_int_id,
                 lora_path=lora_request.lora_path,
-                long_lora_max_len=getattr(lora_request, "long_lora_max_len", None),
                 base_model_name=getattr(lora_request, "base_model_name", None),
+                load_inplace=getattr(lora_request, "load_inplace", False),
             )
         added = await add_lora(lora_request)
         if added and _openai_serving_models is not None:
diff --git a/tests/integration/test_vllm_contract.py b/tests/integration/test_vllm_contract.py
@@ -0,0 +1,148 @@
+"""End-to-end vLLM contract tests for ART LocalBackend."""
+
+import os
+import tempfile
+import uuid
+
+import openai
+import pytest
+
+torch = pytest.importorskip("torch")
+pytest.importorskip("vllm")
+
+import art
+from art.local import LocalBackend
+from art.types import LocalTrainResult
+
+DEFAULT_BASE_MODEL = "Qwen/Qwen3-0.6B"
+DEFAULT_GPU_MEMORY_UTILIZATION = 0.2
+DEFAULT_MAX_MODEL_LEN = 2048
+DEFAULT_MAX_SEQ_LENGTH = 2048
+
+
+def get_base_model() -> str:
+    return os.environ.get("BASE_MODEL", DEFAULT_BASE_MODEL)
+
+
+def get_safe_gpu_memory_utilization() -> float:
+    requested = float(
+        os.environ.get(
+            "ART_TEST_GPU_MEMORY_UTILIZATION",
+            str(DEFAULT_GPU_MEMORY_UTILIZATION),
+        )
+    )
+    min_free_gib = float(os.environ.get("ART_TEST_MIN_FREE_GPU_GIB", "8"))
+    free_bytes, total_bytes = torch.cuda.mem_get_info()
+    free_gib = free_bytes / (1024**3)
+    if free_gib < min_free_gib:
+        pytest.skip(
+            f"Insufficient free GPU memory for vLLM contract test: {free_gib:.1f} GiB free < {min_free_gib:.1f} GiB required."
+        )
+    # Keep requested utilization below currently free memory with headroom.
+    return max(0.02, min(requested, (free_bytes / total_bytes) * 0.8))
+
+
+def get_vllm_test_config() -> art.dev.InternalModelConfig:
+    return {
+        "engine_args": {
+            "gpu_memory_utilization": get_safe_gpu_memory_utilization(),
+            "max_model_len": int(
+                os.environ.get("ART_TEST_MAX_MODEL_LEN", str(DEFAULT_MAX_MODEL_LEN))
+            ),
+            "max_num_seqs": 8,
+            "enforce_eager": True,
+        },
+        "init_args": {
+            "max_seq_length": int(
+                os.environ.get("ART_TEST_MAX_SEQ_LENGTH", str(DEFAULT_MAX_SEQ_LENGTH))
+            ),
+        },
+    }
+
+
+async def simple_rollout(
+    client: openai.AsyncOpenAI, model_name: str, prompt: str
+) -> art.Trajectory:
+    messages: art.Messages = [{"role": "user", "content": prompt}]
+    completion = await client.chat.completions.create(
+        messages=messages,
+        model=model_name,
+        max_tokens=10,
+        timeout=60,
+        temperature=1,
+        logprobs=True,
+        top_logprobs=0,
+    )
+    choice = completion.choices[0]
+    content = (choice.message.content or "").lower()
+    if "yes" in content:
+        reward = 1.0
+    elif "no" in content:
+        reward = 0.5
+    elif "maybe" in content:
+        reward = 0.25
+    else:
+        reward = 0.0
+    return art.Trajectory(messages_and_choices=[*messages, choice], reward=reward)
+
+
+async def assert_chat_logprobs(
+    client: openai.AsyncOpenAI,
+    model_name: str,
+) -> None:
+    completion = await client.chat.completions.create(
+        messages=[{"role": "user", "content": "Say hello."}],
+        model=model_name,
+        max_tokens=8,
+        timeout=60,
+        logprobs=True,
+        top_logprobs=0,
+    )
+    assert completion.choices[0].logprobs is not None
+
+
+@pytest.mark.skipif(
+    not torch.cuda.is_available(),
+    reason="No CUDA available in this environment",
+)
+async def test_local_backend_vllm_contract() -> None:
+    model_name = f"test-vllm-contract-{uuid.uuid4().hex[:8]}"
+    with tempfile.TemporaryDirectory() as tmpdir:
+        backend = LocalBackend(path=tmpdir)
+        model = art.TrainableModel(
+            name=model_name,
+            project="integration-tests",
+            base_model=get_base_model(),
+        )
+        object.__setattr__(model, "_internal_config", get_vllm_test_config())
+        try:
+            await model.register(backend)
+            client = model.openai_client()
+
+            step0_name = model.get_inference_name(step=0)
+            await assert_chat_logprobs(client, step0_name)
+
+            model_ids = [m.id async for m in client.models.list()]
+            assert f"{model.name}@0" in model_ids
+
+            train_groups = await art.gather_trajectory_groups(
+                [
+                    art.TrajectoryGroup(
+                        [simple_rollout(client, step0_name, prompt) for _ in range(2)]
+                    )
+                    for prompt in ("Say yes", "Say no")
+                ]  # ty:ignore[invalid-argument-type]
+            )
+            result = await backend.train(model, train_groups, learning_rate=1e-5)
+            assert isinstance(result, LocalTrainResult)
+            assert result.step > 0
+
+            latest_name = model.get_inference_name(step=result.step)
+            await assert_chat_logprobs(client, latest_name)
+            await assert_chat_logprobs(client, step0_name)
+
+            model_ids_after = [m.id async for m in client.models.list()]
+            assert f"{model.name}@0" in model_ids_after
+            assert f"{model.name}@{result.step}" in model_ids_after
+        finally:
+            await backend.close()
diff --git a/tests/test_backend_train_api.py b/tests/test_backend_train_api.py
@@ -8,12 +8,59 @@
 """
 
 import asyncio
+import os
 import tempfile
 
 import art
 from art.local import LocalBackend
 from art.types import LocalTrainResult
 
+DEFAULT_GPU_MEMORY_UTILIZATION = 0.2
+DEFAULT_MAX_MODEL_LEN = 2048
+DEFAULT_MAX_SEQ_LENGTH = 2048
+
+
+def get_vllm_test_config() -> tuple[art.dev.InternalModelConfig, str | None]:
+    requested = float(
+        os.environ.get(
+            "ART_TEST_GPU_MEMORY_UTILIZATION",
+            str(DEFAULT_GPU_MEMORY_UTILIZATION),
+        )
+    )
+    min_free_gib = float(os.environ.get("ART_TEST_MIN_FREE_GPU_GIB", "8"))
+    safe_utilization = requested
+    skip_reason: str | None = None
+    try:
+        import torch
+
+        if torch.cuda.is_available():
+            free_bytes, total_bytes = torch.cuda.mem_get_info()
+            free_gib = free_bytes / (1024**3)
+            if free_gib < min_free_gib:
+                skip_reason = (
+                    f"Skipping backend.train API test: free GPU memory is too low "
+                    f"({free_gib:.2f} GiB < {min_free_gib:.2f} GiB)."
+                )
+            safe_utilization = min(requested, (free_bytes / total_bytes) * 0.8)
+    except Exception:
+        pass
+
+    return {
+        "engine_args": {
+            "gpu_memory_utilization": safe_utilization,
+            "max_model_len": int(
+                os.environ.get("ART_TEST_MAX_MODEL_LEN", str(DEFAULT_MAX_MODEL_LEN))
+            ),
+            "max_num_seqs": 8,
+            "enforce_eager": True,
+        },
+        "init_args": {
+            "max_seq_length": int(
+                os.environ.get("ART_TEST_MAX_SEQ_LENGTH", str(DEFAULT_MAX_SEQ_LENGTH))
+            ),
+        },
+    }, skip_reason
+
 
 async def simple_rollout(client, model_name: str, prompt: str) -> art.Trajectory:
     """A simple rollout function for testing."""
@@ -53,6 +100,11 @@ async def main():
             project="api-test",
             base_model="Qwen/Qwen3-0.6B",
         )
+        test_config, skip_reason = get_vllm_test_config()
+        if skip_reason is not None:
+            print(f"\n{skip_reason}")
+            return
+        object.__setattr__(model, "_internal_config", test_config)
 
         try:
             print("\n1. Registering model with backend...")
diff --git a/tests/unit/test_vllm_patches_contract.py b/tests/unit/test_vllm_patches_contract.py
@@ -0,0 +1,58 @@
+"""Unit tests for ART's vLLM patch contract."""
+
+import importlib
+
+import pytest
+
+pytest.importorskip("cloudpickle")
+pytest.importorskip("vllm")
+
+from art.vllm.patches import patch_tool_parser_manager, subclass_chat_completion_request
+
+
+def test_subclass_chat_completion_request_forces_logprobs() -> None:
+    protocol = importlib.import_module(
+        "vllm.entrypoints.openai.chat_completion.protocol"
+    )
+    original = getattr(protocol, "ChatCompletionRequest")
+
+    try:
+        subclass_chat_completion_request()
+        request_cls = getattr(protocol, "ChatCompletionRequest")
+        request = request_cls(
+            messages=[{"role": "user", "content": "hello"}],
+            model="dummy-model",
+        )
+        assert request.logprobs is True
+        assert request.top_logprobs == 0
+    finally:
+        setattr(protocol, "ChatCompletionRequest", original)
+
+
+def test_patch_tool_parser_manager_falls_back_to_empty_delta_message() -> None:
+    protocol = importlib.import_module("vllm.entrypoints.openai.engine.protocol")
+    DeltaMessage = protocol.DeltaMessage
+
+    from vllm.tool_parsers.abstract_tool_parser import ToolParserManager
+
+    class DummyToolParser:
+        @staticmethod
+        def extract_tool_calls_streaming(*_args, **_kwargs):
+            return None
+
+    original_get_tool_parser = ToolParserManager.get_tool_parser
+
+    try:
+        setattr(
+            ToolParserManager,
+            "get_tool_parser",
+            classmethod(lambda _cls, _name: DummyToolParser),
+        )
+        patch_tool_parser_manager()
+
+        parser_cls = ToolParserManager.get_tool_parser("dummy")
+        result = parser_cls.extract_tool_calls_streaming("", "", "", [], [], [], None)  # ty:ignore[missing-argument,invalid-argument-type]
+
+        assert isinstance(result, DeltaMessage)
+    finally:
+        setattr(ToolParserManager, "get_tool_parser", original_get_tool_parser)
diff --git a/uv.lock b/uv.lock