Temporarily downgrade transformers (#596)

Kovbo · web-flow · commit af5b486087b3 · 2026-03-03T14:46:52.000-08:00
* fix apex build

* fix pynvml

* temporarily revert transformers update
diff --git a/pyproject.toml b/pyproject.toml
@@ -19,7 +19,7 @@ dependencies = [
 plotting = ["matplotlib>=3.10.1", "seaborn>=0.13.2"]
 
 backend = [
-    "peft>=0.18.0",
+    "peft>=0.14.0",
     "hf-xet>=1.1.0",
     "bitsandbytes>=0.45.2",
     "unsloth==2026.2.1",
@@ -30,7 +30,7 @@ backend = [
     "awscli>=1.38.1",
     "setuptools>=78.1.0",
     "wandb==0.25.0",
-    "transformers==5.2.0",
+    "transformers>=4.55.2,<=4.57.3",
     "duckdb>=1.0.0",
     "pyarrow>=15.0.0",
     "trl==0.20.0",
@@ -65,7 +65,7 @@ tinker = [
     "pydantic>=2.12.5",
     "tinker>=0.8.1",
     "torch>=2.8.0",
-    "transformers==5.2.0",
+    "transformers>=4.55.2,<=4.57.3",
     "uvicorn>=0.35.0",
     "datrie>=0.8.3",
 ]
@@ -122,15 +122,10 @@ required-version = ">=0.6.15"
 # Override numpy to <2.0 for compatibility with megatron-core in the training
 # environment. vLLM 0.15.1 pulls opencv-python-headless>=4.13 which wants
 # numpy>=2 on Python 3.9+, but megatron-core requires numpy<2.
-override-dependencies = [
-    "transformer-engine>=2.11.0",
-    "numpy<2",
-    # Override unsloth's overly strict constraint on transformers — v5.x
-    # is confirmed working per unsloth February-2026 release notes
-    "transformers==5.2.0",
-]
-exclude-dependencies = ["pynvml"]
-no-build-isolation-package = ["apex", "transformer-engine", "transformer-engine-cu12", "transformer-engine-torch", "megatron-core", "megatron-bridge", "nv-grouped-gemm", "mamba-ssm", "causal-conv1d"]
+override-dependencies = ["transformer-engine>=2.11.0", "numpy<2"]
+# Keep apex build isolation enabled so uv can inject torch from
+# `extra-build-dependencies` during lock/sync on non-GPU client machines.
+no-build-isolation-package = ["transformer-engine", "transformer-engine-cu12", "transformer-engine-torch", "megatron-core", "megatron-bridge", "nv-grouped-gemm", "mamba-ssm", "causal-conv1d"]
 
 [tool.uv.extra-build-dependencies]
 apex = ["torch>=2.8.0"]
@@ -139,6 +134,11 @@ transformer-engine-torch = ["torch>=2.8.0"]
 [tool.uv.extra-build-variables]
 apex = { APEX_CPP_EXT = "1", APEX_CUDA_EXT = "1", APEX_FAST_LAYER_NORM = "1", APEX_PARALLEL_BUILD = "16", NVCC_APPEND_FLAGS = "--threads 4" }
 
+[[tool.uv.dependency-metadata]]
+name = "apex"
+version = "0.1"
+requires-dist = ["packaging"]
+
 [tool.ty.environment]
 python-version = "3.11"
 
diff --git a/src/art/__init__.py b/src/art/__init__.py
@@ -40,13 +40,9 @@ def __init__(self, **kwargs):
     import transformers
 
     try:
-        from .transformers.patches import (
-            patch_apply_chat_template,
-            patch_preprocess_mask_arguments,
-        )
+        from .transformers.patches import patch_preprocess_mask_arguments
 
         patch_preprocess_mask_arguments()
-        patch_apply_chat_template()
     except Exception:
         pass
 except ImportError:
diff --git a/src/art/dev/model.py b/src/art/dev/model.py
@@ -197,6 +197,7 @@ class PeftArgs(TypedDict, total=False):
 
 class TrainerArgs(TypedDict, total=False):
     output_dir: str | None
+    overwrite_output_dir: bool
     do_train: bool
     do_eval: bool
     do_predict: bool
@@ -225,6 +226,7 @@ class TrainerArgs(TypedDict, total=False):
     log_level: str
     log_level_replica: str
     log_on_each_node: bool
+    logging_dir: str | None
     logging_strategy: "IntervalStrategy | str"
     logging_first_step: bool
     logging_steps: float
@@ -241,21 +243,25 @@ class TrainerArgs(TypedDict, total=False):
     use_mps_device: bool
     seed: int
     data_seed: int | None
+    jit_mode_eval: bool
     use_ipex: bool
     bf16: bool
     fp16: bool
     fp16_opt_level: str
+    half_precision_backend: str
     bf16_full_eval: bool
     fp16_full_eval: bool
     tf32: bool | None
     local_rank: int
     ddp_backend: str | None
+    tpu_num_cores: int | None
     tpu_metrics_debug: bool
     debug: str | list[DebugOption]
     dataloader_drop_last: bool
     eval_steps: float | None
     dataloader_num_workers: int
     dataloader_prefetch_factor: int | None
+    past_index: int
     run_name: str | None
     disable_tqdm: bool | None
     remove_unused_columns: bool | None
@@ -296,8 +302,15 @@ class TrainerArgs(TypedDict, total=False):
     include_inputs_for_metrics: bool
     include_for_metrics: list[str]
     eval_do_concat_batches: bool
+    fp16_backend: str
+    push_to_hub_model_id: str | None
+    push_to_hub_organization: str | None
+    push_to_hub_token: str | None
+    mp_parameters: str
     auto_find_batch_size: bool
     full_determinism: bool
+    torchdynamo: str | None
+    ray_scope: str | None
     ddp_timeout: int
     torch_compile: bool
     torch_compile_backend: str | None
diff --git a/src/art/transformers/patches.py b/src/art/transformers/patches.py
@@ -1,11 +1,9 @@
-import functools
 from typing import TYPE_CHECKING, Optional, Union
 
 import torch
 from transformers import masking_utils
 from transformers.cache_utils import Cache
 from transformers.configuration_utils import PretrainedConfig
-from transformers.tokenization_utils_base import PreTrainedTokenizerBase
 
 if TYPE_CHECKING:
     from torch.nn.attention.flex_attention import BlockMask
@@ -37,19 +35,3 @@ def _patched_preprocess_mask_arguments(
 
 def patch_preprocess_mask_arguments() -> None:
     masking_utils._preprocess_mask_arguments = _patched_preprocess_mask_arguments  # ty:ignore[invalid-assignment]
-
-
-def patch_apply_chat_template() -> None:
-    """Default return_dict=False in apply_chat_template for transformers v5.
-
-    Transformers v5 changed the default from list[int] to BatchEncoding.
-    This restores the v4 behavior so all call sites get list[int] back.
-    """
-    original = PreTrainedTokenizerBase.apply_chat_template
-
-    @functools.wraps(original)
-    def _patched(self, *args, **kwargs):  # type: ignore
-        kwargs.setdefault("return_dict", False)
-        return original(self, *args, **kwargs)
-
-    PreTrainedTokenizerBase.apply_chat_template = _patched  # type: ignore
diff --git a/uv.lock b/uv.lock