diff --git a/.github/workflows/ci-npu-test.yml b/.github/workflows/ci-npu-test.yml
new file mode 100644
index 000000000..a81c15f5e
--- /dev/null
+++ b/.github/workflows/ci-npu-test.yml
@@ -0,0 +1,299 @@
+name: Tests
+
+on:
+  push:
+    branches: [main, npu_ci]
+    paths-ignore:
+      - "docs_roll/**"
+      - "**/*.md"
+      - ".github/workflows/deploy.yml"
+      - ".github/workflows/daily-stats.yml"
+  pull_request:
+    branches: [main, npu_ci]
+    paths-ignore:
+      - "docs_roll/**"
+      - "**/*.md"
+      - ".github/workflows/deploy.yml"
+      - ".github/workflows/daily-stats.yml"
+
+concurrency:
+  group: ${{ github.workflow }}-${{ github.ref }}
+  cancel-in-progress: true
+
+jobs:
+  unit-test:
+    name: Unit Tests (CPU)
+    runs-on: ubuntu-latest
+
+    steps:
+      - name: Checkout code
+        uses: actions/checkout@v4
+
+      - name: Set up Python 3.11
+        uses: actions/setup-python@v5
+        with:
+          python-version: "3.11"
+          cache: "pip"
+          cache-dependency-path: |
+            requirements_common.txt
+            mcore_adapter/pyproject.toml
+            mcore_adapter/requirements.txt
+            setup.py
+            pyproject.toml
+
+      - name: Install dependencies
+        run: |
+          pip install --upgrade pip
+          # Install PyTorch CPU-only to keep CI lightweight
+          pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
+          # Install core test dependencies (subset of requirements_common.txt)
+          pip install pytest pytest-timeout pytest-asyncio numpy tensordict pydantic dacite \
+            more_itertools hydra-core omegaconf peft==0.12.0 datasets==3.1.0 \
+            trl==0.9.6 transformers ray[default] sympy deprecated codetiming pybase64 imageio \
+            jsonschema mcp gem-llm==0.0.4 gym 'gymnasium[toy-text]' gym_sokoban
+          # Install mcore_adapter and roll itself
+          pip install -e ./mcore_adapter
+          pip install -e .
+
+      - name: Run CPU-compatible unit tests
+        run: |
+          pytest tests/utils/test_action_parser.py \
+                 tests/utils/test_functionals.py \
+                 tests/utils/test_dynamic_batching.py \
+                 tests/utils/test_sequence_packing.py \
+                 tests/utils/test_taskgroups.py \
+                 tests/utils/test_cp_rmpad_ulysses_utils.py \
+                 tests/datasets/test_collator.py \
+                 tests/datasets/test_sampler.py \
+                 tests/agentic \
+                 tests/test_ref_worker_type_consistency.py \
+                 tests/distributed/scheduler/test_protocol.py \
+                 tests/distributed/scheduler/test_protocol_padding.py \
+                 tests/distributed/scheduler/test_decorator.py \
+                 tests/distributed/scheduler/test_resource_manager.py \
+                 -v --timeout=300 -x
+        env:
+          PYTHONPATH: ${{ github.workspace }}
+          ROLL_RUN_EXTERNAL_AGENTIC_TESTS: "0"
+          ROLL_RUN_AGENTIC_SANDBOX_TESTS: "0"
+          ROLL_RUN_AGENTIC_ENV_MANAGER_DEBUG_TESTS: "0"
+
+  npu-test:
+    name: NPU Integration Tests
+    if: github.event_name != 'pull_request' || github.event.pull_request.head.repo.full_name == github.repository
+    runs-on: linux-aarch64-a3-8
+    timeout-minutes: 120
+    container:
+      # Pre-built NPU docker image (built from docker/Dockerfile.A3) with all deps pre-installed
+      image: swr.cn-north-4.myhuaweicloud.com/ascend-cicd/roll:main-a3
+    env:
+      HF_ENDPOINT: https://hf-mirror.com
+      PYTORCH_NPU_ALLOC_CONF: "expandable_segments:True"
+      TASK_QUEUE_ENABLE: "2"
+      VLLM_USE_V1: "1"
+      # The CI vLLM smoke uses TP=1; FlashComm sequence parallelism requires TP>1.
+      VLLM_ASCEND_ENABLE_FLASHCOMM: "0"
+      SGLANG_KERNEL_NPU_REPO: https://github.com/sgl-project/sgl-kernel-npu.git
+      SGLANG_KERNEL_NPU_BRANCH: main
+      SGLANG_KERNEL_NPU_CACHE_KEY: main
+      SGLANG_REPO: https://github.com/sgl-project/sglang.git
+      SGLANG_BRANCH: ifmn/eagle-dp-attn
+      SGLANG_CACHE_KEY: ifmn-eagle-dp-attn
+
+    steps:
+      - name: Checkout code
+        uses: actions/checkout@v4
+        with:
+          submodules: recursive
+
+      - name: Cache NPU pip packages
+        uses: actions/cache@v4
+        with:
+          path: ~/.cache/pip
+          key: ${{ runner.os }}-npu-pip-${{ env.SGLANG_KERNEL_NPU_CACHE_KEY }}-${{ env.SGLANG_CACHE_KEY }}-${{ hashFiles('requirements_common.txt', 'mcore_adapter/pyproject.toml', 'mcore_adapter/requirements.txt', 'setup.py', 'pyproject.toml', '.github/workflows/ci-npu-test.yml') }}
+          restore-keys: |
+            ${{ runner.os }}-npu-pip-${{ env.SGLANG_KERNEL_NPU_CACHE_KEY }}-${{ env.SGLANG_CACHE_KEY }}-
+            ${{ runner.os }}-npu-pip-${{ env.SGLANG_CACHE_KEY }}-
+            ${{ runner.os }}-npu-pip-
+
+      - name: Configure Ascend runtime
+        shell: bash
+        run: |
+          set -eo pipefail
+          if [ -f /usr/local/Ascend/ascend-toolkit/set_env.sh ]; then
+            source /usr/local/Ascend/ascend-toolkit/set_env.sh
+          fi
+          if [ -f /usr/local/Ascend/nnal/atb/set_env.sh ]; then
+            source /usr/local/Ascend/nnal/atb/set_env.sh
+          fi
+
+          export ASCEND_HOME_PATH="${ASCEND_HOME_PATH:-/usr/local/Ascend/ascend-toolkit/latest}"
+          export ASCEND_TOOLKIT_HOME="${ASCEND_TOOLKIT_HOME:-${ASCEND_HOME_PATH}}"
+          export ASCEND_OPP_PATH="${ASCEND_OPP_PATH:-${ASCEND_HOME_PATH}/opp}"
+          export ASCEND_AICPU_PATH="${ASCEND_AICPU_PATH:-${ASCEND_HOME_PATH}}"
+          export LD_LIBRARY_PATH="/usr/local/Ascend/ascend-toolkit/latest/lib64:/usr/local/Ascend/ascend-toolkit/latest/runtime/lib64:/usr/local/Ascend/ascend-toolkit/latest/runtime/lib64/stub:/usr/local/Ascend/ascend-toolkit/latest/tools/hccl/lib64:/usr/local/Ascend/ascend-toolkit/latest/hccl/lib64:${LD_LIBRARY_PATH:-}"
+
+          cann_python_paths=()
+          for path in \
+            "${ASCEND_HOME_PATH}/python/site-packages" \
+            "${ASCEND_HOME_PATH}/opp/built-in/op_impl/ai_core/tbe"; do
+            if [ -d "$path" ]; then
+              cann_python_paths+=("$path")
+            fi
+          done
+          if [ ${#cann_python_paths[@]} -gt 0 ]; then
+            export PYTHONPATH="$(IFS=:; echo "${cann_python_paths[*]}"):${PYTHONPATH:-}"
+          fi
+
+          echo "ASCEND_HOME_PATH=${ASCEND_HOME_PATH}" >> "$GITHUB_ENV"
+          echo "ASCEND_TOOLKIT_HOME=${ASCEND_TOOLKIT_HOME}" >> "$GITHUB_ENV"
+          echo "ASCEND_OPP_PATH=${ASCEND_OPP_PATH}" >> "$GITHUB_ENV"
+          echo "ASCEND_AICPU_PATH=${ASCEND_AICPU_PATH}" >> "$GITHUB_ENV"
+          echo "LD_LIBRARY_PATH=${LD_LIBRARY_PATH}" >> "$GITHUB_ENV"
+          echo "PYTHONPATH=${PYTHONPATH:-}" >> "$GITHUB_ENV"
+          echo "${ASCEND_HOME_PATH}/bin" >> "$GITHUB_PATH"
+          echo "${ASCEND_HOME_PATH}/compiler/ccec_compiler/bin" >> "$GITHUB_PATH"
+
+      - name: Show environment info
+        run: |
+          echo "=== Python ==="
+          python3 --version
+          python3 -m pip --version
+          echo "=== PyTorch ==="
+          python3 -c "import torch; print(f'torch={torch.__version__}')"
+          echo "=== NPU ==="
+          python3 -c "
+          import torch
+          import torch_npu
+          import importlib.util
+
+          print(f'torch_npu={torch_npu.__version__}')
+          tbe_spec = importlib.util.find_spec('tbe')
+          print(f'tbe_module={tbe_spec is not None}')
+          if tbe_spec is None:
+              raise RuntimeError('CANN tbe Python module is not visible in PYTHONPATH')
+          for module_name in ('decorator', 'attrs', 'psutil', 'scipy', 'cloudpickle', 'tornado', 'ml_dtypes'):
+              module_spec = importlib.util.find_spec(module_name)
+              print(f'{module_name}_module={module_spec is not None}')
+          if not torch.npu.is_available():
+              raise RuntimeError('torch.npu.is_available() is False')
+          print(f'npu_device_count={torch.npu.device_count()}')
+          "
+          echo "=== Ascend ==="
+          npu-smi info
+
+      - name: Install pytest dependencies
+        run: |
+          pip install pytest-timeout
+
+      - name: Install SGLang NPU kernel from source
+        shell: bash
+        run: |
+          set -eo pipefail
+          export SGLANG_KERNEL_NPU_SRC="/tmp/sgl-kernel-npu"
+          rm -rf "${SGLANG_KERNEL_NPU_SRC}"
+          git clone --depth 1 --branch "${SGLANG_KERNEL_NPU_BRANCH}" "${SGLANG_KERNEL_NPU_REPO}" "${SGLANG_KERNEL_NPU_SRC}"
+          cd "${SGLANG_KERNEL_NPU_SRC}"
+          python3 -m pip install pybind11 wheel
+          bash build.sh -a kernels
+          python3 -m pip install output/sgl_kernel_npu*.whl
+          python3 - <<'PY'
+          import sgl_kernel_npu
+
+          print(f"sgl_kernel_npu={sgl_kernel_npu.__path__}")
+          PY
+
+      - name: Install SGLang from source
+        shell: bash
+        run: |
+          set -eo pipefail
+          export SGLANG_SRC="/tmp/sglang"
+          rm -rf "${SGLANG_SRC}"
+          git clone --depth 1 --branch "${SGLANG_BRANCH}" "${SGLANG_REPO}" "${SGLANG_SRC}"
+          python3 - <<'PY' > "${SGLANG_SRC}/ci-requirements.txt"
+          import importlib.metadata
+          import os
+          import re
+          import tomllib
+          from pathlib import Path
+
+          skip_packages = {
+              "cuda-python",
+              "flashinfer-cubin",
+              "flashinfer-python",
+              "nvidia-cutlass-dsl",
+              "nvidia-ml-py",
+              "sgl-kernel",
+              "torch",
+              "torch-memory-saver",
+              "torchaudio",
+              "torchao",
+              "torchcodec",
+              "torchvision",
+              "transformers",
+          }
+
+          pyproject = Path(os.environ["SGLANG_SRC"]) / "python" / "pyproject.toml"
+          dependencies = tomllib.loads(pyproject.read_text())["project"]["dependencies"]
+          for dependency in dependencies:
+              package_name = re.split(r"[\[<>=!~; ]", dependency, maxsplit=1)[0]
+              package_name = package_name.replace("_", "-").lower()
+              if package_name in skip_packages:
+                  continue
+              try:
+                  importlib.metadata.version(package_name)
+              except importlib.metadata.PackageNotFoundError:
+                  print(dependency)
+          PY
+          echo "Missing SGLang dependencies for CI:"
+          cat "${SGLANG_SRC}/ci-requirements.txt"
+          python3 -m pip install -r "${SGLANG_SRC}/ci-requirements.txt"
+          python3 -m pip install --no-deps -e "${SGLANG_SRC}/python"
+          python3 - <<'PY'
+          import importlib.metadata
+
+          print(f"sglang={importlib.metadata.version('sglang')}")
+          PY
+
+      - name: Install ROLL
+        run: |
+          pip install -e ./mcore_adapter
+          pip install -e .
+
+      - name: Show vLLM Ascend info
+        run: |
+          python3 - <<'PY'
+          import importlib.metadata
+
+          import vllm
+          import vllm_ascend
+          from roll.platforms import current_platform
+
+          for package_name in ("transformers", "deepspeed", "triton-ascend"):
+              try:
+                  package_version = importlib.metadata.version(package_name)
+              except importlib.metadata.PackageNotFoundError:
+                  package_version = "not installed"
+              print(f"{package_name}={package_version}")
+
+          print(f"vllm={vllm.__version__}")
+          print(f"platform={current_platform.device_type}")
+          PY
+
+      - name: Run remaining NPU-compatible unit tests
+        run: |
+          export PYTHONPATH="${GITHUB_WORKSPACE}:${PYTHONPATH:-}"
+          python3 -m pytest tests/third_party/sglang \
+                            tests/third_party/vllm \
+                            tests/datasets \
+                            tests/distributed \
+                            tests/models \
+                            tests/pipeline \
+                            tests/third_party/deepspeed \
+                            tests/utils/ \
+                            tests/test_ref_worker_type_consistency.py \
+                            --ignore=tests/models/cuda_mem \
+                            -v --timeout=600 -x
+        env:
+          ROLL_NPU_CI: "1"
+          DS_UNITTEST_TIMEOUT: "600"
diff --git a/.gitignore b/.gitignore
index 5e7b73d3c..7e6830569 100644
--- a/.gitignore
+++ b/.gitignore
@@ -1,8 +1,4 @@
-# Ignore all png files
 *.png
-
-# But allow png files in static/img directory
-!docs_roll/static/img/*.png
 *.pyc
 */checkpoint_dir
 */dataset
diff --git a/README.md b/README.md
index 34b38ffcd..4598eb318 100644
--- a/README.md
+++ b/README.md
@@ -41,30 +41,32 @@ Leveraging a multi-role distributed architecture with Ray for flexible resource
 
 ## 📢 News
 
-| 📣   Updates                                                                                                                                                                                                                                                                                                                            |
-|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
-| **[01/01/2026]** 🎉 Our [Let It Flow: Agentic Crafting on Rock and Roll](https://arxiv.org/abs/2512.24873) report released! Introducing ALE ecosystem and ROME, an open-source agentic model with novel IPA algorithm.   |
-| **[11/08/2025]** 🎉 Our [ROCK: Reinforcement Open Construction Kit](https://github.com/alibaba/ROCK) released, Explore the new capabilities!.                                                                                                                                                                                           |
-| **[10/23/2025]** 🎉 Our Papers released, see [Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning](https://arxiv.org/abs/2510.01656) and [Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization](https://arxiv.org/abs/2510.13554).                         |
-| **[10/14/2025]** 🎉 Our Paper released, see [Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony](https://arxiv.org/abs/2510.11345).                                                                                                                                                                          |
-| **[09/28/2025]** 🎉 Ascend NPU support — see [usage guide](https://alibaba.github.io/ROLL/docs/User%20Guides/Hardware%20Support/ascend_usage).                                                                                                                                                                                                  |
-| **[09/25/2025]** 🎉 Our Paper released, see [RollPacker: Mitigating Long-Tail Rollouts for Fast, Synchronous RL Post-Training](https://arxiv.org/abs/2509.21009)                                                                                                                                                                        |
-| **[09/24/2025]** 🎉 Support [Wan2_2 Reward FL pipeline](examples/wan2.2-14B-reward_fl_ds/reward_fl_config.yaml). Explore the new capabilities!                                                                                                                                                                                          |
-| **[09/23/2025]** 🎉 ROLL aligns with GEM environment definition, providing agentic Tool Use training capabilities, [ToolUse docs](docs_roll/docs/English/UserGuide/agentic/Tool_Use.md).                                                                                                                                                |
-| **[09/16/2025]** 🎉 Qwen3-Next model training is supported, refer to [configuration](examples/qwen3-next-80BA3B-rlvr_megatron/rlvr_config.yaml).                                                                                                                                                                                        |
-| **[09/04/2025]** 🎉 ROLL supports vLLM dynamic FP8 rollout and remove_padding for acceleration.                                                                                                                                                                                                                                         |
-| **[08/28/2025]** 🎉 ROLL supports SFT pipeline, refer to [configuration](examples/qwen2.5-7B-sft_megatron/sft_config.yaml).                                                                                                                                                                                                             |
-| **[08/13/2025]** 🎉 ROLL supports AMD GPUs with out-of-box image docker and Dockerfile and specific yamls under `examples/` directory. Please refer to [Installation](https://alibaba.github.io/ROLL/docs/Getting%20Started/Installation/).                                                                                             |
-| **[08/11/2025]** 🎉 Our Paper released, see [Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning](https://arxiv.org/abs/2508.08221).                                                                                                                                                                                         |
-| **[08/10/2025]** 🎉 Agentic RL supports [stepwise learning](examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake_gigpo.yaml), like [GiGPO](https://arxiv.org/abs/2505.10978); Distill supports [VLM](examples/qwen2.5-vl-7B-distill/distill_vl_megatron.yaml). Explore the new capabilities!                                             |
-| **[08/06/2025]** 🎉 ROLL PPT is now available, [Slides](assets/ROLL%20高效且用户友好的大模型RL训练框架.pdf).                                                                                                                                                                                                                                           |
-| **[07/31/2025]** 🎉 Refactor agentic rl design. Support agentic rl [async training](examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake_async.yaml). Explore the new capabilities!                                                                                                                                                      |
-| **[07/31/2025]** 🎉 Support [DistillPipeline](examples/qwen2.5-7B-distill_megatron/run_distill_pipeline.sh)/[DpoPipeline](examples/qwen2.5-3B-dpo_megatron/run_dpo_pipeline.sh). Support [lora](examples/qwen2.5-7B-rlvr_megatron/rlvr_lora_zero3.yaml). Support [GSPO](https://arxiv.org/abs/2507.18071)                               |
-| **[06/25/2025]** 🎉 Support thread env for env scaling and support [qwen2.5 VL agentic pipeline](examples/qwen2.5-vl-3B-agentic/agentic_val_sokoban.yaml).                                                                                                                                                                              |
-| **[06/13/2025]** 🎉 Support [Qwen2.5 VL rlvr pipeline](examples/qwen2.5-vl-7B-rlvr/rlvr_megatron.yaml) and upgrade mcore to 0.12 version.                                                                                                                                                                                               |
-| **[06/09/2025]** 🎉 ROLL tech report is now available! Access the report [here](https://arxiv.org/abs/2506.06122).                                                                                                                                                                                                                      |
-| **[06/08/2025]** 🎉Supports  Qwen3([8B](examples/qwen3-8B-rlvr_megatron/rlvr_config.yaml)/14B/32B), Qwen3-MoE([30A3](examples/qwen3-30BA3B-rlvr_megatron/rlvr_config.yaml)/[235A22](examples/qwen3-235BA22B-rlvr_megatron/rlvr_config.yaml)), Qwen2.5([7B](examples/qwen2.5-7B-rlvr_megatron/rlvr_config.yaml)/14B/32B/72B) LLM models. |
-| **[05/30/2025]** 🎉 Training [RLVR](examples/qwen2.5-7B-rlvr_megatron/rlvr_config.yaml) and [Agentic RL](examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake.yaml) with ROLL is now available! Explore the new capabilities.                                                                                                            |
+| 📣   Updates                                                                                                                                                                                                                                                                                                                                                        |
+|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+| **[03/06/2026]** 🎉 We support Qwen3.5 [Dense](examples/qwen3.5-35BA3-rlvr_megatron/rlvr_megatron_80GB.yaml) and [MoE](examples/qwen3.5-35BA3-rlvr_megatron/rlvr_megatron_80GB.yaml) series models and [on-policy distill](docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/on_policy_distill_pipeline_start.md). Welcome to use! |
+| **[02/03/2026]** 🎉 We released FSDP2 Strategy, Megatron with LoRA, GPU partial overlapping, Qwen3-Omni supports and other features. For more details, please refer to the release notes. Welcome to use!                                                                                                                                                           |
+| **[01/01/2026]** 🎉 Our [Let It Flow: Agentic Crafting on Rock and Roll](https://arxiv.org/abs/2512.24873) report released! Introducing ALE ecosystem and ROME, an open-source agentic model with novel IPA algorithm.                                                                                                                                              |
+| **[11/08/2025]** 🎉 Our [ROCK: Reinforcement Open Construction Kit](https://github.com/alibaba/ROCK) released, Explore the new capabilities!.                                                                                                                                                                                                                       |
+| **[10/23/2025]** 🎉 Our Papers released, see [Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning](https://arxiv.org/abs/2510.01656) and [Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization](https://arxiv.org/abs/2510.13554).                                                     |
+| **[10/14/2025]** 🎉 Our Paper released, see [Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony](https://arxiv.org/abs/2510.11345).                                                                                                                                                                                                      |
+| **[09/28/2025]** 🎉 Ascend NPU support — see [usage guide](https://alibaba.github.io/ROLL/docs/User%20Guides/Hardware%20Support/ascend_usage).                                                                                                                                                                                                                      |
+| **[09/25/2025]** 🎉 Our Paper released, see [RollPacker: Mitigating Long-Tail Rollouts for Fast, Synchronous RL Post-Training](https://arxiv.org/abs/2509.21009)                                                                                                                                                                                                    |
+| **[09/24/2025]** 🎉 Support [Wan2_2 Reward FL pipeline](examples/wan2.2-14B-reward_fl_ds/reward_fl_config.yaml). Explore the new capabilities!                                                                                                                                                                                                                      |
+| **[09/23/2025]** 🎉 ROLL aligns with GEM environment definition, providing agentic Tool Use training capabilities, [ToolUse docs](docs_roll/docs/English/UserGuide/agentic/Tool_Use.md).                                                                                                                                                                            |
+| **[09/16/2025]** 🎉 Qwen3-Next model training is supported, refer to [configuration](examples/qwen3-next-80BA3B-rlvr_megatron/rlvr_config.yaml).                                                                                                                                                                                                                    |
+| **[09/04/2025]** 🎉 ROLL supports vLLM dynamic FP8 rollout and remove_padding for acceleration.                                                                                                                                                                                                                                                                     |
+| **[08/28/2025]** 🎉 ROLL supports SFT pipeline, refer to [configuration](examples/qwen2.5-7B-sft_megatron/sft_config.yaml).                                                                                                                                                                                                                                         |
+| **[08/13/2025]** 🎉 ROLL supports AMD GPUs with out-of-box image docker and Dockerfile and specific yamls under `examples/` directory. Please refer to [Installation](https://alibaba.github.io/ROLL/docs/Getting%20Started/Installation/).                                                                                                                         |
+| **[08/11/2025]** 🎉 Our Paper released, see [Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning](https://arxiv.org/abs/2508.08221).                                                                                                                                                                                                                     |
+| **[08/10/2025]** 🎉 Agentic RL supports [stepwise learning](examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake_gigpo.yaml), like [GiGPO](https://arxiv.org/abs/2505.10978); Distill supports [VLM](examples/qwen2.5-vl-7B-distill/distill_vl_megatron.yaml). Explore the new capabilities!                                                                         |
+| **[08/06/2025]** 🎉 ROLL PPT is now available, [Slides](assets/ROLL%20高效且用户友好的大模型RL训练框架.pdf).                                                                                                                                                                                                                                                                       |
+| **[07/31/2025]** 🎉 Refactor agentic rl design. Support agentic rl [async training](examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake_async.yaml). Explore the new capabilities!                                                                                                                                                                                  |
+| **[07/31/2025]** 🎉 Support [DistillPipeline](examples/qwen2.5-7B-distill_megatron/run_distill_pipeline.sh)/[DpoPipeline](examples/dpo_examples/run_dpo_pipeline.sh). Support [lora](examples/qwen2.5-7B-rlvr_megatron/rlvr_lora_zero3.yaml). Support [GSPO](https://arxiv.org/abs/2507.18071)                                                                      |
+| **[06/25/2025]** 🎉 Support thread env for env scaling and support [qwen2.5 VL agentic pipeline](examples/qwen2.5-vl-3B-agentic/agentic_val_sokoban.yaml).                                                                                                                                                                                                          |
+| **[06/13/2025]** 🎉 Support [Qwen2.5 VL rlvr pipeline](examples/qwen2.5-vl-7B-rlvr/rlvr_megatron.yaml) and upgrade mcore to 0.12 version.                                                                                                                                                                                                                           |
+| **[06/09/2025]** 🎉 ROLL tech report is now available! Access the report [here](https://arxiv.org/abs/2506.06122).                                                                                                                                                                                                                                                  |
+| **[06/08/2025]** 🎉Supports  Qwen3([8B](examples/qwen3-8B-rlvr_megatron/rlvr_config.yaml)/14B/32B), Qwen3-MoE([30A3](examples/qwen3-30BA3B-rlvr_megatron/rlvr_config.yaml)/[235A22](examples/qwen3-235BA22B-rlvr_megatron/rlvr_config.yaml)), Qwen2.5([7B](examples/qwen2.5-7B-rlvr_megatron/rlvr_config.yaml)/14B/32B/72B) LLM models.                             |
+| **[05/30/2025]** 🎉 Training [RLVR](examples/qwen2.5-7B-rlvr_megatron/rlvr_config.yaml) and [Agentic RL](examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake.yaml) with ROLL is now available! Explore the new capabilities.                                                                                                                                        |
 ---
 
 
@@ -105,7 +107,7 @@ Leveraging a multi-role distributed architecture with Ray for flexible resource
 [RewardFL](https://alibaba.github.io/ROLL/docs/User%20Guides/Algorithms/Reward_FL)
 
 #### Backend
-[DeepSpeed](https://alibaba.github.io/ROLL/docs/User%20Guides/Configuration/deepspeed)  
+[DeepSeed](https://alibaba.github.io/ROLL/docs/User%20Guides/Configuration/deepspeed)  
 [Megatron](https://alibaba.github.io/ROLL/docs/User%20Guides/Configuration/megatron)   
 [vLLM](https://alibaba.github.io/ROLL/docs/User%20Guides/Configuration/vllm)  
 [SGLang](https://alibaba.github.io/ROLL/docs/User%20Guides/Configuration/sglang)
@@ -151,21 +153,13 @@ Leveraging a multi-role distributed architecture with Ray for flexible resource
     *   DPO Pipeline
     *   SFT Pipeline under development
 
-
-
----
-
-## 🔮 Upcoming Features
-
-We are continuously working to expand ROLL's capabilities:
-* ⏱️ **Async RLVR pipeline**: For even more efficient and streamlined asynchronous operations.
-* ⚙️ **FSDP2**: Integrating the latest Fully Sharded Data Parallel techniques.
-* 🔍 **Support DeepseekV3**: Adding compatibility for the newest Deepseek models.
-
 ---
 
 ## 🏆 Notable work based on ROLL
-- [SocioReasoner](https://github.com/AMAP-ML/SocioReasoner): A vision-language method for urban socio-semantic segmentation that employs a render-and-refine mechanism optimized by RL to identify abstract social entities using satellite and map data.
+- [Freshness-Aware-PER](https://arxiv.org/abs/2604.16918): A freshness-aware prioritized experience replay framework for LLM/VLM reinforcement learning, combining reward magnitude with exponential age decay (`reward_fresh` priority) and asynchronous full-buffer refresh, providing fresher and higher-signal off-policy samples for both step- and trajectory-level agentic RL. [code](https://github.com/Vision-CAIR/Freshness-Aware-PER)
+- [ComplementaryRL](https://arxiv.org/abs/2603.17621): Complementary RL is a learning framework that enables agents to effectively learn from experience through the seamless co-evolution of an experience extractor and a policy actor within the RL optimization loop.
+- [RLix](https://github.com/rlops/rlix): RLix is an RL job manager that lets more RL jobs run concurrently with less waiting by sharing GPU capacity across jobs, while preserving each pipeline’s training behavior and improving GPU utilization.
+- [TurningPoint-GRPO](https://arxiv.org/abs/2602.06422): A GRPO framework for Flow Matching models in text-to-image generation that alleviates step-wise reward sparsity by modeling step-level incremental rewards and explicitly captures long-term effects via turning points detection, providing dense learning signals for each denoising action.
 - [STAgent](https://arxiv.org/abs/2512.24957): An agentic LLM specialized for spatio-temporal understanding and complex tasks like constrained POI discovery and itinerary planning, featuring hierarchical data curation with 1:10,000 filter ratio and cascaded training (seed SFT + difficulty-aware SFT + RL), achieving strong performance on TravelBench while preserving general capabilities.
 - [IPRO](https://arxiv.org/abs/2510.14255): A novel video diffusion framework using reinforcement learning to enhance identity preservation in human-centric I2V generation, optimizing diffusion models with face identity scorer and KL-divergence regularization.
 - [TaoSR-SHE](https://arxiv.org/abs/2510.07972): Stepwise Hybrid Examination Reinforcement Learning Framework for Taobao Search Relevance, with SRPO (hybrid reward model + offline verifier), diversified data filtering, and multi-stage curriculum learning.
diff --git a/data/deepeyes_mini_10.parquet b/data/deepeyes_mini_10.parquet
new file mode 100644
index 000000000..d6ee3ef02
Binary files /dev/null and b/data/deepeyes_mini_10.parquet differ
diff --git a/data/swe_bench_verified_example.jsonl b/data/swe_bench_verified_example.jsonl
new file mode 100644
index 000000000..174852939
--- /dev/null
+++ b/data/swe_bench_verified_example.jsonl
@@ -0,0 +1,10 @@
+{"id": "222", "task_name": "sympy__sympy-12096", "category": "debugging", "prompt": "evalf does not call _imp_ recursively\nExample from https://stackoverflow.com/questions/41818842/why-cant-i-evaluate-a-composition-of-implemented-functions-in-sympy-at-a-point:\n\n```\n>>> from sympy.utilities.lambdify import implemented_function\n>>> f = implemented_function('f', lambda x: x ** 2)\n>>> g = implemented_function('g', lambda x: 2 * x)\n>>> print(f(  2 ).evalf())\n4.00000000000000\n>>> print(  g(2) .evalf())\n4.00000000000000\n>>> print(f(g(2)).evalf())\nf(g(2))\n```\n\nThe code for this is in `Function._eval_evalf`. It isn't calling evalf recursively on the return of `_imp_`.\n", "sandbox_image": "slimshetty/swebench-verified:sweb.eval.x86_64.sympy__sympy-12096", "run_region": "", "start_script": "", "score": 1.0}
+{"id": "476", "task_name": "django__django-12143", "category": "debugging", "prompt": "Possible data loss in admin changeform view when using regex special characters in formset prefix\nDescription\n\n\t\t(last modified by Baptiste Mispelon)\n\nWhile browsing the code in admin/options.py [1] (working on an unrelated ticket), I came across that line:\npk_pattern = re.compile(r'{}-\\d+-{}$'.format(prefix, self.model._meta.pk.name))\nGenerating a regex like this using string formatting can cause problems when the arguments contain special regex characters.\nself.model._meta.pk.name is probably safe (I'm not 100% sure about this) since it has to follow Python's syntax rules about identifiers.\nHowever prefix has no such restrictions [2] and could contain any number of special regex characters.\nThe fix is quite straightforward (use re.escape()) but it's hard to tell if there might be other occurrences of a similar pattern in Django's code.\nSome quick grepping (using git grep -E '(re_compile|re\\.(compile|search|match))' -- 'django/**.py') currently yields about 200 results. I had a superficial glance through the list and didn't spot other instances of the same usage pattern.\nEDIT I forgot to mention, but this bug is technically a regression (introduced in b18650a2634890aa758abae2f33875daa13a9ba3).\n[1] \u200bhttps://github.com/django/django/blob/ef93fd4683645635d3597e17c23f9ed862dd716b/django/contrib/admin/options.py#L1634\n[2] \u200bhttps://docs.djangoproject.com/en/dev/topics/forms/formsets/#customizing-a-formset-s-prefix\n", "sandbox_image": "slimshetty/swebench-verified:sweb.eval.x86_64.django__django-12143", "run_region": "", "start_script": "", "score": 1.0}
+{"id": "463", "task_name": "django__django-11951", "category": "debugging", "prompt": "bulk_create batch_size param overrides the compatible batch size calculation\nDescription\n\n\t\t(last modified by Ahmet Kucuk)\n\nAt this line: \u200bhttps://github.com/django/django/blob/stable/2.2.x/django/db/models/query.py#L1197\nbatch_size param overrides compatible batch size calculation. This looks like a bug as bulk_update properly picks the minimum of two:\n\u200bhttps://github.com/django/django/blob/stable/2.2.x/django/db/models/query.py#L504\nI suggest using similar\n batch_size = min(batch_size, max_batch_size) if batch_size else max_batch_size\nlogic in bulk_create as well. I am happy to open a PR for it.\n", "sandbox_image": "slimshetty/swebench-verified:sweb.eval.x86_64.django__django-11951", "run_region": "", "start_script": "", "score": 1.0}
+{"id": "216", "task_name": "django__django-15103", "category": "debugging", "prompt": "Make the element_id argument of json_script optional\nDescription\n\nI recently had a use-case where I wanted to use json_script but I didn't need any id for it (I was including the <script> inside a <template> so I didn't need an id to refer to it).\nI can't see any reason (security or otherwise) for the id to be required and making it optional doesn't seem to break any tests.\n", "sandbox_image": "slimshetty/swebench-verified:sweb.eval.x86_64.django__django-15103", "run_region": "", "start_script": "", "score": 1.0}
+{"id": "199", "task_name": "django__django-15561", "category": "debugging", "prompt": "AlterField operation should be noop when adding/changing choices on SQLite.\nDescription\n\nwhile writing a test case for #33470 i found that for sqlite, even a seemingly db-transparent change like adding choices still generates sql (new table + insert + drop + rename) even though this shouldn't be needed. on e.g. postgres the same migration generates no sql\n", "sandbox_image": "slimshetty/swebench-verified:sweb.eval.x86_64.django__django-15561", "run_region": "", "start_script": "", "score": 1.0}
+{"id": "64", "task_name": "matplotlib__matplotlib-24970", "category": "debugging", "prompt": "[Bug]: NumPy 1.24 deprecation warnings\n### Bug summary\n\nStarting NumPy 1.24 I observe several deprecation warnings.\n\n\n### Code for reproduction\n\n```python\nimport matplotlib.pyplot as plt\nimport numpy as np\n\nplt.get_cmap()(np.empty((0, ), dtype=np.uint8))\n```\n\n\n### Actual outcome\n\n```\n/usr/lib/python3.10/site-packages/matplotlib/colors.py:730: DeprecationWarning: NumPy will stop allowing conversion of out-of-bound Python integers to integer arrays.  The conversion of 257 to uint8 will fail in the future.\nFor the old behavior, usually:\n    np.array(value).astype(dtype)`\nwill give the desired result (the cast overflows).\n  xa[xa > self.N - 1] = self._i_over\n/usr/lib/python3.10/site-packages/matplotlib/colors.py:731: DeprecationWarning: NumPy will stop allowing conversion of out-of-bound Python integers to integer arrays.  The conversion of 256 to uint8 will fail in the future.\nFor the old behavior, usually:\n    np.array(value).astype(dtype)`\nwill give the desired result (the cast overflows).\n  xa[xa < 0] = self._i_under\n/usr/lib/python3.10/site-packages/matplotlib/colors.py:732: DeprecationWarning: NumPy will stop allowing conversion of out-of-bound Python integers to integer arrays.  The conversion of 258 to uint8 will fail in the future.\nFor the old behavior, usually:\n    np.array(value).astype(dtype)`\nwill give the desired result (the cast overflows).\n  xa[mask_bad] = self._i_bad\n```\n\n### Expected outcome\n\nNo warnings.\n\n### Additional information\n\n_No response_\n\n### Operating system\n\nArchLinux\n\n### Matplotlib Version\n\n3.6.2\n\n### Matplotlib Backend\n\nQtAgg\n\n### Python version\n\nPython 3.10.9\n\n### Jupyter version\n\n_No response_\n\n### Installation\n\nLinux package manager\n", "sandbox_image": "slimshetty/swebench-verified:sweb.eval.x86_64.matplotlib__matplotlib-24970", "run_region": "", "start_script": "", "score": 1.0}
+{"id": "129", "task_name": "pytest-dev__pytest-5631", "category": "debugging", "prompt": "ValueError when collecting tests that patch an array \n<!--\nThanks for submitting an issue!\n\nHere's a quick checklist for what to provide:\n-->\n\nI'm trying to run pytest with a test file that contains patch where \"new\" is an array, for example:\nfrom unittest.mock import patch\n@patch(target='XXXXXX', new=np.array([-5.5, 3.0]))\n...\n\nThis works fine with pytest 3.1.3, but when using pytest 3.6.0 the following error is received upon collection: \n\n```\nERROR collecting XXXXXXXXXXXXXXXXXXXX\n /usr/local/lib/python3.6/dist-packages/pluggy/__init__.py:617: in __call__\n     return self._hookexec(self, self._nonwrappers + self._wrappers, kwargs)\n /usr/local/lib/python3.6/dist-packages/pluggy/__init__.py:222: in _hookexec\n     return self._inner_hookexec(hook, methods, kwargs)\n /usr/local/lib/python3.6/dist-packages/pluggy/__init__.py:216: in <lambda>\n     firstresult=hook.spec_opts.get('firstresult'),\n /usr/local/lib/python3.6/dist-packages/_pytest/python.py:197: in pytest_pycollect_makeitem\n     res = list(collector._genfunctions(name, obj))\n /usr/local/lib/python3.6/dist-packages/_pytest/python.py:376: in _genfunctions\n     callobj=funcobj,\n /usr/local/lib/python3.6/dist-packages/_pytest/python.py:1159: in __init__\n     funcargs=not self._isyieldedfunction())\n /usr/local/lib/python3.6/dist-packages/_pytest/fixtures.py:988: in getfixtureinfo\n     argnames = getfuncargnames(func, cls=cls)\n /usr/local/lib/python3.6/dist-packages/_pytest/compat.py:134: in getfuncargnames\n     arg_names = arg_names[num_mock_patch_args(function):]\n /usr/local/lib/python3.6/dist-packages/_pytest/compat.py:93: in num_mock_patch_args\n     return len([p for p in patchings\n**/usr/local/lib/python3.6/dist-packages/_pytest/compat.py:94: in <listcomp>\n      if not p.attribute_name and p.new in sentinels])\n E   ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()**\n```\n\nSeems like a bug, that was introduced by the following fix:\nhttps://github.com/pytest-dev/pytest/commit/b6166dccb4d2b48173aa7e7739be52db9d2d56a0\n\nwhen using @patch like: @patch(target='XXXXXX', new=np.array([-5.5, 3.0])), p.new is an array and the check: \"p.new in sentinels\" returns an array of booleans instead of a boolean which causes the ValueError.\n", "sandbox_image": "slimshetty/swebench-verified:sweb.eval.x86_64.pytest-dev__pytest-5631", "run_region": "", "start_script": "", "score": 1.0}
+{"id": "50", "task_name": "pallets__flask-5014", "category": "debugging", "prompt": "Require a non-empty name for Blueprints\nThings do not work correctly if a Blueprint is given an empty name (e.g. #4944).\nIt would be helpful if a `ValueError` was raised when trying to do that.\n", "sandbox_image": "rex-registry.cn-hangzhou.cr.aliyuncs.com/slimshetty/swebench-verified:sweb.eval.x86_64.pallets__flask-5014", "run_region": "cn", "start_script": "", "score": 1.0}
+{"id": "232", "task_name": "matplotlib__matplotlib-24627", "category": "debugging", "prompt": "cla(), clf() should unset the `.axes` and `.figure` attributes of deparented artists\nmpl2.0b3: Removing an artist from its axes unsets its `.axes` attribute, but clearing the axes does not do so.\n\n```\nIn [11]: f, a = plt.subplots(); l, = a.plot([1, 2]); l.remove(); print(l.axes)\nNone\n\nIn [12]: f, a = plt.subplots(); l, = a.plot([1, 2]); a.cla(); print(l.axes)\nAxes(0.125,0.11;0.775x0.77)\n```\n", "sandbox_image": "slimshetty/swebench-verified:sweb.eval.x86_64.matplotlib__matplotlib-24627", "run_region": "", "start_script": "", "score": 1.0}
+{"id": "493", "task_name": "matplotlib__matplotlib-25332", "category": "debugging", "prompt": "[Bug]: Unable to pickle figure with aligned labels\n### Bug summary\n\n Unable to pickle figure after calling `align_labels()`\n\n### Code for reproduction\n\n```python\nimport matplotlib.pyplot as plt\nimport pickle\n\nfig = plt.figure()\nax1 = fig.add_subplot(211)\nax2 = fig.add_subplot(212)\ntime=[0,1,2,3,4]\nspeed=[40000,4300,4500,4700,4800]\nacc=[10,11,12,13,14]\nax1.plot(time,speed)\nax1.set_ylabel('speed')\nax2.plot(time,acc)\nax2.set_ylabel('acc')\n\nfig.align_labels() ##pickling works after removing this line \n\npickle.dumps(fig)\nplt.show()\n```\n\n\n### Actual outcome\n```\nalign.py\", line 16\npickle.dumps(fig)\nTypeError: cannot pickle 'weakref.ReferenceType' object\n```\n### Expected outcome\n\nPickling successful\n\n### Additional information\n\n_No response_\n\n### Operating system\n\nWindows\n\n### Matplotlib Version\n\n3.7.0\n\n### Matplotlib Backend\n\n_No response_\n\n### Python version\n\n_No response_\n\n### Jupyter version\n\n_No response_\n\n### Installation\n\nNone\n", "sandbox_image": "slimshetty/swebench-verified:sweb.eval.x86_64.matplotlib__matplotlib-25332", "run_region": "", "start_script": "", "score": 1.0}
\ No newline at end of file
diff --git a/docker/Dockerfile.A2 b/docker/Dockerfile.A2
new file mode 100644
index 000000000..b5a74ae53
--- /dev/null
+++ b/docker/Dockerfile.A2
@@ -0,0 +1,66 @@
+FROM quay.io/ascend/cann:8.5.1-910b-ubuntu22.04-py3.11
+
+ARG SOC_VERSION="ascend910b1"
+
+ENV DEBIAN_FRONTEND=noninteractive
+ENV TERM=xterm-256color
+ENV PIP_ROOT_USER_ACTION=ignore
+ENV PIP_CONSTRAINT=""
+
+ENV LD_LIBRARY_PATH=/usr/local/Ascend/driver/lib64:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/add-ons:/usr/local/Ascend/ascend-toolkit/latest/fwkacllib/lib64:/usr/local/Ascend/ascend-toolkit/latest/acllib/lib64:/usr/local/Ascend/ascend-toolkit/latest/atc/lib64:${LD_LIBRARY_PATH}
+ENV ASCEND_HOME_PATH=/usr/local/Ascend/ascend-toolkit/latest
+
+RUN apt-get update -y && \
+    apt-get install -y --no-install-recommends \
+        gcc g++ cmake libnuma-dev wget git curl jq vim \
+        build-essential iproute2 openjdk-21-jdk && \
+    apt-get clean && \
+    rm -rf /var/lib/apt/lists/*
+
+ENV JAVA_HOME=/usr/lib/jvm/java-21-openjdk-amd64
+
+RUN pip config set global.index-url https://mirrors.huaweicloud.com/repository/pypi/simple && \
+    pip config set global.trusted-host mirrors.huaweicloud.com && \
+    pip install --upgrade pip packaging setuptools && \
+    pip cache purge
+
+WORKDIR /workspace
+
+RUN git clone --depth 1 -b v0.13.0 https://github.com/vllm-project/vllm.git && \
+    git clone --depth 1 -b releases/v0.13.0 https://github.com/vllm-project/vllm-ascend.git
+
+RUN cd vllm && \
+    pip install -r requirements/build.txt && \
+    VLLM_TARGET_DEVICE=empty pip install -v -e . && \
+    pip uninstall -y triton && \
+    pip cache purge && \
+    cd ..
+
+RUN pip install torch==2.8.0+cpu torchvision==0.23.0 torchaudio==2.8.0 \
+    --index-url https://download.pytorch.org/whl/cpu
+
+RUN source /usr/local/Ascend/ascend-toolkit/set_env.sh && \
+    source /usr/local/Ascend/nnal/atb/set_env.sh && \
+    cd vllm-ascend && \
+    pip install -r requirements.txt && \
+    SOC_VERSION=${SOC_VERSION} pip install -v -e . --extra-index-url https://download.pytorch.org/whl/cpu
+
+WORKDIR /workspace/ROLL
+COPY . .
+
+RUN pip install -r requirements_common.txt
+
+RUN pip install "deepspeed==0.16.4" "transformers==4.57.6" "tensorboard==2.20.0"
+
+RUN pip install -e .
+
+RUN rm -rf /var/lib/apt/lists/* /tmp/* /var/tmp/* && \
+    pip uninstall -y triton && \
+    pip uninstall -y triton-ascend && \
+    pip install triton-ascend==3.2.0 && \
+    pip cache purge
+
+RUN echo "source /usr/local/Ascend/ascend-toolkit/set_env.sh" >> /root/.bashrc && \
+    echo "source /usr/local/Ascend/nnal/atb/set_env.sh" >> /root/.bashrc
+
+CMD ["/bin/bash"]
\ No newline at end of file
diff --git a/docker/Dockerfile.A3 b/docker/Dockerfile.A3
new file mode 100644
index 000000000..c6762b57e
--- /dev/null
+++ b/docker/Dockerfile.A3
@@ -0,0 +1,66 @@
+FROM quay.io/ascend/cann:8.5.1-a3-ubuntu22.04-py3.11
+
+ARG SOC_VERSION="ascend910_9391"
+
+ENV DEBIAN_FRONTEND=noninteractive
+ENV TERM=xterm-256color
+ENV PIP_ROOT_USER_ACTION=ignore
+ENV PIP_CONSTRAINT=""
+
+ENV LD_LIBRARY_PATH=/usr/local/Ascend/driver/lib64:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/add-ons:/usr/local/Ascend/ascend-toolkit/latest/fwkacllib/lib64:/usr/local/Ascend/ascend-toolkit/latest/acllib/lib64:/usr/local/Ascend/ascend-toolkit/latest/atc/lib64:${LD_LIBRARY_PATH}
+ENV ASCEND_HOME_PATH=/usr/local/Ascend/ascend-toolkit/latest
+
+RUN apt-get update -y && \
+    apt-get install -y --no-install-recommends \
+        gcc g++ cmake libnuma-dev wget git curl jq vim \
+        build-essential iproute2 openjdk-21-jdk && \
+    apt-get clean && \
+    rm -rf /var/lib/apt/lists/*
+
+ENV JAVA_HOME=/usr/lib/jvm/java-21-openjdk-amd64
+
+RUN pip config set global.index-url https://mirrors.huaweicloud.com/repository/pypi/simple && \
+    pip config set global.trusted-host mirrors.huaweicloud.com && \
+    pip install --upgrade pip packaging setuptools && \
+    pip cache purge
+
+WORKDIR /workspace
+
+RUN git clone --depth 1 -b v0.13.0 https://github.com/vllm-project/vllm.git && \
+    git clone --depth 1 -b releases/v0.13.0 https://github.com/vllm-project/vllm-ascend.git
+
+RUN cd vllm && \
+    pip install -r requirements/build.txt && \
+    VLLM_TARGET_DEVICE=empty pip install -v -e . && \
+    pip uninstall -y triton && \
+    pip cache purge && \
+    cd ..
+
+RUN pip install torch==2.8.0+cpu torchvision==0.23.0 torchaudio==2.8.0 \
+    --index-url https://download.pytorch.org/whl/cpu
+
+RUN source /usr/local/Ascend/ascend-toolkit/set_env.sh && \
+    source /usr/local/Ascend/nnal/atb/set_env.sh && \
+    cd vllm-ascend && \
+    pip install -r requirements.txt && \
+    SOC_VERSION=${SOC_VERSION} pip install -v -e . --extra-index-url https://download.pytorch.org/whl/cpu
+
+WORKDIR /workspace/ROLL
+COPY . .
+
+RUN pip install -r requirements_common.txt
+
+RUN pip install "deepspeed==0.16.4" "transformers==4.57.6" "tensorboard==2.20.0"
+
+RUN pip install -e .
+
+RUN rm -rf /var/lib/apt/lists/* /tmp/* /var/tmp/* && \
+    pip uninstall -y triton && \
+    pip uninstall -y triton-ascend && \
+    pip install triton-ascend==3.2.0 && \
+    pip cache purge
+
+RUN echo "source /usr/local/Ascend/ascend-toolkit/set_env.sh" >> /root/.bashrc && \
+    echo "source /usr/local/Ascend/nnal/atb/set_env.sh" >> /root/.bashrc
+
+CMD ["/bin/bash"]
\ No newline at end of file
diff --git a/docker/Dockerfile.torch2100 b/docker/Dockerfile.torch2100
new file mode 100644
index 000000000..aa2c29aff
--- /dev/null
+++ b/docker/Dockerfile.torch2100
@@ -0,0 +1,32 @@
+FROM nvcr.io/nvidia/pytorch:25.11-py3
+
+ENV DEBIAN_FRONTEND=noninteractive
+ENV TERM=xterm-256color
+ENV PIP_ROOT_USER_ACTION=ignore
+ENV PIP_CONSTRAINT=""
+
+RUN pip install --upgrade --trusted-host mirrors.aliyun.com --index-url https://mirrors.aliyun.com/pypi/simple/ \
+    pip setuptools setuptools_scm wheel
+
+RUN pip uninstall -y torch torchvision torchao torch-tensorrt pytorch-triton transformer_engine
+
+RUN pip install torch==2.10.0 torchvision==0.25.0 torchaudio==2.10.0 --index-url https://download.pytorch.org/whl/cu130
+
+RUN apt-get update && apt-get install -y iproute2 tmux zip
+
+RUN apt-get install -y openjdk-21-jdk
+ENV JAVA_HOME=/usr/lib/jvm/java-21-openjdk-amd64
+
+RUN pip install --trusted-host mirrors.aliyun.com --index-url https://mirrors.aliyun.com/pypi/simple/ \
+    --no-build-isolation "megatron-core @ git+https://github.com/NVIDIA/Megatron-LM.git@core_dev_r0.16.0"
+
+RUN pip install --trusted-host mirrors.aliyun.com --index-url https://mirrors.aliyun.com/pypi/simple/ \
+    "flash-linear-attention" "transformer-engine[pytorch]"
+# FIXME: [pytorch] will install core-cu12 by default, install [core-cu13] after [pytorch] to override core-cu12
+RUN pip install --trusted-host mirrors.aliyun.com --index-url https://mirrors.aliyun.com/pypi/simple/ \
+    "transformer-engine[core-cu13]"
+
+RUN pip install --index-url https://wheels.vllm.ai/nightly/cu130 vllm
+# FIXME: vllm will downgrade transformers to <5
+RUN pip install --trusted-host mirrors.aliyun.com --index-url https://mirrors.aliyun.com/pypi/simple/ \
+    -U transformers
diff --git a/docker/Dockerfile.torch2100.vllm.AMD b/docker/Dockerfile.torch2100.vllm.AMD
new file mode 100644
index 000000000..24785bbb5
--- /dev/null
+++ b/docker/Dockerfile.torch2100.vllm.AMD
@@ -0,0 +1,10 @@
+FROM rocm/pytorch:rocm7.2_ubuntu22.04_py3.11_pytorch_release_2.10.0
+
+# Install exactly the missing pip packages from ee1e14724282
+COPY requirements_torch_2100_vllm_amd.txt /tmp/requirements_torch_2100_vllm_amd.txt
+RUN pip3 install -r /tmp/requirements_torch_2100_vllm_amd.txt
+
+# Direct installation from the newly uploaded GitHub release wheel
+RUN pip3 install https://github.com/aaab8b/roll_amd_dependencies/releases/download/v0.1/vllm-0.17.1.dev0.gb31e9326a.d20260511.rocm720-cp311-cp311-linux_x86_64.whl
+
+RUN git clone https://github.com/alibaba/ROLL
diff --git a/docker/Dockerfile.torch291 b/docker/Dockerfile.torch291
new file mode 100644
index 000000000..347313d0f
--- /dev/null
+++ b/docker/Dockerfile.torch291
@@ -0,0 +1,27 @@
+FROM nvcr.io/nvidia/pytorch:25.10-py3
+
+ENV DEBIAN_FRONTEND=noninteractive
+ENV TERM=xterm-256color
+ENV PIP_ROOT_USER_ACTION=ignore
+ENV PIP_CONSTRAINT=""
+
+RUN pip install --upgrade --trusted-host mirrors.aliyun.com --index-url https://mirrors.aliyun.com/pypi/simple/ \
+    pip setuptools setuptools_scm wheel
+
+RUN pip uninstall -y torch torchvision torchao torch-tensorrt pytorch-triton
+
+RUN pip install torch==2.9.1 torchvision==0.24.1 torchaudio==2.9.1 --index-url https://download.pytorch.org/whl/cu130
+
+RUN apt-get update && apt-get install -y iproute2 tmux zip
+
+RUN apt-get install -y openjdk-21-jdk
+ENV JAVA_HOME=/usr/lib/jvm/java-21-openjdk-amd64
+
+RUN pip install --trusted-host mirrors.aliyun.com --index-url https://mirrors.aliyun.com/pypi/simple/ \
+    "megatron-core>=0.15.0,<0.16.0" "flash-linear-attention"
+
+RUN pip install --trusted-host mirrors.aliyun.com --index-url https://mirrors.aliyun.com/pypi/simple/ \
+    https://github.com/vllm-project/vllm/releases/download/v0.15.1/vllm-0.15.1+cu130-cp38-abi3-manylinux_2_35_x86_64.whl
+
+# ROLL is not compatible with transformers>=4.57.5
+RUN pip install --trusted-host mirrors.aliyun.com --index-url https://mirrors.aliyun.com/pypi/simple/  "transformers==4.57.0"
diff --git a/docs/qa.md b/docs/qa.md
deleted file mode 100644
index a68177d5d..000000000
--- a/docs/qa.md
+++ /dev/null
@@ -1,93 +0,0 @@
-# 常见 Q&A
-
-0. **Megatron 模型如何转成 HF**
-
-使用如下命令进行格式转换
-
-```bash
-python mcore_adapter/tools/convert.py --checkpoint_path path_to_megatron_model --output_path path_to_output_hf_model
-```
-
-0. **什么是colocate模式**
-
-actor_train、actor_infer、reference多个角色之间的device_mapping可以复用，比如actor_train配置device_mapping: list(range(0,8)), actor_infer配置device_mapping: list(range(0,8)), reference配置device_mapping: list(range(0,8)) , 框架底层通过对保证了多个角色间GPU的复用
-
-
-0. **什么是分离模式**
-
-actor_train、actor_infer、reference多个角色之间的device_mapping 之间没有交集，每个角色持有一组独立的GPU device资源，比如actor_train配置device_mapping: list(range(0,8)), actor_infer配置device_mapping: list(range(8,16)), reference配置device_mapping: list(range(16,24)) 
-
-
-0. **rollout_batch_size/num_return_sequences_in_group是什么意思**
-
-rollout_batch_size: 一个batch中的prompt数量
-
-num_return_sequences_in_group: 针对每条prompt采样数，也就是vllm/sglang推理中通常意义上的n参数
-
-也就是实际一个batch内样本数 = rollout_batch_size * num_return_sequences_in_group
-
-对于Megatron Backend, 需要注意: 
- 
-rollout_batch_size * num_return_sequences_in_group 整数倍于 
-gradient_accumulation_steps * per_device_train_batch_size * (world_size/tensor_model_parallel_size/pipeline_model_parallel_size/context_parallel_size)
-
-
-0. **如何设置gradient_accumulation_steps/per_device_train_batch_size**
-
-***对于DeepSpeed Backend***
-
-global_batch_size = per_device_train_batch_size * gradient_accumulation_steps * world_size 
-
-world_size 即actor_train/critic的device_mapping长度
-
-***对于Megatron Backend***
-
-global_batch_size = per_device_train_batch_size * gradient_accumulation_steps * world_size / tensor_model_parallel_size / pipeline_model_parallel_size / context_parallel_size 
-
-world_size 即actor_train/critic的device_mapping长度
-
-注意: 不需要除以expert_model_parallel_size
-
-
-0. **如何获取训练的timeline**
-
-可以尝试在yaml中开启profile
-
-```yaml
-system_envs:
-  RAY_PROFILING: "1"
-profiler_output_dir: /data/oss_bucket_0/yali/llm/profile/${exp_name}
-```
-
-然后利用https://ui.perfetto.dev/ 工具进行分析
-
-0. **如何debug代码**
-
-在对应后端的Platform的env中设置 "RAY_DEBUG": "legacy" ， 就可以采用pdb进行单步调试
-
-
-0. **如果出现这种错误: self.node2pg[node_rank] KeyError: 1**
-
-检查申请的GPU总数和device_mapping的配置，出现该错误一般是max(device_mapping) < 或者 > total_gpu_nums
-
-0. **如果出现这种错误：assert self.lr_decay_steps > 0**
-
-roll数据分配的时候，会将rollout_batch_size的样本，按dp size 分发到每个actor_train worker上，然后再按gradient_accumulation_steps计算每次梯度更新的样本。配置一除就是0; 
-
-详细配置逻辑可以参考手册：https://alibaba.github.io/ROLL/docs/User%20Guides/Configuration/config_guide#training-arguments-training_args
-
-
-1. **如果出现这种错误：AssertionError: batch_size 32 < chunks 64**
-
-batch_size 小于reference/actor_train 的DP size，导致dispatch时数据不够切分，可以调整rollout_batch_size解决
-
-
-0. **如果出现这种错误：TypeError: BackendCompilerFailed.__init__() missing 1 required positional argument**
-
-可以尝试在yaml增加配置项解决:
-
-```yaml
-system_envs:
-  NVTE_TORCH_COMPILE: '0'
-```
-
diff --git a/docs/reward_worker_examples/README_code_sandbox_reward_worker.md b/docs/reward_worker_examples/README_code_sandbox_reward_worker.md
deleted file mode 100644
index 0b12d3a72..000000000
--- a/docs/reward_worker_examples/README_code_sandbox_reward_worker.md
+++ /dev/null
@@ -1,216 +0,0 @@
-# Code Sandbox Reward Worker
-
-The `code_sandbox_reward_worker.py` module provides functionality to evaluate code solutions in a sandbox environment and compute rewards based on test case results. It supports multiple testing modes to accommodate different types of code evaluation scenarios.
-
-## Overview
-
-The Code Sandbox Reward Worker evaluates code solutions by:
-1. Extracting code from model responses
-2. Running the code against test cases
-3. Computing rewards based on test results
-4. Providing detailed feedback on test failures
-
-The worker supports both HTTP sandbox testing (remote execution) and local testing, making it flexible for different deployment scenarios.
-
-## Test Case Types
-
-The worker supports five different test case types, each with its own format and requirements:
-
-### 1. Assert Testing
-
-Used for simple assertion-based testing of code.
-
-**Format:**
-```json
-[
-  {
-    "assert_code": "assert find_binary_numbers(2) == ['00', '01', '10']"
-  },
-  {
-    "assert_code": "assert find_binary_numbers(3) == ['000', '001', '010', '100', '101']"
-  },
-  {
-    "assert_code": "assert find_binary_numbers(1) == ['0', '1']"
-  }
-]
-```
-
-**Key Components:**
-- `assert_code`: Simple assert statements that test the function
-
-**Example Use Case:**
-Testing functions with straightforward inputs and expected outputs.
-
-### 2. Pytest Testing
-
-Used for more complex test cases using pytest-style test functions.
-
-**Format:**
-```json
-{
-  "assert_code": "\n\n\ndef test_even_length_string_with_reverse_parts():\n    assert can_split_into_reverse_parts(\"abccba\") == True\n\ndef test_even_length_string_without_reverse_parts():\n    assert can_split_into_reverse_parts(\"abcdef\") == False\n\ndef test_odd_length_string():\n    assert can_split_into_reverse_parts(\"abcba\") == False\n\ndef test_empty_string():\n    assert can_split_into_reverse_parts(\"\") == True\n\ndef test_single_character_string():\n    assert can_split_into_reverse_parts(\"a\") == False\n\ndef test_string_with_mixed_cases():\n    assert can_split_into_reverse_parts(\"AbCCba\") == False\n\ndef test_palindrome_string():\n    assert can_split_into_reverse_parts(\"abccba\") == True\n    assert can_split_into_reverse_parts(\"abcdedcba\") == False"
-}
-```
-
-**Key Components:**
-- `assert_code`: Contains multiple test functions with assertions
-
-**Example Use Case:**
-Testing functions that require multiple test cases with different scenarios.
-
-### 3. Input/Output Testing
-
-Used for testing code with standard input and expected output.
-
-**Format:**
-```json
-[
-  {
-    "stdin": "[1, 2, 3]",
-    "expected_stdout": "9"
-  },
-  {
-    "stdin": "[1, 2, 3, 4]",
-    "expected_stdout": "19"
-  },
-  {
-    "stdin": "[1, 2, 3, 4, 5]",
-    "expected_stdout": "33"
-  }
-]
-```
-
-**Key Components:**
-- `stdin`: Input to provide to the program
-- `expected_stdout`: Expected output from the program
-
-**Example Use Case:**
-Testing functions that read from standard input and write to standard output.
-
-### 4. Check-Based Testing
-
-Used for testing code with a specific entry point and custom imports.
-
-**Format:**
-
-```json
-{
-  "assert_code": "def check(candidate):\n    assert candidate(nums = [1,3,5,6], target = 5) == 2\n    assert candidate(nums = [1,3,5,6], target = 2) == 1\n    assert candidate(nums = [1,3,5,6], target = 7) == 4\n",
-  "import_prefix": "import collections\nimport string\nimport math\nimport datetime\n\nfrom typing import *\nfrom functools import *\nfrom collections import *\nfrom itertools import *\nfrom heapq import *\nfrom bisect import *\nfrom string import *\nfrom operator import *\nfrom math import *\n\ninf = float('inf')\n\n",
-  "entry_point": "Solution().searchInsert"
-}
-```
-
-**Key Components:**
-
-- `assert_code`: Contains the test assertions
-- `import_prefix`: Imports to include before the solution code
-- `entry_point`: Function or method to call for testing
-
-**Example Use Case:**
-Testing LeetCode-style problems where a specific method of a class needs to be evaluated.
-
-### 5. Text Testing
-
-Used for validating text responses rather than code execution.
-
-**Format:**
-
-```json
-[
-  {
-    "assert_code": "import re\ndef check_keyword_highlight(input_str):\n    highlights = re.findall(r'\\\\*[^\\\\n\\\\*]+\\\\*', input_str)\n    return len(highlights) >= 1\ninput_str = {response}\nres = check_keyword_highlight(input_str)\nassert res == True"
-  },
-  {
-    "assert_code": "import re\ndef check_title(input_str):\n    pattern = r'<<[^\\\\n]+>>'\n    re_pattern = re.compile(pattern)\n    titles = re.findall(re_pattern, input_str)\n\n    for title in titles:\n        if title.lstrip('<').rstrip('>').strip():\n            return True\n    return False\ninput_str = {response}\nres = check_title(input_str)\nassert res == True"
-  }
-]
-```
-
-**Key Components:**
-
-- `assert_code`: Python code that validates the text response
-- `{response}`: Placeholder that gets replaced with the model's response
-
-**Example Use Case:**
-Validating formatting, structure, or content of text responses like ensuring a response has a title, highlights, or specific number of sentences.
-
-## Data Format
-
-When using the Code Sandbox Reward Worker, each test case should include:
-
-1. `id`: A unique identifier for the test case
-2. `prompt`: The problem statement or question
-3. `case_type`: The type of test case (one of: "check_based", "text", "assert", "pytest", "input")
-4. `test_case_function`: The function name to test (if applicable)
-5. `test_cases`: The test cases in the appropriate format for the case type
-6. `tag`: Optional tag for categorizing test cases
-
-Example:
-
-```json
-{
-  "id": "3c45c692be4866bcf8922c7825ffe0bd00e5539034725594a2e24512f44834b5",
-  "domain": "code_sandbox",
-  "source": "leetcode",
-  "difficulty": "0",
-  "prompt": "You are an expert Python programmer...",
-  "case_type": "check_based",
-  "test_case_function": "Solution().searchInsert",
-  "test_cases": "[{\"assert_code\": \"def check(candidate):\\n    assert candidate(nums = [1,3,5,6], target = 5) == 2\\n    assert candidate(nums = [1,3,5,6], target = 2) == 1\\n    assert candidate(nums = [1,3,5,6], target = 7) == 4\\n\", \"import_prefix\": \"import collections\\nimport string\\nimport math\\nimport datetime\\n\\nfrom typing import *\\nfrom functools import *\\nfrom collections import *\\nfrom itertools import *\\nfrom heapq import *\\nfrom bisect import *\\nfrom string import *\\nfrom operator import *\\nfrom math import *\\n\\ninf = float('inf')\\n\\n\", \"entry_point\": \"Solution().searchInsert\"}]",
-  "tag": "leetcode-Easy"
-}
-```
-
-## Important Considerations
-
-### Local vs. HTTP Sandbox Testing
-
-The worker supports two testing modes:
-
-1. **Local Testing**: Executes code locally using Python's exec/eval
-   - Faster but less secure
-   - Good for development and testing
-   - Set `use_local=True` in the worker config
-
-2. **HTTP Sandbox Testing**: Executes code in a remote sandbox
-   - More secure but requires a sandbox service
-   - Good for production use
-   - Provide `code_url` in the worker config
-
-## Usage
-
-To use the Code Sandbox Reward Worker:
-
-1. Create a worker configuration with the appropriate settings:
-
-```python
-from roll.pipeline.rlvr.rlvr_config import RewardConfig
-
-config = RewardConfig(
-    use_local=True,  # Set to False for HTTP sandbox
-    code_url="http://your-sandbox-url.com/execute",  # Only needed for HTTP sandbox
-    model_args={...}  # Model configuration
-)
-```
-
-2. Initialize the worker:
-
-```python
-from roll.pipeline.rlvr.rewards.code_sandbox_reward_worker import CodeSandboxRewardWorker
-
-worker = CodeSandboxRewardWorker(config)
-```
-
-3. Compute rewards:
-
-```python
-from roll.distributed.scheduler.protocol import DataProto
-
-# Prepare data with prompts, responses, and test cases
-data = DataProto.from_dict(...)
-
-# Compute rewards
-results = worker.compute_rewards(data)
-```
-
diff --git a/docs_roll/docs/Development/Developer Guide/custom_loss_func.md b/docs_roll/docs/Development/Developer Guide/custom_loss_func.md
new file mode 100644
index 000000000..4c1b7dfa2
--- /dev/null
+++ b/docs_roll/docs/Development/Developer Guide/custom_loss_func.md	
@@ -0,0 +1,360 @@
+# Guide to Implementing Custom `loss_func`
+
+When implementing a custom `loss_func` in ROLL, the most critical aspects are **how the loss is aggregated** and **how `loss_scale` is handled**. Mishandling these two points can cause the final computed loss or gradients to **deviate from the result that would be obtained by performing a single forward pass over the entire global batch**, thereby introducing training bias—especially severe in complex training scenarios involving **data parallelism (DP) + gradient accumulation (GA) + sequence packing**.
+
+---
+
+## 1. Common Loss Aggregation Strategies
+
+Consider a **global batch** containing $B$ sequences. Let the length of the $i$-th sequence be $T_i$, with a per-token mask $m_{i,t} \in \{0,1\}$ indicating whether position $t$ participates in loss computation. The number of valid tokens is:
+
+$$
+N_i = \sum_{t=1}^{T_i} m_{i,t}, \quad N_{\text{all}} = \sum_{i=1}^{B} N_i
+$$
+
+Let $\mathcal{L}_{i,t}$ denote the per-token loss at position $t$ of sequence $i$ (e.g., NLL, CE, KL divergence, policy loss, etc.).
+
+### 1.1 Token-level Loss (`token-mean`)
+
+Compute the average loss over **all valid tokens in the global batch**:
+
+$$
+\mathcal{L}_{\text{token}} = \frac{1}{N_{\text{all}}} \sum_{i=1}^{B} \sum_{t=1}^{T_i} m_{i,t} \mathcal{L}_{i,t}
+$$
+
+**Property**: Each token has equal weight; longer sequences contribute more due to having more valid tokens.
+
+### 1.2 Sequence-level Loss (`seq-mean`)
+
+First aggregate within each sequence, then average across sequences. ROLL commonly uses two variants:
+
+**(a) `seq-mean-token-sum`**  
+Sum losses over tokens within each sequence, then average across sequences:
+$$
+\mathcal{L}_{\text{seq-sum}} = \frac{1}{B} \sum_{i=1}^{B} \left( \sum_{t=1}^{T_i} m_{i,t} \mathcal{L}_{i,t} \right)
+$$
+
+**(b) `seq-mean-token-mean`**  
+Average losses over tokens within each sequence, then average across sequences:
+$$
+\mathcal{L}_{\text{seq-mean}} = \frac{1}{B} \sum_{i=1}^{B} \left( \frac{1}{N_i} \sum_{t=1}^{T_i} m_{i,t} \mathcal{L}_{i,t} \right)
+$$
+
+**Property**: Each sequence has equal weight, avoiding bias due to sequence length differences.
+
+---
+
+## 2. Micro-batch Partitioning in Distributed Training
+
+In practice, a single global training step typically involves:
+
+- **Data Parallelism (DP)**: The global batch is split across multiple DP ranks;
+- **Gradient Accumulation (GA)**: Each rank further splits its data into multiple micro-batches, processed sequentially;
+- **Sequence Packing**: To reduce padding and improve GPU utilization, multiple samples are concatenated into fixed-length packed sequences.
+
+Let:
+- DP world size be $D$,
+- Gradient accumulation steps be $A$,
+- Then the total number of micro-batches per global step is $M = D \times A$.
+
+Denote the set of samples in the $k$-th micro-batch as $\mathcal{S}_k$. Its number of valid tokens is:
+$$
+N_k = \sum_{(i,t) \in \mathcal{S}_k} m_{i,t}, \quad N_{\text{all}} = \sum_{k=1}^{M} N_k
+$$
+The number of sequences (samples) in this micro-batch is $B_k$, satisfying:
+$$
+B = \sum_{k=1}^{M} B_k
+$$
+
+### 2.1 Why Does Sequence Packing Cause $B_k$ to Vary?
+
+With sequence packing enabled, frameworks typically construct micro-batches based on a **token budget** rather than a fixed number of samples:
+
+- Short sequences can be densely packed → some micro-batches contain many samples ($B_k$ large);
+- Long sequences consume more space → some micro-batches contain few samples ($B_k$ small).
+
+Thus, under packing, the number of samples per micro-batch $B_k$ is typically **uneven and unpredictable**, posing challenges for correct sequence-level loss aggregation.
+
+---
+
+## 3. Core Issue: Why You Should Not Normalize Using Local Statistics Within Micro-batches
+
+ROLL’s goal is: **regardless of training configuration (DP/GA/Packing), the final loss used for backpropagation must be mathematically equivalent to computing the loss over the entire global batch in one go** (as defined in Section 1).
+
+If each micro-batch uses its own local statistics (e.g., $N_k$ or $B_k$) for normalization, and gradients are accumulated via the backend, the result is generally **not equivalent**.
+
+### 3.1 Token-level: Incorrect Normalization Within Micro-batches
+
+**Wrong approach** (normalize by micro-batch’s own token count):
+$$
+\ell_k^{\text{wrong}} = \frac{1}{N_k} \sum_{(i,t) \in \mathcal{S}_k} m_{i,t} \mathcal{L}_{i,t}
+$$
+
+If micro-batches are equally weighted during averaging (e.g., via gradient averaging), the total loss becomes:
+$$
+\frac{1}{M} \sum_{k=1}^{M} \ell_k^{\text{wrong}} = \frac{1}{M} \sum_{k=1}^{M} \left( \frac{1}{N_k} \sum_{(i,t) \in \mathcal{S}_k} m_{i,t} \mathcal{L}_{i,t} \right)
+$$
+
+But the correct global `token-mean` loss is:
+$$
+\mathcal{L}_{\text{token}} = \frac{1}{N_{\text{all}}} \sum_{k=1}^{M} \sum_{(i,t) \in \mathcal{S}_k} m_{i,t} \mathcal{L}_{i,t}
+$$
+
+These are only equal when all $N_k$ are identical. Under variable-length sequences or packing, $N_k$ varies significantly, causing bias.
+
+### 3.2 Sequence-level: Micro-batch `seq-mean` Causes Sample Weight Imbalance
+
+Take `seq-mean-token-mean` as an example:
+
+**Wrong approach** (normalize by micro-batch’s sample count $B_k$):
+$$
+\ell_k^{\text{wrong}} = \frac{1}{B_k} \sum_{i \in \mathcal{S}_k} \bar{\mathcal{L}}_i, \quad \text{where } \bar{\mathcal{L}}_i = \frac{1}{N_i} \sum_t m_{i,t} \mathcal{L}_{i,t}
+$$
+
+After equal-weight averaging across micro-batches:
+$$
+\frac{1}{M} \sum_{k=1}^{M} \ell_k^{\text{wrong}} = \frac{1}{M} \sum_{k=1}^{M} \left( \frac{1}{B_k} \sum_{i \in \mathcal{S}_k} \bar{\mathcal{L}}_i \right)
+$$
+
+But the correct global `seq-mean` is:
+$$
+\mathcal{L}_{\text{seq-mean}} = \frac{1}{B} \sum_{i=1}^{B} \bar{\mathcal{L}}_i
+$$
+
+The former treats each micro-batch equally; the latter treats each sequence equally. When $B_k$ varies (common under packing), they are not equivalent.
+
+---
+
+## 4. Correct Approach: Use Global Denominator + Sum Across Micro-batches
+
+ROLL follows these design principles:
+
+1. **Within each micro-batch, use global statistics as the denominator**;
+2. **Each micro-batch’s returned loss should represent a partial contribution to the global loss**;
+3. **The sum of all micro-batch losses must exactly equal the global loss**;
+4. **Use `loss_scale` to counteract the backend’s default normalization behavior** (see Section 5).
+
+### 4.1 Correct Implementation for Token-level Loss
+
+For the $k$-th micro-batch:
+$$
+\ell_k = \frac{1}{N_{\text{all}}} \sum_{(i,t) \in \mathcal{S}_k} m_{i,t} \mathcal{L}_{i,t}
+$$
+
+Then:
+$$
+\sum_{k=1}^{M} \ell_k = \frac{1}{N_{\text{all}}} \sum_{k=1}^{M} \sum_{(i,t) \in \mathcal{S}_k} m_{i,t} \mathcal{L}_{i,t} = \mathcal{L}_{\text{token}}
+$$
+
+✅ Mathematically exact.
+
+### 4.2 Correct Implementation for Sequence-level Loss (e.g., `seq-mean-token-mean`)
+
+For the $k$-th micro-batch:
+$$
+\ell_k = \frac{1}{B} \sum_{i \in \mathcal{S}_k} \bar{\mathcal{L}}_i
+$$
+
+Then:
+$$
+\sum_{k=1}^{M} \ell_k = \frac{1}{B} \sum_{i=1}^{B} \bar{\mathcal{L}}_i = \mathcal{L}_{\text{seq-mean}}
+$$
+
+✅ Holds exactly even when $B_k$ varies (common under packing).
+
+---
+
+## 5. `loss_scale`: Compensating for Backend Normalization
+
+Most training frameworks (e.g., Megatron, FSDP) implicitly normalize gradients under DP + GA to stabilize scale:
+
+- **GA dimension**: Average gradients over $A$ micro-steps (equivalent to `loss /= A`);
+- **DP dimension**: Divide by $D$ after AllReduce (equivalent to averaging across ranks).
+
+The combined effect is:
+$$
+g \propto \frac{1}{M} \sum_{k=1}^{M} \nabla \ell_k, \quad M = D \times A
+$$
+
+However, ROLL’s aggregation design requires **summation semantics** across micro-batches:
+$$
+\nabla \mathcal{L}_{\text{global}} = \sum_{k=1}^{M} \nabla \ell_k
+$$
+
+To cancel the backend’s $1/M$ normalization, multiply each micro-batch’s loss by:
+$$
+\text{loss\_scale} = M
+$$
+
+Thus:
+$$
+\frac{1}{M} \sum_{k=1}^{M} \nabla (M \cdot \ell_k) = \sum_{k=1}^{M} \nabla \ell_k
+$$
+
+✅ Recovers correct summation semantics.
+
+---
+
+## 6. ROLL Interface: Global Stat Injection and `loss_scale` Control
+
+To enable **globally equivalent loss aggregation** at the micro-batch level, ROLL automatically injects global batch statistics (e.g., total valid tokens, total valid samples) into each training step. These statistics are **computed based entirely on user-specified `loss_mask_keys`**.
+
+### 6.1 `loss_mask_keys`: Define Loss Participation Scope and Drive Global Stat Injection
+
+`loss_mask_keys` is a list of strings declaring **which mask fields identify "valid tokens participating in loss computation."** This configuration not only guides how the loss function masks invalid positions but—more importantly—**determines how the strategy computes and injects global aggregation quantities**.
+
+You must set this in your pipeline’s data preprocessing or worker initialization:
+```python
+data.meta_info['loss_mask_keys'] = ['response_mask', 'labels_mask']
+```
+
+For each key in `loss_mask_keys` (e.g., `'response_mask'`), ROLL’s strategy will:
+
+1. **Extract the corresponding mask tensor** from `data.batch` (typically shape `[batch_size, seq_len]`);
+2. **Gather this mask across all DP ranks and GA steps**;
+3. **Compute two global statistics**:
+   - **`batch_num_tokens[key]`**: Total sum of this mask over the entire global batch, i.e.,  
+     $$
+     N_{\text{all}}^{(\text{key})} = \sum_{\text{all samples}} \sum_{t} \text{mask}_{i,t}^{(\text{key})}
+     $$
+   - **`global_valid_samples[key]`**: Number of sequences with **at least one valid token**, i.e.,  
+     $$
+     B^{(\text{key})} = \sum_{i=1}^{B} \mathbb{I}\left( \sum_{t} \text{mask}_{i,t}^{(\text{key})} > 0 \right)
+     $$
+
+These statistics are injected into `data.meta_info` for use in `loss_func`.
+
+> ⚠️ **Critical Consistency Requirement**: The mask you use in `loss_func` for loss computation, weighting, or aggregation **must have identical semantics to the mask specified in `loss_mask_keys`**.  
+> For example, if `loss_mask_keys = ['response_mask']`, your loss must be computed **only** using `response_mask`. Using a different mask (e.g., `attention_mask`) will cause a mismatch between the numerator (loss computation) and denominator (global stats), breaking equivalence.
+
+### 6.2 Using Injected Global Statistics in `loss_func`
+
+In your custom `loss_func`, access global statistics as follows:
+
+```python
+# Assume 'response_mask' is in loss_mask_keys
+mask_key = 'response_mask'
+
+N_all = data.meta_info['batch_num_tokens'][mask_key]        # Global valid token count
+B_all = data.meta_info['global_valid_samples'][mask_key]    # Global valid sample count
+```
+
+Then use these global values as denominators during aggregation (see Section 4) to ensure micro-batch computations exactly reconstruct the global loss.
+
+### 6.3 `apply_loss_scale`: Controlling Gradient Scale Correction
+
+Since training backends (e.g., Megatron/FSDP) typically apply implicit $1/(D \times A)$ normalization under DP + GA, while ROLL relies on **summation semantics**, compensation via `loss_scale = D \times A` is needed.
+
+In `worker_config`, the parameter `apply_loss_scale` controls whether this scaling is applied automatically:
+
+- **Default: `True`** (recommended to keep enabled)
+- **Effect**: Framework automatically multiplies the loss returned by `loss_func` by `loss_scale`
+- **When to disable**: Only if you manually implement the full global loss (including scale) inside `loss_func`—generally not advised.
+
+---
+
+## 7. Metrics Logging: Use `@sum` Semantics
+
+For losses aggregated using global denominators, metrics should be **summed—not averaged—during multi-worker reduction**.
+
+ROLL supports specifying reduction behavior via an `@operator` suffix in metric names:
+
+```python
+metrics = {
+    "actor/kl_loss@sum": kl_loss.detach().item(),
+}
+reduce_metrics(metrics)
+```
+
+- `@sum`: Sum values across all workers during reduction;
+- `@mean` (default): Average across workers;
+- The logger automatically strips everything from `@` onward, so it displays as `actor/kl_loss`.
+
+---
+
+## 8. Code Example: Globally Equivalent KL Loss Implementation in Actor
+
+### 8.1 Compute Per-Token KL
+
+```python
+kl_loss = compute_approx_kl(
+    log_probs=log_probs,
+    log_probs_base=ref_log_probs,
+    action_mask=final_response_mask,
+    kl_penalty="k3"
+)
+```
+
+### 8.2 Aggregate Using Global Denominator
+
+```python
+kl_loss = agg_loss(
+    loss_mat=kl_loss,
+    loss_mask=final_response_mask,
+    loss_agg_mode=self.pipeline_config.loss_agg_mode,
+    batch_num_tokens=batch_num_tokens['final_response_mask'],
+    global_valid_samples=global_valid_samples['final_response_mask'],
+)
+```
+
+### 8.3 Key Implementation of `agg_loss`
+
+```python
+def agg_loss(loss_mat, loss_mask, loss_agg_mode, batch_num_tokens=None, global_valid_samples=None, weights=None):
+    if batch_num_tokens is None:
+        batch_num_tokens = loss_mask.sum()
+    if global_valid_samples is None:
+        global_valid_samples = loss_mat.size(0)
+
+    if loss_agg_mode == "token-mean":
+        loss = (loss_mat * loss_mask).sum() / batch_num_tokens
+    elif loss_agg_mode == "seq-mean-token-sum":
+        seq_losses = (loss_mat * loss_mask).sum(dim=-1)
+        valid = (loss_mask.sum(dim=-1) > 0).float()
+        loss = (seq_losses * valid).sum() / (global_valid_samples + 1e-8)
+    elif loss_agg_mode == "seq-mean-token-mean":
+        seq_means = masked_mean(loss_mat, loss_mask, dim=-1)  # Custom function supporting mask
+        valid = (loss_mask.sum(dim=-1) > 0).float()
+        loss = (seq_means * valid).sum() / (global_valid_samples + 1e-8)
+    else:
+        raise ValueError(f"Unsupported loss_agg_mode: {loss_agg_mode}")
+    
+    return loss
+```
+
+### 8.4 Log Metrics
+
+```python
+pg_metrics = {"actor/kl_loss@sum": kl_loss.detach().item()}
+```
+
+---
+
+## 9. Design Checklist: Custom Loss Implementation (⚠️ Summary of Critical Points)
+
+To ensure mathematical equivalence and training stability under any configuration, strictly follow this checklist:
+
+### ✅ **Loss Granularity and Aggregation Mode**
+- Clearly decide whether your loss is **token-level** or **sequence-level**.
+- Choose the correct `loss_agg_mode` (e.g., `"token-mean"`, `"seq-mean-token-mean"`).
+
+### ✅ **Use Global Denominators (Critical!)**
+- **Never** use local micro-batch statistics (e.g., `loss_mask.sum()` or `loss_mat.shape[0]`) as denominators.
+- **Always** use global statistics from `data.meta_info['batch_num_tokens'][key]` and `data.meta_info['global_valid_samples'][key]`.
+
+### ✅ **`loss_mask_keys` Configuration and Consistency (Common Pitfall!)**
+- Explicitly set `data.meta_info['loss_mask_keys']` in your pipeline.
+- **Ensure** the mask used in `loss_func` for computation/masking/weighting **exactly matches** the key(s) in `loss_mask_keys`.
+- If using multiple masks (e.g., response + labels), include all in `loss_mask_keys` and handle them separately.
+
+### ✅ **`apply_loss_scale` Setting**
+- **Keep default `True`** unless you fully understand and manage scaling logic yourself.
+- Disabling incorrectly causes gradients to be implicitly scaled down by $1/(D \times A)$, leading to divergence or extremely slow convergence.
+
+### ✅ **Metrics Logging Convention**
+- For losses using global denominators, **always** append `@sum` to metric names (e.g., `"loss@sum"`).
+- Otherwise, reduction by averaging will log incorrect (underestimated by $M\times$) loss values.
+
+### ✅ **Special Care Under Packing**
+- Never assume fixed $B_k$ (sample count) or $N_k$ (token count) per micro-batch.
+- All aggregation logic must **avoid dependence on micro-batch-local statistics** and rely solely on injected global values.
\ No newline at end of file
diff --git a/docs_roll/docs/Development/Developer Guide/llm_as_judge_optimization.md b/docs_roll/docs/Development/Developer Guide/llm_as_judge_optimization.md
new file mode 100644
index 000000000..f887c6fef
--- /dev/null
+++ b/docs_roll/docs/Development/Developer Guide/llm_as_judge_optimization.md	
@@ -0,0 +1,262 @@
+# LLM as Judge Optimization in Agentic Environments
+
+This document describes the optimized implementation of LLM as Judge in Agentic environments within the ROLL framework, including system architecture, call chains, configuration methods, and best practices.
+
+## Overview
+
+LLM as Judge is a method that uses large language models as evaluators to assess agent response quality. In Agentic training scenarios, when large-scale environment instances perform concurrent rollouts, using LLM as Judge to compute rewards generates massive concurrent LLM requests, which poses significant challenges to the stability and throughput of external LLM services.
+
+To address this challenge, the ROLL framework implements a scalable **localized parallel evaluation system** through an **independent Reward Cluster** and **efficient scheduling mechanisms**, avoiding dependency on external services and ensuring the stability and controllability of the training process.
+
+:::info Documentation Scope
+This document uses the **DeepEyes environment's** LLM as Judge implementation as an example. For other environments that need LLM as Judge, you can refer to the calling patterns in `env_manager` and `env` to implement your own custom solutions.
+:::
+
+### Key Advantages
+
+- **Independent Resource Management**: Reward model is separated from Policy model, allowing independent GPU resource allocation and avoiding resource contention
+- **Localized Deployment**: Avoid external API dependencies through local Reward Cluster, ensuring service stability and data security
+- **High Concurrency Support**: Efficient parallel reward evaluation through RequestScheduler, supporting scalable environment concurrency
+- **Unified Interface Design**: Provides `generate_by_proxy` unified utility function, simplifying LLM calls and supporting both text and multimodal inputs
+- **Flexible Configuration**: Supports multiple inference backends (vLLM, SGLang) and custom generation parameters
+
+### Application Scenarios
+
+Typical Agentic training scenarios:
+- **Environment Scale**: 256 environment groups with 4 environments each, totaling 1024 concurrent environment instances
+- **Rollout Frequency**: Each environment calls LLM Judge after completing an episode
+- **Concurrency Pressure**: During rollout peaks, 500+ environments may simultaneously request reward evaluation
+- **Stability Requirements**: Training process cannot be interrupted by external API rate limiting or timeouts
+
+The optimized implementation described in this document effectively addresses these challenges.
+
+## System Architecture
+
+### Overall Architecture
+
+```
+AgenticPipeline
+    ├── Reward Cluster (optional, independent GPU resources)
+    │   ├── InferWorker (default)
+    │   └── Supports vLLM/SGLang backends
+    │
+    ├── Reward Scheduler (Ray Named Actor)
+    │   ├── Request routing and load balancing
+    │   ├── Concurrency control
+    │   └── Request tracking and cleanup
+    │
+    └── Environment Manager
+        ├── llm_proxy: for policy inference
+        ├── reward_proxy: for LLM as Judge
+        └── env instances
+            └── Call reward_proxy in obtain_outcome_reward
+```
+
+### Key Components
+
+#### 1. Reward Cluster
+
+**Location**: `roll/pipeline/agentic/agentic_pipeline.py:88-98`
+
+Reward Cluster is an optional component, created only when `device_mapping` is configured:
+
+```python
+self.reward = None
+if (self.pipeline_config.reward is not None and
+    len(self.pipeline_config.reward.device_mapping) > 0):
+    self.reward = Cluster(
+        name=self.pipeline_config.reward.name,
+        worker_cls=self.pipeline_config.reward.worker_cls,  # Default: InferWorker
+        resource_manager=self.resource_manager,
+        worker_config=self.pipeline_config.reward,
+    )
+```
+
+**Worker Class Default Configuration**: `roll/pipeline/agentic/agentic_config.py:287`
+- Defaults to `InferWorker` as inference engine, reusing ActorInfer Worker implementation
+- Supports multiple backends including vLLM and SGLang
+
+#### 2. Reward Scheduler (Ray Named Actor)
+
+**Location**: `roll/pipeline/agentic/agentic_pipeline.py:112-125`
+
+Reward Scheduler is created as a Ray Named Actor for shared access by all environment managers:
+
+```python
+self.reward_scheduler = RequestScheduler.options(
+    name=f"RewardScheduler-{self.pipeline_config.reward.name}",
+    get_if_exists=True,
+    namespace=RAY_NAMESPACE,
+    scheduling_strategy=NodeAffinitySchedulingStrategy(...)
+).remote(
+    infer_cluster=self.reward,
+    pipeline_config=self.pipeline_config,
+    resource_manager=self.resource_manager,
+)
+```
+
+**Core Functionality**:
+
+- **Smart Routing**: Uses least-loaded routing algorithm to distribute requests to different DP ranks
+- **Sticky Routing**: Requests from the same environment are routed to the same worker (beneficial for KV cache)
+- **Request Tracking**: Maintains mapping from `request_id` to workers
+
+#### 3. Reward Proxy
+
+**Location**: `roll/pipeline/agentic/env_manager/vl_traj_env_manager.py:85-109`
+
+Environment manager retrieves Reward Scheduler via Ray and creates Reward Proxy:
+
+```python
+# Get reward scheduler from Ray (Named Actor)
+if self.pipeline_config.reward:
+    self.reward_scheduler = ray.get_actor(
+        name=f"RewardScheduler-{pipeline_config.reward.name}",
+        namespace=RAY_NAMESPACE
+    )
+
+    # Create reward proxy
+    self.reward_proxy = create_llm_proxy(
+        generate_scheduler=self.reward_scheduler,
+        llm_proxy_config=pipeline_config.reward.llm_proxy,
+        tokenizer=self.reward_tokenizer,
+        env=None,
+    )
+```
+
+**Proxy Factory Function**: `roll/pipeline/agentic/llm_proxy/__init__.py:11`
+- Supports multiple proxy types: `policy`, `openai`, `random`
+- Extensible through registration mechanism
+- Policy proxy has been validated in training; for externally deployed LLM services, use openai proxy (note concurrency challenges)
+
+#### 4. Unified Utility Function `generate_by_proxy`
+
+**Location**: `roll/pipeline/agentic/llm_proxy/proxy_utils.py:18-170`
+
+This is the core component called by environments, providing a unified LLM calling interface:
+
+```python
+def generate_by_proxy(
+    messages: List[Dict[str, Any]],
+    tokenizer: PreTrainedTokenizer,
+    proxy: BaseLLMProxy,
+    enable_thinking: bool = False,
+    generation_config: Optional[Dict[str, Any]] = None,
+    collator: Optional[Any] = None,
+    mm_data: Optional[Dict[str, Any]] = None,
+    src_rank: Optional[int] = None,
+) -> Optional[str]
+```
+
+**Core Features**:
+
+- **Unified Interface**: Same calling pattern for both text and multimodal inputs
+- **Automatic Formatting**: Uses `tokenizer.apply_chat_template` to format messages
+- **Multimodal Support**: Supports image/video inputs through `collator` parameter
+- **Thinking Mechanism**: Supports chain-of-thought for models like DeepSeek and Qwen
+- **Routing Control**: Implements sticky routing through `src_rank` parameter
+- **Error Handling**: Returns `None` to indicate inference failure, handled by caller
+
+## Call Chain
+
+### Complete Call Flow
+
+```
+1. DeepEyesEnv.step() (env/deepeyes/env.py:182-197)
+   Triggers obtain_outcome_reward when done=True
+   ↓
+2. DeepEyesEnv.obtain_outcome_reward() (env/deepeyes/env.py:199-254)
+   Builds judge prompt, calls reward model
+   ↓
+3. generate_by_proxy() (llm_proxy/proxy_utils.py:18)
+   Unified LLM calling utility function
+   ↓
+4. reward_proxy.generate() (llm_proxy/policy_proxy.py:15)
+   Calls scheduler via Ray
+   ↓
+5. reward_scheduler.generate_one_request() (scheduler/generate_scheduler.py:1296)
+   Request routing and load balancing
+   ↓
+6. infer_cluster.workers[dp_rank].generate_request()
+   Actual model inference
+   ↓
+7. Returns LLM judgment result
+```
+
+## Configuration Guide
+
+### Complete Configuration Example
+
+```yaml
+# Reward Configuration (LLM as Judge for AgenticPipeline)
+reward:
+  name: "reward"
+  worker_cls: "roll.pipeline.base_worker.InferWorker"  # Default value, can be omitted
+  model_args:
+    model_name_or_path: Qwen/Qwen2.5-72B-Instruct
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 2048
+    temperature: 0.2      # Lower temperature for stable judgments
+    top_p: 0.95
+    top_k: 20
+  strategy_args:
+    strategy_name: vllm   # or sglang
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      tensor_parallel_size: 4
+      load_format: auto
+  # Critical: Must be non-empty to create reward cluster
+  device_mapping: list(range(8, 16))  # GPUs 8-15
+  llm_proxy:
+    proxy_type: policy  # Use policy proxy
+```
+
+### Configuration Key Points
+
+#### 1. device_mapping (Required)
+
+```yaml
+# Recommended: Policy and Reward use independent GPUs
+actor_infer:
+  device_mapping: list(range(0, 8))   # GPUs 0-7
+
+reward:
+  device_mapping: list(range(8, 16))  # GPUs 8-15, independent resources
+```
+
+- **Empty or None**: Reward cluster not created, environments cannot use LLM as Judge
+- **Non-empty**: Creates independent reward cluster, enables LLM as Judge
+- **Independent Deployment**: Use different GPU resources from actor_infer. Policy inference and Reward evaluation run in parallel. actor_infer and reward must be deployed independently
+
+#### 2. strategy_name (Inference Backend Selection)
+
+```yaml
+strategy_args:
+  strategy_name: vllm   # or sglang
+  strategy_config:
+    gpu_memory_utilization: 0.8
+    tensor_parallel_size: 4
+    load_format: auto  # Must configure auto; vllm/sglang strategies default to dummy load which randomly initializes parameters
+```
+
+#### 3. generating_args (Generation Parameters)
+
+```yaml
+generating_args:
+  max_new_tokens: 2048    # Adjust based on judge output length
+  temperature: 0.2        # Lower temperature for stability
+  top_p: 0.95
+  top_k: 20
+```
+
+## Summary
+
+The optimized LLM as Judge implementation in Agentic environments achieves efficient scalability through the following key designs:
+
+1. **Independent Reward Cluster**: Resource isolation, avoiding competition with Policy inference
+2. **Ray Named Actor**: Reward Scheduler as a shared service, accessible by all environments
+3. **Unified Utility Function**: `generate_by_proxy` simplifies calls, supports text and multimodal
+4. **Smart Routing**: Sticky routing and load balancing, improving cache utilization
+
+By properly configuring and using these components, you can build an efficient and reliable LLM as Judge evaluation system.
diff --git a/docs_roll/docs/Development/Developer Guide/rollout_mock_usage.md b/docs_roll/docs/Development/Developer Guide/rollout_mock_usage.md
new file mode 100644
index 000000000..f0bed1d04
--- /dev/null
+++ b/docs_roll/docs/Development/Developer Guide/rollout_mock_usage.md	
@@ -0,0 +1,289 @@
+---
+sidebar_position: 4
+---
+
+# Rollout Dump Mock Usage Guide
+
+## Overview
+
+Rollout Dump Mock is a powerful debugging tool in the ROLL framework designed to **eliminate randomness in the rollout phase of RL training**, enabling numerical precision alignment verification. By saving and replaying rollout data, it helps developers quickly validate the correctness of computational optimizations.
+
+### Core Value
+
+- **Eliminate Randomness**: Enable numerical precision alignment verification
+- **Fast Iteration**: Mock mode skips expensive environment rollout
+- **Reproducible Debugging**: Capture problematic rollout data for repeated debugging
+- **Transparent Architecture**: Implemented at the Scheduler layer, completely transparent to the Pipeline
+
+### Use Cases
+
+| Scenario | Description |
+|----------|-------------|
+| **Computation Optimization Verification** | Verify numerical consistency of optimizations like dynamic_batching, sequence_packing |
+| **Model Parallelism Verification** | Verify precision alignment of TP, PP, EP and other parallel strategies |
+| **Regression Testing** | Automated precision testing in CI/CD pipelines |
+
+---
+
+## Quick Start
+
+### Typical Workflow
+
+```
+[1. Dump Mode] → [2. Modify Code] → [3. Mock Mode] → [4. Precision Verification]
+    ↓                ↓                   ↓                   ↓
+ Capture baseline  Optimize compute   Deterministic      Numerical
+     data             logic             replay           comparison
+```
+
+### Step 1: Dump Mode - Capture Baseline Data
+
+Before modifying code, capture correct rollout data as a baseline.
+
+**Configuration File** (`agentic_sokoban_rollout_mock_dump.yaml`):
+```yaml
+exp_name: "sokoban_precision_test_dump"
+max_steps: 50
+
+# Rollout Mock Configuration - DUMP MODE
+rollout_mock:
+  enable: true
+  mode: dump
+  dump_dir: ./output/rollout_dumps/baseline_v1
+
+# Environment variables for deterministic execution
+system_envs:
+  NCCL_ALGO: Ring
+  NVTE_ALLOW_NONDETERMINISTIC_ALGO: '0'
+  CUBLAS_WORKSPACE_CONFIG: ':4096:8'
+  DETERMINISTIC_MODE: '1'
+
+# ... other configurations ...
+```
+
+**Command**:
+```bash
+python examples/start_agentic_pipeline.py \
+  --config_name agentic_sokoban_rollout_mock_dump \
+  --config_path examples/qwen2.5-0.5B-agentic
+```
+
+**Output**:
+```
+./output/rollout_dumps/baseline_v1/
+  └── train/
+      ├── step_000000.pkl  (~5MB)
+      ├── step_000001.pkl
+      ├── step_000002.pkl
+      ├── ...
+      └── step_000049.pkl
+```
+
+**Log Example**:
+```
+[Rollout Mock] Rollout Mock enabled: mode=dump, dir=./output/rollout_dumps/baseline_v1
+[Rollout Mock] Dumped step 0: ./output/rollout_dumps/baseline_v1/train/step_000000.pkl (samples=128, size=4.82MB)
+[Rollout Mock] Dumped step 1: ./output/rollout_dumps/baseline_v1/train/step_000001.pkl (samples=128, size=4.85MB)
+```
+
+### Step 2: Modify Code
+
+Implement your computational optimizations, such as:
+- Adding dynamic_batching
+- Implementing sequence_packing
+- Migrating to new parallel strategies
+
+### Step 3: Mock Mode - Deterministic Replay
+
+Use pre-recorded rollout data to verify that modified code maintains numerical consistency.
+
+**Configuration File** (`agentic_sokoban_rollout_mock_mock.yaml`):
+```yaml
+exp_name: "sokoban_precision_test_mock"
+max_steps: 50
+
+# Rollout Mock Configuration - MOCK MODE
+rollout_mock:
+  enable: true
+  mode: mock
+  dump_dir: ./output/rollout_dumps/baseline_v1  # Same path as dump mode
+
+# Environment variables for deterministic execution (keep consistent with dump mode)
+system_envs:
+  NCCL_ALGO: Ring
+  NVTE_ALLOW_NONDETERMINISTIC_ALGO: '0'
+  CUBLAS_WORKSPACE_CONFIG: ':4096:8'
+  DETERMINISTIC_MODE: '1'
+
+# ... other configurations (keep consistent with dump mode) ...
+```
+
+**Command**:
+```bash
+python examples/start_agentic_pipeline.py \
+  --config_name agentic_sokoban_rollout_mock_mock \
+  --config_path examples/qwen2.5-0.5B-agentic
+```
+
+**Behavior**:
+- ✅ Directly loads DataProto from disk for each step
+- ✅ All subsequent computations (advantages, losses, gradients) are fully deterministic
+
+**Log Example**:
+```
+[Rollout Mock] Rollout Mock enabled: mode=mock, dir=./output/rollout_dumps/baseline_v1
+[Rollout Mock] Loaded step 0: ./output/rollout_dumps/baseline_v1/train/step_000000.pkl (samples=128)
+[Rollout Mock] Loaded step 1: ./output/rollout_dumps/baseline_v1/train/step_000001.pkl (samples=128)
+```
+
+
+### Step 4: Numerical Precision Verification
+
+Compare training metrics between baseline and optimized versions to ensure complete numerical consistency. You can verify that both runs produce identical results by examining key metrics (such as pg_loss, total_loss, value_loss, approx_kl, grad_norm, etc.) in the logs.
+---
+
+## Configuration Parameters
+
+### Configuration Schema
+
+Add the `rollout_mock` section to your YAML configuration file:
+
+```yaml
+rollout_mock:
+  enable: bool              # Enable rollout dump/mock mechanism
+  mode: "dump" | "mock"     # dump: save data, mock: load data
+  dump_dir: str             # Data storage directory
+```
+
+### Configuration Examples
+
+**Dump Mode Configuration**:
+```yaml
+rollout_mock:
+  enable: true
+  mode: dump
+  dump_dir: ./rollout_dumps/precision_test_v1
+```
+
+**Mock Mode Configuration**:
+```yaml
+rollout_mock:
+  enable: true
+  mode: mock
+  dump_dir: ./rollout_dumps/precision_test_v1  # Same path as dump mode
+```
+
+### Environment Variables for Deterministic Execution
+
+To ensure complete numerical reproducibility, the following environment variables should be configured:
+
+```yaml
+system_envs:
+  NCCL_ALGO: Ring                           # Use Ring algorithm for NCCL
+  NVTE_ALLOW_NONDETERMINISTIC_ALGO: '0'     # Disable non-deterministic algorithms in Transformer Engine
+  CUBLAS_WORKSPACE_CONFIG: ':4096:8'        # Enable deterministic CUDA operations
+  DETERMINISTIC_MODE: '1'                   # Enable PyTorch deterministic mode
+```
+
+**DETERMINISTIC_MODE Effects**:
+- Sets `torch.backends.cudnn.deterministic = True` for reproducible cuDNN operations
+- Sets `torch.backends.cudnn.benchmark = False` to disable auto-tuning that causes non-determinism
+- Calls `torch.use_deterministic_algorithms(True)` to enforce deterministic PyTorch algorithms
+
+**Important**: These environment variables must be kept consistent between dump and mock modes to ensure numerical precision alignment.
+
+### Key Considerations
+
+1. **dump_dir must match**: Dump and Mock modes must use the same `dump_dir` path
+2. **mode must match**: Scheduler mode (train/val) must match the dump mode
+3. **max_steps cannot exceed**: Mock mode `max_steps` cannot exceed the value used in Dump mode
+4. **system_envs must be consistent**: Environment variables for deterministic execution should be identical between dump and mock modes
+
+---
+
+## Common Issues and Troubleshooting
+
+### Issue 1: Mock File Not Found
+
+**Error Message**:
+```
+FileNotFoundError: [Rollout Mock] Mock file not found: ./dumps/baseline/train/step_000005.pkl
+Possible reasons:
+  1. Step 5 was not run in dump mode
+  2. dump_dir configuration is incorrect: ./dumps/baseline
+  3. mode mismatch (current: train)
+Please run in dump mode first to ensure all step data is generated.
+```
+
+**Troubleshooting Steps**:
+
+1. Check if enough steps were run in dump mode:
+   ```bash
+   ls -lh ./output/rollout_dumps/baseline_v1/train/
+   # Should see step_000000.pkl ~ step_000049.pkl
+   ```
+
+2. Confirm `max_steps` consistency:
+   ```bash
+   # Dump: max_steps=50
+   # Mock: max_steps=50 (must match or be smaller)
+   ```
+
+3. Verify `dump_dir` path is correct:
+   ```yaml
+   # Dump mode
+   dump_dir: ./output/rollout_dumps/baseline_v1
+
+   # Mock mode (must be same)
+   dump_dir: ./output/rollout_dumps/baseline_v1
+   ```
+
+### Issue 2: Mode Mismatch
+
+**Problem**: Used train mode during dump, but accidentally used val mode during mock.
+
+**File Structure**:
+```
+dumps/baseline/
+  ├── train/       # Generated during dump
+  │   └── step_*.pkl
+  └── val/         # Empty directory
+      └── (no files)
+```
+
+**Solution**: Ensure dump and mock use the same scheduler mode (train/val).
+
+### Issue 3: Insufficient Disk Space
+
+**Symptom**: Error during dump:
+```
+OSError: [Errno 28] No space left on device
+```
+
+**Disk Usage Estimation**:
+```
+Single step file size ≈ batch_size × seq_len × data type size
+                      ≈ 128 × 512 × 4 bytes (float32)
+                      ≈ 256KB ~ 10MB (depending on sequence length and metadata)
+
+Total disk usage ≈ single step size × max_steps
+                ≈ 5MB × 100 steps = 500MB
+```
+
+**Solutions**:
+- Increase disk space
+- Reduce `max_steps`
+- Use network storage (OSS, etc.)
+
+### Issue 4: Pickle Version Incompatibility
+
+**Symptom**: Error when loading across different Python versions:
+```
+pickle.UnpicklingError: invalid load key, '\x00'
+```
+
+**Cause**: Pickle compatibility issues between different Python versions.
+
+**Solutions**:
+- Ensure dump and mock use the same Python version
+- Or use a lower protocol version during dump (requires source code modification)
diff --git a/docs_roll/docs/Getting Started/Installation/image_address.md b/docs_roll/docs/Getting Started/Installation/image_address.md
index b9a398113..abd091f80 100644
--- a/docs_roll/docs/Getting Started/Installation/image_address.md	
+++ b/docs_roll/docs/Getting Started/Installation/image_address.md	
@@ -5,8 +5,11 @@ We provide pre-built Docker images for a quick start (Links will be updated):
 * `torch2.6.0 + vLLM0.8.4`: roll-registry.cn-hangzhou.cr.aliyuncs.com/roll/pytorch:nvcr-24.05-py3-torch260-vllm084
 * `torch2.8.0 + vLLM0.10.2`: roll-registry-vpc.cn-hangzhou.cr.aliyuncs.com/roll/pytorch:nvcr-25.06-py3-torch280-vllm0102
 * `torch2.8.0 + vLLM0.11.0`: roll-registry.cn-hangzhou.cr.aliyuncs.com/roll/pytorch:nvcr-25.06-py3-torch280-vllm0110
+* `torch2.10.0 + vLLM0.16.0rc2.dev502+gade81f17f + megatron-core core_dev_r0.16.0`: roll-registry.cn-hangzhou.cr.aliyuncs.com/roll/pytorch:nvcr-25.11-py3-torch2100-mcore0160dev-vllm016dev
 
 For AMD GPU users, We provided pre-built Docker images for a quick start as well:
 * `torch2.8.0 + vLLM0.10.0`: hub.docker.com/r/rlsys/roll_opensource
+* `torch2.10.0 + vLLM0.17.1`: amdagi/roll_env_rocm721:latest
+We also provided Dockerfiles under 'docker/' for AMD users as an alternatively plan.
 
 You can also find [Dockerfiles](https://github.com/StephenRi/ROLL/tree/feature/fix-ref-for-docs/docker) under the `docker/` directory to build your own images.
diff --git a/docs_roll/docs/Getting Started/Quick Start/rock_agent_native.md b/docs_roll/docs/Getting Started/Quick Start/rock_agent_native.md
new file mode 100644
index 000000000..03388a757
--- /dev/null
+++ b/docs_roll/docs/Getting Started/Quick Start/rock_agent_native.md	
@@ -0,0 +1,126 @@
+# ROCK Agent Native Quick Start Guide
+
+This guide will walk you through running a Reinforcement Learning example based on iflow-cli (Agent) using ROLL (Training Framework) and ROCK (Environment Management).
+
+## Prerequisites
+
+- ROCK Service: Ensure you have an available ROCK service. For local server setup, refer to [ROCK Installation Guide](https://alibaba.github.io/ROCK/docs/Getting%20Started/installation)
+
+- For instructions on starting ROCK and ROLL on a single machine, refer to[ROCK & ROLL Quick Start Guide](https://alibaba.github.io/ROLL/docs/Getting%20Started/rockroll)
+
+
+## Usage Examples
+
+ROLL provides configuration examples based on iflow-cli, located in the *examples/agentic_demo* directory of the ROLL repository:
+
+```
+examples/agentic_demo
+├── agent_rollout_rock_swe.yaml    # Rollout only (Inference/Sampling) 
+└── agent_val_rock_swe.yaml        # Full pipeline (Train & Val)
+```
+
+To run an example:
+```bash
+bash examples/agentic_demo/run_agentic_rollout_pipeline_rock_swe.sh
+
+bash examples/agentic_demo/run_agentic_pipeline_rock_swe.sh
+```
+
+## Data Preparation
+
+This example uses the SWE-bench Verified evaluation set, converted into the Terminal-bench format.
+
+- [Git Repo](https://github.com/laude-institute/terminal-bench-datasets/tree/main/datasets/swebench-verified)
+- [Data Description](https://www.tbench.ai/registry/swebench-verified/head/sympy__sympy-18199)
+- [Image Registry](https://hub.docker.com/r/slimshetty/swebench-verified/tags)
+
+The full evaluation set must be downloaded locally beforehand:
+```bash
+cd / && git clone https://github.com/laude-institute/terminal-bench-datasets.git
+```
+
+The repository provides 10 task samples: *data/swe_bench_verified_example.jsonl*
+
+Example configuration (modify as needed):
+```yaml
+custom_envs:
+  swebench_native_verified:
+    env_config:
+      dataset_name: /ROLL/data/swe_bench_verified_example.jsonl
+      test_files: ["/terminal-bench-datasets/datasets/swebench-verified"]
+```
+
+## ROCK Service Setup
+
+1. Install ROCK SDK
+```bash
+pip install rl-rock -i https://mirrors.aliyun.com/pypi/simple/
+```
+
+2. Configure ROCK Service Address
+```yaml
+env_config:
+    # Replace with your actual ROCK service address
+    # e.g., 'http://192.168.1.10:8000'
+    sandbox_base_url: 'http://<ip_address>:<port>'
+```
+
+## Agent Configuration
+
+This example uses iflow-cli as the execution Agent:
+
+```yaml
+agent_config_common:
+  agent_type: "default"
+  
+  # Startup command; placeholders (e.g., <<PROMPT>>) are parsed in the code
+  run_cmd: 'iflow -p <<PROMPT>> --yolo'
+  
+  # Dependency pre-installation; modify based on your sandbox image
+  pre_init_cmds:
+    - command: "apt-get update"
+      timeout_seconds: 600
+    - command: "apt-get install -y curl git wget xz-utils"
+      timeout_seconds: 600
+    - command: "apt-get install -y build-essential libc6-dev patch procps"
+      timeout_seconds: 600
+    # Install helper tools like 'uv'
+    - command: "wget -q https://xrl-sandbox-bucket.oss-cn-hangzhou.aliyuncs.com/uv-files/uv-x86_64-unknown-linux-gnu.tar.gz && tar -xzf uv-x86_64-unknown-linux-gnu.tar.gz --strip-components=1 -C /usr/local/bin && uv --version"
+      timeout_seconds: 600 
+
+  model_service_config: 
+    type: "local"
+    enabled: True
+  
+  # 运行时环境  
+  runtime_env_config:
+    type: node
+    npm_registry: "https://registry.npmmirror.com"
+    # Install specific iflow versions as needed
+    custom_install_cmd: "wget --retry-connrefused --tries=10 --waitretry=2 -O ~/iflow-cli.tgz 'http://cloud.iflow.cn/iflow-cli/iflow-ai-iflow-cli-for-roll-0-4-4-v5.tgz' && npm i -g ~/iflow-cli.tgz"
+  
+  env:
+    # Configure iflow parameters as needed
+    IFLOW_apiKey: "test"
+    IFLOW_baseUrl: "http://localhost:8080/v1"
+    IFLOW_modelName: "ROME"
+    IFLOW_searchApiKey: "88888888"
+    IFLOW_selectedAuthType: "openai-compatible"
+    IFLOW_disableAutoUpdate: "true"
+    IFLOW_tokensLimit: "128000"
+    IFLOW_shellTimeout: "360000"
+    IFLOW_coreTools: "Edit,exit_plan_mode,glob,list_directory,multi_edit,plan,read plan,read_file,read_many_files,save_memory,Search,Shell,task,web_fetch,web_search,write_file,xml_escape"
+```
+
+ROCK also supports other Agents. For more details, refer to the[ROCK Agent](https://alibaba.github.io/ROCK/docs/References/Python%20SDK%20References/rock-agent)
+
+
+## Key Module Index
+- Environment Implementation: *roll/pipeline/agentic/env/terminal_env/rock_tb_native_env.py* 
+  - Responsible for RL flow control, reward calculation, and task distribution.
+- Sandbox Management: *roll/pipeline/agentic/env/rock/sandbox_manager_v2.py* 
+  - Responsible for communication with ROCK services, file uploads, and session management.
+- Agent Management: *roll/pipeline/agentic/env/rock/agent_manager.py* 
+  - Responsible for configuring the environment and binaries required by the Agent upon sandbox startup.
+
+For more information on the principles of the [Model Service](https://alibaba.github.io/ROCK/docs/References/Python%20SDK%20References/model-service)
\ No newline at end of file
diff --git a/docs_roll/docs/User Guides/Advanced Features/dynamic_batching.md b/docs_roll/docs/User Guides/Advanced Features/dynamic_batching.md
new file mode 100644
index 000000000..8369a57e9
--- /dev/null
+++ b/docs_roll/docs/User Guides/Advanced Features/dynamic_batching.md	
@@ -0,0 +1,214 @@
+# ROLL Dynamic Batching
+
+The ROLL framework supports **Dynamic Batching** for rollout batches. This feature minimizes invalid token computation and improves overall computational efficiency. This document provides a detailed guide on how to use this feature.
+
+## Glossary
+
+- attention_mask: data in the rollout batch ,where `1` represents a real token and `0` represents a `pad_token`
+- micro_batch (mbs): The micro-batch during the model forward pass.
+- num_micro_batches: The number of micro_batch in one mini-batch.
+- micro_batch_size: The number of sequences in the micro_batch.
+- micro_batch_seqlen: The sequence length in the micro_batch.
+- dp_size, dp_rank, shard: The size of data parallelism, the specific rank within the data parallel group and the training data in the data parallel group.
+- vpp: Virtual Pipeline Model Parallelism; an efficient pipeline parallel technique supported by the Megatron-LM framework.
+
+## Introduction
+
+In Reinforcement Learning (RL) training, the data generated during rollout phase has a **long-tail** effect, that the sequence lengths vary significantly. This phenomenon is even more pronounced in **Agentic Pipelines**, where training data is generated through multi-turn interactions with an environment.
+
+In the train step of RL, all samples in a rollout batch are typically padded to a fixed `max_len`. Consequently, these pad tokens are included in the calculation, leading to a waste of computational resources.
+
+To address this and improve efficiency, the core idea of Dynamic Batching is:
+- Partition the rollout batch across DP (Data Parallel) Ranks according to actual tokens and ensure a balanced workload.
+- The sequence of samples is rearranged so that samples with similar lengths are grouped together, to remove as many pad tokens as possible.
+
+## Example
+The following example briefly illustrates the process of Dynamic Batching in ROLL.
+
+**Assumptions:** `dp_size=2`, `num_seqs=8`, `max_tokens_microbatch=10`, `sequence_length_round=2`
+
+Original input `attention_mask`
+```bash
+attention_mask:
+[1, 1, 1, 1, 1, 1, 1, 0, 0, 0]
+[1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
+[1, 1, 1, 1, 1, 1, 1, 1, 0, 0]
+[1, 1, 1, 1, 1, 0, 0, 0, 0, 0]
+[1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
+[1, 1, 1, 0, 0, 0, 0, 0, 0, 0]
+[1, 1, 1, 1, 1, 1, 1, 1, 0, 0]
+[1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
+```
+The corresponding `seq_lens` are:
+```bash
+seq_lens:
+[7, 6, 8, 5, 1, 3, 8, 6]
+```
+
+As shown, the number of actual tokens varies significantly between sequences, causing the waste of GPU resources for processing `pad_tokens`.
+
+To optimize efficiency, ROLL Dynamic Batching follows these steps to eliminate pad tokens within a `micro_batch`:
+
+**1. Sort and Shard:**  A shard represents the training data within each dp_rank. By default, the data is sharded in order. In Dynamic Batching, sequences are first sorted by their actual length and then sharded to ensure that the number of tokens is balanced across dp_ranks.
+```bash
+# seq_lens after sorting:
+[1, 3, 5, 6, 6, 7, 8, 8]
+
+# Partition into dp_size shards:
+shard0:
+  [1, 5, 6, 8]
+shard1:
+  [3, 6, 7, 8]
+```
+
+**2. Micro-batch Partition:** 
+
+The partition process consider the following two parameters:
+
+- `max_tokens_per_microbatch`: The maximum number of tokens allowed in one micro_batch. `micro_batch_size * micro_batch_seqlen` cannot exceed this value. If it is exceeded, a new micro_batch must be created.
+- `sequence_length_round`: The `micro_batch_seqlen` must be a multiple of this value. For example, the sequence lengths in a micro_batch is [200, 240] and `sequence_length_round` is 64, the sequences in this micro-batch must be padded to a length of 256.
+
+The shard partition process for Dynamic Batching aims to find the split that maximizes the number of tokens in a micro-batch, while ensuring the numer of tokens in mirco_batch cannot exceed `max_tokens_per_microbatch`. It also ensures that the sequence length for each micro-batch is padded up to a multiple of `sequence_length_round`.
+
+The process is detailed as follows:
+
+
+
+```bash
+shard0:
+  mbs0: # Padding length 6 
+    [1, 0, 0, 0, 0, 0 
+     1, 1, 1, 1, 1, 0]
+  mbs1: # Padding length 8
+    [1, 1, 1, 1, 1, 1, 0, 0]
+  mbs2: # Padding length 8
+    [1, 1, 1, 1, 1, 1, 1, 1]
+
+shard1:
+  mbs0: # Padding length 6
+    [1, 1, 1, 0, 0, 0
+     1, 1, 1, 1, 1, 1]
+  mbs1: # Padding length 8
+    [1, 1, 1, 1, 1, 1, 1, 0]
+  mbs2: # Padding length 8
+    [1, 1, 1, 1, 1, 1, 1, 1]
+```
+In this example, the original total token count was `80` (`8 * 10`). After Dynamic Batching, the total token count is reduced to 56, removing 30% of the `pad_tokens`.
+
+**3. Support Virtual Pipeline Model Parallel :** Split micro-batches with more tokens and `micro_batch_size > 1`. This ensures the number of micro-batches is an integer multiple of `pp_size` (compatible with Megatron).
+
+Since the `num_microbatches` in the original example is not divisible by pp_size, mbs0 is selected and split into two mbs, as follows:
+
+```bash
+shard0:
+  mbs0: # padding length 6 
+    [1, 0, 0, 0, 0, 0]
+  mbs1: # padding length 6 
+    [1, 1, 1, 1, 1, 0]
+  mbs2: # padding length 8
+    [1, 1, 1, 1, 1, 1, 0, 0]
+  mbs3: # padding length 8
+    [1, 1, 1, 1, 1, 1, 1, 1]
+shard1:
+  mbs0: # padding length 6
+    [1, 1, 1, 0, 0, 0]
+  mbs1: # padding length 6
+    [1, 1, 1, 1, 1, 1]
+  mbs2: # padding length 8
+    [1, 1, 1, 1, 1, 1, 1, 0]
+  mbs3: # padding length 8
+    [1, 1, 1, 1, 1, 1, 1, 1]
+
+```
+
+## Configuration Parameters
+
+The Dynamic Batching parameters are divided into `train` and `infer`:
+
+### Train
+- `use_dynamic_batching_in_train`: Whether to enable this feature during the `train_step`.
+- `max_tokens_per_microbatch_in_train`: The maximum number of tokens allowed per micro-batch during training.
+- `sequence_length_round_in_train`: The sequence length of each micro-batch must be divisible by this value. It should also be divisible by `tensor_model_parallel_size * context_parallel_size`. Common values are 128 or 64.
+
+### Infer
+- `use_dynamic_batching_in_infer`: Whether to enable this during phases that do not require gradient update (e.g., `compute_log_probs`).
+- `max_tokens_per_microbatch_in_infer`: Same as the train, usually be higher depending on gpu memory.
+- `sequence_length_round_in_infer`: Same as train.
+
+## Full Configuration
+
+```yaml
+actor_train:
+  # Flash Attention is recommended when using both Dynamic Batching and Context Parallel
+  system_envs:
+    NVTE_FLASH_ATTN: '1'
+    NVTE_FUSED_ATTN: '0'
+    NVTE_UNFUSED_ATTN: '0'
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 64
+    warmup_steps: 10
+    lr_scheduler_type: cosine
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+  use_dynamic_batching_in_train: true
+  max_tokens_per_microbatch_in_train: 8192
+  sequence_length_round_in_train: 128
+  use_dynamic_batching_in_infer: true
+  max_tokens_per_microbatch_in_infer: 16384
+  sequence_length_round_in_infer: 128
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 128 # single-turn response length
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+  device_mapping: list(range(0,8))
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config: ~
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+  use_dynamic_batching_in_infer: true
+  max_tokens_per_microbatch_in_infer: 16384
+  sequence_length_round_in_infer: 128
+```
\ No newline at end of file
diff --git a/docs_roll/docs/User Guides/Advanced Features/sequence_packing.md b/docs_roll/docs/User Guides/Advanced Features/sequence_packing.md
new file mode 100644
index 000000000..efcdb42fe
--- /dev/null
+++ b/docs_roll/docs/User Guides/Advanced Features/sequence_packing.md	
@@ -0,0 +1,319 @@
+# SEQUENCE PACKING IN ROLL
+
+The ROLL framework now supports **Sequence Packing**, a feature that eliminates padding tokens by packing variable-length sequences together, thereby improving computational efficiency. This document provides a detailed explanation of the implementation rationale and configuration methods for this feature.
+
+> **Note**: Currently, only `megatron_strategy` supports `sequence_packing`.
+
+## 1. Introduction
+
+In reinforcement learning (RL) training scenarios, rollout data typically exhibits a long-tailed distribution. In conventional training pipelines, samples within a micro-batch are padded to a fixed maximum sequence length before being grouped into a batch for training. This approach wastes significant computational resources on processing padding tokens and slows down training.
+
+To address this issue, ROLL introduces **Sequence Packing**, which:
+- Packs sequences of varying lengths within each micro-batch to eliminate padding tokens.
+- Employs optimized packing algorithms to improve packing efficiency, reduce the number of micro-batches, and accelerate training.
+
+## 2. Implementation Principles
+
+### 2.1 Data Partitioning Hierarchy
+
+In distributed training, data is organized in the following hierarchical structure:
+
+```
+GLOBAL BATCH (Global Batch)
+├── DP RANK 0 → BATCH 0
+│   └── MINI BATCH 0 (used for one gradient update)
+│       ├── MICRO BATCH 0 (smallest computation unit)
+│       ├── MICRO BATCH 1
+│       └── ...
+├── DP RANK 1 → BATCH 1  
+│   └── MINI BATCH 0
+│       ├── MICRO BATCH 0
+│       └── ...
+└── ...
+```
+
+- **GLOBAL BATCH**: The complete rollout results generated by `actor_infer`.
+- **BATCH**: A subset of the Global Batch assigned to a specific Data Parallel (DP) rank.
+- **MINI BATCH**: A portion of a Batch used for a single gradient update (considering gradient accumulation).
+- **MICRO BATCH**: The smallest computational unit derived from a Mini Batch, used in a single forward/backward pass.
+
+In standard training, all samples within a micro-batch are padded to a fixed length, leading to substantial computational waste. Sequence Packing solves this by packing sequences at the micro-batch level.
+
+### 2.2 Core Mechanism of Sequence Packing
+
+The primary goal of Sequence Packing is to eliminate padding tokens while ensuring correct and efficient execution under complex distributed training configurations—particularly when Context Parallelism (CP) and Tensor Parallelism (TP) are enabled. To achieve this, the packing process must satisfy specific alignment constraints critical for both correctness and performance.
+
+#### 2.2.1 Alignment Requirement: Multiple of 2 × CP_SIZE × TP_SIZE
+
+When Context Parallelism (CP) and Tensor Parallelism (TP) are enabled, the packed sequence length **must be a multiple of `2 × CP_SIZE × TP_SIZE`**.
+
+This requirement stems from the needs of both parallelism strategies:
+
+1. **TENSOR PARALLELISM (TP)**: When Sequence Parallelism is enabled, sequences are split across TP ranks during the forward pass. Thus, the sequence length must be divisible by `TP_SIZE`.
+
+2. **CONTEXT PARALLELISM (CP)**: To achieve load balancing in CP, sequences must be logically divided into `2 × CP_SIZE` chunks. Hence, the sequence length must also be divisible by `2 × CP_SIZE`.
+
+Combining these two requirements, the sequence length must be a multiple of **`2 × CP_SIZE × TP_SIZE`** to ensure compatibility with both TP and CP.
+
+#### 2.2.2 Why the Factor of 2? Detailed Explanation of CP Load Balancing
+
+In Context Parallel (CP) training, the asymmetric nature of causal attention leads to severe load imbalance.
+
+**Root Cause – Asymmetry in Causal Attention**
+
+Consider a sequence of length 6: `[0, 1, 2, 3, 4, 5]`, with `CP=2`:
+
+```
+Full causal attention mask:
+     0  1  2  3  4  5
+0  [ 1  0  0  0  0  0 ]
+1  [ 1  1  0  0  0  0 ]  
+2  [ 1  1  1  0  0  0 ]
+3  [ 1  1  1  1  0  0 ]
+4  [ 1  1  1  1  1  0 ]
+5  [ 1  1  1  1  1  1 ]
+```
+
+**Problem with Naive Partitioning**:
+
+If the sequence is simply split evenly:
+- CP0 handles: `[0, 1, 2]`
+- CP1 handles: `[3, 4, 5]`
+
+The actual computational loads become:
+- **CP0**: Only computes attention weights for its own positions (6 weight computations).
+- **CP1**: Must compute attention weights from its positions to all preceding positions (15 weight computations).
+
+**Load ratio: 6:15 = 2:5** — CP1 bears 2.5× more computation than CP0!
+
+**Solution – 2×CP Interleaved Chunking**
+
+Megatron-Core resolves this by splitting the sequence into **`2 × CP`** chunks and applying an interleaved assignment strategy:
+
+```
+Original sequence: [0, 1, 2, 3, 4, 5]
+Split into 4 chunks: |[0,1]|[2,3]|[4,5]|[p,p]|  (padded to multiple of 4)
+
+Interleaved assignment:
+- Chunk 0 [0,1] → CP0
+- Chunk 1 [2,3] → CP1  
+- Chunk 2 [4,5] → CP1
+- Chunk 3 [p,p] → CP0
+
+Final assignment:
+- CP0: [0,1] + [p,p]
+- CP1: [2,3] + [4,5]
+```
+
+This carefully designed assignment balances the computational load between CP ranks, avoiding performance bottlenecks.
+
+Thus, **the factor of 2 is essential for CP load balancing**, ensuring roughly equal workloads across CP ranks under causal attention.
+
+#### 2.2.3 Complete Packing Example
+
+Assume a micro-batch contains the following samples (original max sequence length = 8):
+
+| Sample ID | Original Sequence         | Valid Length |
+|-----------|---------------------------|--------------|
+| 0         | `[0, 0, p, p, p, p, p, p]`| 2            |
+| 1         | `[1, 1, 1, 1, p, p, p, p]`| 4            |
+| 2         | `[2, 2, 2, 2, 2, 2, p, p]`| 6            |
+| 3         | `[3, p, p, p, p, p, p, p]`| 1            |
+
+Configuration: `CP_SIZE=2`, `TP_SIZE=1`
+
+**Step 1: Remove original padding**
+```
+Sample 0: [0, 0]
+Sample 1: [1, 1, 1, 1]  
+Sample 2: [2, 2, 2, 2, 2, 2]
+Sample 3: [3]
+```
+
+**Step 2: Re-pad to alignment boundary**
+- Alignment factor = 2 × CP_SIZE × TP_SIZE = 2 × 2 × 1 = 4
+
+Re-padded sequences:
+```
+Sample 0: [0, 0, p, p] → length 4
+Sample 1: [1, 1, 1, 1] → length 4  
+Sample 2: [2, 2, 2, 2, 2, 2, p, p] → length 8
+Sample 3: [3, p, p, p] → length 4
+```
+
+**Step 3: Detailed CP Chunking Process**
+
+With `CP_SIZE=2`, each sequence is logically split into **`2 × CP_SIZE = 4`** segments and assigned via interleaving:
+
+For any sequence of length L under `CP_SIZE=2`:
+- Split into 4 consecutive segments: seg0, seg1, seg2, seg3
+- Each segment has length L/4
+- Assignment rule:
+  - **CP0**: seg0 + seg3
+  - **CP1**: seg1 + seg2
+
+Applied to our example:
+
+- **Sample 0** `[0, 0, p, p]` (length 4):
+  - seg0: `[0]`, seg1: `[0]`, seg2: `[p]`, seg3: `[p]`
+  - CP0 gets: seg0 + seg3 = `[0] + [p]` → processes `[0, p]`
+  - CP1 gets: seg1 + seg2 = `[0] + [p]` → processes `[0, p]`
+
+- **Sample 1** `[1, 1, 1, 1]` (length 4):
+  - seg0: `[1]`, seg1: `[1]`, seg2: `[1]`, seg3: `[1]`
+  - CP0: `[1] + [1]` → `[1, 1]`
+  - CP1: `[1] + [1]` → `[1, 1]`
+
+- **Sample 2** `[2, 2, 2, 2, 2, 2, p, p]` (length 8):
+  - seg0: `[2, 2]`, seg1: `[2, 2]`, seg2: `[2, 2]`, seg3: `[p, p]`
+  - CP0: `[2, 2] + [p, p]` → `[2, 2, p, p]`
+  - CP1: `[2, 2] + [2, 2]` → `[2, 2, 2, 2]`
+
+- **Sample 3** `[3, p, p, p]` (length 4):
+  - seg0: `[3]`, seg1: `[p]`, seg2: `[p]`, seg3: `[p]`
+  - CP0: `[3] + [p]` → `[3, p]`
+  - CP1: `[p] + [p]` → `[p, p]`
+
+**Step 4: Final Packed Input per CP Rank**
+
+- **CP0’s full input**: `[0, p, 1, 1, 2, 2, p, p, 3, p]`
+- **CP1’s full input**: `[0, p, 1, 1, 2, 2, 2, 2, p, p]`
+
+**Step 5: Cumulative Sequence Lengths**
+
+Padded cumulative lengths: `[0, 4, 8, 16, 20]`
+
+### 2.3 Loss Computation Workflow
+
+Under Sequence Packing, loss calculation requires special handling:
+
+1. **Unpack Model Outputs**: Use `_unpack_sequences` to restore individual sequences from the packed output.
+   - Compute start/end positions of each sequence on the current CP rank using `cu_seqlens_padded`.
+   - `seq_starts = cu_seqlens_padded[:-1] // cp_size`
+   - `seq_ends = cu_seqlens_padded[1:] // cp_size`
+
+2. **Per-Sequence Loss Calculation**:
+   - Apply the loss function to each unpacked sequence individually.
+   - Adjust original data to match the actual sequence length using `adjust_sequence_length`.
+   - Accumulate losses from all sequences.
+
+3. **Result Aggregation**:
+   - Sum all per-sequence losses to obtain the total loss.
+   - Aggregate metrics across sequences.
+   - Apply loss scaling if enabled.
+
+This per-sequence approach ensures correct loss computation even under complex combinations of CP, TP, and packing.
+
+### 2.4 Load Balancing Optimization
+
+To maximize the effectiveness of Sequence Packing, ROLL applies the **Karmarkar-Karp algorithm** at multiple levels for load balancing.
+
+**Karmarkar-Karp Algorithm Overview**:
+A classical multi-way partitioning algorithm that divides a set of numbers into *k* subsets with sums as balanced as possible. In Sequence Packing, it ensures computational loads across processing units remain balanced, preventing bottlenecks.
+
+Key optimizations include:
+- **GLOBAL BATCH → DP RANK Load Balancing**: Ensures each DP rank receives a similar total number of tokens.
+- **MINI BATCH → MICRO BATCH Load Balancing**: Balances computational load across micro-batches.
+
+Implementation details and responsibility allocation are described in Section 3.2.
+
+## 3. Implementation Workflow
+
+### 3.1 Core Packing and Unpacking Logic
+
+Packing logic resides primarily in the strategy layer. When `use_sequence_packing` is enabled, the strategy automatically packs micro-batches and unpacks logits for loss computation.
+
+**Core packing function `_pack_sequences` performs**:
+1. Removes original padding and extracts valid tokens.
+2. Computes cumulative sequence lengths (both original and padded).
+3. Re-pads sequences to a multiple of `2 * cp_size * tp_size`.
+4. Handles CP chunking and assignment.
+5. Concatenates sequences and creates `PackedSeqParams`.
+
+**Loss computation** is handled by `loss_wrapper`, which unpacks outputs and computes per-sequence losses.
+
+### 3.2 Load Balancing Responsibility Allocation
+
+Load balancing in ROLL follows a clear division of responsibilities:
+
+1. **GLOBAL BATCH → DP RANK Load Balancing**:
+   - **Responsible Module**: Pipeline layer (`batch_balance` function)
+   - **Objective**: Equalize total token count per DP rank
+   - **Method**: Apply Karmarkar-Karp algorithm before data distribution
+
+2. **MINI BATCH → MICRO BATCH Load Balancing**:
+   - **Responsible Module**: Strategy layer (`make_micro_batch_iter_for_sequence_packing`)
+   - **Objective**: Balance computational load across micro-batches
+   - **Method**: Apply Karmarkar-Karp during micro-batch generation
+
+3. **Preservation of Randomness**:
+   - The division from Batch → Mini Batch retains randomness (for shuffling) and thus does **not** apply load balancing.
+
+This layered optimization ensures balanced workloads from global to local levels, maximizing hardware utilization.
+
+## 4. Configuration Parameters
+
+### 4.1 How to Enable Sequence Packing
+
+To use Sequence Packing, simply set `use_sequence_packing: true` in your configuration file.
+
+### 4.2 Parameter Details (Plain Language)
+
+#### `algorithm` (Packing Algorithm)
+- **`none`**: Default simple packing—sequences are packed in their original order.
+- **`load_balance`**: Intelligent load-balanced packing—reorders data to balance computational load across micro-batches. **Recommended**.
+
+#### `max_packed_sequence_length_train` (Max Packed Length for Training)
+- Controls the maximum allowed length of a packed sequence during training.
+- E.g., setting to 8192 means no packed sequence will exceed 8192 tokens.
+- Choose a reasonable value to avoid out-of-memory errors while maintaining packing efficiency.
+
+#### `max_packed_sequence_length_forward` (Max Packed Length for Inference)
+- Same as above, but applied during inference.
+- Typically set to the same value as the training parameter.
+
+#### `min_num_micro_batches_train` (Minimum Micro-Batches for Training)
+- Specifies the minimum number of micro-batches per mini-batch during training.
+- Setting to 1 means no constraint—the system auto-determines optimal splitting.
+- Increase this value if facing GPU memory issues to reduce micro-batch size.
+
+#### `min_num_micro_batches_forward` (Minimum Micro-Batches for Inference)
+- Same as above, but for inference.
+
+### 4.3 Full Configuration Example
+
+```yaml
+actor_train:
+  # Enable sequence packing
+  use_sequence_packing: True
+  
+  # Sequence packing configuration
+  sequence_packing_args:
+    # Use load-balancing algorithm for better performance
+    algorithm: load_balance
+    
+    # Max packed sequence length during training
+    max_packed_sequence_length_train: 8192
+    
+    # Max packed sequence length during inference
+    max_packed_sequence_length_forward: 8192
+    
+    # Minimum 1 micro-batch during training (no constraint)
+    min_num_micro_batches_train: 1
+    
+    # Minimum 1 micro-batch during inference
+    min_num_micro_batches_forward: 1
+  
+  # Sequence packing requires megatron strategy
+  strategy_args:
+    strategy_name: megatron_train
+```
+
+### 4.4 Usage Recommendations
+
+1. **Mandatory Condition**: Only supported under `megatron_train` or `megatron_infer` strategies.
+2. **Recommended Setting**: Use `algorithm: load_balance` for optimal performance.
+3. **Length Tuning**: Set `max_packed_sequence_length` based on your GPU memory capacity—typically equal to the model’s maximum supported sequence length.
+4. **Custom Loss Functions**: If using a custom loss function with sequence packing, refer to the custom loss documentation and ensure `apply_loss_scale` is correctly configured.
+
+With proper configuration, Sequence Packing significantly boosts training efficiency—especially in RL scenarios with highly variable sequence lengths—while maintaining model performance.
\ No newline at end of file
diff --git a/docs_roll/docs/User Guides/Configuration/fsdp2.md b/docs_roll/docs/User Guides/Configuration/fsdp2.md
new file mode 100644
index 000000000..128579dcb
--- /dev/null
+++ b/docs_roll/docs/User Guides/Configuration/fsdp2.md	
@@ -0,0 +1,246 @@
+# FSDP2 Training and Inference Backend Configuration Guide
+
+[FSDP2 (Fully Sharded Data Parallel 2](https://docs.pytorch.org/tutorials/intermediate/FSDP_tutorial.html) is PyTorch's latest distributed training framework that provides efficient parameter sharding with [DTensor](https://docs.pytorch.org/docs/stable/distributed.tensor.html). This document will provide detailed instructions on how to configure and use the FSDP2 backend in the ROLL framework.
+
+## FSDP2 with ROLL
+
+ROLL support the following FSDP2 features:
+1. **FSDP2 Sharding**: Shards model parameters, gradients, and optimizer with FSDP2 [fully_shard](https://docs.pytorch.org/docs/main/distributed.fsdp.fully_shard.html). Also support checkpoint management with [DCP](https://docs.pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html).
+2. **Context Parallelism**: Supports integration with Context Parallel (Ulysses)
+3. **Model Support**: Supports text models, Vision-Language (VL) models, and MoE (Mixture of Experts) models.
+
+## Configuring FSDP2 Strategy
+
+In the ROLL framework, FSDP2 training and inference strategies can be configured by setting `strategy_args` in the YAML configuration file.
+
+### Training Configuration Example
+
+The following is a typical FSDP2 training configuration example (from `examples_lixing/qwen3-8B-rlvr_fsdp2/rlvr_config.yaml`):
+
+```yaml
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 32
+    warmup_steps: 20
+    num_train_epochs: 50
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      fsdp_size: 16
+      param_dtype: bf16
+      reduce_dtype: float32
+      reshard_after_forward: true
+      offload_policy: false
+  device_mapping: list(range(0,16))
+  infer_batch_size: 4
+```
+
+### Inference Configuration Example
+
+The following is a typical FSDP2 inference configuration example:
+
+```yaml
+reference:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  strategy_args:
+    strategy_name: fsdp2_infer
+    strategy_config:
+      fsdp_size: 4
+      param_dtype: bf16
+      reduce_dtype: float32
+      reshard_after_forward: true
+      offload_policy: false
+  device_mapping: list(range(0,8))
+  infer_batch_size: 1
+```
+
+### FSDP2 + Context Parallel Configuration Example
+
+The following is a configuration example combining FSDP2 with Context Parallel (Ulysses) (from `examples_lixing/qwen3-4b-vl_fsdp2_lct/vl_fsdp2_lct_cp2.yaml`):
+
+```yaml
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    ulysses_size: 2  # Context parallel size
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 1.0e-2
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 256
+    warmup_steps: 0
+    num_train_epochs: 50
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      fsdp_size: 4  # FSDP sharding size
+      param_dtype: bf16
+      reduce_dtype: float32
+      reshard_after_forward: true
+      offload_policy: false
+  device_mapping: list(range(0,8))
+  infer_batch_size: 1
+```
+
+In this example:
+- Total GPUs: 8
+- Context Parallel (Ulysses) size: 2
+- FSDP size: 4
+- Device mesh shape: (2, 4) [ddp, fsdp]
+- 2 replicas, each with 4-way parameter sharding
+
+### Configuration Parameter Details
+
+1. **strategy_name**:
+   - `fsdp2_train` for training
+   - `fsdp2_infer` for inference
+
+2. **strategy_config**: FSDP2-specific configuration parameters
+   - `fsdp_size`: Number of FSDP shards
+     - If `fsdp_size >= world_size` or `fsdp_size <= 1`: pure FSDP2 mode
+     - If `fsdp_size < world_size`: HSDP mode with DDP replicas
+   - `param_dtype`: Parameter data type (e.g., `bf16`, `fp16`, `float32`)
+   - `reduce_dtype`: Data type for gradient reduction (e.g., `float32`)
+   - `reshard_after_forward`: Whether to reshard parameters after forward pass
+     - `true`: Reshard after forward
+     - `false`: Keep parameters gathered
+   - `offload_policy`: Whether to enable CPU offloading
+     - `true`: Offload parameters to CPU when not in use (saves GPU memory)
+     - `false`: Keep all parameters on GPU (faster but uses more memory)
+   - `wrap_policy`: Module wrapping policy
+     - `transformer_layer_cls_to_wrap`: List of transformer layer class names to wrap (e.g., `["Qwen3DecoderLayer"]`)
+     - `wrap_embeddings`: Whether to wrap embedding layers (default: `false`)
+     - `wrap_lm_output`: Whether to wrap LM head (default: `false`)
+     - `moe_experts`: List of MoE expert block class names to wrap (for MoE models, we may want to wrap each experts seperately to avoid OOM during param. gather, but need dummy expert forward to avoid hang, see [example](../../../../roll/third_party/fsdp2/qwen3_moe_patch.py))
+  
+      if not sef the `wrap_policy`, by default will use the _no_splite_modules for transofmers models.
+   - `apply_expert_patch`: Whether to apply MoE expert patch (for MoE models)
+     - `true`: Apply patch to prevent deadlocks when different ranks activate different experts
+     - `false`: Don't apply patch (may cause deadlocks in MoE models)
+   - `apply_tiled_mlp`: Whether to apply TiledMLP optimization
+     - `true`: Use tiled MLP computation to reduce memory usage
+     - `false`: Use standard MLP computation
+   - `tiled_num_shards`: Number of shards for TiledMLP (default: 4)
+   - `async_save_ckpt`: Whether to save checkpoints asynchronously (default: `true`)
+
+3. **ulysses_size**: Context parallel size (set in `model_args`)
+   - Splits sequence dimension across multiple GPUs
+   - Compatible with FSDP2 for hybrid parallelism
+   - Useful for long-context training
+
+4. **device_mapping**: Specify the list of GPU device IDs to use
+
+5. **infer_batch_size**: Batch size during inference
+
+## Device Mesh Configuration
+
+FSDP2 supports different device mesh configurations based on `fsdp_size` and `ulysses_size`:
+
+### Pure FSDP2 Mode
+
+When `fsdp_size >= world_size` or `fsdp_size <= 1`:
+
+```yaml
+# Example: 16 GPUs, fsdp_size=16
+strategy_config:
+  fsdp_size: 16
+# Device mesh: (16,) [fsdp]
+# All 16 GPUs shard parameters
+```
+
+### HSDP Mode
+
+When `fsdp_size < world_size`:
+
+```yaml
+# Example: 16 GPUs, fsdp_size=8
+strategy_config:
+  fsdp_size: 8
+# ddp_size = 16 // 8 = 2
+# Device mesh: (2, 8) [ddp, fsdp]
+# 2 replicas, each with 8-way parameter sharding
+```
+
+### FSDP2 + Context Parallel (Ulysses)
+
+When both `ulysses_size` and `fsdp_size` are configured:
+
+```yaml
+# Example: 8 GPUs, ulysses_size=2, fsdp_size=4
+model_args:
+  ulysses_size: 2
+strategy_config:
+  fsdp_size: 4
+# ddp_size = 8 // 4 = 2
+# Device mesh: (2, 4) [ddp, fsdp]
+# 2 replicas, each with 4-way parameter sharding
+# Ulysses: 2-way context parallel (sequence dimension split)
+```
+
+## Model-Specific Configurations
+
+### Text Models (Qwen2.5, Qwen3, LLaMA)
+
+```yaml
+strategy_config:
+  fsdp_size: 16
+  param_dtype: bf16
+  reduce_dtype: float32
+  wrap_policy:
+    transformer_layer_cls_to_wrap: ["Qwen3DecoderLayer"]
+```
+
+### Vision-Language Models (Qwen2.5-VL, Qwen3-VL)
+
+VL models require special handling for the vision tower:
+
+```yaml
+actor_train:
+  model_args:
+    freeze_module_prefix: vision_model  # Freeze vision tower
+    ulysses_size: 2  # Optional: context parallel
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      fsdp_size: 4
+      param_dtype: bf16
+      reduce_dtype: float32
+      # Vision tower blocks automatically have cast_forward_inputs disabled
+```
+
+### MoE Models (Qwen3-MoE)
+
+MoE models require the expert patch to prevent deadlocks:
+
+```yaml
+strategy_config:
+  fsdp_size: 16
+  param_dtype: bf16
+  reduce_dtype: float32
+  apply_expert_patch: true  # Critical for MoE models if wrap each expert separately
+  wrap_policy:
+    moe_experts: ["Qwen3MoeMLP"]
+```
+
+
+## Notes
+
+1. **PyTorch Version**: FSDP2 requires PyTorch >= 2.4
+2. **MoE Models**: Always enable `apply_expert_patch: true` for MoE models to prevent deadlocks if wrap experts seperately
+3. **VL Models**: Vision tower blocks automatically handle precision issues
+4. **Memory vs Performance**:
+   - `offload_policy: true` saves memory but is slower
+   - `reshard_after_forward: true` saves memory but may be slower
+   - Balance based on your hardware and requirements
\ No newline at end of file
diff --git a/docs_roll/docs/User Guides/Configuration/vllm.md b/docs_roll/docs/User Guides/Configuration/vllm.md
index 7d824ccff..a70773820 100644
--- a/docs_roll/docs/User Guides/Configuration/vllm.md	
+++ b/docs_roll/docs/User Guides/Configuration/vllm.md	
@@ -74,20 +74,6 @@ In the configuration example, we can see:
 
 This design allows different components to choose the most suitable inference engine according to their needs.
 
-### beam_search Configuration
-RLVRPipeline supports vllm beam_search generation method, configured as follows:
-```yaml
-generate_opt_level: 0 # Degrades to batch_generate generation method, generate_opt_level=1 is prompt-level parallel method
-num_return_sequences_in_group: 8 
-actor_infer:
-  generating_args:
-    num_beams: ${num_return_sequences_in_group}
-    num_return_sequences: ${num_return_sequences_in_group}
-```
-Note:
-- generating_args.num_beams and generating_args.num_return_sequences must be set to the same value.
-- The generating_args configuration in validate is also configured in the same way.
-
 ## Performance Optimization Recommendations
 
 1. **Memory Management**:
diff --git a/docs_roll/docs/User Guides/Hardware Support/ascend_docker_usage.md b/docs_roll/docs/User Guides/Hardware Support/ascend_docker_usage.md
new file mode 100644
index 000000000..259a77d66
--- /dev/null
+++ b/docs_roll/docs/User Guides/Hardware Support/ascend_docker_usage.md	
@@ -0,0 +1,201 @@
+# Running ROLL on Ascend NPU with Docker
+
+Last updated: 04/27/2026.
+
+This guide explains how to build and run ROLL on **Huawei Ascend NPU** using `Dockerfile.A2` and `Dockerfile.A3`.
+
+## Hardware & Software Requirements
+
+| Item | Dockerfile.A2 | Dockerfile.A3 |
+| ---- | ------------- | ------------- |
+| Hardware | Atlas 900 A2 PODc (Ascend 910B1) | Atlas 900 A3 PODc (Ascend 910_9391) |
+| Host OS | Ubuntu 22.04 | Ubuntu 22.04 |
+| CANN | 8.5.1 | 8.5.1 |
+| Python | 3.11 | 3.11 |
+| Docker | >= 20.10 | >= 20.10 |
+| Ascend NPU Driver | Installed on host | Installed on host |
+
+## Key Components
+
+Both Dockerfiles install the same versions of core dependencies:
+
+| Component | Version |
+| --------- | ------- |
+| PyTorch | 2.8.0+cpu |
+| vLLM | 0.13.0 |
+| vLLM-Ascend | 0.13.0 |
+| DeepSpeed | 0.16.4 |
+| Transformers | 4.57.6 |
+| triton-ascend | 3.2.0 |
+
+The primary difference is the base image and SOC version:
+
+| Item | Dockerfile.A2 | Dockerfile.A3 |
+| ---- | ------------- | ------------- |
+| Base Image | `quay.io/ascend/cann:8.5.1-910b-ubuntu22.04-py3.11` | `quay.io/ascend/cann:8.5.1-a3-ubuntu22.04-py3.11` |
+| SOC_VERSION | `ascend910b1` | `ascend910_9391` |
+
+## Build the Docker Image
+
+### 1. Clone the ROLL Repository
+
+```bash
+git clone https://github.com/alibaba/ROLL.git
+cd ROLL
+```
+
+### 2. Build the Image
+
+Choose the Dockerfile that matches your hardware:
+
+**For Atlas 900 A2 PODc (Ascend 910B1):**
+
+```bash
+docker build -f docker/Dockerfile.A2 -t roll:ascend-a2 .
+```
+
+**For Atlas 900 A3 PODc (Ascend 910_9391):**
+
+```bash
+docker build -f docker/Dockerfile.A3 -t roll:ascend-a3 .
+```
+
+> **Note:** The build process compiles vLLM and vLLM-Ascend from source, which may take a considerable amount of time. Please ensure sufficient disk space (at least 50GB) and network access.
+
+You can also customize the SOC version at build time:
+
+```bash
+# A2 with custom SOC version
+docker build -f docker/Dockerfile.A2 --build-arg SOC_VERSION=ascend910b1 -t roll:ascend-a2 .
+
+# A3 with custom SOC version
+docker build -f docker/Dockerfile.A3 --build-arg SOC_VERSION=ascend910_9391 -t roll:ascend-a3 .
+```
+
+## Run the Container
+
+### Basic Startup
+
+**For A2:**
+
+```bash
+docker run -dit \
+    --name roll_a2 \
+    --device /dev/davinci0 \
+    --device /dev/davinci1 \
+    --device /dev/davinci2 \
+    --device /dev/davinci3 \
+    --device /dev/davinci4 \
+    --device /dev/davinci5 \
+    --device /dev/davinci6 \
+    --device /dev/davinci_manager \
+    --device /dev/devmm_svm \
+    --device /dev/hisi_hdc \
+    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
+    -v /usr/local/Ascend/add-ons:/usr/local/Ascend/add-ons \
+    -v /usr/local/dcmi:/usr/local/dcmi \
+    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
+    -v /etc/ascend_install.info:/etc/ascend_install.info \
+    -v /home/$USER:/home/$USER \
+    --ipc=host \
+    --net=host \
+    roll:ascend-a2 \
+    /bin/bash
+```
+
+**For A3:**
+
+```bash
+docker run -dit \
+    --name roll_a3 \
+    --device /dev/davinci0 \
+    --device /dev/davinci1 \
+    --device /dev/davinci2 \
+    --device /dev/davinci3 \
+    --device /dev/davinci4 \
+    --device /dev/davinci5 \
+    --device /dev/davinci6 \
+    --device /dev/davinci_manager \
+    --device /dev/devmm_svm \
+    --device /dev/hisi_hdc \
+    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
+    -v /usr/local/Ascend/add-ons:/usr/local/Ascend/add-ons \
+    -v /usr/local/dcmi:/usr/local/dcmi \
+    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
+    -v /etc/ascend_install.info:/etc/ascend_install.info \
+    -v /home/$USER:/home/$USER \
+    --ipc=host \
+    --net=host \
+    roll:ascend-a3 \
+    /bin/bash
+```
+
+### Enter the Container
+
+```bash
+# For A2
+docker exec -it roll_a2 /bin/bash
+
+# For A3
+docker exec -it roll_a3 /bin/bash
+```
+
+## Verify the Environment
+
+After entering the container, verify that the Ascend environment is properly configured:
+
+```bash
+# Verify NPU visibility
+npu-smi info
+
+# Verify CANN environment is loaded
+env | grep -E "ASCEND|LD_LIBRARY_PATH|PATH"
+
+# Verify Python packages
+python -c "import torch; import torch_npu; print(torch_npu.npu.is_available())"
+python -c "import vllm; print(f'vllm: {vllm.__version__}')"
+python -c "import vllm_ascend; print(f'vllm_ascend available')"
+```
+
+## Run ROLL Pipelines
+
+### Important Configuration Notes
+
+Since Megatron-LM training is not yet supported on Ascend NPU, you need to use **DeepSpeed** as the training backend. Make sure your configuration files use the following settings:
+
+1. Set `strategy_args` to use DeepSpeed
+2. Set `device_mapping` to ensure training and inference are performed on different NPUs
+
+### Example: RLVR Pipeline
+
+```bash
+# After modifying model paths and adjusting device_mapping
+python examples/start_rlvr_pipeline.py \
+    --config_path ascend_examples \
+    --config_name qwen3_8b_rlvr_deepspeed
+```
+
+## Troubleshooting
+
+### NPU Not Visible Inside Container
+
+Ensure all required devices and driver paths are mounted correctly. Check with `npu-smi info` inside the container.
+
+### vLLM-Ascend Import Error
+
+Verify that the CANN environment is properly sourced:
+
+```bash
+source /usr/local/Ascend/ascend-toolkit/set_env.sh
+source /usr/local/Ascend/nnal/atb/set_env.sh
+```
+
+These commands are automatically added to `/root/.bashrc` during the image build. If you switch to a non-root user, you may need to source them manually.
+
+### Out of Memory
+
+Reduce `rollout_batch_size` or `num_return_sequences_in_group` in your configuration file to lower NPU memory usage.
+
+## Disclaimer
+
+The Ascend support provided in ROLL is intended as a reference example. For production use, please consult official channels.
diff --git a/docs_roll/docs/User Guides/Hardware Support/ascend_npu_env_config.md b/docs_roll/docs/User Guides/Hardware Support/ascend_npu_env_config.md
new file mode 100644
index 000000000..219b3b654
--- /dev/null
+++ b/docs_roll/docs/User Guides/Hardware Support/ascend_npu_env_config.md	
@@ -0,0 +1,307 @@
+# Ascend NPU Environment Configuration Guide
+
+Last updated: 04/27/2026.
+
+This document describes the key environment variables for running ROLL on Huawei Ascend NPU, covering device management, HCCL communication, memory optimization, CPU scheduling, vLLM-Ascend inference, and debugging.
+
+## Environment Variables Set by ROLL
+
+ROLL automatically injects the following environment variables at runtime (defined in `roll/platforms/npu.py`):
+
+| Variable | Value | Description |
+| -------- | ----- | ----------- |
+| `ASCEND_RT_VISIBLE_DEVICES` | e.g. `"0,1,2,3"` | Controls NPU device visibility, analogous to `CUDA_VISIBLE_DEVICES` for GPU |
+| `RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES` | `"1"` | Prevents Ray from overriding `ASCEND_RT_VISIBLE_DEVICES` |
+| `VLLM_ALLOW_INSECURE_SERIALIZATION` | `"1"` | Allows vLLM to use insecure serialization for cross-process tensor transfer via Ray |
+| `RAY_get_check_signal_interval_milliseconds` | `"1"` | Reduces Ray plasma lock hold time to avoid lock starvation under multi-worker load |
+| `RAY_CGRAPH_get_timeout` | `"600"` | Ray compute graph fetch timeout in seconds |
+
+## Docker Image Environment Variables
+
+The pre-built Ascend images described in [Ascend NPU Docker Usage Guide](ascend_docker_usage.md) include the following environment settings:
+
+| Variable | Value | Description |
+| -------- | ----- | ----------- |
+| `ASCEND_HOME_PATH` | `/usr/local/Ascend/ascend-toolkit/latest` | CANN toolkit root path |
+| `LD_LIBRARY_PATH` | Includes multiple Ascend `lib64` paths | Dynamic library search path, ensures `libascendcl.so` etc. can be loaded |
+
+The following CANN environment scripts are automatically sourced via `/root/.bashrc` in the pre-built images:
+
+```bash
+source /usr/local/Ascend/ascend-toolkit/set_env.sh
+source /usr/local/Ascend/nnal/atb/set_env.sh
+```
+
+## Ray Cluster Environment Variables (Multi-Node)
+
+These variables control how ROLL forms a Ray cluster across multiple NPU nodes. They are defined in `roll/distributed/scheduler/driver_utils.py` and consumed by `roll/distributed/scheduler/initialize.py`:
+
+| Variable | Default | Description |
+| -------- | ------- | ----------- |
+| `RANK` | `0` | Node rank. `0` = head node, `1, 2, 3...` = worker nodes |
+| `WORLD_SIZE` | `1` | Total number of nodes in the cluster |
+| `MASTER_ADDR` | `127.0.0.1` | IP address of the head node |
+| `MASTER_PORT` | `6379` | Ray head node port (also default Ray port) |
+| `DASHBOARD_PORT` | `8265` | Ray dashboard web UI port |
+| `WORKER_ID` | `<MASTER_ADDR>:<RANK>` | Node name used in Ray cluster, auto-derived if not set |
+
+When `RANK=0`, ROLL automatically runs `ray start --head --port=<MASTER_PORT>`. When `RANK>0`, ROLL sleeps 5 seconds then runs `ray start --address=<MASTER_ADDR>:<MASTER_PORT>` to join the cluster. After all nodes join, worker nodes exit (`sys.exit(0)`), leaving only the head node to execute the training pipeline.
+
+Example (head node, set before launching the pipeline):
+
+```bash
+export RANK=0
+export WORLD_SIZE=2
+export MASTER_ADDR=10.0.0.1
+export MASTER_PORT=6379
+export DASHBOARD_PORT=8265
+```
+
+Example (worker node, set before joining):
+
+```bash
+export RANK=1
+export WORLD_SIZE=2
+export MASTER_ADDR=10.0.0.1
+export MASTER_PORT=6379
+```
+
+You can also pre-start Ray manually (`ray start --head` / `ray start --address=...`) before running ROLL. ROLL will detect the existing cluster and skip auto-start.
+
+## HCCL Communication Variables
+
+These variables control the behavior of HCCL (Huawei Collective Communication Library), the distributed communication backend for NPU (equivalent to NCCL on GPU):
+
+| Variable | Recommended Value | Description |
+| -------- | ----------------- | ----------- |
+| `HCCL_CONNECT_TIMEOUT` | `3600` | Link establishment timeout in seconds (default 120s). Increase for large model training |
+| `HCCL_EXEC_TIMEOUT` | `3600` | Collective operation execution timeout in seconds. Increase for long-running training steps |
+| `HCCL_DETERMINISTIC` | `false` | Disable deterministic computation. Enabling it significantly reduces communication performance |
+| `HCCL_OP_EXPANSION_MODE` | `"AIV"` | Communication algorithm dispatch location. `AIV` uses Vector Core, outperforms `AI_CPU`/`HOST`/`HOST_TS` |
+| `HCCL_BUFFSIZE` | e.g. `"2147483648"` | HCCL communication buffer size in bytes. Increase for large data volume scenarios |
+| `HCCL_IF_IP` | Node's IP address | Specify the IP address used by HCCL for inter-node communication. Required for multi-node training |
+| `HCCL_SOCKET_IFNAME` | e.g. `"enp194s0f0"` | Network interface name for HCCL socket communication. Must be consistent across all nodes |
+| `HCCL_IF_BASE_PORT` | e.g. `23456` | Base port for HCCL inter-node communication. Ensure ports are not blocked by firewall |
+| `HCCL_WHITELIST_DISABLE` | `1` | Disable HCCL whitelist check. May be needed when encountering communication errors in certain environments |
+
+Example (single-node):
+
+```bash
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+```
+
+Example (multi-node):
+
+```bash
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_EXEC_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+export HCCL_IF_IP=$(hostname -I | awk '{print $1}')
+export HCCL_SOCKET_IFNAME="enp194s0f0"
+export HCCL_IF_BASE_PORT=23456
+```
+
+## NPU Memory Variables
+
+| Variable | Recommended Value | Description |
+| -------- | ----------------- | ----------- |
+| `NPU_MEMORY_FRACTION` | `0.96` | Fraction of NPU memory available for use (default 0.8). Increase to 0.95+ for large model inference |
+| `PYTORCH_NPU_ALLOC_CONF` | `expandable_segments:True` | Enable PyTorch NPU memory pool expandable segments, reducing memory fragmentation and OOM risk |
+| `MULTI_STREAM_MEMORY_REUSE` | `1` | Enable multi-stream memory reuse to reduce memory footprint |
+| `TASK_QUEUE_ENABLE` | `2` | Task dispatch optimization. Set to `2` for non-graph mode, `1` for graph mode |
+| `COMBINED_ENABLE` | `1` | Enable operator combination optimization. Fuses multiple small operators into larger ones to reduce kernel launch overhead |
+
+Example:
+
+```bash
+export NPU_MEMORY_FRACTION=0.96
+export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
+export MULTI_STREAM_MEMORY_REUSE=1
+export TASK_QUEUE_ENABLE=2
+export COMBINED_ENABLE=1
+```
+
+## CPU Scheduling Variables
+
+| Variable | Recommended Value | Description |
+| -------- | ----------------- | ----------- |
+| `CPU_AFFINITY_CONF` | `2` | CPU core affinity optimization to avoid cross-NUMA memory access. `1`=coarse-grained, `2`=fine-grained (recommended) |
+| `OMP_NUM_THREADS` | `1` | OpenMP thread count. Set to 1 in distributed training to avoid over-subscription |
+
+Example:
+
+```bash
+export CPU_AFFINITY_CONF=2
+export OMP_NUM_THREADS=1
+```
+
+Custom per-NPU affinity is also supported:
+
+```bash
+export CPU_AFFINITY_CONF=1,npu0:0-1,npu1:2-3,npu2:4-5,npu3:6-7
+```
+
+## vLLM-Ascend Inference Variables
+
+| Variable | Recommended Value | Description |
+| -------- | ----------------- | ----------- |
+| `VLLM_USE_V1` | `1` | Enable vLLM V1 architecture. Required for vLLM-Ascend |
+| `VLLM_ATTENTION_BACKEND` | `XFORMERS` | vLLM attention computation backend |
+| `VLLM_ASCEND_ENABLE_FLASHCOMM` | `1` | Enable Ascend FlashComm high-speed communication optimization |
+| `VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE` | `1` | Enable dense computation optimization for large model inference |
+| `VLLM_ASCEND_ENABLE_PREFETCH_MLP` | `1` | Enable MLP layer weight prefetching |
+| `VLLM_ASCEND_ENABLE_TOPK_OPTIMIZE` | `1` | Enable TopK operator fusion optimization for generation decoding |
+| `VLLM_ASCEND_MODEL_EXECUTE_TIME_OBSERVE` | `1` | Print prefill/decode phase timing details (for debugging) |
+| `VLLM_ASCEND_TRACE_RECOMPILES` | `1` | Trace operator recompilation for debugging performance issues |
+| `VLLM_ENABLE_MC2` | `1` | Enable MC2 communication optimization for multi-node inference |
+
+Example:
+
+```bash
+export VLLM_USE_V1=1
+export VLLM_ATTENTION_BACKEND=XFORMERS
+export VLLM_ASCEND_ENABLE_FLASHCOMM=1
+export VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1
+export VLLM_ASCEND_ENABLE_PREFETCH_MLP=1
+```
+
+## CANN Logging & Debugging Variables
+
+| Variable | Recommended Value | Description |
+| -------- | ----------------- | ----------- |
+| `ASCEND_GLOBAL_LOG_LEVEL` | `3` (ERROR) | CANN log level: 0=DEBUG, 1=INFO, 2=WARNING, 3=ERROR |
+| `ASCEND_SLOG_PRINT_TO_STDOUT` | `1` | Print CANN logs to stdout (for debugging) |
+| `ASDOPS_LOG_LEVEL` | `ERROR` | Operator library log level |
+| `ATB_LOG_LEVEL` | `ERROR` | ATB acceleration library log level |
+| `ASCEND_LAUNCH_BLOCKING` | `1` | Enable synchronous execution for error localization. Set to `1` only when debugging NPU errors, as it disables async execution and severely degrades performance |
+
+:::caution
+Leaving debug/info log levels enabled in production will significantly degrade performance. Always set log levels to ERROR for production workloads.
+:::
+
+Example (debugging):
+
+```bash
+export ASCEND_GLOBAL_LOG_LEVEL=0
+export ASCEND_SLOG_PRINT_TO_STDOUT=1
+export ASCEND_LAUNCH_BLOCKING=1
+```
+
+Example (production):
+
+```bash
+export ASCEND_GLOBAL_LOG_LEVEL=3
+export ASDOPS_LOG_LEVEL=ERROR
+export ATB_LOG_LEVEL=ERROR
+```
+
+## CANN Operator Compilation & Precision Variables
+
+| Variable | Recommended Value | Description |
+| -------- | ----------------- | ----------- |
+| `ACL_OP_COMPILER_CACHE_MODE` | `enable` | Enable operator compilation cache to avoid recompilation on repeated runs |
+| `ACL_OP_COMPILER_CACHE_DIR` | e.g. `/tmp/npu_cache` | Directory to store operator compilation cache |
+| `ASCEND_MAX_OP_CACHE_SIZE` | e.g. `5000` | Maximum operator cache size. Increase to prevent performance degradation from cache eviction during long training |
+| `ACL_PRECISION_MODE` | `allow_fp32_to_fp16` | Allow automatic FP32-to-FP16 precision conversion for unsupported FP32 operators |
+
+Example:
+
+```bash
+export ACL_OP_COMPILER_CACHE_MODE=enable
+export ACL_OP_COMPILER_CACHE_DIR=/tmp/npu_cache
+export ASCEND_MAX_OP_CACHE_SIZE=5000
+export ACL_PRECISION_MODE=allow_fp32_to_fp16
+```
+
+## Recommended Production Configuration
+
+### Single-Node
+
+For single-node multi-NPU distributed RL training, add the following to your startup script or ROLL YAML config:
+
+```bash
+# HCCL communication
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_EXEC_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+
+# NPU memory
+export NPU_MEMORY_FRACTION=0.96
+export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
+export MULTI_STREAM_MEMORY_REUSE=1
+export TASK_QUEUE_ENABLE=2
+export COMBINED_ENABLE=1
+
+# CPU scheduling
+export CPU_AFFINITY_CONF=2
+export OMP_NUM_THREADS=1
+
+# vLLM-Ascend inference
+export VLLM_USE_V1=1
+export VLLM_ASCEND_ENABLE_FLASHCOMM=1
+export VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1
+export VLLM_ASCEND_ENABLE_PREFETCH_MLP=1
+
+# Operator compilation cache
+export ACL_OP_COMPILER_CACHE_MODE=enable
+export ACL_OP_COMPILER_CACHE_DIR=/tmp/npu_cache
+export ASCEND_MAX_OP_CACHE_SIZE=5000
+
+# Logging (production)
+export ASCEND_GLOBAL_LOG_LEVEL=3
+export ASDOPS_LOG_LEVEL=ERROR
+export ATB_LOG_LEVEL=ERROR
+```
+
+### Multi-Node
+
+For multi-node training, add the Ray cluster variables on top of the single-node configuration:
+
+```bash
+# Ray cluster (multi-node)
+export RANK=0                        # 0=head, 1/2/3=worker
+export WORLD_SIZE=2                  # Total number of nodes
+export MASTER_ADDR=10.0.0.1          # Head node IP
+export MASTER_PORT=6379              # Ray communication port
+export DASHBOARD_PORT=8265           # Ray dashboard port
+
+# HCCL multi-node communication
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_EXEC_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+export HCCL_IF_IP=$(hostname -I | awk '{print $1}')
+export HCCL_SOCKET_IFNAME="enp194s0f0"
+export HCCL_IF_BASE_PORT=23456
+
+# ... (rest of NPU memory, CPU, vLLM, cache, logging variables as above)
+```
+
+Or configure via ROLL YAML:
+
+```yaml
+system_envs:
+  HCCL_CONNECT_TIMEOUT: "3600"
+  HCCL_EXEC_TIMEOUT: "3600"
+  HCCL_DETERMINISTIC: "false"
+  HCCL_OP_EXPANSION_MODE: "AIV"
+  HCCL_IF_IP: "10.0.0.1"
+  HCCL_SOCKET_IFNAME: "enp194s0f0"
+  HCCL_IF_BASE_PORT: "23456"
+  NPU_MEMORY_FRACTION: "0.96"
+  PYTORCH_NPU_ALLOC_CONF: "expandable_segments:True"
+  CPU_AFFINITY_CONF: "2"
+  OMP_NUM_THREADS: "1"
+  COMBINED_ENABLE: "1"
+  VLLM_USE_V1: "1"
+  ACL_OP_COMPILER_CACHE_MODE: "enable"
+  ACL_OP_COMPILER_CACHE_DIR: "/tmp/npu_cache"
+```
+
+## Disclaimer
+
+The Ascend support provided in ROLL is intended as a reference example. For production use, please consult official channels.
diff --git a/docs_roll/docs/User Guides/Hardware Support/ascend_npu_examples.md b/docs_roll/docs/User Guides/Hardware Support/ascend_npu_examples.md
new file mode 100644
index 000000000..d1f4ae005
--- /dev/null
+++ b/docs_roll/docs/User Guides/Hardware Support/ascend_npu_examples.md	
@@ -0,0 +1,850 @@
+# Ascend NPU End-to-End Configuration Examples
+
+Last updated: 04/27/2026.
+
+This document provides end-to-end configuration examples for running ROLL on Huawei Ascend NPU, including environment setup, resource allocation, and launch commands for both single-node and multi-node scenarios.
+
+## Prerequisites
+
+Before running these examples, ensure you have:
+
+1. Pulled the pre-built Ascend image that matches your hardware (see [Docker Usage Guide](ascend_docker_usage.md)).
+2. Verified the environment inside the container (see [Verify the Environment](ascend_docker_usage.md#verify-the-environment)).
+3. Downloaded the model weights to a directory accessible from inside the container.
+
+The repository currently includes runnable Ascend examples in `examples/ascend_examples`, including `qwen3_8b_rlvr_deepspeed.yaml`, `qwen3_4B_dpo_deepspeed.yaml`, `run_rlvr_pipeline.sh`, and `run_dpo_pipeline.sh`.
+
+## Key Differences from GPU
+
+When adapting GPU configurations for NPU, the following changes are **required**:
+
+| Item | GPU | NPU |
+| ---- | --- | --- |
+| Training backend | Megatron or DeepSpeed | DeepSpeed only (Megatron not supported) |
+| Device placement | Colocated mode supported | Colocated mode **not** supported; training and inference must use separate NPUs |
+| Attention implementation | `flash_attn` or `fa2` | `fa2` via `transformers` (not `flash_attn` package) |
+| Communication backend | NCCL | HCCL |
+| Device visibility | `CUDA_VISIBLE_DEVICES` | `ASCEND_RT_VISIBLE_DEVICES` |
+
+## Example 1: Single-Node Agentic Pipeline (Qwen2.5-0.5B)
+
+This example runs the FrozenLake agentic pipeline on a single 8-NPU node using DeepSpeed ZeRO-3.
+
+### Step 1: Start the Container
+
+```bash
+docker run -dit \
+    --name roll_npu_single \
+    --ulimit nofile=65536:65536 \
+    --device /dev/davinci0 \
+    --device /dev/davinci1 \
+    --device /dev/davinci2 \
+    --device /dev/davinci3 \
+    --device /dev/davinci4 \
+    --device /dev/davinci5 \
+    --device /dev/davinci6 \
+    --device /dev/davinci7 \
+    --device /dev/davinci_manager \
+    --device /dev/devmm_svm \
+    --device /dev/hisi_hdc \
+    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
+    -v /usr/local/Ascend/add-ons:/usr/local/Ascend/add-ons \
+    -v /usr/local/dcmi:/usr/local/dcmi \
+    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
+    -v /etc/ascend_install.info:/etc/ascend_install.info \
+    -v /path/to/models:/data/models \
+    -v /path/to/data:/data \
+    --ipc=host \
+    --net=host \
+    roll:ascend-a3 \
+    /bin/bash
+```
+
+### Step 2: Set Environment Variables
+
+```bash
+# HCCL communication
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+
+# NPU memory
+export NPU_MEMORY_FRACTION=0.96
+export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
+export MULTI_STREAM_MEMORY_REUSE=1
+export TASK_QUEUE_ENABLE=2
+export COMBINED_ENABLE=1
+
+# CPU scheduling
+export CPU_AFFINITY_CONF=2
+export OMP_NUM_THREADS=1
+
+# vLLM-Ascend inference
+export VLLM_USE_V1=1
+export VLLM_ASCEND_ENABLE_FLASHCOMM=1
+export VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1
+export VLLM_ASCEND_ENABLE_PREFETCH_MLP=1
+
+# Operator compilation cache
+export ACL_OP_COMPILER_CACHE_MODE=enable
+export ACL_OP_COMPILER_CACHE_DIR=/tmp/npu_cache
+export ASCEND_MAX_OP_CACHE_SIZE=5000
+
+# Logging (production)
+export ASCEND_GLOBAL_LOG_LEVEL=3
+export ASDOPS_LOG_LEVEL=ERROR
+export ATB_LOG_LEVEL=ERROR
+```
+
+### Step 3: Create NPU Configuration File
+
+Create a YAML config file (e.g., `agentic_frozen_lake_npu.yaml`) with the following NPU-specific settings. Key differences from the GPU config are marked with `# NPU` comments:
+
+```yaml
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "agentic_frozen_lake_npu"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+render_save_dir: ./output/render
+system_envs:
+  USE_MODELSCOPE: '1'
+  HCCL_CONNECT_TIMEOUT: "3600"
+  HCCL_DETERMINISTIC: "false"
+  HCCL_OP_EXPANSION_MODE: "AIV"
+  NPU_MEMORY_FRACTION: "0.96"
+  CPU_AFFINITY_CONF: "2"
+  OMP_NUM_THREADS: "1"
+  VLLM_USE_V1: "1"
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/models/${exp_name}
+
+num_gpus_per_node: 8
+
+max_steps: 1024
+save_steps: 10000
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 1024
+val_batch_size: 1024
+sequence_length: 8192
+
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "grpo"
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+pretrain: Qwen/Qwen2.5-0.5B-Instruct
+reward_pretrain: Qwen/Qwen2.5-0.5B-Instruct
+
+actor_train:
+  model_args:
+    attn_implementation: fa2          # Use fa2 via transformers, NOT flash_attn
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 64
+    warmup_steps: 10
+    lr_scheduler_type: cosine
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: deepspeed_train    # NPU: Must use DeepSpeed, NOT megatron_train
+    strategy_config: ${deepspeed_zero3}
+  device_mapping: list(range(0,4))    # NPU: Training on NPUs 0-3
+  infer_batch_size: 2
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 128
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+  device_mapping: list(range(4,8))    # NPU: Inference on NPUs 4-7 (separate from training)
+  infer_batch_size: 2
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(4,8))    # NPU: Share inference NPUs with actor_infer
+  infer_batch_size: 2
+
+reward_normalization:
+  grouping: traj_group_id
+  method: mean_std
+
+train_env_manager:
+  max_env_num_per_worker: 16
+  num_env_groups: 128
+  group_size: 8
+  tags: [FrozenLake]
+  num_groups_partition: [128]
+
+val_env_manager:
+  max_env_num_per_worker: 32
+  num_env_groups: 1024
+  group_size: 1
+  tags: [SimpleSokoban, LargerSokoban, SokobanDifferentGridVocab, FrozenLake]
+  num_groups_partition: [256, 256, 256, 256]
+
+max_tokens_per_step: 64
+
+custom_envs:
+  SimpleSokoban:
+    ${custom_env.SimpleSokoban}
+  LargerSokoban:
+    ${custom_env.LargerSokoban}
+  SokobanDifferentGridVocab:
+    ${custom_env.SokobanDifferentGridVocab}
+  FrozenLake:
+    ${custom_env.FrozenLake}
+  FrozenLakeThink:
+    ${custom_env.FrozenLakeThink}
+```
+
+### Step 4: Launch
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+python examples/start_agentic_pipeline.py \
+    --config_path <config_dir> \
+    --config_name agentic_frozen_lake_npu
+```
+
+## Example 2: Single-Node RLVR Pipeline (Qwen3-8B)
+
+This example runs the RLVR pipeline on Ascend NPU using the repository config `examples/ascend_examples/qwen3_8b_rlvr_deepspeed.yaml`.
+
+### Key Configuration Changes
+
+```yaml
+system_envs:
+  USE_MODELSCOPE: '1'
+  HCCL_CONNECT_TIMEOUT: "3600"
+  HCCL_DETERMINISTIC: "false"
+  HCCL_OP_EXPANSION_MODE: "AIV"
+  NPU_MEMORY_FRACTION: "0.96"
+  CPU_AFFINITY_CONF: "2"
+  OMP_NUM_THREADS: "1"
+  VLLM_USE_V1: "1"
+  PYTORCH_NPU_ALLOC_CONF: "expandable_segments:True"
+
+rollout_batch_size: 32
+prompt_length: 2048
+response_length: 8192
+num_return_sequences_in_group: 8
+
+pretrain: Qwen/Qwen3-8B-Base
+reward_pretrain: Qwen/Qwen3-8B-Base
+
+actor_train:
+  model_args:
+    attn_implementation: fa2          # NPU: Use fa2 via transformers, NOT flash_attn
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 32
+    warmup_steps: 20
+  data_args:
+    template: qwen3
+    file_name:
+      - data/math_deepmath_deal.jsonl
+    domain_interleave_probs:
+      math_rule: 1
+    dataset_dir: data
+    messages: messages
+    interleave_probs: "1.0"
+  strategy_args:
+    strategy_name: deepspeed_train    # NPU: Must use DeepSpeed
+    strategy_config: ${deepspeed_zero3}
+  device_mapping: list(range(0,8))    # NPU: Training on NPUs 0-7
+  infer_batch_size: 2
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen3
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 8000
+  device_mapping: list(range(8,12))   # NPU: Inference on NPUs 8-11
+  infer_batch_size: 4
+
+reference:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen3
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(12,16))  # NPU: Reference on NPUs 12-15
+  infer_batch_size: 1
+
+rewards:
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen3
+    tag_included: [deepmath_103k, MATH-500, OlympiadBench, minervamath, aime2025, gsm8k, aime, amc23, math_rule]
+    world_size: 8
+    infer_batch_size: 1
+```
+
+### Launch
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+python examples/start_rlvr_pipeline.py \
+    --config_path ascend_examples \
+    --config_name qwen3_8b_rlvr_deepspeed
+```
+
+## Example 3: Multi-Node Distributed Training
+
+This example shows how to run ROLL across multiple Ascend NPU nodes. ROLL supports two methods for multi-node setup:
+
+- **Method A (Recommended):** Auto-launch via environment variables — set `RANK`, `WORLD_SIZE`, `MASTER_ADDR`, `MASTER_PORT` on each node, and ROLL automatically starts and manages the Ray cluster.
+- **Method B:** Manual Ray cluster — pre-start Ray on each node manually before running ROLL.
+
+### Architecture Overview
+
+```
+┌──────────────────────────────────────────────────────┐
+│  Head Node (RANK=0)                                   │
+│  ┌────────────────────────────────────────────────┐   │
+│  │ Docker Container (--net=host)                   │   │
+│  │  ├─ Ray Head (port 6379)                       │   │
+│  │  ├─ Ray Dashboard (port 8265)                  │   │
+│  │  └─ Training Driver (python start_xxx.py)      │   │
+│  └────────────────────────────────────────────────┘   │
+└──────────────────────┬───────────────────────────────┘
+                       │ HCCL (tcp)
+         ┌─────────────┼─────────────┐
+         ▼                           ▼
+┌─────────────────────┐    ┌─────────────────────┐
+│ Worker Node 1       │    │ Worker Node 2       │
+│ (RANK=1)            │    │ (RANK=2)            │
+│ ┌─────────────────┐ │    │ ┌─────────────────┐ │
+│ │ Docker Container │ │    │ │ Docker Container │ │
+│ │ Ray Worker      │ │    │ │ Ray Worker      │ │
+│ │ ray start       │ │    │ │ ray start       │ │
+│ │ --address=...   │ │    │ │ --address=...   │ │
+│ └─────────────────┘ │    │ └─────────────────┘ │
+└─────────────────────┘    └─────────────────────┘
+```
+
+### Prerequisites for Multi-Node
+
+- All nodes must be on the same Layer 2 network.
+- The head node's `MASTER_PORT` (default 6379) and `DASHBOARD_PORT` (default 8265) must be accessible from all worker nodes (disable firewalls or open these ports).
+- A shared storage volume (NFS or similar) mounted at the same path on all nodes is required for model weights, data, and checkpoints.
+- All nodes must use the same Docker image and CANN version.
+
+### Network Interface Identification
+
+Before starting, identify the correct HCCL network interface on each node:
+
+```bash
+# List available network interfaces
+ip addr
+
+# Or use the NPU tool to check HCCL interfaces
+for i in {0..7}; do hccn_tool -i $i -ip -g; done
+
+# The NPU device IPs are typically on a high-speed interconnect (e.g., 192.168.x.x).
+# Use the corresponding ethernet interface name (e.g., enp194s0f0, eth0) for HCCL_SOCKET_IFNAME.
+```
+
+### Step 1: Start Containers on All Nodes
+
+On **each** node, start the Docker container with `--net=host` and mount shared storage:
+
+```bash
+docker run -dit \
+    --name roll_npu_multi \
+    --ulimit nofile=65536:65536 \
+    --device /dev/davinci0 \
+    --device /dev/davinci1 \
+    --device /dev/davinci2 \
+    --device /dev/davinci3 \
+    --device /dev/davinci4 \
+    --device /dev/davinci5 \
+    --device /dev/davinci6 \
+    --device /dev/davinci7 \
+    --device /dev/davinci_manager \
+    --device /dev/devmm_svm \
+    --device /dev/hisi_hdc \
+    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
+    -v /usr/local/Ascend/add-ons:/usr/local/Ascend/add-ons \
+    -v /usr/local/dcmi:/usr/local/dcmi \
+    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
+    -v /etc/ascend_install.info:/etc/ascend_install.info \
+    -v /shared/storage:/data \
+    --ipc=host \
+    --net=host \
+    roll:ascend-a3 \
+    /bin/bash
+```
+
+> **Important:** `-v /shared/storage:/data` mounts shared storage for model weights, training data, and checkpoints. This directory must be accessible from all nodes at the same path. Use NFS, HDFS, or other shared filesystem solutions.
+
+### Step 2: Verify NPU Network Connectivity
+
+On **each** node, verify that NPU devices can communicate:
+
+```bash
+# Check link status (all should show "up")
+for i in {0..7}; do hccn_tool -i $i -link -g; done
+
+# Check TLS consistency (all should show the same switch value)
+for i in {0..7}; do hccn_tool -i $i -tls -g; done | grep switch
+
+# If TLS is inconsistent, disable it on all cards on all nodes:
+for i in {0..7}; do hccn_tool -i $i -tls -s enable 0; done
+
+# Check NPU device IPs
+for i in {0..7}; do hccn_tool -i $i -ip -g; done
+
+# Test cross-node connectivity (run on node B, replace with node A's device IP)
+hccn_tool -i 0 -ping -g address <node_a_device_ip>
+```
+
+### Step 3: Set Environment Variables
+
+On **each** node, set all environment variables. Replace `<NODE_IP>`, `<HEAD_IP>`, and `<interface>` accordingly:
+
+```bash
+# === Ray cluster variables (multi-node) ===
+export RANK=<0_for_head_or_1_2_3_for_worker>
+export WORLD_SIZE=2                  # Total number of nodes
+export MASTER_ADDR=<HEAD_IP>         # IP address of the head node
+export MASTER_PORT=6379              # Ray communication port
+export DASHBOARD_PORT=8265           # Ray dashboard port
+
+# === HCCL multi-node communication ===
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_EXEC_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+export HCCL_IF_IP=<NODE_IP>          # Current node's IP address
+export HCCL_SOCKET_IFNAME=<interface> # e.g., enp194s0f0
+export HCCL_IF_BASE_PORT=23456
+
+# === NPU memory ===
+export NPU_MEMORY_FRACTION=0.96
+export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
+export MULTI_STREAM_MEMORY_REUSE=1
+export TASK_QUEUE_ENABLE=2
+export COMBINED_ENABLE=1
+
+# === CPU scheduling ===
+export CPU_AFFINITY_CONF=2
+export OMP_NUM_THREADS=1
+
+# === vLLM-Ascend inference ===
+export VLLM_USE_V1=1
+export VLLM_ASCEND_ENABLE_FLASHCOMM=1
+export VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1
+export VLLM_ASCEND_ENABLE_PREFETCH_MLP=1
+
+# === Operator compilation cache ===
+export ACL_OP_COMPILER_CACHE_MODE=enable
+export ACL_OP_COMPILER_CACHE_DIR=/tmp/npu_cache
+export ASCEND_MAX_OP_CACHE_SIZE=5000
+
+# === Logging (production) ===
+export ASCEND_GLOBAL_LOG_LEVEL=3
+export ASDOPS_LOG_LEVEL=ERROR
+export ATB_LOG_LEVEL=ERROR
+```
+
+### Step 4: Launch (Method A — Auto-Launch, Recommended)
+
+Simply run the ROLL pipeline on **all** nodes simultaneously. ROLL automatically detects the `RANK` and starts or joins the Ray cluster:
+
+Before running the commands below, save the multi-node configuration in this section as `<config_dir>/rlvr_npu_multinode.yaml`.
+
+On the **head** node (RANK=0):
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+# Run the training script — ROLL will auto-start Ray head and wait for workers
+python examples/start_rlvr_pipeline.py \
+    --config_path <config_dir> \
+    --config_name rlvr_npu_multinode
+```
+
+On all **worker** nodes (RANK=1,2,3...):
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+# Run the same script — ROLL will auto-join the Ray cluster, then sys.exit(0)
+python examples/start_rlvr_pipeline.py \
+    --config_path <config_dir> \
+    --config_name rlvr_npu_multinode
+```
+
+After the Ray cluster is established, worker nodes will exit automatically. The head node continues to execute the training pipeline. You should see log messages like:
+
+```
+Starting ray cluster: ray start --head --port=6379 ...
+1 nodes have joined so far, waiting for 1.
+Current ray cluster resources: {'NPU': 16, 'CPU': ...}
+```
+
+### Step 4 (Alternative): Launch (Method B — Manual Ray Cluster)
+
+If you prefer to manage the Ray cluster manually:
+
+On the **head** node:
+
+```bash
+ray start --head --port=6379 --dashboard-port=8265
+```
+
+On all **worker** nodes (replace `<HEAD_IP>` with the head node's IP):
+
+```bash
+ray start --address=<HEAD_IP>:6379
+```
+
+Verify the cluster:
+
+```bash
+ray status
+```
+
+You should see all NPU resources from all nodes. Then launch the pipeline only on the **head** node:
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+python examples/start_rlvr_pipeline.py \
+    --config_path <config_dir> \
+    --config_name rlvr_npu_multinode
+```
+
+### Step 5: Monitor the Cluster
+
+From any node, you can monitor the Ray cluster:
+
+```bash
+# Check cluster status
+ray status
+
+# View the Ray dashboard (open in browser)
+# http://<HEAD_IP>:8265
+```
+
+### Multi-Node Configuration
+
+For multi-node configs, adjust `device_mapping` to cover NPUs across nodes. For example, with 2 nodes × 8 NPUs:
+
+```yaml
+num_gpus_per_node: 8
+
+# Training on Node0 NPUs 0-7
+actor_train:
+  strategy_args:
+    strategy_name: deepspeed_train
+    strategy_config: ${deepspeed_zero3_cpuoffload}
+  device_mapping: list(range(0,8))
+
+# Inference on Node1 NPUs 0-7
+actor_infer:
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 8000
+  device_mapping: list(range(8,16))
+
+# Reference model shares inference NPUs
+reference:
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(8,16))
+```
+
+Complete multi-node RLVR config example (2 nodes × 8 NPUs):
+
+```yaml
+defaults:
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen2.5-7B-rlvr-npu-multinode"
+seed: 42
+logging_dir: /data/logs
+output_dir: /data/output
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/models/${exp_name}
+
+num_gpus_per_node: 8
+
+max_steps: 500
+save_steps: 100
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 64
+prompt_length: 2048
+response_length: 4096
+num_return_sequences_in_group: 8
+
+ppo_epochs: 1
+adv_estimator: "reinforce"
+whiten_advantages: true
+
+pretrain: /data/models/Qwen2.5-7B
+reward_pretrain: /data/models/Qwen2.5-7B
+
+actor_train:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 32
+    warmup_steps: 20
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/math_deepmath_deal.jsonl
+      - data/code_KodCode_data.jsonl
+    domain_interleave_probs:
+      math_rule: 0.5
+      code_sandbox: 0.5
+    dataset_dir: /data/datasets
+    messages: messages
+    interleave_probs: "1.0"
+  strategy_args:
+    strategy_name: deepspeed_train
+    strategy_config: ${deepspeed_zero3_cpuoffload}
+  device_mapping: list(range(0,8))    # Node0 NPUs 0-7 for training
+  infer_batch_size: 4
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 8000
+  device_mapping: list(range(8,16))   # Node1 NPUs 0-7 for inference
+  infer_batch_size: 1
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(8,16))   # Share inference NPUs
+  infer_batch_size: 8
+
+rewards:
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [deepmath_103k, aime]
+    world_size: 4
+    infer_batch_size: 1
+  code_sandbox:
+    use_local: true
+    worker_cls: roll.pipeline.rlvr.rewards.code_sandbox_reward_worker.CodeSandboxRewardWorker
+    tag_included: [KodCode]
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    world_size: 4
+    infer_batch_size: 1
+```
+
+### Resource Allocation Patterns
+
+When using 2 nodes, there are two common allocation strategies:
+
+**Pattern 1: Training on Node0, Inference on Node1 (recommended for 2-node setups)**
+
+| Component | Location | NPUs | Count |
+| --------- | -------- | ---- | ----- |
+| actor_train | Node0 | 0-7 | 8 |
+| actor_infer | Node1 | 0-7 | 8 |
+| reference | Node1 | 0-7 (shared) | - |
+| device_mapping train | `list(range(0,8))` | | |
+| device_mapping infer | `list(range(8,16))` | | |
+
+**Pattern 2: Split both training and inference across nodes**
+
+| Component | Location | NPUs | Count |
+| --------- | -------- | ---- | ----- |
+| actor_train | Node0 + Node1 | 0-3 on each | 4+4=8 |
+| actor_infer | Node0 + Node1 | 4-7 on each | 4+4=8 |
+| device_mapping train | `list(range(0,4)) + list(range(8,12))` | | |
+| device_mapping infer | `list(range(4,8)) + list(range(12,16))` | | |
+
+Pattern 1 has lower cross-node HCCL communication overhead during inference. Pattern 2 balances the load more evenly. Choose based on your workload characteristics.
+
+## Device Mapping Reference
+
+Since NPU does not support colocated mode, you must allocate separate NPUs for training and inference. Here are common allocation patterns:
+
+### 8-NPU Single Node
+
+| Component | NPUs | Count |
+| --------- | ---- | ----- |
+| actor_train | 0-3 | 4 |
+| actor_infer | 4-7 | 4 |
+| reference | 4-7 (shared) | - |
+
+### 16-NPU Single Node (A3)
+
+| Component | NPUs | Count |
+| --------- | ---- | ----- |
+| actor_train | 0-7 | 8 |
+| actor_infer | 8-15 | 8 |
+| reference | 8-15 (shared) | - |
+
+### 2×8-NPU Multi-Node
+
+| Component | NPUs | Count |
+| --------- | ---- | ----- |
+| actor_train | Node0: 0-7 | 8 |
+| actor_infer | Node1: 0-7 | 8 |
+| reference | Node1: 0-7 (shared) | - |
+
+## Troubleshooting
+
+### First Inference Request Is Very Slow
+
+The first inference request after model loading triggers operator compilation, which can take several minutes. This is a one-time cost. To mitigate:
+
+1. Enable operator compilation cache (see `ACL_OP_COMPILER_CACHE_MODE` above).
+2. Run a warmup request before starting the actual training loop.
+
+### OOM on 7B Model with 4 NPUs
+
+If you encounter OOM with a 7B model on 4 NPUs:
+
+1. Switch to `deepspeed_zero3_cpuoffload` strategy.
+2. Reduce `per_device_train_batch_size` to 1.
+3. Increase `gradient_accumulation_steps` accordingly.
+4. Reduce `max_model_len` in vLLM config (e.g., from 8192 to 4096).
+
+### Multi-Node HCCL Communication Failure
+
+See [HCCL Communication Timeout or Failure](ascend_npu_faq.md#hccl-communication-timeout-or-failure) in the FAQ.
+
+## Disclaimer
+
+The Ascend support provided in ROLL is intended as a reference example. For production use, please consult official channels.
diff --git a/docs_roll/docs/User Guides/Hardware Support/ascend_npu_faq.md b/docs_roll/docs/User Guides/Hardware Support/ascend_npu_faq.md
new file mode 100644
index 000000000..8540180a7
--- /dev/null
+++ b/docs_roll/docs/User Guides/Hardware Support/ascend_npu_faq.md	
@@ -0,0 +1,291 @@
+# Ascend NPU FAQ
+
+Last updated: 04/27/2026.
+
+This document compiles common issues encountered when running ROLL on Huawei Ascend NPU and their solutions.
+
+## Docker & Environment
+
+### NPU Not Visible Inside Container
+
+**Symptom:** `npu-smi info` returns no devices or an error inside the container.
+
+**Solution:** Ensure all required devices and driver paths are mounted correctly. Check the following:
+
+1. All `--device /dev/davinciX` entries are present in the `docker run` command.
+2. Management devices (`/dev/davinci_manager`, `/dev/devmm_svm`, `/dev/hisi_hdc`) are mounted.
+3. Host driver paths are mounted: `/usr/local/Ascend/driver`, `/usr/local/Ascend/add-ons`, `/usr/local/dcmi`.
+4. The host Ascend NPU driver is installed and `npu-smi info` works on the host.
+
+### vLLM-Ascend Import Error
+
+**Symptom:** `import vllm_ascend` fails or vLLM cannot detect NPU devices.
+
+**Solution:** Verify that the CANN environment is properly sourced:
+
+```bash
+source /usr/local/Ascend/ascend-toolkit/set_env.sh
+source /usr/local/Ascend/nnal/atb/set_env.sh
+```
+
+These commands are automatically added to `/root/.bashrc` during the Docker image build. If you switch to a non-root user, you may need to source them manually.
+
+### torch_npu Not Working
+
+**Symptom:** `torch.npu.is_available()` returns `False`, or NPU tensors cannot be created.
+
+**Solution:**
+
+1. Verify `torch_npu` is installed: `pip show torch_npu`
+2. Check CANN environment: `echo $ASCEND_HOME_PATH`
+3. Source the CANN environment if not already done:
+   ```bash
+   source /usr/local/Ascend/ascend-toolkit/set_env.sh
+   ```
+4. Verify NPU visibility: `npu-smi info`
+5. Check if `torch` and `torch_npu` versions match: `pip list | grep torch`
+
+### SOC Version Mismatch
+
+**Symptom:** Errors like `SOC_VERSION not supported` or `Ascend device not found` during vLLM-Ascend installation or runtime.
+
+**Solution:** Make sure you are using the correct pre-built image for your hardware:
+
+- **Atlas 900 A2 PODc** → Use `roll:ascend-a2` (`ascend910b1`)
+- **Atlas 900 A3 PODc** → Use `roll:ascend-a3` (`ascend910_9391`)
+
+The current repository does not include `Dockerfile.A2` or `Dockerfile.A3`. If you maintain a custom image, ensure its SOC version matches the target hardware.
+
+## Dependency Conflicts
+
+### triton Import Error
+
+**Symptom:** `import triton` fails or conflicts with `triton-ascend`.
+
+**Solution:** The pre-built Ascend images use `triton-ascend` instead of the standard `triton` package. If you accidentally installed the wrong triton package, fix it with:
+
+```bash
+pip uninstall -y triton triton-ascend
+pip install triton-ascend==3.2.0
+```
+
+## Training Configuration
+
+### Colocated Mode Not Supported
+
+**Symptom:** Training fails when `actor_train` and `actor_infer` share the same NPU devices.
+
+**Solution:** NPU does not support colocated mode. You must configure `device_mapping` so that training and inference run on separate NPUs. For example:
+
+```yaml
+actor_train:
+  device_mapping: list(range(0, 4))
+actor_infer:
+  device_mapping: list(range(4, 8))
+```
+
+### Megatron Strategy Not Supported
+
+**Symptom:** Errors when using `strategy: megatron` in configuration on NPU.
+
+**Solution:** Megatron-LM training is not yet supported on Ascend NPU in the provided examples. Use DeepSpeed as the training backend:
+
+```yaml
+strategy_args:
+  strategy_name: deepspeed_train
+```
+
+### HCCL Communication Timeout or Failure
+
+**Symptom:** During multi-NPU distributed training, errors such as `Hccl execute failed`, `LINK_ERROR_INFO`, `EI0006` link establishment timeout, or HCCL initialization failure appear. Single-card training works fine, but multi-card or multi-node training fails.
+
+**Solution:** Follow these steps to troubleshoot:
+
+1. **Check NPU inter-card link status**:
+   ```bash
+   for i in {0..7}; do hccn_tool -i $i -link -g; done
+   ```
+   The output should be `up`. If any other status is shown, the link is abnormal. Try resetting the affected card:
+   ```bash
+   npu-smi set -t reset -i <RankId> -c 0 -m 1
+   ```
+
+2. **Check NPU card IP configuration**:
+   ```bash
+   for i in {0..7}; do hccn_tool -i $i -ip -g; done
+   ```
+   Ensure all cards have IP addresses configured and there are no IP conflicts.
+
+3. **Check TLS configuration consistency across nodes**:
+   ```bash
+   for i in {0..7}; do hccn_tool -i $i -tls -g; done | grep switch
+   ```
+   The TLS switch status must be consistent across all cards. It is recommended to disable TLS uniformly:
+   ```bash
+   for i in {0..7}; do hccn_tool -i $i -tls -s enable 0; done
+   ```
+
+4. **Increase HCCL link establishment timeout** (default is 120 seconds, which may be insufficient for large model scenarios):
+   ```bash
+   export HCCL_CONNECT_TIMEOUT=3600
+   ```
+
+5. **Check cross-node network connectivity**:
+   ```bash
+   # On node B, ping node A's device IP
+   hccn_tool -i 0 -ping -g address <peer_node_IP>
+   ```
+   If the ping fails, check firewall settings, subnet masks, and switch VLAN configurations.
+
+6. **Disable firewall** (for multi-node training scenarios):
+   ```bash
+   sudo systemctl stop firewalld
+   sudo systemctl disable firewalld
+   ```
+
+## Ray Cluster & Multi-Node
+
+### Ray Cluster Nodes Not Joining
+
+**Symptom:** Worker nodes fail to join the Ray cluster. The head node logs show `N nodes have joined so far, waiting for X` indefinitely, and worker nodes show connection errors.
+
+**Solution:**
+
+1. **Verify network connectivity between nodes:**
+   ```bash
+   ping <HEAD_IP>
+   ```
+
+2. **Check that MASTER_PORT is open on the head node:**
+   ```bash
+   # On the head node, verify the port is listening
+   ss -tlnp | grep 6379
+   
+   # On a worker node, test connectivity
+   nc -zv <HEAD_IP> 6379
+   ```
+
+3. **Ensure firewall is disabled or ports are open on all nodes:**
+   ```bash
+   sudo systemctl stop firewalld
+   sudo systemctl disable firewalld
+   ```
+   
+   Required ports:
+   - `MASTER_PORT` (default 6379): Ray cluster communication
+   - `DASHBOARD_PORT` (default 8265): Ray dashboard
+   - `HCCL_IF_BASE_PORT` (default 23456): HCCL cross-node communication
+   - A range of ports above `MASTER_PORT` for Ray internal services (typically 10002-19999)
+
+4. **Verify RANK, WORLD_SIZE, and MASTER_ADDR are set correctly:**
+   ```bash
+   echo "RANK=$RANK WORLD_SIZE=$WORLD_SIZE MASTER_ADDR=$MASTER_ADDR MASTER_PORT=$MASTER_PORT"
+   ```
+
+5. **Check firewall rules on the head node** — ensure inbound connections to the Ray ports are allowed from worker node IPs.
+
+### Worker Nodes Exit Immediately
+
+**Symptom:** Worker nodes start, join the Ray cluster, then exit immediately without running any training.
+
+**Solution:** This is expected behavior. In ROLL's auto-launch mode, worker nodes (`RANK>0`) automatically call `sys.exit(0)` after the Ray cluster is initialized. Only the head node (`RANK=0`) executes the training pipeline. The worker nodes' Ray processes remain running and serve the training workload. Check `ray status` on the head node to confirm workers are active.
+
+### Cross-Node NPU Communication Timeout
+
+**Symptom:** Training is fine single-node but fails with HCCL errors when going multi-node, even though `hccn_tool -ping` works.
+
+**Solution:**
+
+1. **Verify HCCL_SOCKET_IFNAME is correct and consistent:**
+   ```bash
+   # Check which interface the NPU device IPs are on
+   ip route get <npu_device_ip>
+   ```
+   The interface name must be the same across all nodes.
+
+2. **Verify HCCL_IF_BASE_PORT is not blocked by firewall** between nodes.
+
+3. **Check if switch/router allows HCCL traffic.** HCCL uses RoCEv2 (RDMA over Converged Ethernet). Ensure the switch is configured to pass PFC (Priority Flow Control) and ECN (Explicit Congestion Notification) traffic.
+
+4. **Increase HCCL timeouts further:**
+   ```bash
+   export HCCL_CONNECT_TIMEOUT=7200
+   export HCCL_EXEC_TIMEOUT=7200
+   ```
+
+### Shared Storage Not Accessible
+
+**Symptom:** Training fails because model weights or data files cannot be found on worker nodes.
+
+**Solution:** All nodes must have access to the same files at the same paths. Mount a shared filesystem:
+
+```bash
+# Example: Mount NFS inside each container
+mount -t nfs <nfs_server>:/roll /shared/storage
+
+# Or mount at container start:
+docker run ... \
+    -v /shared/storage:/data \
+    ...
+```
+
+Ensure the shared storage has sufficient bandwidth for loading model weights (several GB per load operation).
+
+## Resource & Performance
+
+### ulimit Too Low
+
+**Symptom:** Errors like `OSError: [Errno 24] Too many open files`, `RuntimeError: Unable to open file`, or Ray worker processes crashing unexpectedly during multi-NPU training.
+
+**Solution:** The default `ulimit` (open file descriptor limit) in Docker containers is typically 1024, which is insufficient for multi-NPU distributed training. Add `--ulimit nofile=65536:65536` to your `docker run` command to increase the limit:
+
+Or set it inside the container at runtime:
+
+```bash
+ulimit -n 65536
+```
+
+To make it persistent, add the following line to `/etc/security/limits.conf` inside the container:
+
+```
+* soft nofile 65536
+* hard nofile 65536
+```
+
+You can also configure it globally in your ROLL YAML config:
+
+```yaml
+system_envs:
+  RAY_ULIMIT_NOFILE: "65536"
+```
+
+### Out of NPU Memory
+
+**Symptom:** Training or inference crashes with OOM (Out of Memory) errors.
+
+**Solution:**
+
+1. Reduce `rollout_batch_size` or `num_return_sequences_in_group` in your configuration file.
+2. Reduce `per_device_train_batch_size` and increase `gradient_accumulation_steps` accordingly.
+3. Enable DeepSpeed ZeRO-3 with CPU offloading in your config:
+   ```yaml
+   strategy_args:
+     strategy_name: deepspeed_train
+     strategy_config: ${deepspeed_zero3_cpuoffload}
+   ```
+4. Use a smaller model or apply LoRA to reduce memory footprint.
+
+### Slow vLLM Inference on NPU
+
+**Symptom:** vLLM inference throughput is significantly lower than expected.
+
+**Solution:**
+
+1. Ensure CANN and vLLM-Ascend versions are compatible (both should be v0.13.0).
+2. Check that the SOC version matches your hardware.
+3. Adjust vLLM parameters such as `gpu_memory_utilization` and `max_model_len` in your config.
+4. Verify that `triton-ascend` is installed (not `triton`), as the wrong triton backend can cause kernel compilation fallbacks.
+
+## Disclaimer
+
+The Ascend support provided in ROLL is intended as a reference example. For production use, please consult official channels.
diff --git a/docs_roll/docs/User Guides/Hardware Support/ascend_npu_rlvr.md b/docs_roll/docs/User Guides/Hardware Support/ascend_npu_rlvr.md
new file mode 100644
index 000000000..c0ee2b59e
--- /dev/null
+++ b/docs_roll/docs/User Guides/Hardware Support/ascend_npu_rlvr.md	
@@ -0,0 +1,810 @@
+# Running RLVR Pipeline on Ascend NPU
+
+Last updated: 04/28/2026.
+
+This guide provides a complete end-to-end walkthrough for running the RLVR (Reinforcement Learning with Verifiable Rewards) pipeline on Huawei Ascend NPU, covering environment setup, data preparation, model download, configuration, training launch, monitoring & evaluation, and checkpoint resumption.
+
+## Workflow Overview
+
+Running an RLVR task on NPU from scratch involves the following steps:
+
+```
+1. Environment Setup → 2. Data Preparation → 3. Model Preparation → 4. Write Config → 5. Launch Training → 6. Monitor & Evaluate → 7. Resume from Checkpoint
+```
+
+## Step 1: Environment Setup
+
+### 1.1 Hardware & Driver Prerequisites
+
+Ensure your hardware and host drivers are ready:
+
+| Item | Requirement |
+| ---- | ----------- |
+| Hardware | Atlas 900 A2 PODc (Ascend 910B1) or Atlas 900 A3 PODc (Ascend 910_9391) |
+| Host OS | Ubuntu 22.04 |
+| CANN | 8.5.1 |
+| Ascend NPU Driver | Installed on host (`npu-smi info` shows devices) |
+| Docker | >= 20.10 |
+
+### 1.2 Get the Docker Image
+
+Use the pre-built Ascend image that matches your hardware. Official ROLL NPU image tags are available at https://quay.io/repository/ascend/roll?tab=tags. For container launch details, see the [Ascend NPU Docker Usage Guide](ascend_docker_usage.md).
+
+```bash
+# For A2 hardware
+docker pull roll-registry.cn-hangzhou.cr.aliyuncs.com/roll/pytorch:cann851-910b-py311-torch280-vllm0130
+docker tag roll-registry.cn-hangzhou.cr.aliyuncs.com/roll/pytorch:cann851-910b-py311-torch280-vllm0130 roll:ascend-a2
+
+# For A3 hardware
+docker pull roll-registry.cn-hangzhou.cr.aliyuncs.com/roll/pytorch:cann851-a3-py311-torch280-vllm0130
+docker tag roll-registry.cn-hangzhou.cr.aliyuncs.com/roll/pytorch:cann851-a3-py311-torch280-vllm0130 roll:ascend-a3
+```
+
+The current repository does not include `Dockerfile.A2` or `Dockerfile.A3`. If you maintain a custom image, keep the dependency versions aligned with the pre-built image.
+
+### 1.3 Start the Container
+
+```bash
+docker run -dit \
+    --name roll_npu \
+    --ulimit nofile=65536:65536 \
+    --device /dev/davinci0 \
+    --device /dev/davinci1 \
+    --device /dev/davinci2 \
+    --device /dev/davinci3 \
+    --device /dev/davinci4 \
+    --device /dev/davinci5 \
+    --device /dev/davinci6 \
+    --device /dev/davinci7 \
+    --device /dev/davinci_manager \
+    --device /dev/devmm_svm \
+    --device /dev/hisi_hdc \
+    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
+    -v /usr/local/Ascend/add-ons:/usr/local/Ascend/add-ons \
+    -v /usr/local/dcmi:/usr/local/dcmi \
+    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
+    -v /etc/ascend_install.info:/etc/ascend_install.info \
+    -v /path/to/models:/data/models \
+    -v /path/to/data:/data \
+    --ipc=host \
+    --net=host \
+    roll:ascend-a3 \
+    /bin/bash
+```
+
+> **Note:** `-v /path/to/models:/data/models` and `-v /path/to/data:/data` mount model weights and training data directories respectively. Adjust paths to your setup.
+
+### 1.4 Verify the Environment
+
+After entering the container, run:
+
+```bash
+# Verify NPU visibility
+npu-smi info
+
+# Verify CANN environment is loaded
+env | grep -E "ASCEND|LD_LIBRARY_PATH|PATH"
+
+# Verify Python packages
+python -c "import torch; import torch_npu; print(torch.npu.is_available())"
+python -c "import vllm; print(f'vllm: {vllm.__version__}')"
+python -c "import vllm_ascend; print(f'vllm_ascend available')"
+```
+
+If all verifications pass, the environment is ready. For detailed environment variable descriptions, see the [NPU Environment Configuration Guide](ascend_npu_env_config.md).
+
+## Step 2: Data Preparation
+
+The RLVR pipeline uses JSONL format data files. Different reward domains require different data fields.
+
+### 2.1 Data Format
+
+#### Common Fields (required for all domains)
+
+| Field | Type | Required | Description |
+| ----- | ---- | -------- | ----------- |
+| `id` | string/int | Yes | Unique identifier for the data point |
+| `messages` or `prompt` | string | Yes | Input prompt; `messages` is a JSON string of message list |
+| `tag` | string | Yes | Reward domain label, determines which Reward Worker to use |
+
+#### Domain-Specific Fields
+
+| Domain | tag value | Required fields | Description |
+| ------ | --------- | --------------- | ----------- |
+| Math rule | `math_rule` | `ground_truth` | Correct answer |
+| Code sandbox | `code_sandbox` (e.g., `KodCode`) | `test_cases`, `case_type` | Test cases and type (e.g., `pytest`) |
+| LLM judge | `llm_judge` (e.g., `RLVR`) | `ground_truth` | Reference answer or response |
+| IFEval | `ifeval` | No extra fields | Rule-based instruction following evaluation |
+| CrossThinkQA | `crossthinkqa` | `ground_truth` | Cross-disciplinary reasoning answer |
+
+#### Data Examples
+
+**Math domain (math_rule):**
+
+```json
+{
+    "id": "0",
+    "source": "gsm8k",
+    "difficulty": 0,
+    "prompt": "Solve the equation 3x + 5 = 14",
+    "messages": "[{\"role\": \"system\", \"content\": \"You are a math assistant.\"}, {\"role\": \"user\", \"content\": \"Solve the equation 3x + 5 = 14\"}]",
+    "ground_truth": "3",
+    "tag": "math_rule"
+}
+```
+
+**Code domain (code_sandbox):**
+
+```json
+{
+    "id": "5ea1ab",
+    "source": "codeforces",
+    "difficulty": "0",
+    "prompt": "Write a function that takes an array of distinct integers and returns all possible permutations.",
+    "messages": "[{\"role\": \"user\", \"content\": \"Write a function...\"}]",
+    "ground_truth": "[\"def permute(nums): ...\"]",
+    "case_type": "pytest",
+    "test_case_function": "",
+    "test_cases": "[{\"assert_code\": \"def test_permute(): ...\"}]",
+    "tag": "KodCode"
+}
+```
+
+### 2.2 Data Placement
+
+Place data files in a directory inside the container (e.g., `/data/`) and specify the paths in `actor_train.data_args`:
+
+```yaml
+actor_train:
+  data_args:
+    file_name:
+      - data/math_deepmath_deal.jsonl
+      - data/code_KodCode_data.jsonl
+    dataset_dir: data
+```
+
+### 2.3 Validation Data
+
+Validation data is used for periodic evaluation during training. Specify it in the `validation` config:
+
+```yaml
+validation:
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/math_benchmarks.jsonl
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.6
+    temperature: 0.6
+    num_return_sequences: 1
+```
+
+The `tag` field in validation data should match the tags in training data so that accuracy can be reported per domain.
+
+## Step 3: Model Preparation
+
+### 3.1 Download Model Weights
+
+The RLVR pipeline requires the following models:
+
+| Model | Config key | Description |
+| ----- | ---------- | ----------- |
+| Actor / Reference model | `pretrain` | Policy model for training and inference |
+| Reward model | `reward_pretrain` | Model used in Reward Workers (e.g., for answer extraction in math rule rewards) |
+
+Example with Qwen2.5-7B:
+
+```bash
+# Download using ModelScope (recommended for users in China)
+pip install modelscope
+modelscope download --model Qwen/Qwen2.5-7B --local_dir /data/models/Qwen2.5-7B
+
+# Or download using HuggingFace
+huggingface-cli download Qwen/Qwen2.5-7B --local-dir /data/models/Qwen2.5-7B
+```
+
+### 3.2 Specify Model Path in Config
+
+```yaml
+pretrain: Qwen/Qwen2.5-7B           # Auto-downloads from ModelScope/HuggingFace
+# Or use a local path
+# pretrain: /data/models/Qwen2.5-7B
+
+reward_pretrain: Qwen/Qwen2.5-7B
+```
+
+> **Tip:** If network access is limited inside the container, download models to the host machine in advance, mount them via `-v`, and use local paths in the config.
+
+## Step 4: Write the NPU Configuration
+
+### Key Differences from GPU
+
+When adapting the GPU RLVR configuration for NPU, the following changes are **required**:
+
+| Item | GPU | NPU |
+| ---- | --- | --- |
+| Training backend | Megatron or DeepSpeed | DeepSpeed only (Megatron not supported) |
+| Inference backend | vLLM | vLLM-Ascend |
+| Reference model strategy | `megatron_infer` | `hf_infer` |
+| Device placement | Colocated mode supported | Colocated mode **not** supported; training and inference must use separate NPUs |
+| Attention implementation | `flash_attn` or `fa2` | `fa2` via `transformers` (not `flash_attn` package) |
+| Communication backend | NCCL | HCCL |
+| Device visibility | `CUDA_VISIBLE_DEVICES` | `ASCEND_RT_VISIBLE_DEVICES` |
+| DeepSpeed config | ZeRO-2 or ZeRO-3 | ZeRO-3 + CPU offloading recommended for 7B+ models |
+
+### Complete NPU Configuration Example
+
+Create a YAML config file based on an existing GPU config (such as `examples/qwen2.5-7B-rlvr_megatron/rlvr_config_amd.yaml`). Below is a complete NPU-adapted configuration with key differences marked with `# NPU` comments:
+
+```yaml
+defaults:
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen2.5-7B-rlvr-npu"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/models/${exp_name}
+
+num_gpus_per_node: 8
+
+max_steps: 500
+save_steps: 100
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 64
+prompt_length: 2048
+response_length: 4096
+num_return_sequences_in_group: 8
+
+ppo_epochs: 1
+adv_estimator: "reinforce"
+
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 2.0
+dual_clip_loss: true
+
+norm_mean_type: ~
+norm_std_type: ~
+
+max_len_mask: true
+difficulty_mask: true
+difficulty_low_threshold: 0.1
+difficulty_high_threshold: 0.95
+error_max_len_clip: false
+
+difficulty_loss_weight: false
+length_loss_weight: false
+
+add_token_level_kl: false
+whiten_advantages: true
+
+pretrain: Qwen/Qwen2.5-7B
+reward_pretrain: Qwen/Qwen2.5-7B
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: ./output/tensorboard/rlvr_npu
+
+validation:
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/math_benchmarks.jsonl
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.6
+    top_k: 50
+    num_beams: 1
+    temperature: 0.6
+    num_return_sequences: 1
+
+actor_train:
+  model_args:
+    attn_implementation: fa2            # NPU: Use fa2 via transformers, NOT flash_attn
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 32
+    warmup_steps: 20
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/math_deepmath_deal.jsonl
+      - data/code_KodCode_data.jsonl
+    domain_interleave_probs:
+      math_rule: 0.5
+      code_sandbox: 0.5
+    dataset_dir: data
+    messages: messages
+    interleave_probs: "1.0"
+  strategy_args:
+    strategy_name: deepspeed_train      # NPU: Must use DeepSpeed, NOT megatron_train
+    strategy_config: ${deepspeed_zero3_cpuoffload}  # NPU: Use ZeRO-3 + CPU offloading for 7B
+  device_mapping: list(range(0,4))      # NPU: Training on NPUs 0-3
+  infer_batch_size: 4
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm                 # NPU: vLLM-Ascend for inference
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 8000
+  device_mapping: list(range(4,8))      # NPU: Inference on NPUs 4-7 (separate from training)
+  infer_batch_size: 1
+
+reference:
+  model_args:
+    attn_implementation: fa2            # NPU: Use fa2 via transformers
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: hf_infer             # NPU: Use hf_infer, NOT megatron_infer
+    strategy_config: ~
+  device_mapping: list(range(4,8))      # NPU: Share inference NPUs with actor_infer
+  infer_batch_size: 8
+
+rewards:
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [deepmath_103k, aime]
+    world_size: 4
+    infer_batch_size: 1
+  code_sandbox:
+    use_local: true
+    worker_cls: roll.pipeline.rlvr.rewards.code_sandbox_reward_worker.CodeSandboxRewardWorker
+    tag_included: [KodCode]
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    world_size: 4
+    infer_batch_size: 1
+```
+
+### Key Configuration Changes Explained
+
+#### 1. Training Strategy: DeepSpeed instead of Megatron
+
+```yaml
+# GPU (original)
+actor_train:
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+
+# NPU (adapted)
+actor_train:
+  strategy_args:
+    strategy_name: deepspeed_train
+    strategy_config: ${deepspeed_zero3_cpuoffload}
+```
+
+For 7B models on 4 NPUs, use `deepspeed_zero3_cpuoffload` to avoid OOM. For smaller models (e.g., 0.5B), `deepspeed_zero3` may be sufficient.
+
+#### 2. Reference Model: hf_infer instead of megatron_infer
+
+```yaml
+# GPU
+reference:
+  strategy_args:
+    strategy_name: megatron_infer
+
+# NPU
+reference:
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+```
+
+#### 3. Device Mapping: Separate Training and Inference NPUs
+
+NPU does **not** support colocated mode. Training and inference must run on different NPUs:
+
+```yaml
+actor_train:
+  device_mapping: list(range(0,4))    # Training: NPUs 0-3
+actor_infer:
+  device_mapping: list(range(4,8))    # Inference: NPUs 4-7
+reference:
+  device_mapping: list(range(4,8))    # Shares inference NPUs
+```
+
+See [Device Mapping Reference](#device-mapping-reference) for more allocation patterns.
+
+#### 4. Attention Implementation
+
+Use `fa2` through the `transformers` library instead of the `flash_attn` package:
+
+```yaml
+actor_train:
+  model_args:
+    attn_implementation: fa2    # NOT flash_attn
+```
+
+#### 5. System Environment Variables
+
+ROLL injects device visibility and Ray runtime variables for workers, but production runs should still set HCCL, memory, vLLM-Ascend, cache, and logging variables explicitly. See the [NPU Environment Configuration Guide](ascend_npu_env_config.md) for the recommended single-node and multi-node settings.
+
+## Step 5: Launch Training
+
+### Single Node
+
+Run the checked-in Ascend RLVR example:
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+python examples/start_rlvr_pipeline.py \
+    --config_path ascend_examples \
+    --config_name qwen3_8b_rlvr_deepspeed
+```
+
+If you save the custom configuration above as `<config_dir>/rlvr_npu.yaml`, use `--config_path <config_dir> --config_name rlvr_npu` instead.
+
+### Multi-Node
+
+For multi-node training across multiple Ascend NPU nodes, ROLL provides automatic Ray cluster management via environment variables.
+
+#### Setup
+
+On **every** node, set the following environment variables before launching. Replace placeholders with actual values:
+
+**Head node (RANK=0):**
+
+```bash
+# Ray cluster
+export RANK=0
+export WORLD_SIZE=2
+export MASTER_ADDR=10.0.0.1            # Head node IP
+export MASTER_PORT=6379
+export DASHBOARD_PORT=8265
+
+# HCCL multi-node
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_EXEC_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+export HCCL_IF_IP=10.0.0.1             # This node's IP
+export HCCL_SOCKET_IFNAME="enp194s0f0" # HCCL network interface
+export HCCL_IF_BASE_PORT=23456
+
+# NPU memory, CPU, vLLM, cache, logging... (same as single-node)
+# See the NPU Environment Configuration Guide for the full list
+```
+
+**Worker node (RANK=1):**
+
+```bash
+# Ray cluster
+export RANK=1
+export WORLD_SIZE=2
+export MASTER_ADDR=10.0.0.1            # Head node IP (same as above)
+export MASTER_PORT=6379
+export DASHBOARD_PORT=8265
+
+# HCCL multi-node
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_EXEC_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+export HCCL_IF_IP=10.0.0.2             # This node's IP
+export HCCL_SOCKET_IFNAME="enp194s0f0"
+export HCCL_IF_BASE_PORT=23456
+
+# NPU memory, CPU, vLLM, cache, logging... (same as single-node)
+```
+
+#### Launch
+
+Run the **same** command on all nodes. ROLL reads `RANK` to decide whether to start as head or worker:
+
+Before running these commands, save your multi-node config as `<config_dir>/rlvr_npu_multinode.yaml`.
+
+**On the head node:**
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+python examples/start_rlvr_pipeline.py \
+    --config_path <config_dir> \
+    --config_name rlvr_npu_multinode
+```
+
+**On each worker node:**
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+python examples/start_rlvr_pipeline.py \
+    --config_path <config_dir> \
+    --config_name rlvr_npu_multinode
+```
+
+Worker nodes will output logs indicating they've joined the cluster, then exit (`sys.exit(0)`). Their Ray processes stay alive to serve training tasks. The head node continues executing the full training pipeline.
+
+:::tip
+You can also pre-start Ray manually (`ray start --head` on head, `ray start --address=...` on workers) before running the pipeline. ROLL detects the existing cluster and skips auto-start.
+:::
+
+#### Verify the Cluster
+
+From the head node, check that all nodes have joined:
+
+```bash
+ray status
+```
+
+The output should show NPU resources from all nodes. For example, with 2 nodes × 8 NPUs:
+
+```
+Resources
+---------------------------------------------------------------
+Total: 128.0 CPU, 16.0 NPU, ...
+```
+
+#### Multi-Node Config
+
+For multi-node configs, adjust `device_mapping` to cover NPUs across nodes. For example, with 2 nodes × 8 NPUs:
+
+```yaml
+num_gpus_per_node: 8
+
+# Training on Node0 NPUs 0-7
+actor_train:
+  strategy_args:
+    strategy_name: deepspeed_train
+    strategy_config: ${deepspeed_zero3_cpuoffload}
+  device_mapping: list(range(0,8))
+
+# Inference on Node1 NPUs 0-7
+actor_infer:
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      max_model_len: 8000
+  device_mapping: list(range(8,16))
+
+# Reference model shares inference NPUs
+reference:
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(8,16))
+```
+
+See [NPU End-to-End Configuration Examples](ascend_npu_examples.md#example-3-multi-node-distributed-training) for a complete multi-node configuration example with data preparation and reward workers.
+
+#### Important Multi-Node Notes
+
+- **Shared storage is required:** Model weights, training data, and checkpoints must be accessible from all nodes at the same paths. Mount NFS or other shared filesystems into each container.
+- **Network requirements:** All nodes must be on the same Layer 2 network. The head node's port 6379 must be reachable from all worker nodes.
+- **HCCL network interface:** `HCCL_SOCKET_IFNAME` must be the same on all nodes and correspond to the high-speed interconnect (e.g., RoCE). Use `ip addr` or `hccn_tool` to identify the correct interface.
+
+## Step 6: Monitor & Evaluate
+
+### 6.1 Training Monitoring
+
+ROLL has built-in TensorBoard support. Specify the log directory in the config:
+
+```yaml
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: ./output/tensorboard/rlvr_npu
+```
+
+Start TensorBoard:
+
+```bash
+tensorboard --logdir ./output/tensorboard/rlvr_npu --port 6006
+```
+
+Key metrics to monitor:
+
+| Metric | Description |
+| ------ | ----------- |
+| `time/step_total` | Total time per step |
+| `time/step_generate` | Inference generation time |
+| `time/step_train` | Training update time |
+| `train/loss` | Training loss |
+| `train/lr` | Current learning rate |
+| `reward/mean` | Average reward |
+| `response_length/mean` | Average generation length |
+
+### 6.2 Validation Evaluation
+
+The pipeline automatically runs validation evaluation at `eval_steps` intervals. Validation results include:
+
+| Metric | Description |
+| ------ | ----------- |
+| `val_correct/all/mean` | Accuracy across all validation samples |
+| `val_correct/<tag>/mean` | Accuracy per tag group (e.g., `val_correct/math_rule/mean`) |
+
+Validation accuracy is the core metric for measuring RLVR training effectiveness. It should gradually increase as training progresses.
+
+### 6.3 Generation Examples
+
+During training, generated examples are printed to the log every `logging_steps` steps, allowing you to visually assess model output quality.
+
+## Step 7: Resume from Checkpoint
+
+### 7.1 Checkpoint Saving
+
+The pipeline automatically saves checkpoints to `checkpoint_config.output_dir` at `save_steps` intervals:
+
+```yaml
+checkpoint_config:
+  type: file_system
+  output_dir: /data/models/${exp_name}
+
+save_steps: 100
+```
+
+### 7.2 Resume from Checkpoint
+
+Set `resume_from_checkpoint` to the checkpoint path to resume training:
+
+```yaml
+resume_from_checkpoint: /data/models/qwen2.5-7B-rlvr-npu/checkpoint-100
+```
+
+Or override via the launch command:
+
+```bash
+python examples/start_rlvr_pipeline.py \
+    --config_path <config_dir> \
+    --config_name rlvr_npu \
+    resume_from_checkpoint=/data/models/qwen2.5-7B-rlvr-npu/checkpoint-100
+```
+
+## Device Mapping Reference
+
+Since NPU does not support colocated mode, you must allocate separate NPUs for training and inference. Below are common allocation patterns for RLVR:
+
+### 8-NPU Single Node (7B Model)
+
+| Component | NPUs | Count | Notes |
+| --------- | ---- | ----- | ----- |
+| actor_train | 0-3 | 4 | DeepSpeed ZeRO-3 + CPU offloading |
+| actor_infer | 4-7 | 4 | vLLM-Ascend |
+| reference | 4-7 (shared) | - | hf_infer, shares with actor_infer |
+| reward workers | CPU | - | Math rule & code sandbox run on CPU |
+
+### 16-NPU Single Node (A3, 7B Model)
+
+| Component | NPUs | Count | Notes |
+| --------- | ---- | ----- | ----- |
+| actor_train | 0-7 | 8 | DeepSpeed ZeRO-3 |
+| actor_infer | 8-15 | 8 | vLLM-Ascend |
+| reference | 8-15 (shared) | - | hf_infer, shares with actor_infer |
+| reward workers | CPU | - | Math rule & code sandbox run on CPU |
+
+### 2×8-NPU Multi-Node (7B Model)
+
+| Component | NPUs | Count | Notes |
+| --------- | ---- | ----- | ----- |
+| actor_train | Node0: 0-7 | 8 | DeepSpeed ZeRO-3 + CPU offloading |
+| actor_infer | Node1: 0-7 | 8 | vLLM-Ascend |
+| reference | Node1: 0-7 (shared) | - | hf_infer, shares with actor_infer |
+| reward workers | CPU | - | Math rule & code sandbox run on CPU |
+
+## Supported Reward Workers on NPU
+
+The following RLVR reward workers are supported on NPU:
+
+| Reward Worker | Class | NPU Compatibility | Notes |
+| ------------- | ----- | ----------------- | ----- |
+| Math Rule Reward | `MathRuleRewardWorker` | ✅ Supported | Rule-based evaluation, runs on CPU |
+| Code Sandbox Reward | `CodeSandboxRewardWorker` | ✅ Supported | Executes code in sandbox, runs on CPU |
+| LLM Judge Reward | `LLMJudgeRewardWorker` | ✅ Supported | Requires additional NPU for judge model inference |
+| IFEval Rule Reward | `GeneralRuleRewardWorker` | ✅ Supported | Rule-based evaluation, runs on CPU |
+| CrossThinkQA Reward | `CrossThinkQARuleRewardWorker` | ✅ Supported | Rule-based evaluation, runs on CPU |
+
+:::caution
+When using `LLMJudgeRewardWorker`, the judge model requires its own NPU devices for inference. Ensure you allocate separate NPUs in `device_mapping` for the judge model, and do not share them with `actor_infer` or `actor_train`.
+:::
+
+## GPU-to-NPU Configuration Migration Checklist
+
+Use this checklist when migrating an existing GPU RLVR configuration to NPU:
+
+- [ ] Change `actor_train.strategy_args.strategy_name` from `megatron_train` to `deepspeed_train`
+- [ ] Change `actor_train.strategy_args.strategy_config` to `${deepspeed_zero3_cpuoffload}` or `${deepspeed_zero3}`
+- [ ] Change `reference.strategy_args.strategy_name` from `megatron_infer` to `hf_infer`
+- [ ] Set `reference.strategy_args.strategy_config` to `~` (null)
+- [ ] Add `attn_implementation: fa2` to `actor_train.model_args` and `reference.model_args`
+- [ ] Ensure `device_mapping` separates training and inference NPUs (no colocated mode)
+- [ ] Remove any `flash_attn` references
+- [ ] Remove any Megatron-specific config (e.g., `tensor_model_parallel_size`, `pipeline_model_parallel_size`)
+- [ ] Verify `llm_judge` reward worker has separate NPU allocation (if used)
+
+## Troubleshooting
+
+### First Inference Request Is Very Slow
+
+The first inference request after model loading triggers operator compilation, which can take several minutes. This is a one-time cost. To mitigate:
+
+1. Enable operator compilation cache (see `ACL_OP_COMPILER_CACHE_MODE` in the [NPU Environment Configuration Guide](ascend_npu_env_config.md)).
+2. Run a warmup request before starting the actual training loop.
+
+### OOM on 7B Model with 4 NPUs
+
+If you encounter OOM with a 7B model on 4 NPUs:
+
+1. Switch to `deepspeed_zero3_cpuoffload` strategy.
+2. Reduce `per_device_train_batch_size` to 1.
+3. Increase `gradient_accumulation_steps` accordingly.
+4. Reduce `max_model_len` in vLLM config (e.g., from 8192 to 4096).
+
+### HCCL Communication Timeout
+
+See [HCCL Communication Timeout or Failure](ascend_npu_faq.md#hccl-communication-timeout-or-failure) in the FAQ.
+
+### vLLM-Ascend Import Error
+
+Verify that the CANN environment is properly sourced:
+
+```bash
+source /usr/local/Ascend/ascend-toolkit/set_env.sh
+source /usr/local/Ascend/nnal/atb/set_env.sh
+```
+
+### triton Conflict
+
+The `triton` package conflicts with `triton-ascend` on NPU. Fix with:
+
+```bash
+pip uninstall -y triton triton-ascend
+pip install triton-ascend==3.2.0
+```
+
+For more troubleshooting tips, see the [Ascend NPU FAQ](ascend_npu_faq.md).
+
+## Disclaimer
+
+The Ascend support provided in ROLL is intended as a reference example. For production use, please consult official channels.
diff --git a/docs_roll/docs/User Guides/Hardware Support/ascend_usage.md b/docs_roll/docs/User Guides/Hardware Support/ascend_usage.md
index 3cbd6d4a4..6f4c4a8d2 100644
--- a/docs_roll/docs/User Guides/Hardware Support/ascend_usage.md	
+++ b/docs_roll/docs/User Guides/Hardware Support/ascend_usage.md	
@@ -1,21 +1,21 @@
 # ROLL x Ascend
 
-Last updated: 11/25/2025.
+Last updated: 05/14/2026.
 
 We have added support for Huawei Ascend devices in ROLL.
 
 ## Hardware Support 
 
-Atlas 900 A2 PODc
+Atlas 900 A2 PODc and Atlas 900 A3 PODc
 
 ## Installation
 
 ### Basic Environment Setup
 
 | Software | Version |
-| -------- | ------- |
+| -------- |---------|
 | Python   | 3.11    |
-| CANN     | 8.3.RC1 |
+| CANN     | 8.5.1   |
 
 ### Create Conda Environment
 
@@ -31,11 +31,11 @@ conda activate roll
 To use torch and torch_npu in ROLL, install them using the commands below:
 
 ```
-# Use CPU only torch
-pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cpu
+# Use CPU-only torch when installing outside the pre-built image
+pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cpu
 
-# Install torch_npu 2.7.1
-pip install torch_npu==2.7.1
+# Install the torch_npu version matching torch/CANN
+pip install torch_npu==2.8.0
 ```
 
 ### Install vllm & vllm-ascend
@@ -44,7 +44,7 @@ To use vllm in ROLL, compile and install vllm and vllm-ascend as follows:
 
 ```
 # vllm
-git clone -b v0.11.0 --depth 1 https://github.com/vllm-project/vllm.git
+git clone -b v0.13.0 --depth 1 https://github.com/vllm-project/vllm.git
 cd vllm
 pip install -r requirements/build.txt
 
@@ -52,7 +52,7 @@ VLLM_TARGET_DEVICE=empty pip install -v -e .
 cd ..
 
 # vllm-ascend
-git clone -b v0.11.0rc1 --depth 1 https://github.com/vllm-project/vllm-ascend.git
+git clone -b v0.13.0 --depth 1 https://github.com/vllm-project/vllm-ascend.git
 cd vllm-ascend
 
 pip install -e .
@@ -61,11 +61,11 @@ cd ..
 
 Or you could install `vllm` and `vllm-ascend` from pre-built wheel:
 ```
-# Install vllm-project/vllm. The newest supported version is v0.11.0.
-pip install vllm==0.11.0
+# Install vllm-project/vllm. The newest supported version is v0.13.0.
+pip install vllm==0.13.0
 
 # Install vllm-project/vllm-ascend from pypi.
-pip install vllm-ascend==0.11.0rc1
+pip install vllm-ascend==0.13.0
 ```
 
 ### Install ROLL
@@ -82,16 +82,16 @@ cd ..
 
 | Software                    | Description   |
 | --------------------------- | ------------- |
-| transformers                | >= v4.57.1    |
+| transformers                | >= v4.57.6    |
 | flash_attn                  | not supported |
 | transformer-engine[pytorch] | not supported |
 
-1. `transformers` v4.57.1 supports enabling `--flash_attention_2`.
+1. `transformers` v4.57.6 supports enabling `--flash_attention_2`.
 2. `flash_attn` acceleration is not supported currently.
 3. `transformer-engine[pytorch]` is currently not supported.
 
 ```
-pip install transformers==4.57.1
+pip install transformers==4.57.6
 ```
 
 ## Quick Start: Single-Node Deployment
@@ -99,6 +99,8 @@ pip install transformers==4.57.1
 Before full usage, we recommend testing the single-node pipeline to verify your environment and installation.
 Since Megatron-LM training is not yet supported, first change `strategy_args` in the relevant files to use the `deepspeed` option.
 
+**Note:** Currently, colocated mode is not supported on NPU. You need to modify `device_mapping` to ensure that training and inference are performed on different cards.
+
 1. Run the single-node pipeline via shell:
 
 ```
@@ -122,10 +124,10 @@ python examples/start_agentic_pipeline.py \
 
 | Feature         | Example                                                      | Training Backend | Inference Backend | Hardware          |
 | --------------- | ------------------------------------------------------------ | ---------------- | ----------------- | ----------------- |
-| Agentic         | examples/qwen2.5-0.5B-agentic/run_agentic_pipeline_sokoban.sh | DeepSpeed        | vLLM              | Atlas 900 A2 PODc |
-| Agentic-Rollout | examples/qwen2.5-0.5B-agentic/run_agentic_rollout_sokoban.sh | DeepSpeed        | vLLM              | Atlas 900 A2 PODc |
-| DPO             | examples/qwen2.5-3B-dpo_megatron/run_dpo_pipeline.sh         | DeepSpeed        | vLLM              | Atlas 900 A2 PODc |
-| RLVR            | examples/qwen2.5-7B-rlvr_megatron/run_rlvr_pipeline.sh       | DeepSpeed        | vLLM              | Atlas 900 A2 PODc |
+| Agentic         | examples/qwen2.5-0.5B-agentic/run_agentic_pipeline_sokoban.sh | DeepSpeed        | vLLM              | Atlas 900 A3 PODc |
+| Agentic-Rollout | examples/qwen2.5-0.5B-agentic/run_agentic_rollout_sokoban.sh | DeepSpeed        | vLLM              | Atlas 900 A3 PODc |
+| DPO             | examples/qwen2.5-3B-dpo_megatron/run_dpo_pipeline.sh         | DeepSpeed        | vLLM              | Atlas 900 A3 PODc |
+| RLVR            | examples/qwen2.5-7B-rlvr_megatron/run_rlvr_pipeline.sh       | DeepSpeed        | vLLM              | Atlas 900 A3 PODc |
 
 ## Disclaimer
 
diff --git a/docs_roll/docs/User Guides/Pipeline/agent_pipeline_start.md b/docs_roll/docs/User Guides/Pipeline/agent_pipeline_start.md
index 56be4523d..7c0eeeb04 100644
--- a/docs_roll/docs/User Guides/Pipeline/agent_pipeline_start.md	
+++ b/docs_roll/docs/User Guides/Pipeline/agent_pipeline_start.md	
@@ -21,6 +21,9 @@ The ROLL (Reinforcement Learning Optimization for Large-Scale Learning) agentic
 * Train these agents using reinforcement learning algorithms like Proximal Policy Optimization (PPO), GRPO, and **reinforce++**.  
 * Evaluate agent performance on specific tasks and complex reasoning scenarios.  
 * Leverage [Ray](https://www.ray.io/) for efficient, distributed computation across large-scale GPU setups.
+* **Efficient Training Optimization**: Supports **Sequence Packing** (concatenating multiple short samples into a continuous sequence to reduce padding) and **Dynamic Batching
+** (dynamically grouping samples into batches based on their lengths, applying uniform padding within each batch to the length of the longest sample, thereby minimizing unnecessary computation).
+For configuration methods and implementation details, please refer to the dedicated documentation for `sequence packing` and `dynamic batching`.
 
 This guide provides a step-by-step walkthrough for utilizing these agentic capabilities.
 
diff --git a/docs_roll/docs/User Guides/Pipeline/agentic_pipeline_start.md b/docs_roll/docs/User Guides/Pipeline/agentic_pipeline_start.md
index d0d859340..a0b587392 100644
--- a/docs_roll/docs/User Guides/Pipeline/agentic_pipeline_start.md	
+++ b/docs_roll/docs/User Guides/Pipeline/agentic_pipeline_start.md	
@@ -33,7 +33,9 @@ Agentic Pipeline is ROLL's core pipeline for agent training, supporting multiple
 * **Asynchronous Training**: Decoupling of rollout/training supports asynchronous training.
 * **Multi-turn Interaction Support for Local Debugging**: Multi-turn interaction rollout supports local debugging, improving development efficiency for multi-turn interaction business.
 * **Flexible Policy Configuration**: Supports multiple distributed training strategies such as Megatron, DeepSpeed, vLLM, etc., allowing flexible configuration based on hardware resources.
-
+* **Efficient Training Optimization**: Supports **Sequence Packing** (concatenating multiple short samples into a continuous sequence to reduce padding) and **Dynamic Batching
+** (dynamically grouping samples into batches based on their lengths, applying uniform padding within each batch to the length of the longest sample, thereby minimizing unnecessary computation).
+For configuration methods and implementation details, please refer to the dedicated documentation for `sequence packing` and `dynamic batching`.
 ---
 
 ## ✨️ Core Components
diff --git a/docs_roll/docs/User Guides/Pipeline/distill_pipeline_start.md b/docs_roll/docs/User Guides/Pipeline/distill_pipeline_start.md
index 0cbb123da..8c9d563e3 100644
--- a/docs_roll/docs/User Guides/Pipeline/distill_pipeline_start.md	
+++ b/docs_roll/docs/User Guides/Pipeline/distill_pipeline_start.md	
@@ -35,6 +35,7 @@
 
 * **Efficient Distributed Computing**: Leverages the [Ray](https://www.ray.io/) framework to implement efficient distributed training on large-scale GPU clusters, significantly improving training speed and resource utilization.
 
+* **Efficient Training Optimization**: Supports **Sequence Packing** (concatenating multiple short samples into a continuous sequence to reduce padding). For configuration methods and implementation details, please refer to the dedicated documentation for `sequence packing`.
 ---
 
 
diff --git a/docs_roll/docs/User Guides/Pipeline/on_policy_distill_pipeline_start.md b/docs_roll/docs/User Guides/Pipeline/on_policy_distill_pipeline_start.md
new file mode 100644
index 000000000..479825b28
--- /dev/null
+++ b/docs_roll/docs/User Guides/Pipeline/on_policy_distill_pipeline_start.md	
@@ -0,0 +1,464 @@
+# On-Policy Distillation Pipeline
+
+**Table of Contents**
+
+- [On-Policy Distillation Pipeline](#on-policy-distillation-pipeline)
+  - [Overview](#overview)
+  - [Core Principles](#core-principles)
+    - [What is On-Policy Distillation?](#what-is-on-policy-distillation)
+    - [Difference from Off-Policy Distillation](#difference-from-off-policy-distillation)
+    - [Difference from RLVR](#difference-from-rlvr)
+    - [Loss Function: Reverse KL](#loss-function-reverse-kl)
+  - [Core Components](#core-components)
+    - [Main Module (`OnPolicyDistillPipeline`)](#main-module-onpolicydistillpipeline)
+    - [Configuration (`OnPolicyDistillConfig`)](#configuration-onpolicydistillconfig)
+    - [Worker Roles](#worker-roles)
+  - [Data Preparation](#data-preparation)
+    - [Data Format](#data-format)
+    - [Data Differences: Pure OPD vs Mixed Mode](#data-differences-pure-opd-vs-mixed-mode)
+  - [Running the Pipeline](#running-the-pipeline)
+    - [Method 1: Using Python Launch Script](#method-1-using-python-launch-script)
+    - [Method 2: Using Helper Shell Script](#method-2-using-helper-shell-script)
+  - [Configuration Details](#configuration-details)
+    - [Core Configuration Parameters](#core-configuration-parameters)
+  - [Step-by-Step Example](#step-by-step-example)
+    - [Step 1: Configuration Setup](#step-1-configuration-setup)
+    - [Step 2: Prepare Environment and Dependencies](#step-2-prepare-environment-and-dependencies)
+    - [Step 3: Launch the Pipeline](#step-3-launch-the-pipeline)
+    - [Step 4: Monitoring](#step-4-monitoring)
+    - [Step 5: Outputs and Results](#step-5-outputs-and-results)
+  - [FAQ](#faq)
+  - [References](#references)
+
+---
+
+## Overview
+
+On-Policy Distillation (OPD) is a training method that combines **online learning** and **knowledge distillation**. By having the student model learn the teacher model's behavior on its own generated trajectories, OPD achieves efficient model compression and capability transfer.
+
+This pipeline provides the following core advantages:
+
+* **Efficient Training**: Compared to reinforcement learning (RL), OPD provides dense reward signals, enabling more efficient training
+* **Teacher as Reward Model**: Directly uses the teacher model's log probabilities to compute rewards, eliminating the need to train a separate Reward Model
+* **Online Learning Advantage**: The student model learns on its own state distribution, avoiding distribution shift issues
+* **Full Reuse of RLVR Pipeline**: Built on the RLVR architecture, simple configuration, easy to use
+* **Support for Mixed Mode**: Can simultaneously use OPD rewards and external rewards (e.g., math verification, code execution)
+
+---
+
+## Core Principles
+
+### What is On-Policy Distillation?
+
+The core idea of On-Policy Distillation is: sample trajectories from the **student model**, then use a high-performance **teacher model** to score **each token** in the trajectory.
+
+```
+┌─────────────────────────────────────────────────────────────────┐
+│                    On-Policy Distillation Flow                   │
+├─────────────────────────────────────────────────────────────────┤
+│                                                                  │
+│   1. Sample Trajectories                                         │
+│   ┌──────────┐     ┌──────────────────────────────────┐         │
+│   │  Prompt  │ ──▶ │  Student Model (rollout)         │         │
+│   └──────────┘     │  Generate trajectories +          │         │
+│                    │  student_log_probs               │         │
+│                    └──────────────────────────────────┘         │
+│                              │                                   │
+│                              ▼                                   │
+│   2. Compute Teacher Log Probs                                   │
+│                    ┌──────────────────────────────────┐         │
+│                    │  Teacher Model (forward)         │         │
+│                    │  Compute teacher_log_probs       │         │
+│                    └──────────────────────────────────┘         │
+│                              │                                   │
+│                              ▼                                   │
+│   3. Compute Advantage                                           │
+│                    advantage = teacher_log_prob - student_log_prob│
+│                              │                                   │
+│                              ▼                                   │
+│   4. Train with Importance Sampling                              │
+│                    ┌──────────────────────────────────┐         │
+│                    │  Student Model (train)           │         │
+│                    │  Policy update using advantage   │         │
+│                    └──────────────────────────────────┘         │
+│                                                                  │
+└─────────────────────────────────────────────────────────────────┘
+```
+
+### Difference from Off-Policy Distillation
+
+| Feature | Off-Policy Distillation | On-Policy Distillation |
+|---------|------------------------|------------------------|
+| **Data Source** | Pre-generated data | Data generated in real-time by student model |
+| **State Distribution** | Teacher model's state distribution | Student model's state distribution |
+| **Reward Signal** | Dense (at each step) | Dense (at each step) |
+| **Distribution Shift** | Exists (student may enter states unseen by teacher) | None (learns on own distribution) |
+| **Use Case** | Large-scale offline distillation | Scenarios requiring online adaptation |
+
+### Difference from RLVR
+
+| Feature | RLVR | On-Policy Distillation |
+|---------|------|------------------------|
+| **Reward Source** | External reward models (e.g., math verification, code execution) | Teacher model's log probabilities |
+| **Reward Density** | Sparse (usually only final answer has reward) | Dense (every token has reward) |
+| **Training Efficiency** | Relatively lower | Higher (dense signals) |
+| **Reward Gaming** | Possible (teacher model cannot be "gamed") | Not possible (low KL = high quality behavior) |
+
+### Loss Function: Reverse KL
+
+On-Policy Distillation uses **Reverse KL** as the core loss function:
+
+$$\text{KL}(\pi_\theta || \pi_\text{teacher}) = \mathbb{E}_{x \sim \pi_\theta} \left[ \log \pi_\theta(x_{t+1} | x_{1..t}) - \log \pi_\text{teacher}(x_{t+1} | x_{1..t}) \right]$$
+
+**Advantages**:
+1. **Mode Seeking**: Learns specific behaviors from the teacher model rather than spreading across multiple suboptimal options
+2. **Cannot Be Gamed**: Low KL always corresponds to high-quality behavior recognized by the teacher model
+3. **Reduced Exposure Bias**: Learns on the student's own state distribution
+
+**Implementation**:
+```python
+# Pseudocode
+reverse_kl = sampled_logprobs - teacher_logprobs
+advantages = -reverse_kl  # Negative sign: minimize KL = maximize advantage
+```
+
+---
+
+## Core Components
+
+### Main Module
+
+Pure OPD mode reuses existing Pipelines, selected by `pure_opd_pipeline_type` config:
+
+- **RLVR Mode** (default): Uses `RLVRConfig` + `RLVRPipeline`
+- **Agentic Mode**: Uses `AgenticConfig` + `AgenticPipeline`
+
+The main differences from standard RLVR/Agentic training are:
+
+* **Reward Computation**: Uses Teacher Model's log probabilities instead of external reward models
+* **Advantage Computation**: `advantage = teacher_log_prob - student_log_prob`
+* **Worker Mapping**: `student_train` → `actor_train`, `student_infer` → `actor_infer`, `teacher` → `reference`
+
+**Source Code**:
+- Launcher script: `examples/start_onpolicy_distill_pipeline.py`
+- Pipeline: `roll/pipeline/rlvr/rlvr_pipeline.py` or `roll/pipeline/agentic/agentic_pipeline.py`
+- Config handling: `roll/configs/base_config.py` (`_handle_opd_mapping()` method)
+
+---
+
+### Configuration
+
+ROLL supports two On-Policy Distillation modes, both based on `RLVRConfig` (or `AgenticConfig`) config class:
+
+#### Mode 1: Pure OPD Mode (`is_pure_opd=True`)
+
+Suitable for scenarios that **only need distillation signals**, where rewards come entirely from the Teacher Model's KL divergence.
+
+**Launch Method**: Use `start_onpolicy_distill_pipeline.py` script, which automatically sets `is_pure_opd=True`.
+
+```yaml
+# Configure student_train, student_infer, teacher roles
+student_train:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ... training config
+
+student_infer:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ... inference config
+
+teacher:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-32B  # Can be different from student
+  # ... inference config
+```
+
+**Internal Mapping**:
+- `student_train` → `actor_train`
+- `student_infer` → `actor_infer`
+- `teacher` → `reference`
+
+**Computation Formula**:
+```
+token_level_rewards = -reverse_kl  # Pure KL signal, no external rewards
+```
+
+**Supported Pipeline Types**: Configured via `pure_opd_pipeline_type`:
+- `"rlvr"` (default): Uses RLVRConfig + RLVRPipeline
+- `"agentic"`: Uses AgenticConfig + AgenticPipeline
+
+
+#### Mode 2: Mixed Mode (`use_opd=True`)
+
+Suitable for scenarios that **use both external rewards and distillation signals**, for example, combining rule verification and Teacher KL in math reasoning tasks.
+
+```yaml
+# Use standard RLVRConfig config, enable use_opd
+use_opd: true
+opd_kl_coef: 1.0  # OPD KL coefficient, controls distillation signal weight
+
+# Configure teacher (will be auto-mapped to reference)
+teacher:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-32B
+
+# actor_train and actor_infer configured normally
+actor_train:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ...
+
+actor_infer:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ...
+```
+
+**Computation Formula**:
+```
+token_level_rewards = external_reward - opd_kl_coef * reverse_kl
+```
+
+#### Comparison of Two Modes
+
+| Feature | Pure OPD Mode | Mixed Mode |
+|---------|--------------|------------|
+| **Config Class** | `RLVRConfig` / `AgenticConfig` | `RLVRConfig` / `AgenticConfig` |
+| **Identifier Parameter** | `is_pure_opd=True` (set by script) | `use_opd=True` (user config) |
+| **Launch Script** | `start_onpolicy_distill_pipeline.py` | `start_rlvr_pipeline.py` |
+| **Worker Config** | `student_train`, `student_infer`, `teacher` | `actor_train`, `actor_infer`, `teacher` |
+| **Reward Source** | Teacher KL only | External reward + Teacher KL |
+| **Reward Workers** | For validation and statistics | For reward computation |
+| **Use Case** | Pure distillation training | RL + distillation joint training |
+
+---
+
+### Worker Roles
+
+On-Policy Distillation's Worker roles differ by mode:
+
+#### Pure OPD Mode
+
+Configure three roles, automatically mapped to internal Workers:
+
+| Config Name | Internal Mapping | Responsibility |
+|----------|----------|------|
+| `student_train` | `actor_train` | Train student model, compute loss using Teacher KL |
+| `student_infer` | `actor_infer` | Generate trajectories, compute student log_probs |
+| `teacher` | `reference` | Compute teacher log_probs |
+
+**Note**: Config file uses `student_train`, `student_infer`, `teacher` names, system will automatically map them.
+
+#### Mixed Mode
+
+Uses standard RLVR Worker names:
+
+| Worker | Responsibility |
+|--------|------|
+| `actor_train` | Train with external rewards combined with Teacher KL |
+| `actor_infer` | Generate trajectories, compute student log_probs |
+| `teacher` | Compute teacher log_probs (auto-mapped to reference) |
+| Reward Workers | **Participate in training** (compute external rewards) |
+
+---
+
+## Data Preparation
+
+On-Policy Distillation's data format is identical to RLVR, **does not include response** (generated by the model), only needs to provide prompt and reward-related fields.
+
+### Data Format
+
+```json
+{
+    "id": "0",
+    "source": "math_dataset",
+    "difficulty": 0,
+    "prompt": "Solve the following math problem: Calculate the value of x in 3x + 5 = 14",
+    "messages": "[{\"role\": \"system\", \"content\": \"You are a math assistant.\"}, {\"role\": \"user\", \"content\": \"Solve the following math problem: Calculate the value of x in 3x + 5 = 14\"}]",
+    "tag": "math_rule"
+}
+```
+
+### Data Differences: Pure OPD vs Mixed Mode
+
+| Field | Pure OPD Mode | Mixed Mode |
+|-------|--------------|------------|
+| `ground_truth` | **Required** (for validation and monitoring) | **Required** (for reward computation) |
+| `test_cases` | **Required** (code domain, for validation and monitoring) | **Required** (code domain, for reward computation) |
+| `prompt` / `messages` | Required | Required |
+
+**Notes**:
+- **Pure OPD Mode**: Rewards are provided by Teacher Model's KL divergence, but `ground_truth` and other fields are used for validation phase evaluation and training process monitoring
+- **Mixed Mode**: Requires `ground_truth` or `test_cases` fields, external rewards are part of the training signal
+
+---
+
+## Running the Pipeline
+
+### Method 1: Using Python Launch Script
+
+```bash
+# Make sure you're in the project root directory
+python examples/start_onpolicy_distill_pipeline.py \
+    --config_path examples/qwen3-8B-onpolicy-distill-megatron \
+    --config_name onpolicy_distill_config
+```
+
+### Method 2: Using Helper Shell Script
+
+```bash
+bash examples/qwen3-8B-onpolicy-distill-megatron/run_onpolicy_distill_pipeline.sh
+```
+
+---
+
+## Configuration Details
+
+### Core Configuration Parameters
+
+#### Pure OPD Mode
+
+**No additional OPD-related parameters need to be configured**. Users only need to configure the `teacher` model path, student model path, data, and Reward Workers.
+
+#### Mixed Mode (`PPOConfig` / `RLVRConfig`)
+
+| Parameter | Description | Default |
+|-----------|-------------|---------|
+| `use_opd` | Enable mixed mode OPD (add Teacher KL to rewards) | `false` |
+| `opd_kl_coef` | OPD KL coefficient, controls distillation signal weight relative to external rewards | `1.0` |
+
+
+---
+
+## Step-by-Step Example
+
+### Step 1: Configuration Setup
+
+* File: `examples/qwen3-8B-onpolicy-distill-megatron/onpolicy_distill_config.yaml`
+* Key sections include `exp_name`, `seed`, `output_dir`, model paths, `student_train`, `student_infer`, `teacher`, and reward configuration.
+
+* Pay special attention to these configuration sections:
+  * **Data Configuration**: `student_train.data_args.file_name`
+  * **Model Configuration**: `pretrain` (student model) and Teacher model path
+  * **Distributed Strategy**: `strategy_args` and `device_mapping` for each Worker
+  * **Reward Configuration**: Configure Reward Workers in the `rewards` section
+
+### Step 2: Prepare Environment and Dependencies
+
+* Ensure all necessary dependencies are installed:
+
+  ```bash
+  pip install -r requirements.txt
+  ```
+
+* Verify that all model paths in the configuration are accessible.
+
+* Prepare training and validation datasets, ensuring they conform to the data format requirements (containing `id`, `messages`/`prompt`, `tag`, `ground_truth`, etc. fields).
+
+### Step 3: Launch the Pipeline
+
+```bash
+python examples/start_onpolicy_distill_pipeline.py \
+       --config_path examples/qwen3-8B-onpolicy-distill-megatron \
+       --config_name onpolicy_distill_config
+```
+
+### Step 4: Monitoring
+
+* **Console Output** – Observe Hydra, Ray, and pipeline logs
+* **Log Files** – Check `logging_dir` specified in YAML
+* **TensorBoard**
+
+  ```bash
+  tensorboard --logdir <your_log_dir>
+  ```
+
+### Step 5: Outputs and Results
+
+* **Trained Model** – Checkpoints saved in `output_dir`
+* **Evaluation Metrics** – Logged in TensorBoard and console
+* **Generation Examples** – The pipeline periodically outputs generation examples for you to visually evaluate model improvements.
+
+---
+
+## FAQ
+
+### Q1: How to configure mixed mode?
+
+Use `RLVRConfig` (or `AgenticConfig`), set `use_opd: true`:
+
+```yaml
+# Mixed mode configuration
+use_opd: true
+opd_kl_coef: 0.5  # Adjust based on reward magnitude
+
+# Must configure external rewards
+rewards:
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    tag_included: [math]
+
+# Teacher configuration (automatically mapped to reference)
+teacher:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-32B
+
+# actor_train and actor_infer configured normally
+actor_train:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ... training config
+
+actor_infer:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ... inference config
+```
+
+### Q2: How to configure pure OPD mode?
+
+Use `start_onpolicy_distill_pipeline.py` script to launch:
+
+```yaml
+# Configure three roles
+student_train:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ... training config
+
+student_infer:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ... inference config
+
+teacher:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-32B  # Teacher can be different from Student
+  # ... inference config
+```
+
+Launch command:
+```bash
+python examples/start_onpolicy_distill_pipeline.py \
+    --config_path examples/qwen3-8B-onpolicy-distill-megatron \
+    --config_name onpolicy_distill_config
+```
+
+### Q3: Why do I need to configure Reward Workers?
+
+Whether in pure OPD mode or mixed mode, Reward Workers must be configured:
+
+1. **Validation Evaluation**: Validation phase needs Reward Workers to evaluate model performance
+2. **Training Monitoring**: Observe reward statistics to monitor training quality
+3. **Mixed Mode Additional Role**: External rewards are part of the training signal
+
+---
+
+## References
+
+- [On-Policy Distillation Blog](https://thinkingmachines.ai/blog/on-policy-distillation/)
+
+---
+
+*Happy experimenting!*
diff --git a/docs_roll/docs/User Guides/Pipeline/rlvr_pipeline_start.md b/docs_roll/docs/User Guides/Pipeline/rlvr_pipeline_start.md
index ff48b3015..dbef7f187 100644
--- a/docs_roll/docs/User Guides/Pipeline/rlvr_pipeline_start.md	
+++ b/docs_roll/docs/User Guides/Pipeline/rlvr_pipeline_start.md	
@@ -41,6 +41,9 @@
 
 * **Efficient Distributed Computing**: Leverages the [Ray](https://www.ray.io/) framework to implement efficient distributed training on large-scale GPU clusters, significantly improving training speed and resource utilization.
 
+* **Efficient Training Optimization**: Supports **Sequence Packing** (concatenating multiple short samples into a continuous sequence to reduce padding) and **Dynamic Batching** 
+(dynamically grouping samples into batches based on their lengths, applying uniform padding within each batch to the length of the longest sample, thereby minimizing unnecessary computation). 
+For configuration methods and implementation details, please refer to the dedicated documentation for `sequence packing` and `dynamic batching`.
 ---
 
 
diff --git a/docs_roll/docs/User Guides/Pipeline/sft_pipeline_start.md b/docs_roll/docs/User Guides/Pipeline/sft_pipeline_start.md
new file mode 100644
index 000000000..36f32b36b
--- /dev/null
+++ b/docs_roll/docs/User Guides/Pipeline/sft_pipeline_start.md	
@@ -0,0 +1,272 @@
+# SFT Pipeline
+
+**Table of Contents**
+
+- [SFT Pipeline](#sft-pipeline)
+  - [✨️ Overview](#️-overview)
+  - [✨️ Core Components](#️-core-components)
+    - [Main Module (`SFTPipeline`)](#main-module-sftpipeline)
+    - [Worker (`SFTWorker`)](#worker-sftworker)
+    - [Configuration (`SFTConfig`)](#configuration-sftconfig)
+      - [Config Structure and Organization](#config-structure-and-organization)
+  - [✨️ Data Preparation](#️-data-preparation)
+    - [Data Format](#data-format)
+      - [Required Fields and Field Mapping](#required-fields-and-field-mapping)
+      - [Chat Template and Labels Rules](#chat-template-and-labels-rules)
+    - [Validation Set (`validation`)](#validation-set-validation)
+  - [✨️ Running the Pipeline](#️-running-the-pipeline)
+    - [Method 1: Start with a Python Script](#method-1-start-with-a-python-script)
+    - [Method 2: Use a Helper Shell Script](#method-2-use-a-helper-shell-script)
+  - [✨️ Step-by-step Example](#️-step-by-step-example)
+    - [Step 1: Configuration](#step-1-configuration)
+    - [Step 2: Prepare Environment and Dependencies](#step-2-prepare-environment-and-dependencies)
+    - [Step 3: Launch the Pipeline](#step-3-launch-the-pipeline)
+    - [Step 4: Monitoring](#step-4-monitoring)
+    - [Step 5: Outputs and Results](#step-5-outputs-and-results)
+
+---
+
+## ✨️ Overview
+
+This pipeline is designed for Supervised Fine-Tuning (SFT) and provides:
+
+- **Unified data encoding and chat templates**: Supports concatenating system/user/assistant chat formats and automatically constructs `labels` (loss is computed only on the answer portion).
+- **Efficient distributed training**: Uses [Ray](https://www.ray.io/) plus a Cluster/Worker abstraction to launch distributed training.
+- **Comprehensive performance monitoring**: A fine-grained metrics tracking system that monitors performance indicators and provides full visualization and analysis of the training process.
+- **Efficient Training Optimization**: Supports **Sequence Packing** (concatenating multiple short samples into a continuous sequence to reduce padding). For configuration methods and implementation details, please refer to the dedicated documentation for `sequence packing`.
+---
+
+## ✨️ Core Components
+
+### Main Module (`SFTPipeline`)
+
+`SFTPipeline` (located at `roll/pipeline/sft/sft_pipeline.py`) is the main SFT training flow and is responsible for:
+
+- Loading the tokenizer.
+- Loading the training dataset and the (optional) validation dataset.
+- Encoding data with templates to generate `input_ids` / `attention_mask` / `labels`.
+- Initializing the distributed training cluster (`Cluster` + `SFTWorker`).
+- Training loop: trains by step, evaluates every `eval_steps`, saves checkpoints according to the save policy, records metrics, and reports them to the tracker.
+
+---
+
+### Worker (`SFTWorker`)
+
+`SFTWorker` (located at `roll/pipeline/sft/sft_worker.py`) executes training, evaluation, and checkpoint saving:
+
+- `initialize()`: Creates and initializes the distributed strategy (`create_strategy`) and loads the model.
+- `train_step()`: Runs one training step and returns training metrics.
+- `val_step()`: Runs one validation step (forward + loss) and returns validation metrics.
+- `do_checkpoint()`: Saves a checkpoint and returns metrics such as save time.
+
+---
+
+### Configuration (`SFTConfig`)
+
+`SFTConfig` (defined in `roll/pipeline/sft/sft_config.py`) is the configuration object (dataclass-style) for the SFT pipeline, and supports YAML + Hydra management.
+
+#### Config Structure and Organization
+
+Example config file: `examples/qwen2.5-7B-sft_megatron/sft_config.yaml`
+
+A typical config includes:
+
+1. **Experiment basics**
+   - `exp_name`: experiment name
+   - `seed`: random seed
+   - `logging_dir`: log directory
+   - `output_dir`: checkpoint/output directory
+
+2. **Training control parameters**
+   - `save_steps`: checkpoint saving frequency
+   - `logging_steps`: training metrics logging frequency
+   - `eval_steps`: evaluation frequency (effective when a validation set is enabled)
+   - `resume_from_checkpoint`: settings for resuming from a checkpoint
+
+3. **Model configuration**
+   - `pretrain`: path to the pretrained model
+
+4. **Data field mapping (critical)**
+   - `system_key`: system prompt field (optional)
+   - `prompt_key`: prompt field name (default: `instruction`)
+   - `query_key`: query field name (optional)
+   - `response_key`: response field name (default: `output`)
+   - `global_template`: global template name (optional; otherwise use `sft_train.data_args.template`)
+
+5. **Worker configuration (`sft_train`)**  
+   `sft_train` is a `WorkerConfig` and includes:
+
+   - **Data args** (`data_args`)
+     - `file_name`: training data JSON path (string or list)
+     - `template`: template name (used when `global_template` is not set)
+     - `preprocessing_num_workers`: number of preprocessing workers
+   - **Training args** (`training_args`)
+     - `num_train_epochs`
+     - `learning_rate`
+     - `per_device_train_batch_size`
+     - `gradient_accumulation_steps`
+     - `dataloader_num_workers`
+     - ...
+   - **Strategy args** (`strategy_args`)
+     - `strategy_name`: e.g., `megatron_train` / `deepspeed_train`, etc.
+     - Parallelism-related parameters (tensor/pipeline parallel sizes, etc.)
+   - **Device mapping** (`device_mapping`)
+     - Specifies which GPUs the worker uses
+   - **Inference batch** (used in validation)
+     - `infer_batch_size`: used during validation
+
+6. **Validation configuration (optional)**
+   - `validation.data_args.file_name`: validation data JSON path (validation is enabled only if set)
+
+---
+
+## ✨️ Data Preparation
+
+### Data Format
+
+The SFT pipeline uses **JSON** files loaded via HuggingFace Datasets.
+
+#### Required Fields and Field Mapping
+
+Each sample must be mappable to at least:
+
+- Prompt: specified by `prompt_key` (default: `instruction`)
+- Response: specified by `response_key` (default: `output`)
+
+Optional fields:
+
+- `system_key`: system prompt (optional)
+- `query_key`: additional input (optional; appended to the user content)
+
+#### Chat Template and Labels Rules
+
+Chat structure:
+
+- system (optional)
+- user (prompt + query)
+- assistant (response)
+
+Labels construction:
+
+- All tokens in the prompt portion are set to `IGNORE_INDEX` (not included in loss).
+- Tokens in the response portion use real token ids (included in loss).
+
+In other words: supervision is applied only to the model’s “answer portion”.
+
+---
+
+### Validation Set (`validation`)
+
+The validation set is optional:
+
+- It is loaded only if `validation.data_args.file_name` is configured.
+- During training, validation is triggered according to `eval_steps`.
+- Validation is executed by `sft_train.val_step` (no separate validation worker is launched).
+
+---
+
+## ✨️ Running the Pipeline
+
+### Method 1: Start with a Python Script
+
+Start with `examples/start_sft_pipeline.py`; Hydra loads the configuration:
+
+```bash
+# Make sure you are in the ROLL project root directory
+# export PYTHONPATH=$(pwd):$PYTHONPATH
+
+python examples/start_sft_pipeline.py \
+       --config_path examples/qwen2.5-7B-sft_megatron \
+       --config_name sft_config
+```
+
+- `--config_path` – config directory: `examples/qwen2.5-7B-sft_megatron`
+- `--config_name` – config file name: `sft_config` (corresponds to `sft_config.yaml`)
+
+---
+
+### Method 2: Use a Helper Shell Script
+
+Example:
+
+```bash
+#!/bin/bash
+# Example: examples/qwen2.5-7B-sft_megatron/run_sft_pipeline.sh
+
+CONFIG_NAME="sft_config"
+CONFIG_PATH="examples/qwen2.5-7B-sft_megatron"
+
+python examples/start_sft_pipeline.py \
+       --config_path $CONFIG_PATH \
+       --config_name $CONFIG_NAME \
+       "$@"
+```
+
+Run:
+
+```bash
+bash examples/qwen2.5-7B-sft_megatron/run_sft_pipeline.sh
+```
+
+---
+
+## ✨️ Step-by-step Example
+
+### Step 1: Configuration
+
+Config file: `examples/qwen2.5-7B-sft_megatron/sft_config.yaml`
+
+Key items to check:
+
+- **Data config**: `sft_train.data_args.file_name`
+- **Field mapping**: `prompt_key/query_key/response_key/system_key`
+- **Model config**: `pretrain`
+- **Distributed strategy**: `sft_train.strategy_args` and `sft_train.device_mapping`
+- **Validation config (optional)**: `validation.data_args.file_name` and `eval_steps`
+- **Template selection**: `global_template` or `sft_train.data_args.template`
+
+### Step 2: Prepare Environment and Dependencies
+
+```bash
+pip install -r requirements.txt
+```
+
+Also ensure:
+
+- The `pretrain` path is accessible
+- The fields in training/validation JSON match `prompt_key/response_key/...`
+
+### Step 3: Launch the Pipeline
+
+```bash
+python examples/start_sft_pipeline.py \
+       --config_path examples/qwen2.5-7B-sft_megatron \
+       --config_name sft_config
+```
+
+### Step 4: Monitoring
+
+- **Console output** – watch Hydra, Ray, and pipeline logs
+- **Log files** – check `logging_dir`
+- **TensorBoard**
+  ```bash
+  tensorboard --logdir <your_log_dir>
+  ```
+
+### Step 5: Outputs and Results
+
+- **Trained model** – checkpoints are saved under `output_dir` with the default structure:
+
+  ```
+  <output_dir>/sft_train/checkpoint-<global_step>/<cluster_name>/
+  ```
+
+  Where:
+  - `<global_step>`: current training step (e.g., `checkpoint-200`)
+  - `<cluster_name>`: distributed cluster name (determined by Cluster/Ray runtime)
+
+- **Training/validation metrics** – recorded in the terminal and tracker/TensorBoard (depending on tracker configuration)
+
+---
+
+*Happy experimenting!*
\ No newline at end of file
diff --git a/docs_roll/docusaurus.config.js b/docs_roll/docusaurus.config.js
index 5dd85efe8..d6d52e5c0 100644
--- a/docs_roll/docusaurus.config.js
+++ b/docs_roll/docusaurus.config.js
@@ -2,6 +2,8 @@
 // Note: type annotations allow type checking and IDEs autocompletion
 
 const { themes } = require('prism-react-renderer');
+import remarkMath from 'remark-math';
+import rehypeKatex from 'rehype-katex';
 const lightTheme = themes.github;
 const darkTheme = themes.dracula;
 
@@ -24,8 +26,8 @@ const config = {
   organizationName: 'alibaba', // Usually your GitHub org/user name.
   projectName: 'ROLL', // Usually your repo name.
 
-  onBrokenLinks: 'throw',
-  onBrokenMarkdownLinks: 'throw',
+  onBrokenLinks: 'warn',
+  onBrokenMarkdownLinks: 'warn',
 
   // Even if you don't use internalization, you can use this field to set useful
   // metadata like html lang. For example, if your site is Chinese, you may want
@@ -60,7 +62,9 @@ const config = {
           // Remove this to remove the "edit this page" links.
           editUrl:
             'https://github.com/alibaba/ROLL/tree/main/docs_roll/',
-          showLastUpdateTime: true
+          showLastUpdateTime: true,
+          remarkPlugins: [remarkMath],
+          rehypePlugins: [rehypeKatex],
         },
         blog: {
           showReadingTime: true,
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Development/Developer Guide/custom_loss_func_cn.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Development/Developer Guide/custom_loss_func_cn.md
new file mode 100644
index 000000000..46b2c89e4
--- /dev/null
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Development/Developer Guide/custom_loss_func_cn.md	
@@ -0,0 +1,362 @@
+# 自定义 `loss_func` 实现指南
+
+在 ROLL 中实现自定义 `loss_func` 时，最关键的是 **loss 的聚合方式（aggregate）** 与 **`loss_scale` 的处理**。如果这两点处理不当，会导致最终计算出的 loss 或梯度 **不等价于对整个 global batch 一次性前向计算的结果**，从而引入训练偏差——这在 **数据并行（DP） + 梯度累积（Gradient Accumulation, GA） + 序列打包（Sequence Packing）** 的复杂训练场景下尤为严重。
+
+---
+
+## 1. 常用 Loss 聚合方式
+
+设一个 **global batch** 包含 $B$ 个序列。第 $i$ 个序列长度为 $T_i$，其 token 级 mask 为 $m_{i,t} \in \{0,1\}$，表示该位置是否参与 loss 计算。有效 token 数为：
+
+$$
+N_i = \sum_{t=1}^{T_i} m_{i,t}, \quad N_{\text{all}} = \sum_{i=1}^{B} N_i
+$$
+
+令 $\mathcal{L}_{i,t}$ 表示第 $i$ 个序列第 $t$ 个位置的逐 token loss（如 NLL、CE、KL 散度、策略损失等）。
+
+### 1.1 Token-level Loss（token-mean）
+
+对 global batch 中 **所有有效 token 求平均**：
+
+$$
+\mathcal{L}_{\text{token}} = \frac{1}{N_{\text{all}}} \sum_{i=1}^{B} \sum_{t=1}^{T_i} m_{i,t} \mathcal{L}_{i,t}
+$$
+
+**特点**：每个 token 权重相同，长序列因包含更多有效 token 而贡献更大。
+
+### 1.2 Sequence-level Loss（seq-mean）
+
+先对每条序列内部做聚合，再对所有序列求平均。ROLL 中常用两种变体：
+
+**(a) seq-mean-token-sum**  
+序列内对 token 求和，再对序列求平均：
+$$
+\mathcal{L}_{\text{seq-sum}} = \frac{1}{B} \sum_{i=1}^{B} \left( \sum_{t=1}^{T_i} m_{i,t} \mathcal{L}_{i,t} \right)
+$$
+
+**(b) seq-mean-token-mean**  
+序列内对 token 求平均，再对序列求平均：
+$$
+\mathcal{L}_{\text{seq-mean}} = \frac{1}{B} \sum_{i=1}^{B} \left( \frac{1}{N_i} \sum_{t=1}^{T_i} m_{i,t} \mathcal{L}_{i,t} \right)
+$$
+
+**特点**：每条序列权重相同，不会因长度不同而产生偏差。
+
+---
+
+## 2. 分布式训练中的 micro-batch 划分
+
+实际训练中，一个 global step 通常同时涉及：
+
+- **数据并行（DP）**：global batch 被划分到多个 DP rank 上；
+- **梯度累积（GA）**：每个 rank 将其数据进一步划分为多个 micro-batch，逐次前向/反向；
+- **序列打包（Sequence Packing）**：为减少 padding、提升 GPU 利用率，将多个样本拼接成固定长度的 packed 序列。
+
+设：
+- DP world size 为 $D$，
+- Gradient accumulation steps 为 $A$，
+- 则一个 global step 内共有 $M = D \times A$ 个 micro-batch。
+
+第 $k$ 个 micro-batch 包含的样本集合记为 $\mathcal{S}_k$，其有效 token 数为：
+$$
+N_k = \sum_{(i,t) \in \mathcal{S}_k} m_{i,t}, \quad N_{\text{all}} = \sum_{k=1}^{M} N_k
+$$
+其包含的序列数量（即样本数）为 $B_k$，满足：
+$$
+B = \sum_{k=1}^{M} B_k
+$$
+
+### 2.1 为什么 sequence packing 会导致 $B_k$ 不固定？
+
+开启 sequence packing 后，框架通常按 **token 预算**（而非固定样本数）来构建 micro-batch：
+
+- 短序列可被密集打包 → 某些 micro-batch 包含较多样本（$B_k$ 较大）；
+- 长序列占用更多空间 → 某些 micro-batch 只能容纳较少样本（$B_k$ 较小）。
+
+因此，在 packing 场景下，各 micro-batch 的样本数 $B_k$ 通常是**不均衡且不可预测的**。这对 sequence-level loss 的正确聚合提出了挑战。
+
+---
+
+## 3. 核心问题：为何不能在 micro-batch 内使用局部统计量做归一化？
+
+ROLL 的目标是：**无论训练配置如何（DP/GA/Packing），最终用于反向传播的 loss 必须严格等价于对整个 global batch 一次性计算的结果**（见第 1 节）。
+
+若在每个 micro-batch 内使用其自身的统计量（如 $N_k$ 或 $B_k$）进行归一化，再依赖 backend 进行梯度累积，通常会导致**非等价结果**。
+
+### 3.1 Token-level：错误的 micro 内归一化
+
+**错误做法**（用 micro 自身 token 数归一化）：
+$$
+\ell_k^{\text{wrong}} = \frac{1}{N_k} \sum_{(i,t) \in \mathcal{S}_k} m_{i,t} \mathcal{L}_{i,t}
+$$
+
+若 micro-batch 之间被等权平均（如通过梯度平均实现），则总 loss 为：
+$$
+\frac{1}{M} \sum_{k=1}^{M} \ell_k^{\text{wrong}} = \frac{1}{M} \sum_{k=1}^{M} \left( \frac{1}{N_k} \sum_{(i,t) \in \mathcal{S}_k} m_{i,t} \mathcal{L}_{i,t} \right)
+$$
+
+而正确的 global token-mean 应为：
+$$
+\mathcal{L}_{\text{token}} = \frac{1}{N_{\text{all}}} \sum_{k=1}^{M} \sum_{(i,t) \in \mathcal{S}_k} m_{i,t} \mathcal{L}_{i,t}
+$$
+
+二者仅在所有 $N_k$ 相等时才一致。在变长序列或 packing 场景下，$N_k$ 差异显著，导致偏差。
+
+### 3.2 Sequence-level：micro 内 seq-mean 导致样本权重失衡
+
+以 `seq-mean-token-mean` 为例：
+
+**错误做法**（用 micro 自身样本数 $B_k$ 归一化）：
+$$
+\ell_k^{\text{wrong}} = \frac{1}{B_k} \sum_{i \in \mathcal{S}_k} \bar{\mathcal{L}}_i, \quad \text{其中 } \bar{\mathcal{L}}_i = \frac{1}{N_i} \sum_t m_{i,t} \mathcal{L}_{i,t}
+$$
+
+micro 间等权平均后得到：
+$$
+\frac{1}{M} \sum_{k=1}^{M} \ell_k^{\text{wrong}} = \frac{1}{M} \sum_{k=1}^{M} \left( \frac{1}{B_k} \sum_{i \in \mathcal{S}_k} \bar{\mathcal{L}}_i \right)
+$$
+
+而正确的 global seq-mean 是：
+$$
+\mathcal{L}_{\text{seq-mean}} = \frac{1}{B} \sum_{i=1}^{B} \bar{\mathcal{L}}_i
+$$
+
+前者等价于“每个 micro-batch 等权”，后者是“每个序列等权”。当 $B_k$ 不固定时（packing 常见），两者不等价。
+
+---
+
+## 4. 正确做法：使用全局分母 + micro 间求和
+
+ROLL 的设计原则是：
+
+1. **在 micro-batch 内部聚合时，直接使用 global 统计量作为分母**；
+2. **每个 micro-batch 返回的 loss 应设计为 global loss 的一部分**；
+3. **所有 micro-batch 的 loss 相加后，应精确等于 global loss**；
+4. **通过 `loss_scale` 抵消 backend 的默认归一化行为**（见第 5 节）。
+
+### 4.1 Token-level 的正确实现
+
+对第 $k$ 个 micro-batch：
+$$
+\ell_k = \frac{1}{N_{\text{all}}} \sum_{(i,t) \in \mathcal{S}_k} m_{i,t} \mathcal{L}_{i,t}
+$$
+
+则：
+$$
+\sum_{k=1}^{M} \ell_k = \frac{1}{N_{\text{all}}} \sum_{k=1}^{M} \sum_{(i,t) \in \mathcal{S}_k} m_{i,t} \mathcal{L}_{i,t} = \mathcal{L}_{\text{token}}
+$$
+
+✅ 严格等价。
+
+### 4.2 Sequence-level 的正确实现（以 seq-mean-token-mean 为例）
+
+对第 $k$ 个 micro-batch：
+$$
+\ell_k = \frac{1}{B} \sum_{i \in \mathcal{S}_k} \bar{\mathcal{L}}_i
+$$
+
+则：
+$$
+\sum_{k=1}^{M} \ell_k = \frac{1}{B} \sum_{i=1}^{B} \bar{\mathcal{L}}_i = \mathcal{L}_{\text{seq-mean}}
+$$
+
+✅ 即使 $B_k$ 不固定（packing 场景），仍严格成立。
+
+---
+
+## 5. `loss_scale`：抵消 backend 的默认归一化
+
+大多数训练框架（如 Megatron、FSDP）为保证梯度尺度稳定，在 DP + GA 下会对梯度做隐式归一化：
+
+- **GA 维度**：对 $A$ 次 micro-step 的梯度取平均（等效于 `loss /= A`）；
+- **DP 维度**：AllReduce 后除以 $D$（等效于跨 rank 求平均）。
+
+综合效果等价于：
+$$
+g \propto \frac{1}{M} \sum_{k=1}^{M} \nabla \ell_k, \quad M = D \times A
+$$
+
+但 ROLL 的 aggregate 设计要求 **micro 间是求和语义**：
+$$
+\nabla \mathcal{L}_{\text{global}} = \sum_{k=1}^{M} \nabla \ell_k
+$$
+
+为抵消 backend 的 $1/M$ 归一化，需在每个 micro-batch 的 loss 上乘以：
+$$
+\text{loss\_scale} = M
+$$
+
+这样：
+$$
+\frac{1}{M} \sum_{k=1}^{M} \nabla (M \cdot \ell_k) = \sum_{k=1}^{M} \nabla \ell_k
+$$
+
+✅ 恢复了正确的求和语义。
+
+---
+
+## 6. ROLL 接口：全局统计量注入机制与 `loss_scale` 控制
+
+在 ROLL 中，为了支持在 micro-batch 级别实现**全局等价的 loss 聚合**，框架会自动为每个训练 step 注入当前 global batch 的全局统计信息（如总有效 token 数、总有效样本数）。这些信息的**计算方式完全由用户通过 `loss_mask_keys` 指定**。
+
+### 6.1 `loss_mask_keys`：定义 loss 参与范围，并驱动全局统计注入
+
+`loss_mask_keys` 是一个字符串列表，用于声明 **哪些 mask 字段应被用于识别“参与 loss 计算的有效 token”**。该配置不仅指导 loss 函数如何屏蔽无效位置，更重要的是——**它直接决定了 strategy 如何统计并注入全局聚合量**。
+
+你需要在 pipeline 的数据预处理或 worker 初始化阶段设置：
+```python
+data.meta_info['loss_mask_keys'] = ['response_mask', 'labels_mask']
+```
+
+对于 `loss_mask_keys` 中的每一个 key（例如 `'response_mask'`），ROLL 的 strategy 会：
+
+1. **从 `data.batch` 中提取对应的 mask 张量**（形状通常为 `[batch_size, seq_len]`）；
+2. **跨所有 DP rank 和 GA steps 收集该 mask**；
+3. **计算两个全局统计量**：
+   - **`batch_num_tokens[key]`**：该 mask 在整个 global batch 中的 **总和**，即  
+     $$
+     N_{\text{all}}^{(\text{key})} = \sum_{\text{all samples}} \sum_{t} \text{mask}_{i,t}^{(\text{key})}
+     $$
+   - **`global_valid_samples[key]`**：该 mask **至少有一个有效 token 的序列数量**，即  
+     $$
+     B^{(\text{key})} = \sum_{i=1}^{B} \mathbb{I}\left( \sum_{t} \text{mask}_{i,t}^{(\text{key})} > 0 \right)
+     $$
+
+这些统计量会被注入到 `data.meta_info` 中，供 `loss_func` 使用。
+
+> ⚠️ **关键一致性要求**：你在 `loss_func` 中用于计算 loss、加权或聚合的 mask，**必须与 `loss_mask_keys` 中指定的 key 对应的 mask 语义完全一致**。  
+> 例如，若 `loss_mask_keys = ['response_mask']`，则你的 loss 必须且只能基于 `response_mask` 来屏蔽 token；若实际使用了其他 mask（如 `attention_mask`），会导致分子（loss 计算）与分母（全局统计）不匹配，破坏等价性。
+
+### 6.2 在 `loss_func` 中使用注入的全局统计量
+
+在自定义 `loss_func` 中，你可以通过以下方式获取对应 mask 的全局统计量：
+
+```python
+# 假设 loss_mask_keys 包含 'response_mask'
+mask_key = 'response_mask'
+
+N_all = data.meta_info['batch_num_tokens'][mask_key]        # 全局有效 token 数
+B_all = data.meta_info['global_valid_samples'][mask_key]    # 全局有效样本数
+```
+
+然后在聚合时直接使用这些全局值作为分母（见第 4 节），确保 micro-batch 的局部计算能精确还原 global loss。
+
+### 6.3 `apply_loss_scale`：控制是否应用梯度尺度校正
+
+由于训练 backend（如 Megatron/FSDP）在 DP + GA 下通常会对梯度做 $1/(D \times A)$ 的隐式归一化，而 ROLL 的聚合设计依赖**求和语义**，因此需要通过 `loss_scale = D \times A` 进行补偿。
+
+在 `worker_config` 中，参数 `apply_loss_scale` 控制是否自动应用此缩放：
+
+- **默认值：`True`**（推荐保持开启）
+- **作用**：框架会自动将 `loss_func` 返回的 loss 乘以 `loss_scale`
+- **何时关闭**：仅当你在 `loss_func` 内部已手动完成完整 global loss（含 scale）时才设为 `False`，一般不建议。
+
+---
+
+## 7. Metrics 记录：使用 `@sum` 语义
+
+对于通过全局分母聚合的 loss，其 metrics 在多 worker reduce 时**不应取平均**，而应**求和**。
+
+ROLL 支持在 metric 名称后添加 `@操作符` 来指定 reduce 方式：
+
+```python
+metrics = {
+    "actor/kl_loss@sum": kl_loss.detach().item(),
+}
+reduce_metrics(metrics)
+```
+
+- `@sum`：reduce 时对所有 worker 的值求和；
+- `@mean`（默认）：求平均；
+- 日志记录时会自动过滤 `@` 及之后的内容，最终显示为 `actor/kl_loss`。
+
+---
+
+## 8. 代码示例：Actor 中 KL Loss 的全局等价实现
+
+### 8.1 计算逐 token KL
+
+```python
+kl_loss = compute_approx_kl(
+    log_probs=log_probs,
+    log_probs_base=ref_log_probs,
+    action_mask=final_response_mask,
+    kl_penalty="k3"
+)
+```
+
+### 8.2 调用聚合函数（使用全局分母）
+
+```python
+kl_loss = agg_loss(
+    loss_mat=kl_loss,
+    loss_mask=final_response_mask,
+    loss_agg_mode=self.pipeline_config.loss_agg_mode,
+    batch_num_tokens=batch_num_tokens['final_response_mask'],
+    global_valid_samples=global_valid_samples['final_response_mask'],
+)
+```
+
+### 8.3 `agg_loss` 关键实现
+
+```python
+def agg_loss(loss_mat, loss_mask, loss_agg_mode, batch_num_tokens=None, global_valid_samples=None, weights=None):
+    if batch_num_tokens is None:
+        batch_num_tokens = loss_mask.sum()
+    if global_valid_samples is None:
+        global_valid_samples = loss_mat.size(0)
+
+    if loss_agg_mode == "token-mean":
+        loss = (loss_mat * loss_mask).sum() / batch_num_tokens
+    elif loss_agg_mode == "seq-mean-token-sum":
+        seq_losses = (loss_mat * loss_mask).sum(dim=-1)
+        valid = (loss_mask.sum(dim=-1) > 0).float()
+        loss = (seq_losses * valid).sum() / (global_valid_samples + 1e-8)
+    elif loss_agg_mode == "seq-mean-token-mean":
+        seq_means = masked_mean(loss_mat, loss_mask, dim=-1)  # 自定义函数，支持 mask
+        valid = (loss_mask.sum(dim=-1) > 0).float()
+        loss = (seq_means * valid).sum() / (global_valid_samples + 1e-8)
+    else:
+        raise ValueError(f"Unsupported loss_agg_mode: {loss_agg_mode}")
+    
+    return loss
+```
+
+### 8.4 记录指标
+
+```python
+pg_metrics = {"actor/kl_loss@sum": kl_loss.detach().item()}
+```
+
+---
+
+## 9. 设计建议：自定义 loss 实现 Checklist（⚠️ 所有注意事项汇总）
+
+为确保 loss 在任意训练配置下保持数学等价性和训练稳定性，请严格遵循以下 checklist：
+
+### ✅ **Loss 粒度与聚合模式**
+- 明确你的 loss 是 **token-level** 还是 **sequence-level**。
+- 根据需求选择正确的 `loss_agg_mode`（如 `"token-mean"`、`"seq-mean-token-mean"`）。
+
+### ✅ **全局分母使用（核心！）**
+- **禁止**在 micro-batch 内使用局部统计量（如 `loss_mask.sum()` 或 `loss_mat.shape[0]`）作为分母。
+- **必须**使用 `data.meta_info['batch_num_tokens'][key]` 和 `data.meta_info['global_valid_samples'][key]` 提供的**全局统计量**。
+
+### ✅ **`loss_mask_keys` 配置与一致性（极易出错！）**
+- 在 pipeline 中显式设置 `data.meta_info['loss_mask_keys']`。
+- **确保** `loss_func` 中用于计算/屏蔽/加权的 mask **与 `loss_mask_keys` 中指定的 key 完全对应**。
+- 若使用多个 mask（如 response + labels），需全部列入 `loss_mask_keys`，并分别处理。
+
+### ✅ **`apply_loss_scale` 设置**
+- **保持默认 `True`**，除非你完全理解并接管了 scale 逻辑。
+- 错误关闭会导致梯度被 backend 隐式缩小 $1/(D \times A)$ 倍，训练发散或收敛极慢。
+
+### ✅ **Metrics 记录方式**
+- 对使用全局分母聚合的 loss，**必须**在 metric 名称后加 `@sum`（如 `"loss@sum"`）。
+- 否则 reduce 时取平均会导致 logged loss 值错误（偏小 $M$ 倍）。
+
+### ✅ **Packing 场景特别注意**
+- 不要假设 micro-batch 的样本数 $B_k$ 或 token 数 $N_k$ 固定。
+- 所有聚合逻辑必须**不依赖 micro 内部统计量**，只依赖全局注入值。
+
+---
\ No newline at end of file
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Development/Developer Guide/llm_as_judge_optimization.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Development/Developer Guide/llm_as_judge_optimization.md
new file mode 100644
index 000000000..553111ff2
--- /dev/null
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Development/Developer Guide/llm_as_judge_optimization.md	
@@ -0,0 +1,262 @@
+# LLM as Judge 在 Agentic 环境中的优化实现
+
+本文档介绍 ROLL 框架中 LLM as Judge 在 Agentic 环境中的优化实现方案，包括系统架构、调用链路、配置方法和最佳实践。
+
+## 概览
+
+LLM as Judge 是一种使用大语言模型作为评判器来评估智能体响应质量的方法。在 Agentic 训练场景中，大规模环境实例并发执行 rollout 时，使用 LLM as Judge 计算 reward 会产生大量并发 LLM 请求，这对外部 LLM 服务的稳定性和吞吐量提出了巨大挑战。
+
+为解决这一问题，ROLL 框架通过**独立的 Reward Cluster** 和**高效的调度机制**，实现了可扩展的本地化并行评估系统，避免了对外部服务的依赖，确保了训练过程的稳定性和可控性。
+
+:::info 文档说明
+本文档以 **DeepEyes 环境**的 LLM as Judge 实现为例进行说明。对于其他需要使用 LLM as Judge 的环境，可以参考 `env_manager` 和 `env` 内的调用方式自定义实现。
+:::
+
+### 核心优势
+
+- **独立资源管理**：Reward 模型与 Policy 模型分离，可独立分配 GPU 资源，避免资源竞争
+- **本地化部署**：通过本地 Reward Cluster 避免外部 API 依赖，保证服务稳定性和数据安全
+- **高并发支持**：通过 RequestScheduler 实现多环境并行的高效 reward 评估，支持环境并发扩展
+- **统一接口设计**：提供 `generate_by_proxy` 统一工具函数，简化 LLM 调用逻辑，支持文本和多模态
+- **灵活配置**：支持多种推理后端（vLLM、SGLang）和自定义生成参数
+
+### 应用场景
+
+典型的 Agentic 训练场景：
+- **环境规模**：256个环境组，每组 4 个环境，共 1024个并发环境实例
+- **Rollout 频率**：每个环境完成 episode 后调用 LLM Judge
+- **并发压力**：在 rollout 高峰期可能有 500+ 个环境同时请求 reward 评估
+- **稳定性要求**：训练过程不能因为外部 API 限流或超时而中断
+
+通过本文档介绍的优化实现，可以有效应对上述挑战。
+
+## 系统架构
+
+### 整体架构
+
+```
+AgenticPipeline
+    ├── Reward Cluster (可选，独立GPU资源)
+    │   ├── InferWorker (默认)
+    │   └── 支持 vLLM/SGLang 后端
+    │
+    ├── Reward Scheduler (Ray Named Actor)
+    │   ├── 请求路由与负载均衡
+    │   ├── 并发控制
+    │   └── 请求追踪与清理
+    │
+    └── Environment Manager
+        ├── llm_proxy: 用于 policy 推理
+        ├── reward_proxy: 用于 LLM as Judge
+        └── env实例
+            └── 在 obtain_outcome_reward 中调用 reward_proxy
+```
+
+### 关键组件
+
+#### 1. Reward Cluster
+
+**位置**: `roll/pipeline/agentic/agentic_pipeline.py:88-98`
+
+Reward Cluster 是可选组件，仅在配置了 `device_mapping` 时创建：
+
+```python
+self.reward = None
+if (self.pipeline_config.reward is not None and
+    len(self.pipeline_config.reward.device_mapping) > 0):
+    self.reward = Cluster(
+        name=self.pipeline_config.reward.name,
+        worker_cls=self.pipeline_config.reward.worker_cls,  # 默认 InferWorker
+        resource_manager=self.resource_manager,
+        worker_config=self.pipeline_config.reward,
+    )
+```
+
+**Worker Class 默认配置**: `roll/pipeline/agentic/agentic_config.py:287`
+- 默认使用 `InferWorker` 作为推理引擎，复用ActorInfer Worker实现
+- 支持 vLLM、SGLang等多种后端
+
+#### 2. Reward Scheduler (Ray Named Actor)
+
+**位置**: `roll/pipeline/agentic/agentic_pipeline.py:112-125`
+
+Reward Scheduler 作为 Ray Named Actor 创建，供所有环境管理器共享访问：
+
+```python
+self.reward_scheduler = RequestScheduler.options(
+    name=f"RewardScheduler-{self.pipeline_config.reward.name}",
+    get_if_exists=True,
+    namespace=RAY_NAMESPACE,
+    scheduling_strategy=NodeAffinitySchedulingStrategy(...)
+).remote(
+    infer_cluster=self.reward,
+    pipeline_config=self.pipeline_config,
+    resource_manager=self.resource_manager,
+)
+```
+
+**核心功能**:
+
+- **智能路由**: 使用最少负载路由算法分配请求到不同的 DP rank
+- **粘性路由**: 同一环境的请求固定路由到同一 worker（利于 KV cache）
+- **请求追踪**: 维护 `request_id` 到 worker 的映射关系
+
+#### 3. Reward Proxy
+
+**位置**: `roll/pipeline/agentic/env_manager/vl_traj_env_manager.py:85-109`
+
+环境管理器通过 Ray 获取 Reward Scheduler 并创建 Reward Proxy：
+
+```python
+# 从 Ray 获取 reward scheduler (Named Actor)
+if self.pipeline_config.reward:
+    self.reward_scheduler = ray.get_actor(
+        name=f"RewardScheduler-{pipeline_config.reward.name}",
+        namespace=RAY_NAMESPACE
+    )
+
+    # 创建 reward proxy
+    self.reward_proxy = create_llm_proxy(
+        generate_scheduler=self.reward_scheduler,
+        llm_proxy_config=pipeline_config.reward.llm_proxy,
+        tokenizer=self.reward_tokenizer,
+        env=None,
+    )
+```
+
+**Proxy 工厂函数**: `roll/pipeline/agentic/llm_proxy/__init__.py:11`
+- 支持多种 proxy 类型：`policy`、`openai`、`random`
+- 通过注册机制实现可扩展性
+- 训练验证过policy设置功能正常，基于外部部署的大模型服务可使用openai proxy，注意对并发的挑战
+
+#### 4. 统一工具函数 `generate_by_proxy`
+
+**位置**: `roll/pipeline/agentic/llm_proxy/proxy_utils.py:18-170`
+
+这是env调用的核心组件，提供统一的 LLM 调用接口：
+
+```python
+def generate_by_proxy(
+    messages: List[Dict[str, Any]],
+    tokenizer: PreTrainedTokenizer,
+    proxy: BaseLLMProxy,
+    enable_thinking: bool = False,
+    generation_config: Optional[Dict[str, Any]] = None,
+    collator: Optional[Any] = None,
+    mm_data: Optional[Dict[str, Any]] = None,
+    src_rank: Optional[int] = None,
+) -> Optional[str]
+```
+
+**核心特性**:
+
+- **统一接口**: 无论文本还是多模态，都使用相同的调用方式
+- **自动格式化**: 使用 `tokenizer.apply_chat_template` 格式化消息
+- **多模态支持**: 通过 `collator` 参数支持图像/视频输入
+- **thinking 机制**: 支持 DeepSeek、Qwen 等模型的思考链
+- **路由控制**: 通过 `src_rank` 参数实现粘性路由
+- **错误处理**: 返回 `None` 表示推理失败，由调用方处理
+
+## 调用链路
+
+### 完整调用流程
+
+```
+1. DeepEyesEnv.step() (env/deepeyes/env.py:182-197)
+   当 done=True 时触发 obtain_outcome_reward
+   ↓
+2. DeepEyesEnv.obtain_outcome_reward() (env/deepeyes/env.py:199-254)
+   构建 judge prompt，调用 reward model
+   ↓
+3. generate_by_proxy() (llm_proxy/proxy_utils.py:18)
+   统一的 LLM 调用工具函数
+   ↓
+4. reward_proxy.generate() (llm_proxy/policy_proxy.py:15)
+   通过 Ray 调用 scheduler
+   ↓
+5. reward_scheduler.generate_one_request() (scheduler/generate_scheduler.py:1296)
+   请求路由与负载均衡
+   ↓
+6. infer_cluster.workers[dp_rank].generate_request()
+   实际的模型推理
+   ↓
+7. 返回 LLM 判断结果
+```
+
+## 配置说明
+
+### 完整配置示例
+
+```yaml
+# Reward 配置 (LLM as Judge for AgenticPipeline)
+reward:
+  name: "reward"
+  worker_cls: "roll.pipeline.base_worker.InferWorker"  # 默认值，可省略
+  model_args:
+    model_name_or_path: Qwen/Qwen2.5-72B-Instruct
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 2048
+    temperature: 0.2      # 较低温度提高判断稳定性
+    top_p: 0.95
+    top_k: 20
+  strategy_args:
+    strategy_name: vllm   # 或 sglang
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      tensor_parallel_size: 4
+      load_format: auto
+  # 关键：必须非空才会创建 reward cluster
+  device_mapping: list(range(8, 16))  # GPUs 8-15
+  llm_proxy:
+    proxy_type: policy  # 使用 policy proxy
+```
+
+### 配置关键点
+
+#### 1. device_mapping（必须配置）
+
+```yaml
+# 推荐配置：Policy 和 Reward 使用独立 GPU
+actor_infer:
+  device_mapping: list(range(0, 8))   # GPUs 0-7
+
+reward:
+  device_mapping: list(range(8, 16))  # GPUs 8-15，独立资源
+```
+
+- **空或 None**: 不创建 reward cluster，环境无法使用 LLM as Judge
+- **非空**: 创建独立的 reward cluster，支持 LLM as Judge
+- **独立部署**: 与 actor_infer 使用不同的 GPU 资源，Policy 推理和 Reward 评估并行执行，actor_infer与reward必须得独立部署
+
+#### 2. strategy_name（推理后端选择）
+
+```yaml
+strategy_args:
+  strategy_name: vllm   # 或 sglang
+  strategy_config:
+    gpu_memory_utilization: 0.8
+    tensor_parallel_size: 4
+    load_format: auto	# 必须配置auto, vllm/sglang strategy里默认使用dummy load，会随机初始化参数
+```
+
+#### 3. generating_args（生成参数）
+
+```yaml
+generating_args:
+  max_new_tokens: 2048    # 根据 judge 输出长度调整
+  temperature: 0.2        # 较低温度提高稳定性
+  top_p: 0.95
+  top_k: 20
+```
+
+## 总结
+
+LLM as Judge 在 Agentic 环境中的优化实现通过以下关键设计实现高效可扩展：
+
+1. **独立 Reward Cluster**: 资源隔离，避免与 Policy 推理竞争
+2. **Ray Named Actor**: Reward Scheduler 作为共享服务，供所有环境访问
+3. **统一工具函数**: `generate_by_proxy` 简化调用，支持文本和多模态
+4. **智能路由**: 粘性路由和负载均衡，提高缓存利用率
+
+通过合理配置和使用这些组件，可以构建高效、可靠的 LLM as Judge 评估系统。
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Development/Developer Guide/rollout_mock_usage.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Development/Developer Guide/rollout_mock_usage.md
new file mode 100644
index 000000000..dc0fbc026
--- /dev/null
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Development/Developer Guide/rollout_mock_usage.md	
@@ -0,0 +1,288 @@
+---
+sidebar_position: 5
+---
+
+# Rollout Dump Mock 使用指南
+
+## 概述
+
+Rollout Dump Mock是ROLL框架提供的强大调试工具，用于**消除RL训练中rollout阶段的随机性**，实现数值级精度对齐验证。它通过保存和回放rollout数据，帮助开发者快速验证计算优化的正确性。
+
+### 核心价值
+
+- **消除随机性**：实现数值级精度对齐验证
+- **快速迭代**：Mock模式下跳过昂贵的环境rollout
+- **可复现调试**：捕获问题rollout数据，反复调试
+- **架构透明**：在Scheduler层实现，对Pipeline完全无感知
+
+### 适用场景
+
+| 场景 | 说明 |
+|------|------|
+| **计算优化验证** | 验证dynamic_batching、sequence_packing等优化的数值一致性 |
+| **模型并行验证** | 验证TP、PP、EP等并行策略的精度对齐 |
+| **回归测试** | CI/CD中自动化精度测试 |
+
+---
+
+## 快速开始
+
+### 典型工作流
+
+```
+[1. Dump模式] → [2. 修改代码] → [3. Mock模式] → [4. 精度验证]
+    ↓              ↓                 ↓               ↓
+ 捕获基准数据    优化计算逻辑      确定性回放      数值对比
+```
+
+### Step 1: Dump模式 - 捕获基准数据
+
+在修改代码前，先捕获正确的rollout数据作为基准。
+
+**配置文件** (`agentic_sokoban_rollout_mock_dump.yaml`)：
+```yaml
+exp_name: "sokoban_precision_test_dump"
+max_steps: 50
+
+# Rollout Mock Configuration - DUMP MODE
+rollout_mock:
+  enable: true
+  mode: dump
+  dump_dir: ./output/rollout_dumps/baseline_v1
+
+# 用于确定性执行的环境变量
+system_envs:
+  NCCL_ALGO: Ring
+  NVTE_ALLOW_NONDETERMINISTIC_ALGO: '0'
+  CUBLAS_WORKSPACE_CONFIG: ':4096:8'
+  DETERMINISTIC_MODE: '1'
+
+# ... 其他配置 ...
+```
+
+**命令**：
+```bash
+python examples/start_agentic_pipeline.py \
+  --config_name agentic_sokoban_rollout_mock_dump \
+  --config_path examples/qwen2.5-0.5B-agentic
+```
+
+**输出**：
+```
+./output/rollout_dumps/baseline_v1/
+  └── train/
+      ├── step_000000.pkl  (~5MB)
+      ├── step_000001.pkl
+      ├── step_000002.pkl
+      ├── ...
+      └── step_000049.pkl
+```
+
+**日志示例**：
+```
+[Rollout Mock] Rollout Mock enabled: mode=dump, dir=./output/rollout_dumps/baseline_v1
+[Rollout Mock] Dumped step 0: ./output/rollout_dumps/baseline_v1/train/step_000000.pkl (samples=128, size=4.82MB)
+[Rollout Mock] Dumped step 1: ./output/rollout_dumps/baseline_v1/train/step_000001.pkl (samples=128, size=4.85MB)
+```
+
+### Step 2: 修改代码
+
+实现你的计算优化，例如：
+- 添加dynamic_batching
+- 实现sequence_packing
+- 迁移到新的并行策略
+
+### Step 3: Mock模式 - 确定性回放
+
+使用预录制的rollout数据，验证修改后的代码是否保持数值一致性。
+
+**配置文件** (`agentic_sokoban_rollout_mock_mock.yaml`)：
+```yaml
+exp_name: "sokoban_precision_test_mock"
+max_steps: 50
+
+# Rollout Mock Configuration - MOCK MODE
+rollout_mock:
+  enable: true
+  mode: mock
+  dump_dir: ./output/rollout_dumps/baseline_v1  # 与dump模式相同路径
+
+# 用于确定性执行的环境变量（保持与dump模式一致）
+system_envs:
+  NCCL_ALGO: Ring
+  NVTE_ALLOW_NONDETERMINISTIC_ALGO: '0'
+  CUBLAS_WORKSPACE_CONFIG: ':4096:8'
+  DETERMINISTIC_MODE: '1'
+
+# ... 其他配置（保持与dump模式一致）...
+```
+
+**命令**：
+```bash
+python examples/start_agentic_pipeline.py \
+  --config_name agentic_sokoban_rollout_mock_mock \
+  --config_path examples/qwen2.5-0.5B-agentic
+```
+
+**行为**：
+- ✅ 直接从磁盘加载每步的DataProto
+- ✅ 后续所有计算（advantages, losses, gradients）完全确定
+
+**日志示例**：
+```
+[Rollout Mock] Rollout Mock enabled: mode=mock, dir=./output/rollout_dumps/baseline_v1
+[Rollout Mock] Loaded step 0: ./output/rollout_dumps/baseline_v1/train/step_000000.pkl (samples=128)
+[Rollout Mock] Loaded step 1: ./output/rollout_dumps/baseline_v1/train/step_000001.pkl (samples=128)
+```
+
+### Step 4: 数值精度验证
+
+对比baseline和优化版本的训练指标，确保数值完全一致。可以通过查看日志中的关键指标（如pg_loss、total_loss、value_loss、approx_kl、grad_norm等）来验证两次运行的结果是否一致。
+
+---
+
+## 配置参数
+
+### 配置Schema
+
+在你的YAML配置文件中添加 `rollout_mock` 段：
+
+```yaml
+rollout_mock:
+  enable: bool              # 启用rollout dump/mock机制
+  mode: "dump" | "mock"     # dump: 保存数据, mock: 加载数据
+  dump_dir: str             # 数据存储目录
+```
+
+### 配置示例
+
+**Dump模式配置**：
+```yaml
+rollout_mock:
+  enable: true
+  mode: dump
+  dump_dir: ./rollout_dumps/precision_test_v1
+```
+
+**Mock模式配置**：
+```yaml
+rollout_mock:
+  enable: true
+  mode: mock
+  dump_dir: ./rollout_dumps/precision_test_v1  # 与dump模式相同路径
+```
+
+### 确定性执行的环境变量
+
+为确保完全的数值可复现性，需要配置以下环境变量：
+
+```yaml
+system_envs:
+  NCCL_ALGO: Ring                           # 使用Ring算法进行NCCL通信
+  NVTE_ALLOW_NONDETERMINISTIC_ALGO: '0'     # 禁用Transformer Engine中的非确定性算法
+  CUBLAS_WORKSPACE_CONFIG: ':4096:8'        # 启用确定性的CUDA操作
+  DETERMINISTIC_MODE: '1'                   # 启用PyTorch确定性模式
+```
+
+**DETERMINISTIC_MODE 的作用**：
+- 设置 `torch.backends.cudnn.deterministic = True` 以确保cuDNN操作的可复现性
+- 设置 `torch.backends.cudnn.benchmark = False` 禁用导致非确定性的自动调优
+- 调用 `torch.use_deterministic_algorithms(True)` 强制使用确定性的PyTorch算法
+
+**重要提示**：这些环境变量在dump和mock模式之间必须保持一致，以确保数值精度对齐。
+
+### 关键注意事项
+
+1. **dump_dir必须一致**：Dump和Mock模式必须使用相同的`dump_dir`路径
+2. **mode必须匹配**：Scheduler的mode（train/val）必须与dump时一致
+3. **max_steps不能超过**：Mock模式的`max_steps`不能超过Dump模式时的值
+4. **system_envs必须一致**：确定性执行的环境变量在dump和mock模式之间必须保持一致
+
+---
+
+## 常见问题与排查
+
+### 问题1: Mock文件不存在
+
+**错误信息**：
+```
+FileNotFoundError: [Rollout Mock] Mock文件不存在: ./dumps/baseline/train/step_000005.pkl
+可能的原因:
+  1. 未在dump模式下运行过step 5
+  2. dump_dir配置不正确: ./dumps/baseline
+  3. mode不匹配(当前: train)
+请先以dump模式运行,确保生成了所有步骤的数据。
+```
+
+**排查步骤**：
+
+1. 检查dump模式下是否运行了足够的步骤：
+   ```bash
+   ls -lh ./output/rollout_dumps/baseline_v1/train/
+   # 应该看到 step_000000.pkl ~ step_000049.pkl
+   ```
+
+2. 确认`max_steps`一致：
+   ```bash
+   # Dump时: max_steps=50
+   # Mock时: max_steps=50 (必须一致或更小)
+   ```
+
+3. 确认`dump_dir`路径正确：
+   ```yaml
+   # Dump时
+   dump_dir: ./output/rollout_dumps/baseline_v1
+
+   # Mock时 (必须相同)
+   dump_dir: ./output/rollout_dumps/baseline_v1
+   ```
+
+### 问题2: Mode不匹配
+
+**问题**：Dump时使用train mode，Mock时误用val mode。
+
+**文件结构**：
+```
+dumps/baseline/
+  ├── train/       # Dump时生成
+  │   └── step_*.pkl
+  └── val/         # 空目录
+      └── (无文件)
+```
+
+**解决**：确保dump和mock使用相同的scheduler mode（train/val）。
+
+### 问题3: 磁盘空间不足
+
+**症状**：Dump过程中报错：
+```
+OSError: [Errno 28] No space left on device
+```
+
+**估算磁盘占用**：
+```
+单步文件大小 ≈ batch_size × seq_len × 数据类型大小
+             ≈ 128 × 512 × 4 bytes (float32)
+             ≈ 256KB ~ 10MB (取决于序列长度和metadata)
+
+总磁盘占用 ≈ 单步大小 × max_steps
+          ≈ 5MB × 100 steps = 500MB
+```
+
+**解决**：
+- 增加磁盘空间
+- 减少`max_steps`
+- 使用网络存储（OSS等）
+
+### 问题4: Pickle版本不兼容
+
+**症状**：在不同Python版本间加载报错：
+```
+pickle.UnpicklingError: invalid load key, '\x00'
+```
+
+**原因**：Pickle在不同Python版本间的兼容性问题。
+
+**解决**：
+- 确保dump和mock使用相同Python版本
+- 或在dump时使用较低的protocol版本（需修改源码）
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Getting Started/Installation/image_address.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Getting Started/Installation/image_address.md
index 7ccbb8c07..d5b03f422 100644
--- a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Getting Started/Installation/image_address.md	
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Getting Started/Installation/image_address.md	
@@ -6,5 +6,6 @@
 * `torch2.6.0 + vLLM0.8.4`: roll-registry.cn-hangzhou.cr.aliyuncs.com/roll/pytorch:nvcr-24.05-py3-torch260-vllm084
 * `torch2.8.0 + vLLM0.10.2`: roll-registry-vpc.cn-hangzhou.cr.aliyuncs.com/roll/pytorch:nvcr-25.06-py3-torch280-vllm0102
 * `torch2.8.0 + vLLM0.11.0`: roll-registry.cn-hangzhou.cr.aliyuncs.com/roll/pytorch:nvcr-25.06-py3-torch280-vllm0110
+* `torch2.10.0 + vLLM0.16.0rc2.dev502+gade81f17f + megatron-core core_dev_r0.16.0`: roll-registry.cn-hangzhou.cr.aliyuncs.com/roll/pytorch:nvcr-25.11-py3-torch2100-mcore0160dev-vllm016dev
 
 您也可以在`docker/`目录下找到[Dockerfiles](https://github.com/StephenRi/ROLL/tree/feature/fix-ref-for-docs/docker)来构建您自己的镜像。
\ No newline at end of file
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Getting Started/Quick Start/rock_agent_native.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Getting Started/Quick Start/rock_agent_native.md
new file mode 100644
index 000000000..8b5da9842
--- /dev/null
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/Getting Started/Quick Start/rock_agent_native.md	
@@ -0,0 +1,120 @@
+# ROCK Agent Native 快速开始指南
+
+本指南将引导您使用 ROLL (训练框架) 和 ROCK (环境管理) 来运行一个基于 iflow-cli（Agent）的强化学习示例。
+
+## 前置条件
+
+- 确保有可用的ROCK服务, 如果需要本地拉起服务端, 参考[ROCK快速启动](https://alibaba.github.io/ROCK/zh-Hans/docs/Getting%20Started/installation)
+
+- 如果需要单机启动ROCK服务并运行ROLL，参考[ROCK & ROLL 快速开始指南](https://alibaba.github.io/ROLL/zh-Hans/docs/Getting%20Started/rockroll)
+
+
+## 使用示例
+
+ROLL提供了基于iflow-cli（Agent）的配置示例，位于ROLL仓库的*examples/agentic_demo*目录下:
+
+```
+examples/agentic_demo
+├── agent_rollout_rock_swe.yaml    # 仅运行 Rollout（推理/采样）
+└── agent_val_rock_swe.yaml        # 包含训练（Train）和验证（Val）全流程
+```
+
+可以选择一个示例运行：
+```bash
+bash examples/agentic_demo/run_agentic_rollout_pipeline_rock_swe.sh
+
+bash examples/agentic_demo/run_agentic_pipeline_rock_swe.sh
+```
+
+## 数据准备
+
+本示例使用的是 SWE-bench Verified 评测集，转成 Terminal-bench 格式
+- [git地址](https://github.com/laude-institute/terminal-bench-datasets/tree/main/datasets/swebench-verified)
+- [数据介绍](https://www.tbench.ai/registry/swebench-verified/head/sympy__sympy-18199)
+- [镜像仓库](https://hub.docker.com/r/slimshetty/swebench-verified/tags)
+
+最终的评测集需要提前下载到本地
+```bash
+cd / && git clone https://github.com/laude-institute/terminal-bench-datasets.git
+```
+
+仓库中提供了10条样例数据：*data/swe_bench_verified_example.jsonl*
+
+示例配置如下，你可以按照自己的需要进行修改
+```yaml
+custom_envs:
+  swebench_native_verified:
+    env_config:
+      dataset_name: /ROLL/data/swe_bench_verified_example.jsonl
+      test_files: ["/terminal-bench-datasets/datasets/swebench-verified"]
+```
+
+## ROCK服务相关
+
+1. 安装ROCK SDK
+```bash
+pip install rl-rock -i https://mirrors.aliyun.com/pypi/simple/
+```
+
+2. 配置ROCK服务地址
+```yaml
+env_config:
+    # 将这里的地址修改为您的 ROCK 服务地址
+    # 例如: sandbox_base_url: 'http://192.168.1.10:8000'
+    sandbox_base_url: 'http://<ip_address>:<port>'
+```
+
+## Agent配置
+
+本示例以iflow-cli作为执行Agent:
+
+```yaml
+agent_config_common:
+  agent_type: "default"
+  # 启动命令，特殊符号会在代码中解析
+  run_cmd: 'iflow -p <<PROMPT>> --yolo'
+  # 依赖预装，请根据你的镜像进行修改
+  pre_init_cmds:
+    - command: "apt-get update"
+      timeout_seconds: 600
+    - command: "apt-get install -y curl git wget xz-utils"
+      timeout_seconds: 600
+    - command: "apt-get install -y build-essential libc6-dev patch procps"
+      timeout_seconds: 600
+    # 安装 uv 等辅助工具
+    - command: "wget -q https://xrl-sandbox-bucket.oss-cn-hangzhou.aliyuncs.com/uv-files/uv-x86_64-unknown-linux-gnu.tar.gz && tar -xzf uv-x86_64-unknown-linux-gnu.tar.gz --strip-components=1 -C /usr/local/bin && uv --version"
+      timeout_seconds: 600 
+  model_service_config: 
+    type: "local"
+    enabled: True
+  # 运行时环境  
+  runtime_env_config:
+    type: node
+    npm_registry: "https://registry.npmmirror.com"
+    # 根据需要安装自己所需iflow版本
+    custom_install_cmd: "wget --retry-connrefused --tries=10 --waitretry=2 -O ~/iflow-cli.tgz 'http://cloud.iflow.cn/iflow-cli/iflow-ai-iflow-cli-for-roll-0-4-4-v5.tgz' && npm i -g ~/iflow-cli.tgz"
+  env:
+    # 根据需要设置iflow参数
+    IFLOW_apiKey: "test"
+    IFLOW_baseUrl: "http://localhost:8080/v1"
+    IFLOW_modelName: "ROME"
+    IFLOW_searchApiKey: "88888888"
+    IFLOW_selectedAuthType: "openai-compatible"
+    IFLOW_disableAutoUpdate: "true"
+    IFLOW_tokensLimit: "128000"
+    IFLOW_shellTimeout: "360000"
+    IFLOW_coreTools: "Edit,exit_plan_mode,glob,list_directory,multi_edit,plan,read plan,read_file,read_many_files,save_memory,Search,Shell,task,web_fetch,web_search,write_file,xml_escape"
+```
+
+ROCK服务也支持其他Agent，配置可参考[ROCK Agent](https://alibaba.github.io/ROCK/zh-Hans/docs/References/Python%20SDK%20References/rock-agent)
+
+
+## 重要模块索引
+- 环境实现：roll/pipeline/agentic/env/terminal_env/rock_tb_native_env.py 
+  - 负责 RL 流程控制、奖励计算和任务分发
+- 沙盒管理：roll/pipeline/agentic/env/rock/sandbox_manager_v2.py 
+  - 负责与 ROCK 服务通信、文件上传、Session 管理。
+- Agent 管理：roll/pipeline/agentic/env/rock/agent_manager.py 
+  - 负责在沙盒启动瞬间配置 Agent 所需的环境和二进制文件
+
+Model Service的原理可参考[文档](https://alibaba.github.io/ROCK/zh-Hans/docs/References/Python%20SDK%20References/model-service)
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/async_parallel_rollout.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/async_parallel_rollout.md
index b379ad2fb..63519000c 100644
--- a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/async_parallel_rollout.md	
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/async_parallel_rollout.md	
@@ -57,7 +57,7 @@ val_env_manager:
 - **示例**：
   - `group_size: 8` 表示每个环境组包含 8 个环境实例
   - `num_env_groups: 128` 表示总共创建 128 个环境组
-  - env实例的总数量为: `gropu_size * num_env_groups` = 1024 个
+  - env实例的总数量为: `group_size * num_env_groups` = 1024 个
 
 #### tags
 - **含义**：环境的标签列表，用于标识和选择要使用的环境类型
@@ -79,4 +79,4 @@ val_env_manager:
 3. **环境类型分配**：通过 `tags` 和 `num_groups_partition` 合理分配不同环境类型的训练资源
 4. **资源监控**：监控系统资源使用情况，避免因环境实例过多导致资源耗尽
 
-通过合理配置这些参数，可以充分发挥 Agentic 异步并行 rollout 的性能优势，提高多轮交互任务的训练效率。
\ No newline at end of file
+通过合理配置这些参数，可以充分发挥 Agentic 异步并行 rollout 的性能优势，提高多轮交互任务的训练效率。
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/dynamic_batching.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/dynamic_batching.md
new file mode 100644
index 000000000..20f9cc7f4
--- /dev/null
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/dynamic_batching.md	
@@ -0,0 +1,214 @@
+# ROLL Dynamic Batching
+
+ROLL 框架支持对 Rollout Batch 做 **Dynamic Batching** 功能，尽量减少无效 token 计算，使得计算效率更高，本文档详细介绍如何使用这一功能。
+
+## 术语列表
+
+- attention_mask: rollout batch中的数据，其中 `1` 表示实际需要被计算的token，`0` 表示 pad_token；
+- micro_batch (mbs): 模型前向处理时的微批次；
+- num_micro_batches: 每个mini-batch中micro_batch数量；
+- micro_batch_size: 每个微批次中序列数量； 
+- micro_batch_seqlen: 每个微批次中序列长度；
+- dp_size, dp_rank, shard: 数据并行时的并行数量，以及在并行组中的编号，每个数据并行组中的训练数据；
+- vpp: Virtual Pipeline Model Parallel，Megatron-LM框架中支持的一种高效流水线并行技术；
+
+## 简介
+
+在RL训练场景中，每次rollout出来的数据具有十分显著的长尾效应，即序列长度不一致，尤其在Agentic Pipeline中，由于训练数据是多轮和Env相互产生的，导致这种长尾现象更为显著。
+
+在训练时，通常会将一个rollout batch中的所有样本按照一个`max_len` pad到最长，这些pad_token也会参与计算，造成计算资源浪费；
+
+为了解决这一问题，提高计算效率，Dynamic Batching技术核心思路是：
+- 对整个rollout batch中的样本在DP Rank维度上按照token数进行划分，使得计算资源尽量均衡；
+- 改变样本中序列的顺序，使得临近的样本，长度尽量接近，能够去掉尽量多的pad token；
+
+## 示例
+下面通过一个例子，简要说明 ROLL 中 Dynamic Batching 流程
+
+假设 `dp_size=2`, `num_seqs=8`,  `max_tokens_microbatch=10`, `sequence_length_round=2`
+
+原始输入 `attention_mask` 如下
+```bash
+attention_mask:
+[1, 1, 1, 1, 1, 1, 1, 0, 0, 0]
+[1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
+[1, 1, 1, 1, 1, 1, 1, 1, 0, 0]
+[1, 1, 1, 1, 1, 0, 0, 0, 0, 0]
+[1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
+[1, 1, 1, 0, 0, 0, 0, 0, 0, 0]
+[1, 1, 1, 1, 1, 1, 1, 1, 0, 0]
+[1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
+```
+其对应的 `seq_lens` 如下:
+
+```bash
+seq_lens:
+[7, 6, 8, 5, 1, 3, 8, 6]
+```
+
+可见序列之间的实际 token 数量是不均衡的，会浪费大量 GPU 时间在处理 `pad_token` 上
+
+为了计算效率，ROLL Dynamic Batching 基于下面的步骤来消除 `micro_batch` 中的 pad_token，从而达到资源利用的最大化。
+
+1. shard表示每个`dp_rank`中的训练数据，默认按照顺序切分，在Dynamic Batching中会基于序列实际长度排序并切分shard，使得 `dp_rank` 之间的tokens数均匀
+
+```bash
+# seq_lens 排序后:
+[1, 3, 5, 6, 6, 7, 8, 8]
+# 切分成dp_size个shard
+shard0:
+  [1, 5, 6, 8]
+shard1:
+  [3, 6, 7, 8]
+```
+
+2. 对于每个shard划分 `micro_batch`；
+
+划分时需要考虑如下两个参数：
+- max_tokens_per_microbatch: 每个micro_batch中最大token数量，`micro_batch_size * micro_batch_seqlen` 不能超过这个值，如果超过需要再生成一个新的 `micro_batch`；
+- sequence_length_round: `micro_batch_seqlen` 需要能够被这个值整除；假设micro_batch中的序列长度为 `[200, 240]`，`sequence_length_round=64`，则这个micro_batch需要pad成`[256, 256]`；
+
+Dynamic Batching的划分shard流程就是找到小于max_tokens_per_microbatch的micro_batch中tokens数量最大的划分。且保证每个micro_batch的序列长度需要根据实际长度pad到 `sequence_length_round` 的倍数；
+
+具体如下所示：
+
+```bash
+shard0:
+  mbs0: # padding长度6 
+    [1, 0, 0, 0, 0, 0 
+     1, 1, 1, 1, 1, 0]
+  mbs1: # padding长度8
+    [1, 1, 1, 1, 1, 1, 0, 0]
+  mbs2: # padding长度8
+    [1, 1, 1, 1, 1, 1, 1, 1]
+shard1:
+  mbs0: # padding长度6
+    [1, 1, 1, 0, 0, 0
+     1, 1, 1, 1, 1, 1]
+  mbs1: # padding长度8
+    [1, 1, 1, 1, 1, 1, 1, 0]
+  mbs2: # padding长度8
+    [1, 1, 1, 1, 1, 1, 1, 1]
+```
+在这个随机mask矩阵中，原来token总数为 `attention_mask.size(0) * attention_mask.size(1) = 80`，经过 Dynamic Batching 之后的 token 数量为：56，remove掉了 `30%` 的 pad_token
+
+3. 支持Virtual Pipelie Model Parallel，优先拆分tokens数量多且micro_batch_size > 1的micro_batch，使得micro_batch数量为pp_size整除倍(支持megatron)
+
+原来的这个例子中 `num_micro_batches` 不能够被 `pp_size` 整除，因此选择 `mbs0`，将其拆分成两个 mbs，如下所示：
+
+```bash
+shard0:
+  mbs0: # padding长度6 
+    [1, 0, 0, 0, 0, 0]
+  mbs1: # padding长度6 
+    [1, 1, 1, 1, 1, 0]
+  mbs2: # padding长度8
+    [1, 1, 1, 1, 1, 1, 0, 0]
+  mbs3: # padding长度8
+    [1, 1, 1, 1, 1, 1, 1, 1]
+shard1:
+  mbs0: # padding长度6
+    [1, 1, 1, 0, 0, 0]
+  mbs1: # padding长度6
+    [1, 1, 1, 1, 1, 1]
+  mbs2: # padding长度8
+    [1, 1, 1, 1, 1, 1, 1, 0]
+  mbs3: # padding长度8
+    [1, 1, 1, 1, 1, 1, 1, 1]
+
+```
+
+
+
+## 参数配置
+
+与 Dynamic Batching 相关的参数如下，分为 train 和 infer 两个部分
+- Train
+  - use_dynamic_batching_in_train: 是否在 `train_step` 时开启；
+  - max_tokens_per_microbatch_in_train: 训练时每个 micro_batch 最大 token 数量；
+  - sequence_length_round_in_train: 训练时每个 micro_batch 的序列长度需要能被这个参数整除，需要能够被 `tensor_model_parallel_size * context_parallel_size` 整除，一般取 128,64 即可；
+- Infer
+  - use_dynamic_batching_in_infer: 是否在 `compute_log_probs` 等不需要梯度更新的环节开启；
+  - max_tokens_per_microbatch_in_infer: 与train中含义相同，根据显存消耗情况可以大一些；
+  - sequence_length_round_in_infer: 与train中含义相同；
+
+
+
+## 完整配置
+
+```yaml
+actor_train:
+  # 同时开启 Dynamic Batching 和 Context Parallel 时推荐使用 flash_attn
+  system_envs:
+    NVTE_FLASH_ATTN: '1'
+    NVTE_FUSED_ATTN: '0'
+    NVTE_UNFUSED_ATTN: '0'
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 64
+    warmup_steps: 10
+    lr_scheduler_type: cosine
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+  use_dynamic_batching_in_train: true
+  max_tokens_per_microbatch_in_train: 8192
+  sequence_length_round_in_train: 128
+  use_dynamic_batching_in_infer: true
+  max_tokens_per_microbatch_in_infer: 16384
+  sequence_length_round_in_infer: 128
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 128 # single-turn response length
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+  device_mapping: list(range(0,8))
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config: ~
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+  use_dynamic_batching_in_infer: true
+  max_tokens_per_microbatch_in_infer: 16384
+  sequence_length_round_in_infer: 128
+
+```
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/sequence_packing.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/sequence_packing.md
new file mode 100644
index 000000000..ac3b183ba
--- /dev/null
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/sequence_packing.md	
@@ -0,0 +1,321 @@
+# ROLL SEQUENCE PACKING
+
+ROLL框架目前支持了Sequence Packing功能，通过句子打包来避免pad token，提高计算效率。本文档详细介绍该功能的实现思路以及相应使用配置方法。
+
+> **注意**：目前只有 `megatron_strategy` 支持了 `sequence_packing`。
+
+## 1. 简介
+
+在RL训练场景中，rollout数据的分布通常具有长尾效应。而在常规的训练过程中，我们通常将一个micro batch的数据组合为一个batch进行训练，每条样本都会被pad到预设的最大长度，这不仅导致了算力被消耗在了大量pad token上，而且拖慢了训练速度。
+
+为了解决上面的问题，ROLL中提供了Sequence Packing这一特性，其核心思路是：
+* 将当前micro batch中长短不同的句子打包在一起以消除pad token
+* 使用打包算法优化打包效率，减少micro batch数量，提高训练效率
+
+## 2. 实现原理
+
+### 2.1 数据划分层次结构
+
+在分布式训练中，数据按照以下层次结构进行划分：
+
+```
+GLOBAL BATCH (全局批次)
+├── DP RANK 0 → BATCH 0
+│   └── MINI BATCH 0 (用于一次梯度更新)
+│       ├── MICRO BATCH 0 (最小计算单元)
+│       ├── MICRO BATCH 1
+│       └── ...
+├── DP RANK 1 → BATCH 1  
+│   └── MINI BATCH 0
+│       ├── MICRO BATCH 0
+│       └── ...
+└── ...
+```
+
+- **GLOBAL BATCH**: actor_infer产生的完整rollout结果
+- **BATCH**: Global Batch按DP rank划分后的子集
+- **MINI BATCH**: Batch中用于单次梯度更新的数据（考虑gradient accumulation）
+- **MICRO BATCH**: Mini Batch进一步划分的最小计算单元，参与单次forward/backward
+
+在常规训练中，每个micro batch中的样本都会被padding到固定长度，造成大量计算资源浪费。Sequence Packing通过在micro batch级别进行序列打包来解决这个问题。
+
+### 2.2 序列打包核心机制
+
+Sequence Packing的核心目标是在消除padding token的同时，确保在复杂的分布式训练环境下（特别是Context Parallel和Tensor Parallel）能够正确、高效地运行。为了实现这一目标，打包过程需要满足特定的对齐要求，这些要求直接关系到模型能否正常训练以及训练效率的高低。
+
+#### 2.2.1 对齐要求：2×CP_SIZE×TP_SIZE的倍数
+
+在启用Context Parallel (CP) 和 Tensor Parallel (TP) 的情况下，序列长度必须是 **2 × CP_SIZE × TP_SIZE** 的倍数。
+
+这个对齐要求来源于两个并行策略的需求：
+
+1. **TENSOR PARALLEL (TP) 需求**：当启用Sequence Parallel时，序列会在forward过程中被切分到不同的TP rank上处理，因此序列长度需要能被TP_SIZE整除。
+
+2. **CONTEXT PARALLEL (CP) 需求**：为了实现CP负载均衡，序列需要被切分为2×CP_SIZE个逻辑块，因此序列长度需要能被2×CP_SIZE整除。
+
+综合这两个需求，序列长度必须是 **2 × CP_SIZE × TP_SIZE** 的倍数，这样才能同时满足TP和CP的正确运行要求。
+
+#### 2.2.2 为什么需要因子2？CP负载均衡详解
+
+在Context Parallel (CP) 训练中，因果注意力机制的特殊性会导致严重的负载不均衡问题。
+
+**问题根源 - 因果注意力的不对称性**
+
+考虑一个长度为6的序列 `[0, 1, 2, 3, 4, 5]`，在CP=2的情况下：
+
+```
+完整的因果注意力掩码:
+     0  1  2  3  4  5
+0  [ 1  0  0  0  0  0 ]
+1  [ 1  1  0  0  0  0 ]  
+2  [ 1  1  1  0  0  0 ]
+3  [ 1  1  1  1  0  0 ]
+4  [ 1  1  1  1  1  0 ]
+5  [ 1  1  1  1  1  1 ]
+```
+
+**朴素切分方案的问题**：
+
+如果简单地将序列均分为两部分：
+- CP0负责: `[0, 1, 2]`
+- CP1负责: `[3, 4, 5]`
+
+那么实际的计算负载为：
+- **CP0**: 只需要计算自己负责位置的注意力权重（6个权重计算）
+- **CP1**: 需要计算自己负责位置对所有前面位置的注意力权重（15个权重计算）
+
+**负载比例: 6:15 = 2:5**，CP1的计算量是CP0的2.5倍！
+
+**解决方案 - 2×CP交错切分**
+
+Megatron-Core采用的解决方案是将序列切分为 **2×CP** 个块，然后采用交错分配策略：
+
+```
+原始序列: [0, 1, 2, 3, 4, 5]
+切分为4块: |[0,1]|[2,3]|[4,5]|[p,p]|  (需要padding到4的倍数)
+
+交错分配:
+- 块0 [0,1] → CP0
+- 块1 [2,3] → CP1  
+- 块2 [4,5] → CP1
+- 块3 [p,p] → CP0
+
+最终分配:
+- CP0: [0,1] + [p,p]
+- CP1: [2,3] + [4,5]
+```
+
+通过这种精心设计的分配策略，两个CP rank的计算负载变得相对均衡，避免了明显的性能瓶颈。
+
+因此，**因子2是CP负载均衡的核心设计**，确保在因果注意力机制下各个CP rank的工作量基本相等。
+
+#### 2.2.3 完整打包示例
+
+假设当前microbatch包含以下样本（原始序列长度为8）：
+
+| 样本ID | 原始序列 | 有效长度 |
+|--------|----------|----------|
+| 0 | `[0, 0, p, p, p, p, p, p]` | 2 |
+| 1 | `[1, 1, 1, 1, p, p, p, p]` | 4 |
+| 2 | `[2, 2, 2, 2, 2, 2, p, p]` | 6 |
+| 3 | `[3, p, p, p, p, p, p, p]` | 1 |
+
+配置参数：`CP_SIZE=2`, `TP_SIZE=1`
+
+**步骤1：移除原始padding**
+```
+样本0: [0, 0]
+样本1: [1, 1, 1, 1]  
+样本2: [2, 2, 2, 2, 2, 2]
+样本3: [3]
+```
+
+**步骤2：重新padding到对齐边界**
+- 对齐因子 = 2 × CP_SIZE × TP_SIZE = 2 × 2 × 1 = 4
+
+重新padding后的序列：
+```
+样本0: [0, 0, p, p] → 长度4
+样本1: [1, 1, 1, 1] → 长度4  
+样本2: [2, 2, 2, 2, 2, 2, p, p] → 长度8
+样本3: [3, p, p, p] → 长度4
+```
+
+**步骤3：CP切分详细过程**
+
+在CP_SIZE=2的情况下，每个序列会被逻辑上切分为 **2×CP_SIZE = 4** 个部分，然后按照交错规则分配给不同的CP rank。
+
+具体切分和分配规则如下：
+
+对于任意长度为L的序列，在CP_SIZE=2时：
+- 序列被划分为4个连续的段：段0、段1、段2、段3
+- 每个段的长度为 L/4
+- 分配规则：
+  - **CP0**: 段0 + 段3
+  - **CP1**: 段1 + 段2
+
+应用到我们的例子：
+
+- **样本0** `[0, 0, p, p]` (长度4):
+  - 段0: `[0]`, 段1: `[0]`, 段2: `[p]`, 段3: `[p]`
+  - CP0获得: 段0 + 段3 = `[0] + [p]` → 实际处理 `[0, p]`
+  - CP1获得: 段1 + 段2 = `[0] + [p]` → 实际处理 `[0, p]`
+
+- **样本1** `[1, 1, 1, 1]` (长度4):
+  - 段0: `[1]`, 段1: `[1]`, 段2: `[1]`, 段3: `[1]`
+  - CP0获得: `[1] + [1]` → `[1, 1]`
+  - CP1获得: `[1] + [1]` → `[1, 1]`
+
+- **样本2** `[2, 2, 2, 2, 2, 2, p, p]` (长度8):
+  - 段0: `[2, 2]`, 段1: `[2, 2]`, 段2: `[2, 2]`, 段3: `[p, p]`
+  - CP0获得: `[2, 2] + [p, p]` → `[2, 2, p, p]`
+  - CP1获得: `[2, 2] + [2, 2]` → `[2, 2, 2, 2]`
+
+- **样本3** `[3, p, p, p]` (长度4):
+  - 段0: `[3]`, 段1: `[p]`, 段2: `[p]`, 段3: `[p]`
+  - CP0获得: `[3] + [p]` → `[3, p]`
+  - CP1获得: `[p] + [p]` → `[p, p]`
+
+**步骤4：各CP rank的最终打包结果**
+
+- **CP0的完整输入**: `[0, p, 1, 1, 2, 2, p, p, 3, p]`
+- **CP1的完整输入**: `[0, p, 1, 1, 2, 2, 2, 2, p, p]`
+
+**步骤5：累积序列长度计算**
+
+Padded累积长度: `[0, 4, 8, 16, 20]`
+
+### 2.3 LOSS计算流程
+
+在Sequence Packing模式下，loss计算需要特殊的处理流程：
+
+1. **模型输出解包**：使用`_unpack_sequences`函数将packed的输出还原为单个序列
+   - 根据`cu_seqlens_padded`计算每个序列在当前CP rank上的起止位置
+   - `seq_starts = cu_seqlens_padded[:-1] // cp_size`
+   - `seq_ends = cu_seqlens_padded[1:] // cp_size`
+
+2. **逐序列loss计算**：
+   - 对每个解包后的序列单独调用loss函数
+   - 需要将原始数据调整到对应的序列长度（使用`adjust_sequence_length`）
+   - 累加所有序列的loss值
+
+3. **结果聚合**：
+   - 将所有序列的loss相加得到总loss
+   - 聚合各个序列的metrics
+   - 应用loss scaling（如果启用）
+
+这种逐序列计算的方式确保了loss计算的正确性，即使在复杂的CP+TP+packing组合场景下也能准确计算梯度。
+
+### 2.4 负载均衡优化
+
+为了最大化Sequence Packing的效果，ROLL在多个层面应用了**Karmarkar-Karp算法**进行负载均衡优化。
+
+**Karmarkar-Karp算法简介**：
+这是一种经典的多路划分算法，用于将一组数字划分为k个子集，使得各子集的和尽可能接近。在Sequence Packing场景中，该算法被用来确保各个计算单元的负载相对均衡，避免性能瓶颈。
+
+主要优化包括：
+- **GLOBAL BATCH → DP RANK 负载均衡**：确保每个DP rank获得相似的总token数量
+- **MINI BATCH → MICRO BATCH 负载均衡**：确保每个micro batch的计算负载均衡
+
+具体的实现细节和责任分工请参考第3.2节。
+
+## 3. 实现流程
+
+### 3.1 打包与解包核心逻辑
+
+pack部分主要是在strategy中进行处理的，开启`use_sequence_packing`后strategy会自动对microbatch进行pack，并对输出的logits进行unpack并计算loss。
+
+**核心打包函数 `_pack_sequences`** 实现了以下逻辑：
+1. 移除原始padding，提取有效token
+2. 计算累积序列长度（原始和padded版本）
+3. 重新padding到`2*cp_size*tp_size`的倍数
+4. 处理CP切分和分配
+5. 拼接序列并创建`PackedSeqParams`
+
+**Loss计算**通过`loss_wrapper`实现解包和逐序列loss计算。
+
+### 3.2 负载均衡责任分工
+
+负载均衡在ROLL框架中有明确的责任分工：
+
+1. **GLOBAL BATCH → DP RANK 负载均衡**：
+   - **负责模块**: Pipeline层（`batch_balance`函数）
+   - **优化目标**: 确保每个DP rank获得相似的总token数量
+   - **实现方式**: 在数据分发前使用Karmarkar-Karp算法重排序
+
+2. **MINI BATCH → MICRO BATCH 负载均衡**：
+   - **负责模块**: Strategy层（`make_micro_batch_iter_for_sequence_packing`）
+   - **优化目标**: 确保每个micro batch的计算负载均衡
+   - **实现方式**: 在micro batch生成时应用Karmarkar-Karp算法
+
+3. **随机性保留**：
+   - Batch → Mini Batch的划分保持随机性（用于shuffle），因此不进行负载均衡优化
+
+这种分层优化策略确保了从全局到局部的各个层面都能获得良好的负载均衡，最大化硬件利用率。
+
+## 4. 参数配置
+
+### 4.1 如何启用SEQUENCE PACKING
+
+要使用Sequence Packing功能，只需要在配置文件中设置 `use_sequence_packing: true` 即可。
+
+### 4.2 配置参数详解（通俗版）
+
+#### `algorithm`（打包算法）
+- **`none`**：默认的简单打包方式，按照数据原有的顺序进行打包
+- **`load_balance`**：智能负载均衡打包，会重新排列数据使得每个micro batch的计算量更加均衡，推荐使用
+
+#### `max_packed_sequence_length_train`（训练时最大打包长度）
+- 这个参数控制在训练时，打包后的序列最长可以有多长
+- 比如设置为8192，意味着打包后的序列总长度不会超过8192个token
+- 设置合理的值可以避免内存溢出，同时保证打包效率
+
+#### `max_packed_sequence_length_forward`（推理时最大打包长度）
+- 和训练时的参数类似，但专门用于推理阶段
+- 通常可以和训练时设置相同的值
+
+#### `min_num_micro_batches_train`（训练时最少micro batch数量）
+- 控制每个mini batch至少要分成多少个micro batch
+- 设置为1表示不限制，让系统自动决定最优的划分方式
+- 如果遇到显存不足的问题，可以适当增大这个值来减少每个micro batch的大小
+
+#### `min_num_micro_batches_forward`（推理时最少micro batch数量）
+- 和训练时的参数类似，但用于推理阶段
+
+### 4.3 完整配置示例
+
+```yaml
+actor_train:
+  # 启用sequence packing功能
+  use_sequence_packing: True
+  
+  # sequence packing的具体配置
+  sequence_packing_args:
+    # 使用负载均衡算法，效果更好
+    algorithm: load_balance
+    
+    # 训练时打包后的最大序列长度为8192
+    max_packed_sequence_length_train: 8192
+    
+    # 推理时打包后的最大序列长度为8192  
+    max_packed_sequence_length_forward: 8192
+    
+    # 训练时最少分成1个micro batch（即不限制）
+    min_num_micro_batches_train: 1
+    
+    # 推理时最少分成1个micro batch
+    min_num_micro_batches_forward: 1
+  
+  # 必须使用megatron策略才能支持sequence packing
+  strategy_args:
+    strategy_name: megatron_train
+```
+
+### 4.4 使用建议
+
+1. **必选条件**：只能在`megatron_train`或`megatron_infer`策略下使用
+2. **推荐配置**：建议使用`load_balance`算法，可以获得更好的性能
+3. **长度设置**：`max_packed_sequence_length`应该根据你的GPU显存大小来调整，一般可以设置为模型支持的最大序列长度
+4**自定义Loss函数**：如果是自定义loss func使用sequence packing的话，请参考自定义loss func文档，确保正确设置了`apply_loss_scale`参数
+
+通过合理配置Sequence Packing，可以在保持模型性能的同时显著提升训练效率，特别是在处理变长序列的强化学习场景中效果尤为明显。
\ No newline at end of file
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Configuration/fsdp2.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Configuration/fsdp2.md
new file mode 100644
index 000000000..4a614628f
--- /dev/null
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Configuration/fsdp2.md	
@@ -0,0 +1,242 @@
+# FSDP2 训练和推理后端配置指南
+
+[FSDP2 (Fully Sharded Data Parallel 2)](https://docs.pytorch.org/tutorials/intermediate/FSDP_tutorial.html) 是 PyTorch 最新的分布式训练框架，提供高效的参数分片和 [DTensor](https://docs.pytorch.org/docs/stable/distributed.tensor.html) 支持。本文档将详细介绍如何在 ROLL 框架中配置和使用 FSDP2 后端。
+
+## FSDP2 与 ROLL
+
+ROLL 支持以下 FSDP2 特性：
+1. **FSDP2 分片**：使用 FSDP2 [fully_shard](https://docs.pytorch.org/docs/main/distributed.fsdp.fully_shard.html) 分片模型参数、梯度和优化器状态。同时支持使用 [DCP](https://docs.pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html) 进行检查点管理。
+2. **上下文并行**：支持与序列并行（Ulysses）集成
+3. **模型支持**：支持文本模型、视觉语言（VL）模型和 MoE（混合专家）模型。
+
+## 配置 FSDP2 策略
+
+在 ROLL 框架中，可以通过在 YAML 配置文件中设置 `strategy_args` 来配置 FSDP2 训练和推理策略。
+
+### 训练配置示例
+
+以下是一个典型的 FSDP2 训练配置示例（来自 `examples_lixing/qwen3-8B-rlvr_fsdp2/rlvr_config.yaml`）：
+
+```yaml
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 32
+    warmup_steps: 20
+    num_train_epochs: 50
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      fsdp_size: 16
+      param_dtype: bf16
+      reduce_dtype: float32
+      reshard_after_forward: true
+      offload_policy: false
+  device_mapping: list(range(0,16))
+  infer_batch_size: 4
+```
+
+### 推理配置示例
+
+以下是一个典型的 FSDP2 推理配置示例：
+
+```yaml
+reference:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  strategy_args:
+    strategy_name: fsdp2_infer
+    strategy_config:
+      fsdp_size: 4
+      param_dtype: bf16
+      reduce_dtype: float32
+      reshard_after_forward: true
+      offload_policy: false
+  device_mapping: list(range(0,8))
+  infer_batch_size: 1
+```
+
+### FSDP2 + 上下文并行配置示例
+
+以下是一个结合 FSDP2 和序列并行（Ulysses）的配置示例（来自 `examples_lixing/qwen3-4b-vl_fsdp2_lct/vl_fsdp2_lct_cp2.yaml`）：
+
+```yaml
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    ulysses_size: 2  # 序列并行大小
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 1.0e-2
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 256
+    warmup_steps: 0
+    num_train_epochs: 50
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      fsdp_size: 4  # FSDP 分片大小
+      param_dtype: bf16
+      reduce_dtype: float32
+      reshard_after_forward: true
+      offload_policy: false
+  device_mapping: list(range(0,8))
+  infer_batch_size: 1
+```
+
+在此示例中：
+- 总 GPU 数：8
+- 上下文并行（Ulysses）大小：2
+- FSDP 大小：4
+- 设备网格形状：(2, 4) [ddp, fsdp]
+- 2 个副本，每个副本有 4 路参数分片
+
+### 配置参数详解
+
+1. **strategy_name**：
+   - `fsdp2_train` 用于训练
+   - `fsdp2_infer` 用于推理
+
+2. **strategy_config**：FSDP2 特定的配置参数
+   - `fsdp_size`：FSDP 分片数量
+     - 如果 `fsdp_size >= world_size` 或 `fsdp_size <= 1`：纯 FSDP2 模式
+     - 如果 `fsdp_size < world_size`：带有 DDP 副本的 HSDP 模式
+   - `param_dtype`：参数数据类型（例如 `bf16`、`fp16`、`float32`）
+   - `reduce_dtype`：梯度归约的数据类型（例如 `float32`）
+   - `reshard_after_forward`：是否在前向传播后重新分片参数
+     - `true`：前向传播后重新分片
+     - `false`：保持参数gathered
+   - `offload_policy`：是否启用 CPU 卸载
+     - `true`：在不使用时将参数卸载到 CPU（节省 GPU 内存）
+     - `false`：将所有参数保留在 GPU 上（更快但使用更多内存）
+   - `wrap_policy`：模块包装策略
+     - `transformer_layer_cls_to_wrap`：要wrap的 Transformer 层类名列表（例如 `["Qwen3DecoderLayer"]`）
+     - `wrap_embeddings`：是否wrap input embedding（默认：`false`）
+     - `wrap_lm_output`：是否wrap LM head（默认：`false`）
+     - `moe_experts`：要包装的 MoE Expert类名列表（对于 MoE 模型，我们可能希望单独wrap每个expert以避免参数gather时OOM，但需要dummy前向传播以避免程序挂起，请参阅[示例](https://github.com/alibaba/ROLL/blob/main/roll/third_party/fsdp2/qwen3_moe_patch.py)）
+
+      如果未设置 `wrap_policy`，默认将使用 transformers 模型的 `_no_split_modules`。
+   - `apply_expert_patch`：是否应用 MoE 专家补丁（用于 MoE 模型）
+     - `true`：应用补丁以防止不同 rank 激活不同专家时的死锁
+     - `false`：不应用补丁（在 MoE 模型中可能导致死锁）
+   - `apply_tiled_mlp`：是否应用 TiledMLP 优化
+     - `true`：使用分块 MLP 计算以减少内存使用
+     - `false`：使用标准 MLP 计算
+   - `tiled_num_shards`：TiledMLP 的分片数量（默认：4）
+   - `async_save_ckpt`：是否异步保存checkpoint（默认：`true`）
+
+3. **ulysses_size**：序列并行大小（在 `model_args` 中设置）
+   - 在多个 GPU 之间拆分序列维度
+   - 与 FSDP2 兼容以实现混合并行
+   - 适用于长上下文训练
+
+4. **device_mapping**：指定要使用的 GPU 设备 ID 列表
+
+5. **infer_batch_size**：推理期间的批量大小
+
+## 设备网格配置
+
+FSDP2 根据 `fsdp_size` 和 `ulysses_size` 支持不同的设备网格配置：
+
+### FSDP2 模式
+
+当 `fsdp_size >= world_size` 或 `fsdp_size <= 1` 时：
+
+```yaml
+# 示例：16 个 GPU，fsdp_size=16
+strategy_config:
+  fsdp_size: 16
+# 设备网格：(16,) [fsdp]
+# 所有 16 个 GPU 分片参数
+```
+
+### HSDP 模式
+
+当 `fsdp_size < world_size` 时：
+
+```yaml
+# 示例：16 个 GPU，fsdp_size=8
+strategy_config:
+  fsdp_size: 8
+# ddp_size = 16 // 8 = 2
+# 设备网格：(2, 8) [ddp, fsdp]
+# 2 个副本，每个副本有 8 路参数分片
+```
+
+### FSDP2 + 序列并行（Ulysses）
+
+当同时配置 `ulysses_size` 和 `fsdp_size` 时：
+
+```yaml
+# 示例：8 个 GPU，ulysses_size=2，fsdp_size=4
+model_args:
+  ulysses_size: 2
+strategy_config:
+  fsdp_size: 4
+# ddp_size = 8 // 4 = 2
+# 设备网格：(2, 4) [ddp, fsdp]
+# 2 个副本，每个副本有 4 路参数分片
+# Ulysses：2 路序列并行（序列维度拆分）
+```
+
+## 模型特定配置
+
+### 文本模型（Qwen2.5、Qwen3、LLaMA）
+
+```yaml
+strategy_config:
+  fsdp_size: 16
+  param_dtype: bf16
+  reduce_dtype: float32
+  wrap_policy:
+    transformer_layer_cls_to_wrap: ["Qwen3DecoderLayer"]
+```
+
+### 视觉语言模型（Qwen2.5-VL、Qwen3-VL）
+
+```yaml
+actor_train:
+  model_args:
+    freeze_module_prefix: vision_model  # 冻结
+    ulysses_size: 2  # 可选：序列并行
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      fsdp_size: 4
+      param_dtype: bf16
+      reduce_dtype: float32
+      # vision encoder自动禁用 cast_forward_inputs
+```
+
+### MoE 模型（Qwen3-MoE）
+
+
+```yaml
+strategy_config:
+  fsdp_size: 16
+  param_dtype: bf16
+  reduce_dtype: float32
+  apply_expert_patch: true  # 如果单独wrap每个expert
+  wrap_policy:
+    moe_experts: ["Qwen3MoeMLP"]
+```
+
+## 注意事项
+
+1. **PyTorch 版本**：FSDP2 需要 PyTorch >= 2.4
+2. **MoE 模型**：如果单独wrap expert，始终启用 `apply_expert_patch: true` 以防止死锁（目前仅支持Qwen3-MoE）
+3. **VL 模型**：对视Vision Encoder将默认`cast_forward_inputs=False`防止可能的精度问题
+4. **内存与性能**：
+   - `offload_policy: true` 节省内存但速度较慢
+   - `reshard_after_forward: true` 节省内存但可能较慢
+   - 根据硬件和要求进行平衡
\ No newline at end of file
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Configuration/vllm.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Configuration/vllm.md
index f2cc4574e..84543d004 100644
--- a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Configuration/vllm.md	
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Configuration/vllm.md	
@@ -74,21 +74,6 @@ actor_infer:
 
 这种设计允许不同组件根据其需求选择最适合的推理引擎。
 
-### beam_search 配置方式
-RLVRPipeline 支持vllm beam_search 的生成方式，配置方式如下：
-```yaml
-generate_opt_level: 0 # 退化为batch_generate生成方式，generate_opt_level=1是prompt粒度并行方式
-num_return_sequences_in_group: 8 
-actor_infer:
-  generating_args:
-    num_beams: ${num_return_sequences_in_group}
-    num_return_sequences: ${num_return_sequences_in_group}
-```
-注意：
-- generating_args.num_beams 和 generating_args.num_return_sequences 必须设置为相同的值。
-- validate中配置generating_args也是相同的方式。
-
-
 ## 性能优化建议
 
 1. **内存管理**：
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_docker_usage.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_docker_usage.md
new file mode 100644
index 000000000..940d804a3
--- /dev/null
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_docker_usage.md	
@@ -0,0 +1,241 @@
+# 使用 Docker 在昇腾 NPU 上运行 ROLL
+
+最后更新：2026/04/27。
+
+本指南介绍如何使用 `Dockerfile.A2` 和 `Dockerfile.A3` 在**华为昇腾 NPU** 上构建并运行 ROLL。
+
+## 硬件与软件要求
+
+| 项目 | Dockerfile.A2 | Dockerfile.A3 |
+| ---- | ------------- | ------------- |
+| 硬件 | Atlas 900 A2 PODc（Ascend 910B1） | Atlas 900 A3 PODc（Ascend 910_9391） |
+| 宿主机操作系统 | Ubuntu 22.04 | Ubuntu 22.04 |
+| CANN | 8.5.1 | 8.5.1 |
+| Python | 3.11 | 3.11 |
+| Docker | >= 20.10 | >= 20.10 |
+| 昇腾 NPU 驱动 | 已安装在宿主机上 | 已安装在宿主机上 |
+
+## 主要组件
+
+两个 Dockerfile 安装的核心依赖版本相同：
+
+| 组件 | 版本 |
+| ---- | ---- |
+| PyTorch | 2.8.0+cpu |
+| vLLM | 0.13.0 |
+| vLLM-Ascend | 0.13.0 |
+| DeepSpeed | 0.16.4 |
+| Transformers | 4.57.6 |
+| triton-ascend | 3.2.0 |
+
+主要区别在于基础镜像和 SOC 版本：
+
+| 项目 | Dockerfile.A2 | Dockerfile.A3 |
+| ---- | ------------- | ------------- |
+| 基础镜像 | `quay.io/ascend/cann:8.5.1-910b-ubuntu22.04-py3.11` | `quay.io/ascend/cann:8.5.1-a3-ubuntu22.04-py3.11` |
+| SOC_VERSION | `ascend910b1` | `ascend910_9391` |
+
+## 构建 Docker 镜像
+
+### 1. 克隆 ROLL 仓库
+
+```bash
+git clone https://github.com/alibaba/ROLL.git
+cd ROLL
+```
+
+### 2. 构建镜像
+
+根据你的硬件选择对应的 Dockerfile：
+
+**Atlas 900 A2 PODc（Ascend 910B1）：**
+
+```bash
+docker build -f docker/Dockerfile.A2 -t roll:ascend-a2 .
+```
+
+**Atlas 900 A3 PODc（Ascend 910_9391）：**
+
+```bash
+docker build -f docker/Dockerfile.A3 -t roll:ascend-a3 .
+```
+
+> **注意：** 构建过程会从源码编译 vLLM 和 vLLM-Ascend，耗时较长，请确保有足够的磁盘空间（至少 50GB）和网络访问。
+
+你也可以在构建时自定义 SOC 版本：
+
+```bash
+# A2 自定义 SOC 版本
+docker build -f docker/Dockerfile.A2 --build-arg SOC_VERSION=ascend910b1 -t roll:ascend-a2 .
+
+# A3 自定义 SOC 版本
+docker build -f docker/Dockerfile.A3 --build-arg SOC_VERSION=ascend910_9391 -t roll:ascend-a3 .
+```
+
+## 运行容器
+
+### 基本启动
+
+**A2：**
+
+```bash
+docker run -dit \
+    --name roll_a2 \
+    --device /dev/davinci0 \
+    --device /dev/davinci1 \
+    --device /dev/davinci2 \
+    --device /dev/davinci3 \
+    --device /dev/davinci4 \
+    --device /dev/davinci5 \
+    --device /dev/davinci6 \
+    --device /dev/davinci_manager \
+    --device /dev/devmm_svm \
+    --device /dev/hisi_hdc \
+    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
+    -v /usr/local/Ascend/add-ons:/usr/local/Ascend/add-ons \
+    -v /usr/local/dcmi:/usr/local/dcmi \
+    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
+    -v /etc/ascend_install.info:/etc/ascend_install.info \
+    -v /home/$USER:/home/$USER \
+    --ipc=host \
+    --net=host \
+    roll:ascend-a2 \
+    /bin/bash
+```
+
+**A3：**
+
+```bash
+docker run -dit \
+    --name roll_a3 \
+    --device /dev/davinci0 \
+    --device /dev/davinci1 \
+    --device /dev/davinci2 \
+    --device /dev/davinci3 \
+    --device /dev/davinci4 \
+    --device /dev/davinci5 \
+    --device /dev/davinci6 \
+    --device /dev/davinci_manager \
+    --device /dev/devmm_svm \
+    --device /dev/hisi_hdc \
+    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
+    -v /usr/local/Ascend/add-ons:/usr/local/Ascend/add-ons \
+    -v /usr/local/dcmi:/usr/local/dcmi \
+    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
+    -v /etc/ascend_install.info:/etc/ascend_install.info \
+    -v /home/$USER:/home/$USER \
+    --ipc=host \
+    --net=host \
+    roll:ascend-a3 \
+    /bin/bash
+```
+
+### 多卡启动（训练推荐）
+
+多 NPU 训练时，需要挂载所有可用的 NPU 设备。根据节点上的 NPU 数量调整 `--device /dev/davinciX` 的数量：
+
+```bash
+docker run -dit \
+    --name roll_ascend \
+    --device /dev/davinci0 \
+    --device /dev/davinci1 \
+    --device /dev/davinci2 \
+    --device /dev/davinci3 \
+    --device /dev/davinci4 \
+    --device /dev/davinci5 \
+    --device /dev/davinci6 \
+    --device /dev/davinci7 \
+    --device /dev/davinci_manager \
+    --device /dev/devmm_svm \
+    --device /dev/hisi_hdc \
+    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
+    -v /usr/local/Ascend/add-ons:/usr/local/Ascend/add-ons \
+    -v /usr/local/dcmi:/usr/local/dcmi \
+    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
+    -v /etc/ascend_install.info:/etc/ascend_install.info \
+    -v /home/$USER:/home/$USER \
+    -v /path/to/models:/path/to/models \
+    -v /path/to/data:/path/to/data \
+    --ipc=host \
+    --net=host \
+    roll:ascend-a3 \
+    /bin/bash
+```
+
+> **注意：**
+> - `--device /dev/davinciX`：挂载 NPU 设备，根据可用 NPU 数量增减。
+> - `--device /dev/davinci_manager`、`--device /dev/devmm_svm`、`--device /dev/hisi_hdc`：昇腾 NPU 必需的管理设备。
+> - `-v /usr/local/Ascend/driver`：挂载宿主机昇腾驱动。
+> - `-v /path/to/models` 和 `-v /path/to/data`：根据需要挂载模型权重和训练数据目录。
+
+### 进入容器
+
+```bash
+# A2
+docker exec -it roll_a2 /bin/bash
+
+# A3
+docker exec -it roll_a3 /bin/bash
+```
+
+## 验证环境
+
+进入容器后，验证昇腾环境是否正确配置：
+
+```bash
+# 验证 NPU 可见性
+npu-smi info
+
+# 验证 CANN 环境已加载
+env | grep -E "ASCEND|LD_LIBRARY_PATH|PATH"
+
+# 验证 Python 包
+python -c "import torch; import torch_npu; print(torch_npu.npu.is_available())"
+python -c "import vllm; print(f'vllm: {vllm.__version__}')"
+python -c "import vllm_ascend; print(f'vllm_ascend available')"
+```
+
+## 运行 ROLL 流水线
+
+### 重要配置说明
+
+由于昇腾 NPU 上暂不支持 Megatron-LM 训练，需要使用 **DeepSpeed** 作为训练后端。请确保配置文件中使用以下设置：
+
+1. 将 `strategy_args` 设置为使用 DeepSpeed
+2. 设置 `device_mapping`，确保训练和推理在不同的 NPU 卡上执行
+
+
+### 示例：RLVR 流水线
+
+```bash
+python examples/start_rlvr_pipeline.py \
+    --config_path qwen2.5-7B-rlvr_megatron \
+    --config_name rlvr_config_amd
+```
+
+> **注意：** `rlvr_config_amd` 配置专为非 NVIDIA 硬件设计，使用 DeepSpeed 作为训练后端。请根据你的 NPU 拓扑调整配置文件中的 `device_mapping`。
+
+## 常见问题
+
+### 容器内 NPU 不可见
+
+确保所有必需的设备和管理路径已正确挂载。在容器内使用 `npu-smi info` 检查。
+
+### vLLM-Ascend 导入错误
+
+验证 CANN 环境是否正确加载：
+
+```bash
+source /usr/local/Ascend/ascend-toolkit/set_env.sh
+source /usr/local/Ascend/nnal/atb/set_env.sh
+```
+
+这些命令在镜像构建时已自动添加到 `/root/.bashrc`。如果切换到非 root 用户，可能需要手动执行。
+
+### 显存不足
+
+在配置文件中减小 `rollout_batch_size` 或 `num_return_sequences_in_group` 以降低 NPU 显存占用。
+
+## 声明
+
+ROLL 中提供的 Ascend 支持代码皆为参考样例，生产环境使用请通过官方正式途径沟通。
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_npu_env_config.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_npu_env_config.md
new file mode 100644
index 000000000..9a1a5dbd9
--- /dev/null
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_npu_env_config.md	
@@ -0,0 +1,307 @@
+# 昇腾 NPU 环境变量配置指南
+
+最后更新：2026/04/27。
+
+本文档说明在华为昇腾 NPU 上运行 ROLL 时涉及的关键环境变量，涵盖设备管理、HCCL 通信、显存优化、CPU 调度、vLLM-Ascend 推理及调试日志等方面。
+
+## ROLL 自动设置的环境变量
+
+ROLL 在运行时自动注入以下环境变量（定义在 `roll/platforms/npu.py` 中）：
+
+| 变量 | 值 | 说明 |
+| ---- | -- | ---- |
+| `ASCEND_RT_VISIBLE_DEVICES` | 如 `"0,1,2,3"` | 控制 NPU 设备可见性，类似 GPU 的 `CUDA_VISIBLE_DEVICES` |
+| `RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES` | `"1"` | 阻止 Ray 自动覆盖 `ASCEND_RT_VISIBLE_DEVICES` |
+| `VLLM_ALLOW_INSECURE_SERIALIZATION` | `"1"` | 允许 vLLM 使用非安全序列化，用于 Ray 跨进程传输张量 |
+| `RAY_get_check_signal_interval_milliseconds` | `"1"` | 缩短 Ray plasma lock 持有时间，避免多 Worker 场景下锁饥饿 |
+| `RAY_CGRAPH_get_timeout` | `"600"` | Ray 计算图获取超时时间（秒） |
+
+## Docker 镜像中的环境变量
+
+在 [昇腾 NPU Docker 使用指南](ascend_docker_usage.md) 中说明的预构建镜像内，包含以下环境设置：
+
+| 变量 | 值 | 说明 |
+| ---- | -- | ---- |
+| `ASCEND_HOME_PATH` | `/usr/local/Ascend/ascend-toolkit/latest` | CANN 工具包根路径 |
+| `LD_LIBRARY_PATH` | 包含多个 Ascend lib64 路径 | 动态库搜索路径，确保 `libascendcl.so` 等可被加载 |
+
+预构建镜像会通过 `/root/.bashrc` 自动加载以下 CANN 环境脚本：
+
+```bash
+source /usr/local/Ascend/ascend-toolkit/set_env.sh
+source /usr/local/Ascend/nnal/atb/set_env.sh
+```
+
+## Ray 集群环境变量（多机）
+
+这些变量控制 ROLL 如何在多个 NPU 节点间组建 Ray 集群。它们定义在 `roll/distributed/scheduler/driver_utils.py` 中，由 `roll/distributed/scheduler/initialize.py` 消费：
+
+| 变量 | 默认值 | 说明 |
+| ---- | ------ | ---- |
+| `RANK` | `0` | 节点编号，`0` = 主节点，`1, 2, 3...` = 工作节点 |
+| `WORLD_SIZE` | `1` | 集群总节点数 |
+| `MASTER_ADDR` | `127.0.0.1` | 主节点 IP 地址 |
+| `MASTER_PORT` | `6379` | Ray 主节点端口（也是 Ray 默认端口） |
+| `DASHBOARD_PORT` | `8265` | Ray Dashboard Web UI 端口 |
+| `WORKER_ID` | `<MASTER_ADDR>:<RANK>` | Ray 集群中的节点名称，未设置时自动生成 |
+
+当 `RANK=0` 时，ROLL 自动执行 `ray start --head --port=<MASTER_PORT>`。当 `RANK>0` 时，ROLL 会休眠 5 秒后执行 `ray start --address=<MASTER_ADDR>:<MASTER_PORT>` 加入集群。所有节点加入后，工作节点退出（`sys.exit(0)`），仅主节点执行训练流水线。
+
+示例（主节点，在启动流水线前设置）：
+
+```bash
+export RANK=0
+export WORLD_SIZE=2
+export MASTER_ADDR=10.0.0.1
+export MASTER_PORT=6379
+export DASHBOARD_PORT=8265
+```
+
+示例（工作节点，在加入前设置）：
+
+```bash
+export RANK=1
+export WORLD_SIZE=2
+export MASTER_ADDR=10.0.0.1
+export MASTER_PORT=6379
+```
+
+你也可以在运行 ROLL 之前手动启动 Ray（`ray start --head` / `ray start --address=...`）。ROLL 会检测到已存在的集群并跳过自动启动。
+
+## HCCL 通信相关变量
+
+这些变量控制 HCCL（Huawei Collective Communication Library）的行为，HCCL 是 NPU 上的分布式通信后端（等同于 GPU 上的 NCCL）：
+
+| 变量 | 推荐值 | 说明 |
+| ---- | ------ | ---- |
+| `HCCL_CONNECT_TIMEOUT` | `3600` | 建链超时时间（秒），默认 120 秒，大模型训练场景需增大 |
+| `HCCL_EXEC_TIMEOUT` | `3600` | 集合通信算子执行超时时间（秒），长步长训练需增大 |
+| `HCCL_DETERMINISTIC` | `false` | 关闭确定性计算，开启会显著降低通信性能 |
+| `HCCL_OP_EXPANSION_MODE` | `"AIV"` | 通信算法展开位置，`AIV` 使用 Vector Core，性能优于 `AI_CPU`/`HOST`/`HOST_TS` |
+| `HCCL_BUFFSIZE` | 如 `"2147483648"` | HCCL 通信缓冲区大小（字节），大数据量场景可增大 |
+| `HCCL_IF_IP` | 节点 IP 地址 | 指定 HCCL 跨节点通信使用的 IP 地址，多机训练必需 |
+| `HCCL_SOCKET_IFNAME` | 如 `"enp194s0f0"` | HCCL Socket 通信使用的网卡名称，所有节点必须一致 |
+| `HCCL_IF_BASE_PORT` | 如 `23456` | HCCL 跨节点通信基础端口，确保端口未被防火墙拦截 |
+| `HCCL_WHITELIST_DISABLE` | `1` | 禁用 HCCL 白名单检查，某些环境下遇到通信错误时可能需要设置 |
+
+示例（单机）：
+
+```bash
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+```
+
+示例（多机）：
+
+```bash
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_EXEC_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+export HCCL_IF_IP=$(hostname -I | awk '{print $1}')
+export HCCL_SOCKET_IFNAME="enp194s0f0"
+export HCCL_IF_BASE_PORT=23456
+```
+
+## NPU 显存相关变量
+
+| 变量 | 推荐值 | 说明 |
+| ---- | ------ | ---- |
+| `NPU_MEMORY_FRACTION` | `0.96` | NPU 显存可用比例，默认 0.8，大模型推理建议调到 0.95+ |
+| `PYTORCH_NPU_ALLOC_CONF` | `expandable_segments:True` | 启用 PyTorch NPU 内存池可扩展段，减少内存碎片和 OOM 风险 |
+| `MULTI_STREAM_MEMORY_REUSE` | `1` | 多流内存复用，减少显存占用 |
+| `TASK_QUEUE_ENABLE` | `2` | 任务下发优化，非图模式设为 2，图模式设为 1 |
+| `COMBINED_ENABLE` | `1` | 启用算子组合优化，将多个小算子融合为一个大算子以减少内核启动开销 |
+
+示例：
+
+```bash
+export NPU_MEMORY_FRACTION=0.96
+export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
+export MULTI_STREAM_MEMORY_REUSE=1
+export TASK_QUEUE_ENABLE=2
+export COMBINED_ENABLE=1
+```
+
+## CPU 调度相关变量
+
+| 变量 | 推荐值 | 说明 |
+| ---- | ------ | ---- |
+| `CPU_AFFINITY_CONF` | `2` | CPU 绑核优化，避免跨 NUMA 节点内存访问。`1`=粗粒度，`2`=细粒度（推荐） |
+| `OMP_NUM_THREADS` | `1` | OpenMP 线程数，分布式训练中建议设为 1 避免过度竞争 |
+
+示例：
+
+```bash
+export CPU_AFFINITY_CONF=2
+export OMP_NUM_THREADS=1
+```
+
+也支持按 NPU 卡自定义绑核范围：
+
+```bash
+export CPU_AFFINITY_CONF=1,npu0:0-1,npu1:2-3,npu2:4-5,npu3:6-7
+```
+
+## vLLM-Ascend 推理相关变量
+
+| 变量 | 推荐值 | 说明 |
+| ---- | ------ | ---- |
+| `VLLM_USE_V1` | `1` | 启用 vLLM V1 架构，vLLM-Ascend 必需 |
+| `VLLM_ATTENTION_BACKEND` | `XFORMERS` | vLLM 注意力计算后端 |
+| `VLLM_ASCEND_ENABLE_FLASHCOMM` | `1` | 启用昇腾 FlashComm 高速通信优化 |
+| `VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE` | `1` | 启用大模型稠密计算优化 |
+| `VLLM_ASCEND_ENABLE_PREFETCH_MLP` | `1` | 启用 MLP 层权重预取 |
+| `VLLM_ASCEND_ENABLE_TOPK_OPTIMIZE` | `1` | 启用 TopK 算子融合优化，提升生成解码性能 |
+| `VLLM_ASCEND_MODEL_EXECUTE_TIME_OBSERVE` | `1` | 打印 prefill/decode 阶段耗时详情（调试用） |
+| `VLLM_ASCEND_TRACE_RECOMPILES` | `1` | 追踪算子重编译，用于调试性能问题 |
+| `VLLM_ENABLE_MC2` | `1` | 启用 MC2 通信优化，用于多机推理 |
+
+示例：
+
+```bash
+export VLLM_USE_V1=1
+export VLLM_ATTENTION_BACKEND=XFORMERS
+export VLLM_ASCEND_ENABLE_FLASHCOMM=1
+export VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1
+export VLLM_ASCEND_ENABLE_PREFETCH_MLP=1
+```
+
+## CANN 日志与调试变量
+
+| 变量 | 推荐值 | 说明 |
+| ---- | ------ | ---- |
+| `ASCEND_GLOBAL_LOG_LEVEL` | `3`（ERROR） | CANN 日志级别：0=DEBUG, 1=INFO, 2=WARNING, 3=ERROR |
+| `ASCEND_SLOG_PRINT_TO_STDOUT` | `1` | 将 CANN 日志输出到标准输出（调试用） |
+| `ASDOPS_LOG_LEVEL` | `ERROR` | 算子库日志级别 |
+| `ATB_LOG_LEVEL` | `ERROR` | ATB 加速库日志级别 |
+| `ASCEND_LAUNCH_BLOCKING` | `1` | 启用同步执行以定位错误。仅在调试 NPU 错误时设为 `1`，会禁用异步执行并严重降低性能 |
+
+:::caution
+生产环境中开启 DEBUG/INFO 日志级别会显著降低性能，请务必将日志级别设为 ERROR。
+:::
+
+调试示例：
+
+```bash
+export ASCEND_GLOBAL_LOG_LEVEL=0
+export ASCEND_SLOG_PRINT_TO_STDOUT=1
+export ASCEND_LAUNCH_BLOCKING=1
+```
+
+生产示例：
+
+```bash
+export ASCEND_GLOBAL_LOG_LEVEL=3
+export ASDOPS_LOG_LEVEL=ERROR
+export ATB_LOG_LEVEL=ERROR
+```
+
+## CANN 算子编译与精度变量
+
+| 变量 | 推荐值 | 说明 |
+| ---- | ------ | ---- |
+| `ACL_OP_COMPILER_CACHE_MODE` | `enable` | 启用算子编译缓存，避免重复运行时重新编译 |
+| `ACL_OP_COMPILER_CACHE_DIR` | 如 `/tmp/npu_cache` | 算子编译缓存存储目录 |
+| `ASCEND_MAX_OP_CACHE_SIZE` | 如 `5000` | 最大算子缓存数量，增大可防止长训练中缓存淘汰导致性能下降 |
+| `ACL_PRECISION_MODE` | `allow_fp32_to_fp16` | 允许不支持的 FP32 算子自动转换为 FP16 精度 |
+
+示例：
+
+```bash
+export ACL_OP_COMPILER_CACHE_MODE=enable
+export ACL_OP_COMPILER_CACHE_DIR=/tmp/npu_cache
+export ASCEND_MAX_OP_CACHE_SIZE=5000
+export ACL_PRECISION_MODE=allow_fp32_to_fp16
+```
+
+## 生产环境推荐配置
+
+### 单机
+
+多 NPU 分布式 RL 训练场景，建议在启动脚本或 ROLL YAML 配置中添加以下环境变量：
+
+```bash
+# HCCL 通信
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_EXEC_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+
+# NPU 显存
+export NPU_MEMORY_FRACTION=0.96
+export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
+export MULTI_STREAM_MEMORY_REUSE=1
+export TASK_QUEUE_ENABLE=2
+export COMBINED_ENABLE=1
+
+# CPU 调度
+export CPU_AFFINITY_CONF=2
+export OMP_NUM_THREADS=1
+
+# vLLM-Ascend 推理
+export VLLM_USE_V1=1
+export VLLM_ASCEND_ENABLE_FLASHCOMM=1
+export VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1
+export VLLM_ASCEND_ENABLE_PREFETCH_MLP=1
+
+# 算子编译缓存
+export ACL_OP_COMPILER_CACHE_MODE=enable
+export ACL_OP_COMPILER_CACHE_DIR=/tmp/npu_cache
+export ASCEND_MAX_OP_CACHE_SIZE=5000
+
+# 日志（生产环境）
+export ASCEND_GLOBAL_LOG_LEVEL=3
+export ASDOPS_LOG_LEVEL=ERROR
+export ATB_LOG_LEVEL=ERROR
+```
+
+### 多机
+
+多机训练需在单机配置基础上增加 Ray 集群变量：
+
+```bash
+# Ray 集群（多机）
+export RANK=0                        # 0=主节点, 1/2/3=工作节点
+export WORLD_SIZE=2                  # 集群总节点数
+export MASTER_ADDR=10.0.0.1          # 主节点 IP
+export MASTER_PORT=6379              # Ray 通信端口
+export DASHBOARD_PORT=8265           # Ray Dashboard 端口
+
+# HCCL 多机通信
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_EXEC_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+export HCCL_IF_IP=$(hostname -I | awk '{print $1}')
+export HCCL_SOCKET_IFNAME="enp194s0f0"
+export HCCL_IF_BASE_PORT=23456
+
+# ...（其余 NPU 显存、CPU、vLLM、缓存、日志变量同上）
+```
+
+或通过 ROLL YAML 配置：
+
+```yaml
+system_envs:
+  HCCL_CONNECT_TIMEOUT: "3600"
+  HCCL_EXEC_TIMEOUT: "3600"
+  HCCL_DETERMINISTIC: "false"
+  HCCL_OP_EXPANSION_MODE: "AIV"
+  HCCL_IF_IP: "10.0.0.1"
+  HCCL_SOCKET_IFNAME: "enp194s0f0"
+  HCCL_IF_BASE_PORT: "23456"
+  NPU_MEMORY_FRACTION: "0.96"
+  PYTORCH_NPU_ALLOC_CONF: "expandable_segments:True"
+  CPU_AFFINITY_CONF: "2"
+  OMP_NUM_THREADS: "1"
+  COMBINED_ENABLE: "1"
+  VLLM_USE_V1: "1"
+  ACL_OP_COMPILER_CACHE_MODE: "enable"
+  ACL_OP_COMPILER_CACHE_DIR: "/tmp/npu_cache"
+```
+
+## 声明
+
+ROLL 中提供的 Ascend 支持代码皆为参考样例，生产环境使用请通过官方正式途径沟通。
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_npu_examples.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_npu_examples.md
new file mode 100644
index 000000000..401f0d836
--- /dev/null
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_npu_examples.md	
@@ -0,0 +1,850 @@
+# 昇腾 NPU 端到端配置样例
+
+最后更新：2026/04/27。
+
+本文档提供在华为昇腾 NPU 上运行 ROLL 的端到端配置样例，涵盖环境准备、资源切分和启动命令，适用于单机和多机场景。
+
+## 前置条件
+
+运行本样例前，请确保：
+
+1. 已拉取与硬件匹配的预构建昇腾镜像（参见 [Docker 使用指南](ascend_docker_usage.md)）。
+2. 已在容器内验证环境（参见 [验证环境](ascend_docker_usage.md#verify-the-environment)）。
+3. 已将模型权重下载到容器可访问的目录。
+
+当前仓库在 `examples/ascend_examples` 中提供可直接运行的昇腾示例，包括 `qwen3_8b_rlvr_deepspeed.yaml`、`qwen3_4B_dpo_deepspeed.yaml`、`run_rlvr_pipeline.sh` 和 `run_dpo_pipeline.sh`。
+
+## GPU 与 NPU 的关键差异
+
+将 GPU 配置适配到 NPU 时，**必须**进行以下修改：
+
+| 项目 | GPU | NPU |
+| ---- | --- | --- |
+| 训练后端 | Megatron 或 DeepSpeed | 仅 DeepSpeed（不支持 Megatron） |
+| 设备放置 | 支持 Colocated 模式 | **不支持** Colocated 模式；训练和推理必须使用不同的 NPU 卡 |
+| 注意力实现 | `flash_attn` 或 `fa2` | 通过 `transformers` 使用 `fa2`（不能使用 `flash_attn` 包） |
+| 通信后端 | NCCL | HCCL |
+| 设备可见性 | `CUDA_VISIBLE_DEVICES` | `ASCEND_RT_VISIBLE_DEVICES` |
+
+## 样例 1：单机 Agentic 流水线（Qwen2.5-0.5B）
+
+本样例在单个 8 卡 NPU 节点上使用 DeepSpeed ZeRO-3 运行 FrozenLake Agentic 流水线。
+
+### 步骤 1：启动容器
+
+```bash
+docker run -dit \
+    --name roll_npu_single \
+    --ulimit nofile=65536:65536 \
+    --device /dev/davinci0 \
+    --device /dev/davinci1 \
+    --device /dev/davinci2 \
+    --device /dev/davinci3 \
+    --device /dev/davinci4 \
+    --device /dev/davinci5 \
+    --device /dev/davinci6 \
+    --device /dev/davinci7 \
+    --device /dev/davinci_manager \
+    --device /dev/devmm_svm \
+    --device /dev/hisi_hdc \
+    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
+    -v /usr/local/Ascend/add-ons:/usr/local/Ascend/add-ons \
+    -v /usr/local/dcmi:/usr/local/dcmi \
+    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
+    -v /etc/ascend_install.info:/etc/ascend_install.info \
+    -v /path/to/models:/data/models \
+    -v /path/to/data:/data \
+    --ipc=host \
+    --net=host \
+    roll:ascend-a3 \
+    /bin/bash
+```
+
+### 步骤 2：设置环境变量
+
+```bash
+# HCCL 通信
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+
+# NPU 显存
+export NPU_MEMORY_FRACTION=0.96
+export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
+export MULTI_STREAM_MEMORY_REUSE=1
+export TASK_QUEUE_ENABLE=2
+export COMBINED_ENABLE=1
+
+# CPU 调度
+export CPU_AFFINITY_CONF=2
+export OMP_NUM_THREADS=1
+
+# vLLM-Ascend 推理
+export VLLM_USE_V1=1
+export VLLM_ASCEND_ENABLE_FLASHCOMM=1
+export VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1
+export VLLM_ASCEND_ENABLE_PREFETCH_MLP=1
+
+# 算子编译缓存
+export ACL_OP_COMPILER_CACHE_MODE=enable
+export ACL_OP_COMPILER_CACHE_DIR=/tmp/npu_cache
+export ASCEND_MAX_OP_CACHE_SIZE=5000
+
+# 日志（生产环境）
+export ASCEND_GLOBAL_LOG_LEVEL=3
+export ASDOPS_LOG_LEVEL=ERROR
+export ATB_LOG_LEVEL=ERROR
+```
+
+### 步骤 3：创建 NPU 配置文件
+
+创建 YAML 配置文件（如 `agentic_frozen_lake_npu.yaml`），以下为 NPU 专用配置。与 GPU 配置的关键差异以 `# NPU` 注释标记：
+
+```yaml
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "agentic_frozen_lake_npu"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+render_save_dir: ./output/render
+system_envs:
+  USE_MODELSCOPE: '1'
+  HCCL_CONNECT_TIMEOUT: "3600"
+  HCCL_DETERMINISTIC: "false"
+  HCCL_OP_EXPANSION_MODE: "AIV"
+  NPU_MEMORY_FRACTION: "0.96"
+  CPU_AFFINITY_CONF: "2"
+  OMP_NUM_THREADS: "1"
+  VLLM_USE_V1: "1"
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/models/${exp_name}
+
+num_gpus_per_node: 8
+
+max_steps: 1024
+save_steps: 10000
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 1024
+val_batch_size: 1024
+sequence_length: 8192
+
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "grpo"
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+pretrain: Qwen/Qwen2.5-0.5B-Instruct
+reward_pretrain: Qwen/Qwen2.5-0.5B-Instruct
+
+actor_train:
+  model_args:
+    attn_implementation: fa2          # NPU: 通过 transformers 使用 fa2，不能使用 flash_attn
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 64
+    warmup_steps: 10
+    lr_scheduler_type: cosine
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: deepspeed_train    # NPU: 必须使用 DeepSpeed，不能用 megatron_train
+    strategy_config: ${deepspeed_zero3}
+  device_mapping: list(range(0,4))    # NPU: 训练使用 NPU 0-3
+  infer_batch_size: 2
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 128
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+  device_mapping: list(range(4,8))    # NPU: 推理使用 NPU 4-7（与训练分离）
+  infer_batch_size: 2
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(4,8))    # NPU: 与 actor_infer 共享推理卡
+  infer_batch_size: 2
+
+reward_normalization:
+  grouping: traj_group_id
+  method: mean_std
+
+train_env_manager:
+  max_env_num_per_worker: 16
+  num_env_groups: 128
+  group_size: 8
+  tags: [FrozenLake]
+  num_groups_partition: [128]
+
+val_env_manager:
+  max_env_num_per_worker: 32
+  num_env_groups: 1024
+  group_size: 1
+  tags: [SimpleSokoban, LargerSokoban, SokobanDifferentGridVocab, FrozenLake]
+  num_groups_partition: [256, 256, 256, 256]
+
+max_tokens_per_step: 64
+
+custom_envs:
+  SimpleSokoban:
+    ${custom_env.SimpleSokoban}
+  LargerSokoban:
+    ${custom_env.LargerSokoban}
+  SokobanDifferentGridVocab:
+    ${custom_env.SokobanDifferentGridVocab}
+  FrozenLake:
+    ${custom_env.FrozenLake}
+  FrozenLakeThink:
+    ${custom_env.FrozenLakeThink}
+```
+
+### 步骤 4：启动训练
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+python examples/start_agentic_pipeline.py \
+    --config_path <config_dir> \
+    --config_name agentic_frozen_lake_npu
+```
+
+## 样例 2：单机 RLVR 流水线（Qwen3-8B）
+
+本样例使用仓库中的 `examples/ascend_examples/qwen3_8b_rlvr_deepspeed.yaml` 配置在昇腾 NPU 上运行 RLVR 流水线。
+
+### 关键配置
+
+```yaml
+system_envs:
+  USE_MODELSCOPE: '1'
+  HCCL_CONNECT_TIMEOUT: "3600"
+  HCCL_DETERMINISTIC: "false"
+  HCCL_OP_EXPANSION_MODE: "AIV"
+  NPU_MEMORY_FRACTION: "0.96"
+  CPU_AFFINITY_CONF: "2"
+  OMP_NUM_THREADS: "1"
+  VLLM_USE_V1: "1"
+  PYTORCH_NPU_ALLOC_CONF: "expandable_segments:True"
+
+rollout_batch_size: 32
+prompt_length: 2048
+response_length: 8192
+num_return_sequences_in_group: 8
+
+pretrain: Qwen/Qwen3-8B-Base
+reward_pretrain: Qwen/Qwen3-8B-Base
+
+actor_train:
+  model_args:
+    attn_implementation: fa2          # NPU: 通过 transformers 使用 fa2，不能使用 flash_attn
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 32
+    warmup_steps: 20
+  data_args:
+    template: qwen3
+    file_name:
+      - data/math_deepmath_deal.jsonl
+    domain_interleave_probs:
+      math_rule: 1
+    dataset_dir: data
+    messages: messages
+    interleave_probs: "1.0"
+  strategy_args:
+    strategy_name: deepspeed_train    # NPU: 必须使用 DeepSpeed
+    strategy_config: ${deepspeed_zero3}
+  device_mapping: list(range(0,8))    # NPU: 训练使用 NPU 0-7
+  infer_batch_size: 2
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen3
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 8000
+  device_mapping: list(range(8,12))   # NPU: 推理使用 NPU 8-11
+  infer_batch_size: 4
+
+reference:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen3
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(12,16))  # NPU: Reference 使用 NPU 12-15
+  infer_batch_size: 1
+
+rewards:
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen3
+    tag_included: [deepmath_103k, MATH-500, OlympiadBench, minervamath, aime2025, gsm8k, aime, amc23, math_rule]
+    world_size: 8
+    infer_batch_size: 1
+```
+
+### 启动
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+python examples/start_rlvr_pipeline.py \
+    --config_path ascend_examples \
+    --config_name qwen3_8b_rlvr_deepspeed
+```
+
+## 样例 3：多机分布式训练
+
+本样例展示如何在多个昇腾 NPU 节点上运行 ROLL。ROLL 支持两种多机启动方式：
+
+- **方式 A（推荐）：** 通过环境变量自动启动——在每个节点上设置 `RANK`、`WORLD_SIZE`、`MASTER_ADDR`、`MASTER_PORT`，ROLL 自动启动和管理 Ray 集群。
+- **方式 B：** 手动 Ray 集群——在运行 ROLL 之前在每个节点上手动启动 Ray。
+
+### 架构概览
+
+```
+┌──────────────────────────────────────────────────────┐
+│  主节点 (RANK=0)                                      │
+│  ┌────────────────────────────────────────────────┐   │
+│  │ Docker 容器 (--net=host)                       │   │
+│  │  ├─ Ray Head (端口 6379)                       │   │
+│  │  ├─ Ray Dashboard (端口 8265)                  │   │
+│  │  └─ 训练驱动 (python start_xxx.py)             │   │
+│  └────────────────────────────────────────────────┘   │
+└──────────────────────┬───────────────────────────────┘
+                       │ HCCL (tcp)
+         ┌─────────────┼─────────────┐
+         ▼                           ▼
+┌─────────────────────┐    ┌─────────────────────┐
+│ 工作节点 1           │    │ 工作节点 2           │
+│ (RANK=1)            │    │ (RANK=2)            │
+│ ┌─────────────────┐ │    │ ┌─────────────────┐ │
+│ │ Docker 容器      │ │    │ │ Docker 容器      │ │
+│ │ Ray Worker      │ │    │ │ Ray Worker      │ │
+│ │ ray start       │ │    │ │ ray start       │ │
+│ │ --address=...   │ │    │ │ --address=...   │ │
+│ └─────────────────┘ │    │ └─────────────────┘ │
+└─────────────────────┘    └─────────────────────┘
+```
+
+### 多机前置条件
+
+- 所有节点必须在同一二层网络内。
+- 主节点的 `MASTER_PORT`（默认 6379）和 `DASHBOARD_PORT`（默认 8265）必须能被所有工作节点访问（关闭防火墙或开放这些端口）。
+- 所有节点需要挂载共享存储（NFS 等）到相同路径，用于模型权重、数据和断点。
+- 所有节点必须使用相同的 Docker 镜像和 CANN 版本。
+
+### 网络接口识别
+
+启动前，确认每个节点上 HCCL 使用的网卡名称：
+
+```bash
+# 列出可用网卡
+ip addr
+
+# 或用 NPU 工具查看 HCCL 接口
+for i in {0..7}; do hccn_tool -i $i -ip -g; done
+
+# NPU 设备 IP 通常在高速互联网络上（如 192.168.x.x）。
+# 使用对应的以太网接口名称（如 enp194s0f0, eth0）作为 HCCL_SOCKET_IFNAME。
+```
+
+### 步骤 1：在所有节点启动容器
+
+在**每个**节点上，使用 `--net=host` 启动 Docker 容器并挂载共享存储：
+
+```bash
+docker run -dit \
+    --name roll_npu_multi \
+    --ulimit nofile=65536:65536 \
+    --device /dev/davinci0 \
+    --device /dev/davinci1 \
+    --device /dev/davinci2 \
+    --device /dev/davinci3 \
+    --device /dev/davinci4 \
+    --device /dev/davinci5 \
+    --device /dev/davinci6 \
+    --device /dev/davinci7 \
+    --device /dev/davinci_manager \
+    --device /dev/devmm_svm \
+    --device /dev/hisi_hdc \
+    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
+    -v /usr/local/Ascend/add-ons:/usr/local/Ascend/add-ons \
+    -v /usr/local/dcmi:/usr/local/dcmi \
+    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
+    -v /etc/ascend_install.info:/etc/ascend_install.info \
+    -v /shared/storage:/data \
+    --ipc=host \
+    --net=host \
+    roll:ascend-a3 \
+    /bin/bash
+```
+
+> **重要：** `-v /shared/storage:/data` 将共享存储挂载到容器内，用于模型权重、训练数据和断点。此目录必须在所有节点上以相同路径访问。可使用 NFS、HDFS 或其他共享文件系统方案。
+
+### 步骤 2：验证 NPU 网络连通性
+
+在**每个**节点上，验证 NPU 设备间通信：
+
+```bash
+# 检查链路状态（全部应显示 "up"）
+for i in {0..7}; do hccn_tool -i $i -link -g; done
+
+# 检查 TLS 一致性（所有卡应显示相同的 switch 值）
+for i in {0..7}; do hccn_tool -i $i -tls -g; done | grep switch
+
+# 若 TLS 不一致，在所有节点的所有卡上统一关闭：
+for i in {0..7}; do hccn_tool -i $i -tls -s enable 0; done
+
+# 查看 NPU 设备 IP
+for i in {0..7}; do hccn_tool -i $i -ip -g; done
+
+# 测试跨节点连通性（在节点 B 上执行，替换为节点 A 的 device IP）
+hccn_tool -i 0 -ping -g address <节点A的device_ip>
+```
+
+### 步骤 3：设置环境变量
+
+在**每个**节点上，设置所有环境变量。将 `<NODE_IP>`、`<HEAD_IP>` 和 `<网卡名称>` 替换为实际值：
+
+```bash
+# === Ray 集群变量（多机） ===
+export RANK=<主节点为0，工作节点为1_2_3>
+export WORLD_SIZE=2                  # 集群总节点数
+export MASTER_ADDR=<HEAD_IP>         # 主节点 IP 地址
+export MASTER_PORT=6379              # Ray 通信端口
+export DASHBOARD_PORT=8265           # Ray Dashboard 端口
+
+# === HCCL 多机通信 ===
+export HCCL_CONNECT_TIMEOUT=3600
+export HCCL_EXEC_TIMEOUT=3600
+export HCCL_DETERMINISTIC=false
+export HCCL_OP_EXPANSION_MODE="AIV"
+export HCCL_IF_IP=<NODE_IP>          # 当前节点 IP
+export HCCL_SOCKET_IFNAME=<网卡名称>  # 例如 enp194s0f0
+export HCCL_IF_BASE_PORT=23456
+
+# === NPU 显存 ===
+export NPU_MEMORY_FRACTION=0.96
+export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
+export MULTI_STREAM_MEMORY_REUSE=1
+export TASK_QUEUE_ENABLE=2
+export COMBINED_ENABLE=1
+
+# === CPU 调度 ===
+export CPU_AFFINITY_CONF=2
+export OMP_NUM_THREADS=1
+
+# === vLLM-Ascend 推理 ===
+export VLLM_USE_V1=1
+export VLLM_ASCEND_ENABLE_FLASHCOMM=1
+export VLLM_ASCEND_ENABLE_DENSE_OPTIMIZE=1
+export VLLM_ASCEND_ENABLE_PREFETCH_MLP=1
+
+# === 算子编译缓存 ===
+export ACL_OP_COMPILER_CACHE_MODE=enable
+export ACL_OP_COMPILER_CACHE_DIR=/tmp/npu_cache
+export ASCEND_MAX_OP_CACHE_SIZE=5000
+
+# === 日志（生产环境） ===
+export ASCEND_GLOBAL_LOG_LEVEL=3
+export ASDOPS_LOG_LEVEL=ERROR
+export ATB_LOG_LEVEL=ERROR
+```
+
+### 步骤 4：启动（方式 A — 自动启动，推荐）
+
+在**所有**节点上同时运行 ROLL 流水线。ROLL 根据 `RANK` 自动启动或加入 Ray 集群：
+
+运行下面的命令前，请先将本节中的多机配置保存为 `<config_dir>/rlvr_npu_multinode.yaml`。
+
+**主节点**（RANK=0）：
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+# 运行训练脚本 — ROLL 自动启动 Ray Head 并等待所有工作节点加入
+python examples/start_rlvr_pipeline.py \
+    --config_path <config_dir> \
+    --config_name rlvr_npu_multinode
+```
+
+**工作节点**（RANK=1,2,3...）：
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+# 运行相同脚本 — ROLL 自动加入 Ray 集群，然后 sys.exit(0)
+python examples/start_rlvr_pipeline.py \
+    --config_path <config_dir> \
+    --config_name rlvr_npu_multinode
+```
+
+Ray 集群建立后，工作节点会自动退出。主节点继续执行训练流水线。你应能看到类似以下日志：
+
+```
+Starting ray cluster: ray start --head --port=6379 ...
+1 nodes have joined so far, waiting for 1.
+Current ray cluster resources: {'NPU': 16, 'CPU': ...}
+```
+
+### 步骤 4（备选）：启动（方式 B — 手动 Ray 集群）
+
+如果你希望手动管理 Ray 集群：
+
+在**主**节点上：
+
+```bash
+ray start --head --port=6379 --dashboard-port=8265
+```
+
+在所有**工作**节点上（将 `<HEAD_IP>` 替换为主节点 IP）：
+
+```bash
+ray start --address=<HEAD_IP>:6379
+```
+
+验证集群状态：
+
+```bash
+ray status
+```
+
+应能看到所有节点的 NPU 资源。然后在**主节点**上启动流水线：
+
+```bash
+cd /workspace/ROLL
+export PYTHONPATH="/workspace/ROLL:$PYTHONPATH"
+
+python examples/start_rlvr_pipeline.py \
+    --config_path <config_dir> \
+    --config_name rlvr_npu_multinode
+```
+
+### 步骤 5：监控集群
+
+在任意节点上均可监控 Ray 集群：
+
+```bash
+# 查看集群状态
+ray status
+
+# 在浏览器中打开 Ray Dashboard
+# http://<HEAD_IP>:8265
+```
+
+### 多机配置
+
+多机配置中，调整 `device_mapping` 以覆盖跨节点的 NPU。例如 2 节点 × 8 卡：
+
+```yaml
+num_gpus_per_node: 8
+
+# 训练在节点0的 NPU 0-7
+actor_train:
+  strategy_args:
+    strategy_name: deepspeed_train
+    strategy_config: ${deepspeed_zero3_cpuoffload}
+  device_mapping: list(range(0,8))
+
+# 推理在节点1的 NPU 0-7
+actor_infer:
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 8000
+  device_mapping: list(range(8,16))
+
+# Reference 模型共享推理卡
+reference:
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(8,16))
+```
+
+完整的多机 RLVR 配置示例（2 节点 × 8 卡）：
+
+```yaml
+defaults:
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen2.5-7B-rlvr-npu-multinode"
+seed: 42
+logging_dir: /data/logs
+output_dir: /data/output
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/models/${exp_name}
+
+num_gpus_per_node: 8
+
+max_steps: 500
+save_steps: 100
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 64
+prompt_length: 2048
+response_length: 4096
+num_return_sequences_in_group: 8
+
+ppo_epochs: 1
+adv_estimator: "reinforce"
+whiten_advantages: true
+
+pretrain: /data/models/Qwen2.5-7B
+reward_pretrain: /data/models/Qwen2.5-7B
+
+actor_train:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 32
+    warmup_steps: 20
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/math_deepmath_deal.jsonl
+      - data/code_KodCode_data.jsonl
+    domain_interleave_probs:
+      math_rule: 0.5
+      code_sandbox: 0.5
+    dataset_dir: /data/datasets
+    messages: messages
+    interleave_probs: "1.0"
+  strategy_args:
+    strategy_name: deepspeed_train
+    strategy_config: ${deepspeed_zero3_cpuoffload}
+  device_mapping: list(range(0,8))    # 节点0 NPU 0-7 用于训练
+  infer_batch_size: 4
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 8000
+  device_mapping: list(range(8,16))   # 节点1 NPU 0-7 用于推理
+  infer_batch_size: 1
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(8,16))   # 共享推理卡
+  infer_batch_size: 8
+
+rewards:
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [deepmath_103k, aime]
+    world_size: 4
+    infer_batch_size: 1
+  code_sandbox:
+    use_local: true
+    worker_cls: roll.pipeline.rlvr.rewards.code_sandbox_reward_worker.CodeSandboxRewardWorker
+    tag_included: [KodCode]
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    world_size: 4
+    infer_batch_size: 1
+```
+
+### 资源分配策略
+
+使用 2 个节点时，有两种常见的分配策略：
+
+**策略 1：训练在节点0，推理在节点1（推荐用于 2 节点场景）**
+
+| 组件 | 位置 | NPU | 数量 |
+| ---- | ---- | --- | ---- |
+| actor_train | 节点0 | 0-7 | 8 |
+| actor_infer | 节点1 | 0-7 | 8 |
+| reference | 节点1 | 0-7（共享） | - |
+| device_mapping train | `list(range(0,8))` | | |
+| device_mapping infer | `list(range(8,16))` | | |
+
+**策略 2：训练和推理均跨节点分布**
+
+| 组件 | 位置 | NPU | 数量 |
+| ---- | ---- | --- | ---- |
+| actor_train | 节点0 + 节点1 | 每节点 0-3 | 4+4=8 |
+| actor_infer | 节点0 + 节点1 | 每节点 4-7 | 4+4=8 |
+| device_mapping train | `list(range(0,4)) + list(range(8,12))` | | |
+| device_mapping infer | `list(range(4,8)) + list(range(12,16))` | | |
+
+策略 1 推理时跨节点 HCCL 通信开销更低。策略 2 负载更均衡。请根据实际工作负载特点选择。
+
+## 设备映射参考
+
+由于 NPU 不支持 colocated 模式，必须为训练和推理分配不同的 NPU 卡。以下是常见的分配方案：
+
+### 8 卡单机
+
+| 组件 | NPU 卡号 | 数量 |
+| ---- | -------- | ---- |
+| actor_train | 0-3 | 4 |
+| actor_infer | 4-7 | 4 |
+| reference | 4-7（共享） | - |
+
+### 16 卡单机（A3）
+
+| 组件 | NPU 卡号 | 数量 |
+| ---- | -------- | ---- |
+| actor_train | 0-7 | 8 |
+| actor_infer | 8-15 | 8 |
+| reference | 8-15（共享） | - |
+
+### 2×8 卡多机
+
+| 组件 | NPU 卡号 | 数量 |
+| ---- | -------- | ---- |
+| actor_train | 节点0: 0-7 | 8 |
+| actor_infer | 节点1: 0-7 | 8 |
+| reference | 节点1: 0-7（共享） | - |
+
+## 常见问题
+
+### 首次推理请求极慢
+
+模型加载后的首次推理请求会触发算子编译，可能需要数分钟。这是一次性开销。缓解方法：
+
+1. 启用算子编译缓存（参见上方 `ACL_OP_COMPILER_CACHE_MODE`）。
+2. 在正式训练循环前发送一次预热请求。
+
+### 7B 模型在 4 卡上 OOM
+
+如果在 4 张 NPU 上运行 7B 模型遇到 OOM：
+
+1. 切换到 `deepspeed_zero3_cpuoffload` 策略。
+2. 将 `per_device_train_batch_size` 减小到 1。
+3. 相应增大 `gradient_accumulation_steps`。
+4. 减小 vLLM 配置中的 `max_model_len`（如从 8192 减到 4096）。
+
+### 多机 HCCL 通信失败
+
+参见 FAQ 中的 [HCCL 通信超时或失败](ascend_npu_faq.md#hccl-通信超时或失败)。
+
+## 声明
+
+ROLL 中提供的 Ascend 支持代码皆为参考样例，生产环境使用请通过官方正式途径沟通。
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_npu_faq.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_npu_faq.md
new file mode 100644
index 000000000..188736b10
--- /dev/null
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_npu_faq.md	
@@ -0,0 +1,291 @@
+# 昇腾 NPU 常见问题
+
+最后更新：2026/04/27。
+
+本文档汇总了在华为昇腾 NPU 上运行 ROLL 时可能遇到的常见问题及解决方案。
+
+## Docker 与环境
+
+### 容器内 NPU 不可见
+
+**现象：** 容器内执行 `npu-smi info` 无设备返回或报错。
+
+**解决方案：** 确保所有必需的设备和管理路径已正确挂载，检查以下项：
+
+1. `docker run` 命令中包含所有 `--device /dev/davinciX` 条目。
+2. 管理设备（`/dev/davinci_manager`、`/dev/devmm_svm`、`/dev/hisi_hdc`）已挂载。
+3. 宿主机驱动路径已挂载：`/usr/local/Ascend/driver`、`/usr/local/Ascend/add-ons`、`/usr/local/dcmi`。
+4. 宿主机上已安装昇腾 NPU 驱动，且宿主机上 `npu-smi info` 可正常工作。
+
+### vLLM-Ascend 导入错误
+
+**现象：** `import vllm_ascend` 失败，或 vLLM 无法检测到 NPU 设备。
+
+**解决方案：** 验证 CANN 环境是否正确加载：
+
+```bash
+source /usr/local/Ascend/ascend-toolkit/set_env.sh
+source /usr/local/Ascend/nnal/atb/set_env.sh
+```
+
+这些命令在 Docker 镜像构建时已自动添加到 `/root/.bashrc`。如果切换到非 root 用户，可能需要手动执行。
+
+### torch_npu 无法使用
+
+**现象：** `torch.npu.is_available()` 返回 `False`，或无法创建 NPU 张量。
+
+**解决方案：**
+
+1. 确认 `torch_npu` 已安装：`pip show torch_npu`
+2. 检查 CANN 环境：`echo $ASCEND_HOME_PATH`
+3. 如未加载 CANN 环境，手动执行：
+   ```bash
+   source /usr/local/Ascend/ascend-toolkit/set_env.sh
+   ```
+4. 验证 NPU 可见性：`npu-smi info`
+5. 查询`torch`和`torch_npu`版本是否匹配：`pip list | grep torch`
+
+### SOC 版本不匹配
+
+**现象：** 安装或运行 vLLM-Ascend 时出现 `SOC_VERSION not supported` 或 `Ascend device not found` 等错误。
+
+**解决方案：** 确保使用了与硬件匹配的预构建镜像：
+
+- **Atlas 900 A2 PODc** → 使用 `roll:ascend-a2`（`ascend910b1`）
+- **Atlas 900 A3 PODc** → 使用 `roll:ascend-a3`（`ascend910_9391`）
+
+当前仓库不包含 `Dockerfile.A2` 或 `Dockerfile.A3`。如果维护自定义镜像，请确保 SOC 版本与目标硬件匹配。
+
+## 依赖冲突
+
+### triton 导入错误
+
+**现象：** `import triton` 失败，或与 `triton-ascend` 冲突。
+
+**解决方案：** 预构建昇腾镜像使用 `triton-ascend`，不使用标准 `triton` 包。如果误装了错误的 triton 包，请执行：
+
+```bash
+pip uninstall -y triton triton-ascend
+pip install triton-ascend==3.2.0
+```
+
+## 训练配置
+
+### 不支持 Colocated 模式
+
+**现象：** `actor_train` 和 `actor_infer` 共用同一组 NPU 设备时训练失败。
+
+**解决方案：** NPU 不支持 colocated 模式，必须配置 `device_mapping` 使训练和推理在不同的 NPU 卡上执行。例如：
+
+```yaml
+actor_train:
+  device_mapping: list(range(0, 4))
+actor_infer:
+  device_mapping: list(range(4, 8))
+```
+
+### 不支持 Megatron 策略
+
+**现象：** 在 NPU 上使用 `strategy: megatron` 配置时报错。
+
+**解决方案：** 当前提供的昇腾示例暂不支持 Megatron-LM 训练，请使用 DeepSpeed 作为训练后端：
+
+```yaml
+strategy_args:
+  strategy_name: deepspeed_train
+```
+
+### HCCL 通信超时或失败
+
+**现象：** 多 NPU 分布式训练时出现 `Hccl execute failed`、`LINK_ERROR_INFO`、`EI0006` 建链超时，或 HCCL 初始化失败等错误。单卡训练正常，多卡或多机训练报错。
+
+**解决方案：** 按以下步骤逐一排查：
+
+1. **检查 NPU 卡间链路状态**：
+   ```bash
+   for i in {0..7}; do hccn_tool -i $i -link -g; done
+   ```
+   输出应为 `up`，若为其他状态说明链路异常，可尝试重置异常卡：
+   ```bash
+   npu-smi set -t reset -i <RankId> -c 0 -m 1
+   ```
+
+2. **检查 NPU 卡 IP 配置**：
+   ```bash
+   for i in {0..7}; do hccn_tool -i $i -ip -g; done
+   ```
+   确保各卡 IP 已配置且无冲突。
+
+3. **检查多节点 TLS 配置一致性**：
+   ```bash
+   for i in {0..7}; do hccn_tool -i $i -tls -g; done | grep switch
+   ```
+   所有卡的 TLS 开关状态必须一致，建议统一关闭：
+   ```bash
+   for i in {0..7}; do hccn_tool -i $i -tls -s enable 0; done
+   ```
+
+4. **增大 HCCL 建链超时时间**（默认 120 秒，大模型场景可能不够）：
+   ```bash
+   export HCCL_CONNECT_TIMEOUT=3600
+   ```
+
+5. **检查跨节点网络连通性**：
+   ```bash
+   # 在节点 B 上 ping 节点 A 的 device IP
+   hccn_tool -i 0 -ping -g address <对端节点IP>
+   ```
+   若 ping 不通，检查防火墙、子网掩码和交换机 VLAN 配置。
+
+6. **关闭防火墙**（多机训练场景）：
+   ```bash
+   sudo systemctl stop firewalld
+   sudo systemctl disable firewalld
+   ```
+
+## Ray 集群与多机
+
+### Ray 集群节点无法加入
+
+**现象：** 工作节点无法加入 Ray 集群。主节点日志持续显示 `N nodes have joined so far, waiting for X`，工作节点显示连接错误。
+
+**解决方案：**
+
+1. **检查节点间网络连通性：**
+   ```bash
+   ping <HEAD_IP>
+   ```
+
+2. **检查主节点 MASTER_PORT 是否开放：**
+   ```bash
+   # 在主节点上检查端口是否在监听
+   ss -tlnp | grep 6379
+   
+   # 在工作节点上测试连通性
+   nc -zv <HEAD_IP> 6379
+   ```
+
+3. **在所有节点上关闭防火墙或开放端口：**
+   ```bash
+   sudo systemctl stop firewalld
+   sudo systemctl disable firewalld
+   ```
+   
+   需要开放的端口：
+   - `MASTER_PORT`（默认 6379）：Ray 集群通信
+   - `DASHBOARD_PORT`（默认 8265）：Ray Dashboard
+   - `HCCL_IF_BASE_PORT`（默认 23456）：HCCL 跨节点通信
+   - `MASTER_PORT` 以上的一段端口用于 Ray 内部服务（通常 10002-19999）
+
+4. **确认 RANK、WORLD_SIZE、MASTER_ADDR 设置正确：**
+   ```bash
+   echo "RANK=$RANK WORLD_SIZE=$WORLD_SIZE MASTER_ADDR=$MASTER_ADDR MASTER_PORT=$MASTER_PORT"
+   ```
+
+5. **检查主节点防火墙规则** — 确保从工作节点 IP 到 Ray 端口的入站连接被允许。
+
+### 工作节点启动后立即退出
+
+**现象：** 工作节点启动、加入 Ray 集群后立即退出，未执行任何训练。
+
+**解决方案：** 这是预期行为。在 ROLL 自动启动模式下，工作节点（`RANK>0`）在 Ray 集群初始化完成后会自动调用 `sys.exit(0)`。仅主节点（`RANK=0`）执行训练流水线。工作节点的 Ray 进程保持运行并为训练任务提供服务。在主节点上执行 `ray status` 确认工作节点处于活动状态。
+
+### 跨节点 NPU 通信超时
+
+**现象：** 单机训练正常，多机时出现 HCCL 错误，即使 `hccn_tool -ping` 正常。
+
+**解决方案：**
+
+1. **确认 HCCL_SOCKET_IFNAME 正确且一致：**
+   ```bash
+   # 检查 NPU 设备 IP 在哪个网卡上
+   ip route get <npu_device_ip>
+   ```
+   网卡名称必须在所有节点上保持一致。
+
+2. **确认 HCCL_IF_BASE_PORT 未被防火墙拦截。**
+
+3. **检查交换机/路由器是否允许 HCCL 流量。** HCCL 使用 RoCEv2（RDMA over Converged Ethernet）。确保交换机配置了 PFC（优先级流控）和 ECN（显式拥塞通知）。
+
+4. **进一步增大 HCCL 超时时间：**
+   ```bash
+   export HCCL_CONNECT_TIMEOUT=7200
+   export HCCL_EXEC_TIMEOUT=7200
+   ```
+
+### 共享存储无法访问
+
+**现象：** 训练失败，因为工作节点找不到模型权重或数据文件。
+
+**解决方案：** 所有节点必须能在相同路径访问相同文件。挂载共享文件系统：
+
+```bash
+# 示例：在容器内挂载 NFS
+mount -t nfs <nfs_server>:/roll /shared/storage
+
+# 或在容器启动时挂载：
+docker run ... \
+    -v /shared/storage:/data \
+    ...
+```
+
+确保共享存储有足够带宽用于加载模型权重（每次加载操作数 GB）。
+
+## 资源与性能
+
+### ulimit 不足
+
+**现象：** 出现 `OSError: [Errno 24] Too many open files`、`RuntimeError: Unable to open file` 等错误，或多 NPU 分布式训练时 Ray worker 进程意外崩溃。
+
+**解决方案：** Docker 容器内默认的 `ulimit`（打开文件描述符上限）通常为 1024，对于多 NPU 分布式训练来说不够。在 `docker run` 命令中添加 `--ulimit nofile=65536:65536` 来提高限制：
+
+或在容器运行时手动设置：
+
+```bash
+ulimit -n 65536
+```
+
+持久化配置可在容器内的 `/etc/security/limits.conf` 中添加：
+
+```
+* soft nofile 65536
+* hard nofile 65536
+```
+
+也可以在 ROLL YAML 配置中全局设置：
+
+```yaml
+system_envs:
+  RAY_ULIMIT_NOFILE: "65536"
+```
+
+### NPU 显存不足
+
+**现象：** 训练或推理过程中出现 OOM（Out of Memory）错误而崩溃。
+
+**解决方案：**
+
+1. 在配置文件中减小 `rollout_batch_size` 或 `num_return_sequences_in_group`。
+2. 减小 `per_device_train_batch_size`，同时相应增大 `gradient_accumulation_steps`。
+3. 在配置中启用 DeepSpeed ZeRO-3 + CPU Offloading：
+   ```yaml
+   strategy_args:
+     strategy_name: deepspeed_train
+     strategy_config: ${deepspeed_zero3_cpuoffload}
+   ```
+4. 使用更小的模型或应用 LoRA 以降低显存占用。
+
+### NPU 上 vLLM 推理速度慢
+
+**现象：** vLLM 推理吞吐量明显低于预期。
+
+**解决方案：**
+
+1. 确保 CANN 和 vLLM-Ascend 版本兼容（均应为 v0.13.0）。
+2. 检查 SOC 版本是否与硬件匹配。
+3. 调整配置中 vLLM 的 `gpu_memory_utilization` 和 `max_model_len` 参数。
+4. 确认已安装 `triton-ascend`（而非 `triton`），错误的 triton 后端会导致算子编译回退。
+
+## 声明
+
+ROLL 中提供的 Ascend 支持代码皆为参考样例，生产环境使用请通过官方正式途径沟通。
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_usage.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_usage.md
index deab932b8..c2026c36e 100644
--- a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_usage.md	
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Hardware Support/ascend_usage.md	
@@ -1,27 +1,25 @@
 # ROLL x Ascend
 
-Last updated: 11/25/2025.
+最后更新：2026/05/14。
 
 我们在 ROLL 上增加对华为昇腾设备的支持。
 
 ## 硬件支持
 
-Atlas 900 A2 PODc
+Atlas 900 A2 PODc 和 Atlas 900 A3 PODc
 
 
 ## 安装
 
-
 ### 基础环境准备
 
 | software  | version     |
 |-----------|-------------|
 | Python    |  3.11       |
-| CANN      |  8.3.RC1    |
+| CANN      |  8.5.1      |
 
 ### 创建 conda 环境
 
-
 使用以下命令在 Miniconda 中创建新的 conda 环境：
 
 ```
@@ -29,27 +27,26 @@ conda create --name roll python=3.11
 conda activate roll
 ```
 
-### 安装 torch & torch_npu:
-
+### 安装 torch & torch_npu
 
-为了能在 ROLL 中正常使用 torch 和 torch_npu，需使用以下命令安装 torch 和 torch_npu。
+为了能在 ROLL 中正常使用 torch 和 torch_npu，需使用以下命令安装 torch 和 torch_npu：
 
 ```
-# 安装 torch 的 CPU 版本
-pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cpu
+# 在预构建镜像外手动安装时，使用 CPU 版 torch
+pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cpu
 
-# 安装 torch_npu
-pip install torch_npu==2.7.1
+# 安装与 torch/CANN 匹配的 torch_npu
+pip install torch_npu==2.8.0
 ```
 
+### 安装 vllm & vllm-ascend
 
-### 安装vllm & vllm-ascend:
-
-为了能够在 ROLL 中正常使用 vllm，需使用以下命令编译安装 vllm 和 vllm-ascend。
+为了能够在 ROLL 中正常使用 vllm，需使用以下命令编译安装 vllm 和 vllm-ascend：
 
 ```
 # vllm
-git clone -b v0.11.0 --depth 1 https://github.com/vllm-project/vllm.git
+git clone -b v0.13.0 --depth 1 https://github.com/vllm-project/vllm.git
+git clone -b v0.13.0 --depth 1 https://github.com/vllm-project/vllm.git
 cd vllm
 pip install -r requirements/build.txt
 
@@ -57,7 +54,8 @@ VLLM_TARGET_DEVICE=empty pip install -v -e .
 cd ..
 
 # vllm-ascend
-git clone -b v0.11.0rc1 --depth 1 https://github.com/vllm-project/vllm-ascend.git
+git clone -b v0.13.0 --depth 1 https://github.com/vllm-project/vllm-ascend.git
+git clone -b v0.13.0 --depth 1 https://github.com/vllm-project/vllm-ascend.git
 cd vllm-ascend
 
 pip install -e .
@@ -65,12 +63,13 @@ cd ..
 ```
 
 或者可以从预编译的 wheel 包安装 `vllm` 和 `vllm-ascend`：
+
 ```
-# Install vllm-project/vllm. The newest supported version is v0.11.0.
-pip install vllm==0.11.0
+# 安装 vllm-project/vllm，最新支持版本为 v0.13.0
+pip install vllm==0.13.0
 
-# Install vllm-project/vllm-ascend from pypi.
-pip install vllm-ascend==0.11.0rc1
+# 从 pypi 安装 vllm-project/vllm-ascend
+pip install vllm-ascend==0.13.0
 ```
 
 ### 安装 ROLL
@@ -85,54 +84,55 @@ cd ..
 
 ### 其他三方库说明
 
-| software                      | description   |
-|-------------------------------|---------------|
-| transformers                  | >= v4.57.1    |
-| flash_attn                    | not supported |
-| transformer-engine[pytorch]   | not supported |
+| 软件 | 说明 |
+| ---- | ---- |
+| transformers | >= v4.57.6 |
+| flash_attn | 不支持 |
+| transformer-engine[pytorch] | 不支持 |
 
-1. 支持通过 transformers 使能 --flash_attention_2， transformers 需大于等于 4.57.1 版本。
-2. 不支持通过 flash_attn 使能 flash attention 加速。
-3. 暂不支持 transformer-engine[pytorch] 
+1. `transformers` v4.57.6 支持启用 `--flash_attention_2`。
+2. 目前不支持 `flash_attn` 加速。
+3. 目前不支持 `transformer-engine[pytorch]`。
 
 ```
-pip install transformers==4.57.1
+pip install transformers==4.57.6
 ```
 
-## 快速开始，单节点部署指引
+## 快速开始：单节点部署指引
 
 正式使用前，建议您通过对单节点流水线的训练尝试以检验环境准备和安装的正确性。
-由于目前暂不支持 Megatron-LM 训练，请首先将对应文件中 
-strategy_args 参数修改为 deepspeed 选项。
+由于目前暂不支持 Megatron-LM 训练，请首先将对应文件中 `strategy_args` 参数修改为 `deepspeed` 选项。
 
-1. 使用 shell 执行单节点流水线
+**注意：** 目前 NPU 上不支持 colocated 模式。你需要修改 `device_mapping`，确保训练和推理在不同的卡上执行。
+
+1. 使用 shell 执行单节点流水线：
 
 ```
 bash examples/agentic_demo/run_agentic_pipeline_frozen_lake_single_node_demo.sh  
 ```
 
-2. 使用配置文件执行 agentic pipeline
+2. 使用配置文件执行 agentic pipeline：
 
 ```
-# 确保当前位于ROLL项目目录的根目录下
+# 确保当前位于 ROLL 项目目录的根目录下
 
 python examples/start_agentic_pipeline.py \
         --config_path qwen2.5-0.5B-agentic \
         --config_name agentic_val_sokoban
-
-- ``--config_path`` – 包含您的YAML配置文件的目录。
-- ``--config_name`` – 文件名（不含.yaml后缀）。
 ```
 
-## 支持现状
+- `--config_path` – 包含您的 YAML 配置文件的目录。
+- `--config_name` – 文件名（不含 `.yaml` 后缀）。
 
-| Feature         | Example                                                      | Training Backend | Inference Backend | Hardware          |
-| --------------- | ------------------------------------------------------------ | ---------------- | ----------------- | ----------------- |
-| Agentic         | examples/qwen2.5-0.5B-agentic/run_agentic_pipeline_sokoban.sh | DeepSpeed        | vLLM              | Atlas 900 A2 PODc |
-| Agentic-Rollout | examples/qwen2.5-0.5B-agentic/run_agentic_rollout_sokoban.sh | DeepSpeed        | vLLM              | Atlas 900 A2 PODc |
-| DPO             | examples/qwen2.5-3B-dpo_megatron/run_dpo_pipeline.sh         | DeepSpeed        | vLLM              | Atlas 900 A2 PODc |
-| RLVR            | examples/qwen2.5-7B-rlvr_megatron/run_rlvr_pipeline.sh       | DeepSpeed        | vLLM              | Atlas 900 A2 PODc |
+## 支持现状
 
+| 功能 | 示例 | 训练后端 | 推理后端 | 硬件 |
+| ---- | ---- | -------- | -------- | ---- |
+| Agentic | examples/qwen2.5-0.5B-agentic/run_agentic_pipeline_sokoban.sh | DeepSpeed | vLLM | Atlas 900 A3 PODc |
+| Agentic-Rollout | examples/qwen2.5-0.5B-agentic/run_agentic_rollout_sokoban.sh | DeepSpeed | vLLM | Atlas 900 A3 PODc |
+| DPO | examples/qwen2.5-3B-dpo_megatron/run_dpo_pipeline.sh | DeepSpeed | vLLM | Atlas 900 A3 PODc |
+| RLVR | examples/qwen2.5-7B-rlvr_megatron/run_rlvr_pipeline.sh | DeepSpeed | vLLM | Atlas 900 A3 PODc |
 
 ## 声明
-ROLL 中提供的 Ascend 支持代码皆为参考样例，生产环境使用请通过官方正式途径沟通，谢谢。
+
+ROLL 中提供的 Ascend 支持代码皆为参考样例，生产环境使用请通过官方正式途径沟通。
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/agentic_pipeline_start.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/agentic_pipeline_start.md
index 9036d13e5..aef64cc18 100644
--- a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/agentic_pipeline_start.md	
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/agentic_pipeline_start.md	
@@ -32,6 +32,8 @@ Agentic Pipeline 是ROLL提供的智能体训练核心Pipeline，支持多种算
 * **异步训练**: rollout/training解耦，支持异步训练
 * **多轮交互支持本地调试**: 多轮交互rollout支持本地调试，提高多轮交互业务开发效率
 * **灵活的策略配置**：支持多种分布式训练策略，如 Megatron、DeepSpeed、vLLM 等，可以根据硬件资源进行灵活配置。
+* **高效训练优化**：支持 **Sequence Packing**（将多条短样本拼接成连续序列，减少 padding）与 **Dynamic Batching**（根据样本长度动态组
+batch，按 batch 内最大长度统一 padding，最小化无效计算）。配置方法和实现原理详见`sequence packing`和`dynamic batching` 对应文档。
 ---
 
 ## ✨️ 核心组件
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/distill_pipeline_start.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/distill_pipeline_start.md
index d30a40144..7d0a3f726 100644
--- a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/distill_pipeline_start.md	
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/distill_pipeline_start.md	
@@ -33,6 +33,7 @@
 
 * **高效分布式计算**：利用 [Ray](https://www.ray.io/) 框架，在大型 GPU 集群上实现高效的分布式训练，显著提升训练速度和资源利用率。
 
+* **高效训练优化**：支持 **Sequence Packing**（将多条短样本拼接成连续序列，减少 padding）。配置方法和实现原理详见`sequence packing`对应文档。
 ---
 
 ## ✨️ 核心组件
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/on_policy_distill_pipeline_start.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/on_policy_distill_pipeline_start.md
new file mode 100644
index 000000000..739237aa8
--- /dev/null
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/on_policy_distill_pipeline_start.md	
@@ -0,0 +1,476 @@
+# On-Policy Distillation 流水线
+
+**目录**
+
+- [On-Policy Distillation 流水线](#on-policy-distillation-流水线)
+  - [概述](#️概述)
+  - [核心原理](#️核心原理)
+    - [什么是 On-Policy Distillation？](#什么是-on-policy-distillation)
+    - [与 Off-Policy Distillation 的区别](#与-off-policy-distillation-的区别)
+    - [与 RLVR 的区别](#与-rlvr-的区别)
+    - [损失函数：Reverse KL](#损失函数reverse-kl)
+  - [核心组件](#️核心组件)
+    - [主模块](#主模块)
+    - [配置文件](#配置文件)
+    - [Worker 角色](#worker-角色)
+  - [数据准备](#️数据准备)
+    - [数据格式](#数据格式)
+    - [纯 OPD 模式与混合模式的数据差异](#纯-opd-模式与混合模式的数据差异)
+  - [运行流水线](#️运行流水线)
+    - [方法1：使用Python启动脚本](#方法1使用python启动脚本)
+    - [方法2：使用辅助Shell脚本](#方法2使用辅助shell脚本)
+  - [配置详解](#️配置详解)
+    - [核心配置参数](#核心配置参数)
+  - [逐步示例](#️逐步示例)
+    - [步骤1：配置设置](#步骤1配置设置)
+    - [步骤2：准备环境和依赖](#步骤2准备环境和依赖)
+    - [步骤3：启动流水线](#步骤3启动流水线)
+    - [步骤4：监控](#步骤4监控)
+    - [步骤5：输出和结果](#步骤5输出和结果)
+  - [常见问题](#️常见问题)
+  - [参考资料](#参考资料)
+
+---
+
+## ✨️概述
+
+On-Policy Distillation（在线蒸馏，简称 OPD）是一种结合了**在线学习**和**知识蒸馏**的训练方法，通过让学生模型在自己生成的轨迹上学习教师模型的行为，实现高效的模型压缩和能力迁移。
+
+此流水线提供以下核心优势：
+
+* **高效的训练方式**：相比强化学习（RL），OPD 提供密集的奖励信号，可以实现更高效的训练
+* **Teacher 即 Reward Model**：直接使用教师模型的 log probabilities 计算奖励，无需单独训练 Reward Model
+* **在线学习优势**：学生模型在自己的状态分布上学习，避免分布偏移问题
+* **完全复用 RLVR Pipeline**：基于 RLVR 架构实现，配置简单，易于使用
+* **支持混合模式**：可以同时使用 OPD 奖励和外部奖励（如数学验证、代码执行等）
+
+---
+
+## ✨️核心原理
+
+### 什么是 On-Policy Distillation？
+
+On-Policy Distillation 的核心思想是：从**学生模型**采样轨迹，然后使用高性能的**教师模型**对轨迹中的**每个 token** 进行评分。
+
+```
+┌─────────────────────────────────────────────────────────────────┐
+│                    On-Policy Distillation 流程                   │
+├─────────────────────────────────────────────────────────────────┤
+│                                                                  │
+│   1. Sample Trajectories                                         │
+│   ┌──────────┐     ┌──────────────────────────────────┐         │
+│   │  Prompt  │ ──▶ │  Student Model (rollout)         │         │
+│   └──────────┘     │  生成轨迹 + student_log_probs    │         │
+│                    └──────────────────────────────────┘         │
+│                              │                                   │
+│                              ▼                                   │
+│   2. Compute Teacher Log Probs                                   │
+│                    ┌──────────────────────────────────┐         │
+│                    │  Teacher Model (forward)         │         │
+│                    │  计算 teacher_log_probs          │         │
+│                    └──────────────────────────────────┘         │
+│                              │                                   │
+│                              ▼                                   │
+│   3. Compute Advantage                                           │
+│                    advantage = teacher_log_prob - student_log_prob│
+│                              │                                   │
+│                              ▼                                   │
+│   4. Train with Importance Sampling                              │
+│                    ┌──────────────────────────────────┐         │
+│                    │  Student Model (train)           │         │
+│                    │  使用 advantage 进行策略更新      │         │
+│                    └──────────────────────────────────┘         │
+│                                                                  │
+└─────────────────────────────────────────────────────────────────┘
+```
+
+### 与 Off-Policy Distillation 的区别
+
+| 特性 | Off-Policy Distillation | On-Policy Distillation |
+|------|--------------------|------------------------|
+| **数据来源** | 预先生成的数据 | 学生模型实时生成的数据 |
+| **状态分布** | 教师模型的状态分布 | 学生模型的状态分布 |
+| **奖励信号** | 密集（每步都有） | 密集（每步都有） |
+| **分布偏移** | 存在（学生可能进入教师未见过的状态） | 不存在（在自己的分布上学习） |
+| **适用场景** | 大规模离线蒸馏 | 需要在线适应的场景 |
+
+### 与 RLVR 的区别
+
+| 特性 | RLVR | On-Policy Distillation |
+|------|------|------------------------|
+| **奖励来源** | 外部奖励模型（如数学验证、代码执行） | 教师模型的 log probabilities |
+| **奖励密度** | 稀疏（通常只有最终答案有奖励） | 密集（每个 token 都有奖励） |
+| **训练效率** | 相对较低 | 更高（密集信号） |
+| **奖励可黑箱化** | 不可（教师模型无法被"欺骗"） | 可（低 KL = 高质量行为） |
+
+### 损失函数：Reverse KL
+
+On-Policy Distillation 使用 **Reverse KL** 作为核心损失函数：
+
+$$\text{KL}(\pi_\theta || \pi_\text{teacher}) = \mathbb{E}_{x \sim \pi_\theta} \left[ \log \pi_\theta(x_{t+1} | x_{1..t}) - \log \pi_\text{teacher}(x_{t+1} | x_{1..t}) \right]$$
+
+**优势**：
+1. **Mode Seeking**：学习教师模型的特定行为，而不是在多个次优选项间分散
+2. **不可欺骗**：低 KL 始终对应教师模型认可的高质量行为
+3. **减少暴露偏差**：在学生自己的状态分布上学习
+
+**实现**：
+```python
+# 伪代码
+reverse_kl = sampled_logprobs - teacher_logprobs
+advantages = -reverse_kl  # 负号：最小化 KL = 最大化 advantage
+```
+
+---
+
+## ✨️核心组件
+
+### 主模块
+
+纯 OPD 模式复用现有的 Pipeline，根据 `pure_opd_pipeline_type` 配置选择：
+
+- **RLVR 模式**（默认）：使用 `RLVRConfig` + `RLVRPipeline`
+- **Agentic 模式**：使用 `AgenticConfig` + `AgenticPipeline`
+
+主要区别在于：
+
+* **奖励计算方式**：使用 Teacher Model 的 log probabilities 替代外部奖励模型
+* **Advantage 计算**：`advantage = teacher_log_prob - student_log_prob`
+* **Worker 映射**：`student_train` → `actor_train`，`student_infer` → `actor_infer`，`teacher` → `reference`
+
+**源代码**：
+- 启动脚本：`examples/start_onpolicy_distill_pipeline.py`
+- Pipeline：`roll/pipeline/rlvr/rlvr_pipeline.py` 或 `roll/pipeline/agentic/agentic_pipeline.py`
+- 配置处理：`roll/configs/base_config.py` 中的 `_handle_opd_mapping()` 方法
+
+---
+
+### 配置文件
+
+ROLL 支持两种 On-Policy Distillation 模式，均基于 `RLVRConfig`（或 `AgenticConfig`）配置类实现：
+
+#### 模式一：纯 OPD 模式 (`is_pure_opd=True`)
+
+适用于**只需要蒸馏信号**的场景，奖励完全来自 Teacher Model 的 KL 散度。
+
+**启动方式**：使用 `start_onpolicy_distill_pipeline.py` 脚本，该脚本会自动设置 `is_pure_opd=True`。
+
+```yaml
+# 配置 student_train, student_infer, teacher 三个角色
+student_train:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ... 训练配置
+
+student_infer:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ... 推理配置
+
+teacher:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-32B  # 可以与 student 不同
+  # ... 推理配置
+```
+
+**内部映射**：
+- `student_train` → `actor_train`
+- `student_infer` → `actor_infer`
+- `teacher` → `reference`
+
+**计算公式**：
+```
+token_level_rewards = -reverse_kl  # 纯 KL 信号，无外部奖励
+```
+
+**支持的 Pipeline 类型**：通过 `pure_opd_pipeline_type` 配置：
+- `"rlvr"`（默认）：使用 RLVRConfig + RLVRPipeline
+- `"agentic"`：使用 AgenticConfig + AgenticPipeline
+
+
+#### 模式二：混合模式 (`use_opd=True`)
+
+适用于**同时使用外部奖励和蒸馏信号**的场景，例如数学推理任务中结合规则验证和 Teacher KL。
+
+```yaml
+# 使用标准 RLVRConfig 配置，启用 use_opd
+use_opd: true
+opd_kl_coef: 1.0  # OPD KL 系数，控制蒸馏信号权重
+
+# 配置 teacher（会自动映射到 reference）
+teacher:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-32B
+
+# actor_train 和 actor_infer 正常配置
+actor_train:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ...
+
+actor_infer:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ...
+```
+
+**计算公式**：
+```
+token_level_rewards = external_reward - opd_kl_coef * reverse_kl
+```
+
+#### 两种模式对比
+
+| 特性 | 纯 OPD 模式 | 混合模式 |
+|------|------------|---------|
+| **配置类** | `RLVRConfig` / `AgenticConfig` | `RLVRConfig` / `AgenticConfig` |
+| **标识参数** | `is_pure_opd=True`（脚本自动设置） | `use_opd=True`（用户配置） |
+| **启动脚本** | `start_onpolicy_distill_pipeline.py` | `start_rlvr_pipeline.py` |
+| **Worker 配置** | `student_train`, `student_infer`, `teacher` | `actor_train`, `actor_infer`, `teacher` |
+| **奖励来源** | 仅 Teacher KL | 外部奖励 + Teacher KL |
+| **Reward Workers** | 用于验证和统计 | 用于奖励计算 |
+| **适用场景** | 纯蒸馏训练 | RL + 蒸馏联合训练 |
+
+---
+
+### Worker 角色
+
+On-Policy Distillation 的 Worker 角色根据模式有所不同：
+
+#### 纯 OPD 模式
+
+配置三个角色，自动映射到内部 Worker：
+
+| 配置名称 | 内部映射 | 职责 |
+|----------|----------|------|
+| `student_train` | `actor_train` | 训练学生模型，使用 Teacher KL 计算损失 |
+| `student_infer` | `actor_infer` | 生成轨迹，计算 student log_probs |
+| `teacher` | `reference` | 计算 teacher log_probs |
+
+**注意**：配置文件中使用 `student_train`、`student_infer`、`teacher` 名称，系统会自动映射。
+
+#### 混合模式
+
+使用标准 RLVR Worker 名称：
+
+| Worker | 职责 |
+|--------|------|
+| `actor_train` | 结合外部奖励和 Teacher KL 进行训练 |
+| `actor_infer` | 生成轨迹，计算 student log_probs |
+| `teacher` | 计算 teacher log_probs（自动映射到 reference） |
+| Reward Workers | **参与训练**（计算外部奖励）|
+
+---
+
+## ✨️数据准备
+
+On-Policy Distillation 的数据格式与 RLVR 完全相同，**不包含 response**（由模型生成），只需提供 prompt 和奖励相关字段。
+
+### 数据格式
+
+```json
+{
+    "id": "0",
+    "source": "math_dataset",
+    "difficulty": 0,
+    "prompt": "解决以下数学问题：计算 3x + 5 = 14 中 x 的值",
+    "messages": "[{\"role\": \"system\", \"content\": \"你是一个数学助手。\"}, {\"role\": \"user\", \"content\": \"解决以下数学问题：计算 3x + 5 = 14 中 x 的值\"}]",
+    "tag": "math_rule"
+}
+```
+
+### 纯 OPD 模式与混合模式的数据差异
+
+| 字段 | 纯 OPD 模式 | 混合模式 |
+|------|------------|---------|
+| `ground_truth` | **需要**（用于验证和监控） | **需要**（用于奖励计算） |
+| `test_cases` | **需要**（代码领域，用于验证和监控） | **需要**（代码领域，用于奖励计算） |
+| `prompt` / `messages` | 需要 | 需要 |
+
+**说明**：
+- **纯 OPD 模式**：奖励由 Teacher Model 的 KL 散度提供，但 `ground_truth` 等字段用于验证阶段评估和训练过程监控
+- **混合模式**：需要 `ground_truth` 或 `test_cases` 等字段，外部奖励是训练信号的一部分
+
+---
+
+## ✨️运行流水线
+
+### 方法1：使用Python启动脚本
+
+```bash
+# 确保在项目根目录
+python examples/start_onpolicy_distill_pipeline.py \
+    --config_path examples/qwen3-8B-onpolicy-distill-megatron \
+    --config_name onpolicy_distill_config
+```
+
+### 方法2：使用辅助Shell脚本
+
+```bash
+bash examples/qwen3-8B-onpolicy-distill-megatron/run_onpolicy_distill_pipeline.sh
+```
+
+---
+
+## ✨️配置详解
+
+### 核心配置参数
+
+#### 纯 OPD 模式
+
+通过 `start_onpolicy_distill_pipeline.py` 脚本启动，自动设置 `is_pure_opd=True`。
+
+| 参数 | 说明 | 默认值 |
+|------|------|--------|
+| `pure_opd_pipeline_type` | Pipeline 类型，可选 `"rlvr"` 或 `"agentic"` | `"rlvr"` |
+| `student_train` | 学生模型训练配置（映射到 actor_train） | 必须配置 |
+| `student_infer` | 学生模型推理配置（映射到 actor_infer） | 必须配置 |
+| `teacher` | 教师模型配置（映射到 reference） | 必须配置 |
+
+#### 混合模式
+
+通过 `start_rlvr_pipeline.py` 脚本启动，需要手动配置 `use_opd=True`。
+
+| 参数 | 说明 | 默认值 |
+|------|------|--------|
+| `use_opd` | 启用混合模式 OPD（将 Teacher KL 添加到奖励中） | `false` |
+| `opd_kl_coef` | OPD KL 系数，控制蒸馏信号相对于外部奖励的权重 | `1.0` |
+| `teacher` | 教师模型配置（自动映射到 reference） | 必须配置 |
+
+
+---
+
+## ✨️逐步示例
+
+### 步骤1：配置设置
+
+* 文件：`examples/qwen3-8B-onpolicy-distill-megatron/onpolicy_distill_config.yaml`
+* 关键部分包括 `exp_name`、`seed`、`output_dir`、模型路径、`student_train`、`student_infer`、`teacher` 和奖励配置。
+
+* 特别注意这些配置部分：
+  * **数据配置**：`student_train.data_args.file_name`
+  * **模型配置**：`pretrain`（学生模型）和 Teacher 模型路径
+  * **分布式策略**：每个 Worker 的 `strategy_args` 和 `device_mapping`
+  * **奖励配置**：`rewards` 部分中配置 Reward Workers
+
+### 步骤2：准备环境和依赖
+
+* 确保安装了所有必要的依赖：
+
+  ```bash
+  pip install -r requirements.txt
+  ```
+
+* 验证配置中的所有模型路径是否可访问。
+
+* 准备训练和验证数据集，确保它们符合数据格式要求（包含 `id`、`messages`/`prompt`、`tag`、`ground_truth` 等字段）。
+
+### 步骤3：启动流水线
+
+```bash
+python examples/start_onpolicy_distill_pipeline.py \
+       --config_path examples/qwen3-8B-onpolicy-distill-megatron \
+       --config_name onpolicy_distill_config
+```
+
+### 步骤4：监控
+
+* **控制台输出** – 观察 Hydra、Ray 和流水线日志
+* **日志文件** – 检查 YAML 中指定的 `logging_dir`
+* **TensorBoard**
+
+  ```bash
+  tensorboard --logdir <your_log_dir>
+  ```
+
+### 步骤5：输出和结果
+
+* **训练模型** – 检查点保存在 `output_dir` 中
+* **评估指标** – 记录在 TensorBoard 和控制台中
+* **生成示例** – 流水线定期输出生成示例，以便您可以直观地评估模型改进。
+
+---
+
+## ✨️常见问题
+
+### Q1: 混合模式如何配置？
+
+使用 `RLVRConfig`（或 `AgenticConfig`），设置 `use_opd: true`：
+
+```yaml
+# 混合模式配置
+use_opd: true
+opd_kl_coef: 0.5  # 根据 reward 量级调整
+
+# 必须配置外部奖励
+rewards:
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    tag_included: [math]
+
+# Teacher 配置（自动映射到 reference）
+teacher:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-32B
+
+# actor_train 和 actor_infer 正常配置
+actor_train:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+
+actor_infer:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+```
+
+### Q2: 纯 OPD 模式如何配置？
+
+使用 `start_onpolicy_distill_pipeline.py` 脚本启动：
+
+```yaml
+# 配置三个角色
+student_train:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ... 训练配置
+
+student_infer:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-8B
+  # ... 推理配置
+
+teacher:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-32B  # Teacher 可以与 Student 不同
+  # ... 推理配置
+```
+
+启动命令：
+```bash
+python examples/start_onpolicy_distill_pipeline.py \
+    --config_path examples/qwen3-8B-onpolicy-distill-megatron \
+    --config_name onpolicy_distill_config
+```
+
+### Q3: 为什么需要配置 Reward Workers？
+
+无论是纯 OPD 模式还是混合模式，都必须配置 Reward Workers：
+
+1. **验证评估**：Validation 阶段需要 Reward Workers 评估模型性能
+2. **训练监控**：观察奖励统计量，监控训练质量
+3. **混合模式额外作用**：外部奖励是训练信号的一部分
+
+### Q4: 两种模式如何选择？
+
+- **纯 OPD 模式**：适合纯蒸馏训练，只需要 Teacher KL 信号，使用 `start_onpolicy_distill_pipeline.py`
+- **混合模式**：适合 RL + 蒸馏联合训练，使用 `start_rlvr_pipeline.py` 并配置 `use_opd: true`
+
+---
+
+## 参考资料
+
+- [On-Policy Distillation Blog](https://thinkingmachines.ai/blog/on-policy-distillation/)
+
+---
+
+*祝您实验愉快！*
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/rlvr_pipeline_start.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/rlvr_pipeline_start.md
index 81e597dce..38678d803 100644
--- a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/rlvr_pipeline_start.md	
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/rlvr_pipeline_start.md	
@@ -41,6 +41,8 @@
 
 * **高效的分布式计算**：利用[Ray](https://www.ray.io/)框架在大规模GPU集群上实现高效的分布式训练，显著提高训练速度和资源利用率。
 
+* **高效训练优化**：支持 **Sequence Packing**（将多条短样本拼接成连续序列，减少 padding）与 **Dynamic Batching**（根据样本长度动态组
+batch，按 batch 内最大长度统一 padding，最小化无效计算）。配置方法和实现原理详见`sequence packing`和`dynamic batching` 对应文档。
 ---
 
 
diff --git a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/sft_pipeline_start.md b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/sft_pipeline_start.md
index b20326837..48e689089 100644
--- a/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/sft_pipeline_start.md	
+++ b/docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/sft_pipeline_start.md	
@@ -1,2 +1,273 @@
-# SFTPipeline Quick Start
-施工中...
\ No newline at end of file
+# SFT 流水线
+
+**目录**
+
+- [SFT 流水线](#sft-流水线)
+  - [✨️概述](#️概述)
+  - [✨️核心组件](#️核心组件)
+    - [主模块（`SFTPipeline`）](#主模块sftpipeline)
+    - [工作器（`SFTWorker`）](#工作器sftworker)
+    - [配置文件（`SFTConfig`）](#配置文件sftconfig)
+      - [配置文件结构和组织](#配置文件结构和组织)
+  - [✨️数据准备](#️数据准备)
+    - [数据格式](#数据格式)
+      - [必需字段与字段映射](#必需字段与字段映射)
+      - [对话模板与标签（labels）规则](#对话模板与标签labels规则)
+    - [验证集（`validation`）](#验证集validation)
+  - [✨️运行流水线](#️运行流水线)
+    - [方法1：使用Python启动脚本](#方法1使用python启动脚本)
+    - [方法2：使用辅助Shell脚本](#方法2使用辅助shell脚本)
+  - [✨️逐步示例](#️逐步示例)
+    - [步骤1：配置设置](#步骤1配置设置)
+    - [步骤2：准备环境和依赖](#步骤2准备环境和依赖)
+    - [步骤3：启动流水线](#步骤3启动流水线)
+    - [步骤4：监控](#步骤4监控)
+    - [步骤5：输出和结果](#步骤5输出和结果)
+
+---
+
+## ✨️概述
+
+此流水线用于监督微调（SFT），提供：
+
+* **统一的数据编码与对话模板**：支持 system/user/assistant 对话格式拼接，并自动构造 `labels`（仅对回答部分计 loss）。
+* **高效分布式训练**：使用 [Ray](https://www.ray.io/) + Cluster/Worker 抽象启动分布式训练。
+* **全面的性能监控**：细粒度度量跟踪系统，监控性能指标，为模型训练过程提供全面的可视化和分析能力。
+* **高效训练优化**：支持 **Sequence Packing**（将多条短样本拼接成连续序列，减少 padding）。配置方法和实现原理详见`sequence packing`对应文档。
+
+---
+
+## ✨️核心组件
+
+### 主模块（`SFTPipeline`）
+
+`SFTPipeline`（位于 `roll/pipeline/sft/sft_pipeline.py`）是 SFT 训练的主流程，负责：
+
+* 加载 tokenizer。
+* 加载训练数据集 与（可选）验证数据集。
+* 按模板编码数据：生成 `input_ids` / `attention_mask` / `labels`。
+* 初始化分布式训练集群（`Cluster` + `SFTWorker`）。
+* 训练循环：按 step 训练、按 `eval_steps` 验证、按保存策略写 checkpoint、记录指标并上报 tracker。
+
+---
+
+### 工作器（`SFTWorker`）
+
+`SFTWorker`（位于 `roll/pipeline/sft/sft_worker.py`）负责执行训练、验证与保存：
+
+* `initialize()`：创建并初始化分布式策略（`create_strategy`），并加载模型。
+* `train_step()`：执行一次训练 step，返回训练 metrics。
+* `val_step()`：执行一次验证 step（前向 + loss），返回验证 metrics。
+* `do_checkpoint()`：保存 checkpoint，并返回保存耗时等 metrics。
+
+---
+
+### 配置文件（`SFTConfig`）
+
+`SFTConfig`（定义于 `roll/pipeline/sft/sft_config.py`）是 SFT 流水线的配置对象（dataclass 风格），支持通过 YAML + Hydra 管理。
+
+#### 配置文件结构和组织
+
+示例配置文件：`examples/qwen2.5-7B-sft_megatron/sft_config.yaml`
+
+配置通常包含以下部分：
+
+1. **实验基本设置**
+   * `exp_name`：实验名称
+   * `seed`：随机种子
+   * `logging_dir`：日志目录
+   * `output_dir`：checkpoint/输出目录
+
+2. **训练控制参数**
+   * `save_steps`：保存 checkpoint 的频率
+   * `logging_steps`：记录训练指标的频率
+   * `eval_steps`：验证频率（启用验证集时生效）
+   * `resume_from_checkpoint`：断点续训配置
+
+3. **模型配置**
+   * `pretrain`：预训练模型路径  
+
+4. **数据字段映射（关键）**
+   * `system_key`：system prompt 字段（可选）
+   * `prompt_key`：prompt 字段名（默认 `instruction`）
+   * `query_key`：query 字段名（可选）
+   * `response_key`：response 字段名（默认 `output`）
+   * `global_template`：全局模板名（可选；否则使用 `sft_train.data_args.template`）
+
+5. **工作器配置（`sft_train`）**
+   `sft_train` 是一个 `WorkerConfig`，包含：
+
+   * **数据参数**（`data_args`）
+     * `file_name`：训练数据 JSON 路径（字符串或列表）
+     * `template`：对话模板名（当未设置 `global_template` 时使用）
+     * `preprocessing_num_workers`：数据预处理并行数
+   * **训练参数**（`training_args`）
+     * `num_train_epochs`
+     * `learning_rate`
+     * `per_device_train_batch_size`
+     * `gradient_accumulation_steps`
+     * `dataloader_num_workers`
+     * ...
+   * **策略参数**（`strategy_args`）
+     * `strategy_name`：如 `megatron_train` / `deepspeed_train` 等
+     * 并行相关参数（tensor/pipeline 并行大小等）
+   * **设备映射**（`device_mapping`）
+     * 指定该 worker 使用哪些 GPU
+   * **验证 batch**（推理 batch）
+     * `infer_batch_size`：验证阶段使用
+
+6. **验证配置（可选）**
+   * `validation.data_args.file_name`：验证集 JSON 路径（配置后才会启用验证）
+
+---
+
+## ✨️数据准备
+
+### 数据格式
+
+SFT 流水线使用 **JSON** 文件，并通过 HuggingFace Datasets 加载。
+
+#### 必需字段与字段映射
+
+每条样本至少需要能映射出：
+
+* Prompt：由 `prompt_key` 指定（默认 `instruction`）
+* Response：由 `response_key` 指定（默认 `output`）
+
+可选字段：
+
+* `system_key`：system prompt（可选）
+* `query_key`：附加输入（可选，会拼到 user 内容中）
+
+#### 对话模板与标签（labels）规则
+
+对话结构：
+
+- system（可选）
+- user（prompt + query）
+- assistant（response）
+
+labels 构造：
+
+* prompt 部分全部置为 `IGNORE_INDEX`（不参与 loss）
+* response 部分使用真实 token id（参与 loss）
+
+即：只监督模型“回答部分”。
+
+---
+
+### 验证集（`validation`）
+
+验证集是可选项：
+
+* 仅当配置了 `validation.data_args.file_name` 才加载验证集。
+* 训练时按 `eval_steps` 触发验证。
+* 验证由 `sft_train.val_step` 执行（不会额外启动一个 validation worker）。
+
+---
+
+## ✨️运行流水线
+
+### 方法1：使用Python启动脚本
+
+使用 `examples/start_sft_pipeline.py` 启动，Hydra 负责加载配置：
+
+```bash
+# 确保您在 ROLL 项目根目录
+# export PYTHONPATH=$(pwd):$PYTHONPATH
+
+python examples/start_sft_pipeline.py \
+       --config_path examples/qwen2.5-7B-sft_megatron \
+       --config_name sft_config
+```
+
+* `--config_path` – 配置目录：`examples/qwen2.5-7B-sft_megatron`
+* `--config_name` – 配置文件名：`sft_config`（对应 `sft_config.yaml`）
+
+---
+
+### 方法2：使用辅助Shell脚本
+
+示例：
+
+```bash
+#!/bin/bash
+# 示例：examples/qwen2.5-7B-sft_megatron/run_sft_pipeline.sh
+
+CONFIG_NAME="sft_config"
+CONFIG_PATH="examples/qwen2.5-7B-sft_megatron"
+
+python examples/start_sft_pipeline.py \
+       --config_path $CONFIG_PATH \
+       --config_name $CONFIG_NAME \
+       "$@"
+```
+
+运行：
+
+```bash
+bash examples/qwen2.5-7B-sft_megatron/run_sft_pipeline.sh
+```
+
+---
+
+## ✨️逐步示例
+
+### 步骤1：配置设置
+
+配置文件：`examples/qwen2.5-7B-sft_megatron/sft_config.yaml`
+
+重点检查：
+
+* **数据配置**：`sft_train.data_args.file_name`
+* **字段映射**：`prompt_key/query_key/response_key/system_key`
+* **模型配置**：`pretrain`
+* **分布式策略**：`sft_train.strategy_args` 与 `sft_train.device_mapping`
+* **验证配置（可选）**：`validation.data_args.file_name` 与 `eval_steps`
+* **模板选择**：`global_template` 或 `sft_train.data_args.template`
+
+### 步骤2：准备环境和依赖
+
+```bash
+pip install -r requirements.txt
+```
+
+并确保：
+
+* `pretrain` 路径可访问
+* 训练/验证 JSON 的字段与 `prompt_key/response_key/...` 对齐
+
+### 步骤3：启动流水线
+
+```bash
+python examples/start_sft_pipeline.py \
+       --config_path examples/qwen2.5-7B-sft_megatron \
+       --config_name sft_config
+```
+
+### 步骤4：监控
+
+* **控制台输出** – 观察 Hydra、Ray 与流水线日志
+* **日志文件** – 检查 `logging_dir`
+* **TensorBoard**
+  ```bash
+  tensorboard --logdir <your_log_dir>
+  ```
+
+### 步骤5：输出和结果
+
+* **训练模型** – checkpoint 保存在 `output_dir` 下，默认目录结构为：
+
+  ```
+  <output_dir>/sft_train/checkpoint-<global_step>/<cluster_name>/
+  ```
+
+  其中：
+  * `<global_step>`：当前训练步数（例如 `checkpoint-200`）
+  * `<cluster_name>`：分布式集群名称（由 Cluster/Ray 运行时决定）
+
+* **训练/验证指标** – 记录在终端与 tracker/TensorBoard（取决于 tracker 配置）
+
+---
+
+*祝您实验愉快！*
\ No newline at end of file
diff --git a/docs_roll/package.json b/docs_roll/package.json
index 7c5a10bf0..436fef646 100644
--- a/docs_roll/package.json
+++ b/docs_roll/package.json
@@ -28,7 +28,9 @@
     "prism-react-renderer": "^2.1.0",
     "react": "^18.2.0",
     "react-countup": "^6.5.3",
-    "react-dom": "^18.2.0"
+    "react-dom": "^18.2.0",
+    "rehype-katex": "^7.0.1",
+    "remark-math": "^6.0.0"
   },
   "devDependencies": {
     "@docusaurus/module-type-aliases": "3.0.0",
@@ -51,5 +53,8 @@
   },
   "engines": {
     "node": ">=18.0"
+  },
+  "overrides": {
+    "webpackbar": "7.0.0"
   }
 }
diff --git a/examples/agentic_deepeyes/deepeyes.yaml b/examples/agentic_deepeyes/deepeyes.yaml
new file mode 100644
index 000000000..ce87caa94
--- /dev/null
+++ b/examples/agentic_deepeyes/deepeyes.yaml
@@ -0,0 +1,218 @@
+defaults:
+  - ../config/envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+# Use standard AgenticPipeline instead of DeepEyesPipeline
+# pipeline_cls defaults to roll.pipeline.agentic.agentic_pipeline.AgenticPipeline
+
+exp_name: "deepeyes_pipeline"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+render_save_dir: ./output/render
+system_envs:
+  USE_MODELSCOPE: '1'
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/yuzhao/models/${exp_name}
+
+# track_with: tensorboard
+# tracker_kwargs:
+#   log_dir: /data/oss_bucket_0/yuzhao/llm/tensorboard/roll_exp/deepeyes
+
+offload_nccl: true
+
+num_gpus_per_node: 8
+
+max_steps: 1024
+save_steps: 200
+logging_steps: 1
+eval_steps: 0
+resume_from_checkpoint: false
+
+rollout_batch_size: 2048 # 4096 # batch_size for dataloader * group_size
+val_batch_size: 1024  # batch_size for dataloader
+# prompt_length: 8192  # data.max_prompt_length in deepeyes: 8192
+response_length: 1024  # data.max_response_length in deepeyes: 20480
+sequence_length: 16384
+
+reward_clip: 20
+advantage_clip: 10.0
+ppo_epochs: 1
+adv_estimator: "grpo"
+whiten_advantages: false
+add_token_level_kl: false
+use_kl_loss: false
+init_kl_coef: 0.0
+entropy_loss_coef: 0
+
+pretrain: Qwen/Qwen2.5-VL-7B-Instruct
+
+actor_train:
+  system_envs:
+    NVTE_FLASH_ATTN: '1'
+    NVTE_FUSED_ATTN: '0'
+    NVTE_UNFUSED_ATTN: '0'
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    freeze_module_prefix: "vision_model.blocks,vision_model.patch_embed"
+  training_args:
+    learning_rate: 1.0e-6
+    lr_scheduler_type: constant
+    weight_decay: 1.0e-2
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 512
+    warmup_steps: 5
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 2
+      sequence_parallel: true
+      context_parallel_size: 2
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  device_mapping: list(range(0,16))
+  infer_batch_size: 1
+  offload_nccl: ${offload_nccl}
+  use_dynamic_batching_in_train: true
+  max_tokens_per_microbatch_in_train: 32768
+  sequence_length_round_in_train: 8
+  use_dynamic_batching_in_infer: true
+  max_tokens_per_microbatch_in_infer: 32768
+  sequence_length_round_in_infer: 8
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length} # single-turn response length
+    top_p: 1
+    top_k: -1
+    num_beams: 1
+    temperature: 1.0
+    num_return_sequences: 1
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      tensor_parallel_size: 1
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      # cache missing errors happen occasionally thus disable
+      disable_mm_preprocessor_cache: true
+      # enable_prefix_caching: false
+      sleep_level: 2  # 2 will destroy model parameter and kv_cache after generate to save cpu memory, 1 will destroy kv_cache only.
+  device_mapping: list(range(0,12))
+  offload_nccl: ${offload_nccl}
+
+reference:
+  system_envs:
+    NVTE_FLASH_ATTN: '1'
+    NVTE_FUSED_ATTN: '0'
+    NVTE_UNFUSED_ATTN: '0'
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 2
+      context_parallel_size: 2
+      sequence_parallel: true
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+  device_mapping: list(range(0,16))
+  infer_batch_size: 1
+  offload_nccl: ${offload_nccl}
+  use_dynamic_batching_in_train: true
+  max_tokens_per_microbatch_in_train: 32768
+  sequence_length_round_in_train: 8
+  use_dynamic_batching_in_infer: true
+  max_tokens_per_microbatch_in_infer: 32768
+  sequence_length_round_in_infer: 8
+
+# Reward cluster configuration for LLM-as-judge
+# Uses InferWorker (default from AgenticConfig) for reward model inference
+reward:
+  name: deepeyes_reward
+  # worker_cls defaults to InferWorker from AgenticConfig
+  model_args:
+    model_name_or_path: Qwen/Qwen2.5-72B-Instruct
+    dtype: bf16
+  generating_args:
+    temperature: 0.3  # Lower temperature for stable judgment
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      tensor_parallel_size: 4
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+  device_mapping: list(range(12,16))
+
+max_actions_per_traj: 5
+reward_normalization:
+  grouping: traj_group_id # 可以tags(env_type)/traj_group_id(group)/batch(rollout_batch)... group_by计算reward/adv
+  method: mean_std # asym_clip / identity / mean_std
+
+custom_envs:
+  deepeyes:
+    env_type: deepeyes
+    max_steps: ${max_actions_per_traj} # used in environment state manager to control the actual max actions executed per trajectory
+    # used to curate llm prompt "max words", not used for rollout,
+    # single_response_max_tokens in deepeyes: 10240
+    max_tokens_per_step: ${response_length}
+    env_manager_cls: roll.pipeline.agentic.env_manager.vl_traj_env_manager.VLTrajEnvManager
+    use_thread_lock: true
+    # max_env_step_concurrent: 256  # Control concurrent reward computation
+    agent_system_template: ""
+    pre_step_template: ""
+    next_step_template: ""
+    env_config:
+      data_args:
+        file_name: /data/oss_bucket_0/yuzhao/data/ChenShawn/DeepEyes-Datasets-47k/data_0.1.2_visual_toolbox_v2.parquet
+        preprocessing_num_workers: 64
+      max_steps: ${max_actions_per_traj}
+      seed: ${seed}
+      mode: train
+      epoch: 0
+      idx: 0
+      # Reward weights for DeepEyes environment
+      acc_weight: 0.8
+      format_weight: 0.2
+      tool_weight: 1.2
+      enable_thinking: false
+
+train_env_manager:
+  max_env_num_per_worker: 32
+  num_env_groups: 256
+  # under the same group, the env config and env seed are ensured to be equal
+  group_size: 8
+  tags: [deepeyes]
+  num_groups_partition:
+    - 256
+val_env_manager:
+  max_env_num_per_worker: 32
+  num_env_groups: ${val_batch_size}
+  group_size: 1 # should be set to 1 because val temperature is set to 0 and same prompt leads to same output
+  tags: [deepeyes]
+  num_groups_partition:
+    - ${val_batch_size}
diff --git a/examples/agentic_deepeyes/run_agentic_pipeline.sh b/examples/agentic_deepeyes/run_agentic_pipeline.sh
new file mode 100755
index 000000000..9bd80bcb1
--- /dev/null
+++ b/examples/agentic_deepeyes/run_agentic_pipeline.sh
@@ -0,0 +1,6 @@
+#!/bin/bash
+set +x
+
+CONFIG_PATH=$(basename $(dirname $0))
+python examples/start_agentic_pipeline.py --config_path $CONFIG_PATH  --config_name deepeyes_2gpus
+
diff --git a/examples/agentic_demo/agent_rollout_rock_swe.yaml b/examples/agentic_demo/agent_rollout_rock_swe.yaml
new file mode 100644
index 000000000..1824c32de
--- /dev/null
+++ b/examples/agentic_demo/agent_rollout_rock_swe.yaml
@@ -0,0 +1,167 @@
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "agentic_rollout_swe"
+seed: 42
+
+logging_dir: ./output/logs
+output_dir: ./output
+model_name: ${exp_name}-${now:%Y%m%d_%H%M%S}
+rollout_dump_dir: ./output/rollout_dump
+system_envs:
+  USE_MODELSCOPE: '1'
+
+
+num_gpus_per_node: 8
+rpc_timeout: 72000
+
+max_steps: 10
+save_steps: 10
+logging_steps: 1
+eval_steps: 2
+resume_from_checkpoint: false
+
+rollout_batch_size: 1
+val_batch_size: 1
+sequence_length: 65536
+
+max_tokens_per_step: 4096
+
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "step_reinforce"
+batch_adjust_mode: "random_sample"
+step_reward_gamma: 1.0
+
+#pg_clip: 0.1
+#dual_clip_loss: True
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+
+pretrain: Qwen/Qwen3-4B-Instruct-2507
+reward_pretrain: Qwen/Qwen3-4B-Instruct-2507
+
+actor_train:
+  model_args:
+    flash_attn: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+actor_infer:
+  model_args:
+    flash_attn: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${max_tokens_per_step} # single-turn response length
+    top_p: 1.0
+    top_k: 50
+    num_beams: 1
+    temperature: 1.0
+    num_return_sequences: 1
+    stop_strings: ["</tool_call>","</tool_call>\n","\n</tool_call>\n","\n</function>"]
+    include_stop_str_in_output: true
+  data_args:
+    template: qwen3_coder
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+      tensor_parallel_size: 1
+  device_mapping: list(range(1,2))
+
+reward_normalization:
+  grouping: traj_group_id # tags(env_type)/traj_group_id(group)/batch(rollout_batch)... group_by reward/adv
+  method: mean
+  # norm_mean_type: batch
+  # norm_std_type: group
+
+train_env_manager:
+  max_env_num_per_worker: 1
+  num_env_groups: 1
+  # under the same group, the env config and env seed are ensured to be equal
+  group_size: 1
+  tags: [swebench_native_verified]
+  num_groups_partition: [1] # If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+  system_envs:
+    # if you cannot get python env in rock due to connetion error, try to use this, may expire in the future
+    ROCK_RTENV_PYTHON_V31114_INSTALL_CMD: '[ -f cpython31115.tar.gz ] && rm cpython31115.tar.gz; [ -d python ] && rm -rf python; wget -q -O cpython31115.tar.gz https://mirror.nju.edu.cn/github-release/astral-sh/python-build-standalone/20260303/cpython-3.11.15+20260303-x86_64-unknown-linux-gnu-install_only.tar.gz && tar -xzf cpython31115.tar.gz && mv python runtime-env'
+val_env_manager:
+  max_env_num_per_worker: 1
+  num_env_groups: 1
+  group_size: 1 # should be set to 1 because val temperature is set to 0 and same prompt leads to same output
+  tags: [swebench_native_verified]
+  num_groups_partition: [1] # TODO: If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+  system_envs:
+    # if you cannot get python env in rock due to connetion error, try to use this, may expire in the future
+    ROCK_RTENV_PYTHON_V31114_INSTALL_CMD: '[ -f cpython31115.tar.gz ] && rm cpython31115.tar.gz; [ -d python ] && rm -rf python; wget -q -O cpython31115.tar.gz https://mirror.nju.edu.cn/github-release/astral-sh/python-build-standalone/20260303/cpython-3.11.15+20260303-x86_64-unknown-linux-gnu-install_only.tar.gz && tar -xzf cpython31115.tar.gz && mv python runtime-env'
+
+max_actions_per_traj: 60
+env_manager_cls: roll.pipeline.agentic.env_manager.agent_native_env_manager.AgentNativeStepEnvManager
+
+agent_config_common:
+  agent_type: "default"
+  run_cmd: 'iflow -p <<PROMPT>> --yolo'
+  # Dependency pre-installation; modify based on your sandbox image
+  pre_init_cmds:
+    - command: "apt-get update"
+      timeout_seconds: 600
+    - command: "apt-get install -y curl git wget xz-utils"
+      timeout_seconds: 600
+    - command: "apt-get install -y build-essential libc6-dev patch procps"
+      timeout_seconds: 600
+    # Install helper tools like 'uv'  
+    - command: "wget -q https://xrl-sandbox-bucket.oss-cn-hangzhou.aliyuncs.com/uv-files/uv-x86_64-unknown-linux-gnu.tar.gz && tar -xzf uv-x86_64-unknown-linux-gnu.tar.gz --strip-components=1 -C /usr/local/bin && uv --version"
+      timeout_seconds: 600 
+  model_service_config: 
+    type: "local"
+    enabled: True
+  runtime_env_config:
+    type: node
+    npm_registry: "https://registry.npmmirror.com"
+    # you can install your own version
+    custom_install_cmd: "wget --retry-connrefused --tries=10 --waitretry=2 -O ~/iflow-cli.tgz 'http://cloud.iflow.cn/iflow-cli/iflow-ai-iflow-cli-for-roll-0-4-4-v5.tgz' && npm i -g ~/iflow-cli.tgz"
+  env:
+    IFLOW_apiKey: "test"
+    IFLOW_baseUrl: "http://localhost:8080/v1"
+    IFLOW_modelName: "ROME"
+    IFLOW_searchApiKey: "88888888"
+    IFLOW_selectedAuthType: "openai-compatible"
+    IFLOW_disableAutoUpdate: "true"
+    IFLOW_tokensLimit: "128000"
+    IFLOW_shellTimeout: "360000"
+    IFLOW_coreTools: "Edit,exit_plan_mode,glob,list_directory,multi_edit,plan,read plan,read_file,read_many_files,save_memory,Search,Shell,task,web_fetch,web_search,write_file,xml_escape"
+    
+
+custom_envs:
+  swebench_native_verified:
+    env_type: "rock_tb_native_env"
+    max_steps: ${max_actions_per_traj}
+    max_tokens_per_step: ${max_tokens_per_step}
+    env_manager_cls: ${env_manager_cls}
+    agent_system_template: "agent_system_template placeholder"
+    agent_template: "agent_template placeholder"
+    env_config:
+      dataset_name: /ROLL/data/swe_bench_verified_example.jsonl
+      tools: ~
+      max_steps: ${max_actions_per_traj}
+      mode: "val"
+      sandbox_base_url: http://localhost:8080 # change to your own service address if needed
+      user_id: "xxx"
+      experiment_id: "test_tb_native"
+      test_files: ["/terminal-bench-datasets/datasets/swebench-verified"]
+      agent_config: ${agent_config_common}
diff --git a/examples/agentic_demo/agent_val_rock_swe.yaml b/examples/agentic_demo/agent_val_rock_swe.yaml
new file mode 100644
index 000000000..71c1071e6
--- /dev/null
+++ b/examples/agentic_demo/agent_val_rock_swe.yaml
@@ -0,0 +1,228 @@
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "agentic_rollout_swe"
+seed: 42
+
+logging_dir: ./output/logs
+output_dir: ./output
+model_name: ${exp_name}-${now:%Y%m%d_%H%M%S}
+rollout_dump_dir: ./output/rollout_dump
+system_envs:
+  USE_MODELSCOPE: '1'
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data
+
+num_gpus_per_node: 8
+rpc_timeout: 72000
+
+max_steps: 20
+save_steps: 10
+logging_steps: 1
+eval_steps: 5
+resume_from_checkpoint: false
+
+# async_generation_ratio: 1
+
+rollout_batch_size: 1
+val_batch_size: 1
+sequence_length: 32768
+
+max_tokens_per_step: 2048
+
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "step_reinforce"
+batch_adjust_mode: "random_sample"
+step_reward_gamma: 1.0
+
+#pg_clip: 0.1
+#dual_clip_loss: True
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+
+pretrain: Qwen/Qwen3-4B-Instruct-2507
+reward_pretrain: Qwen/Qwen3-4B-Instruct-2507
+
+actor_train:
+  model_args:
+    flash_attn: fa2
+    disable_gradient_checkpointing: false  # 保持启用梯度检查点
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 1
+    warmup_steps: 0
+  data_args:
+    template: qwen3_coder
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      context_parallel_size: 1
+      use_distributed_optimizer: false
+      recompute_granularity: full
+  device_mapping: list(range(2,3))
+  infer_batch_size: 1
+actor_infer:
+  model_args:
+    flash_attn: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${max_tokens_per_step} # single-turn response length
+    top_p: 1.0
+    top_k: 50
+    num_beams: 1
+    temperature: 1.0
+    num_return_sequences: 1
+    stop_strings: ["</tool_call>","</tool_call>\n","\n</tool_call>\n","\n</function>"]
+    include_stop_str_in_output: true
+  data_args:
+    template: qwen3_coder
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+      tensor_parallel_size: 1
+  device_mapping: list(range(1,2))
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen3_coder
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      context_parallel_size: 1
+  device_mapping: list(range(2,3))
+  infer_batch_size: 1
+
+reward_normalization:
+  grouping: traj_group_id
+  method: identity
+  # norm_mean_type: batch
+  # norm_std_type: group
+
+train_env_manager:
+  max_env_num_per_worker: 1
+  num_env_groups: 1
+  # under the same group, the env config and env seed are ensured to be equal
+  group_size: 1
+  tags: [RockTBNativeEnvTrain]
+  num_groups_partition: [1] # If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+  system_envs:
+    # if you cannot get python env in rock due to connetion error, try to use this, may expire in the future
+    ROCK_RTENV_PYTHON_V31114_INSTALL_CMD: '[ -f cpython31115.tar.gz ] && rm cpython31115.tar.gz; [ -d python ] && rm -rf python; wget -q -O cpython31115.tar.gz https://mirror.nju.edu.cn/github-release/astral-sh/python-build-standalone/20260303/cpython-3.11.15+20260303-x86_64-unknown-linux-gnu-install_only.tar.gz && tar -xzf cpython31115.tar.gz && mv python runtime-env'
+
+val_env_manager:
+  max_env_num_per_worker: 1
+  num_env_groups: 1
+  group_size: 1 # should be set to 1 because val temperature is set to 0 and same prompt leads to same output
+  tags: [swebench_native_verified]
+  num_groups_partition: [1] # TODO: If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+  system_envs:
+    # if you cannot get python env in rock due to connetion error, try to use this, may expire in the future
+    ROCK_RTENV_PYTHON_V31114_INSTALL_CMD: '[ -f cpython31115.tar.gz ] && rm cpython31115.tar.gz; [ -d python ] && rm -rf python; wget -q -O cpython31115.tar.gz https://mirror.nju.edu.cn/github-release/astral-sh/python-build-standalone/20260303/cpython-3.11.15+20260303-x86_64-unknown-linux-gnu-install_only.tar.gz && tar -xzf cpython31115.tar.gz && mv python runtime-env'
+
+
+max_actions_per_traj: 60
+env_manager_cls: roll.pipeline.agentic.env_manager.agent_native_env_manager.AgentNativeStepEnvManager
+
+agent_config_common:
+  agent_type: "default"
+  run_cmd: 'iflow -p <<PROMPT>> --yolo'
+  # Dependency pre-installation; modify based on your sandbox image
+  pre_init_cmds:
+    - command: "apt-get update"
+      timeout_seconds: 600
+    - command: "apt-get install -y curl git wget xz-utils"
+      timeout_seconds: 600
+    - command: "apt-get install -y build-essential libc6-dev patch procps"
+      timeout_seconds: 600
+    # Install helper tools like 'uv'    
+    - command: "wget -q https://xrl-sandbox-bucket.oss-cn-hangzhou.aliyuncs.com/uv-files/uv-x86_64-unknown-linux-gnu.tar.gz && tar -xzf uv-x86_64-unknown-linux-gnu.tar.gz --strip-components=1 -C /usr/local/bin && uv --version"
+      timeout_seconds: 600
+  model_service_config:
+    type: "local"
+    enabled: True
+  runtime_env_config:
+    type: node
+    npm_registry: "https://registry.npmmirror.com"
+    # you can install your own version
+    custom_install_cmd: "wget --retry-connrefused --tries=10 --waitretry=2 -O ~/iflow-cli.tgz 'http://cloud.iflow.cn/iflow-cli/iflow-ai-iflow-cli-for-roll-0-4-4-v5.tgz' && npm i -g ~/iflow-cli.tgz"
+  env:
+    IFLOW_apiKey: "test"
+    IFLOW_baseUrl: "http://localhost:8080/v1"
+    IFLOW_modelName: "ROME"
+    IFLOW_searchApiKey: "88888888"
+    IFLOW_selectedAuthType: "openai-compatible"
+    IFLOW_disableAutoUpdate: "true"
+    IFLOW_tokensLimit: "128000"
+    IFLOW_shellTimeout: "360000"
+    IFLOW_coreTools: "Edit,exit_plan_mode,glob,list_directory,multi_edit,plan,read plan,read_file,read_many_files,save_memory,Search,Shell,task,web_fetch,web_search,write_file,xml_escape"
+
+
+custom_envs:
+  RockTBNativeEnvTrain:
+    env_type: "rock_tb_native_env"
+    max_steps: ${max_actions_per_traj}
+    max_tokens_per_step: ${max_tokens_per_step}
+    env_manager_cls: ${env_manager_cls}
+    agent_system_template: "agent_system_template placeholder"
+    agent_template: "agent_template placeholder"
+    env_config:
+      dataset_name: /ROLL/data/swe_bench_verified_example.jsonl
+      tools: ~
+      max_steps: ${max_actions_per_traj}
+      mode: "train"
+      sandbox_base_url: http://localhost:8080 # change to your own service address if needed
+      user_id: "xxx"
+      experiment_id: "test_tb_native"
+      test_files: ["/terminal-bench-datasets/datasets/swebench-verified"]
+      agent_config: ${agent_config_common}
+  swebench_native_verified:
+    env_type: "rock_tb_native_env"
+    max_steps: ${max_actions_per_traj}
+    max_tokens_per_step: ${max_tokens_per_step}
+    env_manager_cls: ${env_manager_cls}
+    agent_system_template: "agent_system_template placeholder"
+    agent_template: "agent_template placeholder"
+    env_config:
+      dataset_name: /ROLL/data/swe_bench_verified_example.jsonl
+      tools: ~
+      max_steps: ${max_actions_per_traj}
+      mode: "val"
+      sandbox_base_url: http://localhost:8080 # change to your own service address if needed
+      user_id: "xxx"
+      experiment_id: "test_tb_native"
+      test_files: ["/terminal-bench-datasets/datasets/swebench-verified"]
+      agent_config: ${agent_config_common}
diff --git a/examples/agentic_demo/agent_val_rock_swe_qwen35_2b.yaml b/examples/agentic_demo/agent_val_rock_swe_qwen35_2b.yaml
new file mode 100644
index 000000000..e814b36d4
--- /dev/null
+++ b/examples/agentic_demo/agent_val_rock_swe_qwen35_2b.yaml
@@ -0,0 +1,228 @@
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "agentic_rollout_swe_qwen35_2b"
+seed: 42
+
+logging_dir: ./output/logs
+output_dir: ./output
+model_name: ${exp_name}-${now:%Y%m%d_%H%M%S}
+rollout_dump_dir: ./output/rollout_dump
+system_envs:
+  USE_MODELSCOPE: '1'
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data
+
+num_gpus_per_node: 8
+rpc_timeout: 72000
+
+max_steps: 200
+save_steps: 50
+logging_steps: 1
+eval_steps: 0
+resume_from_checkpoint: false
+
+async_generation_ratio: 1
+# Qwen3.5 tool-call templates expect structured tool arguments.
+parse_tool_call_parameter_to_dict: true
+# Qwen3.5 chat templates do not auto-insert an empty system prompt.
+skip_mock_system_prompt: true
+
+rollout_batch_size: 4
+val_batch_size: 4
+sequence_length: 32768
+
+max_tokens_per_step: 4096
+
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "step_reinforce"
+batch_adjust_mode: "random_sample"
+step_reward_gamma: 1.0
+
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+# Swap these checkpoints to reuse the same setup with other Qwen3.5 dense variants.
+pretrain: Qwen/Qwen3.5-2B
+reward_pretrain: Qwen/Qwen3.5-2B
+
+actor_train:
+  model_args:
+    # fa2 doesn't work for now
+    flash_attn: sdpa
+    attn_implementation: sdpa
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    freeze_module_prefix: vision_model
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 4
+    warmup_steps: 0
+  data_args:
+    template: qwen3_coder
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 2
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      context_parallel_size: 2
+      sequence_parallel: true
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  device_mapping: list(range(0,4))
+  infer_batch_size: 1
+
+actor_infer:
+  model_args:
+    flash_attn: sdpa
+    attn_implementation: sdpa
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${max_tokens_per_step}
+    top_p: 1.0
+    top_k: 50
+    num_beams: 1
+    temperature: 1.0
+    num_return_sequences: 1
+    stop_strings: ["</tool_call>", "</tool_call>\n", "\n</tool_call>\n", "\n</function>"]
+    include_stop_str_in_output: true
+  data_args:
+    template: qwen3_coder
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.6
+      block_size: 16
+      load_format: auto
+      tensor_parallel_size: 1
+      max_model_len: 32768
+  device_mapping: list(range(0,8))
+
+reference:
+  model_args:
+    attn_implementation: sdpa
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+    freeze_module_prefix: vision_model
+  data_args:
+    template: qwen3_coder
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 2
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      context_parallel_size: 2
+  device_mapping: list(range(0,4))
+  infer_batch_size: 1
+
+reward_normalization:
+  grouping: traj_group_id
+  method: identity
+
+train_env_manager:
+  max_env_num_per_worker: 1
+  num_env_groups: 1
+  group_size: 4
+  tags: [RockTBNativeEnvTrain]
+  num_groups_partition: [1]
+  system_envs:
+    ROCK_RTENV_PYTHON_V31114_INSTALL_CMD: '[ -f cpython31115.tar.gz ] && rm cpython31115.tar.gz; [ -d python ] && rm -rf python; wget -q -O cpython31115.tar.gz https://mirror.nju.edu.cn/github-release/astral-sh/python-build-standalone/20260303/cpython-3.11.15+20260303-x86_64-unknown-linux-gnu-install_only.tar.gz && tar -xzf cpython31115.tar.gz && mv python runtime-env'
+
+val_env_manager:
+  max_env_num_per_worker: 1
+  num_env_groups: 1
+  group_size: 4
+  tags: [swebench_native_verified]
+  num_groups_partition: [1]
+  system_envs:
+    ROCK_RTENV_PYTHON_V31114_INSTALL_CMD: '[ -f cpython31115.tar.gz ] && rm cpython31115.tar.gz; [ -d python ] && rm -rf python; wget -q -O cpython31115.tar.gz https://mirror.nju.edu.cn/github-release/astral-sh/python-build-standalone/20260303/cpython-3.11.15+20260303-x86_64-unknown-linux-gnu-install_only.tar.gz && tar -xzf cpython31115.tar.gz && mv python runtime-env'
+
+max_actions_per_traj: 25
+env_manager_cls: roll.pipeline.agentic.env_manager.agent_native_env_manager.AgentNativeStepEnvManager
+
+agent_config_common:
+  agent_type: "default"
+  run_cmd: 'iflow -p <<PROMPT>> --yolo'
+  pre_init_cmds:
+    - command: "apt-get update"
+      timeout_seconds: 600
+    - command: "apt-get install -y curl git wget xz-utils"
+      timeout_seconds: 600
+    - command: "apt-get install -y build-essential libc6-dev patch procps"
+      timeout_seconds: 600
+    - command: "wget -q https://xrl-sandbox-bucket.oss-cn-hangzhou.aliyuncs.com/uv-files/uv-x86_64-unknown-linux-gnu.tar.gz && tar -xzf uv-x86_64-unknown-linux-gnu.tar.gz --strip-components=1 -C /usr/local/bin && uv --version"
+      timeout_seconds: 600
+  model_service_config:
+    type: "local"
+    enabled: True
+  runtime_env_config:
+    type: node
+    npm_registry: "https://registry.npmmirror.com"
+    custom_install_cmd: "wget --retry-connrefused --tries=10 --waitretry=2 -O ~/iflow-cli.tgz 'http://cloud.iflow.cn/iflow-cli/iflow-ai-iflow-cli-for-roll-0-4-4-v5.tgz' && npm i -g ~/iflow-cli.tgz"
+  env:
+    IFLOW_apiKey: "test"
+    IFLOW_baseUrl: "http://localhost:8080/v1"
+    IFLOW_modelName: "ROME"
+    IFLOW_searchApiKey: "88888888"
+    IFLOW_selectedAuthType: "openai-compatible"
+    IFLOW_disableAutoUpdate: "true"
+    IFLOW_tokensLimit: "128000"
+    IFLOW_shellTimeout: "360000"
+    IFLOW_coreTools: "Edit,exit_plan_mode,glob,list_directory,multi_edit,plan,read plan,read_file,read_many_files,save_memory,Search,Shell,task,web_fetch,web_search,write_file,xml_escape"
+
+custom_envs:
+  RockTBNativeEnvTrain:
+    env_type: "rock_tb_native_env"
+    max_steps: ${max_actions_per_traj}
+    max_tokens_per_step: ${max_tokens_per_step}
+    env_manager_cls: ${env_manager_cls}
+    agent_system_template: "agent_system_template placeholder"
+    agent_template: "agent_template placeholder"
+    env_config:
+      dataset_name: /ROLL/data/swe_bench_verified_example.jsonl
+      tools: ~
+      max_steps: ${max_actions_per_traj}
+      mode: "train"
+      sandbox_base_url: http://localhost:8080
+      user_id: "xxx"
+      experiment_id: "test_tb_native"
+      test_files: ["/terminal-bench-datasets/datasets/swebench-verified"]
+      agent_config: ${agent_config_common}
+  swebench_native_verified:
+    env_type: "rock_tb_native_env"
+    max_steps: ${max_actions_per_traj}
+    max_tokens_per_step: ${max_tokens_per_step}
+    env_manager_cls: ${env_manager_cls}
+    agent_system_template: "agent_system_template placeholder"
+    agent_template: "agent_template placeholder"
+    env_config:
+      dataset_name: /ROLL/data/swe_bench_verified_example.jsonl
+      tools: ~
+      max_steps: ${max_actions_per_traj}
+      mode: "val"
+      sandbox_base_url: http://localhost:8080
+      user_id: "xxx"
+      experiment_id: "test_tb_native"
+      test_files: ["/terminal-bench-datasets/datasets/swebench-verified"]
+      agent_config: ${agent_config_common}
diff --git a/examples/agentic_demo/atropos_gsm8k_grpo_qwen25_0.5b.yaml b/examples/agentic_demo/atropos_gsm8k_grpo_qwen25_0.5b.yaml
new file mode 100644
index 000000000..df62c3aff
--- /dev/null
+++ b/examples/agentic_demo/atropos_gsm8k_grpo_qwen25_0.5b.yaml
@@ -0,0 +1,126 @@
+# Atropos + GSM8K + GRPO
+# Optimized for Qwen2.5-0.5B-Instruct on 2x 3090.
+# Lightweight, high-concurrency reasoning training.
+
+defaults:
+  - ../config/deepspeed_zero2@_here_
+
+exp_name: "atropos_gsm8k_grpo_qwen25_0_5b_v21"
+seed: 42
+max_steps: 100
+eval_steps: 0 
+world_size: 1
+num_gpus_per_node: 2
+
+track_with: wandb
+tracker_kwargs:
+  api_key: ${oc.env:WANDB_API_KEY}
+  project: roll-atropos-integration
+  name: ${exp_name}
+
+# --- Model Configs ---
+pretrain: Qwen/Qwen2.5-0.5B-Instruct
+sequence_length: 2048 
+rollout_batch_size: 64 
+val_batch_size: 1
+
+actor_train:
+  training_args:
+    learning_rate: 1.0e-6
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 32
+  device_mapping: "[1]"
+  strategy_args:
+    strategy_name: deepspeed_train
+    strategy_config:
+      zero_optimization:
+        stage: 2
+        offload_optimizer:
+          device: cpu
+          pin_memory: false
+      bf16:
+        enabled: true
+  data_args:
+    template: qwen2_5
+
+actor_infer:
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.4
+      max_model_len: 2048
+      VLLM_USE_V1: 0
+      enforce_eager: true
+      enable_prefix_caching: false
+  device_mapping: "[0]"
+  generating_args:
+    do_sample: true
+    temperature: 1.0
+    top_p: 0.95
+    max_new_tokens: 512
+max_tokens_per_step: 512
+
+reference:
+  device_mapping: "[1]"
+  strategy_args:
+    strategy_name: deepspeed_train
+    strategy_config:
+      zero_optimization:
+        stage: 2
+      bf16:
+        enabled: true
+
+# --- RL Configs (GRPO) ---
+adv_estimator: "grpo"
+batch_adjust_mode: "random_sample"
+step_reward_gamma: 1.0
+use_kl_loss: true
+kl_loss_coef: 0.001
+whiten_advantages: true
+reward_normalization:
+  grouping: "traj_group_id"
+  norm_mean_type: "group"
+  norm_std_type: "group"
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+# --- Atropos Execution Bridge Config ---
+max_actions_per_traj: 1 
+env_manager_cls: roll.pipeline.agentic.env_manager.agent_native_env_manager.AgentNativeStepEnvManager
+
+custom_envs:
+  AtroposGSM8KTrain:
+    env_type: "atropos_env"
+    max_steps: ${max_actions_per_traj}
+    max_tokens_per_step: ${max_tokens_per_step}
+    env_manager_cls: ${env_manager_cls}
+    agent_system_template: "You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside <think> </think> tags, and then provide your solution or response to the problem.\n\nYou are allocated a maximum of 2048 tokens, please strive to use less.\n\nYou will then provide your answer like this: \\boxed{your answer here}\nIt is important that you provide your answer in the correct format.\nIf you do not, you will not receive credit for your answer.\nSo please end your answer with \\boxed{your answer here}"
+    agent_template: "{observation}"
+    env_config:
+      atropos_env_path: "environments.gsm8k_server:GSM8kEnv"
+      max_steps: ${max_actions_per_traj}
+      debug: true
+      env_config:
+        group_size: 1
+        max_token_length: 1024
+      reward_config:
+        format_markers:
+          - marker: "\\boxed{"
+            reward: 0.3
+          - marker: "<think>"
+            reward: 0.2
+        length_bounty_max: 0.2
+
+train_env_manager:
+  max_env_num_per_worker: 4
+  num_env_groups: 4
+  group_size: 16
+  tags: [AtroposGSM8KTrain]
+  num_groups_partition: [4]
+
+val_env_manager:
+  max_env_num_per_worker: 1
+  num_env_groups: 1
+  group_size: 1
+  tags: [AtroposGSM8KTrain]
+  num_groups_partition: [1]
diff --git a/examples/agentic_demo/openreward_endless_terminals_reinforce_qwen35_2b.yaml b/examples/agentic_demo/openreward_endless_terminals_reinforce_qwen35_2b.yaml
new file mode 100644
index 000000000..84db30ba0
--- /dev/null
+++ b/examples/agentic_demo/openreward_endless_terminals_reinforce_qwen35_2b.yaml
@@ -0,0 +1,203 @@
+# OpenReward + EndlessTerminals + STEP_REINFORCE (vanilla PG) config
+# Simpler baseline without IPA chunk-level loss.
+# The model IS the agent — no iflow, no sandbox, no anti_call_llm.
+#
+# Usage:
+#   bash examples/agentic_demo/run_openreward_endless_terminals.sh reinforce
+#   # or directly:
+#   python examples/start_agentic_pipeline.py \
+#     --config_path agentic_demo \
+#     --config_name openreward_endless_terminals_reinforce_qwen35_2b
+
+defaults:
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "openreward_endless_terminals_reinforce_qwen35_2b"
+seed: 42
+
+logging_dir: ./output/logs
+output_dir: ./output
+model_name: ${exp_name}-${now:%Y%m%d_%H%M%S}
+rollout_dump_dir: /home/ubuntu/ALE-latest/ROLL-personal/output/rollout_dump
+system_envs:
+  USE_MODELSCOPE: '1'
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data
+
+num_gpus_per_node: 8
+rpc_timeout: 72000
+
+max_steps: 10
+save_steps: 50
+logging_steps: 1
+eval_steps: 0
+resume_from_checkpoint: false
+
+async_generation_ratio: 1
+parse_tool_call_parameter_to_dict: true
+skip_mock_system_prompt: true
+
+track_with: wandb
+tracker_kwargs:
+  api_key: ${oc.env:WANDB_API_KEY}
+  project: roll-agentic
+  name: ${exp_name}
+
+rollout_batch_size: 16
+val_batch_size: 1
+sequence_length: 32768
+
+max_tokens_per_step: 4096
+
+# --- Vanilla STEP_REINFORCE config ---
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "step_reinforce"
+batch_adjust_mode: "random_sample"
+step_reward_gamma: 1.0
+
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+# --- Model configs ---
+pretrain: /home/ubuntu/ALE-latest/model-checkpoints/Qwen3.5-2B
+reward_pretrain: /home/ubuntu/ALE-latest/model-checkpoints/Qwen3.5-2B
+actor_train:
+  model_args:
+    flash_attn: sdpa
+    attn_implementation: sdpa
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    freeze_module_prefix: vision_model
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 4
+    warmup_steps: 0
+  data_args:
+    template: qwen3_coder
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 2
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      context_parallel_size: 2
+      sequence_parallel: true
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  device_mapping: list(range(0,4))
+  infer_batch_size: 1
+actor_infer:
+  model_args:
+    flash_attn: sdpa
+    attn_implementation: sdpa
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${max_tokens_per_step}
+    top_p: 1.0
+    top_k: 50
+    num_beams: 1
+    temperature: 1.0
+    num_return_sequences: 1
+    stop_strings: ["</tool_call>"]
+    include_stop_str_in_output: true
+  data_args:
+    template: qwen3_coder
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.6
+      block_size: 16
+      load_format: auto
+      tensor_parallel_size: 1
+      max_model_len: 32768
+  device_mapping: list(range(0,8))
+
+reference:
+  model_args:
+    attn_implementation: sdpa
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+    freeze_module_prefix: vision_model
+  data_args:
+    template: qwen3_coder
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 2
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      context_parallel_size: 2
+  device_mapping: list(range(0,4))
+  infer_batch_size: 1
+
+reward_normalization:
+  grouping: traj_group_id
+  method: identity
+
+# --- Environment config (OpenReward) ---
+max_actions_per_traj: 16
+env_manager_cls: roll.pipeline.agentic.env_manager.agent_native_env_manager.AgentNativeStepEnvManager
+
+train_env_manager:
+  max_env_num_per_worker: 1
+  num_env_groups: 1
+  group_size: 1
+  tags: [OpenRewardEndlessTerminalsTrain]
+  num_groups_partition: [1]
+
+val_env_manager:
+  max_env_num_per_worker: 1
+  num_env_groups: 1
+  group_size: 1
+  tags: [OpenRewardEndlessTerminalsVal]
+  num_groups_partition: [1]
+
+custom_envs:
+  OpenRewardEndlessTerminalsTrain:
+    env_type: "openreward_env"
+    max_steps: ${max_actions_per_traj}
+    max_tokens_per_step: ${max_tokens_per_step}
+    env_manager_cls: ${env_manager_cls}
+    agent_system_template: "unused — system prompt built dynamically from OpenReward tool specs"
+    agent_template: "unused — observation is full message list from OpenRewardEnv"
+    env_config:
+      environment_name: "kanishk/EndlessTerminals"
+      split: "train"
+      mode: "train"
+      max_steps: ${max_actions_per_traj}
+      reward_reduction: "sum"
+      nonterminal_reward: 0.0
+      retry_max_attempts: 3
+      retry_backoff_seconds: 5.0
+  OpenRewardEndlessTerminalsVal:
+    env_type: "openreward_env"
+    max_steps: ${max_actions_per_traj}
+    max_tokens_per_step: ${max_tokens_per_step}
+    env_manager_cls: ${env_manager_cls}
+    agent_system_template: "unused"
+    agent_template: "unused"
+    env_config:
+      environment_name: "kanishk/EndlessTerminals"
+      split: "train"
+      mode: "val"
+      max_steps: ${max_actions_per_traj}
+      reward_reduction: "sum"
+      nonterminal_reward: 0.0
diff --git a/examples/agentic_demo/run_agentic_pipeline_rock_swe.sh b/examples/agentic_demo/run_agentic_pipeline_rock_swe.sh
new file mode 100644
index 000000000..032a3b000
--- /dev/null
+++ b/examples/agentic_demo/run_agentic_pipeline_rock_swe.sh
@@ -0,0 +1,7 @@
+#!/bin/bash
+set +x
+
+CONFIG_PATH=$(basename $(dirname $0))
+export PYTHONPATH="$PWD:$PYTHONPATH"
+python examples/start_agentic_pipeline.py --config_path $CONFIG_PATH  --config_name agent_val_rock_swe
+
diff --git a/examples/agentic_demo/run_agentic_pipeline_rock_swe_qwen35_2b.sh b/examples/agentic_demo/run_agentic_pipeline_rock_swe_qwen35_2b.sh
new file mode 100755
index 000000000..00ff94001
--- /dev/null
+++ b/examples/agentic_demo/run_agentic_pipeline_rock_swe_qwen35_2b.sh
@@ -0,0 +1,6 @@
+#!/bin/bash
+set +x
+
+CONFIG_PATH=$(basename $(dirname $0))
+export PYTHONPATH="$PWD:$PYTHONPATH"
+python examples/start_agentic_pipeline.py --config_path $CONFIG_PATH --config_name agent_val_rock_swe_qwen35_2b
diff --git a/examples/agentic_demo/run_agentic_rollout_pipeline_rock_swe.sh b/examples/agentic_demo/run_agentic_rollout_pipeline_rock_swe.sh
new file mode 100644
index 000000000..de525b12e
--- /dev/null
+++ b/examples/agentic_demo/run_agentic_rollout_pipeline_rock_swe.sh
@@ -0,0 +1,7 @@
+#!/bin/bash
+set +x
+
+CONFIG_PATH=$(basename $(dirname $0))
+export PYTHONPATH="$PWD:$PYTHONPATH"
+python examples/start_agentic_rollout_pipeline.py --config_path $CONFIG_PATH  --config_name agent_rollout_rock_swe
+
diff --git a/examples/agentic_demo/run_atropos_gsm8k.sh b/examples/agentic_demo/run_atropos_gsm8k.sh
new file mode 100644
index 000000000..f12c8c767
--- /dev/null
+++ b/examples/agentic_demo/run_atropos_gsm8k.sh
@@ -0,0 +1,13 @@
+#!/bin/bash
+# Atropos-ROLL Integration: GSM8K + Qwen2.5-0.5B
+# Usage: bash examples/agentic_demo/run_atropos_gsm8k.sh
+
+export VLLM_USE_V1=0
+export WANDB_MODE=online
+export TQDM_DISABLE=1
+export HF_DATASETS_OFFLINE=1
+export HF_HUB_OFFLINE=1
+
+python examples/start_agentic_pipeline.py \
+    --config_path agentic_demo \
+    --config_name atropos_gsm8k_grpo_qwen25_0.5b
diff --git a/examples/agentic_demo/run_openreward_endless_terminals.sh b/examples/agentic_demo/run_openreward_endless_terminals.sh
new file mode 100755
index 000000000..abff7dff0
--- /dev/null
+++ b/examples/agentic_demo/run_openreward_endless_terminals.sh
@@ -0,0 +1,25 @@
+#!/bin/bash
+# Run OpenReward EndlessTerminals REINFORCE training with Qwen3.5-2B.
+#
+# Prerequisites:
+#   pip install openreward   # inside the docker container
+#
+# Usage (inside roll_openreward_runner container):
+#   export OPENREWARD_API_KEY="..."
+#   export WANDB_API_KEY="..."
+#   cd /home/ubuntu/ALE-latest/ROLL-personal
+#   bash examples/agentic_demo/run_openreward_endless_terminals.sh
+
+set -euo pipefail
+
+: "${OPENREWARD_API_KEY:?Set OPENREWARD_API_KEY}"
+: "${WANDB_API_KEY:?Set WANDB_API_KEY}"
+
+export NCCL_NET_PLUGIN=''
+export NCCL_TUNER_PLUGIN=''
+export NCCL_NET=Socket
+export PYTHONPATH="${PWD}:${PYTHONPATH:-}"
+
+python examples/start_agentic_pipeline.py \
+  --config_path agentic_demo \
+  --config_name openreward_endless_terminals_reinforce_qwen35_2b
diff --git a/examples/ascend_examples/qwen3_30b_rlvl_fsdp2.yaml b/examples/ascend_examples/qwen3_30b_rlvl_fsdp2.yaml
new file mode 100644
index 000000000..01c3880f8
--- /dev/null
+++ b/examples/ascend_examples/qwen3_30b_rlvl_fsdp2.yaml
@@ -0,0 +1,163 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen3-30BA3B-rlvr-256bs-2kto4k"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+system_envs:
+  USE_MODELSCOPE: '1'
+
+
+checkpoint_config:
+  type: file_system
+  output_dir: ./rl_examples/models/${exp_name}
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: ./rl_examples/llm/tensorboard/roll_exp/rlvr
+rpc_timeout: 72000
+
+num_gpus_per_node: 16
+
+max_steps: 500
+save_steps: 100
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+
+rollout_batch_size: 32
+prompt_length: 2048
+response_length: 4096
+
+num_return_sequences_in_group: 8
+ppo_epochs: 1
+adv_estimator: "reinforce"
+
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 2.0
+dual_clip_loss: true
+
+norm_mean_type: ~
+norm_std_type: ~
+
+max_len_mask: true
+difficulty_mask: true
+difficulty_low_threshold: 0.1
+difficulty_high_threshold: 0.95
+error_max_len_clip: false
+
+difficulty_loss_weight: false
+length_loss_weight: false
+
+add_token_level_kl: false
+
+whiten_advantages: true
+
+pretrain: /home/l00691321/models/Qwen3-30B-A3B
+reward_pretrain: /home/l00691321/models/Qwen3-30B-A3B
+
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 8
+    warmup_steps: 20
+    num_train_epochs: 50
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/math_deepmath_deal.jsonl
+    domain_interleave_probs:
+      math_rule: 1
+    dataset_dir: data
+    messages: messages
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      fsdp_size: 16
+      param_dtype: bf16
+      reduce_dtype: bf16
+      offload_policy: true
+      apply_expert_patch: true
+      apply_tiled_mlp: true
+      tiled_num_shards: 8
+      reshard_after_forward: true
+      wrap_policy:
+        wrap_embeddings: true
+        wrap_lm_output: true
+        moe_experts:
+          - Qwen3MoeMLP
+        transformer_layer_cls_to_wrap:
+          - Qwen3MoeAttention
+          - Qwen3MoeSparseMoeBlock
+  use_remove_padding: true
+  device_mapping: list(range(0,16))
+  infer_batch_size: 2
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 6144
+      tensor_parallel_size: 2
+      enforce_eager: true
+      load_format: dummy
+  device_mapping: list(range(0,16))
+  infer_batch_size: 1
+
+reference:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: fsdp2_infer
+    strategy_config:
+      fsdp_size: 16
+      param_dtype: bf16
+      reduce_dtype: bf16
+      apply_tiled_mlp: true
+      tiled_num_shards: 8
+      reshard_after_forward: true
+      offload_policy: true
+  device_mapping: list(range(0,16))
+  infer_batch_size: 2
+
+rewards:
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [deepmath_103k, aime]
+    world_size: 8
+    infer_batch_size: 1
\ No newline at end of file
diff --git a/examples/ascend_examples/qwen3_8b_rlvr_deepspeed.yaml b/examples/ascend_examples/qwen3_8b_rlvr_deepspeed.yaml
new file mode 100644
index 000000000..64fc91c95
--- /dev/null
+++ b/examples/ascend_examples/qwen3_8b_rlvr_deepspeed.yaml
@@ -0,0 +1,167 @@
+defaults:
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+pg_variant: ppo # topr, vanilla, tis, cispo, kimi15, ppo
+exp_name: Qwen3-8B-RLVR-${pg_variant}
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+system_envs:
+  USE_MODELSCOPE: '1'
+
+checkpoint_config:
+  type: file_system
+  output_dir: ./ckpt
+
+num_gpus_per_node: 16
+
+
+max_steps: 200
+save_steps: 100
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+
+rollout_batch_size: 16  # prompt
+prompt_length: 2048
+response_length: 8192
+
+num_return_sequences_in_group: 8
+ppo_epochs: 1
+adv_estimator: "reinforce"
+
+# clip
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 2.0
+dual_clip_loss: true
+
+# normalize
+norm_mean_type: batch
+norm_std_type: batch
+
+# data mask
+max_len_mask: true
+difficulty_mask: true
+difficulty_low_threshold: 0.2
+difficulty_high_threshold: 0.95
+error_max_len_clip: false
+
+# data weight
+difficulty_loss_weight: false
+length_loss_weight: false
+
+# reward
+add_token_level_kl: false
+
+# advantage
+whiten_advantages: true
+
+# dynamic sampling scheduler
+# use_additional_prompts: true
+# max_running_requests: 256
+# is_num_return_sequences_expand: false
+
+pretrain: Qwen/Qwen3-8B-Base
+reward_pretrain: Qwen/Qwen3-8B-Base
+
+validation:
+  data_args:
+    template: qwen3
+    file_name:
+      - data/math_benchmarks.jsonl
+  generating_args:
+    top_p: 0.6
+    top_k: 50
+    num_beams: 1
+    temperature: 0.6
+    num_return_sequences: 1
+  eval_steps: 10
+
+actor_train:
+  worker_cls: roll.pipeline.rlvr.actor_pg_worker.ActorPGWorker
+  pg_variant: ppo # topr, vanilla, tis, cispo, kimi15, ppo
+  model_args:
+    flash_attn: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 8
+    warmup_steps: 20
+    num_train_epochs: 50
+  data_args:
+    template: qwen3
+    file_name:
+      - data/math_deepmath_deal.jsonl
+    domain_interleave_probs:
+      math_rule: 1
+    dataset_dir: data
+    messages: messages
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+  strategy_args:
+    strategy_name: deepspeed_train
+    strategy_config: ${deepspeed_zero3_cpuoffload}
+  device_mapping: list(range(0,8))
+  infer_batch_size: 1
+
+actor_infer:
+  model_args:
+    flash_attn: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen3
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.6
+      block_size: 16
+      max_model_len: 8000
+  device_mapping: list(range(8,12))
+  infer_batch_size: 4
+
+reference:
+  model_args:
+    flash_attn: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen3
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(12,16))
+  infer_batch_size: 1
+
+rewards:
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen3
+    tag_included: [deepmath_103k, 'MATH-500', 'OlympiadBench', 'minervamath', 'aime2025', 'gsm8k', 'aime', 'amc23', 'math_rule']
+    world_size: 8
+    infer_batch_size: 1
\ No newline at end of file
diff --git a/examples/qwen2.5-3B-dpo_megatron/run_dpo_pipeline.sh b/examples/ascend_examples/run_dpo_pipeline.sh
old mode 100755
new mode 100644
similarity index 76%
rename from examples/qwen2.5-3B-dpo_megatron/run_dpo_pipeline.sh
rename to examples/ascend_examples/run_dpo_pipeline.sh
index d9223c28c..cc5a049f4
--- a/examples/qwen2.5-3B-dpo_megatron/run_dpo_pipeline.sh
+++ b/examples/ascend_examples/run_dpo_pipeline.sh
@@ -2,4 +2,4 @@
 set +x
 
 CONFIG_PATH=$(basename $(dirname $0))
-python examples/start_dpo_pipeline.py --config_path $CONFIG_PATH  --config_name dpo_config
+python examples/start_dpo_pipeline.py --config_path $CONFIG_PATH --config_name qwen3_4B_dpo_deepspeed
diff --git a/examples/ascend_examples/run_rlvr_pipeline.sh b/examples/ascend_examples/run_rlvr_pipeline.sh
new file mode 100644
index 000000000..ab4207cf5
--- /dev/null
+++ b/examples/ascend_examples/run_rlvr_pipeline.sh
@@ -0,0 +1,5 @@
+#!/bin/bash
+set +x
+
+CONFIG_PATH=$(basename $(dirname $0))
+python examples/start_rlvr_pipeline.py --config_path $CONFIG_PATH --config_name qwen3_8b_rlvr_deepspeed
diff --git a/examples/qwen2.5-3B-dpo_megatron/dpo_config.yaml b/examples/dpo_examples/qwen2.5-3B_dpo_megatron.yaml
similarity index 93%
rename from examples/qwen2.5-3B-dpo_megatron/dpo_config.yaml
rename to examples/dpo_examples/qwen2.5-3B_dpo_megatron.yaml
index f0a823f76..fef389fc4 100644
--- a/examples/qwen2.5-3B-dpo_megatron/dpo_config.yaml
+++ b/examples/dpo_examples/qwen2.5-3B_dpo_megatron.yaml
@@ -41,8 +41,6 @@ eval_steps: 100
 resume_from_checkpoint: false
 
 sequence_length: 512
-train_batch_size: 64
-val_batch_size: 64
 
 # local_rank: -1
 num_nodes: 1
@@ -57,9 +55,10 @@ label_smoothing: 0.0
 chosen_key: chosen
 rejected_key: rejected
 
+global_template: qwen2_5
+
 validation:
   data_args:
-    template: qwen2_5
     file_name: data/comparison_gpt4_data_zh.json
 
 actor_train:
@@ -76,7 +75,6 @@ actor_train:
     warmup_steps: 20
     num_train_epochs: 10
   data_args:
-    template: qwen2_5_dpo
     file_name:
       - data/comparison_gpt4_data_zh.json
     dataset_dir: data
@@ -97,8 +95,6 @@ reference:
     disable_gradient_checkpointing: true
     dtype: bf16
     model_type: ~
-  data_args:
-    template: qwen2_5
   strategy_args:
     strategy_name: megatron_infer
     strategy_config:
@@ -106,4 +102,4 @@ reference:
       pipeline_model_parallel_size: 1
       expert_model_parallel_size: 1
   device_mapping: list(range(0,8))
-  infer_batch_size: 16
\ No newline at end of file
+  infer_batch_size: 8
\ No newline at end of file
diff --git a/examples/dpo_examples/qwen3-30BA3B-dpo_megatron_80GB.yaml b/examples/dpo_examples/qwen3-30BA3B-dpo_megatron_80GB.yaml
new file mode 100644
index 000000000..ca37ba19d
--- /dev/null
+++ b/examples/dpo_examples/qwen3-30BA3B-dpo_megatron_80GB.yaml
@@ -0,0 +1,122 @@
+defaults:
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen3-30BA3-dpo-config"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+system_envs:
+  USE_MODELSCOPE: '1'
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll_examples
+#  notes: roll_examples
+#  tags:
+#    - dpo
+#    - baseline
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: /data/oss_bucket_0/rl_examples/llm/tensorboard/roll_exp/dpo
+
+max_steps: 500
+save_steps: 500
+logging_steps: 1
+eval_steps: 100
+resume_from_checkpoint: false
+
+sequence_length: 4096
+
+# local_rank: -1
+num_nodes: 1
+num_gpus_per_node: 8
+
+pretrain: Qwen/Qwen3-30B-A3B
+
+ipo: false
+beta: 0.1
+label_smoothing: 0.0
+
+chosen_key: chosen
+rejected_key: rejected
+
+is_offload_states: True
+is_offload_optimizer_states_in_train_step: True
+
+global_template: qwen2_5
+
+validation:
+  data_args:
+    file_name: data/comparison_gpt4_data_zh.json
+
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    lr_scheduler_type: constant
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 16
+    warmup_steps: 20
+    num_train_epochs: 10
+  data_args:
+    file_name:
+      - data/comparison_gpt4_data_zh.json
+    dataset_dir: data
+    preprocessing_num_workers: 1
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 2
+      expert_model_parallel_size: 8
+      use_distributed_optimizer: true
+      recompute_granularity: selective
+      recompute_modules: "moe,layernorm"
+      moe_token_dispatcher_type: alltoall
+      bias_activation_fusion: true
+      moe_grouped_gemm: true
+      moe_shared_expert_overlap: true
+      bf16: true
+      additional_configs:
+        moe_permute_fusion: true
+  device_mapping: list(range(0,16))
+  infer_batch_size: 2
+
+reference:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 2
+      expert_model_parallel_size: 8
+      moe_token_dispatcher_type: alltoall
+      bias_activation_fusion: true
+      moe_grouped_gemm: true
+      moe_shared_expert_overlap: true
+      bf16: true
+      additional_configs:
+        moe_permute_fusion: true
+  device_mapping: list(range(0,16))
+  infer_batch_size: 2
\ No newline at end of file
diff --git a/examples/dpo_examples/run_dpo_pipeline.sh b/examples/dpo_examples/run_dpo_pipeline.sh
new file mode 100755
index 000000000..6dfe7aaa5
--- /dev/null
+++ b/examples/dpo_examples/run_dpo_pipeline.sh
@@ -0,0 +1,5 @@
+#!/bin/bash
+set +x
+
+CONFIG_PATH=$(basename $(dirname $0))
+python examples/start_dpo_pipeline.py --config_path $CONFIG_PATH  --config_name qwen3-30BA3B-dpo_megatron_80GB
diff --git a/examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake-pg_var.yaml b/examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake-pg_var.yaml
new file mode 100644
index 000000000..646f8e97d
--- /dev/null
+++ b/examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake-pg_var.yaml
@@ -0,0 +1,175 @@
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "agentic_pipeline"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+render_save_dir: ./output/render
+system_envs:
+  USE_MODELSCOPE: '1'
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll-agentic
+#  name: ${exp_name}_sokoban
+#  notes: "agentic_pipeline"
+#  tags:
+#    - agentic
+#    - roll
+#    - baseline
+
+track_with: tensorboard
+tracker_kwargs:
+ log_dir: /data/oss_bucket_0/yali/llm/tensorboard/roll_exp/agentic_frozen_lake
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
+
+num_gpus_per_node: 8
+
+max_steps: 1024
+save_steps: 10000
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 1024
+val_batch_size: 1024
+sequence_length: 8192
+
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "grpo"
+#pg_clip: 0.1
+#dual_clip_loss: True
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+pretrain: Qwen/Qwen2.5-0.5B-Instruct
+reward_pretrain: Qwen/Qwen2.5-0.5B-Instruct
+
+actor_train:
+  # worker_cls: roll.pipeline.rlvr.actor_pg_worker.ActorPGWorker
+  worker_cls: roll.pipeline.agentic.agentic_actor_pg_worker.ActorWorker
+  pg_variant: topr # topr, vanilla, tis, cispo, kimi15, ppo
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 64
+    warmup_steps: 10
+    lr_scheduler_type: cosine
+  data_args:
+    template: qwen2_5
+  strategy_args:
+#    strategy_name: deepspeed_train
+#    strategy_config: ${deepspeed_zero3}
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 128 # single-turn response length
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+  device_mapping: list(range(0,8))
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+reward_normalization:
+  grouping: traj_group_id # 可以tags(env_type)/traj_group_id(group)/batch(rollout_batch)... group_by计算reward/adv
+  method: mean_std # asym_clip / identity / mean_std
+
+train_env_manager:
+  max_env_num_per_worker: 16
+  num_env_groups: 128
+  # under the same group, the env config and env seed are ensured to be equal
+  group_size: 8
+  tags: [FrozenLake]
+  num_groups_partition: [128] # If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+val_env_manager:
+  max_env_num_per_worker: 32
+  num_env_groups: 1024
+  group_size: 1 # should be set to 1 because val temperature is set to 0 and same prompt leads to same output
+  tags: [SimpleSokoban, LargerSokoban, SokobanDifferentGridVocab, FrozenLake]
+  num_groups_partition: [256, 256, 256, 256] # TODO: If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+
+# Here, you can override variables defined in the imported envs. max_tokens_per_step: 128 in custom_env.SimpleSokoban, here replaced by 64
+max_tokens_per_step: 64
+
+custom_envs:
+  SimpleSokoban:
+    ${custom_env.SimpleSokoban}
+  LargerSokoban:
+    ${custom_env.LargerSokoban}
+  SokobanDifferentGridVocab:
+    ${custom_env.SokobanDifferentGridVocab}
+  FrozenLake:
+    ${custom_env.FrozenLake}
+  FrozenLakeThink:
+    ${custom_env.FrozenLakeThink}
+  FrozenLakeLocallyDefineExamples:  # Can import from unified envs config or define dict locally
+    env_type: frozen_lake
+    max_steps: ${max_actions_per_traj}
+    max_tokens_per_step: ${max_tokens_per_step}
+    env_manager_cls: ${env_manager_cls}
+    use_thread_lock: true
+    env_config:
+      env_instruction: "You are solving the FrozenLake puzzle. Forbid the whole and go to the target. You may move to the unintended direction due to the slippery ice. The answer must be one of action in a turn, format is <answer>Right</answer>"
+      action_pattern: ${think_action_pattern}
+      max_steps: ${max_actions_per_traj}
+      is_slippery: false
diff --git a/examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake-pg_var_is_correct.yaml b/examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake-pg_var_is_correct.yaml
new file mode 100644
index 000000000..8e1e79631
--- /dev/null
+++ b/examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake-pg_var_is_correct.yaml
@@ -0,0 +1,192 @@
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "agentic_pipeline"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+render_save_dir: ./output/render
+system_envs:
+  USE_MODELSCOPE: '1'
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll-agentic
+#  name: ${exp_name}_sokoban
+#  notes: "agentic_pipeline"
+#  tags:
+#    - agentic
+#    - roll
+#    - baseline
+
+track_with: tensorboard
+tracker_kwargs:
+ log_dir: /data/oss_bucket_0/yali/llm/tensorboard/roll_exp/agentic_frozen_lake
+
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
+
+num_gpus_per_node: 8
+
+max_steps: 1024
+save_steps: 10000
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 1024
+val_batch_size: 1024
+sequence_length: 8192
+
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "grpo"
+#pg_clip: 0.1
+#dual_clip_loss: True
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+pretrain: Qwen/Qwen2.5-0.5B-Instruct
+reward_pretrain: Qwen/Qwen2.5-0.5B-Instruct
+
+# is_correct:
+#   is_ratio_type: "token"
+#   is_upper_bound: 0.5
+
+enable_old_logprobs_recompute: True
+train_infer_correction:
+  filters:
+    - enabled: true
+      agg_type: segment
+      ratio_enabled: true
+      diff_enabled: true
+      ratio_low: 0.8
+      ratio_high: 1.05
+      diff_low: -0.1
+      diff_high: 0.1
+
+actor_train:
+  # worker_cls: roll.pipeline.rlvr.actor_pg_worker.ActorPGWorker
+  worker_cls: roll.pipeline.agentic.agentic_actor_pg_worker.ActorWorker
+  pg_variant: topr # topr, vanilla, tis, cispo, kimi15, ppo
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 64
+    warmup_steps: 10
+    lr_scheduler_type: cosine
+  data_args:
+    template: qwen2_5
+  strategy_args:
+#    strategy_name: deepspeed_train
+#    strategy_config: ${deepspeed_zero3}
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 128 # single-turn response length
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+  device_mapping: list(range(0,8))
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+reward_normalization:
+  grouping: traj_group_id # 可以tags(env_type)/traj_group_id(group)/batch(rollout_batch)... group_by计算reward/adv
+  method: mean_std # asym_clip / identity / mean_std
+
+train_env_manager:
+  max_env_num_per_worker: 16
+  num_env_groups: 128
+  # under the same group, the env config and env seed are ensured to be equal
+  group_size: 8
+  tags: [FrozenLake]
+  num_groups_partition: [128] # If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+val_env_manager:
+  max_env_num_per_worker: 32
+  num_env_groups: 1024
+  group_size: 1 # should be set to 1 because val temperature is set to 0 and same prompt leads to same output
+  tags: [SimpleSokoban, LargerSokoban, SokobanDifferentGridVocab, FrozenLake]
+  num_groups_partition: [256, 256, 256, 256] # TODO: If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+
+# Here, you can override variables defined in the imported envs. max_tokens_per_step: 128 in custom_env.SimpleSokoban, here replaced by 64
+max_tokens_per_step: 64
+
+custom_envs:
+  SimpleSokoban:
+    ${custom_env.SimpleSokoban}
+  LargerSokoban:
+    ${custom_env.LargerSokoban}
+  SokobanDifferentGridVocab:
+    ${custom_env.SokobanDifferentGridVocab}
+  FrozenLake:
+    ${custom_env.FrozenLake}
+  FrozenLakeThink:
+    ${custom_env.FrozenLakeThink}
+  FrozenLakeLocallyDefineExamples:  # Can import from unified envs config or define dict locally
+    env_type: frozen_lake
+    max_steps: ${max_actions_per_traj}
+    max_tokens_per_step: ${max_tokens_per_step}
+    env_manager_cls: ${env_manager_cls}
+    use_thread_lock: true
+    env_config:
+      env_instruction: "You are solving the FrozenLake puzzle. Forbid the whole and go to the target. You may move to the unintended direction due to the slippery ice. The answer must be one of action in a turn, format is <answer>Right</answer>"
+      action_pattern: ${think_action_pattern}
+      max_steps: ${max_actions_per_traj}
+      is_slippery: false
diff --git a/examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake.yaml b/examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake.yaml
index 3ff1d9cb1..b93ad3b75 100644
--- a/examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake.yaml
+++ b/examples/qwen2.5-0.5B-agentic/agent_val_frozen_lake.yaml
@@ -95,13 +95,6 @@ actor_infer:
   model_args:
     disable_gradient_checkpointing: true
     dtype: bf16
-  generating_args:
-    max_new_tokens: 128 # single-turn response length
-    top_p: 0.99
-    top_k: 100
-    num_beams: 1
-    temperature: 0.99
-    num_return_sequences: 1
   data_args:
     template: qwen2_5
   strategy_args:
@@ -137,6 +130,12 @@ train_env_manager:
   group_size: 8
   tags: [FrozenLake]
   num_groups_partition: [128] # If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+  generating_args:
+    max_new_tokens: 128 # single-turn response length
+    top_p: 0.99
+    top_k: 100
+    temperature: 0.99
+    num_return_sequences: 1
 
 val_env_manager:
   max_env_num_per_worker: 32
@@ -144,6 +143,12 @@ val_env_manager:
   group_size: 1 # should be set to 1 because val temperature is set to 0 and same prompt leads to same output
   tags: [SimpleSokoban, LargerSokoban, SokobanDifferentGridVocab, FrozenLake]
   num_groups_partition: [256, 256, 256, 256] # TODO: If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+  generating_args:
+    max_new_tokens: 128 # single-turn response length
+    top_p: 0.99
+    top_k: 100
+    temperature: 0.2
+    num_return_sequences: 1
 
 
 # Here, you can override variables defined in the imported envs. max_tokens_per_step: 128 in custom_env.SimpleSokoban, here replaced by 64
diff --git a/examples/qwen2.5-0.5B-agentic/agentic_sokoban_rollout_mock_dump.yaml b/examples/qwen2.5-0.5B-agentic/agentic_sokoban_rollout_mock_dump.yaml
new file mode 100644
index 000000000..b59749301
--- /dev/null
+++ b/examples/qwen2.5-0.5B-agentic/agentic_sokoban_rollout_mock_dump.yaml
@@ -0,0 +1,153 @@
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "sokoban_precision_test_dump"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+render_save_dir: ./output/render
+system_envs:
+  NCCL_ALGO: Ring
+  NVTE_ALLOW_NONDETERMINISTIC_ALGO: '0'
+  CUBLAS_WORKSPACE_CONFIG: ':4096:8'
+  DETERMINISTIC_MODE: '1'
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: ./output/tensorboard
+
+checkpoint_config:
+  type: file_system
+  output_dir: ./output/models/${exp_name}
+
+num_gpus_per_node: 8
+
+max_steps: 50
+save_steps: 10000
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 128
+val_batch_size: 128
+sequence_length: 8192
+
+# Rollout Mock Configuration - DUMP MODE
+rollout_mock:
+  enable: true
+  mode: dump
+  dump_dir: ./output/rollout_dumps/baseline_v1
+
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "grpo"
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+pretrain: Qwen/Qwen2.5-0.5B-Instruct
+reward_pretrain: Qwen/Qwen2.5-0.5B-Instruct
+
+actor_train:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 32
+    # warmup_steps: 10
+    lr_scheduler_type: cosine
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  device_mapping: list(range(2,4))
+  infer_batch_size: 2
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 128
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+  device_mapping: list(range(2,4))
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(2,4))
+  infer_batch_size: 2
+
+reward_normalization:
+  grouping: traj_group_id
+  method: mean_std
+
+train_env_manager:
+  format_penalty: -0.15
+  max_env_num_per_worker: 16
+  num_env_groups: 16
+  group_size: 8
+  tags: [SimpleSokoban]
+  num_groups_partition: [16]
+
+val_env_manager:
+  max_env_num_per_worker: 32
+  num_env_groups: 128
+  group_size: 1
+  tags: [SimpleSokoban]
+  num_groups_partition: [128]
+
+max_tokens_per_step: 64
+
+custom_envs:
+  SimpleSokoban:
+    ${custom_env.SimpleSokoban}
+  LargerSokoban:
+    ${custom_env.LargerSokoban}
+  SokobanDifferentGridVocab:
+    ${custom_env.SokobanDifferentGridVocab}
+  FrozenLake:
+    ${custom_env.FrozenLake}
+  FrozenLakeThink:
+    ${custom_env.FrozenLakeThink}
diff --git a/examples/qwen2.5-0.5B-agentic/agentic_val_sokoban_dynamic_batching.yaml b/examples/qwen2.5-0.5B-agentic/agentic_val_sokoban_dynamic_batching.yaml
new file mode 100644
index 000000000..02d28f8c0
--- /dev/null
+++ b/examples/qwen2.5-0.5B-agentic/agentic_val_sokoban_dynamic_batching.yaml
@@ -0,0 +1,175 @@
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "agentic_pipeline"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+render_save_dir: ./output/render
+system_envs:
+  USE_MODELSCOPE: '1'
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll-agentic
+#  name: ${exp_name}_sokoban
+#  notes: "agentic_pipeline"
+#  tags:
+#    - agentic
+#    - roll
+#    - baseline
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: /data/oss_bucket_0/yali/llm/tensorboard/roll_exp/agentic_sokoban
+
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
+
+num_gpus_per_node: 8
+
+max_steps: 1024
+save_steps: 10000
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 1024
+val_batch_size: 1024
+sequence_length: 8192
+
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "grpo"
+#pg_clip: 0.1
+#dual_clip_loss: True
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+pretrain: Qwen/Qwen2.5-0.5B-Instruct
+reward_pretrain: Qwen/Qwen2.5-0.5B-Instruct
+
+actor_train:
+  system_envs:
+    NVTE_FLASH_ATTN: '1'
+    NVTE_FUSED_ATTN: '0'
+    NVTE_UNFUSED_ATTN: '0'
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 64
+    warmup_steps: 10
+    lr_scheduler_type: cosine
+  data_args:
+    template: qwen2_5
+  strategy_args:
+#    strategy_name: deepspeed_train
+#    strategy_config: ${deepspeed_zero3}
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+  use_dynamic_batching_in_train: true
+  max_tokens_per_microbatch_in_train: 8192
+  sequence_length_round_in_train: 128
+  use_dynamic_batching_in_infer: true
+  max_tokens_per_microbatch_in_infer: 16384
+  sequence_length_round_in_infer: 128
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 128 # single-turn response length
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+  device_mapping: list(range(0,8))
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config: ~
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+  use_dynamic_batching_in_infer: true
+  max_tokens_per_microbatch_in_infer: 16384
+  sequence_length_round_in_infer: 128
+
+reward_normalization:
+  grouping: traj_group_id # 可以tags(env_type)/traj_group_id(group)/batch(rollout_batch)... group_by计算reward/adv
+  method: mean_std # asym_clip / identity / mean_std
+
+train_env_manager:
+  format_penalty: -0.15 # sokoban env penalty_for_step=-0.1
+  max_env_num_per_worker: 16
+  num_env_groups: 128
+  # under the same group, the env config and env seed are ensured to be equal
+  group_size: 8
+  tags: [SimpleSokoban]
+  num_groups_partition: [128] # If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+val_env_manager:
+  max_env_num_per_worker: 32
+  num_env_groups: 1024
+  group_size: 1 # should be set to 1 because val temperature is set to 0 and same prompt leads to same output
+  tags: [SimpleSokoban, LargerSokoban, SokobanDifferentGridVocab, FrozenLake]
+  num_groups_partition: [256, 256, 256, 256] # TODO: If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+
+# Here, you can override variables defined in the imported envs. max_tokens_per_step: 128 in custom_env.SimpleSokoban, here replaced by 64
+max_tokens_per_step: 64
+
+custom_envs:
+  SimpleSokoban:
+    ${custom_env.SimpleSokoban}
+  LargerSokoban:
+    ${custom_env.LargerSokoban}
+  SokobanDifferentGridVocab:
+    ${custom_env.SokobanDifferentGridVocab}
+  FrozenLake:
+    ${custom_env.FrozenLake}
+  FrozenLakeThink:
+    ${custom_env.FrozenLakeThink}
diff --git a/examples/qwen2.5-0.5B-agentic/agentic_val_sokoban_lora.yaml b/examples/qwen2.5-0.5B-agentic/agentic_val_sokoban_lora.yaml
new file mode 100644
index 000000000..5dd3fe377
--- /dev/null
+++ b/examples/qwen2.5-0.5B-agentic/agentic_val_sokoban_lora.yaml
@@ -0,0 +1,169 @@
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "agentic_pipeline"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+render_save_dir: ./output/render
+system_envs:
+  USE_MODELSCOPE: '1'
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll-agentic
+#  name: ${exp_name}_sokoban
+#  notes: "agentic_pipeline"
+#  tags:
+#    - agentic
+#    - roll
+#    - baseline
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: /data/oss_bucket_0/yali/llm/tensorboard/roll_exp/agentic_sokoban
+
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
+
+num_gpus_per_node: 8
+
+max_steps: 1024
+save_steps: 10000
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 1024
+val_batch_size: 1024
+sequence_length: 8192
+
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "grpo"
+#pg_clip: 0.1
+#dual_clip_loss: True
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+pretrain: Qwen/Qwen2.5-0.5B-Instruct
+reward_pretrain: Qwen/Qwen2.5-0.5B-Instruct
+
+actor_train:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    lora_target: all-linear
+    lora_rank: 32
+    lora_alpha: 32
+  training_args:
+    learning_rate: 2.0e-5
+    weight_decay: 0
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 64
+    warmup_steps: 10
+    lr_scheduler_type: cosine
+  data_args:
+    template: qwen2_5
+  strategy_args:
+#    strategy_name: deepspeed_train
+#    strategy_config: ${deepspeed_zero3}
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    lora_target: q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj
+    lora_rank: 32
+    lora_alpha: 32
+  generating_args:
+    max_new_tokens: 128 # single-turn response length
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+  device_mapping: list(range(0,8))
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+reward_normalization:
+  grouping: traj_group_id # 可以tags(env_type)/traj_group_id(group)/batch(rollout_batch)... group_by计算reward/adv
+  method: mean_std # asym_clip / identity / mean_std
+
+train_env_manager:
+  format_penalty: -0.15 # sokoban env penalty_for_step=-0.1
+  max_env_num_per_worker: 16
+  num_env_groups: 128
+  # under the same group, the env config and env seed are ensured to be equal
+  group_size: 8
+  tags: [SimpleSokoban]
+  num_groups_partition: [128] # If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+val_env_manager:
+  max_env_num_per_worker: 32
+  num_env_groups: 1024
+  group_size: 1 # should be set to 1 because val temperature is set to 0 and same prompt leads to same output
+  tags: [SimpleSokoban, LargerSokoban, SokobanDifferentGridVocab, FrozenLake]
+  num_groups_partition: [256, 256, 256, 256] # TODO: If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+
+# Here, you can override variables defined in the imported envs. max_tokens_per_step: 128 in custom_env.SimpleSokoban, here replaced by 64
+max_tokens_per_step: 64
+
+custom_envs:
+  SimpleSokoban:
+    ${custom_env.SimpleSokoban}
+  LargerSokoban:
+    ${custom_env.LargerSokoban}
+  SokobanDifferentGridVocab:
+    ${custom_env.SokobanDifferentGridVocab}
+  FrozenLake:
+    ${custom_env.FrozenLake}
+  FrozenLakeThink:
+    ${custom_env.FrozenLakeThink}
diff --git a/examples/qwen2.5-0.5B-agentic/agentic_val_sokoban_native.yaml b/examples/qwen2.5-0.5B-agentic/agentic_val_sokoban_native.yaml
new file mode 100644
index 000000000..3483fac2b
--- /dev/null
+++ b/examples/qwen2.5-0.5B-agentic/agentic_val_sokoban_native.yaml
@@ -0,0 +1,175 @@
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "agentic_pipeline"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+render_save_dir: ./output/render
+system_envs:
+  USE_MODELSCOPE: '1'
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll-agentic
+#  name: ${exp_name}_sokoban
+#  notes: "agentic_pipeline"
+#  tags:
+#    - agentic
+#    - roll
+#    - baseline
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
+
+num_gpus_per_node: 8
+
+max_steps: 102400
+save_steps: 10000
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 1024
+val_batch_size: 256
+sequence_length: 8192
+async_generation_ratio: 1
+
+advantage_clip: 20
+ppo_epochs: 1
+adv_estimator: "step_reinforce"
+batch_adjust_mode: "copy"
+step_reward_gamma: 1.0
+
+#pg_clip: 0.1
+#dual_clip_loss: True
+init_kl_coef: 0.0
+whiten_advantages: false
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+reward_normalization:
+  grouping: traj_group_id
+#  method: mean
+  norm_mean_type: group
+  norm_std_type: batch
+
+
+pretrain: Qwen/Qwen2.5-0.5B-Instruct
+reward_pretrain: Qwen/Qwen2.5-0.5B-Instruct
+
+actor_train:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 128
+    warmup_steps: 20
+    lr_scheduler_type: cosine
+  data_args:
+    template: qwen2_5
+  strategy_args:
+#    strategy_name: deepspeed_train
+#    strategy_config: ${deepspeed_zero3}
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      bias_activation_fusion: true
+      apply_rope_fusion: true
+#      recompute_granularity: full
+  device_mapping: list(range(0,16))
+  infer_batch_size: 1
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${max_tokens_per_step} # single-turn response length
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+#      load_format: auto
+  device_mapping: list(range(16,24))
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(0,16))
+  infer_batch_size: 2
+
+train_env_manager:
+  max_env_num_per_worker: 16
+  num_env_groups: 128
+  # under the same group, the env config and env seed are ensured to be equal
+  group_size: 8
+  tags: [SokobanNativeEnv]
+  num_groups_partition: [128] # If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+val_env_manager:
+  max_env_num_per_worker: 32
+  num_env_groups: 256
+  group_size: 1 # should be set to 1 because val temperature is set to 0 and same prompt leads to same output
+  tags: [SokobanNativeEnv]
+  num_groups_partition: [256] # TODO: If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+
+# Here, you can override variables defined in the imported envs. max_tokens_per_step: 128 in custom_env.SimpleSokoban, here replaced by 64
+max_tokens_per_step: 128
+max_actions_per_traj: 10
+
+custom_envs:
+  SimpleSokoban:
+    ${custom_env.SimpleSokoban}
+  LargerSokoban:
+    ${custom_env.LargerSokoban}
+  SokobanDifferentGridVocab:
+    ${custom_env.SokobanDifferentGridVocab}
+  FrozenLake:
+    ${custom_env.FrozenLake}
+  SokobanNativeEnv:
+    env_type: "sokoban_native_env"
+    max_steps: ${max_actions_per_traj}
+    max_tokens_per_step: ${max_tokens_per_step}
+    env_manager_cls: roll.pipeline.agentic.env_manager.agent_native_env_manager.AgentNativeStepEnvManager
+    agent_system_template: "agent_system_template placeholder"
+    agent_template: "agent_template placeholder"
+    env_config:
+      max_steps: ${max_actions_per_traj}
+      format_penalty: -0.15
diff --git a/examples/qwen2.5-0.5B-agentic/agentic_val_sokoban_sandbox.yaml b/examples/qwen2.5-0.5B-agentic/agentic_val_sokoban_sandbox.yaml
new file mode 100644
index 000000000..df2feb840
--- /dev/null
+++ b/examples/qwen2.5-0.5B-agentic/agentic_val_sokoban_sandbox.yaml
@@ -0,0 +1,176 @@
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "agentic_pipeline"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+render_save_dir: ./output/render
+system_envs:
+  USE_MODELSCOPE: '1'
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll-agentic
+#  name: ${exp_name}_sokoban
+#  notes: "agentic_pipeline"
+#  tags:
+#    - agentic
+#    - roll
+#    - baseline
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: /data/oss_bucket_0/yali/llm/tensorboard/roll_exp/agentic_sokoban
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
+
+num_gpus_per_node: 8
+
+max_steps: 1024
+save_steps: 10000
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 1024
+val_batch_size: 1024
+sequence_length: 8192
+
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "grpo"
+#pg_clip: 0.1
+#dual_clip_loss: True
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+pretrain: Qwen/Qwen2.5-0.5B-Instruct
+reward_pretrain: Qwen/Qwen2.5-0.5B-Instruct
+
+actor_train:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 64
+    warmup_steps: 10
+    lr_scheduler_type: cosine
+  data_args:
+    template: qwen2_5
+  strategy_args:
+#    strategy_name: deepspeed_train
+#    strategy_config: ${deepspeed_zero3}
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 128 # single-turn response length
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+  device_mapping: list(range(0,8))
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+reward_normalization:
+  grouping: traj_group_id # 可以tags(env_type)/traj_group_id(group)/batch(rollout_batch)... group_by计算reward/adv
+  method: mean_std # asym_clip / identity / mean_std
+
+train_env_manager:
+  format_penalty: -0.15 # sokoban env penalty_for_step=-0.1
+  max_env_num_per_worker: 16
+  num_env_groups: 128
+  # under the same group, the env config and env seed are ensured to be equal
+  group_size: 8
+  tags: [SokobanSandbox]
+  num_groups_partition: [128] # If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+val_env_manager:
+  max_env_num_per_worker: 32
+  num_env_groups: 1024
+  group_size: 1 # should be set to 1 because val temperature is set to 0 and same prompt leads to same output
+  tags: [SimpleSokoban, LargerSokoban, SokobanDifferentGridVocab, FrozenLake]
+  num_groups_partition: [256, 256, 256, 256] # TODO: If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+# Here, you can override variables defined in the imported envs. max_tokens_per_step: 128 in custom_env.SimpleSokoban, here replaced by 64
+max_tokens_per_step: 64
+
+custom_envs:
+  SimpleSokoban:
+    ${custom_env.SimpleSokoban}
+  LargerSokoban:
+    ${custom_env.LargerSokoban}
+  SokobanDifferentGridVocab:
+    ${custom_env.SokobanDifferentGridVocab}
+  FrozenLake:
+    ${custom_env.FrozenLake}
+  FrozenLakeThink:
+    ${custom_env.FrozenLakeThink}
+  SokobanSandbox:    
+    env_type: sokoban_sandbox
+    max_steps: ${max_actions_per_traj}
+    max_tokens_per_step: ${max_tokens_per_step}
+    env_manager_cls: ${env_manager_cls}
+    use_thread_lock: true
+    agent_system_template: "You are an expert Sokoban-playing agent. Your only task is to output the next action like <answer>Right</answer>. Do not output any other text, reasoning, or explanations."
+    agent_template: |
+      Current State:
+      {observation}
+      Turn {turn_idx}:
+      {suffix}
+      Respond with one action from the available list.
+      Format: <answer>ACTION</answer>
+      Choose your action.
\ No newline at end of file
diff --git a/examples/qwen2.5-0.5B-agentic/submit_pipeline_amd.sh b/examples/qwen2.5-0.5B-agentic/submit_pipeline_amd.sh
deleted file mode 100644
index 54d095440..000000000
--- a/examples/qwen2.5-0.5B-agentic/submit_pipeline_amd.sh
+++ /dev/null
@@ -1,49 +0,0 @@
-#!/bin/bash
-set +x
-source "examples/scripts/config.sh"
-
-WORKER_COUNT=1
-CONFIG_FILE="agent_val_frozen_lake_amd.yaml"
-# 替换为mos uri
-NEBULA_MODEL=""
-ENTRY_FILE="examples/start_agentic_pipeline.py"
-
-CONFIG_PATH=$(basename $(dirname $0))
-CONFIG_NAME="${CONFIG_FILE%.yaml}"
-JOB_NAME="$CONFIG_PATH-$CONFIG_NAME"
-
-
-QUEUE="nebula_test2_308x_gpu_hang"
-# QUEUE="nebula_test_308x"
-ENVS="NCCL_PF_UCM_TIMEOUT=600000,NCCL_SOCKET_IFNAME=bond0"
-# ENVS="NCCL_PF_UCM_TIMEOUT=600000"
-
-echo "JOB_NAME: ${JOB_NAME}"
-echo "WORKER_COUNT: ${WORKER_COUNT}"
-echo "CONFIG_NAME: ${CONFIG_NAME}"
-echo "CONFIG_PATH: ${CONFIG_PATH}"
-echo "ENTRY_FILE: ${ENTRY_FILE}"
-
-args="--config_name ${CONFIG_NAME} --config_path ${CONFIG_PATH}"
-
-mdl_args="--queue=${QUEUE} \
-        --entry=${ENTRY_FILE} \
-        --worker_count=${WORKER_COUNT}  \
-        --file.cluster_file=examples/scripts/cluster.json \
-        --job_name=${JOB_NAME} \
-        --algo_name=pytorch280 \
-        --requirements_file_name=nebula_patch/requirements/requirements_torch280_vllm_amd.txt \
-        --oss_appendable=true \
-        --_NEBULA_MODEL=${NEBULA_MODEL} \
-        --nebula_model=${NEBULA_MODEL} \
-        --env=${ENVS} \
-        --force \
-        "
-if [ -n "${OPENLM_TOKEN}" ]; then
-    mdl_args="${mdl_args} --env=OPENLM_TOKEN=${OPENLM_TOKEN}"
-fi
-
-echo ${args}
-echo ${mdl_args}
-
-nebulactl run mdl --user_params="${args}" $mdl_args
diff --git a/examples/qwen2.5-0.5B-agentic/submit_pipeline_amd_async.sh b/examples/qwen2.5-0.5B-agentic/submit_pipeline_amd_async.sh
deleted file mode 100644
index aa06c2054..000000000
--- a/examples/qwen2.5-0.5B-agentic/submit_pipeline_amd_async.sh
+++ /dev/null
@@ -1,49 +0,0 @@
-#!/bin/bash
-set +x
-source "examples/scripts/config.sh"
-
-WORKER_COUNT=1
-CONFIG_FILE="agent_val_frozen_lake_async_amd.yaml"
-# 替换为mos uri
-NEBULA_MODEL=""
-ENTRY_FILE="examples/start_agentic_pipeline.py"
-
-CONFIG_PATH=$(basename $(dirname $0))
-CONFIG_NAME="${CONFIG_FILE%.yaml}"
-JOB_NAME="$CONFIG_PATH-$CONFIG_NAME"
-
-
-QUEUE="nebula_test2_308x_gpu_hang"
-# QUEUE="nebula_test_308x"
-ENVS="NCCL_PF_UCM_TIMEOUT=600000,NCCL_SOCKET_IFNAME=bond0"
-# ENVS="NCCL_PF_UCM_TIMEOUT=600000"
-
-echo "JOB_NAME: ${JOB_NAME}"
-echo "WORKER_COUNT: ${WORKER_COUNT}"
-echo "CONFIG_NAME: ${CONFIG_NAME}"
-echo "CONFIG_PATH: ${CONFIG_PATH}"
-echo "ENTRY_FILE: ${ENTRY_FILE}"
-
-args="--config_name ${CONFIG_NAME} --config_path ${CONFIG_PATH}"
-
-mdl_args="--queue=${QUEUE} \
-        --entry=${ENTRY_FILE} \
-        --worker_count=${WORKER_COUNT}  \
-        --file.cluster_file=examples/scripts/cluster.json \
-        --job_name=${JOB_NAME} \
-        --algo_name=pytorch280 \
-        --requirements_file_name=nebula_patch/requirements/requirements_torch280_vllm_amd.txt \
-        --oss_appendable=true \
-        --_NEBULA_MODEL=${NEBULA_MODEL} \
-        --nebula_model=${NEBULA_MODEL} \
-        --env=${ENVS} \
-        --force \
-        "
-if [ -n "${OPENLM_TOKEN}" ]; then
-    mdl_args="${mdl_args} --env=OPENLM_TOKEN=${OPENLM_TOKEN}"
-fi
-
-echo ${args}
-echo ${mdl_args}
-
-nebulactl run mdl --user_params="${args}" $mdl_args
diff --git a/examples/qwen2.5-7B-agentic_megatron/run_agentic_pipeline_webshop.sh b/examples/qwen2.5-7B-agentic_megatron/run_agentic_pipeline_webshop.sh
old mode 100644
new mode 100755
diff --git a/examples/qwen2.5-7B-rlvr-offpolicy/rlvr_config.yaml b/examples/qwen2.5-7B-rlvr-offpolicy/rlvr_config.yaml
index ba8d6bde9..2f9e023f2 100644
--- a/examples/qwen2.5-7B-rlvr-offpolicy/rlvr_config.yaml
+++ b/examples/qwen2.5-7B-rlvr-offpolicy/rlvr_config.yaml
@@ -15,9 +15,11 @@ checkpoint_config:
   type: file_system
   output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
 
+
+
 # track_with: wandb
 # tracker_kwargs:
-#  api_key: xxx
+#  api_key: xxxx
 #  project: roll_examples
 #  name: ${exp_name}
 #  notes: roll_examples
diff --git a/examples/qwen2.5-7B-rlvr-offpolicy/run_rlvr_pipeline.sh b/examples/qwen2.5-7B-rlvr-offpolicy/run_rlvr_pipeline.sh
old mode 100644
new mode 100755
diff --git a/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_8gpus_llm_as_judge.yaml b/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_8gpus_llm_as_judge.yaml
new file mode 100644
index 000000000..d1b1f839f
--- /dev/null
+++ b/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_8gpus_llm_as_judge.yaml
@@ -0,0 +1,199 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen2.5-7B-rlvr-config"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+system_envs:
+  USE_MODELSCOPE: '1'
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll_examples
+#  notes: roll_examples
+#  tags:
+#    - rlvr
+#    - baseline
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: /data/oss_bucket_0/rl_examples/llm/tensorboard/roll_exp/rlvr
+
+num_gpus_per_node: 8
+
+max_steps: 500
+save_steps: 100
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+async_generation_ratio: 0
+
+rollout_batch_size: 64  # prompt
+prompt_length: 2048
+response_length: 4096
+
+num_return_sequences_in_group: 8
+ppo_epochs: 1
+adv_estimator: "reinforce"
+
+# clip
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 2.0
+dual_clip_loss: true
+
+# normalize
+norm_mean_type: ~
+norm_std_type: ~
+
+# data mask
+max_len_mask: true
+difficulty_mask: true
+difficulty_low_threshold: 0.1
+difficulty_high_threshold: 0.95
+error_max_len_clip: false
+
+# data weight
+difficulty_loss_weight: false
+length_loss_weight: false
+
+# reward
+add_token_level_kl: false
+
+# advantage
+whiten_advantages: true
+
+# dynamic sampling scheduler
+# use_additional_prompts: true
+# max_running_requests: 256
+# is_num_return_sequences_expand: false
+global_template: qwen2_5
+
+pretrain: Qwen/Qwen2.5-7B
+reward_pretrain: Qwen/Qwen2.5-7B
+
+# validation:
+#   data_args:
+#     template: qwen2_5
+#     file_name:
+#       - data/math_benchmarks.jsonl
+#   generating_args:
+#     max_new_tokens: ${response_length}
+#     top_p: 0.6
+#     top_k: 50
+#     num_beams: 1
+#     temperature: 0.6
+#     num_return_sequences: 1
+
+
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 64
+    warmup_steps: 20
+    num_train_epochs: 50
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/llm_judge_Multi-subject-RLVR_deal_new.jsonl
+    domain_interleave_probs:
+      llm_judge: 1.0
+    dataset_dir: data
+    messages: messages
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  device_mapping: list(range(0,8))
+  infer_batch_size: 4
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 8000
+      load_format: auto
+  device_mapping: list(range(0,6))
+  infer_batch_size: 1
+
+reference:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+  device_mapping: list(range(0,8))
+  infer_batch_size: 8
+
+rewards:
+  llm_judge:
+    # NOTE: llm as judge 也需要gpu, 不能和actor infer共享gpu
+    worker_cls: roll.pipeline.rlvr.rewards.llm_judge_reward_worker.LLMJudgeRewardWorker
+    judge_prompt: Qwen2.5-7B-Instruct-RLVR-prompt
+    judge_model_type: inference
+    tag_included: [RLVR]
+    model_args:
+      model_name_or_path: ${pretrain}
+      attn_implementation: fa2
+      disable_gradient_checkpointing: true
+      dtype: bf16
+      model_type: trl
+    generating_args:
+      max_new_tokens: 512
+      temperature: 0.3
+      num_return_sequences: 1
+    data_args:
+      template: qwen2_5
+    strategy_args:
+      # strategy_name: hf_infer
+      # strategy_config: null
+      strategy_name: vllm
+      strategy_config:
+        gpu_memory_utilization: 0.85
+        enforce_eager: false
+        block_size: 16
+        max_model_len: 8192
+        load_format: auto
+    device_mapping: list(range(6,8))
+    infer_batch_size: 4
diff --git a/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_8gpus_llm_as_judge_server.yaml b/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_8gpus_llm_as_judge_server.yaml
new file mode 100644
index 000000000..f16e18cde
--- /dev/null
+++ b/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_8gpus_llm_as_judge_server.yaml
@@ -0,0 +1,206 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen2.5-7B-rlvr-config"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+system_envs:
+  USE_MODELSCOPE: '1'
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll_examples
+#  notes: roll_examples
+#  tags:
+#    - rlvr
+#    - baseline
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: /data/oss_bucket_0/rl_examples/llm/tensorboard/roll_exp/rlvr
+
+num_gpus_per_node: 8
+
+max_steps: 500
+save_steps: 100
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+async_generation_ratio: 0
+
+rollout_batch_size: 64  # prompt
+prompt_length: 2048
+response_length: 4096
+
+num_return_sequences_in_group: 8
+ppo_epochs: 1
+adv_estimator: "reinforce"
+
+# clip
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 2.0
+dual_clip_loss: true
+
+# normalize
+norm_mean_type: ~
+norm_std_type: ~
+
+# data mask
+max_len_mask: true
+difficulty_mask: true
+difficulty_low_threshold: 0.1
+difficulty_high_threshold: 0.95
+error_max_len_clip: false
+
+# data weight
+difficulty_loss_weight: false
+length_loss_weight: false
+
+# reward
+add_token_level_kl: false
+
+# advantage
+whiten_advantages: true
+
+# dynamic sampling scheduler
+# use_additional_prompts: true
+# max_running_requests: 256
+# is_num_return_sequences_expand: false
+global_template: qwen2_5
+
+pretrain: Qwen/Qwen2.5-7B
+reward_pretrain: Qwen/Qwen2.5-7B
+
+# validation:
+#   data_args:
+#     template: qwen2_5
+#     file_name:
+#       - data/math_benchmarks.jsonl
+#   generating_args:
+#     max_new_tokens: ${response_length}
+#     top_p: 0.6
+#     top_k: 50
+#     num_beams: 1
+#     temperature: 0.6
+#     num_return_sequences: 1
+
+
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 64
+    warmup_steps: 20
+    num_train_epochs: 50
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/llm_judge_Multi-subject-RLVR_deal_new.jsonl
+    domain_interleave_probs:
+      llm_judge: 1.0
+    dataset_dir: data
+    messages: messages
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  device_mapping: list(range(0,8))
+  infer_batch_size: 4
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 8000
+      load_format: auto
+  device_mapping: list(range(0,6))
+  infer_batch_size: 1
+
+reference:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+  device_mapping: list(range(0,8))
+  infer_batch_size: 8
+
+rewards:
+  llm_judge:
+    worker_cls: roll.pipeline.rlvr.rewards.llm_judge_reward_worker.LLMJudgeRewardWorker
+    judge_model_type: cluster
+    tag_included: [RLVR]
+    world_size: 32  # reward model下，可以把reward worker数量拉大，提高服务能力，GPU在reward model上，reward worker就是client了
+    judge_prompt: Qwen2.5-7B-Instruct-RLVR-prompt
+    model_args:
+      model_name_or_path: ${pretrain}
+    generating_args:
+      max_new_tokens: 512
+      temperature: 0.3
+      num_return_sequences: 1
+    data_args:
+      template: native
+
+reward_model:
+  name: reward_llm
+  worker_cls: roll.pipeline.base_worker.InferWorker
+  model_args:
+    model_name_or_path: ${rewards.llm_judge.model_args.model_name_or_path}
+    attn_implementation: fa2
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 512
+    temperature: 0.3
+    num_return_sequences: 1
+  data_args:
+    template: native
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.85
+      enforce_eager: false
+      max_model_len: 8192
+      tensor_parallel_size: 1
+      load_format: auto
+  device_mapping: "[6, 7]"
diff --git a/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_amd_async.yaml b/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_amd_async.yaml
index 579245ad3..370cbff2f 100644
--- a/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_amd_async.yaml
+++ b/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_amd_async.yaml
@@ -14,8 +14,6 @@ checkpoint_config:
   type: file_system
   output_dir: /data/cpfs_0/rl_examples/lzc/models/${exp_name}
 
-track_with: ml_tracker
-
 num_gpus_per_node: 8
 
 max_steps: 1000
diff --git a/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_lora.yaml b/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_lora.yaml
new file mode 100644
index 000000000..e1bef22a8
--- /dev/null
+++ b/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_lora.yaml
@@ -0,0 +1,265 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen2.5-7B-rlvr-lora-config"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+system_envs:
+  USE_MODELSCOPE: '1'
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll_examples
+#  notes: roll_examples
+#  tags:
+#    - rlvr
+#    - baseline
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: /data/oss_bucket_0/rl_examples/llm/tensorboard/roll_exp/rlvr
+
+num_gpus_per_node: 8
+
+max_steps: 500
+save_steps: 500
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+
+rollout_batch_size: 128  # prompt
+prompt_length: 2048
+response_length: 4096
+
+num_return_sequences_in_group: 8
+ppo_epochs: 1
+adv_estimator: "reinforce"
+
+# clip
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 2.0
+dual_clip_loss: true
+
+# normalize
+norm_mean_type: ~
+norm_std_type: ~
+
+# data mask
+max_len_mask: true
+difficulty_mask: true
+difficulty_low_threshold: 0.1
+difficulty_high_threshold: 0.95
+error_max_len_clip: false
+
+# data weight
+difficulty_loss_weight: false
+length_loss_weight: false
+
+# reward
+add_token_level_kl: false
+
+# advantage
+whiten_advantages: true
+
+# dynamic sampling scheduler
+# use_additional_prompts: true
+# max_running_requests: 256
+# is_num_return_sequences_expand: false
+global_template: qwen2_5
+
+pretrain: Qwen/Qwen2.5-7B
+reward_pretrain: Qwen/Qwen2.5-7B
+
+validation:
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/math_benchmarks.jsonl
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.6
+    top_k: 50
+    num_beams: 1
+    temperature: 0.6
+    num_return_sequences: 1
+
+
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    lora_target: all-linear
+    lora_rank: 64
+    lora_alpha: 64
+  training_args:
+    learning_rate: 1.0e-5
+    weight_decay: 0
+    per_device_train_batch_size: 4
+    gradient_accumulation_steps: 32
+    warmup_steps: 20
+    num_train_epochs: 50
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/code_KodCode_data.jsonl
+      - data/llm_judge_Multi-subject-RLVR_deal_new.jsonl
+      - data/math_deepmath_deal.jsonl
+      - data/general_ifeval_train_deal.jsonl
+      - data/general_CrossThink-QA_deal.jsonl
+    domain_interleave_probs:
+      math_rule: 0.4
+      code_sandbox: 0.3
+      llm_judge: 0.1
+      crossthinkqa: 0.1
+      ifeval: 0.1
+    dataset_dir: data
+    messages: messages
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  device_mapping: list(range(0,8))
+  infer_batch_size: 4
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    lora_target: q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj
+    lora_rank: 64
+    lora_alpha: 64
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 8192
+      load_format: auto
+  device_mapping: list(range(0,6))
+  infer_batch_size: 2
+
+reference:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+  device_mapping: list(range(0,8))
+  infer_batch_size: 8
+
+rewards:
+  crossthinkqa:
+    worker_cls: roll.pipeline.rlvr.rewards.crossthinkqa_rule_reward_worker.CrossThinkQARuleRewardWorker
+    reward_type: soft
+    response_length_penalty_coef: 0.0
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [crossthinkqa]
+    world_size: 8
+    infer_batch_size: 4
+  ifeval:
+    worker_cls: roll.pipeline.rlvr.rewards.ifeval_rule_reward_worker.GeneralRuleRewardWorker
+    reward_type: soft
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [ifeval]
+    world_size: 8
+    infer_batch_size: 4
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [deepmath_103k, aime]
+    world_size: 8
+    infer_batch_size: 1
+# dynamic filter config
+#    query_filter_config:
+#      type: mean_filter
+#      filter_args:
+#        threshold_up: 0.9
+#        threshold_down: 0.1
+  code_sandbox:
+    use_local: true
+    worker_cls: roll.pipeline.rlvr.rewards.code_sandbox_reward_worker.CodeSandboxRewardWorker
+    tag_included: [KodCode]
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    world_size: 8
+    infer_batch_size: 1
+#    query_filter_config:
+#      type: std_filter
+#      filter_args:
+#        std_threshold: 0
+  llm_judge:
+    # NOTE: llm as judge 也需要gpu, 不能和actor infer共享gpu
+    worker_cls: roll.pipeline.rlvr.rewards.llm_judge_reward_worker.LLMJudgeRewardWorker
+    judge_prompt: Qwen2.5-7B-Instruct-RLVR-prompt
+    judge_model_type: inference
+    tag_included: [RLVR]
+    model_args:
+      model_name_or_path: virtuoussy/Qwen2.5-7B-Instruct-RLVR
+      attn_implementation: fa2
+      disable_gradient_checkpointing: true
+      dtype: bf16
+      model_type: trl
+    generating_args:
+      max_new_tokens: 100
+      top_p: 0.8
+      top_k: 50
+      num_beams: 1
+      temperature: 0.8
+      num_return_sequences: 1
+    data_args:
+      template: qwen2_5
+    strategy_args:
+      # strategy_name: hf_infer
+      # strategy_config: null
+      strategy_name: vllm
+      strategy_config:
+        gpu_memory_utilization: 0.8
+        block_size: 16
+        max_model_len: 10000
+        load_format: auto
+    device_mapping: list(range(6,8))
+    infer_batch_size: 4
\ No newline at end of file
diff --git a/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_sequence_packing.yaml b/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_sequence_packing.yaml
new file mode 100644
index 000000000..4693c2dd5
--- /dev/null
+++ b/examples/qwen2.5-7B-rlvr_megatron/rlvr_config_sequence_packing.yaml
@@ -0,0 +1,273 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen2.5-7B-rlvr-config"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+system_envs:
+  USE_MODELSCOPE: '1'
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll_examples
+#  notes: roll_examples
+#  tags:
+#    - rlvr
+#    - baseline
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: /data/oss_bucket_0/rl_examples/llm/tensorboard/roll_exp/rlvr
+
+num_gpus_per_node: 8
+
+max_steps: 500
+save_steps: 100
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+
+rollout_batch_size: 64  # prompt
+prompt_length: 2048
+response_length: 4096
+
+num_return_sequences_in_group: 8
+ppo_epochs: 1
+adv_estimator: "reinforce"
+
+# clip
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 2.0
+dual_clip_loss: true
+
+# normalize
+norm_mean_type: ~
+norm_std_type: ~
+
+# data mask
+max_len_mask: true
+difficulty_mask: true
+difficulty_low_threshold: 0.1
+difficulty_high_threshold: 0.95
+error_max_len_clip: false
+
+# data weight
+difficulty_loss_weight: false
+length_loss_weight: false
+
+# reward
+add_token_level_kl: false
+
+# advantage
+whiten_advantages: true
+
+# dynamic sampling scheduler
+# use_additional_prompts: true
+# max_running_requests: 256
+# is_num_return_sequences_expand: false
+global_template: qwen2_5
+
+pretrain: Qwen/Qwen2.5-7B
+reward_pretrain: Qwen/Qwen2.5-7B
+
+validation:
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/math_benchmarks.jsonl
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.6
+    top_k: 50
+    num_beams: 1
+    temperature: 0.6
+    num_return_sequences: 1
+
+
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 64
+    warmup_steps: 20
+    num_train_epochs: 50
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/code_KodCode_data.jsonl
+      - data/llm_judge_Multi-subject-RLVR_deal_new.jsonl
+      - data/math_deepmath_deal.jsonl
+      - data/general_ifeval_train_deal.jsonl
+      - data/general_CrossThink-QA_deal.jsonl
+    domain_interleave_probs:
+      math_rule: 0.4
+      code_sandbox: 0.3
+      llm_judge: 0.1
+      crossthinkqa: 0.1
+      ifeval: 0.1
+    dataset_dir: data
+    messages: messages
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  use_sequence_packing: True
+  sequence_packing_args:
+    algorithm: load_balance
+    max_packed_sequence_length_train: 8192
+    max_packed_sequence_length_forward: 8192
+    min_num_micro_batches_train: 1
+    min_num_micro_batches_forward: 1
+  device_mapping: list(range(0,8))
+  infer_batch_size: 4
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 8000
+      load_format: auto
+  device_mapping: list(range(0,6))
+  infer_batch_size: 1
+
+reference:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+  use_sequence_packing: True
+  sequence_packing_args:
+    algorithm: load_balance
+    max_packed_sequence_length_train: 8192
+    max_packed_sequence_length_forward: 8192
+    min_num_micro_batches_train: 1
+    min_num_micro_batches_forward: 1
+  device_mapping: list(range(0,8))
+  infer_batch_size: 8
+
+rewards:
+  crossthinkqa:
+    worker_cls: roll.pipeline.rlvr.rewards.crossthinkqa_rule_reward_worker.CrossThinkQARuleRewardWorker
+    reward_type: soft
+    response_length_penalty_coef: 0.0
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [crossthinkqa]
+    world_size: 8
+    infer_batch_size: 4
+  ifeval:
+    worker_cls: roll.pipeline.rlvr.rewards.ifeval_rule_reward_worker.GeneralRuleRewardWorker
+    reward_type: soft
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [ifeval]
+    world_size: 8
+    infer_batch_size: 4
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [deepmath_103k, aime]
+    world_size: 8
+    infer_batch_size: 1
+# dynamic filter config
+#    query_filter_config:
+#      type: mean_filter
+#      filter_args:
+#        threshold_up: 0.9
+#        threshold_down: 0.1
+  code_sandbox:
+    use_local: true
+    worker_cls: roll.pipeline.rlvr.rewards.code_sandbox_reward_worker.CodeSandboxRewardWorker
+    tag_included: [KodCode]
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    world_size: 8
+    infer_batch_size: 1
+#    query_filter_config:
+#      type: std_filter
+#      filter_args:
+#        std_threshold: 0
+  llm_judge:
+    # NOTE: llm as judge 也需要gpu, 不能和actor infer共享gpu
+    worker_cls: roll.pipeline.rlvr.rewards.llm_judge_reward_worker.LLMJudgeRewardWorker
+    judge_prompt: Qwen2.5-7B-Instruct-RLVR-prompt
+    judge_model_type: inference
+    tag_included: [RLVR]
+    model_args:
+      model_name_or_path: virtuoussy/Qwen2.5-7B-Instruct-RLVR
+      attn_implementation: fa2
+      disable_gradient_checkpointing: true
+      dtype: bf16
+      model_type: trl
+    generating_args:
+      max_new_tokens: 100
+      top_p: 0.8
+      top_k: 50
+      num_beams: 1
+      temperature: 0.8
+      num_return_sequences: 1
+    data_args:
+      template: qwen2_5
+    strategy_args:
+      # strategy_name: hf_infer
+      # strategy_config: null
+      strategy_name: vllm
+      strategy_config:
+        gpu_memory_utilization: 0.8
+        block_size: 16
+        max_model_len: 8000
+        load_format: auto
+    device_mapping: list(range(6,8))
+    infer_batch_size: 4
\ No newline at end of file
diff --git a/examples/qwen2.5-7B-rlvr_megatron/rlvr_rollout_mock_dump.yaml b/examples/qwen2.5-7B-rlvr_megatron/rlvr_rollout_mock_dump.yaml
new file mode 100644
index 000000000..045829326
--- /dev/null
+++ b/examples/qwen2.5-7B-rlvr_megatron/rlvr_rollout_mock_dump.yaml
@@ -0,0 +1,166 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "rlvr_precision_test_dump"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+system_envs:
+  USE_MODELSCOPE: '1'
+
+checkpoint_config:
+  type: file_system
+  output_dir: ./output/models/${exp_name}
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: ./output/tensorboard
+
+num_gpus_per_node: 8
+
+max_steps: 20
+save_steps: 10000
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+# Rollout Mock Configuration - DUMP MODE
+rollout_mock:
+  enable: true
+  mode: dump
+  dump_dir: ./output/rollout_dumps/rlvr_baseline_v1
+
+rollout_batch_size: 8  # prompt
+prompt_length: 2048
+response_length: 4096
+
+num_return_sequences_in_group: 8
+ppo_epochs: 1
+adv_estimator: "reinforce"
+
+# clip
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 2.0
+dual_clip_loss: true
+
+# normalize
+norm_mean_type: ~
+norm_std_type: ~
+
+# data mask
+max_len_mask: true
+difficulty_mask: true
+difficulty_low_threshold: 0.1
+difficulty_high_threshold: 0.95
+error_max_len_clip: false
+
+# data weight
+difficulty_loss_weight: false
+length_loss_weight: false
+
+# reward
+add_token_level_kl: false
+
+# advantage
+whiten_advantages: true
+
+pretrain: Qwen/Qwen2.5-7B
+reward_pretrain: Qwen/Qwen2.5-7B
+
+validation:
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/math_benchmarks.jsonl
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.6
+    top_k: 50
+    num_beams: 1
+    temperature: 0.6
+    num_return_sequences: 1
+
+
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 8
+    num_train_epochs: 50
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/math_deepmath_deal.jsonl
+    domain_interleave_probs:
+      math_rule: 1
+    dataset_dir: data
+    messages: messages
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  device_mapping: list(range(0,8))
+  infer_batch_size: 1
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 8000
+  device_mapping: list(range(0,8))
+  infer_batch_size: 1
+
+reference:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 1
+  device_mapping: list(range(0,8))
+  infer_batch_size: 1
+
+rewards:
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [deepmath_103k, aime]
+    world_size: 8
+    infer_batch_size: 1
diff --git a/examples/qwen2.5-7B-rlvr_megatron/submit_pipeline_amd_async.sh b/examples/qwen2.5-7B-rlvr_megatron/submit_pipeline_amd_async.sh
deleted file mode 100644
index 484218310..000000000
--- a/examples/qwen2.5-7B-rlvr_megatron/submit_pipeline_amd_async.sh
+++ /dev/null
@@ -1,49 +0,0 @@
-#!/bin/bash
-set +x
-source "examples/scripts/config.sh"
-
-WORKER_COUNT=3
-CONFIG_FILE="rlvr_config_amd_async.yaml"
-# 替换为mos uri
-NEBULA_MODEL=""
-ENTRY_FILE="examples/start_rlvr_pipeline.py"
-
-CONFIG_PATH=$(basename $(dirname $0))
-CONFIG_NAME="${CONFIG_FILE%.yaml}"
-JOB_NAME="$CONFIG_PATH-$CONFIG_NAME"
-
-
-QUEUE="nebula_test2_308x_gpu_hang"
-# QUEUE="nebula_test_308x"
-ENVS="NCCL_PF_UCM_TIMEOUT=600000,NCCL_SOCKET_IFNAME=bond0"
-# ENVS="NCCL_PF_UCM_TIMEOUT=600000"
-
-echo "JOB_NAME: ${JOB_NAME}"
-echo "WORKER_COUNT: ${WORKER_COUNT}"
-echo "CONFIG_NAME: ${CONFIG_NAME}"
-echo "CONFIG_PATH: ${CONFIG_PATH}"
-echo "ENTRY_FILE: ${ENTRY_FILE}"
-
-args="--config_name ${CONFIG_NAME} --config_path ${CONFIG_PATH}"
-
-mdl_args="--queue=${QUEUE} \
-        --entry=${ENTRY_FILE} \
-        --worker_count=${WORKER_COUNT}  \
-        --file.cluster_file=examples/scripts/cluster.json \
-        --job_name=${JOB_NAME} \
-        --algo_name=pytorch280 \
-        --requirements_file_name=nebula_patch/requirements/requirements_torch280_vllm_amd.txt \
-        --oss_appendable=true \
-        --_NEBULA_MODEL=${NEBULA_MODEL} \
-        --nebula_model=${NEBULA_MODEL} \
-        --env=${ENVS} \
-        --force \
-        "
-if [ -n "${OPENLM_TOKEN}" ]; then
-    mdl_args="${mdl_args} --env=OPENLM_TOKEN=${OPENLM_TOKEN}"
-fi
-
-echo ${args}
-echo ${mdl_args}
-
-nebulactl run mdl --user_params="${args}" $mdl_args
diff --git a/examples/qwen2.5-vl-7B-distill/distill_vl_zero3.yaml b/examples/qwen2.5-vl-7B-distill/distill_vl_zero3.yaml
index ac91a5687..b81355bbc 100644
--- a/examples/qwen2.5-vl-7B-distill/distill_vl_zero3.yaml
+++ b/examples/qwen2.5-vl-7B-distill/distill_vl_zero3.yaml
@@ -18,6 +18,7 @@ checkpoint_config:
   type: file_system
   output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
 
+
 save_steps: 100
 logging_steps: 1
 resume_from_checkpoint: false
diff --git a/examples/qwen2.5-vl-7B-math/rlvr_math_lora.yaml b/examples/qwen2.5-vl-7B-math/rlvr_math_lora.yaml
deleted file mode 100644
index cfbbcccf6..000000000
--- a/examples/qwen2.5-vl-7B-math/rlvr_math_lora.yaml
+++ /dev/null
@@ -1,141 +0,0 @@
-defaults:
-  - ../config/deepspeed_zero@_here_
-  - ../config/deepspeed_zero2@_here_
-  - ../config/deepspeed_zero3@_here_
-  - ../config/deepspeed_zero3_cpuoffload@_here_
-
-hydra:
-  run:
-    dir: .
-  output_subdir: null
-
-exp_name: "qwen2_5_vl_7B_math_config"
-seed: 42
-logging_dir: ./output/logs
-output_dir: ./output
-
-checkpoint_config:
-  type: file_system
-  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
-
-track_with: tensorboard
-tracker_kwargs:
-  log_dir: /data/oss_bucket_0/shidie/llm/tensorboard/roll_exp/rlvr_math
-
-save_steps: 20
-logging_steps: 1
-eval_steps: 1
-resume_from_checkpoint: false
-
-rollout_batch_size: 512
-num_return_sequences_in_group: 8
-is_num_return_sequences_expand: true
-prompt_length: 1024
-response_length: 4096
-generate_opt_level: 0
-
-ppo_epochs: 1
-value_clip: 0.5
-reward_clip: 10
-advantage_clip: 10.0
-whiten_advantages: false
-init_kl_coef: 0.0
-adv_estimator: "grpo"
-use_kl_loss: true
-kl_loss_coef: 1.0e-2
-
-# lora
-lora_target: o_proj,q_proj,k_proj,v_proj
-lora_rank: 32
-lora_alpha: 32
-
-pretrain: Qwen/Qwen2.5-VL-7B-Instruct
-
-actor_train:
-  model_args:
-    attn_implementation: fa2
-    # Recomputed tensor size does not match for LoRA with Zero3 when activating checkpointing, See https://github.com/huggingface/transformers/issues/34928 for details
-    disable_gradient_checkpointing: true
-    dtype: bf16
-    lora_target: ${lora_target}
-    lora_rank: ${lora_rank}
-    lora_alpha: ${lora_alpha}
-    model_type: ~
-  training_args:
-    learning_rate: 1.0e-5
-    weight_decay: 1.0e-2
-    per_device_train_batch_size: 1
-    gradient_accumulation_steps: 64
-    warmup_steps: 0
-    num_train_epochs: 50
-  data_args:
-    template: qwen2-vl
-    # use leonardPKU/GEOQA_R1V_Train_8K as dataset
-    # download to ./data/geoqa_data from https://huggingface.co/datasets/leonardPKU/GEOQA_R1V_Train_8K
-    file_name: ./data/geoqa_data/
-    dataset_dir: ./
-    preprocessing_num_workers: 16
-  strategy_args:
-    strategy_name: deepspeed_train
-    strategy_config: ${deepspeed_zero3}
-  device_mapping: list(range(0,16))
-  infer_batch_size: 8
-
-actor_infer:
-  model_args:
-    disable_gradient_checkpointing: true
-    dtype: bf16
-    lora_target: ${lora_target}
-    lora_rank: ${lora_rank}
-    lora_alpha: ${lora_alpha}
-  generating_args:
-    max_new_tokens: ${response_length}
-    top_p: 0.99
-    top_k: 100
-    num_beams: 1
-    temperature: 0.99
-    num_return_sequences: ${num_return_sequences_in_group}
-  data_args:
-    template: qwen2-vl
-  strategy_args:
-    strategy_name: vllm
-    strategy_config:
-      gpu_memory_utilization: 0.8
-      block_size: 16
-  num_gpus_per_worker: 1
-  device_mapping: list(range(0,16))
-  infer_batch_size: 32
-
-reference:
-  model_args:
-    attn_implementation: fa2
-    disable_gradient_checkpointing: true
-    dtype: bf16
-    # In transformers>=4.50.0, if model.from_pretrained with auto device_map, None
-    # tp_plan (and tp_plan of model is not None) and WORLD_SIZE>1, TP would be used.
-    # Thus using device_map=0 to disable HF transformers parallel, otherwise use
-    # zero3 for reference model
-    device_map: "cuda:0"
-    model_type: ~
-  data_args:
-    template: qwen2-vl
-  strategy_args:
-    strategy_name: hf_infer
-    strategy_config: ~
-  device_mapping: list(range(0,16))
-  infer_batch_size: 8
-
-rewards:
-  math_rule:
-    # vl pipeline support MathRuleRewardWorker only, at present.
-    # Support for rewards in other domains will be retained for future implementation.
-    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
-    model_args:
-      model_name_or_path: ${pretrain}
-    data_args:
-      template: qwen2-vl
-    strategy_args:
-      strategy_name: hf_infer
-      strategy_config: ~
-    world_size: 16
-    infer_batch_size: 4
\ No newline at end of file
diff --git a/examples/qwen2.5-vl-7B-math/rlvr_math_megatron.yaml b/examples/qwen2.5-vl-7B-math/rlvr_math_megatron.yaml
deleted file mode 100644
index fcd11abda..000000000
--- a/examples/qwen2.5-vl-7B-math/rlvr_math_megatron.yaml
+++ /dev/null
@@ -1,151 +0,0 @@
-defaults:
-  - ../config/deepspeed_zero@_here_
-  - ../config/deepspeed_zero2@_here_
-  - ../config/deepspeed_zero3@_here_
-  - ../config/deepspeed_zero3_cpuoffload@_here_
-
-hydra:
-  run:
-    dir: .
-  output_subdir: null
-
-exp_name: "qwen2_5_vl_7B_math_config"
-seed: 42
-logging_dir: ./output/logs
-output_dir: ./output
-
-checkpoint_config:
-  type: file_system
-  output_dir: /data/cpfs_0/yuzhao/models
-
-track_with: tensorboard
-tracker_kwargs:
-  log_dir: /data/oss_bucket_0/yuzhao/llm/tensorboard
-
-save_steps: 20
-logging_steps: 1
-eval_steps: 1
-resume_from_checkpoint: false
-
-rollout_batch_size: 512
-num_return_sequences_in_group: 8
-is_num_return_sequences_expand: true
-prompt_length: 1024
-response_length: 4096
-generate_opt_level: 0
-
-ppo_epochs: 1
-value_clip: 0.5
-reward_clip: 10
-advantage_clip: 10.0
-whiten_advantages: false
-init_kl_coef: 0.0
-adv_estimator: "grpo"
-use_kl_loss: true
-kl_loss_coef: 1.0e-2
-
-pretrain: Qwen/Qwen2.5-VL-7B-Instruct
-
-#validation:
-#  data_args:
-#    template: qwen2-vl
-#    file_name: ./data/geoqa_data/
-#    dataset_dir: ./
-#  generating_args:
-#    max_new_tokens: ${response_length}
-#    top_p: 0.99
-#    top_k: 100
-#    num_beams: 1
-#    temperature: 0.99
-#    num_return_sequences: 1
-#  eval_steps: 10
-
-actor_train:
-  model_args:
-    disable_gradient_checkpointing: false
-    dtype: bf16
-    model_type: ~
-  training_args:
-    learning_rate: 1.0e-6
-    weight_decay: 1.0e-2
-    per_device_train_batch_size: 4
-    gradient_accumulation_steps: 256
-    warmup_steps: 0
-    num_train_epochs: 50
-  data_args:
-    template: qwen2-vl
-    # use leonardPKU/GEOQA_R1V_Train_8K as dataset
-    # download to ./data/geoqa_data from https://huggingface.co/datasets/leonardPKU/GEOQA_R1V_Train_8K
-    file_name: ./data/geoqa_data/
-    dataset_dir: ./
-    preprocessing_num_workers: 16
-  strategy_args:
-    strategy_name: megatron_train
-    strategy_config:
-      sequence_parallel: true
-      tensor_model_parallel_size: 4
-      context_parallel_size: 1
-      expert_model_parallel_size: 1
-      pipeline_model_parallel_size: 1
-      overlap_grad_reduce: true
-      use_distributed_optimizer: true
-      bf16: true
-  device_mapping: list(range(0,16))
-  infer_batch_size: 8
-
-actor_infer:
-  model_args:
-    disable_gradient_checkpointing: true
-    dtype: bf16
-  generating_args:
-    max_new_tokens: ${response_length}
-    top_p: 0.99
-    top_k: 100
-    num_beams: 1
-    temperature: 0.99
-    num_return_sequences: ${num_return_sequences_in_group}
-  data_args:
-    template: qwen2-vl
-  strategy_args:
-    strategy_name: vllm
-    strategy_config:
-      gpu_memory_utilization: 0.9
-      block_size: 16
-      disable_mm_preprocessor_cache: true # RAM leak: https://github.com/vllm-project/vllm/issues/15085
-  num_gpus_per_worker: 1
-  device_mapping: list(range(0,16))
-  infer_batch_size: 32
-
-reference:
-  model_args:
-    disable_gradient_checkpointing: true
-    dtype: bf16
-    model_type: ~
-  data_args:
-    template: qwen2-vl
-  strategy_args:
-    strategy_name: megatron_infer
-    strategy_config:
-      sequence_parallel: true
-      tensor_model_parallel_size: 1
-      context_parallel_size: 1
-      pipeline_model_parallel_size: 1
-      expert_model_parallel_size: 1
-      bf16: true
-  device_mapping: list(range(0,16))
-  infer_batch_size: 8
-
-rewards:
-  # vl pipeline support MathRuleRewardWorker only, at present.
-  # Support for rewards in other domains will be retained for future implementation.
-  math_rule:
-    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
-    model_args:
-      model_name_or_path: ${pretrain}
-    data_args:
-      template: qwen2-vl
-    strategy_args:
-      strategy_name: hf_infer
-      strategy_config: ~
-    world_size: 16
-    infer_batch_size: 4
diff --git a/examples/qwen2.5-vl-7B-math/rlvr_math_zero3.yaml b/examples/qwen2.5-vl-7B-math/rlvr_math_zero3.yaml
deleted file mode 100644
index c520df3a4..000000000
--- a/examples/qwen2.5-vl-7B-math/rlvr_math_zero3.yaml
+++ /dev/null
@@ -1,129 +0,0 @@
-defaults:
-  - ../config/deepspeed_zero@_here_
-  - ../config/deepspeed_zero2@_here_
-  - ../config/deepspeed_zero3@_here_
-  - ../config/deepspeed_zero3_cpuoffload@_here_
-
-hydra:
-  run:
-    dir: .
-  output_subdir: null
-
-exp_name: "qwen2_5_vl_7B_math_config"
-seed: 42
-logging_dir: ./output/logs
-output_dir: ./output
-
-checkpoint_config:
-  type: file_system
-  output_dir: /data/cpfs_0/yuzhao/models
-
-track_with: tensorboard
-tracker_kwargs:
-  log_dir: /data/oss_bucket_0/yuzhao/llm/tensorboard
-
-save_steps: 20
-logging_steps: 1
-eval_steps: 1
-resume_from_checkpoint: false
-
-rollout_batch_size: 512
-num_return_sequences_in_group: 8
-is_num_return_sequences_expand: true
-prompt_length: 1024
-response_length: 4096
-generate_opt_level: 0
-
-ppo_epochs: 1
-value_clip: 0.5
-reward_clip: 10
-advantage_clip: 10.0
-whiten_advantages: false
-init_kl_coef: 0.0
-adv_estimator: "grpo"
-use_kl_loss: true
-kl_loss_coef: 1.0e-2
-
-pretrain: Qwen/Qwen2.5-VL-7B-Instruct
-
-actor_train:
-  model_args:
-    attn_implementation: fa2
-    disable_gradient_checkpointing: false
-    dtype: bf16
-    model_type: ~
-  training_args:
-    learning_rate: 1.0e-6
-    weight_decay: 1.0e-2
-    per_device_train_batch_size: 4
-    gradient_accumulation_steps: 64
-    warmup_steps: 0
-    num_train_epochs: 50
-  data_args:
-    template: qwen2-vl
-    # use leonardPKU/GEOQA_R1V_Train_8K as dataset
-    # download to ./data/geoqa_data from https://huggingface.co/datasets/leonardPKU/GEOQA_R1V_Train_8K
-    file_name: ./data/geoqa_data/
-    dataset_dir: ./
-    preprocessing_num_workers: 16
-  strategy_args:
-    strategy_name: deepspeed_train
-    strategy_config: ${deepspeed_zero3}
-  device_mapping: list(range(0,16))
-  infer_batch_size: 8
-
-actor_infer:
-  model_args:
-    disable_gradient_checkpointing: true
-    dtype: bf16
-  generating_args:
-    max_new_tokens: ${response_length}
-    top_p: 0.99
-    top_k: 100
-    num_beams: 1
-    temperature: 0.99
-    num_return_sequences: ${num_return_sequences_in_group}
-  data_args:
-    template: qwen2-vl
-  strategy_args:
-    strategy_name: vllm
-    strategy_config:
-      gpu_memory_utilization: 0.9
-      block_size: 16
-  num_gpus_per_worker: 1
-  device_mapping: list(range(0,16))
-  infer_batch_size: 32
-
-reference:
-  model_args:
-    attn_implementation: fa2
-    disable_gradient_checkpointing: true
-    dtype: bf16
-    # In transformers>=4.50.0, if model.from_pretrained with auto device_map, None
-    # tp_plan (and tp_plan of model is not None) and WORLD_SIZE>1, TP would be used.
-    # Thus using device_map=0 to disable HF transformers parallel, otherwise use
-    # zero3 for reference model
-    device_map: "cuda:0"
-    model_type: ~
-  data_args:
-    template: qwen2-vl
-  strategy_args:
-    strategy_name: hf_infer
-    strategy_config: ~
-  device_mapping: list(range(0,16))
-  infer_batch_size: 8
-
-rewards:
-  math_rule:
-    # vl pipeline support MathRuleRewardWorker only, at present.
-    # Support for rewards in other domains will be retained for future implementation.
-    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
-    model_args:
-      model_name_or_path: ${pretrain}
-    data_args:
-      template: qwen2-vl
-    strategy_args:
-      strategy_name: hf_infer
-      strategy_config: ~
-    world_size: 16
-    infer_batch_size: 4
diff --git a/examples/qwen2.5-vl-7B-math/run_vl_rlvr_pipeline.sh b/examples/qwen2.5-vl-7B-math/run_vl_rlvr_pipeline.sh
deleted file mode 100755
index 7b95b6520..000000000
--- a/examples/qwen2.5-vl-7B-math/run_vl_rlvr_pipeline.sh
+++ /dev/null
@@ -1,5 +0,0 @@
-#!/bin/bash
-set +x
-
-CONFIG_PATH=$(basename $(dirname $0))
-python examples/start_rlvr_vlmath_pipeline.py --config_path $CONFIG_PATH  --config_name rlvr_math_megatron
diff --git a/examples/qwen2.5-vl-7B-math/submit_pipeline_amd.sh b/examples/qwen2.5-vl-7B-math/submit_pipeline_amd.sh
deleted file mode 100644
index 2f5102eb3..000000000
--- a/examples/qwen2.5-vl-7B-math/submit_pipeline_amd.sh
+++ /dev/null
@@ -1,49 +0,0 @@
-#!/bin/bash
-set +x
-source "examples/scripts/config.sh"
-
-WORKER_COUNT=2
-CONFIG_FILE="rlvr_math_megatron_amd.yaml"
-# 替换为mos uri
-NEBULA_MODEL=""
-ENTRY_FILE="examples/start_rlvr_vlmath_pipeline.py"
-
-CONFIG_PATH=$(basename $(dirname $0))
-CONFIG_NAME="${CONFIG_FILE%.yaml}"
-JOB_NAME="$CONFIG_PATH-$CONFIG_NAME"
-
-
-QUEUE="nebula_test2_308x_gpu_hang"
-# QUEUE="nebula_test_308x"
-ENVS="NCCL_PF_UCM_TIMEOUT=600000,NCCL_SOCKET_IFNAME=bond0,MIOPEN_DEBUG_FORCE_IMMED_MODE_FALLBACK=1"
-# ENVS="NCCL_PF_UCM_TIMEOUT=600000"
-
-echo "JOB_NAME: ${JOB_NAME}"
-echo "WORKER_COUNT: ${WORKER_COUNT}"
-echo "CONFIG_NAME: ${CONFIG_NAME}"
-echo "CONFIG_PATH: ${CONFIG_PATH}"
-echo "ENTRY_FILE: ${ENTRY_FILE}"
-
-args="--config_name ${CONFIG_NAME} --config_path ${CONFIG_PATH}"
-
-mdl_args="--queue=${QUEUE} \
-        --entry=${ENTRY_FILE} \
-        --worker_count=${WORKER_COUNT}  \
-        --file.cluster_file=examples/scripts/cluster.json \
-        --job_name=${JOB_NAME} \
-        --algo_name=pytorch280 \
-        --requirements_file_name=nebula_patch/requirements/requirements_torch280_vllm_amd.txt \
-        --oss_appendable=true \
-        --_NEBULA_MODEL=${NEBULA_MODEL} \
-        --nebula_model=${NEBULA_MODEL} \
-        --env=${ENVS} \
-        --force \
-        "
-if [ -n "${OPENLM_TOKEN}" ]; then
-    mdl_args="${mdl_args} --env=OPENLM_TOKEN=${OPENLM_TOKEN}"
-fi
-
-echo ${args}
-echo ${mdl_args}
-
-nebulactl run mdl --user_params="${args}" $mdl_args
diff --git a/examples/qwen2.5-vl-7B-math/rlvr_math_megatron_amd.yaml b/examples/qwen2.5-vl-7B-rlvr/rlvr_async.yaml
similarity index 53%
rename from examples/qwen2.5-vl-7B-math/rlvr_math_megatron_amd.yaml
rename to examples/qwen2.5-vl-7B-rlvr/rlvr_async.yaml
index 89f266570..8bf5e1bc7 100644
--- a/examples/qwen2.5-vl-7B-math/rlvr_math_megatron_amd.yaml
+++ b/examples/qwen2.5-vl-7B-rlvr/rlvr_async.yaml
@@ -3,37 +3,30 @@ defaults:
   - ../config/deepspeed_zero2@_here_
   - ../config/deepspeed_zero3@_here_
   - ../config/deepspeed_zero3_cpuoffload@_here_
-
 hydra:
   run:
     dir: .
   output_subdir: null
-
-exp_name: "qwen2_5_vl_7B_math_config"
+exp_name: "qwen2_5_vl_7B_rlvr"
 seed: 42
 logging_dir: ./output/logs
 output_dir: ./output
-
 checkpoint_config:
   type: file_system
   output_dir: /data/cpfs_0/yuzhao/models
-
 track_with: tensorboard
 tracker_kwargs:
   log_dir: /data/oss_bucket_0/yuzhao/llm/tensorboard
-
-save_steps: 20
+save_steps: 40
 logging_steps: 1
-eval_steps: 1
+eval_steps: 10
 resume_from_checkpoint: false
-
-rollout_batch_size: 512
+rollout_batch_size: 256
 num_return_sequences_in_group: 8
 is_num_return_sequences_expand: true
-prompt_length: 1024
+prompt_length: 2048
 response_length: 4096
-generate_opt_level: 0
-
+async_generation_ratio: 1
 ppo_epochs: 1
 value_clip: 0.5
 reward_clip: 10
@@ -43,41 +36,47 @@ init_kl_coef: 0.0
 adv_estimator: "grpo"
 use_kl_loss: true
 kl_loss_coef: 1.0e-2
-
 pretrain: Qwen/Qwen2.5-VL-7B-Instruct
-
-#validation:
-#  data_args:
-#    template: qwen2-vl
-#    file_name: ./data/geoqa_data/
-#    dataset_dir: ./
-#  generating_args:
-#    max_new_tokens: ${response_length}
-#    top_p: 0.99
-#    top_k: 100
-#    num_beams: 1
-#    temperature: 0.99
-#    num_return_sequences: 1
-
+validation:
+ data_args:
+   file_name:
+     - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_math_megabench_237.parquet
+     - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_detection_coco_test_multi_2000.parquet
+   dataset_dir: ./
+ generating_args:
+   max_new_tokens: ${response_length}
+   top_p: 0.99
+   top_k: 100
+   num_beams: 1
+   temperature: 0.99
+   num_return_sequences: 1
+ eval_steps: ${eval_steps}
 actor_train:
   model_args:
+    flash_attn: fa2
+    attn_implementation: fa2
     disable_gradient_checkpointing: false
     dtype: bf16
     model_type: ~
   training_args:
     learning_rate: 1.0e-6
     weight_decay: 1.0e-2
-    per_device_train_batch_size: 4
+    per_device_train_batch_size: 2
     gradient_accumulation_steps: 256
     warmup_steps: 0
     num_train_epochs: 50
   data_args:
-    template: qwen2-vl
-    # use leonardPKU/GEOQA_R1V_Train_8K as dataset
-    # download to ./data/geoqa_data from https://huggingface.co/datasets/leonardPKU/GEOQA_R1V_Train_8K
-    file_name: ./data/geoqa_data/
+    # use One-RL-to-See-Them-All/Orsta-Data-47k as train dataset
+    # download from https://huggingface.co/datasets/One-RL-to-See-Them-All/Orsta-Data-47k
+    file_name:
+      - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/train/train_detection_v3det_4000.parquet
+      - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/train/train_math_mmmath_3539.parquet
+    domain_interleave_probs:
+      math: 0.5
+      cv_detection: 0.5
     dataset_dir: ./
-    preprocessing_num_workers: 16
+    messages: prompt
+    preprocessing_num_workers: 32
   strategy_args:
     strategy_name: megatron_train
     strategy_config:
@@ -91,9 +90,10 @@ actor_train:
       bf16: true
   device_mapping: list(range(0,16))
   infer_batch_size: 8
-
 actor_infer:
   model_args:
+    flash_attn: fa2
+    attn_implementation: fa2
     disable_gradient_checkpointing: true
     dtype: bf16
   generating_args:
@@ -103,48 +103,49 @@ actor_infer:
     num_beams: 1
     temperature: 0.99
     num_return_sequences: ${num_return_sequences_in_group}
-  data_args:
-    template: qwen2-vl
   strategy_args:
     strategy_name: vllm
     strategy_config:
-      gpu_memory_utilization: 0.6
+      gpu_memory_utilization: 0.8
       block_size: 16
-      disable_mm_preprocessor_cache: true # RAM leak: https://github.com/vllm-project/vllm/issues/15085
+      # mm preprocessor cache mismatch error occured in vllm084
+      disable_mm_preprocessor_cache: true
+      enable_prefix_caching: false
   num_gpus_per_worker: 1
-  device_mapping: list(range(0,16))
+  device_mapping: list(range(16,24))
   infer_batch_size: 32
-
 reference:
   model_args:
+    flash_attn: fa2
+    attn_implementation: fa2
     disable_gradient_checkpointing: true
     dtype: bf16
     model_type: ~
-  data_args:
-    template: qwen2-vl
   strategy_args:
     strategy_name: megatron_infer
     strategy_config:
       sequence_parallel: true
-      tensor_model_parallel_size: 1
+      tensor_model_parallel_size: 2
       context_parallel_size: 1
       pipeline_model_parallel_size: 1
       expert_model_parallel_size: 1
       bf16: true
   device_mapping: list(range(0,16))
   infer_batch_size: 8
-
 rewards:
-  # vl pipeline support MathRuleRewardWorker only, at present.
-  # Support for rewards in other domains will be retained for future implementation.
-  math_rule:
+  math:
     worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
     model_args:
       model_name_or_path: ${pretrain}
-    data_args:
-      template: qwen2-vl
-    strategy_args:
-      strategy_name: hf_infer
-      strategy_config: ~
-    world_size: 16
-    infer_batch_size: 4
+    # data source whose ability is math in One-RL-to-See-Them-All/Orsta-Data-47k
+    tag_included: [mm_math, megabench_math]
+    world_size: 8
+    infer_batch_size: 1
+  cv_detection:
+    worker_cls: roll.pipeline.rlvr.rewards.detection_reward_worker.DetectionRewardWorker
+    model_args:
+      model_name_or_path: ${pretrain}
+    # data source whose ability is cv_detection in One-RL-to-See-Them-All/Orsta-Data-47k
+    tag_included: [v3det_train, object365_train, coco_val_multi_test]
+    world_size: 8
+    infer_batch_size: 1
diff --git a/examples/qwen2.5-vl-7B-rlvr/rlvr_megatron.yaml b/examples/qwen2.5-vl-7B-rlvr/rlvr_megatron.yaml
index 54807d13b..804ee3bd2 100644
--- a/examples/qwen2.5-vl-7B-rlvr/rlvr_megatron.yaml
+++ b/examples/qwen2.5-vl-7B-rlvr/rlvr_megatron.yaml
@@ -118,6 +118,8 @@ actor_infer:
     strategy_config:
       gpu_memory_utilization: 0.8
       block_size: 16
+      # mm preprocessor cache mismatch error occured in vllm084
+      enable_prefix_caching: false
   num_gpus_per_worker: 1
   device_mapping: list(range(0,32))
   infer_batch_size: 32
diff --git a/examples/qwen3-235BA22B-rlvr_megatron/submit_pipeline_amd.sh b/examples/qwen3-235BA22B-rlvr_megatron/submit_pipeline_amd.sh
deleted file mode 100644
index bf10ec75a..000000000
--- a/examples/qwen3-235BA22B-rlvr_megatron/submit_pipeline_amd.sh
+++ /dev/null
@@ -1,49 +0,0 @@
-#!/bin/bash
-set +x
-source "examples/scripts/config.sh"
-
-WORKER_COUNT=32
-CONFIG_FILE="rlvr_config_amd.yaml" 
-# 替换为mos uri
-NEBULA_MODEL=""
-ENTRY_FILE="examples/start_rlvr_pipeline.py"
-
-CONFIG_PATH=$(basename $(dirname $0))
-CONFIG_NAME="${CONFIG_FILE%.yaml}"
-JOB_NAME="$CONFIG_PATH-$CONFIG_NAME"
-
-
-QUEUE="nebula_test2_308x_gpu_hang"
-# QUEUE="nebula_test_308x"
-ENVS="NCCL_PF_UCM_TIMEOUT=600000,NCCL_SOCKET_IFNAME=bond0,NCCL_DEBUG=INFO"
-# ENVS="NCCL_PF_UCM_TIMEOUT=600000"
-
-echo "JOB_NAME: ${JOB_NAME}"
-echo "WORKER_COUNT: ${WORKER_COUNT}"
-echo "CONFIG_NAME: ${CONFIG_NAME}"
-echo "CONFIG_PATH: ${CONFIG_PATH}"
-echo "ENTRY_FILE: ${ENTRY_FILE}"
-
-args="--config_name ${CONFIG_NAME} --config_path ${CONFIG_PATH}"
-
-mdl_args="--queue=${QUEUE} \
-        --entry=${ENTRY_FILE} \
-        --worker_count=${WORKER_COUNT}  \
-        --file.cluster_file=examples/scripts/cluster.json \
-        --job_name=${JOB_NAME} \
-        --algo_name=pytorch280 \
-        --requirements_file_name=nebula_patch/requirements/requirements_torch280_vllm_amd.txt \
-        --oss_appendable=true \
-        --_NEBULA_MODEL=${NEBULA_MODEL} \
-        --nebula_model=${NEBULA_MODEL} \
-        --env=${ENVS} \
-        --force \
-        "
-if [ -n "${OPENLM_TOKEN}" ]; then
-    mdl_args="${mdl_args} --env=OPENLM_TOKEN=${OPENLM_TOKEN}"
-fi
-
-echo ${args}
-echo ${mdl_args}
-
-nebulactl run mdl --user_params="${args}" $mdl_args
diff --git a/examples/qwen3-30BA3B-agentic_fsdp2/agentic_val_sokoban_30a3.yaml b/examples/qwen3-30BA3B-agentic_fsdp2/agentic_val_sokoban_30a3.yaml
new file mode 100644
index 000000000..ce30a9a83
--- /dev/null
+++ b/examples/qwen3-30BA3B-agentic_fsdp2/agentic_val_sokoban_30a3.yaml
@@ -0,0 +1,184 @@
+defaults:
+  - ../config/traj_envs@_here_
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "agentic_pipeline_30a3_2k"
+seed: 42
+rpc_timeout: 72000  # Timeout for Ray RPC calls in seconds (20 hours)
+logging_dir: ./output/logs
+output_dir: ./output
+render_save_dir: ./output/render
+
+profiler_memory: false
+system_envs:
+  USE_MODELSCOPE: '1'
+
+# profiler_output_dir: /data/oss_bucket_0/pumpkin/exps/profile/${exp_name}
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll-agentic
+#  name: ${exp_name}_sokoban
+#  notes: "agentic_pipeline"
+#  tags:
+#    - agentic
+#    - roll
+#    - baseline
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: ./tf_log
+
+
+checkpoint_config:
+  type: file_system
+
+num_gpus_per_node: 8
+
+max_steps: 1024
+save_steps: 5
+logging_steps: 1
+eval_steps: 10
+
+rollout_batch_size: 128
+val_batch_size: 128
+sequence_length: 8192
+
+advantage_clip: 0.2
+ppo_epochs: 1
+adv_estimator: "grpo"
+#pg_clip: 0.1
+#dual_clip_loss: True
+init_kl_coef: 0.0
+whiten_advantages: true
+entropy_loss_coef: 0
+max_grad_norm: 1.0
+
+pretrain: Qwen/Qwen3-30B-A3B
+reward_pretrain: Qwen/Qwen3-30B-A3B
+
+actor_train:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    ulysses_size: 2
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 16
+    warmup_steps: 10
+    lr_scheduler_type: cosine
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      fsdp_size: 16
+      param_dtype: bf16
+      reduce_dtype: bf16
+      offload_policy: true
+      apply_expert_patch: true
+      apply_tiled_mlp: true
+      tiled_num_shards: 4
+      reshard_after_forward: true
+      wrap_policy:
+        wrap_embeddings: true
+        wrap_lm_output: true
+        moe_experts:
+          - Qwen3MoeMLP
+        transformer_layer_cls_to_wrap:
+          - Qwen3MoeAttention
+          - Qwen3MoeSparseMoeBlock
+  use_remove_padding: true
+  device_mapping: list(range(0,32))
+  infer_batch_size: 1
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: 128 # single-turn response length
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.7
+      block_size: 16
+      load_format: auto
+      tensor_parallel_size: 4
+  device_mapping: list(range(0,32))
+
+reference:
+  model_args:
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+    ulysses_size: 2
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: fsdp2_infer
+    strategy_config:
+      fsdp_size: 16
+      param_dtype: bf16
+      reduce_dtype: bf16
+      apply_tiled_mlp: true
+      tiled_num_shards: 8
+      reshard_after_forward: true
+      offload_policy: true
+  device_mapping: list(range(0,32))
+  infer_batch_size: 1
+
+reward_normalization:
+  grouping: traj_group_id # 可以tags(env_type)/traj_group_id(group)/batch(rollout_batch)... group_by计算reward/adv
+  method: mean_std # asym_clip / identity / mean_std
+
+train_env_manager:
+  format_penalty: -0.15 # sokoban env penalty_for_step=-0.1
+  max_env_num_per_worker: 16
+  num_env_groups: 16
+  # under the same group, the env config and env seed are ensured to be equal
+  group_size: 8
+  tags: [SimpleSokoban]
+  num_groups_partition: [16] # If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+val_env_manager:
+  max_env_num_per_worker: 32
+  num_env_groups: 128
+  group_size: 1 # should be set to 1 because val temperature is set to 0 and same prompt leads to same output
+  tags: [SimpleSokoban, LargerSokoban, SokobanDifferentGridVocab, FrozenLake]
+  num_groups_partition: [32, 32, 32, 32] # TODO: If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+
+
+# Here, you can override variables defined in the imported envs. max_tokens_per_step: 128 in custom_env.SimpleSokoban, here replaced by 64
+max_tokens_per_step: 64
+
+custom_envs:
+  SimpleSokoban:
+    ${custom_env.SimpleSokoban}
+  LargerSokoban:
+    ${custom_env.LargerSokoban}
+  SokobanDifferentGridVocab:
+    ${custom_env.SokobanDifferentGridVocab}
+  FrozenLake:
+    ${custom_env.FrozenLake}
+  FrozenLakeThink:
+    ${custom_env.FrozenLakeThink}
diff --git a/examples/qwen3-30BA3B-rlvr_megatron/rlvr_config_amd.yaml b/examples/qwen3-30BA3B-rlvr_megatron/rlvr_config_amd.yaml
index 4af2f0893..60d4b9171 100644
--- a/examples/qwen3-30BA3B-rlvr_megatron/rlvr_config_amd.yaml
+++ b/examples/qwen3-30BA3B-rlvr_megatron/rlvr_config_amd.yaml
@@ -133,7 +133,7 @@ actor_train:
       use_distributed_optimizer: true
       sequence_parallel: true
       moe_token_dispatcher_type: "alltoall"
-      moe_grouped_gemm: true
+      moe_grouped_gemm: false # If encoutering some timeout issues, you can disable this option.
       moe_layer_recompute: true
   device_mapping: list(range(0,32))
   infer_batch_size: 2
@@ -176,7 +176,7 @@ reference:
       pipeline_model_parallel_size: 1
       expert_model_parallel_size: 4
       moe_token_dispatcher_type: "alltoall"
-      moe_grouped_gemm: true
+      moe_grouped_gemm: false # If encoutering some timeout issues, you can disable this option.
   device_mapping: list(range(0,32))
   infer_batch_size: 2
 
@@ -257,7 +257,7 @@ rewards:
       # strategy_config: null
       strategy_name: vllm
       strategy_config:
-        gpu_memory_utilization: 0.8
+        gpu_memory_utilization: 0.5
         block_size: 16
         max_model_len: 8000
         load_format: auto
diff --git a/examples/qwen3-30BA3B-rlvr_megatron/rlvr_config_lora.yaml b/examples/qwen3-30BA3B-rlvr_megatron/rlvr_config_lora.yaml
new file mode 100644
index 000000000..ea7a556b9
--- /dev/null
+++ b/examples/qwen3-30BA3B-rlvr_megatron/rlvr_config_lora.yaml
@@ -0,0 +1,271 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen3-30BA3B-rlvr-config-lora"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+system_envs:
+  USE_MODELSCOPE: '1'
+
+checkpoint_config:
+  type: file_system
+  output_dir: ./rl_examples/models/${exp_name}
+
+#track_with: wandb
+#tracker_kwargs:
+#  api_key:
+#  project: roll_examples
+#  notes: roll_examples
+#  tags:
+#    - rlvr
+#    - baseline
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: /data/oss_bucket_0/shidie/tensorboard/${exp_name}
+
+model_download_type: MODELSCOPE
+num_gpus_per_node: 8
+
+max_steps: 500
+save_steps: 100
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+
+rollout_batch_size: 64  # prompt
+prompt_length: 2048
+response_length: 4096
+
+num_return_sequences_in_group: 8
+ppo_epochs: 1
+adv_estimator: "reinforce"
+
+# clip
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 2.0
+dual_clip_loss: true
+
+# normalize
+norm_mean_type: ~
+norm_std_type: ~
+
+# data mask
+max_len_mask: true
+difficulty_mask: true
+difficulty_low_threshold: 0.1
+difficulty_high_threshold: 0.95
+error_max_len_clip: false
+
+# data weight
+difficulty_loss_weight: false
+length_loss_weight: false
+
+# reward
+add_token_level_kl: false
+
+# advantage
+whiten_advantages: true
+
+# dynamic sampling scheduler
+# use_additional_prompts: true
+# max_running_requests: 256
+# is_num_return_sequences_expand: false
+
+pretrain: Qwen/Qwen3-30B-A3B-Base
+reward_pretrain: Qwen/Qwen3-30B-A3B-Base
+
+validation:
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/math_benchmarks.jsonl
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.6
+    top_k: 50
+    num_beams: 1
+    temperature: 0.6
+    num_return_sequences: 1
+
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    lora_target: all-linear
+    lora_rank: 64
+    lora_alpha: 64
+  training_args:
+    learning_rate: 2.0e-5
+    weight_decay: 0
+    per_device_train_batch_size: 4
+    gradient_accumulation_steps: 16
+    warmup_steps: 20
+    num_train_epochs: 50
+  data_args:
+    template: qwen2_5
+    file_name:
+      - data/code_KodCode_data.jsonl
+      - data/llm_judge_Multi-subject-RLVR_deal_new.jsonl
+      - data/math_deepmath_deal.jsonl
+      - data/general_ifeval_train_deal.jsonl
+      - data/general_CrossThink-QA_deal.jsonl
+    domain_interleave_probs:
+      math_rule: 0.4
+      code_sandbox: 0.3
+      # llm_judge: 0.1
+      crossthinkqa: 0.1
+      ifeval: 0.1
+    dataset_dir: data
+    messages: messages
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 2
+      expert_model_parallel_size: 8
+      context_parallel_size: 1
+      use_distributed_optimizer: true
+      sequence_parallel: true
+      moe_token_dispatcher_type: "alltoall"
+      moe_grouped_gemm: true
+      recompute_granularity: full
+  device_mapping: list(range(0,16))
+  infer_batch_size: 4
+
+actor_infer:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    lora_target: q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj
+    lora_rank: 64
+    lora_alpha: 64
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.7
+      load_format: auto
+      tensor_parallel_size: 2
+      max_model_len: 8192
+  num_gpus_per_worker: 2
+  device_mapping: list(range(0,16)) # device share with llm reward
+  infer_batch_size: 1
+
+reference:
+  model_args:
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 8
+      moe_token_dispatcher_type: "alltoall"
+      moe_grouped_gemm: true
+  device_mapping: list(range(0,16))
+  infer_batch_size: 2
+
+rewards:
+  crossthinkqa:
+    worker_cls: roll.pipeline.rlvr.rewards.crossthinkqa_rule_reward_worker.CrossThinkQARuleRewardWorker
+    reward_type: soft
+    response_length_penalty_coef: 0.0
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [crossthinkqa]
+    world_size: 8
+    infer_batch_size: 4
+  ifeval:
+    worker_cls: roll.pipeline.rlvr.rewards.ifeval_rule_reward_worker.GeneralRuleRewardWorker
+    reward_type: soft
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [ifeval]
+    world_size: 8
+    infer_batch_size: 4
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    tag_included: [deepmath_103k, aime]
+    world_size: 8
+    infer_batch_size: 1
+# dynamic filter config
+#    query_filter_config:
+#      type: mean_filter
+#      filter_args:
+#        threshold_up: 0.9
+#        threshold_down: 0.1
+  code_sandbox:
+    use_local: true
+    worker_cls: roll.pipeline.rlvr.rewards.code_sandbox_reward_worker.CodeSandboxRewardWorker
+    tag_included: [KodCode]
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen2_5
+    world_size: 8
+    infer_batch_size: 1
+#    query_filter_config:
+#      type: std_filter
+#      filter_args:
+#        std_threshold: 0
+  # llm_judge:
+  #   # NOTE: llm as judge 也需要gpu, 不能和actor infer共享gpu
+  #   worker_cls: roll.pipeline.rlvr.rewards.llm_judge_reward_worker.LLMJudgeRewardWorker
+  #   judge_prompt: Qwen2.5-7B-Instruct-RLVR-prompt
+  #   judge_model_type: inference
+  #   tag_included: [RLVR]
+  #   model_args:
+  #     model_name_or_path: virtuoussy/Qwen2.5-7B-Instruct-RLVR
+  #     attn_implementation: fa2
+  #     disable_gradient_checkpointing: true
+  #     dtype: bf16
+  #     model_type: trl
+  #   generating_args:
+  #     max_new_tokens: 100
+  #     top_p: 0.8
+  #     top_k: 50
+  #     num_beams: 1
+  #     temperature: 0.8
+  #     num_return_sequences: 1
+  #   data_args:
+  #     template: qwen2_5
+  #   strategy_args:
+  #     # strategy_name: hf_infer
+  #     # strategy_config: null
+  #     strategy_name: vllm
+  #     strategy_config:
+  #       gpu_memory_utilization: 0.7
+  #       block_size: 16
+  #       max_model_len: 10000
+  #       load_format: auto
+  #   device_mapping: list(range(0,2))+list(range(14,16))
+  #   infer_batch_size: 4
\ No newline at end of file
diff --git a/examples/qwen3-30BA3B-rlvr_megatron/rlvr_config_sglang.yaml b/examples/qwen3-30BA3B-rlvr_megatron/rlvr_config_sglang.yaml
index 7e4b577af..57749482e 100644
--- a/examples/qwen3-30BA3B-rlvr_megatron/rlvr_config_sglang.yaml
+++ b/examples/qwen3-30BA3B-rlvr_megatron/rlvr_config_sglang.yaml
@@ -83,7 +83,7 @@ validation:
   data_args:
     template: qwen2_5
     file_name:
-      - data/math_benchmarks.jsonl
+      - data/aime24_25_deal.jsonl
   generating_args:
     top_p: 0.6
     top_k: 50
diff --git a/examples/qwen3-8B-onpolicy-distill-megatron/onpolicy_distill_config.yaml b/examples/qwen3-8B-onpolicy-distill-megatron/onpolicy_distill_config.yaml
new file mode 100644
index 000000000..f95ca930d
--- /dev/null
+++ b/examples/qwen3-8B-onpolicy-distill-megatron/onpolicy_distill_config.yaml
@@ -0,0 +1,149 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+# Global Config
+exp_name: "qwen3-8B-onpolicy-distill-dapo"
+output_dir: ./output/
+logging_dir: ./output/logs
+rollout_dump_dir: ./output/rollout_dump
+seed: 42
+system_envs:
+  USE_MODELSCOPE: '1'
+  VLLM_USE_FLASHINFER_SAMPLER: '0'
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/rl_examples/models/${exp_name}
+
+track_with: tensorboard
+
+num_nodes: 1
+num_gpus_per_node: 8
+
+max_steps: 1024
+save_steps: 10000
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 16  # prompt
+prompt_length: 2048
+response_length: 14336
+
+num_return_sequences_in_group: 4
+ppo_epochs: 1
+adv_estimator: "reinforce"
+
+pretrain: Qwen/Qwen3-8B
+reward_pretrain: Qwen/Qwen3-8B
+
+global_template: qwen3
+
+validation:
+  data_args:
+    file_name:
+      - data/math_benchmarks.jsonl
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.6
+    top_k: 50
+    num_beams: 1
+    temperature: 0.6
+    num_return_sequences: 1
+
+student_train:
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 5.0e-7
+    weight_decay: 0.1
+    per_device_train_batch_size: 16
+    gradient_accumulation_steps: 1
+    warmup_steps: 20
+    num_train_epochs: 50
+  data_args:
+    file_name:
+      # Note: The prompt needs to be processed to require the answer in \boxed{} format
+      - data/dapo_math_17k.jsonl # https://huggingface.co/datasets/open-r1/DAPO-Math-17k-Processed
+    domain_interleave_probs:
+      math_rule: 1.0
+    dataset_dir: data
+    messages: messages
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      tensor_model_parallel_size: 1
+      context_parallel_size: 2
+      pipeline_model_parallel_size: 2
+      expert_model_parallel_size: 1
+      use_distributed_optimizer: true
+      recompute_granularity: full
+  use_sequence_packing: True
+  sequence_packing_args:
+    algorithm: load_balance
+    max_packed_sequence_length_forward: 16384
+    min_num_micro_batches_forward: 2
+    max_packed_sequence_length_train: 16384
+    min_num_micro_batches_train: 2
+  device_mapping: list(range(0,16))
+  infer_batch_size: 4
+
+student_infer:
+  model_args:
+    model_name_or_path: ${pretrain}
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      load_format: auto
+  device_mapping: list(range(0,16))
+  infer_batch_size: 1
+
+teacher:
+  model_args:
+    model_name_or_path: Qwen/Qwen3-32B  # Teacher model
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 2
+      pipeline_model_parallel_size: 4
+      context_parallel_size: 2
+      bf16: true
+  device_mapping: list(range(0,16))
+  infer_batch_size: 1
+  sequence_packing_args:
+    algorithm: load_balance
+    max_packed_sequence_length_forward: 16384
+    min_num_micro_batches_forward: 4
+
+rewards:
+  math_rule:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${reward_pretrain}
+    data_args:
+      template: qwen3
+    tag_included: [math_dapo]
+    world_size: 8
+    infer_batch_size: 1
diff --git a/examples/qwen3-8B-onpolicy-distill-megatron/run_onpolicy_distill_pipeline.sh b/examples/qwen3-8B-onpolicy-distill-megatron/run_onpolicy_distill_pipeline.sh
new file mode 100755
index 000000000..e778dc75f
--- /dev/null
+++ b/examples/qwen3-8B-onpolicy-distill-megatron/run_onpolicy_distill_pipeline.sh
@@ -0,0 +1,17 @@
+#!/bin/bash
+
+# On-Policy Distill Pipeline Run Script
+
+# Set environment variables
+export RAY_DEDUP_LOGS=1
+export USE_MODELSCOPE=1
+
+# Config path
+CONFIG_PATH="qwen3-8B-onpolicy-distill-megatron"
+CONFIG_NAME="onpolicy_distill_config"
+
+# Run pipeline
+python examples/start_onpolicy_distill_pipeline.py \
+    --config_path ${CONFIG_PATH} \
+    --config_name ${CONFIG_NAME} \
+    "$@"
diff --git a/examples/qwen2.5-7B-rlvr_megatron/submit_pipeline_amd.sh b/examples/qwen3-8B-onpolicy-distill-megatron/submit_pipeline.sh
similarity index 71%
rename from examples/qwen2.5-7B-rlvr_megatron/submit_pipeline_amd.sh
rename to examples/qwen3-8B-onpolicy-distill-megatron/submit_pipeline.sh
index fccb1ab1c..f6bcb4c74 100644
--- a/examples/qwen2.5-7B-rlvr_megatron/submit_pipeline_amd.sh
+++ b/examples/qwen3-8B-onpolicy-distill-megatron/submit_pipeline.sh
@@ -3,21 +3,15 @@ set +x
 source "examples/scripts/config.sh"
 
 WORKER_COUNT=2
-CONFIG_FILE="rlvr_config_amd.yaml"
-# 替换为mos uri
+CONFIG_FILE="onpolicy_distill_config.yaml"
+# Replace with mos uri
 NEBULA_MODEL=""
-ENTRY_FILE="examples/start_rlvr_pipeline.py"
+ENTRY_FILE="examples/start_onpolicy_distill_pipeline.py"
 
 CONFIG_PATH=$(basename $(dirname $0))
 CONFIG_NAME="${CONFIG_FILE%.yaml}"
 JOB_NAME="$CONFIG_PATH-$CONFIG_NAME"
 
-
-QUEUE="nebula_test2_308x_gpu_hang"
-# QUEUE="nebula_test_308x"
-ENVS="NCCL_PF_UCM_TIMEOUT=600000,NCCL_SOCKET_IFNAME=bond0"
-# ENVS="NCCL_PF_UCM_TIMEOUT=600000"
-
 echo "JOB_NAME: ${JOB_NAME}"
 echo "WORKER_COUNT: ${WORKER_COUNT}"
 echo "CONFIG_NAME: ${CONFIG_NAME}"
@@ -30,14 +24,16 @@ mdl_args="--queue=${QUEUE} \
         --entry=${ENTRY_FILE} \
         --worker_count=${WORKER_COUNT}  \
         --file.cluster_file=examples/scripts/cluster.json \
+        --oss_access_id=${OSS_ACCESS_ID} \
+        --oss_access_key=${OSS_ACCESS_KEY} \
+        --oss_bucket=${OSS_BUCKET} \
+        --oss_endpoint=${OSS_ENDPOINT} \
         --job_name=${JOB_NAME} \
         --algo_name=pytorch280 \
-        --requirements_file_name=nebula_patch/requirements/requirements_torch280_vllm_amd.txt \
+        --requirements_file_name=nebula_patch/requirements/requirements_torch280_vllm.txt \
         --oss_appendable=true \
         --_NEBULA_MODEL=${NEBULA_MODEL} \
         --nebula_model=${NEBULA_MODEL} \
-        --env=${ENVS} \
-        --force \
         "
 if [ -n "${OPENLM_TOKEN}" ]; then
     mdl_args="${mdl_args} --env=OPENLM_TOKEN=${OPENLM_TOKEN}"
@@ -46,4 +42,4 @@ fi
 echo ${args}
 echo ${mdl_args}
 
-nebulactl run mdl --user_params="${args}" $mdl_args
+nebulactl run mdl --user_params="${args}" $mdl_args
\ No newline at end of file
diff --git a/examples/qwen3-next-80BA3B-rlvr_megatron/submit_pipeline_amd.sh b/examples/qwen3-next-80BA3B-rlvr_megatron/submit_pipeline_amd.sh
deleted file mode 100644
index 8d10e0037..000000000
--- a/examples/qwen3-next-80BA3B-rlvr_megatron/submit_pipeline_amd.sh
+++ /dev/null
@@ -1,49 +0,0 @@
-#!/bin/bash
-set +x
-source "examples/scripts/config.sh"
-
-WORKER_COUNT=8
-CONFIG_FILE="rlvr_config_amd.yaml" 
-# 替换为mos uri
-NEBULA_MODEL=""
-ENTRY_FILE="examples/start_rlvr_pipeline.py"
-
-CONFIG_PATH=$(basename $(dirname $0))
-CONFIG_NAME="${CONFIG_FILE%.yaml}"
-JOB_NAME="$CONFIG_PATH-$CONFIG_NAME"
-
-
-QUEUE="nebula_test2_308x_gpu_hang"
-# QUEUE="nebula_test_308x"
-ENVS="NCCL_PF_UCM_TIMEOUT=600000,NCCL_SOCKET_IFNAME=bond0"
-# ENVS="NCCL_PF_UCM_TIMEOUT=600000"
-
-echo "JOB_NAME: ${JOB_NAME}"
-echo "WORKER_COUNT: ${WORKER_COUNT}"
-echo "CONFIG_NAME: ${CONFIG_NAME}"
-echo "CONFIG_PATH: ${CONFIG_PATH}"
-echo "ENTRY_FILE: ${ENTRY_FILE}"
-
-args="--config_name ${CONFIG_NAME} --config_path ${CONFIG_PATH}"
-
-mdl_args="--queue=${QUEUE} \
-        --entry=${ENTRY_FILE} \
-        --worker_count=${WORKER_COUNT}  \
-        --file.cluster_file=examples/scripts/cluster.json \
-        --job_name=${JOB_NAME} \
-        --algo_name=pytorch280 \
-        --requirements_file_name=nebula_patch/requirements/requirements_torch280_vllm_amd.txt \
-        --oss_appendable=true \
-        --_NEBULA_MODEL=${NEBULA_MODEL} \
-        --nebula_model=${NEBULA_MODEL} \
-        --env=${ENVS} \
-        --force \
-        "
-if [ -n "${OPENLM_TOKEN}" ]; then
-    mdl_args="${mdl_args} --env=OPENLM_TOKEN=${OPENLM_TOKEN}"
-fi
-
-echo ${args}
-echo ${mdl_args}
-
-nebulactl run mdl --user_params="${args}" $mdl_args
diff --git a/examples/qwen3-omni/rlvr_megatron.yaml b/examples/qwen3-omni/rlvr_megatron.yaml
new file mode 100644
index 000000000..6ce249b30
--- /dev/null
+++ b/examples/qwen3-omni/rlvr_megatron.yaml
@@ -0,0 +1,161 @@
+defaults:
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen3_omni_rlvr"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+save_steps: 20
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 256
+num_return_sequences_in_group: 8
+is_num_return_sequences_expand: true
+prompt_length: 2048
+response_length: 4096
+
+ppo_epochs: 1
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 10.0
+whiten_advantages: false
+init_kl_coef: 0.0
+adv_estimator: "grpo"
+use_kl_loss: true
+kl_loss_coef: 1.0e-2
+
+pretrain: Qwen/Qwen3-Omni-30B-A3B-Thinking
+# pretrain: Qwen/Qwen3-Omni-30B-A3B-Instruct
+
+validation:
+ data_args:
+   file_name:
+     - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_math_megabench_237.parquet
+     - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_detection_coco_test_multi_2000.parquet
+   dataset_dir: ./
+ generating_args:
+   max_new_tokens: ${response_length}
+   top_p: 0.99
+   top_k: 100
+   num_beams: 1
+   temperature: 0.99
+   num_return_sequences: 1
+ eval_steps: ${eval_steps}
+
+actor_train:
+  model_args:
+    flash_attn: fa2
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    freeze_module_prefix: "vision_model,audio_model,talker,code2wav"
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 1.0e-2
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 32
+    warmup_steps: 0
+    num_train_epochs: 50
+  data_args:
+    # use One-RL-to-See-Them-All/Orsta-Data-47k as train dataset
+    # download from https://huggingface.co/datasets/One-RL-to-See-Them-All/Orsta-Data-47k
+    file_name:
+      - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/train/train_detection_v3det_4000.parquet
+      - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/train/train_math_mmmath_3539.parquet
+    domain_interleave_probs:
+      math: 0.5
+      cv_detection: 0.5
+    dataset_dir: ./
+    messages: prompt
+    preprocessing_num_workers: 32
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      sequence_parallel: true
+      tensor_model_parallel_size: 1
+      context_parallel_size: 1
+      expert_model_parallel_size: 8
+      pipeline_model_parallel_size: 1
+      use_distributed_optimizer: true
+      # overlap_grad_reduce: true  # to be resolved
+      moe_token_dispatcher_type: alltoall
+      moe_grouped_gemm: true
+      recompute_granularity: full
+      bf16: true
+  device_mapping: list(range(0,32))
+  infer_batch_size: 1
+
+actor_infer:
+  model_args:
+    flash_attn: fa2
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.6
+      block_size: 16
+      max_model_len: 8192
+      tensor_parallel_size: 4
+      enforce_eager: true
+      load_format: dummy
+  num_gpus_per_worker: 4
+  device_mapping: list(range(0,32))
+  infer_batch_size: 2
+
+reference:
+  model_args:
+    flash_attn: fa2
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      sequence_parallel: true
+      tensor_model_parallel_size: 1
+      context_parallel_size: 2
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 8
+      bf16: true
+  device_mapping: list(range(0,32))
+  infer_batch_size: 2
+
+rewards:
+  math:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${pretrain}
+    # data source whose ability is math in One-RL-to-See-Them-All/Orsta-Data-47k
+    tag_included: [mm_math, megabench_math]
+    world_size: 8
+    infer_batch_size: 1
+  cv_detection:
+    worker_cls: roll.pipeline.rlvr.rewards.detection_reward_worker.DetectionRewardWorker
+    model_args:
+      model_name_or_path: ${pretrain}
+    # data source whose ability is cv_detection in One-RL-to-See-Them-All/Orsta-Data-47k
+    tag_included: [v3det_train, object365_train, coco_val_multi_test]
+    world_size: 8
+    infer_batch_size: 1
diff --git a/examples/qwen3-omni/run_rlvr_pipeline.sh b/examples/qwen3-omni/run_rlvr_pipeline.sh
new file mode 100755
index 000000000..9a8f0ef42
--- /dev/null
+++ b/examples/qwen3-omni/run_rlvr_pipeline.sh
@@ -0,0 +1,5 @@
+#!/bin/bash
+set +x
+
+CONFIG_PATH=$(basename $(dirname $0))
+python examples/start_rlvr_vl_pipeline.py --config_path $CONFIG_PATH  --config_name rlvr_megatron
diff --git a/examples/qwen3-vl-30BA3B-rlvr_megatron/rlvr_megatron_80GB.yaml b/examples/qwen3-vl-30BA3B-rlvr_megatron/rlvr_megatron_80GB.yaml
new file mode 100644
index 000000000..749848410
--- /dev/null
+++ b/examples/qwen3-vl-30BA3B-rlvr_megatron/rlvr_megatron_80GB.yaml
@@ -0,0 +1,172 @@
+defaults:
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen3_vl_moe_30BA3B_rlvr"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/yuzhao/models
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: /data/oss_bucket_0/yuzhao/llm/tensorboard
+
+save_steps: 20
+logging_steps: 1
+eval_steps: 10
+resume_from_checkpoint: false
+
+rollout_batch_size: 256
+num_return_sequences_in_group: 8
+is_num_return_sequences_expand: true
+prompt_length: 2048
+response_length: 4096
+
+ppo_epochs: 1
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 10.0
+whiten_advantages: false
+init_kl_coef: 0.0
+adv_estimator: "grpo"
+use_kl_loss: true
+kl_loss_coef: 1.0e-2
+
+pretrain: Qwen/Qwen3-VL-30B-A3B-Instruct
+
+validation:
+ data_args:
+   file_name:
+     - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_math_megabench_237.parquet
+     - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_detection_coco_test_multi_2000.parquet
+   dataset_dir: ./
+   preprocessing_num_workers: 32
+ generating_args:
+   max_new_tokens: ${response_length}
+   top_p: 0.99
+   top_k: 100
+   num_beams: 1
+   temperature: 0.99
+   num_return_sequences: 1
+ eval_steps: ${eval_steps}
+
+actor_train:
+  model_args:
+    flash_attn: fa2
+    attn_implementation: fa2
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    freeze_module_prefix: vision_model
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 1.0e-2
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 64
+    warmup_steps: 0
+    num_train_epochs: 50
+  data_args:
+    # use One-RL-to-See-Them-All/Orsta-Data-47k as train dataset
+    # download from https://huggingface.co/datasets/One-RL-to-See-Them-All/Orsta-Data-47k
+    file_name:
+      - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/train/train_detection_v3det_4000.parquet
+      - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/train/train_math_mmmath_3539.parquet
+    domain_interleave_probs:
+      math: 0.5
+      cv_detection: 0.5
+    dataset_dir: ./
+    messages: prompt
+    preprocessing_num_workers: 32
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      sequence_parallel: true
+      tensor_model_parallel_size: 1
+      context_parallel_size: 1
+      expert_model_parallel_size: 8
+      pipeline_model_parallel_size: 1
+      use_distributed_optimizer: true
+      moe_token_dispatcher_type: alltoall
+      recompute_granularity: selective
+      recompute_modules: "moe,layernorm"
+      bias_activation_fusion: true
+      apply_rope_fusion: true
+      moe_grouped_gemm: true
+      moe_shared_expert_overlap: true
+      bf16: true
+  device_mapping: list(range(0,16))
+  infer_batch_size: 1
+
+actor_infer:
+  model_args:
+    flash_attn: fa2
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.75
+      block_size: 16
+      max_model_len: 8192
+      tensor_parallel_size: 2
+      enforce_eager: true
+      load_format: dummy
+  num_gpus_per_worker: 4
+  device_mapping: list(range(0,16))
+  infer_batch_size: 2
+
+reference:
+  model_args:
+    flash_attn: fa2
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      sequence_parallel: true
+      tensor_model_parallel_size: 1
+      context_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 2
+      bf16: true
+  device_mapping: list(range(0,16))
+  infer_batch_size: 2
+
+rewards:
+  math:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${pretrain}
+    # data source whose ability is math in One-RL-to-See-Them-All/Orsta-Data-47k
+    tag_included: [mm_math, megabench_math]
+    world_size: 8
+    infer_batch_size: 1
+  cv_detection:
+    worker_cls: roll.pipeline.rlvr.rewards.detection_reward_worker.DetectionRewardWorker
+    model_args:
+      model_name_or_path: ${pretrain}
+    # data source whose ability is cv_detection in One-RL-to-See-Them-All/Orsta-Data-47k
+    tag_included: [v3det_train, object365_train, coco_val_multi_test]
+    world_size: 8
+    infer_batch_size: 1
diff --git a/examples/qwen3-vl-30BA3B-rlvr_megatron/run_rlvr_pipeline.sh b/examples/qwen3-vl-30BA3B-rlvr_megatron/run_rlvr_pipeline.sh
new file mode 100755
index 000000000..fc40086a7
--- /dev/null
+++ b/examples/qwen3-vl-30BA3B-rlvr_megatron/run_rlvr_pipeline.sh
@@ -0,0 +1,8 @@
+#!/bin/bash
+set +x
+
+# fix cudnn for roll-image
+# mv /usr/local/lib/python3.12/dist-packages/torch/lib/../../nvidia/cudnn /usr/local/lib/python3.12/dist-packages/torch/lib/../../nvidia/cudnn_bak
+
+CONFIG_PATH=$(basename $(dirname $0))
+python examples/start_rlvr_vl_pipeline.py --config_path $CONFIG_PATH  --config_name rlvr_megatron_80GB
diff --git a/examples/qwen3-vl-32B-rlvr_megatron/rlvr_megatron.yaml b/examples/qwen3-vl-32B-rlvr_megatron/rlvr_megatron_80GB.yaml
similarity index 93%
rename from examples/qwen3-vl-32B-rlvr_megatron/rlvr_megatron.yaml
rename to examples/qwen3-vl-32B-rlvr_megatron/rlvr_megatron_80GB.yaml
index f578ae952..255c07528 100644
--- a/examples/qwen3-vl-32B-rlvr_megatron/rlvr_megatron.yaml
+++ b/examples/qwen3-vl-32B-rlvr_megatron/rlvr_megatron_80GB.yaml
@@ -51,6 +51,7 @@ validation:
      - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_math_megabench_237.parquet
      - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_detection_coco_test_multi_2000.parquet
    dataset_dir: ./
+   preprocessing_num_workers: 32
  generating_args:
    max_new_tokens: ${response_length}
    top_p: 0.99
@@ -71,8 +72,8 @@ actor_train:
   training_args:
     learning_rate: 1.0e-6
     weight_decay: 1.0e-2
-    per_device_train_batch_size: 2
-    gradient_accumulation_steps: 64
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 512
     warmup_steps: 0
     num_train_epochs: 50
   data_args:
@@ -92,9 +93,9 @@ actor_train:
     strategy_config:
       sequence_parallel: true
       tensor_model_parallel_size: 4
-      context_parallel_size: 2
+      context_parallel_size: 1
       expert_model_parallel_size: 1
-      pipeline_model_parallel_size: 1
+      pipeline_model_parallel_size: 2
       overlap_grad_reduce: true
       use_distributed_optimizer: true
       bf16: true
@@ -117,10 +118,12 @@ actor_infer:
   strategy_args:
     strategy_name: vllm
     strategy_config:
-      gpu_memory_utilization: 0.7
+      gpu_memory_utilization: 0.75
       block_size: 16
       max_model_len: 8192
-  num_gpus_per_worker: 4
+      load_format: dummy
+      tensor_parallel_size: 2
+  num_gpus_per_worker: 2
   device_mapping: list(range(0,32))
   infer_batch_size: 32
 
@@ -141,7 +144,7 @@ reference:
       expert_model_parallel_size: 1
       bf16: true
   device_mapping: list(range(0,32))
-  infer_batch_size: 8
+  infer_batch_size: 4
 
 rewards:
   math:
diff --git a/examples/qwen3-vl-32B-rlvr_megatron/run_rlvr_pipeline.sh b/examples/qwen3-vl-32B-rlvr_megatron/run_rlvr_pipeline.sh
old mode 100644
new mode 100755
index 9a8f0ef42..0896e5b0a
--- a/examples/qwen3-vl-32B-rlvr_megatron/run_rlvr_pipeline.sh
+++ b/examples/qwen3-vl-32B-rlvr_megatron/run_rlvr_pipeline.sh
@@ -2,4 +2,4 @@
 set +x
 
 CONFIG_PATH=$(basename $(dirname $0))
-python examples/start_rlvr_vl_pipeline.py --config_path $CONFIG_PATH  --config_name rlvr_megatron
+python examples/start_rlvr_vl_pipeline.py --config_path $CONFIG_PATH  --config_name rlvr_megatron_80GB
diff --git a/examples/qwen3-vl-4B-rlvr_megatron/rlvr_megatron.yaml b/examples/qwen3-vl-4B-rlvr_megatron/rlvr_megatron_80G.yaml
similarity index 97%
rename from examples/qwen3-vl-4B-rlvr_megatron/rlvr_megatron.yaml
rename to examples/qwen3-vl-4B-rlvr_megatron/rlvr_megatron_80G.yaml
index 4b6c12123..76a4166b6 100644
--- a/examples/qwen3-vl-4B-rlvr_megatron/rlvr_megatron.yaml
+++ b/examples/qwen3-vl-4B-rlvr_megatron/rlvr_megatron_80G.yaml
@@ -51,6 +51,7 @@ validation:
      - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_math_megabench_237.parquet
      - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_detection_coco_test_multi_2000.parquet
    dataset_dir: ./
+   preprocessing_num_workers: 32
  generating_args:
    max_new_tokens: ${response_length}
    top_p: 0.99
@@ -72,7 +73,7 @@ actor_train:
     learning_rate: 1.0e-6
     weight_decay: 1.0e-2
     per_device_train_batch_size: 2
-    gradient_accumulation_steps: 64
+    gradient_accumulation_steps: 128
     warmup_steps: 0
     num_train_epochs: 50
   data_args:
@@ -97,6 +98,7 @@ actor_train:
       pipeline_model_parallel_size: 1
       overlap_grad_reduce: true
       use_distributed_optimizer: true
+      recompute_granularity: full
       bf16: true
   device_mapping: list(range(0,8))
   infer_batch_size: 2
@@ -140,7 +142,7 @@ reference:
       expert_model_parallel_size: 1
       bf16: true
   device_mapping: list(range(0,8))
-  infer_batch_size: 8
+  infer_batch_size: 4
 
 rewards:
   math:
diff --git a/examples/qwen3-vl-4B-rlvr_megatron/run_rlvr_pipeline.sh b/examples/qwen3-vl-4B-rlvr_megatron/run_rlvr_pipeline.sh
old mode 100644
new mode 100755
index 9a8f0ef42..c7875c344
--- a/examples/qwen3-vl-4B-rlvr_megatron/run_rlvr_pipeline.sh
+++ b/examples/qwen3-vl-4B-rlvr_megatron/run_rlvr_pipeline.sh
@@ -1,5 +1,8 @@
 #!/bin/bash
 set +x
 
+# fix cudnn for roll-image
+# mv /usr/local/lib/python3.12/dist-packages/torch/lib/../../nvidia/cudnn /usr/local/lib/python3.12/dist-packages/torch/lib/../../nvidia/cudnn_bak
+
 CONFIG_PATH=$(basename $(dirname $0))
-python examples/start_rlvr_vl_pipeline.py --config_path $CONFIG_PATH  --config_name rlvr_megatron
+python examples/start_rlvr_vl_pipeline.py --config_path $CONFIG_PATH  --config_name rlvr_megatron_80G
diff --git a/examples/qwen3.5-27B-rlvr_megatron/rlvr_megatron_80GB.yaml b/examples/qwen3.5-27B-rlvr_megatron/rlvr_megatron_80GB.yaml
new file mode 100644
index 000000000..4892bed23
--- /dev/null
+++ b/examples/qwen3.5-27B-rlvr_megatron/rlvr_megatron_80GB.yaml
@@ -0,0 +1,163 @@
+defaults:
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen3_5_27B_rlvr" 
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/models
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: ./output/tensorboard
+
+max_steps: 500
+save_steps: 100
+eval_steps: 20
+logging_steps: 1
+resume_from_checkpoint: false
+
+rollout_batch_size: 256
+num_return_sequences_in_group: 8
+is_num_return_sequences_expand: true
+prompt_length: 2048
+response_length: 4096
+
+ppo_epochs: 1
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 10.0
+whiten_advantages: false
+init_kl_coef: 0.0
+adv_estimator: "grpo"
+use_kl_loss: true
+kl_loss_coef: 1.0e-2
+
+pretrain: Qwen/Qwen3.5-27B
+
+validation:
+ data_args:
+   file_name:
+     - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_math_megabench_237.parquet
+     - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_detection_coco_test_multi_2000.parquet
+   dataset_dir: ./
+   preprocessing_num_workers: 32
+ generating_args:
+   max_new_tokens: ${response_length}
+   top_p: 0.99
+   top_k: 100
+   num_beams: 1
+   temperature: 0.99
+   num_return_sequences: 1
+ eval_steps: ${eval_steps}
+
+actor_train:
+  model_args:
+    flash_attn: sdpa
+    attn_implementation: sdpa
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    freeze_module_prefix: vision_model
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 1.0e-2
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 512
+    warmup_steps: 0
+    num_train_epochs: 50
+  data_args:
+    # use One-RL-to-See-Them-All/Orsta-Data-47k as train dataset
+    # download from https://huggingface.co/datasets/One-RL-to-See-Them-All/Orsta-Data-47k
+    file_name:
+      - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/train/train_detection_v3det_4000.parquet
+      - /data/oss_bucket_0/yuzhao/data/One-RL-to-See-Them-All/Orsta-Data-47k/train/train_math_mmmath_3539.parquet
+    domain_interleave_probs:
+      math: 0.5
+      cv_detection: 0.5
+    dataset_dir: ./
+    messages: prompt
+    preprocessing_num_workers: 32
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      sequence_parallel: true
+      recompute_granularity: selective
+      tensor_model_parallel_size: 4
+      pipeline_model_parallel_size: 2
+      overlap_grad_reduce: true
+      use_distributed_optimizer: true
+      bf16: true
+  device_mapping: list(range(0,32))
+  infer_batch_size: 1
+
+actor_infer:
+  model_args:
+    flash_attn: fa2
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.75
+      block_size: 16
+      max_model_len: 8192
+      load_format: dummy
+      tensor_parallel_size: 4
+      optimization_level: 1
+      sleep_level: 2
+  num_gpus_per_worker: 2
+  device_mapping: list(range(0,32))
+  infer_batch_size: 1
+
+reference:
+  model_args:
+    flash_attn: sdpa
+    attn_implementation: sdpa
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      tensor_model_parallel_size: 4
+      bf16: true
+  device_mapping: list(range(0,32))
+  infer_batch_size: 4
+
+rewards:
+  math:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${pretrain}
+    # data source whose ability is math in One-RL-to-See-Them-All/Orsta-Data-47k
+    tag_included: [mm_math, megabench_math]
+    world_size: 8
+    infer_batch_size: 1
+  cv_detection:
+    worker_cls: roll.pipeline.rlvr.rewards.detection_reward_worker.DetectionRewardWorker
+    model_args:
+      model_name_or_path: ${pretrain}
+    # data source whose ability is cv_detection in One-RL-to-See-Them-All/Orsta-Data-47k
+    tag_included: [v3det_train, object365_train, coco_val_multi_test]
+    world_size: 8
+    infer_batch_size: 1
diff --git a/examples/qwen3.5-27B-rlvr_megatron/run_rlvr_pipeline.sh b/examples/qwen3.5-27B-rlvr_megatron/run_rlvr_pipeline.sh
new file mode 100644
index 000000000..d6b8c8fc7
--- /dev/null
+++ b/examples/qwen3.5-27B-rlvr_megatron/run_rlvr_pipeline.sh
@@ -0,0 +1,5 @@
+#!/bin/bash
+set +x
+
+CONFIG_PATH=$(basename $(dirname $0))
+python examples/start_rlvr_vl_pipeline.py --config_path $CONFIG_PATH  --config_name rlvr_megatron_80GB
\ No newline at end of file
diff --git a/examples/qwen3-30BA3B-rlvr_megatron/submit_pipeline_amd.sh b/examples/qwen3.5-27B-rlvr_megatron/submit_pipeline.sh
similarity index 74%
rename from examples/qwen3-30BA3B-rlvr_megatron/submit_pipeline_amd.sh
rename to examples/qwen3.5-27B-rlvr_megatron/submit_pipeline.sh
index f2937e32e..c7d91c093 100644
--- a/examples/qwen3-30BA3B-rlvr_megatron/submit_pipeline_amd.sh
+++ b/examples/qwen3.5-27B-rlvr_megatron/submit_pipeline.sh
@@ -3,21 +3,15 @@ set +x
 source "examples/scripts/config.sh"
 
 WORKER_COUNT=4
-CONFIG_FILE="rlvr_config_amd.yaml" 
+CONFIG_FILE="rlvr_megatron_80GB.yaml"
 # 替换为mos uri
 NEBULA_MODEL=""
-ENTRY_FILE="examples/start_rlvr_pipeline.py"
+ENTRY_FILE="examples/start_rlvr_vl_pipeline.py"
 
 CONFIG_PATH=$(basename $(dirname $0))
 CONFIG_NAME="${CONFIG_FILE%.yaml}"
 JOB_NAME="$CONFIG_PATH-$CONFIG_NAME"
 
-
-QUEUE="nebula_test2_308x_gpu_hang"
-# QUEUE="nebula_test_308x"
-ENVS="NCCL_PF_UCM_TIMEOUT=600000,NCCL_SOCKET_IFNAME=bond0"
-# ENVS="NCCL_PF_UCM_TIMEOUT=600000"
-
 echo "JOB_NAME: ${JOB_NAME}"
 echo "WORKER_COUNT: ${WORKER_COUNT}"
 echo "CONFIG_NAME: ${CONFIG_NAME}"
@@ -30,14 +24,16 @@ mdl_args="--queue=${QUEUE} \
         --entry=${ENTRY_FILE} \
         --worker_count=${WORKER_COUNT}  \
         --file.cluster_file=examples/scripts/cluster.json \
+        --oss_access_id=${OSS_ACCESS_ID} \
+        --oss_access_key=${OSS_ACCESS_KEY} \
+        --oss_bucket=${OSS_BUCKET} \
+        --oss_endpoint=${OSS_ENDPOINT} \
         --job_name=${JOB_NAME} \
-        --algo_name=pytorch280 \
-        --requirements_file_name=nebula_patch/requirements/requirements_torch280_vllm_amd.txt \
+        --algo_name=pytorch2100_py310_cu128 \
+        --requirements_file_name=nebula_patch/requirements/requirements_torch2100_vllm.txt \
         --oss_appendable=true \
         --_NEBULA_MODEL=${NEBULA_MODEL} \
         --nebula_model=${NEBULA_MODEL} \
-        --env=${ENVS} \
-        --force \
         "
 if [ -n "${OPENLM_TOKEN}" ]; then
     mdl_args="${mdl_args} --env=OPENLM_TOKEN=${OPENLM_TOKEN}"
diff --git a/examples/qwen3.5-35BA3-rlvr_megatron/rlvr_megatron_80GB.yaml b/examples/qwen3.5-35BA3-rlvr_megatron/rlvr_megatron_80GB.yaml
new file mode 100644
index 000000000..042d87359
--- /dev/null
+++ b/examples/qwen3.5-35BA3-rlvr_megatron/rlvr_megatron_80GB.yaml
@@ -0,0 +1,173 @@
+defaults:
+  - ../config/deepspeed_zero@_here_
+  - ../config/deepspeed_zero2@_here_
+  - ../config/deepspeed_zero3@_here_
+  - ../config/deepspeed_zero3_cpuoffload@_here_
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "qwen3_5_35BA3_rlvr" 
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+checkpoint_config:
+  type: file_system
+  output_dir: /data/cpfs_0/models
+
+track_with: tensorboard
+tracker_kwargs:
+  log_dir: ./output/tensorboard
+
+max_steps: 500
+save_steps: 100
+eval_steps: 20
+logging_steps: 1
+resume_from_checkpoint: false
+
+rollout_batch_size: 256
+num_return_sequences_in_group: 8
+is_num_return_sequences_expand: true
+prompt_length: 2048
+response_length: 4096
+
+ppo_epochs: 1
+value_clip: 0.5
+reward_clip: 10
+advantage_clip: 10.0
+whiten_advantages: false
+init_kl_coef: 0.0
+adv_estimator: "grpo"
+use_kl_loss: true
+kl_loss_coef: 1.0e-2
+
+pretrain: Qwen/Qwen3.5-35B-A3B
+
+validation:
+ data_args:
+   file_name:
+     - data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_math_megabench_237.parquet
+     - data/One-RL-to-See-Them-All/Orsta-Data-47k/test/test_detection_coco_test_multi_2000.parquet
+   dataset_dir: ./
+   preprocessing_num_workers: 32
+ generating_args:
+   max_new_tokens: ${response_length}
+   top_p: 0.99
+   top_k: 100
+   num_beams: 1
+   temperature: 0.99
+   num_return_sequences: 1
+ eval_steps: ${eval_steps}
+
+actor_train:
+  model_args:
+    flash_attn: sdpa
+    attn_implementation: sdpa
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    freeze_module_prefix: vision_model
+  training_args:
+    learning_rate: 1.0e-6
+    weight_decay: 1.0e-2
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 256
+    warmup_steps: 0
+    num_train_epochs: 50
+  data_args:
+    # use One-RL-to-See-Them-All/Orsta-Data-47k as train dataset
+    # download from https://huggingface.co/datasets/One-RL-to-See-Them-All/Orsta-Data-47k
+    file_name:
+      - data/One-RL-to-See-Them-All/Orsta-Data-47k/train/train_detection_v3det_4000.parquet
+      - data/One-RL-to-See-Them-All/Orsta-Data-47k/train/train_math_mmmath_3539.parquet
+    domain_interleave_probs:
+      math: 0.5
+      cv_detection: 0.5
+    dataset_dir: ./
+    messages: prompt
+    preprocessing_num_workers: 32
+  strategy_args:
+    strategy_name: megatron_train
+    strategy_config:
+      sequence_parallel: true
+      tensor_model_parallel_size: 1
+      context_parallel_size: 1
+      expert_model_parallel_size: 8
+      pipeline_model_parallel_size: 2
+      use_distributed_optimizer: true
+      moe_token_dispatcher_type: alltoall
+      recompute_granularity: selective
+      recompute_modules: "moe,layernorm"
+      bias_activation_fusion: true
+      apply_rope_fusion: true
+      moe_grouped_gemm: true
+      moe_shared_expert_overlap: true
+      bf16: true
+  device_mapping: list(range(0,16))
+  infer_batch_size: 1
+
+actor_infer:
+  model_args:
+    flash_attn: fa2
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: ${num_return_sequences_in_group}
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.65
+      max_model_len: 8192
+      load_format: dummy
+      tensor_parallel_size: 2
+      optimization_level: 1
+      sleep_level: 2
+  num_gpus_per_worker: 2
+  device_mapping: list(range(0,16))
+  infer_batch_size: 1
+
+reference:
+  model_args:
+    flash_attn: sdpa
+    attn_implementation: sdpa
+    disable_gradient_checkpointing: true
+    dtype: bf16
+    model_type: ~
+  strategy_args:
+    strategy_name: megatron_infer
+    strategy_config:
+      sequence_parallel: true
+      tensor_model_parallel_size: 1
+      context_parallel_size: 1
+      pipeline_model_parallel_size: 1
+      expert_model_parallel_size: 4
+      bf16: true
+  device_mapping: list(range(0,16))
+  infer_batch_size: 1
+
+rewards:
+  math:
+    worker_cls: roll.pipeline.rlvr.rewards.math_rule_reward_worker.MathRuleRewardWorker
+    model_args:
+      model_name_or_path: ${pretrain}
+    # data source whose ability is math in One-RL-to-See-Them-All/Orsta-Data-47k
+    tag_included: [mm_math, megabench_math]
+    world_size: 8
+    infer_batch_size: 1
+  cv_detection:
+    worker_cls: roll.pipeline.rlvr.rewards.detection_reward_worker.DetectionRewardWorker
+    model_args:
+      model_name_or_path: ${pretrain}
+    # data source whose ability is cv_detection in One-RL-to-See-Them-All/Orsta-Data-47k
+    tag_included: [v3det_train, object365_train, coco_val_multi_test]
+    world_size: 8
+    infer_batch_size: 1
diff --git a/examples/qwen3.5-35BA3-rlvr_megatron/run_rlvr_pipeline.sh b/examples/qwen3.5-35BA3-rlvr_megatron/run_rlvr_pipeline.sh
new file mode 100644
index 000000000..783d58bf1
--- /dev/null
+++ b/examples/qwen3.5-35BA3-rlvr_megatron/run_rlvr_pipeline.sh
@@ -0,0 +1,5 @@
+#!/bin/bash
+set +x
+
+CONFIG_PATH=$(basename $(dirname $0))
+python examples/start_rlvr_vl_pipeline.py --config_path $CONFIG_PATH  --config_name rlvr_megatron_80GB.yaml
\ No newline at end of file
diff --git a/examples/qwen2.5-7B-rlvr_megatron/submit_pipeline_amd_zero3_lora.sh b/examples/qwen3.5-35BA3-rlvr_megatron/submit_pipeline.sh
similarity index 75%
rename from examples/qwen2.5-7B-rlvr_megatron/submit_pipeline_amd_zero3_lora.sh
rename to examples/qwen3.5-35BA3-rlvr_megatron/submit_pipeline.sh
index 25016bfa5..43d7d276e 100644
--- a/examples/qwen2.5-7B-rlvr_megatron/submit_pipeline_amd_zero3_lora.sh
+++ b/examples/qwen3.5-35BA3-rlvr_megatron/submit_pipeline.sh
@@ -3,18 +3,15 @@ set +x
 source "examples/scripts/config.sh"
 
 WORKER_COUNT=2
-CONFIG_FILE="rlvr_lora_zero3_amd.yaml"
+CONFIG_FILE="rlvr_megatron_80GB.yaml"
 # 替换为mos uri
 NEBULA_MODEL=""
-ENTRY_FILE="examples/start_rlvr_pipeline.py"
+ENTRY_FILE="examples/start_rlvr_vl_pipeline.py"
 
 CONFIG_PATH=$(basename $(dirname $0))
 CONFIG_NAME="${CONFIG_FILE%.yaml}"
 JOB_NAME="$CONFIG_PATH-$CONFIG_NAME"
 
-QUEUE="nebula_test2_308x_gpu_hang"
-
-
 echo "JOB_NAME: ${JOB_NAME}"
 echo "WORKER_COUNT: ${WORKER_COUNT}"
 echo "CONFIG_NAME: ${CONFIG_NAME}"
@@ -23,18 +20,20 @@ echo "ENTRY_FILE: ${ENTRY_FILE}"
 
 args="--config_name ${CONFIG_NAME} --config_path ${CONFIG_PATH}"
 
-
 mdl_args="--queue=${QUEUE} \
         --entry=${ENTRY_FILE} \
         --worker_count=${WORKER_COUNT}  \
         --file.cluster_file=examples/scripts/cluster.json \
+        --oss_access_id=${OSS_ACCESS_ID} \
+        --oss_access_key=${OSS_ACCESS_KEY} \
+        --oss_bucket=${OSS_BUCKET} \
+        --oss_endpoint=${OSS_ENDPOINT} \
         --job_name=${JOB_NAME} \
-        --algo_name=pytorch260_rocm700rc4 \
-        --requirements_file_name=nebula_patch/requirements/requirements_torch260_vllm_amd.txt \
+        --algo_name=pytorch2100_py310_cu128 \
+        --requirements_file_name=nebula_patch/requirements/requirements_torch2100_vllm.txt \
         --oss_appendable=true \
         --_NEBULA_MODEL=${NEBULA_MODEL} \
         --nebula_model=${NEBULA_MODEL} \
-        --force \
         "
 if [ -n "${OPENLM_TOKEN}" ]; then
     mdl_args="${mdl_args} --env=OPENLM_TOKEN=${OPENLM_TOKEN}"
diff --git a/examples/start_agentic_pipeline.py b/examples/start_agentic_pipeline.py
index 29aa8ed2c..1b10c685f 100644
--- a/examples/start_agentic_pipeline.py
+++ b/examples/start_agentic_pipeline.py
@@ -6,6 +6,8 @@
 
 from roll.distributed.scheduler.initialize import init
 from roll.pipeline.agentic.agentic_config import AgenticConfig
+from roll.utils.import_utils import safe_import_class
+from roll.utils.str_utils import print_pipeline_config
 
 
 def main():
@@ -19,14 +21,17 @@ def main():
     initialize(config_path=args.config_path, job_name="app")
     cfg = compose(config_name=args.config_name)
 
-    print(OmegaConf.to_yaml(cfg, resolve=True))
-
     ppo_config = from_dict(data_class=AgenticConfig, data=OmegaConf.to_container(cfg, resolve=True))
 
     init()
-    from roll.pipeline.agentic.agentic_pipeline import AgenticPipeline
 
-    pipeline = AgenticPipeline(pipeline_config=ppo_config)
+    print_pipeline_config(ppo_config)
+
+    pipeline_cls = getattr(cfg, "pipeline_cls", "roll.pipeline.agentic.agentic_pipeline.AgenticPipeline")
+    if isinstance(pipeline_cls, str):
+        pipeline_cls = safe_import_class(pipeline_cls)
+
+    pipeline = pipeline_cls(pipeline_config=ppo_config)
 
     pipeline.run()
 
diff --git a/examples/start_onpolicy_distill_pipeline.py b/examples/start_onpolicy_distill_pipeline.py
new file mode 100644
index 000000000..0fb7cb696
--- /dev/null
+++ b/examples/start_onpolicy_distill_pipeline.py
@@ -0,0 +1,79 @@
+"""
+On-Policy Distill Pipeline Launcher
+
+Supports both RLVR and Agentic pipelines based on `pure_opd_pipeline_type` config field:
+- 'rlvr' (default): Uses RLVRConfig + RLVRPipeline
+- 'agentic': Uses AgenticConfig + AgenticPipeline
+"""
+
+import argparse
+
+from dacite import from_dict, Config
+from hydra import compose, initialize
+from omegaconf import OmegaConf
+
+from roll.distributed.scheduler.initialize import init
+from roll.pipeline.rlvr.rlvr_config import RLVRConfig
+from roll.pipeline.rlvr.rlvr_pipeline import RLVRPipeline
+from roll.pipeline.agentic.agentic_config import AgenticConfig
+from roll.pipeline.agentic.agentic_pipeline import AgenticPipeline
+
+def main():
+    parser = argparse.ArgumentParser(description="On-Policy Distill Pipeline")
+    parser.add_argument(
+        "--config_path",
+        type=str,
+        default="examples/qwen3-8B-onpolicy-distill-megatron",
+        help="Directory path where the config file is located"
+    )
+    parser.add_argument(
+        "--config_name",
+        type=str,
+        default="onpolicy_distill_config",
+        help="Name of the config file (without extension)"
+    )
+
+    args = parser.parse_args()
+
+    # Initialize Hydra
+    initialize(config_path=args.config_path, job_name="onpolicy_distill")
+    cfg = compose(config_name=args.config_name)
+
+    # Print configuration
+    print("=" * 80)
+    print("On-Policy Distill Pipeline Config:")
+    print("=" * 80)
+    print(OmegaConf.to_yaml(cfg, resolve=True))
+    print("=" * 80)
+
+    # Convert to dict
+    config_dict = OmegaConf.to_container(cfg, resolve=True)
+
+    # Force set is_pure_opd=True (this launcher is for pure OPD mode only)
+    config_dict["is_pure_opd"] = True
+
+    # Determine pipeline type from config
+    pure_opd_pipeline_type = config_dict.get("pure_opd_pipeline_type", "rlvr")
+
+    # Configure dacite to allow internal fields (prefixed with _)
+    dacite_config = Config(check_types=False)
+
+    if pure_opd_pipeline_type == "agentic":
+        print("OPD pipeline type: agentic")
+        pipeline_config = from_dict(data_class=AgenticConfig, data=config_dict, config=dacite_config)
+        pipeline_cls = AgenticPipeline
+    else:
+        print("OPD pipeline type: rlvr")
+        pipeline_config = from_dict(data_class=RLVRConfig, data=config_dict, config=dacite_config)
+        pipeline_cls = RLVRPipeline
+
+    # Initialize Ray
+    init()
+
+    # Create and run pipeline
+    pipeline = pipeline_cls(pipeline_config=pipeline_config)
+    pipeline.run()
+
+
+if __name__ == "__main__":
+    main()
\ No newline at end of file
diff --git a/examples/start_rlvr_vlmath_pipeline.py b/examples/start_rlvr_vlmath_pipeline.py
deleted file mode 100644
index cb7cb41ba..000000000
--- a/examples/start_rlvr_vlmath_pipeline.py
+++ /dev/null
@@ -1,34 +0,0 @@
-import argparse
-
-from dacite import from_dict
-from hydra.experimental import compose, initialize
-from omegaconf import OmegaConf
-
-from roll.distributed.scheduler.initialize import init
-from roll.pipeline.rlvr.rlvr_math_vlm_pipeline import RLVRConfig, RLVRMathVLMPipeline
-
-
-def main():
-    parser = argparse.ArgumentParser()
-    parser.add_argument("--config_path", help="The path of the main configuration file", default="config")
-    parser.add_argument(
-        "--config_name", help="The name of the main configuration file (without extension).", default="sppo_config"
-    )
-    args = parser.parse_args()
-
-    initialize(config_path=args.config_path, job_name="app")
-    cfg = compose(config_name=args.config_name)
-
-    print(OmegaConf.to_yaml(cfg, resolve=True))
-
-    ppo_config = from_dict(data_class=RLVRConfig, data=OmegaConf.to_container(cfg, resolve=True))
-
-    init()
-
-    pipeline = RLVRMathVLMPipeline(pipeline_config=ppo_config)
-
-    pipeline.run()
-
-
-if __name__ == "__main__":
-    main()
diff --git a/examples/wan2.2-14B-reward_fl_ds/reward_fl_config.yaml b/examples/wan2.2-14B-reward_fl_ds/reward_fl_config.yaml
index b950a1dde..7c9c2b5fd 100644
--- a/examples/wan2.2-14B-reward_fl_ds/reward_fl_config.yaml
+++ b/examples/wan2.2-14B-reward_fl_ds/reward_fl_config.yaml
@@ -45,6 +45,9 @@ actor_train:
       num_inference_steps: 8
       mid_timestep: 4
       final_timestep: 7
+      lora_base_model: dit2
+      lora_target_modules: q,k,v,o,ffn.0,ffn.2
+      lora_rank: 32
       
   training_args:
     learning_rate: 2.5e-6
diff --git a/mcore_adapter/Makefile b/mcore_adapter/Makefile
index 2582a04fb..c86cff070 100644
--- a/mcore_adapter/Makefile
+++ b/mcore_adapter/Makefile
@@ -2,22 +2,27 @@
 
 help:
 	@echo "Available commands:"
-	@echo "  make clean    - Remove build artifacts and temporary files"
-	@echo "  make build    - Build the wheel package"
-	@echo "  make build-release      - Clean and build"
+	@echo "  make clean           - Remove build artifacts and temporary files"
+	@echo "  make build           - Build the wheel package"
+	@echo "  make build-release   - Clean and build"
+	@echo "  make install-build   - Install build tool if not present"
 
 clean:
 	@echo "Cleaning up..."
 	rm -rf dist/
 	rm -rf build/
+	rm -rf *.egg-info
 	find . -type f -name '*.pyc' -delete
 	find . -type d -name '__pycache__' -delete
 
+install-build:
+	@echo "Installing build tool..."
+	pip install --upgrade build
+
 build:
-	@echo "Building wheel package..."
-	python setup.py bdist_wheel
-	python setup.py sdist
+	@echo "Building wheel and source distribution..."
+	python -m build
 
 build-release: clean build
 
-.PHONY: help clean build build-release
+.PHONY: help clean build build-release install-build
diff --git a/mcore_adapter/pyproject.toml b/mcore_adapter/pyproject.toml
new file mode 100644
index 000000000..3ef6bf6be
--- /dev/null
+++ b/mcore_adapter/pyproject.toml
@@ -0,0 +1,42 @@
+[build-system]
+requires = ["setuptools>=68.0", "wheel"]
+build-backend = "setuptools.build_meta"
+
+[project]
+name = "mcore_adapter"
+version = "0.9.0"
+description = ""
+requires-python = ">=3.8.13"
+dependencies = [
+    "megatron-core>=0.15.0,<0.17.0",
+    "transformers>=4.50.0",
+    "accelerate>=0.27.2",
+]
+
+[project.optional-dependencies]
+dev = [
+    "megatron-core==0.16.0.dev0",
+]
+llama = [
+    "megatron-llama-core",
+]
+
+[tool.setuptools.packages.find]
+where = ["src"]
+
+[tool.black]
+line-length = 119
+target-version = ['py310']
+
+[tool.ruff]
+lint.ignore = ["E501", "E741", "W605"]
+lint.select = ["E", "F", "I", "W"]
+line-length = 119
+
+# Ignore import violations in all `__init__.py` files.
+[tool.ruff.lint.per-file-ignores]
+"__init__.py" = ["E402", "F401", "F403", "F811"]
+
+[tool.ruff.lint.isort]
+lines-after-imports = 2
+known-first-party = ["mcore_adapter"]
diff --git a/mcore_adapter/requirements.txt b/mcore_adapter/requirements.txt
index d47035d4a..01d978967 100644
--- a/mcore_adapter/requirements.txt
+++ b/mcore_adapter/requirements.txt
@@ -1,3 +1,5 @@
-megatron-core>=0.13.0,<0.14.0
-transformers>=4.48
+# install either megatron-core or megatron-llama-core
+megatron-core>=0.15.0,<0.17.0
+# megatron-llama-core==0.7.0
+transformers>=4.50.0
 accelerate>=0.27.2
diff --git a/mcore_adapter/setup.py b/mcore_adapter/setup.py
deleted file mode 100644
index 002bfec03..000000000
--- a/mcore_adapter/setup.py
+++ /dev/null
@@ -1,30 +0,0 @@
-import os
-import re
-
-from setuptools import find_packages, setup
-
-
-def get_version():
-    with open(os.path.join("src", "mcore_adapter", "__init__.py"), "r", encoding="utf-8") as f:
-        file_content = f.read()
-        pattern = r"{0}\W*=\W*\"([^\"]+)\"".format("__version__")
-        (version,) = re.findall(pattern, file_content)
-        return version
-
-
-def get_requires():
-    with open("requirements.txt", "r", encoding="utf-8") as f:
-        file_content = f.read()
-        lines = [line.strip() for line in file_content.strip().split("\n") if not line.startswith("#")]
-        return lines
-
-
-setup(
-    name="mcore_adapter",
-    version=get_version(),
-    description="",
-    package_dir={"": "src"},
-    packages=find_packages("src"),
-    install_requires=get_requires(),
-    python_requires=">=3.8.13",
-)
diff --git a/mcore_adapter/src/mcore_adapter/__init__.py b/mcore_adapter/src/mcore_adapter/__init__.py
index a0c9e6110..9496939a4 100644
--- a/mcore_adapter/src/mcore_adapter/__init__.py
+++ b/mcore_adapter/src/mcore_adapter/__init__.py
@@ -3,5 +3,4 @@
 from .training_args import Seq2SeqTrainingArguments, TrainingArguments
 
 
-__version__ = "0.7.0.dev0"
 __all__ = ["McaModelConfig", "McaGPTModel", "TrainingArguments", "Seq2SeqTrainingArguments", "McaTrainer"]
diff --git a/mcore_adapter/src/mcore_adapter/adapters/__init__.py b/mcore_adapter/src/mcore_adapter/adapters/__init__.py
index b223260a7..01a2123cf 100644
--- a/mcore_adapter/src/mcore_adapter/adapters/__init__.py
+++ b/mcore_adapter/src/mcore_adapter/adapters/__init__.py
@@ -1,4 +1,6 @@
-from ..utils import get_logger, is_peft_available
+from transformers.utils import is_peft_available
+
+from ..utils import get_logger
 
 
 logger = get_logger(__name__)
@@ -13,7 +15,7 @@
     )
 else:
 
-    def apply_megatron_lora(*args, **kwargs):
+    def apply_megatron_lora():
         raise ValueError("PEFT is not available. Please install PEFT to use LoRA adapters.")
 
     def find_all_linear_modules(model):
diff --git a/mcore_adapter/src/mcore_adapter/adapters/lora_layer.py b/mcore_adapter/src/mcore_adapter/adapters/lora_layer.py
index 88980555b..a7a15d480 100644
--- a/mcore_adapter/src/mcore_adapter/adapters/lora_layer.py
+++ b/mcore_adapter/src/mcore_adapter/adapters/lora_layer.py
@@ -53,8 +53,6 @@ def __init__(
         super().__init__(config=config)
         LoraLayer.__init__(self, base_layer=base_layer)
 
-        # lora needs to be forced to upgrade to 32-bit precision, otherwise it will overflow
-        self.config.params_dtype = torch.float32
         if use_dora:
             raise ValueError(f"{self.__class__.__name__} does not support DoRA yet, please set it to False")
         self.is_grouped = isinstance(base_layer, TEGroupedLinear)
@@ -84,7 +82,15 @@ def _create_lora_layers(self, r, lora_bias, **kwargs):
         raise NotImplementedError("_create_lora_layers must be implemented in subclasses")
 
     def update_layer(
-        self, adapter_name, r, *, lora_alpha, lora_dropout, init_lora_weights, use_rslora, lora_bias, **kwargs
+        self,
+        adapter_name,
+        r,
+        lora_alpha,
+        lora_dropout,
+        init_lora_weights,
+        use_rslora: bool = False,
+        lora_bias: bool = False,
+        **kwargs,
     ):
         if r <= 0:
             raise ValueError(f"`r` should be a positive integer value but the value passed is {r}")
@@ -99,11 +105,11 @@ def update_layer(
 
         # Create LoRA layers based on subclass implementation
         lora_layer_kwargs = {
-            "skip_bias_add": False,
-            "init_method": self.config.init_method,
             "config": self.config,
+            "init_method": self.config.init_method,
             "is_expert": self.is_expert,
-            "tp_group": self.base_layer.tp_group
+            "skip_bias_add": False,
+            "tp_group": self.base_layer.tp_group,
         }
         lora_a, lora_b = self._create_lora_layers(r, lora_bias, **lora_layer_kwargs)
 
@@ -243,7 +249,8 @@ def forward(self, x: torch.Tensor, *args: Any, **kwargs: Any):
                 )
                 if isinstance(lora_result, tuple):
                     lora_result = lora_result[0]
-                lora_result = lora_result * scaling
+                if scaling != 1.0:
+                    lora_result = lora_result * scaling
 
                 if self.sequence_parallel and self.base_layer.parallel_mode == "row":
                     lora_result = scatter_to_sequence_parallel_region(lora_result)
@@ -308,6 +315,40 @@ def merge(self, safe_merge: bool = False, adapter_names: Optional[list[str]] = N
         if origin_device.type == "cpu":
             self.to(device=origin_device)
 
+    def unmerge(self) -> None:
+        """
+        Unmerge all merged adapter weights from the base weights.
+
+        This method reverses the merge operation by subtracting the LoRA delta weights
+        from the base layer weights, restoring the original base weights.
+        """
+        if not self.merged:
+            # No adapters to unmerge
+            return
+
+        base_layer = self.get_base_layer()
+        origin_device = base_layer.weight0.device if self.is_grouped else base_layer.weight.device
+        if origin_device.type == "cpu":
+            self.to(device=current_platform.current_device())
+
+        for active_adapter in self.merged_adapters:
+            if active_adapter in self.lora_A.keys():
+                if self.is_grouped:
+                    orig_weights = [getattr(base_layer, f"weight{i}") for i in range(base_layer.num_gemms)]
+                else:
+                    orig_weights = [base_layer.weight]
+
+                delta_weights = self.get_delta_weights(active_adapter)
+                for orig_weight, delta_weight in zip(orig_weights, delta_weights):
+                    # Subtract the delta weight to unmerge
+                    orig_weight.data -= delta_weight
+
+        # Clear the merged adapters list
+        self.merged_adapters = []
+
+        if origin_device.type == "cpu":
+            self.to(device=origin_device)
+
     def sharded_state_dict(
         self,
         prefix: str = "",
@@ -406,6 +447,7 @@ def _create_lora_layers(self, r, lora_bias, **kwargs):
         in_features = self.in_features * self.tp_size
 
         if self.is_grouped:
+            r = r // self.config.moe_router_topk
             lora_a = TERowParallelGroupedLinear(
                 num_gemms=self.base_layer.num_gemms,
                 input_size=in_features,
@@ -449,6 +491,7 @@ def _create_lora_layers(self, r, lora_bias, **kwargs):
         out_features = self.out_features * self.tp_size
 
         if self.is_grouped:
+            r = r // self.config.moe_router_topk
             lora_a = TEGroupedLinear(
                 num_gemms=self.base_layer.num_gemms,
                 input_size=self.in_features,
@@ -502,7 +545,9 @@ def dispatch_megatron(
         new_module = LoraRouterParallelLinear(base_layer=target, adapter_name=adapter_name, **kwargs)
     elif isinstance(target_base_layer, (TERowParallelLinear, TERowParallelGroupedLinear)):
         new_module = LoraRowParallelLinear(base_layer=target, adapter_name=adapter_name, **kwargs)
-    elif isinstance(target_base_layer, (TEColumnParallelLinear, TEColumnParallelGroupedLinear, TELayerNormColumnParallelLinear)):
+    elif isinstance(
+        target_base_layer, (TEColumnParallelLinear, TEColumnParallelGroupedLinear, TELayerNormColumnParallelLinear)
+    ):
         new_module = LoraColumnParallelLinear(base_layer=target, adapter_name=adapter_name, **kwargs)
     elif isinstance(target_base_layer, (TELinear, TEGroupedLinear)):
         # default to column parallel linear for non-parallel linear layers
@@ -510,6 +555,7 @@ def dispatch_megatron(
 
     return new_module
 
+
 def patch_TELinear():
     def __repr__(self):
         return (
diff --git a/mcore_adapter/src/mcore_adapter/checkpointing.py b/mcore_adapter/src/mcore_adapter/checkpointing.py
index db548ef9e..df5c2667b 100644
--- a/mcore_adapter/src/mcore_adapter/checkpointing.py
+++ b/mcore_adapter/src/mcore_adapter/checkpointing.py
@@ -2,14 +2,6 @@
 
 import torch
 from megatron.core import dist_checkpointing, mpu
-from transformers.modeling_utils import (
-    SAFE_WEIGHTS_INDEX_NAME,
-    SAFE_WEIGHTS_NAME,
-    WEIGHTS_INDEX_NAME,
-    WEIGHTS_NAME,
-    get_checkpoint_shard_files,
-    load_state_dict,
-)
 
 from .constants import TRACKER_FILENAME
 from .utils import get_logger
diff --git a/mcore_adapter/src/mcore_adapter/constants.py b/mcore_adapter/src/mcore_adapter/constants.py
index 2f8b75138..6e1c44724 100644
--- a/mcore_adapter/src/mcore_adapter/constants.py
+++ b/mcore_adapter/src/mcore_adapter/constants.py
@@ -4,3 +4,5 @@
 DIST_OPTIMIZER_DIR = "dist_optimizer"
 
 HUGGINGFACE_AUTOMAP_CACHE = "./.cache/huggingface/automap"
+
+ADAPTER_CONFIG_NAME = "adapter_config.json"
diff --git a/mcore_adapter/src/mcore_adapter/initialize.py b/mcore_adapter/src/mcore_adapter/initialize.py
index 117a763fc..fa8f70457 100644
--- a/mcore_adapter/src/mcore_adapter/initialize.py
+++ b/mcore_adapter/src/mcore_adapter/initialize.py
@@ -5,11 +5,10 @@
 import torch
 from megatron.core import mpu, tensor_parallel
 
+from .platforms import current_platform
 from .training_args import TrainingArguments
 from .utils import get_logger
 
-from .platforms import current_platform
-
 
 logger = get_logger(__name__)
 
diff --git a/mcore_adapter/src/mcore_adapter/models/__init__.py b/mcore_adapter/src/mcore_adapter/models/__init__.py
index 9f68e4208..b88fe9191 100644
--- a/mcore_adapter/src/mcore_adapter/models/__init__.py
+++ b/mcore_adapter/src/mcore_adapter/models/__init__.py
@@ -9,9 +9,14 @@
     qwen2_moe,
     qwen2_vl,
     qwen3,
+    qwen3_5,
+    qwen3_5_moe,
     qwen3_moe,
     qwen3_next,
+    qwen3_omni,
     qwen3_vl,
+    qwen3_vl_moe,
+    seed_oss,
 )
 from .auto import AutoConfig, AutoModel
 from .model_config import McaModelConfig
diff --git a/mcore_adapter/src/mcore_adapter/models/converter/convert_utils.py b/mcore_adapter/src/mcore_adapter/models/converter/convert_utils.py
index 2d2cd7cdc..3cf7f805d 100644
--- a/mcore_adapter/src/mcore_adapter/models/converter/convert_utils.py
+++ b/mcore_adapter/src/mcore_adapter/models/converter/convert_utils.py
@@ -1,3 +1,4 @@
+import math
 import re
 from dataclasses import dataclass, field
 from importlib.metadata import version
@@ -7,6 +8,7 @@
 import torch.distributed as dist
 from megatron.core import mpu
 from packaging.version import Version as PkgVersion
+
 from ...platforms import current_platform
 
 
@@ -21,32 +23,74 @@
 MAX_SHARD_SIZE = 5_000_000_000  # 5GB
 
 
-def get_layer_index(weight_name: str, prefix: str):
+def get_layer_index(weight_name: str, prefix: str) -> Optional[int]:
+    """
+    1. megatron format: decoder.layers.{layer_index}.{weight} -> layer_index
+    2. mtp format: mtp.layers.{layer_index}.{weight} -> layer_index
+    3. hf format: model.layers.{layer_index}.{weight} -> layer_index
+    """
+    escaped_prefix = re.escape(prefix)
+    pattern = rf"^{escaped_prefix}(\d+)(?:\.|$)"
+    match = re.match(pattern, weight_name)
+    return int(match.group(1)) if match else None
+
+
+def get_moe_index(weight_name: str, prefix: str, moe_prefix: str) -> Optional[int]:
+    """
+    1. megatron format: decoder.layers.{layer_index}.mlp.experts.local_experts.{moe_index}.{weight} -> moe_index
+    2. mtp format: mtp.layers.{layer_index}.transformer_layer.mlp.experts.local_experts.{moe_index}.{weight} -> moe_index
+    """
     if not weight_name.startswith(prefix):
         return None
-    return int(weight_name.replace(prefix, "").split(".")[0])
+    escaped_prefix = re.escape(prefix)
+    escaped_moe_prefix = re.escape(moe_prefix)
+    pattern = rf"^({escaped_prefix}\d+{escaped_moe_prefix})(\d+)(?:\.|$)"
+    match = re.match(pattern, weight_name)
+    return int(match.group(2)) if match else None
+
+
+def get_layer_prefix(weight_name: str, prefix: str) -> str:
+    """
+    decoder.layers.{layer_index}.{weight} -> decoder.layers.{layer_index}
+    model.layers.{layer_index}.{weight} -> model.layers.{layer_index}
+    """
+    escaped_prefix = re.escape(prefix)
+    pattern = rf"^({escaped_prefix}\d+)"
+    if match := re.match(pattern, weight_name):
+        return match.group(1)
+    raise ValueError(f"Cannot get layer prefix from {weight_name=} with {prefix=}")
+
+
+def get_moe_prefix(weight_name: str, prefix: str, moe_prefix: str) -> str:
+    """
+    decoder.layers.{layer_index}.mlp.experts.local_experts.{moe_index}.{weight} -> decoder.layers.{layer_index}.mlp.experts.local_experts.{moe_index}
+    model.layers.{layer_index}.mlp.experts.{moe_index}.{weight} -> model.layers.{layer_index}.mlp.experts.{moe_index}
+    For qwen3_vl_moe:
+    model.language_model.layers.{layer_index}.mlp.experts.{weight} -> model.language_model.layers.{layer_index}.mlp.experts
+    """
+    escaped_prefix = re.escape(prefix)
+    escaped_moe_prefix = re.escape(moe_prefix)
+    pattern = rf"^({escaped_prefix}\d+{escaped_moe_prefix}\d+)"
+    if match := re.match(pattern, weight_name):
+        return match.group(1)
+    # For qwen3_vl_moe
+    pattern = rf"^({escaped_prefix}\d+{escaped_moe_prefix})"
+    if match := re.match(pattern, weight_name):
+        return match.group(1)
+    raise ValueError(f"Cannot get moe prefix from {weight_name=} with {prefix=} and {moe_prefix=}")
 
 
 def get_weight_prefix(weight_name: str, prefix: str, moe_prefix: str = None):
     if not weight_name.startswith(prefix):
         return ""
-    layer_index = get_layer_index(weight_name, prefix)
-    layer_prefix = prefix + str(layer_index)
-    if moe_prefix is None:
-        return layer_prefix
-    return layer_prefix + get_weight_prefix(weight_name[len(layer_prefix) :], prefix=moe_prefix)
+    if moe_prefix is not None and moe_prefix in weight_name:
+        return get_moe_prefix(weight_name, prefix, moe_prefix)
+    return get_layer_prefix(weight_name, prefix)
 
 
 def remove_weight_prefix(weight_name: str, prefix: str, moe_prefix: str = None):
     weight_prefix = get_weight_prefix(weight_name, prefix, moe_prefix)
-    return weight_name.replace(weight_prefix, "", 1)
-
-
-def get_moe_index(weight_name: str, prefix: str, moe_prefix: str = None):
-    if not weight_name.startswith(prefix):
-        return None
-    mos_layer_name = remove_weight_prefix(weight_name, prefix)
-    return get_layer_index(mos_layer_name, moe_prefix)
+    return weight_name.removeprefix(weight_prefix)
 
 
 def add_layer_prefix(
@@ -59,9 +103,13 @@ def add_layer_prefix(
     if not weight_name.startswith("."):
         # not weight in layer
         return weight_name
-    if moe_index is not None:
-        weight_name = add_layer_prefix(weight_name, moe_index, moe_prefix)
-    return prefix + str(layer_index) + weight_name
+
+    if moe_index is not None and moe_prefix is not None:
+        full_prefix = f"{prefix}{layer_index}{moe_prefix}{moe_index}"
+    else:
+        full_prefix = f"{prefix}{layer_index}"
+
+    return full_prefix + weight_name
 
 
 def convert_to_mca_prefix(weight_prefix: str, prefix: str, moe_prefix: str = None):
@@ -122,7 +170,9 @@ def add_mca_mtp_layer_prefix(weight_name: str, layer_index: Union[int, str], moe
         return weight_name
     if moe_index is not None:
         weight_name = add_layer_prefix(weight_name, moe_index, MCA_MTP_MOE_PREFIX)
-    has_transformer_layer = "self_attention" in weight_name or "mlp" in weight_name or "input_layernorm" in weight_name
+    has_transformer_layer = ".transformer_layer" not in weight_name and (
+        "self_attention" in weight_name or "mlp" in weight_name or "input_layernorm" in weight_name
+    )
     return MCA_MTP_PREFIX + str(layer_index) + (".transformer_layer" if has_transformer_layer else "") + weight_name
 
 
@@ -256,6 +306,28 @@ def get_te_version_str():
     return get_te_version() >= PkgVersion("1.9.0.dev0")
 
 
+def _noisy_mean_initialization(embed_weight: "torch.Tensor", num_new_tokens: int) -> None:
+    embedding_dim = embed_weight.size(1)
+    if torch.distributed.get_rank() == 0:
+        avg_weight = embed_weight[:-num_new_tokens].mean(dim=0, keepdim=True)
+        noise_weight = torch.empty_like(embed_weight[-num_new_tokens:])
+        noise_weight.normal_(mean=0, std=(1.0 / math.sqrt(embedding_dim)))
+        added_embed_weight = avg_weight + noise_weight
+        torch.distributed.broadcast(added_embed_weight.to(current_platform.current_device()), src=0)
+    else:
+        added_embed_weight = torch.empty_like(embed_weight[-num_new_tokens:], device=current_platform.current_device())
+        torch.distributed.broadcast(added_embed_weight, src=0)
+    embed_weight[-num_new_tokens:] = added_embed_weight.cpu()
+
+
+def resize_embedding_layer(original_mca_weight: torch.Tensor, resized_vocab_size: int):
+    mca_weight = original_mca_weight.clone()
+    original_vocab_size = mca_weight.size(0)
+    mca_weight.resize_((resized_vocab_size, mca_weight.size(1)))
+    _noisy_mean_initialization(mca_weight, resized_vocab_size - original_vocab_size)
+    return mca_weight
+
+
 @dataclass
 class StackedTensors:
     tensors: Optional[List["torch.Tensor"]]
@@ -295,6 +367,7 @@ def pop_tensor(self, named_tensors: Dict[str, "torch.Tensor"]):
     @staticmethod
     def pop_tensor_in_buffer(named_tensors: Dict[str, "torch.Tensor"], tensors_meta, buffer: "torch.Tensor"):
         for name, meta in tensors_meta.items():
+            meta = tensors_meta[name]
             bucket_start, tensor_start, save_bytes = meta["bucket_start"], meta["tensor_start"], meta["save_bytes"]
             tensor = named_tensors.get(name, None)
             if tensor is None:
diff --git a/mcore_adapter/src/mcore_adapter/models/converter/dist_converter.py b/mcore_adapter/src/mcore_adapter/models/converter/dist_converter.py
index f1a7e80b0..00ac1478e 100644
--- a/mcore_adapter/src/mcore_adapter/models/converter/dist_converter.py
+++ b/mcore_adapter/src/mcore_adapter/models/converter/dist_converter.py
@@ -3,12 +3,12 @@
 import warnings
 from dataclasses import dataclass, field
 from itertools import product
-from typing import TYPE_CHECKING, Any, Dict, List, Optional, Union
+from typing import TYPE_CHECKING, Any, Optional, Union
 
 import torch
 from megatron.core.transformer.pipeline_parallel_layer_layout import LayerType, PipelineParallelLayerLayout
 
-from ...utils import get_logger
+from ...utils import get_logger, is_megatron_llama
 from .convert_utils import (
     StackedTensors,
     add_mca_layer_prefix,
@@ -42,24 +42,30 @@ class DistParallelConfig:
     Dataclass for mapping weights to their respective parallelism strategies.
     """
 
-    pre_process_weights: List[str] = field(default_factory=list)
-    post_process_weights: List[str] = field(default_factory=list)
+    pre_process_weights: list[str] = field(default_factory=list)
+    post_process_weights: list[str] = field(default_factory=list)
+
     # tensor parallel
-    duplicated_weights: List[str] = field(default_factory=list)
-    column_parallel_weights: List[str] = field(default_factory=list)
-    row_parallel_weights: List[str] = field(default_factory=list)
-    swiglu_weights: List[str] = field(default_factory=list)
+    duplicated_weights: list[str] = field(default_factory=list)
+    column_parallel_weights: list[str] = field(default_factory=list)
+    row_parallel_weights: list[str] = field(default_factory=list)
+    swiglu_weights: list[str] = field(default_factory=list)
+
+    # linear attention
+    gdn_weights: list[str] = field(default_factory=list)
 
     # ungrouped TE name to grouped
-    grouped_duplicated_map: Dict[str, str]  = field(default_factory=dict)
-    grouped_column_map: Dict[str, str] = field(default_factory=dict)
-    grouped_row_map: Dict[str, str] = field(default_factory=dict)
+    grouped_duplicated_map: dict[str, str] = field(default_factory=dict)
+    grouped_column_map: dict[str, str] = field(default_factory=dict)
+    grouped_row_map: dict[str, str] = field(default_factory=dict)
 
     te_to_local_key_map: dict = field(default_factory=dict)
 
     def __post_init__(self):
         self.local_to_te_key_map = {v: k for k, v in self.te_to_local_key_map.items()}
-        self.grouped_duplicated_weights = list(self.grouped_duplicated_map.keys()) + list(self.grouped_duplicated_map.values())
+        self.grouped_duplicated_weights = list(self.grouped_duplicated_map.keys()) + list(
+            self.grouped_duplicated_map.values()
+        )
         self.grouped_column_weights = list(self.grouped_column_map.keys()) + list(self.grouped_column_map.values())
         self.grouped_row_weights = list(self.grouped_row_map.keys()) + list(self.grouped_row_map.values())
         self.grouped_map = {**self.grouped_duplicated_map, **self.grouped_column_map, **self.grouped_row_map}
@@ -79,6 +85,7 @@ def merge_configs(self, other: "DistParallelConfig") -> "DistParallelConfig":
             column_parallel_weights=self.column_parallel_weights + other.column_parallel_weights,
             row_parallel_weights=self.row_parallel_weights + other.row_parallel_weights,
             swiglu_weights=self.swiglu_weights + other.swiglu_weights,
+            gdn_weights=self.gdn_weights + other.gdn_weights,
             grouped_duplicated_map={**self.grouped_duplicated_map, **other.grouped_duplicated_map},
             grouped_column_map={**self.grouped_column_map, **other.grouped_column_map},
             grouped_row_map={**self.grouped_row_map, **other.grouped_row_map},
@@ -88,24 +95,24 @@ def merge_configs(self, other: "DistParallelConfig") -> "DistParallelConfig":
 
 lora_config = DistParallelConfig(
     duplicated_weights=[
-        ".self_attention.linear_proj.lora_B.*.weight",
-        ".self_attention.linear_qkv.lora_A.*.weight",
-        ".mlp.linear_fc1.lora_A.*.weight",
-        ".linear_fc1.lora_A.*.weight",
-        ".mlp.linear_fc2.lora_B.*.weight",
-        ".linear_fc2.lora_B.*.weight",
+        ".self_attention.linear_proj.lora_B.weight",
+        ".self_attention.linear_qkv.lora_A.weight",
+        ".mlp.linear_fc1.lora_A.weight",
+        ".linear_fc1.lora_A.weight",
+        ".mlp.linear_fc2.lora_B.weight",
+        ".linear_fc2.lora_B.weight",
     ],
     column_parallel_weights=[
-        ".self_attention.linear_qkv.lora_B.*.weight",
-        ".mlp.linear_fc1.lora_B.*.weight",
-        ".linear_fc1.lora_B.*.weight",
+        ".self_attention.linear_qkv.lora_B.weight",
+        ".mlp.linear_fc1.lora_B.weight",
+        ".linear_fc1.lora_B.weight",
     ],
     row_parallel_weights=[
-        ".self_attention.linear_proj.lora_A.*.weight",
-        ".mlp.linear_fc2.lora_A.*.weight",
-        ".linear_fc2.lora_A.*.weight",
+        ".self_attention.linear_proj.lora_A.weight",
+        ".mlp.linear_fc2.lora_A.weight",
+        ".linear_fc2.lora_A.weight",
     ],
-    swiglu_weights=[".mlp.linear_fc1.lora_B.*.weight", ".linear_fc1.lora_B.*.weight"],
+    swiglu_weights=[".mlp.linear_fc1.lora_B.weight", ".linear_fc1.lora_B.weight"],
 )
 
 
@@ -141,11 +148,11 @@ def merge_configs(self, other: "DistParallelConfig") -> "DistParallelConfig":
 
 lora_te_moe_config = DistParallelConfig(
     grouped_duplicated_map={
-        ".linear_fc1.lora_A.*.weight": ".mlp.experts.linear_fc1.lora_A.*.weight",
-        ".linear_fc2.lora_B.*.weight": ".mlp.experts.linear_fc2.lora_B.*.weight",
+        ".linear_fc1.lora_A.weight": ".mlp.experts.linear_fc1.lora_A.weight",
+        ".linear_fc2.lora_B.weight": ".mlp.experts.linear_fc2.lora_B.weight",
     },
-    grouped_column_map={".linear_fc1.lora_B.*.weight": ".mlp.experts.linear_fc1.lora_B.*.weight"},
-    grouped_row_map={".linear_fc2.lora_A.*.weight": ".mlp.experts.linear_fc2.lora_A.*.weight"},
+    grouped_column_map={".linear_fc1.lora_B.weight": ".mlp.experts.linear_fc1.lora_B.weight"},
+    grouped_row_map={".linear_fc2.lora_A.weight": ".mlp.experts.linear_fc2.lora_A.weight"},
 )
 
 
@@ -166,6 +173,7 @@ def merge_configs(self, other: "DistParallelConfig") -> "DistParallelConfig":
     ],
 )
 
+
 mla_dist_config = DistParallelConfig(
     pre_process_weights=[MCORE_WORD_EMBEDDING],
     post_process_weights=[MCORE_LM_HEAD, "decoder.final_layernorm.weight"],
@@ -206,10 +214,32 @@ def merge_configs(self, other: "DistParallelConfig") -> "DistParallelConfig":
 ).merge_configs(mtp_config)
 
 
-dist_configs: Dict[str, List[DistParallelConfig]] = {}
+megatron_llama_config = DistParallelConfig(
+    duplicated_weights=[".input_layernorm.weight"],
+    grouped_column_map={".linear_fc1.weight": ".mlp.weight1"},
+    grouped_row_map={".linear_fc2.weight": ".mlp.weight2"},
+)
+
+gdn_dist_config = DistParallelConfig(
+    duplicated_weights=[
+        ".self_attention.out_norm.weight",
+        ".self_attention.in_proj.layer_norm_weight",
+    ],
+    column_parallel_weights=[
+        ".self_attention.dt_bias",
+        ".self_attention.A_log",
+    ],
+    row_parallel_weights=[".self_attention.out_proj.weight"],
+    gdn_weights=[
+        ".self_attention.in_proj.weight",
+        ".self_attention.conv1d.weight",
+    ],
+)
+
+dist_configs: dict[str, list[DistParallelConfig]] = {}
 
 
-def register_dist_config(names: Union[str, List[str]], config: DistParallelConfig):
+def register_dist_config(names: Union[str, list[str]], config: DistParallelConfig):
     if not isinstance(names, list):
         names = [names]
     for name in names:
@@ -222,12 +252,27 @@ def get_dist_config(name) -> DistParallelConfig:
     return dist_config
 
 
+lora_shared_moe_dist_config = DistParallelConfig(
+    duplicated_weights=[
+        ".mlp.shared_experts.linear_fc1.lora_A.weight",
+        ".mlp.shared_experts.linear_fc2.lora_B.weight",
+    ],
+    column_parallel_weights=[
+        ".mlp.shared_experts.linear_fc1.lora_B.weight",
+    ],
+    row_parallel_weights=[
+        ".mlp.shared_experts.linear_fc2.lora_A.weight",
+    ],
+    swiglu_weights=[".mlp.shared_experts.linear_fc1.lora_B.weight"],
+)
+
+
 shared_moe_dist_config = DistParallelConfig(
     duplicated_weights=[".mlp.shared_experts.gate_weight"],
     row_parallel_weights=[".mlp.shared_experts.linear_fc2.weight"],
     swiglu_weights=[".mlp.shared_experts.linear_fc1.weight"],
     te_to_local_key_map={".pre_mlp_layernorm.weight": ".pre_mlp_layernorm.weight"},
-)
+).merge_configs(lora_shared_moe_dist_config)
 
 
 class DistConverter:
@@ -264,6 +309,8 @@ def __init__(
         dist_config = get_dist_config(mca_config.hf_model_type)
         if self.use_te_grouped_moe:
             dist_config = dist_config.merge_configs(te_moe_config)
+        if is_megatron_llama():
+            dist_config = dist_config.merge_configs(megatron_llama_config)
         self.config = dist_config
         self.layout: PipelineParallelLayerLayout = self.mca_config.pipeline_model_parallel_layout
 
@@ -273,7 +320,7 @@ def __init__(
             assert self.num_experts % self.mca_config.expert_model_parallel_size == 0
             self.num_layers_for_expert = self.num_experts // self.mca_config.expert_model_parallel_size
 
-        self.weights_waiting_for_convert: Dict[str, Dict[Union[int, str], "Tensor"]] = {}
+        self.weights_waiting_for_convert: dict[str, dict[Union[int, str], "Tensor"]] = {}
 
     def _get_num_layers_per_virtual_rank(self):
         num_layers = self.mca_config.num_layers
@@ -337,17 +384,15 @@ def is_pipeline_first_stage(self, vp_stage: int):
         return self.pipeline_model_parallel_rank == 0 and vp_stage == 0
 
     def _convert_column_parallel(self, weight: "Tensor"):
-        return torch.chunk(weight, self.mca_config.tensor_model_parallel_size, dim=0)[
-            self.tensor_model_parallel_rank
-        ]
+        return torch.chunk(weight, self.mca_config.tensor_model_parallel_size, dim=0)[self.tensor_model_parallel_rank]
 
-    def _revert_column_parallel(self, weights: List["Tensor"]):
+    def _revert_column_parallel(self, weights: list["Tensor"]):
         assert len(weights) == self.mca_config.tensor_model_parallel_size
         if len(weights) == 1:
             return weights[0]
         return torch.cat(weights, dim=0)
 
-    def handle_column_parallel(self, name: str, weights: Union["Tensor", List["Tensor"]]) -> Dict[str, "Tensor"]:
+    def handle_column_parallel(self, name: str, weights: Union["Tensor", list["Tensor"]]) -> dict[str, "Tensor"]:
         if self.revert:
             weight = self._revert_column_parallel(weights)
         else:
@@ -356,17 +401,15 @@ def handle_column_parallel(self, name: str, weights: Union["Tensor", List["Tenso
         return {name: weight}
 
     def _convert_row_parallel(self, weight: "Tensor"):
-        return torch.chunk(weight, self.mca_config.tensor_model_parallel_size, dim=1)[
-            self.tensor_model_parallel_rank
-        ]
+        return torch.chunk(weight, self.mca_config.tensor_model_parallel_size, dim=1)[self.tensor_model_parallel_rank]
 
-    def _revert_row_parallel(self, weights: List["Tensor"]):
+    def _revert_row_parallel(self, weights: list["Tensor"]):
         assert len(weights) == self.mca_config.tensor_model_parallel_size
         if len(weights) == 1:
             return weights[0]
         return torch.cat(weights, dim=1)
 
-    def handle_row_parallel(self, name: str, weights: Union["Tensor", List["Tensor"]]) -> Dict[str, "Tensor"]:
+    def handle_row_parallel(self, name: str, weights: Union["Tensor", list["Tensor"]]) -> dict[str, "Tensor"]:
         if self.revert:
             weight = self._revert_row_parallel(weights)
         else:
@@ -382,7 +425,7 @@ def _convert_swiglu(self, weight: "Tensor"):
         weight_v = self._convert_column_parallel(weight.tensors[1])
         return torch.cat([weight_w, weight_v], dim=0)
 
-    def _revert_swiglu(self, weights: List["Tensor"]):
+    def _revert_swiglu(self, weights: list["Tensor"]):
         weights = [torch.chunk(weight, 2, dim=0) for weight in weights]
         weights_w = [weight_w[0] for weight_w in weights]
         weights_v = [weight_v[1] for weight_v in weights]
@@ -390,7 +433,7 @@ def _revert_swiglu(self, weights: List["Tensor"]):
         weight_v = self._revert_column_parallel(weights_v)
         return StackedTensors([weight_w, weight_v], dim=0)
 
-    def handle_swiglu(self, name: str, weights: Union["Tensor", List["Tensor"]]) -> Dict[str, "Tensor"]:
+    def handle_swiglu(self, name: str, weights: Union["Tensor", list["Tensor"]]) -> dict[str, "Tensor"]:
         if self.revert:
             weight = self._revert_swiglu(weights)
         else:
@@ -398,6 +441,51 @@ def handle_swiglu(self, name: str, weights: Union["Tensor", List["Tensor"]]) ->
         name = self._name_relocate(name)
         return {name: weight}
 
+    def _convert_gdn(self, weight: "StackedTensors"):
+        # q, k, v, z, b, a for in_proj
+        # or q, k, v for conv1d
+        assert self.swiglu and isinstance(weight, StackedTensors) and weight.dim == 0, (
+            f"weight: {weight} swiglu: {self.swiglu}"
+        )
+        return torch.cat([self._convert_column_parallel(weight.tensors[i]) for i in range(len(weight.tensors))], dim=0)
+
+    def _revert_gdn(self, weights: list["Tensor"], split_shape: list[int]):
+        weights = [torch.split(weight, split_shape, dim=0) for weight in weights]
+        converted_weights = []
+        for i in range(len(split_shape)):
+            split_weights = [weight[i] for weight in weights]
+            converted_weight = self._revert_column_parallel(split_weights)
+            converted_weights.append(converted_weight)
+        return StackedTensors(converted_weights, dim=0)
+
+    def handle_gdn(self, name: str, weights: Union["Tensor", "StackedTensors", list["Tensor"]]) -> dict[str, "Tensor"]:
+        if self.revert:
+            qk_head_dim = self.mca_config.linear_key_head_dim
+            v_head_dim = self.mca_config.linear_value_head_dim
+            num_qk_heads = self.mca_config.linear_num_key_heads
+            num_v_heads = self.mca_config.linear_num_value_heads
+            qk_dim = qk_head_dim * num_qk_heads
+            v_dim = v_head_dim * num_v_heads
+            local_qk_dim = qk_dim // self.mca_config.tensor_model_parallel_size
+            local_v_dim = v_dim // self.mca_config.tensor_model_parallel_size
+            local_num_v_heads = num_v_heads // self.mca_config.tensor_model_parallel_size
+            if "in_proj" in name:
+                split_shape = [
+                    local_qk_dim,
+                    local_qk_dim,
+                    local_v_dim,
+                    local_v_dim,
+                    local_num_v_heads,
+                    local_num_v_heads,
+                ]
+            elif "conv1d" in name:
+                split_shape = [local_qk_dim, local_qk_dim, local_v_dim]
+            weight = self._revert_gdn(weights, split_shape)
+        else:
+            weight = self._convert_gdn(weights)
+        name = self._name_relocate(name)
+        return {name: weight}
+
     def get_pure_name(self, name: str):
         # pure name is the te name without the prefix used to identify parallel strategy
         pure_name = remove_mca_weight_prefix(name)
@@ -412,7 +500,7 @@ def get_pure_name(self, name: str):
                 pure_name = self.config.local_to_te_key_map[pure_name]
         return pure_name
 
-    def _name_relocate(self, name: str, moe_index: Optional[int] = None):
+    def _name_relocate(self, name: str, moe_index: Optional[int] = None, moe_index_preprocessed: bool = False):
         pure_name = self.get_pure_name(name)
         if self.mca_config.transformer_impl == "local":
             if self.revert:  # when revert to hf, convert to te name
@@ -428,7 +516,8 @@ def _name_relocate(self, name: str, moe_index: Optional[int] = None):
             if self.revert:
                 if self.mca_config.moe_grouped_gemm:
                     pure_name = self.get_matched_name(pure_name, self.config.grouped_reverse_map)
-                moe_index = self.num_layers_for_expert * self.expert_model_parallel_rank + moe_index
+                if not moe_index_preprocessed:
+                    moe_index = self.num_layers_for_expert * self.expert_model_parallel_rank + moe_index
             else:
                 if self.mca_config.moe_grouped_gemm:
                     moe_index = None
@@ -467,16 +556,13 @@ def get_global_layer_index(self, local_layer_index: int, vp_stage: int):
         if self.layout is not None:
             return self.layout.get_layer_offset(vp_stage=vp_stage) + local_layer_index
 
-        chunk_index = (
-            self.pipeline_model_parallel_rank
-            + vp_stage * self.mca_config.pipeline_model_parallel_size
-        )
+        chunk_index = self.pipeline_model_parallel_rank + vp_stage * self.mca_config.pipeline_model_parallel_size
         global_layer_index = local_layer_index + chunk_index * self.num_layers_per_virtual_rank
         if self.mca_config.account_for_embedding_in_pipeline_split and chunk_index > 0:
             global_layer_index -= 1
         return global_layer_index
 
-    def handle_duplicated(self, name: str, weights: Union["Tensor", List["Tensor"]]) -> Dict[str, "Tensor"]:
+    def handle_duplicated(self, name: str, weights: Union["Tensor", list["Tensor"]]) -> dict[str, "Tensor"]:
         if self.revert:
             weight = weights[0]
             if not self.efficient_mode:
@@ -494,7 +580,7 @@ def handle_duplicated(self, name: str, weights: Union["Tensor", List["Tensor"]])
         name = self._name_relocate(name)
         return {name: weight}
 
-    def handle_grouped_duplicated(self, name: str, weights: Union["Tensor", List["Tensor"]]) -> Dict[str, "Tensor"]:
+    def handle_grouped_duplicated(self, name: str, weights: Union["Tensor", list["Tensor"]]) -> dict[str, "Tensor"]:
         if self.revert:
             weight = weights[0]
             for w in weights[1:]:
@@ -521,13 +607,13 @@ def _convert_te_grouped_column(self, name: str, weights: "Tensor"):
         relocated_name = self._name_relocate(name) + str(moe_index)
         return {relocated_name: weights}
 
-    def _revert_te_grouped_column(self, name: str, weights: List["Tensor"]):
+    def _revert_te_grouped_column(self, name: str, weights: list["Tensor"], moe_index_preprocessed: bool = False):
         if self.swiglu:
             weight = self._revert_swiglu(weights)
         else:
             weight = self._revert_column_parallel(weights)
         moe_index = int(extract_suffix_number(name))
-        return {self._name_relocate(name, moe_index=moe_index): weight}
+        return {self._name_relocate(name, moe_index=moe_index, moe_index_preprocessed=moe_index_preprocessed): weight}
 
     def _convert_grouped_column(self, name: str, weights: "Tensor"):
         if self.swiglu:
@@ -546,7 +632,7 @@ def _convert_grouped_column(self, name: str, weights: "Tensor"):
         weights = [weight[1] for weight in weights]
         return {relocated_name: torch.stack(weights, dim=0).view(self.mca_config.hidden_size, -1)}
 
-    def _revert_grouped_column(self, name: str, weights: List["Tensor"], vp_stage: int):
+    def _revert_grouped_column(self, name: str, weights: list["Tensor"]):
         def _revert_grouped(weight: "Tensor"):
             weight = weight.view(self.num_layers_for_expert, self.mca_config.hidden_size, -1)
             expert_weights = torch.unbind(weight, dim=0)
@@ -557,7 +643,7 @@ def _revert_grouped(weight: "Tensor"):
         # [expert_num_per_rank, tp]
         ungrouped_weights = [[weights[i] for weights in ungrouped_weights] for i in range(self.num_layers_for_expert)]
 
-        def _revert_column(weights: List["Tensor"]):
+        def _revert_column(weights: list["Tensor"]):
             if self.swiglu:
                 return self._revert_swiglu(weights)
             else:
@@ -569,10 +655,12 @@ def _revert_column(weights: List["Tensor"]):
             for moe_index, weight in enumerate(ungrouped_weights)
         }
 
-    def handle_grouped_column(self, name: str, weights: Union["Tensor", List["Tensor"]]) -> Dict[str, "Tensor"]:
+    def handle_grouped_column(
+        self, name: str, weights: Union["Tensor", list["Tensor"]], moe_index_preprocessed: bool = False
+    ) -> dict[str, "Tensor"]:
         if self.revert:
             if self.use_te_grouped_moe:
-                return self._revert_te_grouped_column(name, weights)
+                return self._revert_te_grouped_column(name, weights, moe_index_preprocessed=moe_index_preprocessed)
             return self._revert_grouped_column(name, weights)
         else:
             if self.use_te_grouped_moe:
@@ -585,10 +673,10 @@ def _convert_te_grouped_row(self, name: str, weights: "Tensor"):
         relocated_name = self._name_relocate(name) + str(moe_index)
         return {relocated_name: weights}
 
-    def _revert_te_grouped_row(self, name: str, weights: List["Tensor"]):
+    def _revert_te_grouped_row(self, name: str, weights: list["Tensor"], moe_index_preprocessed: bool = False):
         weights = self._revert_row_parallel(weights)
         moe_index = int(extract_suffix_number(name))
-        return {self._name_relocate(name, moe_index=moe_index): weights}
+        return {self._name_relocate(name, moe_index=moe_index, moe_index_preprocessed=moe_index_preprocessed): weights}
 
     def _convert_grouped_row(self, name: str, weights: "Tensor"):
         weights = self._convert_row_parallel(weights)
@@ -604,7 +692,7 @@ def _convert_grouped_row(self, name: str, weights: "Tensor"):
         weights = [weight[1] for weight in weights]
         return {relocated_name: torch.stack(weights, dim=0).view(-1, self.mca_config.hidden_size)}
 
-    def _revert_grouped_row(self, name, weights: List["Tensor"]):
+    def _revert_grouped_row(self, name, weights: list["Tensor"]):
         def _revert_grouped(weight: "Tensor"):
             weight = weight.view(self.num_layers_for_expert, -1, self.mca_config.hidden_size)
             expert_weights = torch.unbind(weight, dim=0)
@@ -620,10 +708,12 @@ def _revert_grouped(weight: "Tensor"):
             for moe_index, weight in enumerate(ungrouped_weights)
         }
 
-    def handle_grouped_row(self, name: str, weights: Union["Tensor", List["Tensor"]]) -> Dict[str, "Tensor"]:
+    def handle_grouped_row(
+        self, name: str, weights: Union["Tensor", list["Tensor"]], moe_index_preprocessed: bool = False
+    ) -> dict[str, "Tensor"]:
         if self.revert:
             if self.use_te_grouped_moe:
-                return self._revert_te_grouped_row(name, weights)
+                return self._revert_te_grouped_row(name, weights, moe_index_preprocessed=moe_index_preprocessed)
             return self._revert_grouped_row(name, weights)
         else:
             if self.use_te_grouped_moe:
@@ -644,9 +734,9 @@ def get_matched_name(self, name: str, weight_map: dict[str, Any]) -> Optional[st
         for key in weight_map:
             if fnmatch.fnmatch(name, key):
                 name_pattern = weight_map[key]
-                return name_pattern[:name_pattern.find(".lora")] + name[name.find(".lora"):]
+                return name_pattern[: name_pattern.find(".lora")] + name[name.find(".lora") :]
 
-    def get_local_moe_index(self, name: str) -> Optional[Union[int, List[int]]]:
+    def get_local_moe_index(self, name: str) -> Optional[Union[int, list[int]]]:
         pure_name = remove_mca_weight_prefix(name)
         if self.use_te_grouped_moe:
             suffix_num = extract_suffix_number(pure_name)
@@ -659,11 +749,14 @@ def get_local_moe_index(self, name: str) -> Optional[Union[int, List[int]]]:
                 return list(range(self.num_layers_for_expert))
         return get_mca_moe_index(name)
 
-    def get_global_moe_index(self, name: str) -> Optional[Union[int, List[int]]]:
+    def get_global_moe_index(self, name: str) -> Optional[Union[int, list[int]]]:
         local_moe_index = self.get_local_moe_index(name)
         if local_moe_index is None:
             return None
-        local_to_global = lambda i: i + self.num_layers_for_expert * self.expert_model_parallel_rank
+
+        def local_to_global(i):
+            return i + self.num_layers_for_expert * self.expert_model_parallel_rank
+
         if isinstance(local_moe_index, int):
             return local_to_global(local_moe_index)
         else:
@@ -691,10 +784,11 @@ def preprocess_layer_index(self, name: str, vp_stage: int) -> str:
     def dist_convert(
         self,
         name: str,
-        weights: Union["Tensor", List["Tensor"]],
+        weights: Union["Tensor", list["Tensor"]],
         vp_stage: Optional[int] = None,
         layer_index_preprocessed: bool = False,
-    ) -> Dict[str, "Tensor"]:
+        moe_index_preprocessed: bool = False,
+    ) -> dict[str, "Tensor"]:
         """
         Convert weights for distributed parallelism.
 
@@ -702,9 +796,12 @@ def dist_convert(
             name: Weight name
             weights: Weight tensor(s)
             vp_stage: Virtual pipeline stage
-            layer_index_preprocessed: If True, the name's layer index has already been preprocessed 
-                for pipeline parallelism by the caller. If False (default), DistConverter will 
+            layer_index_preprocessed: If True, the name's layer index has already been preprocessed
+                for pipeline parallelism by the caller. If False (default), DistConverter will
                 handle the layer index conversion between global and local indices.
+            moe_index_preprocessed: If True, the name's moe index has already been preprocessed
+                for expert parallelism by the caller. If False (default), DistConverter will
+                handle the moe index conversion between global and local indices.
         """
         if vp_stage is None:
             vp_stage = self.virtual_pipeline_model_parallel_rank
@@ -730,11 +827,13 @@ def dist_convert(
         if self.mca_config.moe_grouped_gemm and self.name_match(pure_name, self.config.grouped_duplicated_weights):
             return self.handle_grouped_duplicated(name, weights)
         if self.mca_config.moe_grouped_gemm and self.name_match(pure_name, self.config.grouped_column_weights):
-            return self.handle_grouped_column(name, weights)
+            return self.handle_grouped_column(name, weights, moe_index_preprocessed=moe_index_preprocessed)
         if self.mca_config.moe_grouped_gemm and self.name_match(pure_name, self.config.grouped_row_weights):
-            return self.handle_grouped_row(name, weights)
+            return self.handle_grouped_row(name, weights, moe_index_preprocessed=moe_index_preprocessed)
         if self.swiglu and self.name_match(pure_name, self.config.swiglu_weights):
             return self.handle_swiglu(name, weights)
+        if self.name_match(pure_name, self.config.gdn_weights):
+            return self.handle_gdn(name, weights)
         if self.name_match(pure_name, self.config.duplicated_weights):
             return self.handle_duplicated(name, weights)
         if self.name_match(pure_name, self.config.column_parallel_weights):
@@ -750,7 +849,7 @@ def is_tensor_parallel_dup_weight(self, name: str) -> bool:
     def is_expert_parallel_weight(self, name: str) -> bool:
         return self.get_local_moe_index(name) is not None
 
-    def __call__(self, name: str, weights: Union["Tensor", List["Tensor"]], vp_stage: Optional[int] = None):
+    def __call__(self, name: str, weights: Union["Tensor", list["Tensor"]], vp_stage: Optional[int] = None):
         return self.dist_convert(name=name, weights=weights, vp_stage=vp_stage)
 
     @staticmethod
diff --git a/mcore_adapter/src/mcore_adapter/models/converter/model_converter.py b/mcore_adapter/src/mcore_adapter/models/converter/model_converter.py
index d9b302777..a6cc7a110 100644
--- a/mcore_adapter/src/mcore_adapter/models/converter/model_converter.py
+++ b/mcore_adapter/src/mcore_adapter/models/converter/model_converter.py
@@ -15,24 +15,26 @@
     SAFE_WEIGHTS_NAME,
     WEIGHTS_INDEX_NAME,
     WEIGHTS_NAME,
-    is_safetensors_available,
+    is_peft_available,
 )
 
-from ...utils import get_logger
+from ...utils import get_logger, is_safetensors_available
 from .convert_utils import (
     MAX_SHARD_SIZE,
-    SendBucketManager,
     StateDictSplitState,
-    all_gather_tensors,
     allgather_parallel_objs,
     gather_tensor_parallel,
     get_tensor_size,
     parse_size_to_int,
+    resize_embedding_layer,
 )
-from .dist_converter import DistConverter
+from .dist_converter import MCORE_LM_HEAD, MCORE_WORD_EMBEDDING, DistConverter
 from .template import get_template
 
 
+if is_peft_available():
+    from peft import PeftModel, get_peft_model_state_dict
+
 if is_safetensors_available():
     from safetensors.torch import save_file as safe_save_file
 
@@ -55,6 +57,7 @@ def __init__(
         to_hf: bool = False,
         verbose=False,
         efficient_mode: bool = False,
+        resized_vocab_size: int = None,
     ):
         self.mca_config = mca_config
         self.verbose = verbose
@@ -74,6 +77,7 @@ def __init__(
             revert=to_hf,
             efficient_mode=efficient_mode,
         )
+        self.resized_vocab_size = resized_vocab_size
 
     def log(self, msg):
         if self.verbose:
@@ -134,6 +138,12 @@ def get_mca_state_dict(self, state_dict_iter, vp_stage: int):
             converted_state_dict = self.template.add_hf_weight(name, weight)
             if converted_state_dict is not None:
                 for mca_name, mca_weight in converted_state_dict.items():
+                    # resize before tensor parallel conversion
+                    if self.resized_vocab_size and (
+                        (mca_name == MCORE_WORD_EMBEDDING)
+                        or (mca_name == MCORE_LM_HEAD and not self.mca_config.tie_embeddings_and_output_weights)
+                    ):
+                        mca_weight = resize_embedding_layer(mca_weight, self.resized_vocab_size)
                     named_weights = self.dist_converter.dist_convert(mca_name, mca_weight, vp_stage=vp_stage)
                     if named_weights is not None:
                         mca_state_dict.update(named_weights)
@@ -150,16 +160,27 @@ def get_mca_state_dict(self, state_dict_iter, vp_stage: int):
 
     def _mca_named_params_with_vp_stage(self, models):
         for vp_stage, model in enumerate(models):
-            mca_state_dict = model.state_dict_for_save_checkpoint()
-            mca_state_dict = {k: v for k, v in mca_state_dict.items() if not k.endswith("._extra_state")}
-            for mca_name, weight in sorted(mca_state_dict.items()):
-                yield vp_stage, mca_name, weight
+            if is_peft_available() and isinstance(model, PeftModel):
+                for adapter_name in model.peft_config.keys():
+                    mca_state_dict = get_peft_model_state_dict(
+                        model, model.state_dict_for_save_checkpoint(), adapter_name
+                    )
+                    mca_state_dict = {k: v for k, v in mca_state_dict.items() if not k.endswith("._extra_state")}
+                    for mca_name, weight in sorted(mca_state_dict.items()):
+                        yield adapter_name, vp_stage, mca_name, weight
+            else:
+                mca_state_dict = model.state_dict_for_save_checkpoint()
+                mca_state_dict = {k: v for k, v in mca_state_dict.items() if not k.endswith("._extra_state")}
+                for mca_name, weight in sorted(mca_state_dict.items()):
+                    yield None, vp_stage, mca_name, weight
 
     def convert_to_hf(
         self,
         mca_state_dict: Dict[str, list["Tensor"]],
         vp_stage: Optional[int] = None,
         layer_index_preprocessed: bool = False,
+        moe_index_preprocessed: bool = False,
+        **kwargs,
     ) -> Dict[str, "Tensor"]:
         """
         Convert Mca state dict to HuggingFace format.
@@ -167,9 +188,12 @@ def convert_to_hf(
         Args:
             mca_state_dict: Dictionary of mca weight names to tensor lists
             vp_stage: Virtual pipeline stage
-            layer_index_preprocessed: If True, the weight names' layer indices have already been 
-                preprocessed for pipeline parallelism by the caller. If False (default), 
+            layer_index_preprocessed: If True, the weight names' layer indices have already been
+                preprocessed for pipeline parallelism by the caller. If False (default),
                 DistConverter will handle the layer index conversion between global and local indices.
+            moe_index_preprocessed: If True, the weight names' moe indices have already been
+                preprocessed for expert parallelism by the caller. If False (default),
+                DistConverter will handle the moe index conversion between global and local indices.
         """
         if vp_stage is None:
             vp_stage = mpu.get_virtual_pipeline_model_parallel_rank()
@@ -177,13 +201,21 @@ def convert_to_hf(
         hf_state_dict = {}
         for mca_name, weights in mca_state_dict.items():
             merged_named_weights = self.dist_converter.dist_convert(
-                mca_name, weights, vp_stage=vp_stage, layer_index_preprocessed=layer_index_preprocessed
+                mca_name,
+                weights,
+                vp_stage=vp_stage,
+                layer_index_preprocessed=layer_index_preprocessed,
+                moe_index_preprocessed=moe_index_preprocessed,
             )
             if merged_named_weights is None:
                 continue
             converted = {}
             for merged_name, merged_weight in merged_named_weights.items():
-                converted.update(self.template.add_mca_weight(merged_name, merged_weight))
+                converted_state_dict = self.template.add_mca_weight(merged_name, merged_weight, **kwargs)
+                if converted_state_dict is not None:
+                    converted.update(converted_state_dict)
+                else:
+                    self.log(f"mca_name: {merged_name} added but not converted")
             hf_state_dict.update(converted or {})
         return hf_state_dict
 
@@ -193,6 +225,7 @@ def save_model_as_hf_inflight(
         save_directory: str,
         save_safetensors: bool = True,
         max_shard_size: Union[int, str] = MAX_SHARD_SIZE,
+        move_to_cpu: bool = False,
     ):
         assert self.dist_converter.revert, "save_model_as_hf_inflight only support to_hf ModelConverter"
         if not mpu.model_parallel_is_initialized():
@@ -208,50 +241,35 @@ def save_model_as_hf_inflight(
 
         expert_parallel = self.mca_config.expert_model_parallel_size > 1
         only_need_expert = expert_parallel and mpu.get_expert_model_parallel_rank() > 0
-        for vp_stage, mca_name, weight in self._mca_named_params_with_vp_stage(models):
+        last_adapter_name = None
+        for adapter_name, vp_stage, mca_name, weight in self._mca_named_params_with_vp_stage(models):
             if only_need_expert and not self.dist_converter.is_expert_parallel_weight(mca_name):
                 continue
             weights = gather_tensor_parallel(weight, async_op=False)
             if weights is None:  # only tp_rank0 need to convert and save
                 continue
+            if move_to_cpu and isinstance(weights, list):
+                weights = [w.cpu() for w in weights]
             converted_state_dict = self.convert_to_hf(mca_state_dict={mca_name: weights}, vp_stage=vp_stage)
-            self.save_hf_shard_state_dict(shard_state, save_directory, converted_state_dict, save_safetensors)
+            self.save_hf_shard_state_dict(
+                shard_state,
+                os.path.join(save_directory, adapter_name) if adapter_name is not None else save_directory,
+                converted_state_dict,
+                save_safetensors,
+            )
 
-        if mpu.get_tensor_model_parallel_rank() == 0:
-            self.save_shard_state_meta(shard_state, save_directory, save_safetensors)
+            if (
+                adapter_name is not None
+                and adapter_name != last_adapter_name
+                and mpu.get_tensor_model_parallel_rank() == 0
+            ):
+                self.save_shard_state_meta(shard_state, save_directory, save_safetensors)
 
-    def all_gather_weights_as_hf_inflight(self, models):
-        assert self.dist_converter.revert, "save_model_as_hf_inflight only support to_hf ModelConverter"
+            if adapter_name is not None:
+                last_adapter_name = adapter_name
 
-        expert_parallel = self.mca_config.expert_model_parallel_size > 1
-        for vp_stage, mca_name, weight in self._mca_named_params_with_vp_stage(models):
-            moe_index = self.dist_converter.get_local_moe_index(mca_name)
-            group = (
-                mpu.get_tensor_model_parallel_group() if moe_index is None else mpu.get_expert_tensor_parallel_group()
-            )
-            if dist.get_world_size(group) == 1:
-                weights = [weight]
-            else:
-                weights = all_gather_tensors(weight, async_op=False, group=group)
-            hf_state_dict = self.convert_to_hf(mca_state_dict={mca_name: weights}, vp_stage=vp_stage)
-            for name, weight in hf_state_dict.items():
-                if expert_parallel and moe_index is not None:
-                    names = allgather_parallel_objs(name, group=mpu.get_expert_model_parallel_group())
-                    weights = all_gather_tensors(
-                        weight, async_op=False, group=mpu.get_expert_model_parallel_group()
-                    )
-                    for name, weight in zip(names, weights):
-                        yield name, weight
-                else:
-                    yield name, weight
-
-    def all_gather_weights_as_hf_bucket(self, models, bucket_size: int = None):
-        bucket_manager = SendBucketManager(bucket_size or self._auto_bucket_size())
-        for name, weight in self.all_gather_weights_as_hf_inflight(models):
-            yield from bucket_manager.push_tensor(weight, name=name)
-        last_meta, last_buffer = bucket_manager.pop_last_bucket()
-        if last_meta is not None:
-            yield last_meta, last_buffer
+        if mpu.get_tensor_model_parallel_rank() == 0:
+            self.save_shard_state_meta(shard_state, save_directory, save_safetensors)
 
     def _auto_bucket_size(self):
         # TODO: optimize this by max weight size
diff --git a/mcore_adapter/src/mcore_adapter/models/converter/post_converter.py b/mcore_adapter/src/mcore_adapter/models/converter/post_converter.py
index 61fc0cfcd..cccf8f461 100644
--- a/mcore_adapter/src/mcore_adapter/models/converter/post_converter.py
+++ b/mcore_adapter/src/mcore_adapter/models/converter/post_converter.py
@@ -1,9 +1,15 @@
+import gc
+import json
+import os
+from abc import ABC, abstractmethod
+from collections import defaultdict
 from itertools import product
 from typing import TYPE_CHECKING, Optional
 
 import torch
 from megatron.core import mpu
 from megatron.core.tensor_parallel import model_parallel_cuda_manual_seed
+from safetensors.torch import save_file
 from tqdm import tqdm
 from transformers import (
     AutoConfig as HfAutoConfig,
@@ -11,62 +17,340 @@
 from transformers import (
     AutoModelForCausalLM,
     AutoModelForImageTextToText,
-    AutoModelForVision2Seq,
+    AutoModelForTextToWaveform,
     AutoProcessor,
     AutoTokenizer,
 )
 from transformers.dynamic_module_utils import get_class_from_dynamic_module
 from transformers.models.auto.auto_factory import _get_model_class
+from transformers.utils import is_peft_available
 
 from ...checkpointing import get_checkpoint_name, save_config_and_state_dict
+from ...constants import ADAPTER_CONFIG_NAME
 from ...training_args import DistributingParallelArguments
-from ...utils import get_logger, is_peft_available
+from ...utils import get_logger
 from ..auto.config_auto import AutoConfig
+from .convert_utils import MAX_SHARD_SIZE
 from .model_converter import ModelConverter
 from .template import get_template
 
 
 if is_peft_available():
-    from peft import LoraConfig, PeftConfig, get_peft_model
+    from peft import LoraConfig, PeftConfig, get_peft_model, set_peft_model_state_dict
 
 if TYPE_CHECKING:
+    from transformers import PretrainedConfig
     from ...training_args import DistributingParallelArguments
+    from ..model_config import McaModelConfig
     from .template import Template
 
-
 logger = get_logger(__name__)
 
 
-def _add_mca_state_dicts_to_hf(
-    model_converter: "ModelConverter", state_dicts, hf_state_dict, vp_stage: int, verbose: bool = True
-):
-    def log(msg):
-        if verbose:
-            logger.info(msg)
-
-    tp_rank, pp_rank, ep_rank = (
-        model_converter.dist_converter.tensor_model_parallel_rank,
-        model_converter.dist_converter.pipeline_model_parallel_rank,
-        model_converter.dist_converter.expert_model_parallel_rank,
-    )
-    for mca_name in state_dicts[0].keys():
-        if mca_name.endswith("._extra_state"):
-            continue
-        weights = [state_dict[mca_name] if mca_name in state_dict else None for state_dict in state_dicts]
-        converted_state_dict = model_converter.convert_to_hf({mca_name: weights}, vp_stage=vp_stage)
-        if converted_state_dict is not None and len(converted_state_dict) > 0:
-            for hf_name, hf_weight in converted_state_dict.items():
-                if hf_name in hf_state_dict:
-                    if not hf_weight.equal(hf_state_dict[hf_name]):
-                        raise ValueError(
-                            f"weight of hf_name:{hf_name} mca_name:{mca_name} in "
-                            f"tp_rank, pp_rank, ep_rank, vp_rank:{tp_rank} {pp_rank} {ep_rank} {vp_stage} "
-                            f"diff max:{torch.abs(hf_weight - hf_state_dict[hf_name]).max()}"
-                        )
-                hf_state_dict[hf_name] = hf_weight
-                log(f"mca_name: {mca_name} -> hf_name: {hf_name}")
+class BaseHFConverter(ABC):
+    """
+    Abstract base class for converting Mca checkpoints to Hugging Face format.
+    Encapsulates common logic for loading configs, streaming weights, and saving artifacts.
+    """
+
+    def __init__(
+        self,
+        checkpoint_path: str,
+        save_directory: str,
+        torch_dtype: Optional[torch.dtype],
+        verbose: bool,
+    ):
+        self.checkpoint_path = checkpoint_path
+        self.save_directory = save_directory
+        self.verbose = verbose
+
+        self.mca_config: "McaModelConfig"
+        self.hf_config: "PretrainedConfig"
+        self.template: "Template"
+        self._setup()
+
+        self.torch_dtype = torch_dtype if torch_dtype is not None else self.mca_config.params_dtype
+
+    def _setup(self):
+        """Loads Mca config, converts it to HF config"""
+        # load mca_config
+        self.mca_config = AutoConfig.from_pretrained(self.checkpoint_path)
+        if self.mca_config is None:
+            raise ValueError("No mca config found in checkpoint")
+        if self.mca_config.hf_model_type is None:
+            raise ValueError("No hf model type found in mca config")
+
+        self.template = get_template(self.mca_config.hf_model_type)
+        self.hf_config = self.template.convert_mca_to_hf_config(self.mca_config)
+        self.template.set_mca_config_for_ops(self.mca_config)
+
+        mpu.set_expert_model_parallel_world_size(self.mca_config.expert_model_parallel_size)
+        mpu.set_pipeline_model_parallel_world_size(self.mca_config.pipeline_model_parallel_size)
+        mpu.set_tensor_model_parallel_world_size(self.mca_config.tensor_model_parallel_size)
+        if self.mca_config.virtual_pipeline_model_parallel_size is not None:
+            mpu.set_virtual_pipeline_model_parallel_world_size(self.mca_config.virtual_pipeline_model_parallel_size)
+
+    def _stream_hf_weights(self, checkpoint_path: str, use_mmap: bool = False, **kwargs):
+        """A generator that loads, converts, and yields HF weights from a given checkpoint path."""
+
+        def log(msg):
+            if self.verbose:
+                logger.info(msg)
+
+        for pp_rank, ep_rank in product(
+            range(self.mca_config.pipeline_model_parallel_size), range(self.mca_config.expert_model_parallel_size)
+        ):
+            state_dicts = [
+                torch.load(
+                    get_checkpoint_name(
+                        checkpoint_path,
+                        tensor_rank=tp_rank,
+                        pipeline_rank=pp_rank,
+                        pipeline_parallel=self.mca_config.pipeline_model_parallel_size > 1,
+                        expert_rank=ep_rank,
+                        expert_parallel=self.mca_config.expert_model_parallel_size > 1,
+                    ),
+                    map_location="cpu",
+                    mmap=use_mmap,
+                )
+                for tp_rank in range(self.mca_config.tensor_model_parallel_size)
+            ]
+
+            mpu.set_pipeline_model_parallel_rank(pp_rank)
+            mpu.set_expert_model_parallel_rank(ep_rank)
+            mpu.set_tensor_model_parallel_rank(0)
+            converter = ModelConverter(
+                mca_config=self.mca_config,
+                pipeline_model_parallel_rank=pp_rank,
+                expert_model_parallel_rank=ep_rank,
+                tensor_model_parallel_rank=0,
+                verbose=self.verbose,
+                to_hf=True,
+            )
+
+            vp_on = (self.mca_config.virtual_pipeline_model_parallel_size or 1) > 1
+            for i in range(self.mca_config.virtual_pipeline_model_parallel_size or 1):
+                if vp_on:
+                    mpu.set_virtual_pipeline_model_parallel_rank(i)
+
+                v_state_dicts = [sd.pop(f"model{i}" if vp_on else "model") for sd in state_dicts]
+                for name in list(v_state_dicts[0].keys()):
+                    if name.endswith("._extra_state"):
+                        continue
+                    weights = [sd.get(name) for sd in v_state_dicts]
+                    converted = converter.convert_to_hf({name: weights}, vp_stage=i, **kwargs)
+                    if converted:
+                        for hf_name, hf_weight in converted.items():
+                            # log(f"Converted and yielded: {name} -> {hf_name}")
+                            yield hf_name, hf_weight
+
+    def _finalize(self):
+        """Saves configs, tokenizer, processor, and releases resources."""
+        os.makedirs(self.save_directory, exist_ok=True)
+        self.hf_config.save_pretrained(self.save_directory)
+        self.mca_config.save_hf_auto_map_files(self.save_directory)
+
+        tokenizer = AutoTokenizer.from_pretrained(self.checkpoint_path, trust_remote_code=True)
+        try:
+            processor = AutoProcessor.from_pretrained(self.checkpoint_path, trust_remote_code=True)
+        except Exception as e:
+            if self.verbose:
+                logger.info(f"Processor was not found: {e}.")
+            processor = tokenizer
+
+        if processor is not None and "Processor" not in processor.__class__.__name__:
+            processor = None
+
+        if processor is not None:
+            setattr(processor, "tokenizer", tokenizer)
         else:
-            log(f"mca_name: {mca_name} added but not converted")
+            processor = tokenizer
+        processor.save_pretrained(self.save_directory)
+
+        logger.info(f"Model successfully converted and saved to {self.save_directory}")
+
+    @abstractmethod
+    def convert(self):
+        """The main conversion method to be implemented by subclasses."""
+        raise NotImplementedError
+
+
+class HFConverter(BaseHFConverter):
+    """Converts the model by loading all weights into memory (standard method)."""
+
+    def convert(self):
+        logger.info("Starting in-memory conversion...")
+        hf_state_dict = {}
+        for hf_name, hf_weight in tqdm(self._stream_hf_weights(self.checkpoint_path), desc="Converting mca to hf"):
+            if hf_name in hf_state_dict:
+                if not hf_weight.equal(hf_state_dict[hf_name]):
+                    raise ValueError(
+                        f"weight of hf_name:{hf_name} in "
+                        f"diff max:{torch.abs(hf_weight - hf_state_dict[hf_name]).max()}, please check the checkpoint"
+                    )
+            hf_state_dict[hf_name] = hf_weight
+
+        model_class = self._get_hf_model_class()
+        model = model_class.from_pretrained(
+            None, config=self.hf_config, state_dict=hf_state_dict, torch_dtype=self.torch_dtype, trust_remote_code=True
+        )
+        model.save_pretrained(self.save_directory, max_shard_size=MAX_SHARD_SIZE)
+        self._finalize()
+
+    def _get_hf_model_class(self):
+        has_remote_code = hasattr(self.hf_config, "auto_map") and "AutoModelForCausalLM" in self.hf_config.auto_map
+        model_class = AutoModelForCausalLM
+
+        if type(self.hf_config) in AutoModelForImageTextToText._model_mapping:
+            model_class = AutoModelForImageTextToText
+        elif type(self.hf_config) in AutoModelForTextToWaveform._model_mapping:
+            model_class = AutoModelForTextToWaveform
+
+        if has_remote_code:
+            class_ref = self.hf_config.auto_map["AutoModelForCausalLM"]
+            model_class = get_class_from_dynamic_module(class_ref, self.mca_config.name_or_path)
+        else:
+            model_class = _get_model_class(self.hf_config, model_class._model_mapping)
+
+        return model_class
+
+
+class StreamingHFConverter(BaseHFConverter):
+    """Converts the model using a streaming, low-memory approach."""
+
+    def __init__(self, *args, max_shard_bytes: int = MAX_SHARD_SIZE, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.max_shard_bytes = max_shard_bytes
+
+    def convert(self):
+        logger.info(f"Starting streaming conversion (max shard size: {self.max_shard_bytes / 1e9:.2f}GB)...")
+        os.makedirs(self.save_directory, exist_ok=True)
+        weight_map, total_size, shard_count, current_shard, current_shard_size = {}, 0, 0, {}, 0
+        for hf_name, hf_weight in tqdm(
+            self._stream_hf_weights(self.checkpoint_path, use_mmap=True), desc="Converting mca to hf"
+        ):
+            # the hf_name may be replicated
+            if hf_name in weight_map:
+                # check the weight in the current chard
+                if hf_name in current_shard and not hf_weight.equal(current_shard[hf_name]):
+                    raise ValueError(
+                        f"weight of hf_name:{hf_name} in "
+                        f"diff max:{torch.abs(hf_weight - current_shard[hf_name]).max()}, please check the checkpoint"
+                    )
+                continue
+            current_shard[hf_name] = hf_weight
+            current_shard_size += hf_weight.nelement() * hf_weight.element_size()
+
+            if current_shard_size >= self.max_shard_bytes:
+                shard_name = f"model-{shard_count + 1:05d}.safetensors"
+                save_file(current_shard, os.path.join(self.save_directory, shard_name), metadata={"format": "pt"})
+                for k in current_shard:
+                    weight_map[k] = shard_name
+
+                total_size += current_shard_size
+                shard_count += 1
+                current_shard = {}
+                current_shard_size = 0
+                gc.collect()
+
+        if current_shard:
+            shard_name = f"model-{shard_count + 1:05d}.safetensors"
+            save_file(current_shard, os.path.join(self.save_directory, shard_name), metadata={"format": "pt"})
+            for k in current_shard:
+                weight_map[k] = shard_name
+            total_size += current_shard_size
+
+        with open(os.path.join(self.save_directory, "model.safetensors.index.json"), "w") as f:
+            json.dump({"metadata": {"total_size": total_size}, "weight_map": weight_map}, f, indent=2)
+
+        self._finalize()
+
+
+class LoRAHFConverter(HFConverter):
+    """Converts Mca LoRA adapters to Hugging Face PEFT format."""
+
+    def __init__(self, hf_base_model_path: str, adapter_name_or_path: str, *args, **kwargs):
+        self.hf_base_model_path = hf_base_model_path
+        self.adapter_name_or_path = adapter_name_or_path
+        super().__init__(adapter_name_or_path, *args, **kwargs)
+
+    def convert(self):
+        if not is_peft_available():
+            raise ImportError("PEFT is not installed. Run `pip install peft` to convert LoRA adapters.")
+
+        adapter_names = (
+            [
+                folder_name
+                for folder_name in os.listdir(self.adapter_name_or_path)
+                if os.path.isdir(os.path.join(self.adapter_name_or_path, folder_name))
+                and os.path.isfile(os.path.join(self.adapter_name_or_path, folder_name, ADAPTER_CONFIG_NAME))
+            ]
+            if os.path.isdir(self.adapter_name_or_path)
+            else []
+        )
+
+        if not adapter_names:
+            raise ValueError(f"No LoRA adapters found in '{self.adapter_name_or_path}'")
+
+        peft_configs = {
+            adapter_name: PeftConfig.from_pretrained(os.path.join(self.adapter_name_or_path, adapter_name))
+            for adapter_name in adapter_names
+        }
+
+        hf_state_dicts = defaultdict(dict)
+        for adapter_name, peft_config in peft_configs.items():
+            logger.info(f"Converting adapter: {adapter_name}")
+
+            stream = self._stream_hf_weights(
+                checkpoint_path=os.path.join(self.adapter_name_or_path, adapter_name), lora_rank=peft_config.r
+            )
+            for hf_name, hf_weight in stream:
+                hf_state_dicts[adapter_name][hf_name] = hf_weight
+
+        model_class = self._get_hf_model_class()
+        model = model_class.from_pretrained(
+            self.hf_base_model_path, config=self.hf_config, torch_dtype=self.torch_dtype, trust_remote_code=True
+        )
+
+        def get_lora_config(adapter_name):
+            peft_cfg = peft_configs[adapter_name]
+
+            target_modules = [
+                name[: name.find(".lora")].split(".")[-1]
+                for name in hf_state_dicts[adapter_name].keys()
+                if ".lora_A." in name or ".lora_B." in name
+            ]
+            target_modules = list(set(target_modules))
+
+            kwargs = {}
+            if self.mca_config.num_moe_experts is not None:
+                kwargs["rank_pattern"] = {
+                    p: peft_cfg.r // self.mca_config.moe_router_topk
+                    for p in ["down_proj", "up_proj", "gate_proj", "w1", "w2", "w3"]
+                }
+
+            return LoraConfig(
+                r=peft_cfg.r,
+                target_modules=target_modules,
+                lora_alpha=peft_cfg.lora_alpha,
+                lora_dropout=peft_cfg.lora_dropout,
+                use_rslora=peft_cfg.use_rslora,
+                modules_to_save=peft_cfg.modules_to_save,
+                **kwargs,
+            )
+
+        adapter0_name = "default" if "default" in hf_state_dicts else sorted(hf_state_dicts.keys())[0]
+        model = get_peft_model(model, get_lora_config(adapter0_name), adapter_name=adapter0_name)
+        set_peft_model_state_dict(model.base_model.model, hf_state_dicts[adapter0_name], adapter_name=adapter0_name)
+
+        for adapter_name, state_dict in hf_state_dicts.items():
+            if adapter_name == adapter0_name:
+                continue
+            model.add_adapter(adapter_name, get_lora_config(adapter_name))
+            set_peft_model_state_dict(model.base_model.model, state_dict, adapter_name=adapter_name)
+
+        model.save_pretrained(self.save_directory, max_shard_size=MAX_SHARD_SIZE)
+        self._finalize()
 
 
 def convert_checkpoint_to_hf(
@@ -74,130 +358,50 @@ def convert_checkpoint_to_hf(
     save_directory: str,
     adapter_name_or_path: Optional[str] = None,
     torch_dtype: Optional["torch.dtype"] = None,
+    low_mem: bool = False,
     verbose: bool = True,
+    max_shard_bytes: int = MAX_SHARD_SIZE,
 ):
-    if is_lora := adapter_name_or_path is not None:
-        if not is_peft_available():
-            raise ImportError("PEFT is not installed. Please install it with `pip install peft`")
-        ckpt_path = adapter_name_or_path
-        peft_config = PeftConfig.from_pretrained(adapter_name_or_path)
-    else:
-        ckpt_path = model_name_or_path
-    mca_config = AutoConfig.from_pretrained(ckpt_path)
-    if mca_config is None:
-        raise ValueError("No mca config found in checkpoint")
-    if mca_config.hf_model_type is None:
-        raise ValueError("No hf model type found in mca config")
-    if is_lora:
-        setattr(mca_config, "lora_rank", peft_config.r)
-
-    template: "Template" = get_template(mca_config.hf_model_type)
-    hf_config = template.convert_mca_to_hf_config(mca_config)
-    template.set_mca_config_for_ops(mca_config)
-    hf_state_dict = {}
-
-    mpu.set_expert_model_parallel_world_size(mca_config.expert_model_parallel_size)
-    mpu.set_pipeline_model_parallel_world_size(mca_config.pipeline_model_parallel_size)
-    mpu.set_tensor_model_parallel_world_size(mca_config.tensor_model_parallel_size)
-    if mca_config.virtual_pipeline_model_parallel_size is not None:
-        mpu.set_virtual_pipeline_model_parallel_world_size(mca_config.virtual_pipeline_model_parallel_size)
+    """
+    Converts a Mca checkpoint to Hugging Face format using the appropriate strategy.
 
-    for pp_rank, ep_rank in product(
-        range(mca_config.pipeline_model_parallel_size), range(mca_config.expert_model_parallel_size)
-    ):
-        state_dicts = []
-        # TODO: use loader and support low_mem
-        for tp_rank in range(mca_config.tensor_model_parallel_size):
-            ckpt_name = get_checkpoint_name(
-                ckpt_path,
-                tensor_rank=tp_rank,
-                pipeline_rank=pp_rank,
-                pipeline_parallel=mca_config.pipeline_model_parallel_size > 1,
-                expert_rank=ep_rank,
-                expert_parallel=mca_config.expert_model_parallel_size > 1,
-            )
-            state_dicts.append(torch.load(ckpt_name, map_location="cpu"))
-        virtual_pipe_on = (mca_config.virtual_pipeline_model_parallel_size or 1) > 1
-        mpu.set_pipeline_model_parallel_rank(pp_rank)
-        mpu.set_expert_model_parallel_rank(ep_rank)
-        mpu.set_tensor_model_parallel_rank(0)
-        model_converter = ModelConverter(
-            mca_config=mca_config,
-            pipeline_model_parallel_rank=pp_rank,
-            expert_model_parallel_rank=ep_rank,
-            tensor_model_parallel_rank=0,
+    Args:
+        model_name_or_path (str): For full model conversion, path to the Mca checkpoint.
+                                  For adapter conversion, path to the base Hugging Face model.
+        save_directory (str): Directory to save the converted HF model/adapter.
+        adapter_name_or_path (Optional[str]): Path to the Mca LoRA adapter checkpoint directory.
+        torch_dtype (Optional[torch.dtype]): The torch dtype for the converted model.
+        low_mem (bool): If True, use streaming conversion to save memory (not for adapters).
+        verbose (bool): Whether to print detailed conversion logs.
+        max_shard_bytes (int): Max size of each shard in bytes for low_mem mode.
+    """
+    if adapter_name_or_path:
+        if low_mem:
+            raise ValueError("There is no need using `low_mem` mode for lora convert.")
+        converter = LoRAHFConverter(
+            hf_base_model_path=model_name_or_path,
+            adapter_name_or_path=adapter_name_or_path,
+            save_directory=save_directory,
+            torch_dtype=torch_dtype,
             verbose=verbose,
-            to_hf=True,
-        )
-        for i in range(mca_config.virtual_pipeline_model_parallel_size or 1):
-            if virtual_pipe_on:
-                mpu.set_virtual_pipeline_model_parallel_rank(i)
-            key = "model" + (str(i) if virtual_pipe_on else "")
-            virtual_state_dicts = [sd.pop(key) for sd in state_dicts]
-            _add_mca_state_dicts_to_hf(
-                model_converter, virtual_state_dicts, hf_state_dict, vp_stage=i, verbose=verbose
-            )
-
-    has_remote_code = hasattr(hf_config, "auto_map") and "AutoModelForCausalLM" in hf_config.auto_map
-    model_class = AutoModelForCausalLM
-    if type(hf_config) in AutoModelForVision2Seq._model_mapping.keys():
-        model_class = AutoModelForVision2Seq
-    elif type(hf_config) in AutoModelForImageTextToText._model_mapping.keys():
-        model_class = AutoModelForImageTextToText
-    if has_remote_code:
-        class_ref = hf_config.auto_map["AutoModelForCausalLM"]
-        model_class = get_class_from_dynamic_module(class_ref, mca_config.name_or_path)
-    else:
-        model_class = _get_model_class(hf_config, model_class._model_mapping)
-
-    if is_lora:
-        hf_config.save_pretrained(save_directory)
-        target_modules = set()
-        for name, _ in hf_state_dict.items():
-            if ".lora_A." in name or ".lora_B." in name:
-                # TODO: support VLM lora
-                target_modules.add(name[:name.find(".lora")].split(".")[-1])
-        target_modules = list(target_modules)
-        model = model_class.from_pretrained(
-            model_name_or_path,
-            config=hf_config,
-            torch_dtype=torch_dtype if torch_dtype is not None else mca_config.params_dtype,
-            trust_remote_code=True,
         )
-        lora_config = LoraConfig(
-            r=peft_config.r,
-            target_modules=target_modules,
-            lora_alpha=peft_config.lora_alpha,
-            lora_dropout=peft_config.lora_dropout,
-            use_rslora=peft_config.use_rslora,
-            modules_to_save=peft_config.modules_to_save,
+    elif low_mem:
+        converter = StreamingHFConverter(
+            checkpoint_path=model_name_or_path,
+            save_directory=save_directory,
+            torch_dtype=torch_dtype,
+            verbose=verbose,
+            max_shard_bytes=max_shard_bytes,
         )
-        model = get_peft_model(model, lora_config)
-        model.base_model.model.load_state_dict(hf_state_dict, strict=False)
     else:
-        model = model_class.from_pretrained(
-            None,
-            config=hf_config,
-            state_dict=hf_state_dict,
-            torch_dtype=torch_dtype if torch_dtype is not None else mca_config.params_dtype,
-            trust_remote_code=True,
+        converter = HFConverter(
+            checkpoint_path=model_name_or_path,
+            save_directory=save_directory,
+            torch_dtype=torch_dtype,
+            verbose=verbose,
         )
-    model.save_pretrained(save_directory)
-    mca_config.save_hf_auto_map_files(save_directory)
-    tokenizer = AutoTokenizer.from_pretrained(ckpt_path, trust_remote_code=True)
-    try:
-        processor = AutoProcessor.from_pretrained(ckpt_path, trust_remote_code=True)
-    except Exception as e:
-        logger.info(f"Processor was not found: {e}.")
-        processor = tokenizer
-    if processor is not None and "Processor" not in processor.__class__.__name__:
-        processor = None
 
-    if processor is not None:
-        setattr(processor, "tokenizer", tokenizer)
-    else:
-        processor = tokenizer
-    processor.save_pretrained(save_directory)
+    converter.convert()
 
 
 def convert_checkpoint_to_mca(
diff --git a/mcore_adapter/src/mcore_adapter/models/converter/template.py b/mcore_adapter/src/mcore_adapter/models/converter/template.py
index 9b509e820..5e3862d6b 100644
--- a/mcore_adapter/src/mcore_adapter/models/converter/template.py
+++ b/mcore_adapter/src/mcore_adapter/models/converter/template.py
@@ -1,4 +1,5 @@
 import json
+import os
 import re
 from abc import ABC
 from dataclasses import dataclass, field
@@ -35,7 +36,7 @@ class ConverOp(ABC):
 
     hf_names: Union[str, list]
     mca_names: Union[str, list]
-    mca_config: "TransformerConfig" = None
+    _mca_config: "TransformerConfig" = field(default=None, repr=False)
 
     def __post_init__(self):
         if isinstance(self.hf_names, str):
@@ -53,6 +54,14 @@ def __call__(self, name_to_weight: Dict[str, torch.Tensor], mca_to_hf: bool = Fa
         else:
             return self.hf_to_mca(name_to_weight)
 
+    @property
+    def mca_config(self) -> "TransformerConfig":
+        return self._mca_config
+
+    @mca_config.setter
+    def mca_config(self, value: "TransformerConfig"):
+        self._mca_config = value
+
     @staticmethod
     def _name_to_pattern(name: str):
         return name.replace(".", "\.").replace("{}", "(.*)")
@@ -266,6 +275,68 @@ def _mca_to_hf(self, weights):
         return [q_weight, k_weight, v_weight]
 
 
+@dataclass
+class GatedQKVConverOp(QKVConverOp):
+    """query weight used for calculating query_states and gate"""
+
+    def _hf_to_mca(self, weights):
+        if self.hidden_size is None:
+            self.hidden_size = self.mca_config.hidden_size
+        q_weight, k_weight, v_weight = weights
+        nh = self.mca_config.num_attention_heads
+        ng = self.mca_config.num_query_groups
+        dim = self.mca_config.kv_channels
+        assert nh % ng == 0
+        # q_weight: [nh * dim * 2, hidden] -> [ng, nh // ng, dim * 2, hidden]
+        q_reshaped = q_weight.reshape((ng, nh // ng, dim * 2, -1))
+        q_reshaped, z_reshaped = torch.chunk(q_reshaped, 2, dim=2)  # [ng, nh // ng, dim, hidden] each
+        k_reshaped = k_weight.reshape((ng, 1, dim, -1))  # [ng, 1, dim, hidden]
+        v_reshaped = v_weight.reshape((ng, 1, dim, -1))  # [ng, 1, dim, hidden]
+        # Stack along a new dimension and then reshape to interleave
+        # [ng, nh // ng + nh // ng + 1 + 1, dim, hidden] -> flatten first two dims
+        mca_qkv_weight = torch.cat([q_reshaped, z_reshaped, k_reshaped, v_reshaped], dim=1).reshape(
+            (-1, self.hidden_size)
+        )
+        return mca_qkv_weight
+
+    def _mca_to_hf(self, weights):
+        if self.hidden_size is None:
+            self.hidden_size = self.mca_config.hidden_size
+        qkv_weight = weights[0]
+        ng = self.mca_config.num_query_groups
+        nh = self.mca_config.num_attention_heads
+        dim = self.mca_config.kv_channels
+        # mca layout: [ng, nh // ng + nh // ng + 1 + 1, dim, hidden]
+        qkv_weight = qkv_weight.reshape((ng, nh // ng * 2 + 2, dim, -1))
+        # Split into q, z, k, v along dim=1
+        q_reshaped, z_reshaped, k_reshaped, v_reshaped = torch.split(qkv_weight, [nh // ng, nh // ng, 1, 1], dim=1)
+        # q and z need to be interleaved back: [ng, nh // ng, dim, hidden] -> [nh, dim * 2, hidden]
+        qz_reshaped = torch.cat([q_reshaped, z_reshaped], dim=2)  # [ng, nh // ng, dim * 2, hidden]
+        q_weight = qz_reshaped.reshape((-1, self.hidden_size))  # [nh * dim * 2, hidden]
+        k_weight = k_reshaped.reshape((-1, self.hidden_size))  # [ng * dim, hidden]
+        v_weight = v_reshaped.reshape((-1, self.hidden_size))  # [ng * dim, hidden]
+        return [q_weight, k_weight, v_weight]
+
+
+class GDNConv1dConverOp(ConverOp):
+    def _hf_to_mca(self, weights):
+        conv1d_weight = weights[0]
+        qk_head_dim = self.mca_config.linear_key_head_dim
+        v_head_dim = self.mca_config.linear_value_head_dim
+        num_qk_heads = self.mca_config.linear_num_key_heads
+        num_v_heads = self.mca_config.linear_num_value_heads
+        qk_dim = qk_head_dim * num_qk_heads
+        v_dim = v_head_dim * num_v_heads
+
+        q_conv1d, k_conv1d, v_conv1d = conv1d_weight.split([qk_dim, qk_dim, v_dim], dim=0)
+        return StackedTensors(tensors=[q_conv1d, k_conv1d, v_conv1d], dim=0)
+
+    def _mca_to_hf(self, weights):
+        if len(weights) == 1:
+            assert isinstance(weights[0], StackedTensors)
+            return torch.cat(weights[0].tensors, dim=0)
+
+
 @dataclass
 class Template:
     hf_model_type: str
@@ -282,6 +353,7 @@ class Template:
     prefix_name_to_weight: Dict[str, Dict[str, torch.Tensor]] = field(default_factory=dict)
 
     def __post_init__(self):
+        self.config_hf_to_mca = self.adjust_config_hf_to_mca()
         if self.config_mca_to_hf is None:
             self.config_mca_to_hf = {v: k for k, v in self.config_hf_to_mca.items()}
         self.hf_name_to_converter = {}
@@ -303,6 +375,54 @@ def release(self):
             logger.warning(f"weights not converted {len(weights_not_converted)} {weights_not_converted}")
         self.prefix_name_to_weight = {}
 
+    def adjust_config_hf_to_mca(self):
+        return self.config_hf_to_mca
+
+    def get_hf_config_value(self, hf_config, key, cfg_errs: List[str] = []):
+        for name in key.split("."):
+            if not hasattr(hf_config, name):
+                # warn instead of assert to be backward compatible
+                # some cfg not exist in hf_config, such as vision_token_id
+                logger.warning(f"{key=} not exists in hf_config for get_hf_config_value")
+                cfg_errs.append(key)
+                return
+            hf_config = getattr(hf_config, name)
+        return hf_config
+
+    def set_hf_config_value(self, hf_config, key, value):
+        # hf_config is a dict from config.to_dict() by `to_json_string(use_diff=True)`,
+        # sub-configs with PretrainedConfig type would be convert to dict
+        # use_diff makes hf_config only contain items whose value is different from default
+        raw_hf_config = hf_config
+        names = key.split(".")
+        for i, name in enumerate(names):
+            if isinstance(hf_config, dict):
+                if name not in hf_config:
+                    # to be backward compatible
+                    # always put mca config value into hf config kw_args
+                    logger.warning(
+                        f"{key=} not exists in hf_config for set_hf_config_value, "
+                        f"ignore this if no warning in get_hf_config_value"
+                    )
+                    raw_hf_config[key] = value
+                if i == len(names) - 1:
+                    hf_config[name] = value
+                else:
+                    hf_config = hf_config[name]
+            else:
+                if not hasattr(hf_config, name):
+                    # to be backward compatible
+                    # always put mca config value into hf config kw_args
+                    logger.warning(
+                        f"{key=} not exists in hf_config for set_hf_config_value, "
+                        f"ignore this if no warning in get_hf_config_value"
+                    )
+                    raw_hf_config[key] = value
+                if i == len(names) - 1:
+                    setattr(hf_config, name, value)
+                else:
+                    hf_config = getattr(hf_config, name)
+
     def convert_hf_to_mca_config(self, hf_config, **kw_args):
         from ...models.auto.config_auto import AutoConfig as AutoMcaModelConfig
 
@@ -310,33 +430,36 @@ def convert_hf_to_mca_config(self, hf_config, **kw_args):
         return AutoMcaModelConfig.for_model(self.hf_model_type, **kw_args)
 
     def convert_hf_to_mca_config_kws(self, hf_config: "PretrainedConfig", **kw_args):
-        # TODO: support text_config
-        if hasattr(hf_config, "text_config"):
-            text_config = hf_config.text_config.to_dict()
-            for k, v in  text_config.items():
-                setattr(hf_config, k, v)
-
         for k, v in self.config_hf_to_mca.items():
-            if hasattr(hf_config, k):
-                kw_args[v] = getattr(hf_config, k)
+            cfg_errs = []
+            cfg_value = self.get_hf_config_value(hf_config, k, cfg_errs)
+            if not cfg_errs:  # cfg_value can be any, use cfg_errs to check
+                kw_args[v] = cfg_value
         kw_args["hf_model_type"] = self.hf_model_type
         kw_args["name_or_path"] = hf_config.name_or_path
         kw_args["hf_config_json"] = hf_config.to_json_string()
         return {**kw_args, **self.constant_mca_config}
 
     def convert_mca_to_hf_config(self, mca_config, **kw_args):
+        config_dict = json.loads(mca_config.hf_config_json)
         for k, v in self.config_mca_to_hf.items():
             if hasattr(mca_config, k):
-                kw_args[v] = getattr(mca_config, k)
+                self.set_hf_config_value(config_dict, v, getattr(mca_config, k))
         kw_args.update(self.constant_hf_config)
         kw_args["name_or_path"] = mca_config.name_or_path
-        config_dict = json.loads(mca_config.hf_config_json)
         kw_args = {**config_dict, **kw_args}
         kw_args["model_type"] = self.hf_model_type
         has_remote_code = "auto_map" in config_dict and "AutoConfig" in config_dict["auto_map"]
         if has_remote_code:
             class_ref = config_dict["auto_map"]["AutoConfig"]
-            config_class = get_class_from_dynamic_module(class_ref, mca_config.name_or_path)
+            pretrained_model_name_or_path = mca_config.name_or_path
+            automap_cache_path = mca_config.get_automap_cache()
+            read_cache = os.path.isdir(automap_cache_path) and any(
+                f.endswith(".py") for f in os.listdir(automap_cache_path)
+            )
+            if read_cache:
+                pretrained_model_name_or_path = automap_cache_path
+            config_class = get_class_from_dynamic_module(class_ref, pretrained_model_name_or_path)
             config_class.register_for_auto_class()
             return config_class.from_dict(kw_args)
         return AutoConfig.for_model(**kw_args)
@@ -370,7 +493,7 @@ def add_hf_weight(self, name, weight):
         mca_prefix = convert_to_mca_prefix(weight_prefix, self.hf_layer_prefix, self.hf_moe_prefix)
         return {mca_prefix + name: weight for name, weight in conver_res.items()}
 
-    def add_mca_weight(self, name, weight):
+    def add_mca_weight(self, name, weight, **kwargs):
         weight_prefix = get_mca_weight_prefix(name)
         original_name = remove_mca_weight_prefix(name)
         if weight_prefix not in self.prefix_name_to_weight:
@@ -378,7 +501,7 @@ def add_mca_weight(self, name, weight):
         self.prefix_name_to_weight[weight_prefix][original_name] = weight
         prefix_weights = self.prefix_name_to_weight[weight_prefix]
         if ".lora_A." in original_name or ".lora_B." in original_name:
-            op = self.get_lora_conver_op(original_name, self.mca_name_to_converter)
+            op = self.get_lora_conver_op(original_name, self.mca_name_to_converter, **kwargs)
         else:
             op = self.get_conver_op(original_name, self.mca_name_to_converter)
         name_to_weight = {
@@ -403,9 +526,9 @@ def get_conver_op(self, name, pattern_to_conver_ops: Dict[str, ConverOp]):
                 return pattern_to_conver_ops[pattern]
         raise ValueError(f"can not find conver op for {name} in {pattern_to_conver_ops}")
 
-    def get_lora_conver_op(self, name, pattern_to_conver_ops: Dict[str, ConverOp]):
-        lora_name = name[name.find(".lora"):]
-        name = name[:name.find(".lora")] + ".weight"
+    def get_lora_conver_op(self, name, pattern_to_conver_ops: Dict[str, ConverOp], lora_rank: int):
+        lora_name = name[name.find(".lora") :]
+        name = name[: name.find(".lora")] + ".weight"
         op = self.get_conver_op(name, pattern_to_conver_ops)
         if isinstance(op, RenameConverOp):
             op_class = RenameConverOp
@@ -418,13 +541,13 @@ def get_lora_conver_op(self, name, pattern_to_conver_ops: Dict[str, ConverOp]):
             kwargs = {"dim": op.dim}
         elif isinstance(op, QKVConverOp):
             op_class = QKVConverOp
-            kwargs = {"hidden_size": op.mca_config.lora_rank}
+            kwargs = {"hidden_size": lora_rank}
         else:
             raise ValueError(f"can not find lora conver op for {name} in {pattern_to_conver_ops}")
         return op_class(
             hf_names=[hf_name.replace(".weight", lora_name) for hf_name in op.hf_names],
             mca_names=[mca_name.replace(".weight", lora_name) for mca_name in op.mca_names],
-            mca_config=op.mca_config,
+            _mca_config=op.mca_config,
             **kwargs,
         )
 
diff --git a/mcore_adapter/src/mcore_adapter/models/deepseek_v3/__init__.py b/mcore_adapter/src/mcore_adapter/models/deepseek_v3/__init__.py
index a102871a3..b2a4be612 100644
--- a/mcore_adapter/src/mcore_adapter/models/deepseek_v3/__init__.py
+++ b/mcore_adapter/src/mcore_adapter/models/deepseek_v3/__init__.py
@@ -5,6 +5,7 @@
 from ..converter.convert_utils import (
     get_layer_index,
     get_mca_layer_index,
+    get_mca_mtp_layer_index,
     remove_weight_prefix,
 )
 from ..converter.dist_converter import mla_dist_config, register_dist_config
@@ -103,12 +104,12 @@ def add_hf_weight(self, name, weight):
             res[name] = weight
         return res
 
-    def add_mca_weight(self, name, weight):
+    def add_mca_weight(self, name, weight, **kwargs):
         name = self.revert_mtp_name(name)
         layer_index = get_mca_layer_index(name)
         if layer_index is not None and layer_index < self.mca_config.moe_layer_freq.count(0):
             name = name.replace("mlp.linear_fc1.layer_norm_", "pre_mlp_layernorm.")
-        name2weights = super().add_mca_weight(name, weight)
+        name2weights = super().add_mca_weight(name, weight, **kwargs)
         res = {}
         for name, weight in name2weights.items():
             if (
@@ -141,17 +142,14 @@ def convert_mtp_name(self, name):
         name = name.replace("decoder", "mtp")
         pure_name = remove_weight_prefix(name, prefix="mtp.layers.")
         name = (
-            "mtp.layers."
-            + str(mtp_layer_index)
-            + (".transformer_layer" if has_transformer_layer else "")
-            + pure_name
+            "mtp.layers." + str(mtp_layer_index) + (".transformer_layer" if has_transformer_layer else "") + pure_name
         )
         return name
 
     def revert_mtp_name(self, name):
         if "mtp" in name:
             has_transformer_layer = "self_attention" in name or "mlp" in name or "input_layernorm" in name
-            mtp_layer_index = get_layer_index(name, prefix="mtp.layers.")
+            mtp_layer_index = get_mca_mtp_layer_index(name)
             pure_name = remove_weight_prefix(name, prefix="mtp.layers.")
             # only consider padding mtp for now...
             mca_layer_index = mtp_layer_index + self.mca_config.num_layers
@@ -301,9 +299,7 @@ def revert_mtp_name(self, name):
         RenameConverOp(hf_names=".hnorm.weight", mca_names=".hnorm.weight"),
         RenameConverOp(hf_names=".eh_proj.weight", mca_names=".eh_proj.weight"),
         RenameConverOp(hf_names=".shared_head.norm.weight", mca_names=".final_layernorm.weight"),
-        RenameConverOp(
-            hf_names=".self_attn.o_proj.weight_scale_inv", mca_names=".self_attn.o_proj.weight_scale_inv"
-        ),
+        RenameConverOp(hf_names=".self_attn.o_proj.weight_scale_inv", mca_names=".self_attn.o_proj.weight_scale_inv"),
         RenameConverOp(hf_names=".post_attention_layernorm.weight", mca_names=".pre_mlp_layernorm.weight"),
         RenameConverOp(hf_names="model.norm.weight", mca_names="decoder.final_layernorm.weight"),
         RenameConverOp(hf_names=".mlp.gate.weight", mca_names=".mlp.router.weight"),
diff --git a/mcore_adapter/src/mcore_adapter/models/glm4_moe/__init__.py b/mcore_adapter/src/mcore_adapter/models/glm4_moe/__init__.py
index 70ac78e33..1cca1e914 100644
--- a/mcore_adapter/src/mcore_adapter/models/glm4_moe/__init__.py
+++ b/mcore_adapter/src/mcore_adapter/models/glm4_moe/__init__.py
@@ -5,8 +5,10 @@
 from ..converter.convert_utils import (
     get_layer_index,
     get_mca_layer_index,
+    get_mca_mtp_layer_index,
+    remove_weight_prefix,
 )
-from ..converter.dist_converter import DistParallelConfig, default_dist_config, register_dist_config
+from ..converter.dist_converter import DistParallelConfig, default_dist_config, mtp_config, register_dist_config
 from ..converter.template import (
     QKVBiasConverOp,
     QKVConverOp,
@@ -18,6 +20,7 @@
 from ..model_config import McaModelConfig
 from ..model_factory import McaGPTModel
 
+
 class Glm4MoeTemplate(Template):
     def convert_hf_to_mca_config_kws(self, hf_config, **kw_args):
         partial_rotary_factor = getattr(hf_config, "partial_rotary_factor", None)
@@ -79,6 +82,8 @@ def add_hf_weight(self, name, weight):
         res = {}
         for name, weight in name2weights.items():
             layer_index = get_mca_layer_index(name)
+            if layer_index is not None and layer_index >= self.mca_config.num_layers:
+                name = self.convert_mtp_name(name)
             if layer_index is not None and layer_index < self.mca_config.moe_layer_freq.count(0):
                 # dense layer use fused `TELayerNormColumnParallelLinear`, change the name
                 if "pre_mlp_layernorm" in name:
@@ -86,11 +91,12 @@ def add_hf_weight(self, name, weight):
             res[name] = weight
         return res
 
-    def add_mca_weight(self, name, weight):
+    def add_mca_weight(self, name, weight, **kwargs):
+        name = self.revert_mtp_name(name)
         layer_index = get_mca_layer_index(name)
         if layer_index is not None and layer_index < self.mca_config.moe_layer_freq.count(0):
             name = name.replace("mlp.linear_fc1.layer_norm_", "pre_mlp_layernorm.")
-        name2weights = super().add_mca_weight(name, weight)
+        name2weights = super().add_mca_weight(name, weight, **kwargs)
         res = {}
         for name, weight in name2weights.items():
             if (
@@ -107,6 +113,39 @@ def add_mca_weight(self, name, weight):
             res[name] = weight
         return res
 
+    def hf_name_to_mca_names(self, hf_name):
+        mca_names = super().hf_name_to_mca_names(hf_name)
+        if mca_names is None:
+            return None
+        mtp_mca_names = [self.convert_mtp_name(mca_name) for mca_name in mca_names]
+        return mtp_mca_names
+
+    def convert_mtp_name(self, name):
+        mca_layer_index = get_mca_layer_index(name)
+        if mca_layer_index is None or mca_layer_index < self.mca_config.num_layers:
+            return name
+        mtp_layer_index = mca_layer_index - self.mca_config.num_layers
+        has_transformer_layer = "self_attention" in name or "mlp" in name or "input_layernorm" in name
+        name = name.replace("decoder", "mtp")
+        pure_name = remove_weight_prefix(name, prefix="mtp.layers.")
+        name = (
+            "mtp.layers." + str(mtp_layer_index) + (".transformer_layer" if has_transformer_layer else "") + pure_name
+        )
+        return name
+
+    def revert_mtp_name(self, name):
+        if "mtp" in name:
+            has_transformer_layer = "self_attention" in name or "mlp" in name or "input_layernorm" in name
+            mtp_layer_index = get_mca_mtp_layer_index(name)
+            pure_name = remove_weight_prefix(name, prefix="mtp.layers.")
+            # only consider padding mtp for now...
+            mca_layer_index = mtp_layer_index + self.mca_config.num_layers
+            name = (
+                "decoder.layers."
+                + str(mca_layer_index)
+                + (pure_name.replace(".transformer_layer", "") if has_transformer_layer else pure_name)
+            )
+        return name
 
 
 register_template(
@@ -115,7 +154,7 @@ def add_mca_weight(self, name, weight):
     hf_moe_prefix=".mlp.experts.",
     template_class=Glm4MoeTemplate,
     hf_invalid_keys=[
-        ".embed_tokens.weight", # skip layers.x.embed_tokens
+        ".embed_tokens.weight",  # skip layers.x.embed_tokens
         ".shared_head.head.weight",
     ],
     config_hf_to_mca={
@@ -135,8 +174,10 @@ def add_mca_weight(self, name, weight):
         # MoE related
         "moe_intermediate_size": "moe_ffn_hidden_size",
         "decoder_sparse_step": "moe_layer_freq",
-        "n_routed_experts": "num_moe_experts", # diff
+        "n_routed_experts": "num_moe_experts",  # diff
         "num_experts_per_tok": "moe_router_topk",
+        # MTP related
+        "num_nextn_predict_layers": "mtp_num_layers",
     },
     constant_mca_config={
         "swiglu": True,
@@ -150,6 +191,7 @@ def add_mca_weight(self, name, weight):
         "qk_layernorm": False,
         "moe_router_enable_expert_bias": True,
         "moe_router_score_function": "sigmoid",
+        "mtp_loss_scaling_factor": 0.3,
     },
     weight_converters=[
         RenameConverOp(hf_names="lm_head.weight", mca_names="output_layer.weight"),
@@ -157,13 +199,15 @@ def add_mca_weight(self, name, weight):
         RenameConverOp(hf_names=".input_layernorm.weight", mca_names=".self_attention.linear_qkv.layer_norm_weight"),
         RenameConverOp(hf_names=".self_attn.o_proj.weight", mca_names=".self_attention.linear_proj.weight"),
         RenameConverOp(hf_names=".post_attention_layernorm.weight", mca_names=".pre_mlp_layernorm.weight"),
-        RenameConverOp(hf_names=".mlp.down_proj.weight", mca_names=".mlp.linear_fc2.weight"), # first layer
-        StackConverOp(hf_names=[".mlp.gate_proj.weight", ".mlp.up_proj.weight"], mca_names=".mlp.linear_fc1.weight", dim=0),
+        RenameConverOp(hf_names=".mlp.down_proj.weight", mca_names=".mlp.linear_fc2.weight"),  # first layer
+        StackConverOp(
+            hf_names=[".mlp.gate_proj.weight", ".mlp.up_proj.weight"], mca_names=".mlp.linear_fc1.weight", dim=0
+        ),
         StackConverOp(hf_names=[".gate_proj.weight", ".up_proj.weight"], mca_names=".linear_fc1.weight", dim=0),
         RenameConverOp(hf_names=".down_proj.weight", mca_names=".linear_fc2.weight"),
         RenameConverOp(hf_names="model.norm.weight", mca_names="decoder.final_layernorm.weight"),
         RenameConverOp(hf_names=".mlp.gate.weight", mca_names=".mlp.router.weight"),
-        StackConverOp( # for shared
+        StackConverOp(  # for shared
             hf_names=[".mlp.shared_experts.gate_proj.weight", ".mlp.shared_experts.up_proj.weight"],
             mca_names=".mlp.shared_experts.linear_fc1.weight",
             dim=0,
@@ -189,23 +233,24 @@ def add_mca_weight(self, name, weight):
 
 register_config("glm4_moe", McaModelConfig)
 register_model("glm4_moe", McaGPTModel)
-glm_dist_config = default_dist_config.merge_configs(
+glm_dist_config = default_dist_config.merge_configs(mtp_config).merge_configs(
     DistParallelConfig(
-    duplicated_weights=[
-        ".mlp.router.expert_bias",
-    ],
-    grouped_column_map={".linear_fc1.weight": ".mlp.experts.weight1"},
-    grouped_row_map={".linear_fc2.weight": ".mlp.experts.weight2"},
-    row_parallel_weights=[
-        ".self_attention.linear_proj.weight",
-        ".mlp.shared_experts.linear_fc2.weight",
-        ".linear_fc2.weight",
-        ".mlp.linear_fc2.weight",
-    ],
-    swiglu_weights=[
-        ".mlp.shared_experts.linear_fc1.weight",
-        ".linear_fc1.weight",
-        ".mlp.linear_fc1.weight",
-    ],
-))
+        duplicated_weights=[
+            ".mlp.router.expert_bias",
+        ],
+        grouped_column_map={".linear_fc1.weight": ".mlp.experts.weight1"},
+        grouped_row_map={".linear_fc2.weight": ".mlp.experts.weight2"},
+        row_parallel_weights=[
+            ".self_attention.linear_proj.weight",
+            ".mlp.shared_experts.linear_fc2.weight",
+            ".linear_fc2.weight",
+            ".mlp.linear_fc2.weight",
+        ],
+        swiglu_weights=[
+            ".mlp.shared_experts.linear_fc1.weight",
+            ".linear_fc1.weight",
+            ".mlp.linear_fc1.weight",
+        ],
+    )
+)
 register_dist_config("glm4_moe", glm_dist_config)
diff --git a/mcore_adapter/src/mcore_adapter/models/model_config.py b/mcore_adapter/src/mcore_adapter/models/model_config.py
index ba11580f8..511487e73 100644
--- a/mcore_adapter/src/mcore_adapter/models/model_config.py
+++ b/mcore_adapter/src/mcore_adapter/models/model_config.py
@@ -5,7 +5,7 @@
 import json
 import os
 import shutil
-from dataclasses import dataclass, field
+from dataclasses import dataclass, field, fields
 from typing import TYPE_CHECKING, Literal, Optional
 
 import torch
@@ -52,7 +52,7 @@ def to_dict(self):
         for k, v in self.__dict__.items():
             if callable(v):
                 output[k] = None
-            elif isinstance(v, list) and callable(v[0]):
+            elif isinstance(v, list) and len(v) > 0 and callable(v[0]):
                 output[k] = None
             elif isinstance(v, PipelineParallelLayerLayout):
                 output[k] = str(v)
@@ -65,7 +65,7 @@ def to_json_string(self):
         save_dict = {}
         for f in dataclasses.fields(self):
             v = getattr(self, f.name)
-            if isinstance(v, list) and callable(v[0]):
+            if isinstance(v, list) and len(v) > 0 and callable(v[0]):
                 continue
             if callable(v) or isinstance(v, (torch.dtype, enum.Enum)):
                 continue
@@ -82,7 +82,26 @@ def to_json_file(self, json_file_path):
     def from_json_file(cls, json_file_path):
         with open(json_file_path, "r", encoding="utf-8") as reader:
             text = reader.read()
-        return cls(**json.loads(text))
+            config_dict = json.loads(text)
+
+            valid_field_names = {f.name for f in fields(cls)}
+
+            filtered_config = {}
+            removed_keys = []
+            for k, v in config_dict.items():
+                if k in valid_field_names:
+                    filtered_config[k] = v
+                else:
+                    removed_keys.append(k)
+
+            if removed_keys:
+                logger.warning(
+                    f"Config loading from {json_file_path}: "
+                    f"Ignoring deprecated/unknown properties: {removed_keys}. "
+                    "This might be due to a Megatron version upgrade."
+                )
+
+            return cls(**filtered_config)
 
     def save_pretrained(self, save_directory: str):
         os.makedirs(save_directory, exist_ok=True)
@@ -96,7 +115,9 @@ def save_hf_auto_map_files(self, save_directory: str):
         # name_or_path denotes the path of the from_pretrained model, i.e., where auto map files are located
         # should archive the auto map files in a cache path avoiding the remote name_or_path path has been cleaned
         automap_cache_path = self.get_automap_cache()
-        read_cache = os.path.isdir(automap_cache_path) and any(f.endswith('.py') for f in os.listdir(automap_cache_path))
+        read_cache = os.path.isdir(automap_cache_path) and any(
+            f.endswith(".py") for f in os.listdir(automap_cache_path)
+        )
         hf_files_path = automap_cache_path if read_cache else self.name_or_path
         if not (hf_files_path and os.path.isdir(hf_files_path)):
             return
@@ -111,7 +132,7 @@ def save_hf_auto_map_files(self, save_directory: str):
     def update_with_args(self, args: "DistributingParallelArguments", verbose: bool = True):
         if args.additional_configs is not None:
             for k, v in args.additional_configs.items():
-                if hasattr(self, k):
+                if hasattr(self, k) or hasattr(YarnRotaryEmbeddingConfig, k):
                     setattr(self, k, v)
                 else:
                     logger.warning(f"Config {k} is not found in model config, will not update it.")
@@ -175,17 +196,52 @@ def distribute_config_match(self, other):
         raise NotImplementedError("distribute_config_match not implemented")
 
     def get_automap_cache(self):
-        return os.path.join(os.getenv("HUGGINGFACE_AUTOMAP_CACHE", HUGGINGFACE_AUTOMAP_CACHE), 
-                            hashlib.sha256(self.name_or_path.encode()).hexdigest())
+        return os.path.join(
+            os.getenv("HUGGINGFACE_AUTOMAP_CACHE", HUGGINGFACE_AUTOMAP_CACHE),
+            hashlib.sha256(self.name_or_path.encode()).hexdigest(),
+        )
+
+
+@dataclass
+class YarnRotaryEmbeddingConfig:
+    yarn_beta_fast: float = field(
+        default=32,
+        metadata={"help": "Parameter to set the boundary for extrapolation (only) in the linear ramp function."},
+    )
+    yarn_beta_slow: float = field(
+        default=1,
+        metadata={"help": "Parameter to set the boundary for interpolation (only) in the linear ramp function."},
+    )
+    yarn_rotary_scaling_factor: float = field(
+        default=4,
+        metadata={
+            "help": "The scaling factor applied when interpolating the position IDs to extend the possible context length."
+        },
+    )
+    yarn_original_max_position_embeddings: int = field(
+        default=32768,
+        metadata={"help": "The original max position embeddings used during pretraining."},
+    )
+    yarn_mscale: float = field(
+        default=1,
+        metadata={"help": "Mscale value for Yarn RoPE."},
+    )
+    yarn_mscale_all_dim: float = field(
+        default=0,
+        metadata={"help": "Mscale all dim value for Yarn RoPE."},
+    )
+    yarn_correction_range_round_to_int: bool = field(
+        default=True, metadata={"help": "Whether to round to int when calculating correction range in YaRN."}
+    )
 
 
 @dataclass
 class McaModelConfig(TransformerConfig, PretrainedConfig):
-    position_embedding_type: Literal["learned_absolute", "rope", "none"] = field(
+    position_embedding_type: Literal["learned_absolute", "rope", "mrope", "yarn", "none"] = field(
         default="rope",
         metadata={
             "help": "Position embedding type.",
-            "choices": ["learned_absolute", "rope", "mrope", "none"],
+            "choices": ["learned_absolute", "rope", "mrope", "yarn", "none"],
         },
     )
     padded_vocab_size: Optional[int] = field(
@@ -224,6 +280,14 @@ class McaModelConfig(TransformerConfig, PretrainedConfig):
         default=False,
         metadata={"help": "Apply rope scaling as used in llama 3.x."},
     )
+    rotary_scaling_factor: float = field(
+        default=8.0,
+        metadata={
+            "help": "The scaling factor applied to the inverse frequencies when "
+            "1) the wavelength is greater than `low_freq_wavelen` prior to smoothing, "
+            "2) to all inverse frequencies during smoothing."
+        },
+    )
     transformer_impl: Literal["local", "transformer_engine"] = field(
         default="transformer_engine",
         metadata={
@@ -256,6 +320,24 @@ def squared_relu(x):
         self.pipeline_dtype = self.params_dtype
         self.batch_p2p_comm = not self.overlap_p2p_comm
 
+        # Initialize Yarn RoPE parameters when position_embedding_type is "yarn"
+        if self.position_embedding_type == "yarn":
+            # Dynamically add Yarn config attributes only when using yarn
+            if not hasattr(self, "yarn_beta_fast"):
+                self.yarn_beta_fast = 32
+            if not hasattr(self, "yarn_beta_slow"):
+                self.yarn_beta_slow = 1
+            if not hasattr(self, "yarn_rotary_scaling_factor"):
+                self.yarn_rotary_scaling_factor = 4
+            if not hasattr(self, "yarn_original_max_position_embeddings"):
+                self.yarn_original_max_position_embeddings = 32768
+            if not hasattr(self, "yarn_mscale"):
+                self.yarn_mscale = 1
+            if not hasattr(self, "yarn_mscale_all_dim"):
+                self.yarn_mscale_all_dim = 0
+            if not hasattr(self, "yarn_correction_range_round_to_int"):
+                self.yarn_correction_range_round_to_int = True
+
         if (
             self.recompute_granularity == "full"
             and self.recompute_method is None
diff --git a/mcore_adapter/src/mcore_adapter/models/model_factory.py b/mcore_adapter/src/mcore_adapter/models/model_factory.py
index f6792a7da..4acb00e56 100644
--- a/mcore_adapter/src/mcore_adapter/models/model_factory.py
+++ b/mcore_adapter/src/mcore_adapter/models/model_factory.py
@@ -13,18 +13,28 @@
     get_gpt_mtp_block_spec,
 )
 from megatron.core.transformer.module import MegatronModule
+from transformers.tokenization_utils import PreTrainedTokenizer
+from transformers.utils import is_peft_available
 
 from ..checkpointing import load_state_dict_from_checkpoint, save_config_and_state_dict
 from ..platforms import current_platform
-from ..utils import get_logger, is_peft_available
+from ..utils import get_logger
 from .converter.convert_utils import MAX_SHARD_SIZE
 from .converter.model_converter import ModelConverter
 from .model_config import McaModelConfig
-from .model_utils import ModuleUtilsMixin, RMSNorm, exists_hf_config, exists_mca_config, get_thd_data_on_this_cp_rank
+from .model_utils import (
+    ModuleUtilsMixin,
+    RMSNorm,
+    configure_resized_vocab_size,
+    exists_hf_config,
+    exists_mca_config,
+    get_thd_data_on_this_cp_rank,
+    mca_lora_logits_postprocess_hook,
+)
 
 
 if is_peft_available():
-    from peft import PeftModel
+    from peft import PeftModel, get_peft_model_state_dict, set_peft_model_state_dict
 
 
 if TYPE_CHECKING:
@@ -45,12 +55,33 @@ def __init__(self, cls, config: "McaModelConfig", *args, **kwargs):
                 kwargs["vp_stage"] = i
             self.models.append(cls(config, *args, **kwargs))
 
-    def save_pretrained(self, save_directory: str):
+    def save_pretrained(self, save_directory: str, save_merged_model: bool = False):
         if len(self.models) == 1:
             if is_peft_available() and isinstance(self.models[0], PeftModel):
-                for _, peft_config in self.models[0].peft_config.items():
-                    peft_config.save_pretrained(save_directory)
-                return self.models[0].base_model.model.save_pretrained(save_directory)
+                if save_merged_model:
+                    self.models[0].merge_adapter()
+                    model_state_dict = self.models[0].state_dict_for_save_checkpoint()
+                    state_dict = {}
+                    for k, v in model_state_dict.items():
+                        if "lora" in k:
+                            continue
+                        elif ".base_layer" in k:
+                            k = k.replace(".base_layer", "")
+                        state_dict[k] = v
+                    self.models[0].unmerge_adapter()
+                    return self.models[0].base_model.model.save_pretrained(
+                        save_directory, state_dict={"model": state_dict}
+                    )
+                for adapter_name, peft_config in self.models[0].peft_config.items():
+                    adapter_save_directory = os.path.join(save_directory, adapter_name)
+                    peft_config.save_pretrained(adapter_save_directory)
+                    peft_state_dict = get_peft_model_state_dict(
+                        self.models[0], self.models[0].state_dict_for_save_checkpoint(), adapter_name
+                    )
+                    self.models[0].base_model.model.save_pretrained(
+                        adapter_save_directory, state_dict={"model": peft_state_dict}
+                    )
+                return self.config.save_pretrained(save_directory)
             return self.models[0].save_pretrained(save_directory)
         state_dict = {f"model{i}": model.state_dict_for_save_checkpoint() for i, model in enumerate(self.models)}
         return self.models[0].save_pretrained(save_directory, state_dict=state_dict)
@@ -60,7 +91,19 @@ def load_state_dict(self, state_dict: Dict[str, torch.Tensor], strict: bool = Tr
             if "model" in state_dict:
                 state_dict = state_dict["model"]
             if is_peft_available() and isinstance(self.models[0], PeftModel):
-                return self.models[0].base_model.model.load_state_dict(state_dict, strict=False)
+                all_missing_keys, all_unexpected_keys = [], []
+                for adapter_name in self.models[0].peft_config.keys():
+                    ret = set_peft_model_state_dict(
+                        self.models[0].base_model.model,
+                        state_dict[adapter_name]["model"]
+                        if "model" in state_dict[adapter_name]
+                        else state_dict[adapter_name],
+                        adapter_name,
+                    )
+                    if not strict:
+                        all_missing_keys.extend(ret[0])
+                        all_unexpected_keys.extend(ret[1])
+                return all_missing_keys, all_unexpected_keys
             return self.models[0].load_state_dict(state_dict, strict=strict)
         all_missing_keys, all_unexpected_keys = [], []
         for i, model in enumerate(self.models):
@@ -134,19 +177,13 @@ def save_pretrained_as_hf(
         os.makedirs(save_directory, exist_ok=True)
         converter = ModelConverter(self.config, to_hf=True)
         converter.save_model_as_hf_inflight(
-            self.models, save_directory, save_safetensors=save_safetensors, max_shard_size=max_shard_size
+            self.models,
+            save_directory,
+            save_safetensors=save_safetensors,
+            max_shard_size=max_shard_size,
+            move_to_cpu=True,
         )
 
-    def all_gather_weights_as_hf_inflight(self, models=None):
-        models = models or self.models
-        converter = ModelConverter(self.config, to_hf=True)
-        yield from converter.all_gather_weights_as_hf_inflight(models)
-
-    def all_gather_weights_as_hf_bucket(self, models=None, bucket_size: int = None):
-        models = models or self.models
-        converter = ModelConverter(self.config, to_hf=True)
-        yield from converter.all_gather_weights_as_hf_bucket(models, bucket_size=bucket_size)
-
     def get_batch_on_this_cp_rank(self, *args, **kwargs):
         return self.models[0].get_batch_on_this_cp_rank(*args, **kwargs)
 
@@ -166,11 +203,22 @@ class PretrainedModel(MegatronModule, ModuleUtilsMixin):
 
     @classmethod
     def from_pretrained(
-        cls, model_name_or_path: str, args: "TrainingArguments" = None, use_cpu_initialization: bool = False
+        cls,
+        model_name_or_path: str,
+        args: "TrainingArguments" = None,
+        use_cpu_initialization: bool = False,
+        tokenizer: PreTrainedTokenizer = None,
     ) -> "VirtualModels":
         load_start_time = time.time()
         config = cls.config_class.from_pretrained(model_name_or_path, args)
         config.use_cpu_initialization = use_cpu_initialization
+
+        resized_vocab_size = None
+        if tokenizer is not None:
+            resized_vocab_size = configure_resized_vocab_size(config.padded_vocab_size, len(tokenizer))
+            if resized_vocab_size:
+                config.padded_vocab_size = resized_vocab_size
+
         models = VirtualModels(cls, config=config)
 
         logger.info(
@@ -186,6 +234,11 @@ def from_pretrained(
             dist_config_match = config.distribute_config_match(old_mca_config)
 
         if mca_ckpt_exist and dist_config_match:
+            if resized_vocab_size:
+                raise ValueError(
+                    "The tokenizer length is longer than the vocab embedding size, and the resize embedding"
+                    "layer is not supported loading mca ckpt. Please check the tokenizer and ckpt."
+                )
             state_dict = load_state_dict_from_checkpoint(model_name_or_path)
         else:
             if not exists_hf_config(model_name_or_path):
@@ -194,7 +247,7 @@ def from_pretrained(
                     f"and not mca_ckpt_exist: {mca_ckpt_exist} or not dist_config_match: {dist_config_match}"
                 )
             state_dict = {}
-            converter = ModelConverter(config)
+            converter = ModelConverter(config, resized_vocab_size=resized_vocab_size)
             for i in range(len(models)):
                 key = "model"
                 if len(models) > 1:
@@ -245,8 +298,7 @@ def get_batch_on_this_cp_rank(self, batch: Dict[str, "torch.Tensor"], dim3_keys:
                         *val.shape[(seq_dim + 1) :],
                     )
                     index = torch.tensor([cp_rank, (2 * cp_size - cp_rank - 1)], device="cpu", pin_memory=True).to(
-                        current_platform.device_type,
-                        non_blocking=True
+                        current_platform.device_type, non_blocking=True
                     )
                     val = val.index_select(seq_dim, index)
                     val = val.view(*val.shape[0:seq_dim], -1, *val.shape[(seq_dim + 2) :])
@@ -273,8 +325,12 @@ class McaGPTModel(GPTModel, PretrainedModel):
 
     def __init__(self, config: "McaModelConfig", **kwargs):
         self.vp_stage = kwargs.pop("vp_stage", mpu.get_virtual_pipeline_model_parallel_rank())
-        self.pre_process = kwargs.pop("pre_process", mpu.is_pipeline_first_stage(ignore_virtual=False, vp_stage=self.vp_stage))
-        self.post_process = kwargs.pop("post_process", mpu.is_pipeline_last_stage(ignore_virtual=False, vp_stage=self.vp_stage))
+        self.pre_process = kwargs.pop(
+            "pre_process", mpu.is_pipeline_first_stage(ignore_virtual=False, vp_stage=self.vp_stage)
+        )
+        self.post_process = kwargs.pop(
+            "post_process", mpu.is_pipeline_last_stage(ignore_virtual=False, vp_stage=self.vp_stage)
+        )
         transformer_layer_spec = self._get_transformer_layer_spec(config)
 
         super().__init__(
@@ -290,7 +346,8 @@ def __init__(self, config: "McaModelConfig", **kwargs):
             rotary_percent=config.rotary_percent,
             rotary_base=config.rotary_base,
             rope_scaling=config.rotary_scaling,
-            mtp_block_spec=self._get_mtp_block_spec(config),
+            rope_scaling_factor=config.rotary_scaling_factor,
+            mtp_block_spec=self._get_mtp_block_spec(config, vp_stage=self.vp_stage),
             vp_stage=self.vp_stage,
         )
         for param in self.parameters():
@@ -298,18 +355,23 @@ def __init__(self, config: "McaModelConfig", **kwargs):
         if not config.use_cpu_initialization:
             self.to(current_platform.current_device())
 
+        if self.post_process or self.mtp_process:
+            self.output_layer.register_forward_hook(mca_lora_logits_postprocess_hook)
+
     def _get_transformer_layer_spec(self, config: Optional["McaModelConfig"] = None):
         config = config or self.config
         use_te = config.transformer_impl == "transformer_engine"
         if config.num_moe_experts:
-            transformer_block_spec = get_gpt_decoder_block_spec(config, use_transformer_engine=use_te, vp_stage=self.vp_stage)
+            transformer_block_spec = get_gpt_decoder_block_spec(
+                config, use_transformer_engine=use_te, vp_stage=self.vp_stage
+            )
             if not use_te and config.normalization == "RMSNorm":
                 transformer_block_spec.layer_norm = RMSNorm
             for transformer_layer_spec in transformer_block_spec.layer_specs:
                 if not use_te and config.normalization == "RMSNorm":
                     transformer_layer_spec.submodules.input_layernorm = RMSNorm
                     transformer_layer_spec.submodules.pre_mlp_layernorm = RMSNorm
-                if hasattr(transformer_layer_spec.submodules.mlp.submodules, "shared_experts"):
+                if getattr(transformer_layer_spec.submodules.mlp.submodules, "shared_experts", None):
                     transformer_layer_spec.submodules.mlp.submodules.shared_experts.params["gate"] = (
                         config.moe_use_shared_expert_gate
                     )
@@ -327,12 +389,12 @@ def _get_transformer_layer_spec(self, config: Optional["McaModelConfig"] = None)
                 module_spec.submodules.pre_mlp_layernorm = RMSNorm
             return module_spec
 
-    def _get_mtp_block_spec(self, config: Optional["McaModelConfig"] = None):
+    def _get_mtp_block_spec(self, config: Optional["McaModelConfig"] = None, vp_stage: Optional[int] = None):
         config = config or self.config
         if config.mtp_num_layers and config.mtp_num_layers > 0:
             transformer_layer_spec = self._get_transformer_layer_spec(config)
             use_te = config.transformer_impl == "transformer_engine"
-            spec = get_gpt_mtp_block_spec(config, transformer_layer_spec, use_te)
+            spec = get_gpt_mtp_block_spec(config, transformer_layer_spec, use_te, vp_stage=vp_stage)
             return spec
         else:
             return None
diff --git a/mcore_adapter/src/mcore_adapter/models/model_utils.py b/mcore_adapter/src/mcore_adapter/models/model_utils.py
index c7c83817e..3677e56c7 100644
--- a/mcore_adapter/src/mcore_adapter/models/model_utils.py
+++ b/mcore_adapter/src/mcore_adapter/models/model_utils.py
@@ -109,6 +109,35 @@ def forward(self, hidden_states):
         return self.weight * hidden_states.to(input_dtype)
 
 
+class _McaLoraLogitsHelper(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, logits: "torch.Tensor"):
+        return logits
+
+    @staticmethod
+    def backward(ctx, grad_output: "torch.Tensor"):
+        if grad_output.size(1) == 1:
+            # tensor.contiguous() does not change strides[1] with shape [sequence_length, 1, vocab_size]
+            return grad_output.contiguous().view_as(grad_output)
+        return grad_output.contiguous()
+
+
+def _mca_lora_logits_postprocess(logits: "torch.Tensor"):
+    """make sure grad_output is contiguous
+    Args:
+        logits: logits split across tensor parallel ranks
+            dimension is [sequence_length, batch_size, vocab_size/num_parallel_ranks]
+    Returns:
+        contiguous logits
+    (It's fine to change the order of sequence_length and batch_size in dimension)
+    """
+    return _McaLoraLogitsHelper.apply(logits)
+
+def mca_lora_logits_postprocess_hook(module, input, output):
+    logits, other = output
+    logits = _mca_lora_logits_postprocess(logits)
+    return logits, other
+
 def exists_hf_config(model_name_or_path: str) -> bool:
     return os.path.exists(os.path.join(model_name_or_path, "config.json"))
 
@@ -125,7 +154,8 @@ def check_and_get_attention_backend_by_env(attention_backend: AttnBackend):
     fused_attn = os.getenv("NVTE_FUSED_ATTN", None)
     unfused_attn = os.getenv("NVTE_UNFUSED_ATTN", None)
 
-    is_set_as = lambda env, value: env is not None and env == value
+    def is_set_as(env, value):
+        return env is not None and env == value
 
     if is_set_as(flash_attn, "0") and is_set_as(fused_attn, "0") and is_set_as(unfused_attn, "0"):
         return AttnBackend.local
@@ -142,7 +172,7 @@ def get_thd_data_on_this_cp_rank(
     batch: Dict[str, "torch.Tensor"], packed_seq_params: PackedSeqParams, dim3_keys: List[str] = ["attention_mask"]
 ):
     """Performs sharding for Context Parallelism in THD format"""
-    import transformer_engine  # type: ignore
+    import transformer_engine  # noqa: F401
     import transformer_engine_torch as tex
 
     cp_size = mpu.get_context_parallel_world_size()
@@ -162,3 +192,20 @@ def get_thd_data_on_this_cp_rank(
         batch[key] = batch[key].index_select(seq_dim, seq_idx)
     batch["packed_seq_params"] = packed_seq_params
     return batch
+
+
+def configure_resized_vocab_size(
+    original_vocab_size: int,
+    tokenizer_len: int,
+    pad_to_multiple_of: int = 64,
+):
+    if original_vocab_size >= tokenizer_len:
+        return None
+    new_vocab_size = (
+        (tokenizer_len + pad_to_multiple_of - 1) // pad_to_multiple_of
+    ) * pad_to_multiple_of
+    logger.info(
+        f"Tokenizer length: {tokenizer_len} is greater than original vocab size: {original_vocab_size}. "
+        f"The vocab is resized to {new_vocab_size}."
+    )
+    return new_vocab_size
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen2_5_vl/modeling_qwen2_5_vl.py b/mcore_adapter/src/mcore_adapter/models/qwen2_5_vl/modeling_qwen2_5_vl.py
index 14481889a..085be37a2 100644
--- a/mcore_adapter/src/mcore_adapter/models/qwen2_5_vl/modeling_qwen2_5_vl.py
+++ b/mcore_adapter/src/mcore_adapter/models/qwen2_5_vl/modeling_qwen2_5_vl.py
@@ -1,8 +1,11 @@
-from typing import List, Optional, Tuple
+import heapq
+import itertools
+from typing import Optional
 
 import torch
 from megatron.core import mpu
 
+from ...parallel_functions import encoder_sequence_parallel_gather, encoder_small_batch_size_gather
 from ...platforms import current_platform
 from ..auto.modeling_auto import register_model
 from ..model_factory import McaGPTModel
@@ -19,13 +22,17 @@ def __init__(self, config: "Qwen2_5_VLConfig", **kwargs):
         from transformers.models.qwen2_5_vl.modeling_qwen2_5_vl import Qwen2_5_VisionTransformerPretrainedModel
 
         super().__init__(config, **kwargs)
-        self.pre_process = kwargs.get("pre_process", mpu.is_pipeline_first_stage())
+
         if self.pre_process:
             self.vision_model = Qwen2_5_VisionTransformerPretrainedModel._from_config(
                 Qwen2_5_VLVisionConfig(**config.vision_config),
                 attn_implementation="sdpa",
                 torch_dtype=self.config.params_dtype,
             ).to(current_platform.current_device())
+            # TODO: use_reentrant=True might cause error by twice forward/backward when
+            # training images and videos simultaneously, https://github.com/pytorch/pytorch/issues/81296
+            if config.recompute_granularity == "full" and self.training:
+                self.vision_model.gradient_checkpointing_enable({"use_reentrant": False})
             for param in self.vision_model.parameters():
                 setattr(param, "sequence_parallel", config.sequence_parallel)
 
@@ -35,6 +42,8 @@ def _handle_missing_visual(self, inputs_embeds: "torch.FloatTensor"):
         )
         mock_grid_thw = torch.LongTensor([[1, 2, 2]]).to(inputs_embeds.device)
         image_embeddings = self.vision_model(mock_pixel_values, grid_thw=mock_grid_thw)
+        if not isinstance(image_embeddings, torch.Tensor):
+            image_embeddings = image_embeddings.pooler_output
         inputs_embeds = inputs_embeds + image_embeddings.mean() * 0
         return inputs_embeds
 
@@ -44,106 +53,124 @@ def construct_inputs_embeds(
         inputs_embeds: "torch.FloatTensor",
         pixel_values: "torch.Tensor",
         grid_thw: "torch.LongTensor",
-        input_ranges: List[List[int]],
+        input_ranges: list[list[int]],
         media_token_id: int,
     ):
         """
         inputs_embeds: [s, b, h] or [s/tp, b, h] when sequence parallel
         ranges: sequence range
         """
-        image_seqlens = torch.repeat_interleave(grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]).cumsum(
-            dim=0, dtype=torch.int32
-        )
-        flatten_grid_thw = torch.repeat_interleave(grid_thw, grid_thw[:, 0], dim=0)
-        flatten_grid_thw[:, 0] = 1
-        image_embeds_seqlens = image_seqlens // (self.config.merge_size**2)
-        assert image_seqlens[-1] == pixel_values.shape[0], (
-            f"pixel_values.shape[0] {pixel_values.shape[0]} != image_seqlens[-1] {image_seqlens[-1]}"
-        )
-        assert sum([r[1] - r[0] for r in input_ranges]) == inputs_embeds.shape[0], (
-            f"sum of input_ranges {input_ranges} not match inputs_embeds.shape {inputs_embeds.shape}"
-        )
         image_mask = input_ids == media_token_id
+        image_indices = torch.full_like(image_mask, -1, dtype=torch.long)
+        image_indices[image_mask] = torch.arange(image_mask.sum(), device=image_indices.device)
+        vision_token_compress = self.config.merge_size**2
 
-        valid_image_embeds_nums = []  # indicate the ranges of needed image embeds
-        required_pixel_values, required_grid_thws = [], []  # image features input to vision tower
-        added_image_indexes = []
-        for i in range(image_mask.shape[0]):
-            for inputs_start, inputs_end in input_ranges:
-                valid_image_embeds_start = image_mask[:i].sum().item()
-                valid_image_embeds_start += image_mask[i, :inputs_start].sum().item()
-                embeds_num = image_mask[i, inputs_start:inputs_end].sum().item()
-                if embeds_num == 0:
-                    continue
-                valid_image_embeds_end = valid_image_embeds_start + embeds_num
-                used_embeds_seqlen_start = 0  # embeds seqlens used in this range
-                new_embeds_seqlen_start = (
-                    0  # embeds seqlens new added in this range, new_embeds_seqlen_start >= used_embeds_seqlen_start
-                )
-                embeds_seqlen_end = image_embeds_seqlens[-1]
-                added_seqlen_before_used = 0
-                for image_index, image_embeds_seqlen in enumerate(image_embeds_seqlens):
-                    if valid_image_embeds_start < image_embeds_seqlen:
-                        if image_index not in added_image_indexes:
-                            required_grid_thws.append(flatten_grid_thw[image_index])
-                            added_image_indexes.append(image_index)
-                        else:
-                            new_embeds_seqlen_start = image_embeds_seqlen
-                    else:
-                        used_embeds_seqlen_start = image_embeds_seqlen
-                        new_embeds_seqlen_start = image_embeds_seqlen
-                        if image_index in added_image_indexes:
-                            before_seqlen = 0 if image_index == 0 else image_embeds_seqlens[image_index - 1].item()
-                            added_seqlen_before_used += image_embeds_seqlen - before_seqlen
-                    if valid_image_embeds_end <= image_embeds_seqlen:
-                        embeds_seqlen_end = image_embeds_seqlen
-                        break
-
-                if new_embeds_seqlen_start < embeds_seqlen_end:
-                    required_pixel_values.append(
-                        pixel_values[
-                            new_embeds_seqlen_start * (self.config.merge_size**2) : embeds_seqlen_end
-                            * (self.config.merge_size**2)
-                        ]
-                    )
-                embeds_needed_start = valid_image_embeds_start - used_embeds_seqlen_start + added_seqlen_before_used
-                embeds_needed_end = valid_image_embeds_end - used_embeds_seqlen_start + added_seqlen_before_used
-                if embeds_needed_start < embeds_needed_end:
-                    valid_image_embeds_nums.append((embeds_needed_start, embeds_needed_end))
+        image_input_lengths = grid_thw.prod(-1).tolist()
+        image_output_lengths = [_ // vision_token_compress for _ in image_input_lengths]
 
-        if len(required_pixel_values) == 0:
-            return self._handle_missing_visual(inputs_embeds)
+        split_plan, pixel_values, grid_thw, _ = self.build_encoder_inputs(
+            image_input_lengths, pixel_values, grid_thw, None
+        )
 
-        required_pixel_values = torch.cat(required_pixel_values, dim=0)
-        required_grid_thw = torch.stack(required_grid_thws, dim=0)
         vision_model_dtype = self.vision_model.blocks[0].mlp.down_proj.weight.dtype
-        required_pixel_values = required_pixel_values.type(vision_model_dtype)
-        image_embeds = self.vision_model(required_pixel_values, grid_thw=required_grid_thw)
+        pixel_values = pixel_values.type(vision_model_dtype)
+        image_embeds = self.vision_model(pixel_values, grid_thw=grid_thw)
+        if not isinstance(image_embeds, torch.Tensor):
+            image_embeds = image_embeds.pooler_output
+        image_embeds = self.gather_encoder_outputs(image_embeds, split_plan, image_output_lengths)
         image_embeds = image_embeds.to(inputs_embeds.device, inputs_embeds.dtype)
 
-        image_mask = torch.cat(
-            [image_mask[:, inputs_start:inputs_end] for inputs_start, inputs_end in input_ranges], dim=1
-        )
-        needed_image_embeds_num = image_mask.sum().item()
-        needed_image_embeds = torch.zeros(
-            [needed_image_embeds_num] + list(image_embeds.shape[1:]),
-            dtype=inputs_embeds.dtype,
-            device=inputs_embeds.device,
-        )
-
-        added_num = 0
-        for start, end in valid_image_embeds_nums:
-            embeds_num = end - start
-            needed_image_embeds[added_num : added_num + embeds_num] = image_embeds[start:end]
-            added_num += embeds_num
-        assert added_num == needed_image_embeds_num
+        selected_mask = torch.cat([image_mask[:, start:end] for start, end in input_ranges], dim=1)
+        selected_indices = torch.cat([image_indices[:, start:end] for start, end in input_ranges], dim=1)
+        selected_indices = selected_indices[selected_indices != -1]
 
         inputs_embeds = inputs_embeds.transpose(0, 1)  # [s, b, h] -> [b, s, h]
-        image_mask = image_mask.unsqueeze(-1).expand_as(inputs_embeds)
-        inputs_embeds = inputs_embeds.masked_scatter(image_mask, needed_image_embeds)
+        selected_mask = selected_mask.unsqueeze(-1).expand_as(inputs_embeds)
+        inputs_embeds = inputs_embeds.masked_scatter(selected_mask, image_embeds[selected_indices])
         inputs_embeds = inputs_embeds.transpose(0, 1).contiguous()
         return inputs_embeds
 
+    def build_encoder_inputs(
+        self,
+        input_lengths: list[int],
+        input_features: torch.Tensor,
+        input_position_infos: torch.LongTensor,
+        input_attention_mask: Optional[torch.Tensor] = None,
+    ):
+        """
+        calculate split plan and local data according to workload, assuming workload proportional to length
+        Args:
+            input_lengths (list[int]): length of each sample
+            input_features (torch.Tensor): flatted input features, input_features.shape[0] == sum(input_lengths)
+            input_position_infos (torch.LongTensor): additional position info, len(input_position_infos) == len(input_lengths)
+        """
+        world_size = mpu.get_tensor_and_context_parallel_world_size()
+
+        if world_size == 1 or len(input_lengths) < world_size:  # encoder has small batch size
+            return None, input_features, input_position_infos, input_attention_mask
+
+        # sorted by length
+        indexed_items = sorted([(length, i) for i, length in enumerate(input_lengths)], reverse=True)
+
+        # min_heap for tracking current load on each GPU
+        min_heap = [(0, i) for i in range(world_size)]
+
+        # (length, original_index)
+        split_plan = [[] for _ in range(world_size)]
+
+        # heap sort
+        for length, original_index in indexed_items:
+            current_load, rank = heapq.heappop(min_heap)
+            split_plan[rank].append((length, original_index))
+            new_load = current_load + length
+            heapq.heappush(min_heap, (new_load, rank))
+
+        # start indices for each sample in input_features
+        start_indices = [
+            0,
+        ] + list(itertools.accumulate(input_lengths[:-1]))
+        # local inputs for each rank
+        local_rank = mpu.get_tensor_and_context_parallel_rank()
+
+        local_features_slices = []
+        local_position_infos_slices = []
+        local_attention_mask_slices = None
+        if input_attention_mask is not None:
+            if len(input_attention_mask) != len(input_position_infos):
+                raise ValueError("input_attention_mask and input_position_infos must have the same length.")
+            local_attention_mask_slices = []
+
+        for length, source_index in split_plan[local_rank]:
+            start, end = start_indices[source_index], start_indices[source_index] + length
+            local_features_slices.append(input_features[start:end])
+            start, end = source_index, source_index + 1
+            local_position_infos_slices.append(input_position_infos[start:end])
+            if local_attention_mask_slices is not None:
+                local_attention_mask_slices.append(input_attention_mask[start:end])
+
+        # no workload on current GPU
+        if not local_features_slices:
+            raise ValueError("No workload assigned to the current GPU in encoder.")
+
+        input_features_split = torch.cat(local_features_slices, dim=0)
+        input_position_infos_split = torch.cat(local_position_infos_slices, dim=0)
+
+        input_attention_mask_split = None
+        if local_attention_mask_slices is not None:
+            input_attention_mask_split = torch.cat(local_attention_mask_slices, dim=0)
+
+        return split_plan, input_features_split, input_position_infos_split, input_attention_mask_split
+
+    def gather_encoder_outputs(
+        self,
+        output_features: torch.Tensor,
+        split_plan: Optional[list[list[int]]] = None,
+        output_lengths: Optional[list[int]] = None,
+    ):
+        if split_plan is not None:
+            return encoder_sequence_parallel_gather(output_features, split_plan, output_lengths)
+        return encoder_small_batch_size_gather(output_features)
+
     # copy from transformers, add time_tensor
     # TODO: need test video input
     def get_rope_index(
@@ -153,7 +180,7 @@ def get_rope_index(
         video_grid_thw: Optional[torch.LongTensor] = None,
         second_per_grid_ts: Optional[torch.Tensor] = None,
         attention_mask: Optional[torch.Tensor] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         spatial_merge_size = self.config.merge_size
         image_token_id = self.config.image_token_id
         video_token_id = self.config.video_token_id
@@ -270,7 +297,7 @@ def get_rope_index(
 
             return position_ids, mrope_position_deltas
 
-    def get_batch_on_this_cp_rank(self, batch, dim3_keys: List[str] = ["attention_mask"]):
+    def get_batch_on_this_cp_rank(self, batch, dim3_keys: list[str] = ["attention_mask"]):
         # VLM need to view all input_ids and media features
         loss_needed_items = {
             "labels": batch.pop("labels", None),
@@ -324,19 +351,7 @@ def forward(
         **kwargs,
     ) -> "torch.Tensor":
         force_vit_image = kwargs.pop("force_vit_image", False)
-        force_vit_video = kwargs.pop("force_vit_video", False)       
-        
-        if position_ids is not None:
-            expected_shape = (3, input_ids.shape[0], input_ids.shape[1])  # (3, batch, seq_len)
-            if position_ids.shape != expected_shape:
-                if position_ids.shape == (input_ids.shape[0], input_ids.shape[1]):
-                    position_ids, _ = self.get_rope_index(
-                        input_ids, image_grid_thw, video_grid_thw, second_per_grid_ts, attention_mask
-                    )
-                else:
-                    raise ValueError(f"Unexpected position_ids shape: {position_ids.shape}, "
-                                     f"expected: {expected_shape} or {(input_ids.shape[0], input_ids.shape[1])}")
-
+        force_vit_video = kwargs.pop("force_vit_video", False)
         if position_ids is None and input_ids is not None:
             position_ids, _ = self.get_rope_index(
                 input_ids, image_grid_thw, video_grid_thw, second_per_grid_ts, attention_mask
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen2_vl/modeling_qwen2_vl.py b/mcore_adapter/src/mcore_adapter/models/qwen2_vl/modeling_qwen2_vl.py
index 3f68851b7..b7ba9b56e 100644
--- a/mcore_adapter/src/mcore_adapter/models/qwen2_vl/modeling_qwen2_vl.py
+++ b/mcore_adapter/src/mcore_adapter/models/qwen2_vl/modeling_qwen2_vl.py
@@ -1,8 +1,11 @@
-from typing import List, Optional, Tuple
+import heapq
+import itertools
+from typing import Optional
 
 import torch
 from megatron.core import mpu
 
+from ...parallel_functions import encoder_sequence_parallel_gather, encoder_small_batch_size_gather
 from ...platforms import current_platform
 from ..auto.modeling_auto import register_model
 from ..model_factory import McaGPTModel
@@ -26,6 +29,10 @@ def __init__(self, config: "Qwen2VLConfig", **kwargs):
                 attn_implementation="sdpa",
                 torch_dtype=self.config.params_dtype,
             ).to(current_platform.current_device())
+            # TODO: use_reentrant=True might cause error by twice forward/backward when
+            # training images and videos simultaneously, https://github.com/pytorch/pytorch/issues/81296
+            if config.recompute_granularity == "full" and self.training:
+                self.vision_model.gradient_checkpointing_enable({"use_reentrant": False})
             for param in self.vision_model.parameters():
                 setattr(param, "sequence_parallel", config.sequence_parallel)
 
@@ -35,6 +42,8 @@ def _handle_missing_visual(self, inputs_embeds: "torch.FloatTensor"):
         )
         mock_grid_thw = torch.LongTensor([[1, 2, 2]]).to(inputs_embeds.device)
         image_embeddings = self.vision_model(mock_pixel_values, grid_thw=mock_grid_thw)
+        if not isinstance(image_embeddings, torch.Tensor):
+            image_embeddings = image_embeddings.pooler_output
         inputs_embeds = inputs_embeds + image_embeddings.mean() * 0
         return inputs_embeds
 
@@ -44,112 +53,131 @@ def construct_inputs_embeds(
         inputs_embeds: "torch.FloatTensor",
         pixel_values: "torch.Tensor",
         grid_thw: "torch.LongTensor",
-        input_ranges: List[List[int]],
+        input_ranges: list[list[int]],
         media_token_id: int,
     ):
         """
         inputs_embeds: [s, b, h] or [s/tp, b, h] when sequence parallel
         ranges: sequence range
         """
-        image_seqlens = torch.repeat_interleave(grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]).cumsum(
-            dim=0, dtype=torch.int32
-        )
-        flatten_grid_thw = torch.repeat_interleave(grid_thw, grid_thw[:, 0], dim=0)
-        flatten_grid_thw[:, 0] = 1
-        image_embeds_seqlens = image_seqlens // (self.config.merge_size**2)
-        assert image_seqlens[-1] == pixel_values.shape[0], (
-            f"pixel_values.shape[0] {pixel_values.shape[0]} != image_seqlens[-1] {image_seqlens[-1]}"
-        )
-        assert sum([r[1] - r[0] for r in input_ranges]) == inputs_embeds.shape[0], (
-            f"sum of input_ranges {input_ranges} not match inputs_embeds.shape {inputs_embeds.shape}"
-        )
         image_mask = input_ids == media_token_id
+        image_indices = torch.full_like(image_mask, -1, dtype=torch.long)
+        image_indices[image_mask] = torch.arange(image_mask.sum(), device=image_indices.device)
+        vision_token_compress = self.config.merge_size**2
 
-        valid_image_embeds_nums = []  # indicate the ranges of needed image embeds
-        required_pixel_values, required_grid_thws = [], []  # image features input to vision tower
-        added_image_indexes = []
-        for i in range(image_mask.shape[0]):
-            for inputs_start, inputs_end in input_ranges:
-                valid_image_embeds_start = image_mask[:i].sum().item()
-                valid_image_embeds_start += image_mask[i, :inputs_start].sum().item()
-                embeds_num = image_mask[i, inputs_start:inputs_end].sum().item()
-                if embeds_num == 0:
-                    continue
-                valid_image_embeds_end = valid_image_embeds_start + embeds_num
-                used_embeds_seqlen_start = 0  # embeds seqlens used in this range
-                new_embeds_seqlen_start = (
-                    0  # embeds seqlens new added in this range, new_embeds_seqlen_start >= used_embeds_seqlen_start
-                )
-                embeds_seqlen_end = image_embeds_seqlens[-1]
-                added_seqlen_before_used = 0
-                for image_index, image_embeds_seqlen in enumerate(image_embeds_seqlens):
-                    if valid_image_embeds_start < image_embeds_seqlen:
-                        if image_index not in added_image_indexes:
-                            required_grid_thws.append(flatten_grid_thw[image_index])
-                            added_image_indexes.append(image_index)
-                        else:
-                            new_embeds_seqlen_start = image_embeds_seqlen
-                    else:
-                        used_embeds_seqlen_start = image_embeds_seqlen
-                        new_embeds_seqlen_start = image_embeds_seqlen
-                        if image_index in added_image_indexes:
-                            before_seqlen = 0 if image_index == 0 else image_embeds_seqlens[image_index - 1].item()
-                            added_seqlen_before_used += image_embeds_seqlen - before_seqlen
-                    if valid_image_embeds_end <= image_embeds_seqlen:
-                        embeds_seqlen_end = image_embeds_seqlen
-                        break
-
-                if new_embeds_seqlen_start < embeds_seqlen_end:
-                    required_pixel_values.append(
-                        pixel_values[
-                            new_embeds_seqlen_start * (self.config.merge_size**2) : embeds_seqlen_end
-                            * (self.config.merge_size**2)
-                        ]
-                    )
-                embeds_needed_start = valid_image_embeds_start - used_embeds_seqlen_start + added_seqlen_before_used
-                embeds_needed_end = valid_image_embeds_end - used_embeds_seqlen_start + added_seqlen_before_used
-                if embeds_needed_start < embeds_needed_end:
-                    valid_image_embeds_nums.append((embeds_needed_start, embeds_needed_end))
-
-        if len(required_pixel_values) == 0:
-            return self._handle_missing_visual(inputs_embeds)
-
-        required_pixel_values = torch.cat(required_pixel_values, dim=0)
-        required_grid_thw = torch.stack(required_grid_thws, dim=0)
-        required_pixel_values = required_pixel_values.type(self.vision_model.get_dtype())
-        image_embeds = self.vision_model(required_pixel_values, grid_thw=required_grid_thw)
-        image_embeds = image_embeds.to(inputs_embeds.device, inputs_embeds.dtype)
+        image_input_lengths = grid_thw.prod(-1).tolist()
+        image_output_lengths = [_ // vision_token_compress for _ in image_input_lengths]
 
-        image_mask = torch.cat(
-            [image_mask[:, inputs_start:inputs_end] for inputs_start, inputs_end in input_ranges], dim=1
-        )
-        needed_image_embeds_num = image_mask.sum().item()
-        needed_image_embeds = torch.zeros(
-            [needed_image_embeds_num] + list(image_embeds.shape[1:]),
-            dtype=inputs_embeds.dtype,
-            device=inputs_embeds.device,
+        split_plan, pixel_values, grid_thw, _ = self.build_encoder_inputs(
+            image_input_lengths, pixel_values, grid_thw, None
         )
 
-        added_num = 0
-        for start, end in valid_image_embeds_nums:
-            embeds_num = end - start
-            needed_image_embeds[added_num : added_num + embeds_num] = image_embeds[start:end]
-            added_num += embeds_num
-        assert added_num == needed_image_embeds_num
+        vision_model_dtype = self.vision_model.blocks[0].mlp.down_proj.weight.dtype
+        pixel_values = pixel_values.type(vision_model_dtype)
+        image_embeds = self.vision_model(pixel_values, grid_thw=grid_thw)
+        if not isinstance(image_embeds, torch.Tensor):
+            image_embeds = image_embeds.pooler_output
+        image_embeds = self.gather_encoder_outputs(image_embeds, split_plan, image_output_lengths)
+        image_embeds = image_embeds.to(inputs_embeds.device, inputs_embeds.dtype)
+
+        selected_mask = torch.cat([image_mask[:, start:end] for start, end in input_ranges], dim=1)
+        selected_indices = torch.cat([image_indices[:, start:end] for start, end in input_ranges], dim=1)
+        selected_indices = selected_indices[selected_indices != -1]
 
         inputs_embeds = inputs_embeds.transpose(0, 1)  # [s, b, h] -> [b, s, h]
-        image_mask = image_mask.unsqueeze(-1).expand_as(inputs_embeds)
-        inputs_embeds = inputs_embeds.masked_scatter(image_mask, needed_image_embeds)
+        selected_mask = selected_mask.unsqueeze(-1).expand_as(inputs_embeds)
+        inputs_embeds = inputs_embeds.masked_scatter(selected_mask, image_embeds[selected_indices])
         inputs_embeds = inputs_embeds.transpose(0, 1).contiguous()
         return inputs_embeds
 
+    def build_encoder_inputs(
+        self,
+        input_lengths: list[int],
+        input_features: torch.Tensor,
+        input_position_infos: torch.LongTensor,
+        input_attention_mask: Optional[torch.Tensor] = None,
+    ):
+        """
+        calculate split plan and local data according to workload, assuming workload proportional to length
+        Args:
+            input_lengths (list[int]): length of each sample
+            input_features (torch.Tensor): flatted input features, input_features.shape[0] == sum(input_lengths)
+            input_position_infos (torch.LongTensor): additional position info, len(input_position_infos) == len(input_lengths)
+        """
+        world_size = mpu.get_tensor_and_context_parallel_world_size()
+
+        if world_size == 1 or len(input_lengths) < world_size:  # encoder has small batch size
+            return None, input_features, input_position_infos, input_attention_mask
+
+        # sorted by length
+        indexed_items = sorted([(length, i) for i, length in enumerate(input_lengths)], reverse=True)
+
+        # min_heap for tracking current load on each GPU
+        min_heap = [(0, i) for i in range(world_size)]
+
+        # (length, original_index)
+        split_plan = [[] for _ in range(world_size)]
+
+        # heap sort
+        for length, original_index in indexed_items:
+            current_load, rank = heapq.heappop(min_heap)
+            split_plan[rank].append((length, original_index))
+            new_load = current_load + length
+            heapq.heappush(min_heap, (new_load, rank))
+
+        # start indices for each sample in input_features
+        start_indices = [
+            0,
+        ] + list(itertools.accumulate(input_lengths[:-1]))
+        # local inputs for each rank
+        local_rank = mpu.get_tensor_and_context_parallel_rank()
+
+        local_features_slices = []
+        local_position_infos_slices = []
+        local_attention_mask_slices = None
+        if input_attention_mask is not None:
+            if len(input_attention_mask) != len(input_position_infos):
+                raise ValueError("input_attention_mask and input_position_infos must have the same length.")
+            local_attention_mask_slices = []
+
+        for length, source_index in split_plan[local_rank]:
+            start, end = start_indices[source_index], start_indices[source_index] + length
+            local_features_slices.append(input_features[start:end])
+            start, end = source_index, source_index + 1
+            local_position_infos_slices.append(input_position_infos[start:end])
+            if local_attention_mask_slices is not None:
+                local_attention_mask_slices.append(input_attention_mask[start:end])
+
+        # no workload on current GPU
+        if not local_features_slices:
+            raise ValueError("No workload assigned to the current GPU in encoder.")
+
+        input_features_split = torch.cat(local_features_slices, dim=0)
+        input_position_infos_split = torch.cat(local_position_infos_slices, dim=0)
+
+        input_attention_mask_split = None
+        if local_attention_mask_slices is not None:
+            input_attention_mask_split = torch.cat(local_attention_mask_slices, dim=0)
+
+        return split_plan, input_features_split, input_position_infos_split, input_attention_mask_split
+
+    def gather_encoder_outputs(
+        self,
+        output_features: torch.Tensor,
+        split_plan: Optional[list[list[int]]] = None,
+        output_lengths: Optional[list[int]] = None,
+    ):
+        if split_plan is not None:
+            return encoder_sequence_parallel_gather(output_features, split_plan, output_lengths)
+        return encoder_small_batch_size_gather(output_features)
+
     # copy from transformers
     def get_rope_index(
         self,
         input_ids: torch.LongTensor,
         image_grid_thw: Optional[torch.LongTensor] = None,
         video_grid_thw: Optional[torch.LongTensor] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
+    ) -> tuple[torch.Tensor, torch.Tensor]:
         # default value 2 from transformers code
         spatial_merge_size = self.config.merge_size
         image_token_id = self.config.image_token_id
@@ -249,7 +277,7 @@ def get_rope_index(
 
             return position_ids, mrope_position_deltas
 
-    def get_batch_on_this_cp_rank(self, batch, dim3_keys: List[str] = ["attention_mask"]):
+    def get_batch_on_this_cp_rank(self, batch, dim3_keys: list[str] = ["attention_mask"]):
         # VLM need to view all input_ids and media features
         loss_needed_items = {
             "labels": batch.pop("labels", None),
@@ -303,16 +331,6 @@ def forward(
     ) -> "torch.Tensor":
         force_vit_image = kwargs.pop("force_vit_image", False)
         force_vit_video = kwargs.pop("force_vit_video", False)
-
-        if position_ids is not None:
-            expected_shape = (3, input_ids.shape[0], input_ids.shape[1])  # (3, batch, seq_len)
-            if position_ids.shape != expected_shape:
-                if position_ids.shape == (input_ids.shape[0], input_ids.shape[1]):
-                    position_ids, _ = self.get_rope_index(input_ids, image_grid_thw, video_grid_thw)
-                else:
-                    raise ValueError(f"Unexpected position_ids shape: {position_ids.shape}, "
-                                     f"expected: {expected_shape} or {(input_ids.shape[0], input_ids.shape[1])}")
-
         if position_ids is None and input_ids is not None:
             position_ids, _ = self.get_rope_index(input_ids, image_grid_thw, video_grid_thw)
 
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3/__init__.py b/mcore_adapter/src/mcore_adapter/models/qwen3/__init__.py
index 0a5aced77..c75bf0315 100644
--- a/mcore_adapter/src/mcore_adapter/models/qwen3/__init__.py
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3/__init__.py
@@ -10,6 +10,7 @@
 )
 from ..model_config import McaModelConfig
 from ..model_factory import McaGPTModel
+from ...utils import is_megatron_llama
 
 
 register_config("qwen3", McaModelConfig)
@@ -48,11 +49,18 @@
     weight_converters=[
         RenameConverOp(hf_names="lm_head.weight", mca_names="output_layer.weight"),
         RenameConverOp(hf_names="model.embed_tokens.weight", mca_names="embedding.word_embeddings.weight"),
-        RenameConverOp(hf_names=".input_layernorm.weight", mca_names=".self_attention.linear_qkv.layer_norm_weight"),
+        RenameConverOp(
+            hf_names=".input_layernorm.weight",
+            mca_names=".self_attention.linear_qkv.layer_norm_weight"
+                        if not is_megatron_llama() else ".input_layernorm.weight"
+        ),
         RenameConverOp(hf_names=".self_attn.o_proj.weight", mca_names=".self_attention.linear_proj.weight"),
         RenameConverOp(hf_names=".self_attn.q_norm.weight", mca_names=".self_attention.q_layernorm.weight"),
         RenameConverOp(hf_names=".self_attn.k_norm.weight", mca_names=".self_attention.k_layernorm.weight"),
-        RenameConverOp(hf_names=".post_attention_layernorm.weight", mca_names=".mlp.linear_fc1.layer_norm_weight"),
+        RenameConverOp(
+            hf_names=".post_attention_layernorm.weight",
+            mca_names=".mlp.linear_fc1.layer_norm_weight"
+                        if not is_megatron_llama() else ".pre_mlp_layernorm.weight"),
         RenameConverOp(hf_names="model.norm.weight", mca_names="decoder.final_layernorm.weight"),
         StackConverOp(
             hf_names=[".mlp.gate_proj.weight", ".mlp.up_proj.weight"], mca_names=".mlp.linear_fc1.weight", dim=0
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_5/__init__.py b/mcore_adapter/src/mcore_adapter/models/qwen3_5/__init__.py
new file mode 100644
index 000000000..00ec33284
--- /dev/null
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_5/__init__.py
@@ -0,0 +1,248 @@
+import re
+from dataclasses import dataclass
+
+import torch
+
+from ..converter.convert_utils import StackedTensors
+from ..converter.dist_converter import (
+    DistParallelConfig,
+    default_dist_config,
+    gdn_dist_config,
+    register_dist_config,
+)
+from ..converter.template import (
+    ConverOp,
+    CopyConverOp,
+    GatedQKVConverOp,
+    GDNConv1dConverOp,
+    RenameConverOp,
+    StackConverOp,
+    Template,
+    register_template,
+)
+from .config_qwen3_5 import Qwen3_5Config
+from .modeling_qwen3_5 import Qwen3_5Model
+
+
+@dataclass
+class DropConverOp(ConverOp):
+    def _hf_to_mca(self, weights):
+        return []
+
+    def _mca_to_hf(self, weights):
+        return []
+
+
+@dataclass
+class Qwen3_5_GDNConverOp(ConverOp):
+    def __post_init__(self):
+        super().__post_init__()
+        assert len(self.hf_names) == 4, f"GDNConverOp only support four hf_names {self.hf_names}"
+        assert len(self.mca_names) == 1, f"GDNConverOp only support one mca_name {self.mca_names}"
+
+    def _hf_to_mca(self, weights):
+        qkv_weight, z_weight, b_weight, a_weight = weights
+        qk_head_dim = self.mca_config.linear_key_head_dim
+        v_head_dim = self.mca_config.linear_value_head_dim
+        num_qk_heads = self.mca_config.linear_num_key_heads
+        num_v_heads = self.mca_config.linear_num_value_heads
+        qk_dim = qk_head_dim * num_qk_heads
+        v_dim = v_head_dim * num_v_heads
+
+        q, k, v = torch.split(
+            qkv_weight,
+            [
+                qk_dim,
+                qk_dim,
+                v_dim,
+            ],
+            dim=0,
+        )
+        z = z_weight.reshape(v_dim, -1)
+        b = b_weight.reshape(num_v_heads, -1)
+        a = a_weight.reshape(num_v_heads, -1)
+        return StackedTensors(tensors=[q, k, v, z, b, a], dim=0)
+
+    def _mca_to_hf(self, weights):
+        if len(weights) == 1:
+            assert isinstance(weights[0], StackedTensors)
+            q, k, v, z, b, a = weights[0].tensors
+            qkv = torch.cat([q, k, v], dim=0)
+            return [qkv, z, b, a]
+
+
+@dataclass
+class ZeroCenteredRMSNormConverOp(ConverOp):
+    def __post_init__(self):
+        super().__post_init__()
+        assert len(self.hf_names) == 1, f"ZeroCenteredRMSNormConverOp only support one name {self.hf_names}"
+        assert len(self.mca_names) == 1, f"ZeroCenteredRMSNormConverOp only support one name {self.mca_names}"
+
+    def _hf_to_mca(self, weights):
+        return weights[0].clone() - 1
+
+    def _mca_to_hf(self, weights):
+        return weights[0].clone() + 1
+
+
+register_dist_config(
+    "qwen3_5",
+    default_dist_config.merge_configs(gdn_dist_config).merge_configs(
+        DistParallelConfig(
+            pre_process_weights=["vision_model.*"],
+            duplicated_weights=["vision_model.*"],
+        )
+    ),
+)
+
+
+@dataclass
+class Qwen3_5Template(Template):
+    def adjust_config_hf_to_mca(self):
+        non_text_config_keys = set(
+            list(filter(lambda k: k.endswith("_token_id"), self.config_hf_to_mca.keys()))
+            + ["vision_config", "tie_word_embeddings"]
+        )
+        new_config_hf_to_mca = {}
+        for hf_key, mca_key in self.config_hf_to_mca.items():
+            new_hf_key = hf_key
+            if hf_key not in non_text_config_keys:
+                new_hf_key = "text_config." + new_hf_key
+            new_config_hf_to_mca[new_hf_key] = mca_key
+        return new_config_hf_to_mca
+
+    def add_hf_weight(self, name, weight):
+        pattern = r"^model\.language_model\.layers\.(\d+)\.input_layernorm\.weight$"
+        match = re.match(pattern, name)
+        layer_idx = int(match.group(1)) if match else None
+        if layer_idx is not None and self.mca_config.layer_types[layer_idx] == "linear_attention":
+            return {f"decoder.layers.{layer_idx}.self_attention.in_proj.layer_norm_weight": weight}
+        return super().add_hf_weight(name, weight)
+
+    def add_mca_weight(self, name, weight, **kwargs):
+        pattern = r"^decoder\.layers\.(\d+)\.self_attention\.in_proj\.layer_norm_weight$"
+        match = re.match(pattern, name)
+        if not match:
+            return super().add_mca_weight(name, weight, **kwargs)
+        layer_idx = int(match.group(1)) if match else None
+        return {f"model.language_model.layers.{layer_idx}.input_layernorm.weight": weight}
+
+    def get_lora_conver_op(self, name, pattern_to_conver_ops: dict[str, ConverOp], lora_rank: int):
+        lora_name = name[name.find(".lora") :]
+        name = name[: name.find(".lora")] + ".weight"
+        op = self.get_conver_op(name, pattern_to_conver_ops)
+        if isinstance(op, RenameConverOp):
+            op_class = RenameConverOp
+            kwargs = {}
+        elif "lora_A" in lora_name:
+            op_class = CopyConverOp
+            kwargs = {}
+        elif isinstance(op, StackConverOp):
+            op_class = StackConverOp
+            kwargs = {"dim": op.dim}
+        elif isinstance(op, GatedQKVConverOp):
+            op_class = GatedQKVConverOp
+            kwargs = {"hidden_size": lora_rank}
+        else:
+            raise ValueError(f"cannot find lora conver op for {name} in {pattern_to_conver_ops}")
+        return op_class(
+            hf_names=[hf_name.replace(".weight", lora_name) for hf_name in op.hf_names],
+            mca_names=[mca_name.replace(".weight", lora_name) for mca_name in op.mca_names],
+            _mca_config=op.mca_config,
+            **kwargs,
+        )
+
+
+register_template(
+    "qwen3_5",
+    hf_layer_prefix="model.language_model.layers.",
+    template_class=Qwen3_5Template,
+    config_hf_to_mca={
+        "max_position_embeddings": "max_sequence_length",
+        "hidden_size": "hidden_size",
+        "attention_bias": "add_qkv_bias",
+        "head_dim": "kv_channels",
+        "num_attention_heads": "num_attention_heads",
+        "num_key_value_heads": "num_query_groups",
+        "num_hidden_layers": "num_layers",
+        "rms_norm_eps": "layernorm_epsilon",
+        "vocab_size": "padded_vocab_size",
+        "attention_dropout": "attention_dropout",
+        "intermediate_size": "ffn_hidden_size",
+        "tie_word_embeddings": "tie_embeddings_and_output_weights",
+        # vit related
+        "vision_start_token_id": "vision_start_token_id",
+        "vision_end_token_id": "vision_end_token_id",
+        "vision_token_id": "vision_token_id",
+        "image_token_id": "image_token_id",
+        "video_token_id": "video_token_id",
+        "vision_config": "vision_config",
+        "rope_parameters": "rope_scaling",
+        # Linear attention
+        "linear_conv_kernel_dim": "linear_conv_kernel_dim",
+        "linear_key_head_dim": "linear_key_head_dim",
+        "linear_value_head_dim": "linear_value_head_dim",
+        "linear_num_key_heads": "linear_num_key_heads",
+        "linear_num_value_heads": "linear_num_value_heads",
+        # other special configs
+        # "mlp_only_layers": "mlp_only_layers",
+        "layer_types": "layer_types",
+        "full_attention_interval": "linear_attention_freq",
+    },
+    constant_mca_config={
+        "swiglu": True,
+        "position_embedding_type": "mrope",
+        "normalization": "RMSNorm",
+        "add_bias_linear": False,
+        "hidden_dropout": 0.0,
+        "qk_layernorm": True,
+        "layernorm_zero_centered_gamma": True,
+        "hetereogenous_dist_checkpoint": True,
+        "attention_output_gate": True,
+        "experimental_attention_variant": "gated_delta_net",
+    },
+    weight_converters=[
+        RenameConverOp(hf_names="lm_head.weight", mca_names="output_layer.weight"),
+        RenameConverOp(
+            hf_names="model.language_model.embed_tokens.weight", mca_names="embedding.word_embeddings.weight"
+        ),
+        RenameConverOp(hf_names=".input_layernorm.weight", mca_names=".self_attention.linear_qkv.layer_norm_weight"),
+        RenameConverOp(hf_names=".post_attention_layernorm.weight", mca_names=".mlp.linear_fc1.layer_norm_weight"),
+        RenameConverOp(hf_names="model.language_model.norm.weight", mca_names="decoder.final_layernorm.weight"),
+        RenameConverOp(hf_names=".mlp.down_proj.weight", mca_names=".mlp.linear_fc2.weight"),
+        StackConverOp(
+            hf_names=[".mlp.gate_proj.weight", ".mlp.up_proj.weight"], mca_names=".mlp.linear_fc1.weight", dim=0
+        ),
+        # Multi-head attention
+        GatedQKVConverOp(
+            hf_names=[".self_attn.q_proj.weight", ".self_attn.k_proj.weight", ".self_attn.v_proj.weight"],
+            mca_names=".self_attention.linear_qkv.weight",
+        ),
+        RenameConverOp(hf_names=".self_attn.o_proj.weight", mca_names=".self_attention.linear_proj.weight"),
+        RenameConverOp(hf_names=".self_attn.q_norm.weight", mca_names=".self_attention.q_layernorm.weight"),
+        RenameConverOp(hf_names=".self_attn.k_norm.weight", mca_names=".self_attention.k_layernorm.weight"),
+        # Linear attention
+        Qwen3_5_GDNConverOp(
+            hf_names=[
+                ".linear_attn.in_proj_qkv.weight",
+                ".linear_attn.in_proj_z.weight",
+                ".linear_attn.in_proj_b.weight",
+                ".linear_attn.in_proj_a.weight",
+            ],
+            mca_names=".self_attention.in_proj.weight",
+        ),
+        GDNConv1dConverOp(hf_names=".linear_attn.conv1d.weight", mca_names=".self_attention.conv1d.weight"),
+        RenameConverOp(hf_names=".linear_attn.dt_bias", mca_names=".self_attention.dt_bias"),
+        RenameConverOp(hf_names=".linear_attn.A_log", mca_names=".self_attention.A_log"),
+        ZeroCenteredRMSNormConverOp(
+            hf_names=".linear_attn.norm.weight", mca_names=".self_attention.out_norm.weight"
+        ),
+        RenameConverOp(hf_names=".linear_attn.out_proj.weight", mca_names=".self_attention.out_proj.weight"),
+        # vit related
+        RenameConverOp(hf_names="model.visual.{}", mca_names="vision_model.{}"),
+        # mtp related
+        DropConverOp(hf_names="mtp.*", mca_names=[]),
+    ],
+)
+
+__all__ = ["Qwen3_5Config", "Qwen3_5Model"]
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_5/config_qwen3_5.py b/mcore_adapter/src/mcore_adapter/models/qwen3_5/config_qwen3_5.py
new file mode 100644
index 000000000..b6338425c
--- /dev/null
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_5/config_qwen3_5.py
@@ -0,0 +1,56 @@
+from dataclasses import dataclass, field
+from typing import Optional
+
+from transformers import PretrainedConfig
+
+from ..auto.config_auto import register_config
+from ..model_config import McaModelConfig
+
+
+@register_config("qwen3_5")
+@dataclass
+class Qwen3_5Config(McaModelConfig):
+    """Qwen3_5Config"""
+
+    # Gated Delta Net specific (for linear attention layers)
+    layer_types: Optional[list[str]] = None
+
+    # Vision specific
+    vision_start_token_id: int = 248053
+    vision_end_token_id: int = 248054
+    vision_token_id: int = 248055
+    image_token_id: int = 248056
+    video_token_id: int = 248057
+    vision_config: Optional[dict] = field(
+        default=None,
+        metadata={"help": "Vision model config."},
+    )
+    rope_scaling: Optional[dict] = field(
+        default=None,
+        metadata={"help": "Rope scaling."},
+    )
+
+    def __post_init__(self):
+        super().__post_init__()
+        from transformers.models.qwen3_5.configuration_qwen3_5 import Qwen3_5VisionConfig
+
+        if isinstance(self.vision_config, PretrainedConfig):
+            self.vision_config = self.vision_config.to_dict()
+        vision_config_obj = Qwen3_5VisionConfig(**self.vision_config)
+        self.merge_size = vision_config_obj.spatial_merge_size
+        self.pixel_values_dim = (
+            vision_config_obj.patch_size
+            * vision_config_obj.patch_size
+            * vision_config_obj.in_channels
+            * vision_config_obj.temporal_patch_size
+        )  # 1176
+        self.mrope_section = self.rope_scaling.get("mrope_section")
+        self.rotary_base = self.rope_scaling.get("rope_theta")
+        self.rotary_percent = self.rope_scaling.get("partial_rotary_factor")
+
+        assert self.hidden_dropout == 0.0, "hidden dropout is Not supported for qwen3_5 yet."
+        if self.layer_types is None:
+            self.layer_types = [
+                "linear_attention" if bool((i + 1) % self.linear_attention_freq) else "full_attention"
+                for i in range(self.num_layers)
+            ]
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_5/modeling_qwen3_5.py b/mcore_adapter/src/mcore_adapter/models/qwen3_5/modeling_qwen3_5.py
new file mode 100644
index 000000000..23d7203cc
--- /dev/null
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_5/modeling_qwen3_5.py
@@ -0,0 +1,317 @@
+import heapq
+import itertools
+from typing import Optional
+
+import torch
+from megatron.core import mpu
+
+from ...parallel_functions import encoder_sequence_parallel_gather, encoder_small_batch_size_gather
+from ...platforms import current_platform
+from ..auto.modeling_auto import register_model
+from ..model_factory import McaGPTModel
+from ..qwen3_vl.rope_utils import Qwen3VLMultimodalRotaryEmbedding, get_rope_index
+from .config_qwen3_5 import Qwen3_5Config
+
+
+class Qwen3_5McaGPTModel(McaGPTModel):
+    def __init__(
+        self,
+        config: Qwen3_5Config,
+        seq_len_interpolation_factor: Optional[float] = None,
+        **kwargs,
+    ) -> None:
+        super().__init__(
+            config,
+            seq_len_interpolation_factor=seq_len_interpolation_factor,
+            **kwargs,
+        )
+
+        # rebuild rope
+        self.rotary_pos_emb = Qwen3VLMultimodalRotaryEmbedding(
+            kv_channels=self.config.kv_channels,
+            rotary_percent=self.config.rotary_percent,
+            rotary_interleaved=self.config.rotary_interleaved,
+            seq_len_interpolation_factor=seq_len_interpolation_factor,
+            rotary_base=self.config.rotary_base,
+        )
+        self.mrope_section = self.config.mrope_section
+        assert self.mrope_section is not None, (
+            "mrope require mrope_section setting, but we got None from TransformerConfig"
+        )
+
+
+@register_model("qwen3_5")
+class Qwen3_5Model(Qwen3_5McaGPTModel):
+    config_class = Qwen3_5Config
+
+    def __init__(self, config: "Qwen3_5Config", **kwargs):
+        from transformers.models.qwen3_5.configuration_qwen3_5 import Qwen3_5VisionConfig
+        from transformers.models.qwen3_5.modeling_qwen3_5 import Qwen3_5VisionModel
+
+        super().__init__(config, **kwargs)
+
+        if self.pre_process:
+            self.vision_model = Qwen3_5VisionModel._from_config(
+                Qwen3_5VisionConfig(**config.vision_config),
+                attn_implementation="sdpa",
+                torch_dtype=self.config.params_dtype,
+            ).to(current_platform.current_device())
+            # TODO: use_reentrant=True might cause error by twice forward/backward when
+            # training images and videos simultaneously, https://github.com/pytorch/pytorch/issues/81296
+            if config.recompute_granularity == "full" and self.training:
+                self.vision_model.gradient_checkpointing_enable({"use_reentrant": False})
+            for param in self.vision_model.parameters():
+                setattr(param, "sequence_parallel", config.sequence_parallel)
+
+    def _get_transformer_layer_spec(self, config: Optional[Qwen3_5Config] = None):
+        from megatron.core.models.gpt.experimental_attention_variant_module_specs import (
+            get_transformer_block_with_experimental_attention_variant_spec,
+        )
+
+        config = config or self.config
+        assert config.transformer_impl == "transformer_engine", (
+            "Qwen3_5Model only supports 'transformer_engine' implementation"
+        )
+        if config.experimental_attention_variant is not None:
+            transformer_block_spec = get_transformer_block_with_experimental_attention_variant_spec(
+                config=config, vp_stage=self.vp_stage
+            )
+        else:
+            transformer_block_spec = super()._get_transformer_layer_spec(config)
+        return transformer_block_spec
+
+    def _handle_missing_visual(self, inputs_embeds: "torch.FloatTensor"):
+        mock_pixel_values = torch.zeros(
+            4, self.config.pixel_values_dim, device=inputs_embeds.device, dtype=inputs_embeds.dtype
+        )
+        mock_grid_thw = torch.LongTensor([[1, 2, 2]]).to(inputs_embeds.device)
+        image_embeddings = self.vision_model(mock_pixel_values, grid_thw=mock_grid_thw)
+        if not isinstance(image_embeddings, torch.Tensor):
+            image_embeddings = image_embeddings.pooler_output
+        inputs_embeds = inputs_embeds + image_embeddings.mean() * 0
+        return inputs_embeds
+
+    def construct_inputs_embeds(
+        self,
+        input_ids: "torch.LongTensor",
+        inputs_embeds: "torch.FloatTensor",
+        pixel_values: "torch.Tensor",
+        grid_thw: "torch.LongTensor",
+        input_ranges: list[list[int]],
+        media_token_id: int,
+    ):
+        """
+        inputs_embeds: [s, b, h] or [s/tp, b, h] when sequence parallel
+        ranges: sequence range
+        """
+        image_mask = input_ids == media_token_id
+        image_indices = torch.full_like(image_mask, -1, dtype=torch.long)
+        image_indices[image_mask] = torch.arange(image_mask.sum(), device=image_indices.device)
+        vision_token_compress = self.config.merge_size**2
+
+        image_input_lengths = grid_thw.prod(-1).tolist()
+        image_output_lengths = [_ // vision_token_compress for _ in image_input_lengths]
+
+        split_plan, pixel_values, grid_thw, _ = self.build_encoder_inputs(
+            image_input_lengths, pixel_values, grid_thw, None
+        )
+
+        vision_model_dtype = self.vision_model.blocks[0].mlp.linear_fc1.weight.dtype
+        pixel_values = pixel_values.type(vision_model_dtype)
+        image_embeds = self.vision_model(pixel_values, grid_thw=grid_thw)
+        if not isinstance(image_embeds, torch.Tensor):
+            image_embeds = image_embeds.pooler_output
+        image_embeds = self.gather_encoder_outputs(image_embeds, split_plan, image_output_lengths)
+        image_embeds = image_embeds.to(inputs_embeds.device, inputs_embeds.dtype)
+
+        selected_mask = torch.cat([image_mask[:, start:end] for start, end in input_ranges], dim=1)
+        selected_indices = torch.cat([image_indices[:, start:end] for start, end in input_ranges], dim=1)
+        selected_indices = selected_indices[selected_indices != -1]
+
+        inputs_embeds = inputs_embeds.transpose(0, 1)  # [s, b, h] -> [b, s, h]
+        selected_mask = selected_mask.unsqueeze(-1).expand_as(inputs_embeds)
+        inputs_embeds = inputs_embeds.masked_scatter(selected_mask, image_embeds[selected_indices])
+        inputs_embeds = inputs_embeds.transpose(0, 1).contiguous()
+        return inputs_embeds
+
+    def build_encoder_inputs(
+        self,
+        input_lengths: list[int],
+        input_features: torch.Tensor,
+        input_position_infos: torch.LongTensor,
+        input_attention_mask: Optional[torch.Tensor] = None,
+    ):
+        """
+        calculate split plan and local data according to workload, assuming workload proportional to length
+        Args:
+            input_lengths (list[int]): length of each sample
+            input_features (torch.Tensor): flatted input features, input_features.shape[0] == sum(input_lengths)
+            input_position_infos (torch.LongTensor): additional position info, len(input_position_infos) == len(input_lengths)
+        """
+        world_size = mpu.get_tensor_and_context_parallel_world_size()
+
+        if world_size == 1 or len(input_lengths) < world_size:  # encoder has small batch size
+            return None, input_features, input_position_infos, input_attention_mask
+
+        # sorted by length
+        indexed_items = sorted([(length, i) for i, length in enumerate(input_lengths)], reverse=True)
+
+        # min_heap for tracking current load on each GPU
+        min_heap = [(0, i) for i in range(world_size)]
+
+        # (length, original_index)
+        split_plan = [[] for _ in range(world_size)]
+
+        # heap sort
+        for length, original_index in indexed_items:
+            current_load, rank = heapq.heappop(min_heap)
+            split_plan[rank].append((length, original_index))
+            new_load = current_load + length
+            heapq.heappush(min_heap, (new_load, rank))
+
+        # start indices for each sample in input_features
+        start_indices = [
+            0,
+        ] + list(itertools.accumulate(input_lengths[:-1]))
+        # local inputs for each rank
+        local_rank = mpu.get_tensor_and_context_parallel_rank()
+
+        local_features_slices = []
+        local_position_infos_slices = []
+        local_attention_mask_slices = None
+        if input_attention_mask is not None:
+            if len(input_attention_mask) != len(input_position_infos):
+                raise ValueError("input_attention_mask and input_position_infos must have the same length.")
+            local_attention_mask_slices = []
+
+        for length, source_index in split_plan[local_rank]:
+            start, end = start_indices[source_index], start_indices[source_index] + length
+            local_features_slices.append(input_features[start:end])
+            start, end = source_index, source_index + 1
+            local_position_infos_slices.append(input_position_infos[start:end])
+            if local_attention_mask_slices is not None:
+                local_attention_mask_slices.append(input_attention_mask[start:end])
+
+        # no workload on current GPU
+        if not local_features_slices:
+            raise ValueError("No workload assigned to the current GPU in encoder.")
+
+        input_features_split = torch.cat(local_features_slices, dim=0)
+        input_position_infos_split = torch.cat(local_position_infos_slices, dim=0)
+
+        input_attention_mask_split = None
+        if local_attention_mask_slices is not None:
+            input_attention_mask_split = torch.cat(local_attention_mask_slices, dim=0)
+
+        return split_plan, input_features_split, input_position_infos_split, input_attention_mask_split
+
+    def gather_encoder_outputs(
+        self,
+        output_features: torch.Tensor,
+        split_plan: Optional[list[list[int]]] = None,
+        output_lengths: Optional[list[int]] = None,
+    ):
+        if split_plan is not None:
+            return encoder_sequence_parallel_gather(output_features, split_plan, output_lengths)
+        return encoder_small_batch_size_gather(output_features)
+
+    def get_batch_on_this_cp_rank(self, batch, dim3_keys: list[str] = ["attention_mask"]):
+        # VLM need to view all input_ids and media features
+        loss_needed_items = {
+            "labels": batch.pop("labels", None),
+        }
+        loss_needed_items = super().get_batch_on_this_cp_rank(loss_needed_items, dim3_keys=dim3_keys)
+        batch.update(loss_needed_items)
+        return batch
+
+    def get_input_ranges(self, total_seqlen):
+        # context parallel 的计算有问题
+        slice_rank, slice_size = 0, 1
+        if self.config.sequence_parallel:
+            slice_rank = mpu.get_tensor_model_parallel_rank()
+            slice_size = mpu.get_tensor_model_parallel_world_size()
+
+        def get_sequence_range(start, end, rank, size):
+            return start + (end - start) * rank // size, start + (end - start) * (rank + 1) // size
+
+        if self.config.context_parallel_size <= 1:
+            return [list(get_sequence_range(0, total_seqlen, slice_rank, slice_size))]
+        cp_rank = mpu.get_context_parallel_rank()
+        cp_size = mpu.get_context_parallel_world_size()
+        left_start = (total_seqlen // cp_size // 2) * cp_rank
+        left_end = (total_seqlen // cp_size // 2) * (cp_rank + 1)
+        right_start = total_seqlen - left_end
+        right_end = total_seqlen - left_start
+        slice_len = (left_end - left_start + right_end - right_start) // slice_size
+        start = left_start + slice_len * slice_rank
+        end = start + slice_len
+        if start >= left_end:
+            start = start - left_end + right_start
+            end = start + slice_len
+            return [[start, end]]
+        if end <= left_end:
+            return [[start, end]]
+        end = end - left_end + right_start
+        return [[start, left_end], [right_start, end]]
+
+    def forward(
+        self,
+        input_ids: "torch.Tensor",
+        position_ids: Optional["torch.Tensor"] = None,
+        attention_mask: Optional["torch.Tensor"] = None,
+        decoder_input: Optional["torch.Tensor"] = None,
+        labels: Optional["torch.Tensor"] = None,
+        pixel_values: Optional["torch.Tensor"] = None,
+        pixel_values_videos: Optional["torch.Tensor"] = None,
+        image_grid_thw: Optional["torch.LongTensor"] = None,
+        video_grid_thw: Optional["torch.LongTensor"] = None,
+        **kwargs,
+    ) -> "torch.Tensor":
+        force_vit_image = kwargs.pop("force_vit_image", False)
+        force_vit_video = kwargs.pop("force_vit_video", False)
+        if position_ids is None and input_ids is not None:
+            position_ids, _ = get_rope_index(self.config, input_ids, image_grid_thw, video_grid_thw)
+
+        cp_batch = {
+            "input_ids": input_ids,
+            "attention_mask": attention_mask,
+        }
+        if self.config.context_parallel_size > 1:
+            cp_batch = {k: v.clone() if v is not None else None for k, v in cp_batch.items()}
+            cp_batch = super().get_batch_on_this_cp_rank(cp_batch, dim3_keys=[])
+
+        if not self.pre_process or decoder_input is not None:
+            return super().forward(
+                decoder_input=decoder_input, labels=labels, position_ids=position_ids, **cp_batch, **kwargs
+            )
+
+        inputs_ranges = self.get_input_ranges(input_ids.shape[1])
+
+        inputs_embeds = self.embedding(input_ids=cp_batch["input_ids"], position_ids=None)
+        if pixel_values is not None:
+            inputs_embeds = self.construct_inputs_embeds(
+                input_ids,
+                inputs_embeds,
+                pixel_values,
+                image_grid_thw,
+                inputs_ranges,
+                self.config.image_token_id,
+            )
+        elif force_vit_image:
+            inputs_embeds = self._handle_missing_visual(inputs_embeds)
+        if pixel_values_videos is not None:
+            inputs_embeds = self.construct_inputs_embeds(
+                input_ids,
+                inputs_embeds,
+                pixel_values_videos,
+                video_grid_thw,
+                inputs_ranges,
+                self.config.video_token_id,
+            )
+        elif force_vit_video:
+            inputs_embeds = self._handle_missing_visual(inputs_embeds)
+        decoder_input = inputs_embeds
+
+        return super().forward(
+            decoder_input=decoder_input, labels=labels, position_ids=position_ids, **cp_batch, **kwargs
+        )
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_5_moe/__init__.py b/mcore_adapter/src/mcore_adapter/models/qwen3_5_moe/__init__.py
new file mode 100644
index 000000000..95e8ece32
--- /dev/null
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_5_moe/__init__.py
@@ -0,0 +1,237 @@
+import re
+from dataclasses import dataclass
+
+import torch
+
+from ..auto.config_auto import register_config
+from ..auto.modeling_auto import register_model
+from ..converter.convert_utils import (
+    convert_to_hf_prefix,
+    get_mca_moe_index,
+    get_mca_weight_prefix,
+    remove_mca_weight_prefix,
+)
+from ..converter.dist_converter import (
+    DistParallelConfig,
+    default_dist_config,
+    gdn_dist_config,
+    register_dist_config,
+    shared_moe_dist_config,
+)
+from ..converter.template import (
+    ConverOp,
+    GatedQKVConverOp,
+    GDNConv1dConverOp,
+    RenameConverOp,
+    StackConverOp,
+    StackedTensors,
+    register_template,
+)
+from ..qwen3_5 import DropConverOp, Qwen3_5_GDNConverOp, Qwen3_5Template, ZeroCenteredRMSNormConverOp
+from ..qwen3_5.config_qwen3_5 import Qwen3_5Config
+from ..qwen3_5.modeling_qwen3_5 import Qwen3_5Model
+
+
+@dataclass
+class SplitConverOp(ConverOp):
+    def __post_init__(self):
+        super().__post_init__()
+        assert len(self.hf_names) == 1, f"SplitConverOp only support one name {self.hf_names}"
+
+    @property
+    def mca_config(self) -> "Qwen3_5Config":
+        return self._mca_config
+
+    @mca_config.setter
+    def mca_config(self, value: "Qwen3_5Config"):
+        self._mca_config = value
+        if len(self.mca_names) == 1:
+            mca_name = self.mca_names[0]
+            num_splits = self._mca_config.num_moe_experts
+            self.mca_names = [str(i) + mca_name for i in range(num_splits)]
+
+    def _hf_to_mca(self, weights):
+        return list(torch.unbind(weights[0], dim=0))
+
+    def _mca_to_hf(self, weights):
+        if isinstance(weights[0], StackedTensors):
+            return torch.stack([torch.cat(weight.tensors) for weight in weights], dim=0)
+        return torch.stack(weights, dim=0)
+
+
+@dataclass
+class SplitStackConverOp(SplitConverOp):
+    def _hf_to_mca(self, weights):
+        return [StackedTensors(torch.chunk(w, 2, dim=0), dim=0) for w in torch.unbind(weights[0], dim=0)]
+
+
+register_config("qwen3_5_moe", Qwen3_5Config)
+register_model("qwen3_5_moe", Qwen3_5Model)
+register_dist_config(
+    "qwen3_5_moe",
+    default_dist_config.merge_configs(shared_moe_dist_config)
+    .merge_configs(gdn_dist_config)
+    .merge_configs(
+        DistParallelConfig(
+            pre_process_weights=["vision_model.*"],
+            duplicated_weights=["vision_model.*"],
+        )
+    ),
+)
+
+
+@dataclass
+class Qwen3_5_MoETemplate(Qwen3_5Template):
+    def add_mca_weight(self, name, weight, **kwargs):
+        pattern = r"^decoder\.layers\.(\d+)\.self_attention\.in_proj\.layer_norm_weight$"
+        match = re.match(pattern, name)
+        if match:
+            layer_idx = int(match.group(1)) if match else None
+            return {f"model.language_model.layers.{layer_idx}.input_layernorm.weight": weight}
+        weight_prefix = get_mca_weight_prefix(name)
+        original_name = remove_mca_weight_prefix(name)
+        moe_layer_index = get_mca_moe_index(name)
+        # Since experts weights are stacked in qwen3_vl_moe,
+        # we need to add the moe index to the original name to
+        # ensure all experts weights have the same weight_prefix
+        if moe_layer_index is not None:
+            original_name = str(moe_layer_index) + original_name
+            weight_prefix = name[: -len(original_name)]
+        if weight_prefix not in self.prefix_name_to_weight:
+            self.prefix_name_to_weight[weight_prefix] = {}
+        self.prefix_name_to_weight[weight_prefix][original_name] = weight
+        prefix_weights = self.prefix_name_to_weight[weight_prefix]
+        # However, when looking up the converter, we still use the original name without moe index
+        # This is because mca_name_to_converter is built before mca_names reset which happens at
+        # model converter init.
+        original_name = remove_mca_weight_prefix(name)
+        if ".lora_A." in original_name or ".lora_B." in original_name:
+            op = self.get_lora_conver_op(original_name, self.mca_name_to_converter, **kwargs)
+        else:
+            op = self.get_conver_op(original_name, self.mca_name_to_converter)
+        name_to_weight = {
+            name: prefix_weights.pop(name)
+            for name in list(prefix_weights.keys())
+            if op.is_required_name(name, mca_name=True)
+        }
+        conver_res = op(name_to_weight, mca_to_hf=True)
+        if conver_res is None:
+            # not ready to convert
+            self.prefix_name_to_weight[weight_prefix].update(name_to_weight)
+            return conver_res
+        hf_prefix = convert_to_hf_prefix(weight_prefix, self.hf_layer_prefix, self.hf_moe_prefix)
+        return {hf_prefix + name: weight for name, weight in conver_res.items()}
+
+
+register_template(
+    "qwen3_5_moe",
+    hf_layer_prefix="model.language_model.layers.",
+    hf_moe_prefix=".mlp.experts.",
+    template_class=Qwen3_5_MoETemplate,
+    config_hf_to_mca={
+        "max_position_embeddings": "max_sequence_length",
+        "hidden_size": "hidden_size",
+        "attention_bias": "add_qkv_bias",
+        "head_dim": "kv_channels",
+        "num_attention_heads": "num_attention_heads",
+        "num_key_value_heads": "num_query_groups",
+        "num_hidden_layers": "num_layers",
+        "rms_norm_eps": "layernorm_epsilon",
+        "vocab_size": "padded_vocab_size",
+        "attention_dropout": "attention_dropout",
+        "intermediate_size": "ffn_hidden_size",
+        "tie_word_embeddings": "tie_embeddings_and_output_weights",
+        # MoE related
+        "moe_intermediate_size": "moe_ffn_hidden_size",
+        "decoder_sparse_step": "moe_layer_freq",
+        "num_experts": "num_moe_experts",
+        "num_experts_per_tok": "moe_router_topk",
+        "router_aux_loss_coef": "moe_aux_loss_coeff",
+        "shared_expert_intermediate_size": "moe_shared_expert_intermediate_size",
+        # vit related
+        "vision_start_token_id": "vision_start_token_id",
+        "vision_end_token_id": "vision_end_token_id",
+        "vision_token_id": "vision_token_id",
+        "image_token_id": "image_token_id",
+        "video_token_id": "video_token_id",
+        "vision_config": "vision_config",
+        "rope_parameters": "rope_scaling",
+        # Linear attention
+        "linear_conv_kernel_dim": "linear_conv_kernel_dim",
+        "linear_key_head_dim": "linear_key_head_dim",
+        "linear_value_head_dim": "linear_value_head_dim",
+        "linear_num_key_heads": "linear_num_key_heads",
+        "linear_num_value_heads": "linear_num_value_heads",
+        # other special configs
+        # "mlp_only_layers": "mlp_only_layers",
+        "layer_types": "layer_types",
+        "full_attention_interval": "linear_attention_freq",
+    },
+    constant_mca_config={
+        "swiglu": True,
+        "position_embedding_type": "mrope",
+        "normalization": "RMSNorm",
+        "add_bias_linear": False,
+        "hidden_dropout": 0.0,
+        "moe_router_load_balancing_type": "aux_loss",
+        "moe_router_pre_softmax": False,
+        "qk_layernorm": True,
+        "moe_shared_expert_gate": True,
+        "layernorm_zero_centered_gamma": True,
+        "hetereogenous_dist_checkpoint": True,
+        "attention_output_gate": True,
+        "experimental_attention_variant": "gated_delta_net",
+    },
+    weight_converters=[
+        RenameConverOp(hf_names="lm_head.weight", mca_names="output_layer.weight"),
+        RenameConverOp(
+            hf_names="model.language_model.embed_tokens.weight", mca_names="embedding.word_embeddings.weight"
+        ),
+        RenameConverOp(hf_names=".input_layernorm.weight", mca_names=".self_attention.linear_qkv.layer_norm_weight"),
+        RenameConverOp(hf_names=".post_attention_layernorm.weight", mca_names=".pre_mlp_layernorm.weight"),
+        RenameConverOp(hf_names="model.language_model.norm.weight", mca_names="decoder.final_layernorm.weight"),
+        # Stacked experts
+        RenameConverOp(hf_names=".mlp.gate.weight", mca_names=".mlp.router.weight"),
+        SplitStackConverOp(hf_names="gate_up_proj", mca_names=".linear_fc1.weight"),
+        SplitConverOp(hf_names="down_proj", mca_names=".linear_fc2.weight"),
+        # Shared experts
+        RenameConverOp(
+            hf_names=".mlp.shared_expert.down_proj.weight", mca_names=".mlp.shared_experts.linear_fc2.weight"
+        ),
+        RenameConverOp(hf_names=".mlp.shared_expert_gate.weight", mca_names=".mlp.shared_experts.gate_weight"),
+        StackConverOp(
+            hf_names=[".mlp.shared_expert.gate_proj.weight", ".mlp.shared_expert.up_proj.weight"],
+            mca_names=".mlp.shared_experts.linear_fc1.weight",
+            dim=0,
+        ),
+        # Multi-head attention
+        GatedQKVConverOp(
+            hf_names=[".self_attn.q_proj.weight", ".self_attn.k_proj.weight", ".self_attn.v_proj.weight"],
+            mca_names=".self_attention.linear_qkv.weight",
+        ),
+        RenameConverOp(hf_names=".self_attn.o_proj.weight", mca_names=".self_attention.linear_proj.weight"),
+        RenameConverOp(hf_names=".self_attn.q_norm.weight", mca_names=".self_attention.q_layernorm.weight"),
+        RenameConverOp(hf_names=".self_attn.k_norm.weight", mca_names=".self_attention.k_layernorm.weight"),
+        # Linear attention
+        Qwen3_5_GDNConverOp(
+            hf_names=[
+                ".linear_attn.in_proj_qkv.weight",
+                ".linear_attn.in_proj_z.weight",
+                ".linear_attn.in_proj_b.weight",
+                ".linear_attn.in_proj_a.weight",
+            ],
+            mca_names=".self_attention.in_proj.weight",
+        ),
+        GDNConv1dConverOp(hf_names=".linear_attn.conv1d.weight", mca_names=".self_attention.conv1d.weight"),
+        RenameConverOp(hf_names=".linear_attn.dt_bias", mca_names=".self_attention.dt_bias"),
+        RenameConverOp(hf_names=".linear_attn.A_log", mca_names=".self_attention.A_log"),
+        ZeroCenteredRMSNormConverOp(
+            hf_names=".linear_attn.norm.weight", mca_names=".self_attention.out_norm.weight"
+        ),
+        RenameConverOp(hf_names=".linear_attn.out_proj.weight", mca_names=".self_attention.out_proj.weight"),
+        # vit related
+        RenameConverOp(hf_names="model.visual.{}", mca_names="vision_model.{}"),
+        # mtp related
+        DropConverOp(hf_names="mtp.*", mca_names=[]),
+    ],
+)
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_moe/__init__.py b/mcore_adapter/src/mcore_adapter/models/qwen3_moe/__init__.py
index d752440f1..7c53a4313 100644
--- a/mcore_adapter/src/mcore_adapter/models/qwen3_moe/__init__.py
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_moe/__init__.py
@@ -10,6 +10,7 @@
 )
 from ..model_config import McaModelConfig
 from ..model_factory import McaGPTModel
+from ...utils import is_megatron_llama
 
 
 register_config("qwen3_moe", McaModelConfig)
@@ -56,7 +57,11 @@
     weight_converters=[
         RenameConverOp(hf_names="lm_head.weight", mca_names="output_layer.weight"),
         RenameConverOp(hf_names="model.embed_tokens.weight", mca_names="embedding.word_embeddings.weight"),
-        RenameConverOp(hf_names=".input_layernorm.weight", mca_names=".self_attention.linear_qkv.layer_norm_weight"),
+        RenameConverOp(
+            hf_names=".input_layernorm.weight",
+            mca_names=".self_attention.linear_qkv.layer_norm_weight"
+                        if not is_megatron_llama() else ".input_layernorm.weight"
+        ),
         RenameConverOp(hf_names=".self_attn.o_proj.weight", mca_names=".self_attention.linear_proj.weight"),
         RenameConverOp(hf_names=".self_attn.q_norm.weight", mca_names=".self_attention.q_layernorm.weight"),
         RenameConverOp(hf_names=".self_attn.k_norm.weight", mca_names=".self_attention.k_layernorm.weight"),
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_next/__init__.py b/mcore_adapter/src/mcore_adapter/models/qwen3_next/__init__.py
index b9ef623f6..e0b8dc66e 100644
--- a/mcore_adapter/src/mcore_adapter/models/qwen3_next/__init__.py
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_next/__init__.py
@@ -4,14 +4,16 @@
 import torch
 
 from ..converter.dist_converter import (
-    DistParallelConfig,
     default_dist_config,
+    gdn_dist_config,
     register_dist_config,
     shared_moe_dist_config,
 )
 from ..converter.template import (
     ConverOp,
-    QKVConverOp,
+    CopyConverOp,
+    GatedQKVConverOp,
+    GDNConv1dConverOp,
     RenameConverOp,
     StackConverOp,
     Template,
@@ -23,9 +25,6 @@
 
 @dataclass
 class DropConverOp(ConverOp):
-    def __init__(self, hf_names, mca_names):
-        super().__init__(hf_names, mca_names)
-
     def _hf_to_mca(self, weights):
         return []
 
@@ -34,54 +33,73 @@ def _mca_to_hf(self, weights):
 
 
 @dataclass
-class NextQKVConverOp(QKVConverOp):
-    """query weight used for calculating query_states and gate"""
+class NextGDNConverOp(ConverOp):
+    def __post_init__(self):
+        super().__post_init__()
+        assert len(self.hf_names) == 2, f"GDNConverOp only support two hf_names {self.hf_names}"
+        assert len(self.mca_names) == 1, f"GDNConverOp only support one mca_name {self.mca_names}"
+
     def _hf_to_mca(self, weights):
-        q_weight, k_weight, v_weight = weights
-        nh = self.mca_config.num_attention_heads
-        ng = self.mca_config.num_query_groups
-        dim = self.mca_config.kv_channels
-        assert nh % ng == 0
-        mca_qkv_weight = torch.cat(
+        qkvz_weight, ba_weight = weights
+        hidden_size = self.mca_config.hidden_size
+        qk_head_dim = self.mca_config.linear_key_head_dim
+        v_head_dim = self.mca_config.linear_value_head_dim
+        num_qk_heads = self.mca_config.linear_num_key_heads
+        num_v_heads = self.mca_config.linear_num_value_heads
+        qk_dim = qk_head_dim * num_qk_heads
+        v_dim = v_head_dim * num_v_heads
+
+        qkvz_reshaped = qkvz_weight.reshape(num_qk_heads, (qk_dim * 2 + v_dim * 2) // num_qk_heads, -1)
+        ba_reshaped = ba_weight.reshape(num_qk_heads, 2 * num_v_heads // num_qk_heads, -1)
+        q, k, v, z = torch.split(
+            qkvz_reshaped,
             [
-                q_weight.reshape((ng, dim * nh // ng * 2, -1)),
-                k_weight.reshape((ng, dim, -1)),
-                v_weight.reshape((ng, dim, -1)),
+                qk_head_dim,
+                qk_head_dim,
+                num_v_heads // num_qk_heads * v_head_dim,
+                num_v_heads // num_qk_heads * v_head_dim,
             ],
             dim=1,
-        ).reshape((-1, self.mca_config.hidden_size))
-        return mca_qkv_weight
+        )
+        b, a = torch.split(ba_reshaped, [num_v_heads // num_qk_heads, num_v_heads // num_qk_heads], dim=1)
+        q, k, v, z, b, a = [weight.reshape(-1, hidden_size) for weight in [q, k, v, z, b, a]]
+        in_proj_weight = torch.cat([q, k, v, z, b, a], dim=0).reshape(-1, hidden_size)
+        return in_proj_weight
 
     def _mca_to_hf(self, weights):
-        qkv_weight = weights[0]
-        ng = self.mca_config.num_query_groups
-        nh = self.mca_config.num_attention_heads
-        dim = self.mca_config.kv_channels
-        qkv_weight = qkv_weight.reshape((ng, dim * (nh // ng * 2 + 2), -1))
-        qkv_weights = torch.split(qkv_weight, [dim * nh // ng * 2, dim, dim], dim=1)
-        q_weight = qkv_weights[0].reshape((-1, self.mca_config.hidden_size))
-        k_weight = qkv_weights[1].reshape((-1, self.mca_config.hidden_size))
-        v_weight = qkv_weights[2].reshape((-1, self.mca_config.hidden_size))
-        return [q_weight, k_weight, v_weight]
-
-
-linear_attn_dist_config = DistParallelConfig(
-    # TODO: support tensor parallel
-    duplicated_weights=[
-        ".self_attention.in_proj_qkvz.weight",
-        ".self_attention.in_proj_ba.weight",
-        ".self_attention.conv1d.weight",
-        ".self_attention.dt_bias",
-        ".self_attention.A_log",
-        ".self_attention.norm.weight",
-        ".self_attention.out_proj.weight",
-        ".input_layernorm.weight",
-    ]
-)
+        in_proj_weight = weights[0]
+        hidden_size = self.mca_config.hidden_size
+        qk_head_dim = self.mca_config.linear_key_head_dim
+        v_head_dim = self.mca_config.linear_value_head_dim
+        num_qk_heads = self.mca_config.linear_num_key_heads
+        num_v_heads = self.mca_config.linear_num_value_heads
+        qk_dim = qk_head_dim * num_qk_heads
+        v_dim = v_head_dim * num_v_heads
+
+        in_proj_weight = in_proj_weight.reshape(-1, hidden_size)
+        q, k, v, z, b, a = torch.split(in_proj_weight, [qk_dim, qk_dim, v_dim, v_dim, num_v_heads, num_v_heads], dim=0)
+        q, k, v, z, b, a = [weight.reshape(num_qk_heads, -1, hidden_size) for weight in [q, k, v, z, b, a]]
+        qkvz_weight = torch.cat([q, k, v, z], dim=1).reshape(-1, hidden_size)
+        ba_weight = torch.cat([b, a], dim=1).reshape(-1, hidden_size)
+        return [qkvz_weight, ba_weight]
+
+
+@dataclass
+class ZeroCenteredRMSNormConverOp(ConverOp):
+    def __post_init__(self):
+        super().__post_init__()
+        assert len(self.hf_names) == 1, f"ZeroCenteredRMSNormConverOp only support one name {self.hf_names}"
+        assert len(self.mca_names) == 1, f"ZeroCenteredRMSNormConverOp only support one name {self.mca_names}"
+
+    def _hf_to_mca(self, weights):
+        return weights[0].clone() - 1
+
+    def _mca_to_hf(self, weights):
+        return weights[0].clone() + 1
 
 
 register_dist_config(
-    "qwen3_next", default_dist_config.merge_configs(shared_moe_dist_config).merge_configs(linear_attn_dist_config)
+    "qwen3_next", default_dist_config.merge_configs(shared_moe_dist_config).merge_configs(gdn_dist_config)
 )
 
 
@@ -92,17 +110,42 @@ def add_hf_weight(self, name, weight):
         match = re.match(pattern, name)
         layer_idx = int(match.group(1)) if match else None
         if layer_idx is not None and self.mca_config.layer_types[layer_idx] == "linear_attention":
-            return {f"decoder.layers.{layer_idx}.input_layernorm.weight": weight}
+            return {f"decoder.layers.{layer_idx}.self_attention.in_proj.layer_norm_weight": weight}
         return super().add_hf_weight(name, weight)
 
-    def add_mca_weight(self, name, weight):
-        pattern = r"^decoder\.layers\.(\d+)\.input_layernorm\.weight$"
+    def add_mca_weight(self, name, weight, **kwargs):
+        pattern = r"^decoder\.layers\.(\d+)\.self_attention\.in_proj\.layer_norm_weight$"
         match = re.match(pattern, name)
         if not match:
-            return super().add_mca_weight(name, weight)
+            return super().add_mca_weight(name, weight, **kwargs)
         layer_idx = int(match.group(1)) if match else None
         return {f"model.layers.{layer_idx}.input_layernorm.weight": weight}
 
+    def get_lora_conver_op(self, name, pattern_to_conver_ops: dict[str, ConverOp], lora_rank: int):
+        lora_name = name[name.find(".lora") :]
+        name = name[: name.find(".lora")] + ".weight"
+        op = self.get_conver_op(name, pattern_to_conver_ops)
+        if isinstance(op, RenameConverOp):
+            op_class = RenameConverOp
+            kwargs = {}
+        elif "lora_A" in lora_name:
+            op_class = CopyConverOp
+            kwargs = {}
+        elif isinstance(op, StackConverOp):
+            op_class = StackConverOp
+            kwargs = {"dim": op.dim}
+        elif isinstance(op, GatedQKVConverOp):
+            op_class = GatedQKVConverOp
+            kwargs = {"hidden_size": lora_rank}
+        else:
+            raise ValueError(f"can not find lora conver op for {name} in {pattern_to_conver_ops}")
+        return op_class(
+            hf_names=[hf_name.replace(".weight", lora_name) for hf_name in op.hf_names],
+            mca_names=[mca_name.replace(".weight", lora_name) for mca_name in op.mca_names],
+            _mca_config=op.mca_config,
+            **kwargs,
+        )
+
 
 register_template(
     "qwen3_next",
@@ -139,7 +182,7 @@ def add_mca_weight(self, name, weight):
         # other special configs
         # "mlp_only_layers": "mlp_only_layers",
         "layer_types": "layer_types",
-        "full_attention_interval": "full_attention_interval",
+        "full_attention_interval": "linear_attention_freq",
     },
     constant_mca_config={
         "swiglu": True,
@@ -151,9 +194,11 @@ def add_mca_weight(self, name, weight):
         "moe_router_load_balancing_type": "aux_loss",
         "moe_router_pre_softmax": False,
         "qk_layernorm": True,
-        "moe_use_shared_expert_gate": True,
+        "moe_shared_expert_gate": True,
         "layernorm_zero_centered_gamma": True,
         "hetereogenous_dist_checkpoint": True,
+        "attention_output_gate": True,
+        "experimental_attention_variant": "gated_delta_net",
     },
     weight_converters=[
         RenameConverOp(hf_names="lm_head.weight", mca_names="output_layer.weight"),
@@ -175,7 +220,7 @@ def add_mca_weight(self, name, weight):
             dim=0,
         ),
         # Multi-head attention
-        NextQKVConverOp(
+        GatedQKVConverOp(
             hf_names=[".self_attn.q_proj.weight", ".self_attn.k_proj.weight", ".self_attn.v_proj.weight"],
             mca_names=".self_attention.linear_qkv.weight",
         ),
@@ -183,17 +228,18 @@ def add_mca_weight(self, name, weight):
         RenameConverOp(hf_names=".self_attn.q_norm.weight", mca_names=".self_attention.q_layernorm.weight"),
         RenameConverOp(hf_names=".self_attn.k_norm.weight", mca_names=".self_attention.k_layernorm.weight"),
         # Linear attention
-        RenameConverOp(hf_names=".linear_attn.in_proj_qkvz.weight", mca_names=".self_attention.in_proj_qkvz.weight"),
-        RenameConverOp(hf_names=".linear_attn.in_proj_ba.weight", mca_names=".self_attention.in_proj_ba.weight"),
-        RenameConverOp(hf_names=".linear_attn.conv1d.weight", mca_names=".self_attention.conv1d.weight"),
+        NextGDNConverOp(
+            hf_names=[".linear_attn.in_proj_qkvz.weight", ".linear_attn.in_proj_ba.weight"],
+            mca_names=".self_attention.in_proj.weight",
+        ),
+        GDNConv1dConverOp(hf_names=".linear_attn.conv1d.weight", mca_names=".self_attention.conv1d.weight"),
         RenameConverOp(hf_names=".linear_attn.dt_bias", mca_names=".self_attention.dt_bias"),
         RenameConverOp(hf_names=".linear_attn.A_log", mca_names=".self_attention.A_log"),
-        RenameConverOp(hf_names=".linear_attn.norm.weight", mca_names=".self_attention.norm.weight"),
+        ZeroCenteredRMSNormConverOp(hf_names=".linear_attn.norm.weight", mca_names=".self_attention.out_norm.weight"),
         RenameConverOp(hf_names=".linear_attn.out_proj.weight", mca_names=".self_attention.out_proj.weight"),
         # MTP not support
         DropConverOp(hf_names="mtp.*", mca_names=[]),
     ],
 )
 
-
 __all__ = ["Qwen3NextConfig", "Qwen3NextModel"]
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_next/config_qwen3_next.py b/mcore_adapter/src/mcore_adapter/models/qwen3_next/config_qwen3_next.py
index b33bb9478..a3b62973f 100644
--- a/mcore_adapter/src/mcore_adapter/models/qwen3_next/config_qwen3_next.py
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_next/config_qwen3_next.py
@@ -1,5 +1,5 @@
 from dataclasses import dataclass
-from typing import List, Optional
+from typing import Optional
 
 from ..auto.config_auto import register_config
 from ..model_config import McaModelConfig
@@ -9,25 +9,14 @@
 @dataclass
 class Qwen3NextConfig(McaModelConfig):
     """Qwen3NextConfig"""
-    # Gated Delta Net specific (for linear attention layers)
-    linear_conv_kernel_dim: int = 4
-    linear_key_head_dim: int = 128
-    linear_value_head_dim: int = 128
-    linear_num_key_heads: int = 16
-    linear_num_value_heads: int = 32
 
-    layer_types: Optional[List[str]] = None
-    full_attention_interval: int = 4
+    # Gated Delta Net specific (for linear attention layers)
+    layer_types: Optional[list[str]] = None
 
     def __post_init__(self):
         super().__post_init__()
-        assert self.tensor_model_parallel_size == 1, "Qwen3Next only supports tensor_model_parallel_size=1"
-        assert self.context_parallel_size == 1, "Qwen3Next only supports context_parallel_size=1"
-
         if self.layer_types is None:
             self.layer_types = [
-                "linear_attention"
-                if bool((i + 1) % self.full_attention_interval)
-                else "full_attention"
+                "linear_attention" if bool((i + 1) % self.linear_attention_freq) else "full_attention"
                 for i in range(self.num_layers)
             ]
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_next/modeling_qwen3_next.py b/mcore_adapter/src/mcore_adapter/models/qwen3_next/modeling_qwen3_next.py
index d064c708a..db5bbf02f 100644
--- a/mcore_adapter/src/mcore_adapter/models/qwen3_next/modeling_qwen3_next.py
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_next/modeling_qwen3_next.py
@@ -1,342 +1,8 @@
-from copy import deepcopy
-from typing import Optional, Tuple
-
-import torch
-import torch.nn as nn
-from megatron.core.extensions.transformer_engine import TENorm
-from megatron.core.models.common.embeddings.rope_utils import apply_rotary_pos_emb
-from megatron.core.transformer.attention import SelfAttention
-from megatron.core.transformer.module import MegatronModule
-from megatron.core.transformer.spec_utils import build_module
-from megatron.core.transformer.transformer_block import TransformerBlockSubmodules
-from megatron.core.transformer.transformer_layer import get_transformer_layer_offset
-from torch.nn import functional as F
+from typing import Optional
 
 from ..auto.modeling_auto import register_model
 from ..model_factory import McaGPTModel
 from .config_qwen3_next import Qwen3NextConfig
-from ...platforms import current_platform
-
-# based on qwen3next code in transformers
-class Qwen3NextRMSNorm(nn.Module):
-    def __init__(self, config: "Qwen3NextConfig", hidden_size, eps=1e-6, **kwargs):
-        super().__init__()
-        device = current_platform.current_device() if not config.use_cpu_initialization else None
-        self.weight = torch.nn.Parameter(torch.ones(hidden_size, dtype=config.params_dtype, device=device))
-        self.variance_epsilon = config.layernorm_epsilon
-
-        # set sequence parallelism flag
-        setattr(self.weight, "sequence_parallel", config.sequence_parallel)
-
-    def _norm(self, x):
-        return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.variance_epsilon)
-
-    def forward(self, x):
-        output = self._norm(x.float())
-        output = output * (1.0 + self.weight.float())
-        return output.type_as(x).contiguous()
-
-    def extra_repr(self):
-        return f"{tuple(self.weight.shape)}, eps={self.variance_epsilon}"
-
-
-# based on qwen3next code in transformers
-class Qwen3NextGatedDeltaNet(MegatronModule):
-    def __init__(
-        self,
-        config: Qwen3NextConfig,
-        submodules,
-        layer_number: int,
-        **kwargs,
-    ):
-        try:
-            from fla.modules import FusedRMSNormGated
-            from fla.ops.gated_delta_rule import chunk_gated_delta_rule
-        except ImportError:
-            raise ImportError("Please install flash-linear-attention to use Qwen3NextGatedDeltaNet")
-
-        self.chunk_gated_delta_rule = chunk_gated_delta_rule
-        super().__init__(config=config)
-        device = current_platform.current_device() if not config.use_cpu_initialization else None
-        self.hidden_size = config.hidden_size
-        self.num_v_heads = config.linear_num_value_heads
-        self.num_k_heads = config.linear_num_key_heads
-        self.head_k_dim = config.linear_key_head_dim
-        self.head_v_dim = config.linear_value_head_dim
-        self.key_dim = self.head_k_dim * self.num_k_heads
-        self.value_dim = self.head_v_dim * self.num_v_heads
-        self.conv_kernel_size = config.linear_conv_kernel_dim
-        self.layer_number = layer_number
-        self.layer_norm_epsilon = config.layernorm_epsilon
-
-        projection_size_qkvz = self.key_dim * 2 + self.value_dim * 2
-        self.in_proj_qkvz = nn.Linear(
-            self.hidden_size, projection_size_qkvz, bias=False, device=device, dtype=config.params_dtype
-        )
-
-        projection_size_ba = self.num_v_heads * 2
-        self.in_proj_ba = nn.Linear(
-            self.hidden_size, projection_size_ba, bias=False, device=device, dtype=config.params_dtype
-        )
-
-        self.conv_dim = self.key_dim * 2 + self.value_dim
-        self.conv1d = nn.Conv1d(
-            in_channels=self.conv_dim,
-            out_channels=self.conv_dim,
-            bias=False,
-            kernel_size=self.conv_kernel_size,
-            groups=self.conv_dim,
-            padding=self.conv_kernel_size - 1,
-            device=device,
-            dtype=config.params_dtype,
-        )
-
-        self.dt_bias = nn.Parameter(torch.ones(self.num_v_heads, device=device, dtype=config.params_dtype))
-        A = torch.empty(self.num_v_heads, device=device, dtype=config.params_dtype).uniform_(0, 16)
-        self.A_log = nn.Parameter(torch.log(A))
-
-        self.norm = FusedRMSNormGated(
-            self.head_v_dim, eps=self.layer_norm_epsilon, device=device, dtype=config.params_dtype
-        )
-        self.out_proj = nn.Linear(
-            self.value_dim, self.hidden_size, bias=False, device=device, dtype=config.params_dtype
-        )
-
-    def fix_query_key_value_ordering(self, mixed_qkvz, mixed_ba):
-        """
-        Derives `query`, `key` and `value` tensors from `mixed_qkvz` and `mixed_ba`.
-        """
-
-        new_tensor_shape_qkvz = mixed_qkvz.size()[:-1] + (
-            self.num_k_heads,
-            2 * self.head_k_dim + 2 * self.head_v_dim * self.num_v_heads // self.num_k_heads,
-        )
-        new_tensor_shape_ba = mixed_ba.size()[:-1] + (self.num_k_heads, 2 * self.num_v_heads // self.num_k_heads)
-
-        mixed_qkvz = mixed_qkvz.view(*new_tensor_shape_qkvz)
-        mixed_ba = mixed_ba.view(*new_tensor_shape_ba)
-        split_arg_list_qkvz = [
-            self.head_k_dim,
-            self.head_k_dim,
-            (self.num_v_heads // self.num_k_heads * self.head_v_dim),
-            (self.num_v_heads // self.num_k_heads * self.head_v_dim),
-        ]
-        split_arg_list_ba = [self.num_v_heads // self.num_k_heads, self.num_v_heads // self.num_k_heads]
-        query, key, value, z = torch.split(mixed_qkvz, split_arg_list_qkvz, dim=3)
-        b, a = torch.split(mixed_ba, split_arg_list_ba, dim=3)
-        # [b, sq, ng, np/ng * hn] -> [b, sq, np, hn]
-        value = value.reshape(value.size(0), value.size(1), -1, self.head_v_dim)
-        z = z.reshape(z.size(0), z.size(1), -1, self.head_v_dim)
-        b = b.reshape(b.size(0), b.size(1), self.num_v_heads)
-        a = a.reshape(a.size(0), a.size(1), self.num_v_heads)
-        return query, key, value, z, b, a
-
-    def forward(self, hidden_states: torch.Tensor, **kwargs) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
-        hidden_states = hidden_states.transpose(0, 1) # [b, s, h]
-
-        # Set up dimensions for reshapes later
-        batch_size, seq_len, _ = hidden_states.shape
-
-        projected_states_qkvz = self.in_proj_qkvz(hidden_states)
-        projected_states_ba = self.in_proj_ba(hidden_states)
-        query, key, value, z, b, a = self.fix_query_key_value_ordering(projected_states_qkvz, projected_states_ba)
-        query, key, value = (x.reshape(x.shape[0], x.shape[1], -1) for x in (query, key, value))
-
-        mixed_qkv = torch.cat((query, key, value), dim=-1)
-        mixed_qkv = mixed_qkv.transpose(1, 2)
-        mixed_qkv = F.silu(self.conv1d(mixed_qkv)[:, :, :seq_len])
-
-        mixed_qkv = mixed_qkv.transpose(1, 2)
-        query, key, value = torch.split(
-            mixed_qkv,
-            [
-                self.key_dim,
-                self.key_dim,
-                self.value_dim,
-            ],
-            dim=-1,
-        )
-        query = query.reshape(query.shape[0], query.shape[1], -1, self.head_k_dim)
-        key = key.reshape(key.shape[0], key.shape[1], -1, self.head_k_dim)
-        value = value.reshape(value.shape[0], value.shape[1], -1, self.head_v_dim)
-
-        beta = b.sigmoid()
-        g = -self.A_log.float().exp() * F.softplus(a.float() + self.dt_bias)
-        if self.num_v_heads // self.num_k_heads > 1:
-            query = query.repeat_interleave(self.num_v_heads // self.num_k_heads, dim=2)
-            key = key.repeat_interleave(self.num_v_heads // self.num_k_heads, dim=2)
-
-        core_attn_out, last_recurrent_state = self.chunk_gated_delta_rule(
-            query,
-            key,
-            value,
-            g=g,
-            beta=beta,
-            initial_state=None,
-            output_final_state=False,
-            use_qk_l2norm_in_kernel=True,
-        )
-
-        z_shape_og = z.shape
-        # reshape input data into 2D tensor
-        core_attn_out = core_attn_out.reshape(-1, core_attn_out.shape[-1])
-        z = z.reshape(-1, z.shape[-1])
-        core_attn_out = self.norm(core_attn_out, z)
-        core_attn_out = core_attn_out.reshape(z_shape_og)
-        core_attn_out = core_attn_out.reshape(core_attn_out.shape[0], core_attn_out.shape[1], -1)
-
-        output = self.out_proj(core_attn_out)
-        output = output.transpose(0, 1)  # [s, b, h]
-        return output, None
-
-
-class Qwen3NextSelfAttention(SelfAttention):
-    def __init__(
-        self,
-        config: Qwen3NextConfig,
-        submodules,
-        *args,
-        **kwargs,
-    ):
-        config.num_attention_heads *= 2
-        # double size of query weight
-        super().__init__(
-            config,
-            submodules,
-            *args,
-            **kwargs,
-        )
-        config.num_attention_heads //= 2
-
-        self.linear_proj = build_module(
-            submodules.linear_proj,
-            self.query_projection_size // 2,
-            self.config.hidden_size,
-            config=self.config,
-            init_method=self.config.output_layer_init_method,
-            bias=self.config.add_bias_linear,
-            input_is_parallel=True,
-            skip_bias_add=True,
-            is_expert=False,
-            tp_comm_buffer_name="proj",
-        )
-
-    def forward(
-        self,
-        hidden_states,
-        attention_mask,
-        key_value_states=None,
-        inference_context=None,
-        rotary_pos_emb=None,
-        rotary_pos_cos=None,
-        rotary_pos_sin=None,
-        attention_bias=None,
-        packed_seq_params=None,
-        sequence_len_offset=None,
-        *,
-        inference_params=None,
-    ):
-        # add gate based on megatron attention forward impl
-        assert rotary_pos_cos is None and rotary_pos_sin is None
-
-        if rotary_pos_emb is not None and not isinstance(rotary_pos_emb, tuple):
-            rotary_pos_emb = (rotary_pos_emb,) * 2
-
-        # from get_query_key_value_tensors
-        mixed_qkv, _ = self.linear_qkv(hidden_states)
-        new_tensor_shape = mixed_qkv.size()[:-1] + (
-            self.num_query_groups_per_partition,
-            (
-                (self.num_attention_heads_per_partition // self.num_query_groups_per_partition + 2)
-                * self.hidden_size_per_attention_head
-            ),
-        )
-        mixed_qkv = mixed_qkv.view(*new_tensor_shape)
-
-        split_arg_list = [
-            (
-                self.num_attention_heads_per_partition
-                // self.num_query_groups_per_partition
-                * self.hidden_size_per_attention_head
-            ),
-            self.hidden_size_per_attention_head,
-            self.hidden_size_per_attention_head,
-        ]
-
-        try:
-            import transformer_engine  # pylint: disable=unused-import
-            from megatron.core.extensions.transformer_engine import SplitAlongDim
-        except ImportError:
-            SplitAlongDim = None
-
-        if SplitAlongDim is not None:
-            (query, key, value) = SplitAlongDim(mixed_qkv, 3, split_arg_list)
-        else:
-            (query, key, value) = torch.split(mixed_qkv, split_arg_list, dim=3)
-
-        # [sq, b, ng, np/ng * hn] -> [sq, b, np, hn]
-        query = query.reshape(query.size(0), query.size(1), -1, self.hidden_size_per_attention_head * 2)
-        query, gate = torch.chunk(query, 2, dim=-1)
-
-        if self.q_layernorm is not None:
-            query = self.q_layernorm(query)
-
-        if self.k_layernorm is not None:
-            key = self.k_layernorm(key)
-        # end get_query_key_value_tensors
-
-        if packed_seq_params is not None:
-            query = query.squeeze(1)
-            key = key.squeeze(1)
-            value = value.squeeze(1)
-
-        if rotary_pos_emb is not None and not self.config.flash_decode:
-            q_pos_emb, k_pos_emb = rotary_pos_emb
-
-            if packed_seq_params is not None:
-                if packed_seq_params.cu_seqlens_q_padded is not None:
-                    cu_seqlens_q = packed_seq_params.cu_seqlens_q_padded
-                else:
-                    cu_seqlens_q = packed_seq_params.cu_seqlens_q
-                if packed_seq_params.cu_seqlens_kv_padded is not None:
-                    cu_seqlens_kv = packed_seq_params.cu_seqlens_kv_padded
-                else:
-                    cu_seqlens_kv = packed_seq_params.cu_seqlens_kv
-            else:
-                cu_seqlens_q = cu_seqlens_kv = None
-
-            if q_pos_emb is not None:
-                query = apply_rotary_pos_emb(query, q_pos_emb, config=self.config, cu_seqlens=cu_seqlens_q)
-            if k_pos_emb is not None:
-                key = apply_rotary_pos_emb(key, k_pos_emb, config=self.config, cu_seqlens=cu_seqlens_kv)
-
-        if self.checkpoint_core_attention and self.training:
-            core_attn_out = self._checkpointed_attention_forward(
-                query,
-                key,
-                value,
-                attention_mask,
-                attn_mask_type=self.attn_mask_type,
-                attention_bias=attention_bias,
-                packed_seq_params=packed_seq_params,
-            )
-        else:
-            core_attn_out = self.core_attention(
-                query,
-                key,
-                value,
-                attention_mask,
-                attn_mask_type=self.attn_mask_type,
-                attention_bias=attention_bias,
-                packed_seq_params=packed_seq_params,
-            )
-
-        if packed_seq_params is not None and packed_seq_params.qkv_format == "thd":
-            core_attn_out = core_attn_out.reshape(core_attn_out.size(0), 1, -1)
-
-        core_attn_out = core_attn_out * torch.sigmoid(gate.reshape(core_attn_out.shape))
-        output, bias = self.linear_proj(core_attn_out)
-        return output, bias
 
 
 @register_model("qwen3_next")
@@ -344,20 +10,18 @@ class Qwen3NextModel(McaGPTModel):
     config_class = Qwen3NextConfig
 
     def _get_transformer_layer_spec(self, config: Optional[Qwen3NextConfig] = None):
-        config = config or self.config
-        transformer_block_spec = super()._get_transformer_layer_spec(config)
-        assert isinstance(transformer_block_spec, TransformerBlockSubmodules), (
-            f"Invalid transformer_block_spec: {transformer_block_spec}"
+        from megatron.core.models.gpt.experimental_attention_variant_module_specs import (
+            get_transformer_block_with_experimental_attention_variant_spec,
         )
-        linear_layer_specs = deepcopy(transformer_block_spec.layer_specs[0])
-        linear_layer_specs.submodules.self_attention.module = Qwen3NextGatedDeltaNet
-        linear_layer_specs.submodules.input_layernorm = TENorm
-        offset = get_transformer_layer_offset(config, vp_stage=self.vp_stage)
 
-        for i in range(len(transformer_block_spec.layer_specs)):
-            layer_idx = i + offset
-            if config.layer_types[layer_idx] == "linear_attention":
-                transformer_block_spec.layer_specs[i] = linear_layer_specs
-            else:
-                transformer_block_spec.layer_specs[i].submodules.self_attention.module = Qwen3NextSelfAttention
+        config = config or self.config
+        assert config.transformer_impl == "transformer_engine", (
+            "Qwen3NextModel only supports 'transformer_engine' implementation"
+        )
+        if config.experimental_attention_variant is not None:
+            transformer_block_spec = get_transformer_block_with_experimental_attention_variant_spec(
+                config=config, vp_stage=self.vp_stage
+            )
+        else:
+            transformer_block_spec = super()._get_transformer_layer_spec(config)
         return transformer_block_spec
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_omni/__init__.py b/mcore_adapter/src/mcore_adapter/models/qwen3_omni/__init__.py
new file mode 100644
index 000000000..4fdae9671
--- /dev/null
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_omni/__init__.py
@@ -0,0 +1,142 @@
+from dataclasses import dataclass
+
+from ..converter.dist_converter import (
+    DistParallelConfig,
+    default_dist_config,
+    register_dist_config,
+    shared_moe_dist_config,
+)
+from ..converter.template import (
+    QKVBiasConverOp,
+    QKVConverOp,
+    RenameConverOp,
+    StackConverOp,
+    Template,
+    register_template,
+)
+from .config_qwen3_omni import Qwen3OmniMoeConfig
+from .modeling_qwen3_omni import Qwen3OmniMoeModel
+
+
+@dataclass
+class Qwen3OmniMoeTemplate(Template):
+    def adjust_config_hf_to_mca(self):
+        non_text_config_keys = set(
+            list(filter(lambda k: k.endswith("_token_id"), self.config_hf_to_mca.keys()))
+            + ["position_id_per_seconds", "vision_config", "audio_config"]
+        )
+        audio_output_config_keys = ["enable_audio_output", "talker_config", "code2wav_config"]
+        new_config_hf_to_mca = {}
+        for hf_key, mca_key in self.config_hf_to_mca.items():
+            new_hf_key = hf_key
+            if hf_key not in audio_output_config_keys:
+                if hf_key not in non_text_config_keys:
+                    new_hf_key = "text_config." + new_hf_key
+                new_hf_key = "thinker_config." + new_hf_key
+            new_config_hf_to_mca[new_hf_key] = mca_key
+        return new_config_hf_to_mca
+
+
+register_dist_config(
+    "qwen3_omni_moe",
+    default_dist_config.merge_configs(shared_moe_dist_config).merge_configs(
+        DistParallelConfig(
+            pre_process_weights=["vision_model.*", "audio_model.*"],
+            post_process_weights=["talker.*", "code2wav.*"],
+            duplicated_weights=["vision_model.*", "audio_model.*", "talker.*", "code2wav.*"],
+        )
+    ),
+)
+
+
+# NOTE: thinking and instruct both use qwen3_omni_moe as model_type and Qwen3OmniMoeForConditionalGeneration
+# as architecture, thus both hf config and weight key has thinker prefix. And it seems the processor cannot
+# use list fps thus video should be processed by one by one.
+# TODO: Should we use "thinker" for naming template/config/model, would there exist confilicts if we support
+# instruct model since thinking and instruct both use qwen3_omni_moe
+register_template(
+    "qwen3_omni_moe",
+    hf_layer_prefix="thinker.model.layers.",
+    hf_moe_prefix=".mlp.experts.",
+    template_class=Qwen3OmniMoeTemplate,  # Qwen3VLMoeTemplate,
+    # hf has hierarchical config for multi-modal models while mca has flat config
+    config_hf_to_mca={
+        "max_position_embeddings": "max_sequence_length",
+        "hidden_size": "hidden_size",
+        "attention_bias": "add_qkv_bias",
+        "head_dim": "kv_channels",
+        "num_attention_heads": "num_attention_heads",
+        "num_key_value_heads": "num_query_groups",
+        "num_hidden_layers": "num_layers",
+        "rms_norm_eps": "layernorm_epsilon",
+        "vocab_size": "padded_vocab_size",
+        "attention_dropout": "attention_dropout",
+        "rope_theta": "rotary_base",
+        "rope_scaling": "rope_scaling",
+        "intermediate_size": "ffn_hidden_size",
+        "tie_word_embeddings": "tie_embeddings_and_output_weights",
+        # MoE related
+        "moe_intermediate_size": "moe_ffn_hidden_size",
+        "decoder_sparse_step": "moe_layer_freq",
+        "num_experts": "num_moe_experts",
+        "num_experts_per_tok": "moe_router_topk",
+        "router_aux_loss_coef": "moe_aux_loss_coeff",
+        # ait ralated, only need for usage in get_rope_index
+        "audio_token_id": "audio_token_id",
+        "audio_start_token_id": "audio_start_token_id",
+        # "audio_end_token_id": "audio_start_token_id",
+        # vit related, only need for usage in get_rope_index
+        "image_token_id": "image_token_id",
+        "video_token_id": "video_token_id",
+        "vision_start_token_id": "vision_start_token_id",
+        # "vision_end_token_id": "vision_end_token_id",
+        "position_id_per_seconds": "position_id_per_seconds",
+        "vision_config": "vision_config",
+        "audio_config": "audio_config",
+        "enable_audio_output": "enable_audio_output",
+        "talker_config": "talker_config",
+        "code2wav_config": "code2wav_config",
+    },
+    constant_mca_config={
+        "swiglu": True,
+        "position_embedding_type": "mrope",  # TM-ROPE
+        "normalization": "RMSNorm",
+        "add_bias_linear": False,
+        "hidden_dropout": 0.0,
+        "rotary_percent": 1.0,
+        "moe_router_load_balancing_type": "aux_loss",
+        "moe_router_pre_softmax": False,
+        "qk_layernorm": True,
+    },
+    weight_converters=[
+        RenameConverOp(hf_names="thinker.model.embed_tokens.weight", mca_names="embedding.word_embeddings.weight"),
+        RenameConverOp(hf_names="thinker.model.norm.weight", mca_names="decoder.final_layernorm.weight"),
+        RenameConverOp(hf_names="thinker.lm_head.weight", mca_names="output_layer.weight"),
+        RenameConverOp(hf_names=".input_layernorm.weight", mca_names=".self_attention.linear_qkv.layer_norm_weight"),
+        # attention weights
+        QKVConverOp(
+            hf_names=[".self_attn.q_proj.weight", ".self_attn.k_proj.weight", ".self_attn.v_proj.weight"],
+            mca_names=".self_attention.linear_qkv.weight",
+        ),
+        QKVBiasConverOp(
+            hf_names=[".self_attn.q_proj.bias", ".self_attn.k_proj.bias", ".self_attn.v_proj.bias"],
+            mca_names=".self_attention.linear_qkv.bias",
+        ),  # attention_bias is false actually
+        RenameConverOp(hf_names=".self_attn.o_proj.weight", mca_names=".self_attention.linear_proj.weight"),
+        RenameConverOp(hf_names=".self_attn.q_norm.weight", mca_names=".self_attention.q_layernorm.weight"),
+        RenameConverOp(hf_names=".self_attn.k_norm.weight", mca_names=".self_attention.k_layernorm.weight"),
+        RenameConverOp(hf_names=".post_attention_layernorm.weight", mca_names=".pre_mlp_layernorm.weight"),
+        # moe weights
+        RenameConverOp(hf_names=".mlp.gate.weight", mca_names=".mlp.router.weight"),
+        StackConverOp(hf_names=[".gate_proj.weight", ".up_proj.weight"], mca_names=".linear_fc1.weight", dim=0),
+        RenameConverOp(hf_names=".down_proj.weight", mca_names=".linear_fc2.weight"),
+        RenameConverOp(hf_names="thinker.visual.{}", mca_names="vision_model.{}"),
+        # add audio model to make it can be saved and used in hf
+        # although the audio_model weights can be put into template.hf_invalid_keys
+        RenameConverOp(hf_names="thinker.audio_tower.{}", mca_names="audio_model.{}"),
+        RenameConverOp(hf_names="talker.{}", mca_names="talker.{}"),
+        RenameConverOp(hf_names="code2wav.{}", mca_names="code2wav.{}"),
+    ],
+)
+
+__all__ = ["Qwen3OmniMoeConfig", "Qwen3OmniMoeModel"]
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_omni/config_qwen3_omni.py b/mcore_adapter/src/mcore_adapter/models/qwen3_omni/config_qwen3_omni.py
new file mode 100644
index 000000000..ba1ef0eb5
--- /dev/null
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_omni/config_qwen3_omni.py
@@ -0,0 +1,69 @@
+from dataclasses import dataclass, field
+from typing import Optional
+
+from transformers import PretrainedConfig
+
+from ...utils import get_logger
+from ..auto.config_auto import register_config
+from ..model_config import McaModelConfig
+
+
+logger = get_logger(__name__)
+
+@register_config("qwen3_omni_moe")
+@dataclass
+class Qwen3OmniMoeConfig(McaModelConfig):
+    audio_token_id: int = 151675
+    image_token_id: int = 151655
+    video_token_id: int = 151656
+    position_id_per_seconds: int = 13
+    audio_start_token_id: int = 151669
+    vision_start_token_id: int = 151652
+    vision_config: Optional[dict] = field(
+        default=None,
+        metadata={"help": "Vision model config."},
+    )
+    audio_config: Optional[dict] = field(
+        default=None,
+        metadata={"help": "audio model config."},
+    )
+    # text_config: Optional[dict] = field(
+    #     default=None,
+    #     metadata={"help": "Text model config."},
+    # )
+    enable_audio_output: bool = False
+    talker_config: Optional[dict] = field(
+        default=None,
+        metadata={"help": "talker model config."},
+    )
+    code2wav_config: Optional[dict] = field(
+        default=None,
+        metadata={"help": "code2wav model config."},
+    )
+    rope_scaling: Optional[dict] = field(
+        default=None,
+        metadata={"help": "Rope scaling."},
+    )
+
+    def __post_init__(self):
+        super().__post_init__()
+        from transformers.models.qwen3_omni_moe.configuration_qwen3_omni_moe import Qwen3OmniMoeVisionEncoderConfig
+
+        if isinstance(self.audio_config, PretrainedConfig):
+            self.audio_config = self.audio_config.to_dict()
+        if isinstance(self.vision_config, PretrainedConfig):
+            self.vision_config = self.vision_config.to_dict()
+        if isinstance(self.talker_config, PretrainedConfig):
+            self.talker_config = self.talker_config.to_dict()
+        if isinstance(self.code2wav_config, PretrainedConfig):
+            self.code2wav_config = self.code2wav_config.to_dict()
+        vision_config_obj = Qwen3OmniMoeVisionEncoderConfig(**self.vision_config)
+        self.merge_size = vision_config_obj.spatial_merge_size
+        self.pixel_values_dim = (
+            vision_config_obj.patch_size
+            * vision_config_obj.patch_size
+            * vision_config_obj.in_channels
+            * vision_config_obj.temporal_patch_size
+        )  # 1536
+        assert "mrope_section" in self.rope_scaling, "mrope_section is required"
+        self.mrope_section = self.rope_scaling.get("mrope_section")
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_omni/modeling_qwen3_omni.py b/mcore_adapter/src/mcore_adapter/models/qwen3_omni/modeling_qwen3_omni.py
new file mode 100644
index 000000000..e0ed698e8
--- /dev/null
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_omni/modeling_qwen3_omni.py
@@ -0,0 +1,305 @@
+import types
+from typing import Optional, List
+
+import torch
+from megatron.core import mpu
+
+from ..auto.modeling_auto import register_model
+from ..qwen3_vl.modeling_qwen3_vl import Qwen3VLGPTModel, Qwen3VLModel
+from .config_qwen3_omni import Qwen3OmniMoeConfig
+
+
+@register_model("qwen3_omni_moe")
+class Qwen3OmniMoeModel(Qwen3VLModel):
+    config_class = Qwen3OmniMoeConfig
+
+    def __init__(self, config: "Qwen3OmniMoeConfig", **kwargs):
+        from transformers.models.qwen3_omni_moe.configuration_qwen3_omni_moe import (
+            Qwen3OmniMoeAudioEncoderConfig,
+            Qwen3OmniMoeVisionEncoderConfig,
+        )
+        from transformers.models.qwen3_omni_moe.modeling_qwen3_omni_moe import (
+            Qwen3OmniMoeAudioEncoder,
+            Qwen3OmniMoePreTrainedModelForConditionalGeneration,
+            Qwen3OmniMoeVisionEncoder,
+            _get_feat_extract_output_lengths,
+        )
+
+        Qwen3VLGPTModel.__init__(self, config, **kwargs)
+
+        if mpu.get_pipeline_model_parallel_rank() == 0 and self.vp_stage == 0:
+            assert self.decoder.num_layers_per_pipeline_rank >= len(
+                config.vision_config.get("deepstack_visual_indexes", [8, 16, 24])
+            ), "Current pp and vp not support deepstack"
+
+        if self.pre_process:
+            # add audio model to make it can be saved and used in hf
+            # although the audio_model weights can be put into template.hf_invalid_keys
+            self.audio_model = Qwen3OmniMoeAudioEncoder._from_config(
+                Qwen3OmniMoeAudioEncoderConfig(**config.audio_config),
+                attn_implementation="sdpa",
+                torch_dtype=self.config.params_dtype,
+            ).to(torch.cuda.current_device())
+            for param in self.audio_model.parameters():
+                setattr(param, "sequence_parallel", config.sequence_parallel)
+            self.vision_model = Qwen3OmniMoeVisionEncoder._from_config(
+                Qwen3OmniMoeVisionEncoderConfig(**config.vision_config),
+                attn_implementation="sdpa",
+                torch_dtype=self.config.params_dtype,
+            ).to(torch.cuda.current_device())
+            # TODO: use_reentrant=True might cause error by twice forward/backward when
+            # training images and videos simultaneously, https://github.com/pytorch/pytorch/issues/81296
+            if config.recompute_granularity == "full" and self.training:
+                self.vision_model.gradient_checkpointing_enable({"use_reentrant": False})
+            for param in self.vision_model.parameters():
+                setattr(param, "sequence_parallel", config.sequence_parallel)
+
+        if self.post_process:
+            if config.enable_audio_output:
+                # not support talker with audio output yet
+                from transformers.models.qwen3_omni_moe.modeling_qwen3_omni_moe import (
+                    Qwen3OmniMoeTalkerForConditionalGeneration,
+                    Qwen3OmniMoeCode2Wav,
+                )
+                from transformers.models.qwen3_omni_moe.modeling_qwen3_omni_moe import (
+                    Qwen3OmniMoeTalkerConfig,
+                    Qwen3OmniMoeCode2WavConfig,
+                )
+                self.talker = Qwen3OmniMoeTalkerForConditionalGeneration._from_config(
+                    Qwen3OmniMoeTalkerConfig(**config.talker_config),
+                    torch_dtype=self.config.params_dtype,
+                ).to(torch.cuda.current_device())
+                self.code2wav = Qwen3OmniMoeCode2Wav._from_config(
+                    Qwen3OmniMoeCode2WavConfig(**config.code2wav_config),
+                    torch_dtype=self.config.params_dtype,
+                ).to(torch.cuda.current_device())
+
+        # construct get_rope_index needed method and attrs
+        self.get_rope_index = types.MethodType(
+            Qwen3OmniMoePreTrainedModelForConditionalGeneration.get_rope_index, self
+        )
+        self.get_llm_pos_ids_for_vision = types.MethodType(
+            Qwen3OmniMoePreTrainedModelForConditionalGeneration.get_llm_pos_ids_for_vision, self
+        )
+        self.spatial_merge_size = self.config.merge_size
+
+        self._get_feat_extract_output_lengths = _get_feat_extract_output_lengths
+
+    def construct_inputs_embeds(
+        self,
+        input_ids: "torch.LongTensor",
+        inputs_embeds: "torch.FloatTensor",
+        pixel_values: "torch.Tensor",
+        grid_thw: "torch.LongTensor",
+        pixel_values_videos: "torch.Tensor",
+        video_grid_thw: "torch.LongTensor",
+        input_features: "torch.Tensor",
+        feature_lens: "torch.Tensor",
+        feature_attention_mask: "torch.Tensor",
+        input_ranges: List[List[int]],
+        image_token_id: int,
+        video_token_id: int,
+        audio_token_id: int,
+    ):
+        """
+        inputs_embeds: [s, b, h] or [s/tp, b, h] when sequence parallel
+        ranges: sequence range
+        """
+        visual_pos_masks, deepstack_visual_embeds = None, None
+        # TODO: same as qwen3-vl, only support images or videos since no deepstack_visual_embeds merge process currently
+        # maybe merge images and videos first to run vision_model and get deepstack_visual_embeds for images and videos simultaneously
+        assert pixel_values is None or pixel_values_videos is None, (
+            "inputs with both images and videos are not supported temporarily"
+        )
+        if pixel_values is not None:
+            inputs_embeds, visual_pos_masks, deepstack_visual_embeds = super().construct_inputs_embeds(
+                input_ids,
+                inputs_embeds,
+                pixel_values,
+                grid_thw,
+                input_ranges,
+                image_token_id,
+            )
+        elif pixel_values_videos is not None:
+            inputs_embeds, visual_pos_masks, deepstack_visual_embeds = super().construct_inputs_embeds(
+                input_ids,
+                inputs_embeds,
+                pixel_values_videos,
+                video_grid_thw,
+                input_ranges,
+                video_token_id,
+            )
+
+        if input_features is None:
+            return inputs_embeds, visual_pos_masks, deepstack_visual_embeds
+
+        # for audio input embeds
+        # (bs, freqs, frames) -> (total_frames, freqs)
+        input_features = input_features.permute(0, 2, 1)[feature_attention_mask.bool()]
+        # TODO: audio can be treated as chunks of frames with chunk_size for sp/cp actually,
+        # chunk_size = 100 * (self.n_window_infer // (self.n_window * 2))
+        # temporarily only split audios instead of chunks to simplify which may cause duplicated calculation for same audio
+        # maybe scatter chunks to sp/cp group for load balance furthermore
+        feat_mask = input_ids == audio_token_id
+        feat_culens = feature_lens.cumsum(dim=0, dtype=torch.int32).tolist()  # use list
+        feat_embeds_culens = self._get_feat_extract_output_lengths(feature_lens).cumsum(dim=0, dtype=torch.int32)
+        required_feat = []  # features to vision tower
+        required_feat_lens = []  # feature lengths to vision tower
+        valid_feat_embeds_nums = []  # indicate the ranges of needed feature embeds
+        added_feat_indexes = []  # feature indexes included in input_ranges
+        for i in range(feat_mask.shape[0]):
+            for inputs_start, inputs_end in input_ranges:
+                # same as qwen-vl, get features included in a sub-range corresponding to each sample
+                valid_feat_embeds_start = feat_mask[:i].sum().item()
+                valid_feat_embeds_start += feat_mask[i, :inputs_start].sum().item()
+                embeds_num = feat_mask[i, inputs_start:inputs_end].sum().item()
+                valid_feat_embeds_end = valid_feat_embeds_start + embeds_num
+                used_embeds_culen_start = 0  # embeds seqlens before this sub-range
+                new_embeds_culen_start = 0  # embeds seqlens new added in this sub-range, new_embeds_seqlen_start >= used_embeds_seqlen_start
+                added_culen_before_used = 0  # embeds seqlens in before sub-ranges of input_ranges
+                embed_culen_end = feat_embeds_culens[-1]
+                for feat_index, feat_embeds_culen in enumerate(feat_embeds_culens):
+                    if valid_feat_embeds_start < feat_embeds_culen:  # included in current sub-range
+                        if feat_index not in added_feat_indexes:
+                            # included in current sub-range and have not been added before, add it
+                            required_feat_lens.append(feature_lens[feat_index])
+                            # maybe extend together at last, while mapping from embeds length to feature length is not direct
+                            required_feat.append(
+                                input_features[
+                                    (0 if feat_index == 0 else feat_culens[feat_index - 1]) : feat_culens[feat_index]
+                                ]
+                            )
+                            added_feat_indexes.append(feat_index)
+                        else:
+                            # included in current sub-range but have been added by previous sub-range of this sample, skip it
+                            new_embeds_culen_start = feat_embeds_culen
+                    else:  # not included in current sub-range
+                        used_embeds_culen_start = feat_embeds_culen
+                        new_embeds_culen_start = feat_embeds_culen
+                        if feat_index in added_feat_indexes:  # included in before sub-ranges of input_ranges
+                            before_culen = 0 if feat_index == 0 else feat_embeds_culens[feat_index - 1].item()
+                            added_culen_before_used += feat_embeds_culen - before_culen
+                    if valid_feat_embeds_end <= feat_embeds_culen:
+                        embed_culen_end = feat_embeds_culen
+                        break
+
+                # embeds offset in range for this sub-range: offset_in_range = offset_in_start_feat + emb_len_of_pre_subranges
+                embeds_needed_start = valid_feat_embeds_start - used_embeds_culen_start + added_culen_before_used
+                embeds_needed_end = valid_feat_embeds_end - used_embeds_culen_start + added_culen_before_used
+                if embeds_needed_start < embeds_needed_end:
+                    valid_feat_embeds_nums.append((embeds_needed_start, embeds_needed_end))
+
+        if len(valid_feat_embeds_nums) == 0:
+            # should we use dummy feature input to handle this, _handle_missing_visual is used in qwen-vl
+            return inputs_embeds, visual_pos_masks, deepstack_visual_embeds
+
+        required_feat = torch.cat(required_feat, dim=0)
+        required_feat_lens = torch.stack(required_feat_lens, dim=0)
+        feat_model_dtype = self.audio_model.layers[0].fc1.weight.dtype
+        required_feat = required_feat.type(feat_model_dtype)
+        # convert to (freqs, total_frames) for input_features to use audio_tower from hf
+        required_feat = required_feat.permute(1, 0)
+        feat_embeds = self.audio_model(required_feat, required_feat_lens)
+        feat_embeds = feat_embeds.last_hidden_state.to(inputs_embeds.device, inputs_embeds.dtype)
+        feat_mask = torch.cat(
+            [feat_mask[:, inputs_start:inputs_end] for inputs_start, inputs_end in input_ranges], dim=1
+        )
+        needed_feat_embeds_num = feat_mask.sum().item()
+        needed_feat_embeds = torch.zeros(
+            [needed_feat_embeds_num] + list(feat_embeds.shape[1:]),
+            dtype=inputs_embeds.dtype,
+            device=inputs_embeds.device,
+        )
+
+        added_num = 0
+        for start, end in valid_feat_embeds_nums:
+            embeds_num = end - start
+            needed_feat_embeds[added_num : added_num + embeds_num] = feat_embeds[start:end]
+            added_num += embeds_num
+        assert added_num == needed_feat_embeds_num
+
+        inputs_embeds = inputs_embeds.transpose(0, 1)  # [s, b, h] -> [b, s, h]
+        feat_mask = feat_mask.unsqueeze(-1).expand_as(inputs_embeds)
+        inputs_embeds = inputs_embeds.masked_scatter(feat_mask, needed_feat_embeds)
+        inputs_embeds = inputs_embeds.transpose(0, 1).contiguous()
+
+        return inputs_embeds, visual_pos_masks, deepstack_visual_embeds
+
+    def forward(
+        self,
+        input_ids: "torch.Tensor",
+        position_ids: Optional["torch.Tensor"] = None,
+        attention_mask: Optional["torch.Tensor"] = None,
+        decoder_input: Optional["torch.Tensor"] = None,
+        labels: Optional["torch.Tensor"] = None,
+        pixel_values: Optional["torch.Tensor"] = None,
+        pixel_values_videos: Optional["torch.Tensor"] = None,
+        image_grid_thw: Optional["torch.LongTensor"] = None,
+        video_grid_thw: Optional["torch.LongTensor"] = None,
+        use_audio_in_video: Optional[bool] = None,
+        video_second_per_grid: Optional[torch.Tensor] = None,
+        input_features: Optional["torch.Tensor"] = None,
+        feature_attention_mask: Optional["torch.Tensor"] = None,
+        **kwargs,
+    ) -> "torch.Tensor":
+        force_vit_image = kwargs.pop("force_vit_image", False)
+        force_vit_video = kwargs.pop("force_vit_video", False)
+        feature_lens = None
+        if position_ids is None and input_ids is not None:
+            if feature_attention_mask is not None:
+                feature_lens = torch.sum(feature_attention_mask, dim=1)
+            position_ids, _ = self.get_rope_index(
+                input_ids,
+                image_grid_thw,
+                video_grid_thw,
+                attention_mask=torch.ones(input_ids.shape, dtype=input_ids.dtype, device=input_ids.device),
+                use_audio_in_video=use_audio_in_video,
+                audio_seqlens=feature_lens,
+                second_per_grids=video_second_per_grid,
+            )
+
+        cp_batch = {
+            "input_ids": input_ids,
+            "attention_mask": attention_mask,
+        }
+        if self.config.context_parallel_size > 1:
+            cp_batch = {k: v.clone() if v is not None else None for k, v in cp_batch.items()}
+            cp_batch = super(Qwen3VLModel, self).get_batch_on_this_cp_rank(cp_batch, dim3_keys=[])
+
+        if not self.pre_process or decoder_input is not None:
+            return super(Qwen3VLModel, self).forward(
+                decoder_input=decoder_input, labels=labels, position_ids=position_ids, **cp_batch, **kwargs
+            )
+
+        inputs_ranges = self.get_input_ranges(input_ids.shape[1])
+
+        inputs_embeds = self.embedding(input_ids=cp_batch["input_ids"], position_ids=None)
+
+        if pixel_values is not None or pixel_values_videos is not None:
+            inputs_embeds, visual_pos_masks, deepstack_visual_embeds = self.construct_inputs_embeds(
+                input_ids,
+                inputs_embeds,
+                pixel_values,
+                image_grid_thw,
+                pixel_values_videos,
+                video_grid_thw,
+                input_features,
+                feature_lens,
+                feature_attention_mask,
+                inputs_ranges,
+                self.config.image_token_id,
+                self.config.video_token_id,
+                self.config.audio_token_id,
+            )
+        elif force_vit_image or force_vit_video:
+            inputs_embeds, visual_pos_masks, deepstack_visual_embeds = self._handle_missing_visual(inputs_embeds)
+
+        return super(Qwen3VLModel, self).forward(
+            decoder_input=inputs_embeds,
+            labels=labels,
+            position_ids=position_ids,
+            visual_pos_masks=visual_pos_masks,
+            deepstack_visual_embeds=deepstack_visual_embeds,
+            **cp_batch,
+            **kwargs,
+        )
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_vl/__init__.py b/mcore_adapter/src/mcore_adapter/models/qwen3_vl/__init__.py
index 054c12697..fdc277056 100644
--- a/mcore_adapter/src/mcore_adapter/models/qwen3_vl/__init__.py
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_vl/__init__.py
@@ -1,9 +1,12 @@
+from dataclasses import dataclass
+
 from ..converter.dist_converter import DistParallelConfig, default_dist_config, register_dist_config
 from ..converter.template import (
     QKVBiasConverOp,
     QKVConverOp,
     RenameConverOp,
     StackConverOp,
+    Template,
     register_template,
 )
 from .config_qwen3_vl import Qwen3VLConfig
@@ -20,9 +23,34 @@
     ),
 )
 
+
+@dataclass
+class Qwen3VLTemplate(Template):
+    def adjust_config_hf_to_mca(self):
+        # NOTE: for `tie_word_embeddings`,
+        # in qwen3-vl model like Qwen/Qwen3-VL-4B-Instruct, tie_word_embeddings
+        # exists both in inner and outer of text_config, and both are True
+        # in qwen3-vl-moe model like Qwen/Qwen3-VL-30B-A3B-Instruct, tie_word_embeddings
+        # in outer of text_config is False while it uses the default value True in the
+        # inner of text_config
+        # currently, both use tie_word_embeddings in the outter of text_config
+        non_text_config_keys = set(
+            list(filter(lambda k: k.endswith("_token_id"), self.config_hf_to_mca.keys()))
+            + ["vision_config", "tie_word_embeddings"]
+        )
+        new_config_hf_to_mca = {}
+        for hf_key, mca_key in self.config_hf_to_mca.items():
+            new_hf_key = hf_key
+            if hf_key not in non_text_config_keys:
+                new_hf_key = "text_config." + new_hf_key
+            new_config_hf_to_mca[new_hf_key] = mca_key
+        return new_config_hf_to_mca
+
+
 register_template(
     "qwen3_vl",
     hf_layer_prefix="model.language_model.layers.",
+    template_class=Qwen3VLTemplate,
     config_hf_to_mca={
         "max_position_embeddings": "max_sequence_length",
         "hidden_size": "hidden_size",
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_vl/modeling_qwen3_vl.py b/mcore_adapter/src/mcore_adapter/models/qwen3_vl/modeling_qwen3_vl.py
index fc0494362..d50ee88e1 100644
--- a/mcore_adapter/src/mcore_adapter/models/qwen3_vl/modeling_qwen3_vl.py
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_vl/modeling_qwen3_vl.py
@@ -1,3 +1,5 @@
+import heapq
+import itertools
 from typing import List, Optional
 
 import torch
@@ -7,6 +9,7 @@
 from megatron.core.utils import deprecate_inference_params
 from torch import Tensor
 
+from ...parallel_functions import encoder_sequence_parallel_gather, encoder_small_batch_size_gather
 from ..auto.modeling_auto import register_model
 from ..model_factory import McaGPTModel
 from ..model_utils import ModuleUtilsMixin
@@ -83,13 +86,7 @@ def forward(
 
         inference_context = deprecate_inference_params(inference_context, inference_params)
 
-        (
-            decoder_input,
-            rotary_pos_emb,
-            rotary_pos_cos,
-            rotary_pos_sin,
-            sequence_len_offset,
-        ) = self._preprocess(
+        preproc_output = self._preprocess(
             input_ids=input_ids,
             position_ids=position_ids,
             decoder_input=decoder_input,
@@ -97,6 +94,14 @@ def forward(
             packed_seq_params=packed_seq_params,
         )
 
+        (
+            decoder_input,
+            rotary_pos_emb,
+            rotary_pos_cos,
+            rotary_pos_sin,
+            sequence_len_offset,
+        ) = preproc_output[:5]
+
         # Run decoder.
         hidden_states = self.decoder(
             hidden_states=decoder_input,
@@ -154,6 +159,10 @@ def __init__(self, config: "Qwen3VLConfig", **kwargs):
                 attn_implementation="sdpa",
                 torch_dtype=self.config.params_dtype,
             ).to(torch.cuda.current_device())
+            # TODO: use_reentrant=True might cause error by twice forward/backward when
+            # training images and videos simultaneously, https://github.com/pytorch/pytorch/issues/81296
+            if config.recompute_granularity == "full" and self.training:
+                self.vision_model.gradient_checkpointing_enable({"use_reentrant": False})
             for param in self.vision_model.parameters():
                 setattr(param, "sequence_parallel", config.sequence_parallel)
 
@@ -162,7 +171,12 @@ def _handle_missing_visual(self, inputs_embeds: "torch.FloatTensor"):
             4, self.config.pixel_values_dim, device=inputs_embeds.device, dtype=inputs_embeds.dtype
         )
         mock_grid_thw = torch.LongTensor([[1, 2, 2]]).to(inputs_embeds.device)
-        image_embeds, deepstack_image_embeds = self.vision_model(mock_pixel_values, grid_thw=mock_grid_thw)
+        image_outputs = self.vision_model(mock_pixel_values, grid_thw=mock_grid_thw)
+        if isinstance(image_outputs, tuple):
+            image_embeds, deepstack_image_embeds = image_outputs
+        else:
+            image_embeds = image_outputs.pooler_output
+            deepstack_image_embeds = image_outputs.deepstack_features
         inputs_embeds = inputs_embeds + image_embeds.mean() * 0
         return (
             inputs_embeds,
@@ -183,115 +197,128 @@ def construct_inputs_embeds(
         inputs_embeds: [s, b, h] or [s/tp, b, h] when sequence parallel
         ranges: sequence range
         """
-        image_seqlens = torch.repeat_interleave(grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]).cumsum(
-            dim=0, dtype=torch.int32
-        )
-        flatten_grid_thw = torch.repeat_interleave(grid_thw, grid_thw[:, 0], dim=0)
-        flatten_grid_thw[:, 0] = 1
-        image_embeds_seqlens = image_seqlens // (self.config.merge_size**2)
-        assert image_seqlens[-1] == pixel_values.shape[0], (
-            f"pixel_values.shape[0] {pixel_values.shape[0]} != image_seqlens[-1] {image_seqlens[-1]}"
-        )
-        assert sum([r[1] - r[0] for r in input_ranges]) == inputs_embeds.shape[0], (
-            f"sum of input_ranges {input_ranges} not match inputs_embeds.shape {inputs_embeds.shape}"
-        )
         image_mask = input_ids == media_token_id
+        image_indices = torch.full_like(image_mask, -1, dtype=torch.long)
+        image_indices[image_mask] = torch.arange(image_mask.sum(), device=image_indices.device)
+        vision_token_compress = self.config.merge_size**2
+
+        image_input_lengths = grid_thw.prod(-1).tolist()
+        image_output_lengths = [_ // vision_token_compress for _ in image_input_lengths]
+
+        split_plan, pixel_values, grid_thw, _ = self.build_encoder_inputs(
+            image_input_lengths, pixel_values, grid_thw, None
+        )
 
-        valid_image_embeds_nums = []  # indicate the ranges of needed image embeds
-        required_pixel_values, required_grid_thws = [], []  # image features input to vision tower
-        added_image_indexes = []
-        for i in range(image_mask.shape[0]):
-            for inputs_start, inputs_end in input_ranges:
-                valid_image_embeds_start = image_mask[:i].sum().item()
-                valid_image_embeds_start += image_mask[i, :inputs_start].sum().item()
-                embeds_num = image_mask[i, inputs_start:inputs_end].sum().item()
-                valid_image_embeds_end = valid_image_embeds_start + embeds_num
-                used_embeds_seqlen_start = 0  # embeds seqlens used in this range
-                new_embeds_seqlen_start = (
-                    0  # embeds seqlens new added in this range, new_embeds_seqlen_start >= used_embeds_seqlen_start
-                )
-                embeds_seqlen_end = image_embeds_seqlens[-1]
-                added_seqlen_before_used = 0
-                for image_index, image_embeds_seqlen in enumerate(image_embeds_seqlens):
-                    if valid_image_embeds_start < image_embeds_seqlen:
-                        if image_index not in added_image_indexes:
-                            required_grid_thws.append(flatten_grid_thw[image_index])
-                            added_image_indexes.append(image_index)
-                        else:
-                            new_embeds_seqlen_start = image_embeds_seqlen
-                    else:
-                        used_embeds_seqlen_start = image_embeds_seqlen
-                        new_embeds_seqlen_start = image_embeds_seqlen
-                        if image_index in added_image_indexes:
-                            before_seqlen = 0 if image_index == 0 else image_embeds_seqlens[image_index - 1].item()
-                            added_seqlen_before_used += image_embeds_seqlen - before_seqlen
-                    if valid_image_embeds_end <= image_embeds_seqlen:
-                        embeds_seqlen_end = image_embeds_seqlen
-                        break
-
-                if new_embeds_seqlen_start < embeds_seqlen_end:
-                    required_pixel_values.append(
-                        pixel_values[
-                            new_embeds_seqlen_start * (self.config.merge_size**2) : embeds_seqlen_end
-                            * (self.config.merge_size**2)
-                        ]
-                    )
-                embeds_needed_start = valid_image_embeds_start - used_embeds_seqlen_start + added_seqlen_before_used
-                embeds_needed_end = valid_image_embeds_end - used_embeds_seqlen_start + added_seqlen_before_used
-                if embeds_needed_start < embeds_needed_end:
-                    valid_image_embeds_nums.append((embeds_needed_start, embeds_needed_end))
-
-        if len(required_pixel_values) == 0:
-            return self._handle_missing_visual(inputs_embeds)
-
-        required_pixel_values = torch.cat(required_pixel_values, dim=0)
-        required_grid_thw = torch.stack(required_grid_thws, dim=0)
         vision_model_dtype = self.vision_model.blocks[0].mlp.linear_fc1.weight.dtype
-        required_pixel_values = required_pixel_values.type(vision_model_dtype)
-        image_embeds, deepstack_image_embeds = self.vision_model(required_pixel_values, grid_thw=required_grid_thw)
+        pixel_values = pixel_values.type(vision_model_dtype)
+        image_outputs = self.vision_model(pixel_values, grid_thw=grid_thw)
+        if isinstance(image_outputs, tuple):
+            image_embeds, deepstack_image_embeds = image_outputs
+        else:
+            image_embeds = image_outputs.pooler_output
+            deepstack_image_embeds = image_outputs.deepstack_features
+        image_embeds = self.gather_encoder_outputs(image_embeds, split_plan, image_output_lengths)
         image_embeds = image_embeds.to(inputs_embeds.device, inputs_embeds.dtype)
 
-        image_mask = torch.cat(
-            [image_mask[:, inputs_start:inputs_end] for inputs_start, inputs_end in input_ranges], dim=1
-        )
-        needed_image_embeds_num = image_mask.sum().item()
-        needed_image_embeds = torch.zeros(
-            [needed_image_embeds_num] + list(image_embeds.shape[1:]),
-            dtype=inputs_embeds.dtype,
-            device=inputs_embeds.device,
-        )
+        image_mask = torch.cat([image_mask[:, start:end] for start, end in input_ranges], dim=1)
+        selected_indices = torch.cat([image_indices[:, start:end] for start, end in input_ranges], dim=1)
+        selected_indices = selected_indices[selected_indices != -1]
 
-        added_num = 0
-        for start, end in valid_image_embeds_nums:
-            embeds_num = end - start
-            needed_image_embeds[added_num : added_num + embeds_num] = image_embeds[start:end]
-            added_num += embeds_num
-        assert added_num == needed_image_embeds_num
+        deepstack_image_embeds = [
+            self.gather_encoder_outputs(deepstack_image_embed, split_plan, image_output_lengths)
+            for deepstack_image_embed in deepstack_image_embeds
+        ]
+        for i, deepstack_image_embed in enumerate(deepstack_image_embeds):
+            deepstack_image_embeds[i] = deepstack_image_embed[selected_indices]
 
         inputs_embeds = inputs_embeds.transpose(0, 1)  # [s, b, h] -> [b, s, h]
-        image_mask = image_mask.unsqueeze(-1).expand_as(inputs_embeds)
-        inputs_embeds = inputs_embeds.masked_scatter(image_mask, needed_image_embeds)
+        selected_mask = image_mask.unsqueeze(-1).expand_as(inputs_embeds)
+        inputs_embeds = inputs_embeds.masked_scatter(selected_mask, image_embeds[selected_indices])
         inputs_embeds = inputs_embeds.transpose(0, 1).contiguous()
 
-        # construct deepstack embedding
-        image_mask = image_mask[..., 0]
-        visual_pos_masks = image_mask
-        deepstack_visual_embeds = []
-        for deepstack_image_embed in deepstack_image_embeds:
-            needed_deepstack_image_embeds = torch.zeros(
-                [needed_image_embeds_num] + list(deepstack_image_embed.shape[1:]),
-                dtype=inputs_embeds.dtype,
-                device=inputs_embeds.device,
-            )
-            added_num = 0
-            for start, end in valid_image_embeds_nums:
-                embeds_num = end - start
-                needed_deepstack_image_embeds[added_num : added_num + embeds_num] = deepstack_image_embed[start:end]
-                added_num += embeds_num
-            assert added_num == needed_image_embeds_num
-            deepstack_visual_embeds.append(needed_deepstack_image_embeds)
-
-        return inputs_embeds, visual_pos_masks, deepstack_visual_embeds
+        return inputs_embeds, image_mask, deepstack_image_embeds
+
+    def build_encoder_inputs(
+        self,
+        input_lengths: List[int],
+        input_features: torch.Tensor,
+        input_position_infos: torch.LongTensor,
+        input_attention_mask: Optional[torch.Tensor] = None,
+    ):
+        """
+        calculate split plan and local data according to workload, assuming workload proportional to length
+        Args:
+            input_lengths (List[int]): length of each sample
+            input_features (torch.Tensor): flatted input features, input_features.shape[0] == sum(input_lengths)
+            input_position_infos (torch.LongTensor): additional position info, len(input_position_infos) == len(input_lengths)
+        """
+        world_size = mpu.get_tensor_and_context_parallel_world_size()
+
+        if world_size == 1 or len(input_lengths) < world_size:  # encoder has small batch size
+            # TODO: support encoder small batch size
+            return None, input_features, input_position_infos, input_attention_mask
+
+        # sorted by length
+        indexed_items = sorted([(length, i) for i, length in enumerate(input_lengths)], reverse=True)
+
+        # min_heap for tracking current load on each GPU
+        min_heap = [(0, i) for i in range(world_size)]
+
+        # (length, original_index)
+        split_plan = [[] for _ in range(world_size)]
+
+        # heap sort
+        for length, original_index in indexed_items:
+            current_load, rank = heapq.heappop(min_heap)
+            split_plan[rank].append((length, original_index))
+            new_load = current_load + length
+            heapq.heappush(min_heap, (new_load, rank))
+
+        # start indices for each sample in input_features
+        start_indices = [
+            0,
+        ] + list(itertools.accumulate(input_lengths[:-1]))
+        # local inputs for each rank
+        local_rank = mpu.get_tensor_and_context_parallel_rank()
+
+        local_features_slices = []
+        local_position_infos_slices = []
+        local_attention_mask_slices = None
+        if input_attention_mask is not None:
+            if len(input_attention_mask) != len(input_position_infos):
+                raise ValueError("input_attention_mask and input_position_infos must have the same length.")
+            local_attention_mask_slices = []
+
+        for length, source_index in split_plan[local_rank]:
+            start, end = start_indices[source_index], start_indices[source_index] + length
+            local_features_slices.append(input_features[start:end])
+            start, end = source_index, source_index + 1
+            local_position_infos_slices.append(input_position_infos[start:end])
+            if local_attention_mask_slices is not None:
+                local_attention_mask_slices.append(input_attention_mask[start:end])
+
+        # no workload on current GPU
+        if not local_features_slices:
+            raise ValueError("No workload assigned to the current GPU in encoder.")
+
+        input_features_split = torch.cat(local_features_slices, dim=0)
+        input_position_infos_split = torch.cat(local_position_infos_slices, dim=0)
+
+        input_attention_mask_split = None
+        if local_attention_mask_slices is not None:
+            input_attention_mask_split = torch.cat(local_attention_mask_slices, dim=0)
+
+        return split_plan, input_features_split, input_position_infos_split, input_attention_mask_split
+
+    def gather_encoder_outputs(
+        self,
+        output_features: torch.Tensor,
+        split_plan: Optional[List[List[int]]] = None,
+        output_lengths: Optional[List[int]] = None,
+    ):
+        if split_plan is not None:
+            return encoder_sequence_parallel_gather(output_features, split_plan, output_lengths)
+        return encoder_small_batch_size_gather(output_features)
 
     def get_batch_on_this_cp_rank(self, batch, dim3_keys: List[str] = ["attention_mask"]):
         # VLM need to view all input_ids and media features
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_vl/rope_utils.py b/mcore_adapter/src/mcore_adapter/models/qwen3_vl/rope_utils.py
index 61ed6e3bd..8a9b09e07 100644
--- a/mcore_adapter/src/mcore_adapter/models/qwen3_vl/rope_utils.py
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_vl/rope_utils.py
@@ -3,7 +3,6 @@
 import torch
 from megatron.core import parallel_state
 from megatron.core.models.common.embeddings.rope_utils import (
-    _apply_rotary_pos_emb_bshd,
     get_pos_emb_on_this_cp_rank,
 )
 from torch import nn
@@ -36,6 +35,7 @@ def __init__(
         rotary_interleaved: bool = False,
         seq_len_interpolation_factor: float = None,
         rotary_base: int = 10000,
+        cp_group: Optional[torch.distributed.ProcessGroup] = None,
     ) -> None:
         super().__init__()
 
@@ -50,7 +50,9 @@ def __init__(
             rotary_base ** (torch.arange(0, dim, 2, dtype=torch.float32, device=torch.cuda.current_device()) / dim)
         )
 
-        self.is_thd_format = False  # if is thd format, we do not need to split the rotary_pos_emb along CP
+        self.cp_group = (
+            cp_group if cp_group is not None else parallel_state.get_context_parallel_group(check_initialized=False)
+        )
 
     def apply_interleaved_mrope(self, freqs, mrope_section):
         """Apply interleaved MRoPE to 3D rotary embeddings.
@@ -69,7 +71,12 @@ def apply_interleaved_mrope(self, freqs, mrope_section):
             freqs_t[..., idx] = freqs[dim, ..., idx]
         return freqs_t
 
-    def forward(self, position_ids: torch.Tensor, mrope_section: list[int]) -> torch.Tensor:
+    def forward(
+        self,
+        position_ids: torch.Tensor,
+        mrope_section: list[int],
+        cp_group: Optional[torch.distributed.ProcessGroup] = None,
+    ) -> torch.Tensor:
         """Forward pass of multimodal RoPE embedding.
 
         Args:
@@ -97,10 +104,12 @@ def forward(self, position_ids: torch.Tensor, mrope_section: list[int]) -> torch
 
         # shape (seq_length, bs, 1, 2 * dim)
         emb = emb[..., None, :].transpose(0, 1).contiguous()
-        if parallel_state.get_context_parallel_world_size() > 1:
+        if cp_group is None:
+            cp_group = self.cp_group
+        if cp_group is not None and cp_group.size() > 1:
             # slice rotary_pos_emb along sequence dimension and select the parition of the current
             # CP rank
-            emb = get_pos_emb_on_this_cp_rank(emb, 0, parallel_state.get_context_parallel_group())
+            emb = get_pos_emb_on_this_cp_rank(emb, 0, cp_group)
         return emb
 
 
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_vl/transformer_block.py b/mcore_adapter/src/mcore_adapter/models/qwen3_vl/transformer_block.py
index 02775d448..d9543cc47 100644
--- a/mcore_adapter/src/mcore_adapter/models/qwen3_vl/transformer_block.py
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_vl/transformer_block.py
@@ -21,7 +21,7 @@
 
 
 try:
-    import transformer_engine.pytorch as te  # pylint: disable=unused-import
+    import transformer_engine.pytorch as te  # noqa: F401
 
     HAVE_TE = True
 except ImportError:
diff --git a/mcore_adapter/src/mcore_adapter/models/qwen3_vl_moe/__init__.py b/mcore_adapter/src/mcore_adapter/models/qwen3_vl_moe/__init__.py
new file mode 100644
index 000000000..e3e928895
--- /dev/null
+++ b/mcore_adapter/src/mcore_adapter/models/qwen3_vl_moe/__init__.py
@@ -0,0 +1,189 @@
+from dataclasses import dataclass
+from typing import TYPE_CHECKING
+
+import torch
+
+from ..auto.config_auto import register_config
+from ..auto.modeling_auto import register_model
+from ..converter.convert_utils import (
+    convert_to_hf_prefix,
+    get_mca_moe_index,
+    get_mca_weight_prefix,
+    remove_mca_weight_prefix,
+)
+from ..converter.dist_converter import (
+    DistParallelConfig,
+    default_dist_config,
+    register_dist_config,
+    shared_moe_dist_config,
+)
+from ..converter.template import (
+    ConverOp,
+    QKVBiasConverOp,
+    QKVConverOp,
+    RenameConverOp,
+    StackedTensors,
+    register_template,
+)
+from ..qwen3_vl import Qwen3VLConfig, Qwen3VLModel, Qwen3VLTemplate
+
+
+if TYPE_CHECKING:
+    from megatron.core.transformer import TransformerConfig
+
+
+@dataclass
+class SplitConverOp(ConverOp):
+    def __post_init__(self):
+        super().__post_init__()
+        assert len(self.hf_names) == 1, f"SplitConverOp only support one name {self.hf_names}"
+
+    @property
+    def mca_config(self) -> "TransformerConfig":
+        return self._mca_config
+
+    @mca_config.setter
+    def mca_config(self, value: "TransformerConfig"):
+        self._mca_config = value
+        if len(self.mca_names) == 1:
+            mca_name = self.mca_names[0]
+            num_splits = self._mca_config.num_moe_experts
+            self.mca_names = [str(i) + mca_name for i in range(num_splits)]
+
+    def _hf_to_mca(self, weights):
+        return list(torch.unbind(weights[0].transpose(1, 2).contiguous(), dim=0))
+
+    def _mca_to_hf(self, weights):
+        if isinstance(weights[0], StackedTensors):
+            return torch.stack([torch.cat(weight.tensors) for weight in weights], dim=0).transpose(1, 2).contiguous()
+        return torch.stack(weights, dim=0).transpose(1, 2).contiguous()
+
+
+@dataclass
+class SplitStackConverOp(SplitConverOp):
+    def _hf_to_mca(self, weights):
+        return [
+            StackedTensors(torch.chunk(w, 2, dim=0), dim=0)
+            for w in torch.unbind(weights[0].transpose(1, 2).contiguous(), dim=0)
+        ]
+
+
+register_config("qwen3_vl_moe", Qwen3VLConfig)
+register_model("qwen3_vl_moe", Qwen3VLModel)
+register_dist_config(
+    "qwen3_vl_moe",
+    default_dist_config.merge_configs(shared_moe_dist_config).merge_configs(
+        DistParallelConfig(
+            pre_process_weights=["vision_model.*"],
+            duplicated_weights=["vision_model.*"],
+        )
+    ),
+)
+
+
+@dataclass
+class Qwen3VLMoeTemplate(Qwen3VLTemplate):
+    def add_mca_weight(self, name, weight, **kwargs):
+        weight_prefix = get_mca_weight_prefix(name)
+        original_name = remove_mca_weight_prefix(name)
+        moe_layer_index = get_mca_moe_index(name)
+        # Since experts weights are stacked in qwen3_vl_moe,
+        # we need to add the moe index to the original name to
+        # ensure all experts weights have the same weight_prefix
+        if moe_layer_index is not None:
+            original_name = str(moe_layer_index) + original_name
+            weight_prefix = name[: -len(original_name)]
+        if weight_prefix not in self.prefix_name_to_weight:
+            self.prefix_name_to_weight[weight_prefix] = {}
+        self.prefix_name_to_weight[weight_prefix][original_name] = weight
+        prefix_weights = self.prefix_name_to_weight[weight_prefix]
+        # However, when looking up the converter, we still use the original name without moe index
+        # This is because mca_name_to_converter is built before mca_names reset which happens at
+        # model converter init.
+        original_name = remove_mca_weight_prefix(name)
+        if ".lora_A." in original_name or ".lora_B." in original_name:
+            op = self.get_lora_conver_op(original_name, self.mca_name_to_converter, **kwargs)
+        else:
+            op = self.get_conver_op(original_name, self.mca_name_to_converter)
+        name_to_weight = {
+            name: prefix_weights.pop(name)
+            for name in list(prefix_weights.keys())
+            if op.is_required_name(name, mca_name=True)
+        }
+        conver_res = op(name_to_weight, mca_to_hf=True)
+        if conver_res is None:
+            # not ready to convert
+            self.prefix_name_to_weight[weight_prefix].update(name_to_weight)
+            return conver_res
+        hf_prefix = convert_to_hf_prefix(weight_prefix, self.hf_layer_prefix, self.hf_moe_prefix)
+        return {hf_prefix + name: weight for name, weight in conver_res.items()}
+
+
+register_template(
+    "qwen3_vl_moe",
+    hf_layer_prefix="model.language_model.layers.",
+    hf_moe_prefix=".mlp.experts.",
+    template_class=Qwen3VLMoeTemplate,
+    config_hf_to_mca={
+        "max_position_embeddings": "max_sequence_length",
+        "hidden_size": "hidden_size",
+        "attention_bias": "add_qkv_bias",
+        "head_dim": "kv_channels",
+        "num_attention_heads": "num_attention_heads",
+        "num_key_value_heads": "num_query_groups",
+        "num_hidden_layers": "num_layers",
+        "rms_norm_eps": "layernorm_epsilon",
+        "vocab_size": "padded_vocab_size",
+        "attention_dropout": "attention_dropout",
+        "rope_theta": "rotary_base",
+        "intermediate_size": "ffn_hidden_size",
+        "tie_word_embeddings": "tie_embeddings_and_output_weights",
+        # MoE related
+        "moe_intermediate_size": "moe_ffn_hidden_size",
+        "decoder_sparse_step": "moe_layer_freq",
+        "num_experts": "num_moe_experts",
+        "num_experts_per_tok": "moe_router_topk",
+        "router_aux_loss_coef": "moe_aux_loss_coeff",
+        # vit related
+        "vision_start_token_id": "vision_start_token_id",
+        "vision_end_token_id": "vision_end_token_id",
+        "vision_token_id": "vision_token_id",
+        "image_token_id": "image_token_id",
+        "video_token_id": "video_token_id",
+        "vision_config": "vision_config",
+        "rope_scaling": "rope_scaling",
+    },
+    constant_mca_config={
+        "swiglu": True,
+        "position_embedding_type": "mrope",
+        "normalization": "RMSNorm",
+        "add_bias_linear": False,
+        "hidden_dropout": 0.0,
+        "rotary_percent": 1.0,
+        "qk_layernorm": True,
+    },
+    weight_converters=[
+        RenameConverOp(hf_names="lm_head.weight", mca_names="output_layer.weight"),
+        RenameConverOp(
+            hf_names="model.language_model.embed_tokens.weight", mca_names="embedding.word_embeddings.weight"
+        ),
+        RenameConverOp(hf_names=".input_layernorm.weight", mca_names=".self_attention.linear_qkv.layer_norm_weight"),
+        RenameConverOp(hf_names=".self_attn.o_proj.weight", mca_names=".self_attention.linear_proj.weight"),
+        RenameConverOp(hf_names=".self_attn.q_norm.weight", mca_names=".self_attention.q_layernorm.weight"),
+        RenameConverOp(hf_names=".self_attn.k_norm.weight", mca_names=".self_attention.k_layernorm.weight"),
+        RenameConverOp(hf_names=".post_attention_layernorm.weight", mca_names=".pre_mlp_layernorm.weight"),
+        RenameConverOp(hf_names="model.language_model.norm.weight", mca_names="decoder.final_layernorm.weight"),
+        SplitStackConverOp(hf_names="gate_up_proj", mca_names=".linear_fc1.weight"),
+        SplitConverOp(hf_names="down_proj", mca_names=".linear_fc2.weight"),
+        RenameConverOp(hf_names=".mlp.gate.weight", mca_names=".mlp.router.weight"),
+        QKVConverOp(
+            hf_names=[".self_attn.q_proj.weight", ".self_attn.k_proj.weight", ".self_attn.v_proj.weight"],
+            mca_names=".self_attention.linear_qkv.weight",
+        ),
+        QKVBiasConverOp(
+            hf_names=[".self_attn.q_proj.bias", ".self_attn.k_proj.bias", ".self_attn.v_proj.bias"],
+            mca_names=".self_attention.linear_qkv.bias",
+        ),
+        RenameConverOp(hf_names="model.visual.{}", mca_names="vision_model.{}"),
+    ],
+)
diff --git a/mcore_adapter/src/mcore_adapter/models/seed_oss/__init__.py b/mcore_adapter/src/mcore_adapter/models/seed_oss/__init__.py
new file mode 100644
index 000000000..d7a5bc8bc
--- /dev/null
+++ b/mcore_adapter/src/mcore_adapter/models/seed_oss/__init__.py
@@ -0,0 +1,75 @@
+from ...utils import is_megatron_llama
+from ..auto.config_auto import register_config
+from ..auto.modeling_auto import register_model
+from ..converter.dist_converter import default_dist_config, register_dist_config
+from ..converter.template import (
+    QKVBiasConverOp,
+    QKVConverOp,
+    RenameConverOp,
+    StackConverOp,
+    register_template,
+)
+from ..model_config import McaModelConfig
+from ..model_factory import McaGPTModel
+
+
+register_config("seed_oss", McaModelConfig)
+register_model("seed_oss", McaGPTModel)
+register_dist_config("seed_oss", default_dist_config)
+
+
+register_template(
+    "seed_oss",
+    hf_layer_prefix="model.layers.",
+    config_hf_to_mca={
+        "max_position_embeddings": "max_sequence_length",
+        "hidden_size": "hidden_size",
+        "attention_bias": "add_qkv_bias",
+        "head_dim": "kv_channels",
+        "num_attention_heads": "num_attention_heads",
+        "num_key_value_heads": "num_query_groups",
+        "num_hidden_layers": "num_layers",
+        "rms_norm_eps": "layernorm_epsilon",
+        "vocab_size": "padded_vocab_size",
+        "attention_dropout": "attention_dropout",
+        "rope_theta": "rotary_base",
+        "intermediate_size": "ffn_hidden_size",
+        "tie_word_embeddings": "tie_embeddings_and_output_weights",
+        "hidden_dropout": "residual_dropout"
+    },
+    constant_mca_config={
+        "swiglu": True,
+        "position_embedding_type": "rope",
+        "normalization": "RMSNorm",
+        "add_bias_linear": False,
+        "rotary_percent": 1.0,
+        "qk_layernorm": False,
+    },
+    weight_converters=[
+        RenameConverOp(hf_names="lm_head.weight", mca_names="output_layer.weight"),
+        RenameConverOp(hf_names="model.embed_tokens.weight", mca_names="embedding.word_embeddings.weight"),
+        RenameConverOp(
+            hf_names=".input_layernorm.weight",
+            mca_names=".self_attention.linear_qkv.layer_norm_weight"
+                        if not is_megatron_llama() else ".input_layernorm.weight"
+        ),
+        RenameConverOp(hf_names=".self_attn.o_proj.weight", mca_names=".self_attention.linear_proj.weight"),
+        RenameConverOp(
+            hf_names=".post_attention_layernorm.weight",
+            mca_names=".mlp.linear_fc1.layer_norm_weight"
+                        if not is_megatron_llama() else ".pre_mlp_layernorm.weight"),
+        RenameConverOp(hf_names=".mlp.down_proj.weight", mca_names=".mlp.linear_fc2.weight"),
+        RenameConverOp(hf_names="model.norm.weight", mca_names="decoder.final_layernorm.weight"),
+        StackConverOp(
+            hf_names=[".mlp.gate_proj.weight", ".mlp.up_proj.weight"], mca_names=".mlp.linear_fc1.weight", dim=0
+        ),
+        QKVConverOp(
+            hf_names=[".self_attn.q_proj.weight", ".self_attn.k_proj.weight", ".self_attn.v_proj.weight"],
+            mca_names=".self_attention.linear_qkv.weight",
+        ),
+        QKVBiasConverOp(
+            hf_names=[".self_attn.q_proj.bias", ".self_attn.k_proj.bias", ".self_attn.v_proj.bias"],
+            mca_names=".self_attention.linear_qkv.bias",
+        ),
+    ],
+)
diff --git a/mcore_adapter/src/mcore_adapter/parallel_functions/__init__.py b/mcore_adapter/src/mcore_adapter/parallel_functions/__init__.py
index 05929d23d..178e7f908 100644
--- a/mcore_adapter/src/mcore_adapter/parallel_functions/__init__.py
+++ b/mcore_adapter/src/mcore_adapter/parallel_functions/__init__.py
@@ -1,5 +1,6 @@
 from .context_parallel import context_parallel_gather
+from .encoder_sequence_parallel import encoder_sequence_parallel_gather, encoder_small_batch_size_gather
 from .vocab_parallel import vocab_parallel_logprobs
 
 
-__all__ = ["context_parallel_gather", "vocab_parallel_logprobs"]
+__all__ = ["context_parallel_gather", "encoder_sequence_parallel_gather", "encoder_small_batch_size_gather", "vocab_parallel_logprobs"]
diff --git a/mcore_adapter/src/mcore_adapter/parallel_functions/encoder_sequence_parallel.py b/mcore_adapter/src/mcore_adapter/parallel_functions/encoder_sequence_parallel.py
new file mode 100644
index 000000000..446652b25
--- /dev/null
+++ b/mcore_adapter/src/mcore_adapter/parallel_functions/encoder_sequence_parallel.py
@@ -0,0 +1,134 @@
+import torch
+from megatron.core import mpu
+
+
+def _gather_first_dim_size(local_tensor, world_size, group):
+    local_size = torch.tensor(local_tensor.shape[0], device=local_tensor.device)
+    all_sizes = [torch.zeros_like(local_size) for _ in range(world_size)]
+    torch.distributed.all_gather(all_sizes, local_size, group=group)
+    return [size.item() for size in all_sizes]
+
+
+def _gather_and_reorder_along_first_dim(
+    local_tensor,
+    split_plan,
+    all_output_lengths,
+    rank,
+    world_size,
+    group,
+    all_sizes=None,
+):
+    if world_size == 1:
+        return local_tensor
+
+    # 1: gather all sizes
+    if all_sizes is None:
+        all_sizes = _gather_first_dim_size(local_tensor, world_size, group)
+
+    # 2: gather all tensors
+    max_size = max(all_sizes)
+    gathered_tensors_padded = [local_tensor.new_empty((max_size, *local_tensor.shape[1:])) for _ in range(world_size)]
+    gathered_tensors_padded[rank][: all_sizes[rank]] = local_tensor
+    torch.distributed.all_gather(gathered_tensors_padded, gathered_tensors_padded[rank], group=group)
+    gathered_tensors = [gathered_tensors_padded[i][: all_sizes[i]] for i in range(world_size)]
+
+    # 3: reorder tensors
+    reordered_items = [None] * len(all_output_lengths)
+    for r, plan in enumerate(split_plan):
+        current_pos = 0
+        gpu_output_tensor = gathered_tensors[r]
+        for _, original_index in plan:
+            output_len = all_output_lengths[original_index]
+            item_output = gpu_output_tensor[current_pos : current_pos + output_len]
+            reordered_items[original_index] = item_output
+            current_pos += output_len
+
+    # 4: concat tensors
+    full_output = torch.cat(reordered_items, dim=0)
+
+    return full_output
+
+
+class _GatherFromEncoderSequenceParallelRegion(torch.autograd.Function):
+    """
+    An encoder sequence parallel region gather autograd.Function for:
+    1. Forward: gather and reorder tensors with different sizes.
+    2. Backward: scatter the gradients back to the original GPUs.
+    """
+
+    @staticmethod
+    def symbolic(graph, local_tensor, split_plan, all_output_lengths):
+        rank = mpu.get_tensor_and_context_parallel_rank()
+        world_size = mpu.get_tensor_and_context_parallel_world_size()
+        group = mpu.get_tensor_and_context_parallel_group()
+        return _gather_and_reorder_along_first_dim(
+            local_tensor, split_plan, all_output_lengths, rank, world_size, group
+        )
+
+    @staticmethod
+    def forward(ctx, local_tensor, split_plan, all_output_lengths):
+        """
+        Args:
+            local_tensor: tensor on the current GPU.
+            split_plan: load-balance plan for each GPU
+            all_output_lengths: original tensor sizes
+        """
+        # --- gather all sizes ---
+        rank = mpu.get_tensor_and_context_parallel_rank()
+        world_size = mpu.get_tensor_and_context_parallel_world_size()
+        group = mpu.get_tensor_and_context_parallel_group()
+        all_sizes = _gather_first_dim_size(local_tensor, world_size, group)
+        # --- save for backward ---
+        ctx.split_plan = split_plan
+        ctx.all_output_lengths = all_output_lengths
+        ctx.rank = rank
+        return _gather_and_reorder_along_first_dim(
+            local_tensor,
+            split_plan,
+            all_output_lengths,
+            rank,
+            world_size,
+            group,
+            all_sizes,
+        )
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        """
+        Args:
+            grad_output: gradient of the forward output
+        """
+        split_plan = ctx.split_plan
+        all_output_lengths = ctx.all_output_lengths
+        rank = ctx.rank
+
+        grad_by_item = grad_output.split(all_output_lengths)
+        local_grad_by_item = [grad_by_item[original_index] for _, original_index in split_plan[rank]]
+        local_grad = torch.cat(local_grad_by_item, dim=0).contiguous()
+        return local_grad, None, None
+
+
+class _GatherFromEncoderSmallBatchSize(torch.autograd.Function):
+    """Gather the input from sequence parallel region and concatinate."""
+
+    @staticmethod
+    def symbolic(graph, input_):
+        return input_
+
+    @staticmethod
+    def forward(ctx, input_):
+        return input_
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        world_size = mpu.get_tensor_model_parallel_world_size()
+        grad_output = grad_output.div_(world_size)
+        return grad_output
+
+
+def encoder_sequence_parallel_gather(input_, split_plan, input_size_list):
+    return _GatherFromEncoderSequenceParallelRegion.apply(input_, split_plan, input_size_list)
+
+
+def encoder_small_batch_size_gather(input_):
+    return _GatherFromEncoderSmallBatchSize.apply(input_)
diff --git a/mcore_adapter/src/mcore_adapter/parallel_functions/vocab_parallel.py b/mcore_adapter/src/mcore_adapter/parallel_functions/vocab_parallel.py
index 3c0179b68..452a7092b 100644
--- a/mcore_adapter/src/mcore_adapter/parallel_functions/vocab_parallel.py
+++ b/mcore_adapter/src/mcore_adapter/parallel_functions/vocab_parallel.py
@@ -98,11 +98,13 @@ def forward(ctx, vocab_parallel_logits: "torch.Tensor", target: "torch.Tensor"):
     def backward(ctx, grad_output: "torch.Tensor"):
         exp_logits, target_mask, sum_exp_logits, masked_target_1d = ctx.saved_tensors
 
-        grad_input = -exp_logits / sum_exp_logits.unsqueeze(dim=-1)
+        exp_logits.div_(sum_exp_logits.unsqueeze(dim=-1))
+        exp_logits.neg_()
+        grad_input = exp_logits
         grad_2d = grad_input.view(-1, grad_input.size()[-1])
         arange_1d = torch.arange(start=0, end=grad_2d.size()[0], device=grad_input.device)
         grad_2d[arange_1d, masked_target_1d] += 1 - target_mask.view(-1).float()
-        grad_input = grad_input * grad_output.unsqueeze(dim=-1)
+        grad_input.mul_(grad_output.unsqueeze(dim=-1))
 
         return grad_input, None
 
diff --git a/mcore_adapter/src/mcore_adapter/patcher.py b/mcore_adapter/src/mcore_adapter/patcher.py
new file mode 100644
index 000000000..03eb1212c
--- /dev/null
+++ b/mcore_adapter/src/mcore_adapter/patcher.py
@@ -0,0 +1,159 @@
+import math
+import sys
+from bisect import bisect_right, insort
+from typing import Optional
+
+import torch
+from torch.distributed._shard.metadata import ShardMetadata
+from torch.distributed._shard.sharding_spec._internals import _check_shard_metadata_pair_overlap
+from torch.distributed.checkpoint.default_planner import (
+    _check_box_bounds,
+    _check_box_overlap,
+)
+from torch.distributed.checkpoint.metadata import (
+    BytesStorageMetadata,
+    Metadata,
+)
+from torch.distributed.checkpoint.planner import SavePlan
+
+from .utils import get_logger
+
+
+logger = get_logger(__name__)
+
+
+def patch_torch_find_nd_overlapping_shards():
+    """
+    Ref: https://github.com/pytorch/pytorch/issues/166941
+         https://github.com/pytorch/pytorch/pull/167073
+    """
+
+    def _find_nd_overlapping_shards(shards: list[ShardMetadata], sharded_dims: list[int]) -> Optional[tuple[int, int]]:
+        """Find overlapping shards using sweep-line algorithm."""
+        if len(shards) <= 1:
+            return None
+
+        dims = len(sharded_dims)
+        if dims == 0:
+            return None
+
+        sweep_dim_idx = 0
+        if dims > 1:
+            max_size = 0
+            for i, dim in enumerate(sharded_dims):
+                dim_size = shards[0].shard_offsets[dim] + shards[0].shard_sizes[dim]
+                if dim_size > max_size:
+                    max_size = dim_size
+                    sweep_dim_idx = i
+        sweep_dim = sharded_dims[sweep_dim_idx]
+
+        sorted_indices = sorted(
+            range(len(shards)),
+            key=lambda idx: (
+                shards[idx].shard_offsets[sweep_dim],
+                *(shards[idx].shard_offsets[d] for d in sharded_dims if d != sweep_dim),
+            ),
+        )
+        active: list[tuple[int, int]] = []
+
+        for idx in sorted_indices:
+            current = shards[idx]
+            start = current.shard_offsets[sweep_dim]
+            end = start + current.shard_sizes[sweep_dim]
+
+            cutoff = bisect_right(active, (start, sys.maxsize))
+            if cutoff:
+                del active[:cutoff]
+
+            for _, other_idx in active:
+                other = shards[other_idx]
+
+                if _check_shard_metadata_pair_overlap(current, other):
+                    return (other_idx, idx)
+            insort(active, (end, idx))
+        return None
+
+    torch.distributed._shard.sharding_spec._internals._find_nd_overlapping_shards = _find_nd_overlapping_shards
+
+
+def patch_torch_validate_global_plan():
+    """
+    Related: https://github.com/pytorch/pytorch/issues/163548
+             https://github.com/pytorch/pytorch/pull/166820
+    """
+
+    def _validate_global_plan(global_plan: list[SavePlan], metadata: Metadata) -> bool:
+        all_good = True
+        for key, value in metadata.state_dict_metadata.items():
+            if isinstance(value, BytesStorageMetadata):
+                continue
+            if len(value.size) == 0:
+                continue
+            chunks = value.chunks
+            chunks_volume = 0
+            for chunk in chunks:
+                # Compute the volume
+                if not _check_box_bounds(value.size, chunk):
+                    logger.warning(
+                        """
+                            key:%s has out of bounds chunk:
+                            tensor-size:%s chunk: %s
+                        """,
+                        key,
+                        value.size,
+                        chunk,
+                    )
+                    all_good = False
+                chunks_volume += math.prod(chunk.sizes)
+
+            if len(chunks) > 1:
+                dims = len(value.size)
+                # sweep_dim = max(range(dims), default=0, key=lambda d: value.size[d])
+                sweep_dim = 0  # use default sweep_dim, avoid degarding to O(N^2)
+                sorted_indices = sorted(
+                    range(len(chunks)),
+                    key=lambda idx: (
+                        chunks[idx].offsets[sweep_dim],
+                        *(chunks[idx].offsets[d] for d in range(dims)),
+                    ),
+                )
+                active: list[tuple[int, int]] = []
+                for idx in sorted_indices:
+                    current = chunks[idx]
+                    start = current.offsets[sweep_dim]
+                    end = start + current.sizes[sweep_dim]
+
+                    cutoff = bisect_right(active, (start, sys.maxsize))
+                    if cutoff:
+                        del active[:cutoff]
+
+                    for _, other_idx in active:
+                        other = chunks[other_idx]
+                        if _check_box_overlap(current, other):
+                            logger.warning(
+                                "key:%s has overlapping chunks: %s %s",
+                                key,
+                                current,
+                                other,
+                            )
+                            all_good = False
+
+                    insort(active, (end, idx))
+
+            # Check whether combined chunk cover the whole tensor
+            tensor_volume = math.prod(value.size)
+            if len(global_plan) > 1 and chunks_volume != tensor_volume:
+                logger.warning(
+                    """
+                        key:%s invalid fill tensor-volume:
+                        %s chunks-volume: %s
+                    """,
+                    key,
+                    tensor_volume,
+                    chunks_volume,
+                )
+                all_good = False
+
+        return all_good
+
+    torch.distributed.checkpoint.default_planner._validate_global_plan = _validate_global_plan
diff --git a/mcore_adapter/src/mcore_adapter/platforms/__init__.py b/mcore_adapter/src/mcore_adapter/platforms/__init__.py
index e62bd224b..0a99237cf 100644
--- a/mcore_adapter/src/mcore_adapter/platforms/__init__.py
+++ b/mcore_adapter/src/mcore_adapter/platforms/__init__.py
@@ -1,13 +1,12 @@
 import torch
 
-from .platform import Platform
+from ..utils import get_logger
+from .cpu import CpuPlatform
 from .cuda import CudaPlatform
 from .npu import NpuPlatform
+from .platform import Platform
 from .rocm import RocmPlatform
 from .unknown import UnknownPlatform
-from .cpu import CpuPlatform
-
-from ..utils import get_logger
 
 
 logger = get_logger(__name__)
@@ -25,26 +24,29 @@ def _init_platform() -> Platform:
     Returns:
         An instance of a subclass of Platform corresponding to the detected hardware.
     """
+    try:
+        if hasattr(torch, "npu") and torch.npu.is_available():
+            logger.debug("Detected NPU (torch_npu). Initializing NPU platform.")
+            return NpuPlatform()
+    except ImportError:
+        pass
+
     if torch.cuda.is_available():
         device_name = torch.cuda.get_device_name().upper()
         logger.debug(f"Detected CUDA device: {device_name}")
+
         if "NVIDIA" in device_name:
             logger.debug("Initializing CUDA platform (NVIDIA).")
             return CudaPlatform()
         elif "AMD" in device_name:
             logger.debug("Initializing ROCm platform (AMD).")
             return RocmPlatform()
+
         logger.warning("Unrecognized CUDA device. Falling back to UnknownPlatform.")
         return UnknownPlatform()
-    else:
-        try:
-            import torch_npu  # noqa: F401
-
-            logger.debug("Detected torch_npu. Initializing NPU platform.")
-            return NpuPlatform()
-        except ImportError:
-            logger.debug("No supported accelerator detected. Initializing CPU platform.")
-            return CpuPlatform()
+    
+    logger.debug("No supported accelerator detected. Initializing CPU platform.")
+    return CpuPlatform()
 
 
 # Global singleton representing the current platform in use.
diff --git a/mcore_adapter/src/mcore_adapter/platforms/cpu.py b/mcore_adapter/src/mcore_adapter/platforms/cpu.py
index 3034200f2..13b905dff 100644
--- a/mcore_adapter/src/mcore_adapter/platforms/cpu.py
+++ b/mcore_adapter/src/mcore_adapter/platforms/cpu.py
@@ -1,5 +1,6 @@
-from .platform import Platform
 from ..utils import get_logger
+from .platform import Platform
+
 
 logger = get_logger(__name__)
 
@@ -39,7 +40,3 @@ def get_vllm_run_time_env_vars(cls, gpu_rank: str) -> dict:
             "VLLM_ALLOW_INSECURE_SERIALIZATION": "1",
         }
         return env_vars
-
-    @classmethod
-    def apply_ulysses_patch(cls) -> None:
-        return
diff --git a/mcore_adapter/src/mcore_adapter/platforms/cuda.py b/mcore_adapter/src/mcore_adapter/platforms/cuda.py
index 84bc65c2a..9c598ec1f 100644
--- a/mcore_adapter/src/mcore_adapter/platforms/cuda.py
+++ b/mcore_adapter/src/mcore_adapter/platforms/cuda.py
@@ -1,8 +1,11 @@
-from .platform import Platform
-from ..utils import get_logger
+import os
 
 import torch
 
+from ..utils import get_logger
+from .platform import Platform
+
+
 logger = get_logger(__name__)
 
 
@@ -35,8 +38,9 @@ def get_custom_env_vars(cls) -> dict:
             "VLLM_ALLOW_INSECURE_SERIALIZATION": "1",
             "TORCHINDUCTOR_COMPILE_THREADS": "2",
             "PYTORCH_CUDA_ALLOC_CONF": "expandable_segments:True",
-            "NCCL_CUMEM_ENABLE": "0",  # https://github.com/NVIDIA/nccl/issues/1234
+            "NCCL_CUMEM_ENABLE": os.getenv("NCCL_CUMEM_ENABLE", "0"),  # https://github.com/NVIDIA/nccl/issues/1234
             "NCCL_NVLS_ENABLE": "0",
+            "NVTE_BWD_LAYERNORM_SM_MARGIN": os.getenv('NVTE_BWD_LAYERNORM_SM_MARGIN', "0"),
         }
         return env_vars
 
@@ -45,7 +49,8 @@ def get_vllm_worker_class(cls):
         try:
             from vllm import envs
 
-            if envs.VLLM_USE_V1:
+            # VLLM_USE_V1 is deprecated in vllm>=0.11.1
+            if not hasattr(envs, "VLLM_USE_V1") or envs.VLLM_USE_V1:
                 from vllm.v1.worker.gpu_worker import Worker
 
                 logger.info("Successfully imported vLLM V1 Worker.")
@@ -63,13 +68,8 @@ def get_vllm_worker_class(cls):
     def get_vllm_run_time_env_vars(cls, gpu_rank: str) -> dict:
         env_vars = {
             "PYTORCH_CUDA_ALLOC_CONF": "",
-            "VLLM_ALLOW_INSECURE_SERIALIZATION":"1",
+            "VLLM_ALLOW_INSECURE_SERIALIZATION": "1",
             "CUDA_VISIBLE_DEVICES": f"{gpu_rank}",
             "RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES": "1",
         }
         return env_vars
-
-    @classmethod
-    def apply_ulysses_patch(cls) -> None:
-        from roll.utils.context_parallel import apply_ulysses_patch
-        apply_ulysses_patch()
diff --git a/mcore_adapter/src/mcore_adapter/platforms/npu.py b/mcore_adapter/src/mcore_adapter/platforms/npu.py
index fbecd2f8c..e74d59714 100644
--- a/mcore_adapter/src/mcore_adapter/platforms/npu.py
+++ b/mcore_adapter/src/mcore_adapter/platforms/npu.py
@@ -1,5 +1,6 @@
-from .platform import Platform
 from ..utils import get_logger
+from .platform import Platform
+
 
 logger = get_logger(__name__)
 
@@ -47,7 +48,8 @@ def get_vllm_worker_class(cls):
         try:
             from vllm import envs
 
-            if envs.VLLM_USE_V1:
+            # VLLM_USE_V1 is deprecated in vllm>=0.11.1
+            if not hasattr(envs, "VLLM_USE_V1") or envs.VLLM_USE_V1:
                 from vllm_ascend.worker.worker_v1 import NPUWorker as Worker
 
                 logger.info("Successfully imported vLLM V1 Worker.")
@@ -69,7 +71,3 @@ def get_vllm_run_time_env_vars(cls, gpu_rank: str) -> dict:
             "RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES": "1",
         }
         return env_vars
-    
-    @classmethod
-    def apply_ulysses_patch(cls) -> None:
-        return
diff --git a/mcore_adapter/src/mcore_adapter/platforms/platform.py b/mcore_adapter/src/mcore_adapter/platforms/platform.py
index 1f53f0627..0617fc427 100644
--- a/mcore_adapter/src/mcore_adapter/platforms/platform.py
+++ b/mcore_adapter/src/mcore_adapter/platforms/platform.py
@@ -1,8 +1,10 @@
-import torch
 import os
 
+import torch
+
 from ..utils import get_logger
 
+
 logger = get_logger(__name__)
 
 
@@ -175,23 +177,3 @@ def get_vllm_run_time_env_vars(cls, gpu_rank: str) -> dict:
                               provide framework-specific environment variables.
         """
         raise NotImplementedError
-
-    @classmethod
-    def apply_ulysses_patch(cls) -> None:
-        """
-        Apply the Ulysses attention runtime patch to the current environment.
-
-        This method sets up or modifies the necessary environment variables, flags,
-        or other runtime configurations to enable the Ulysses-optimized attention operations
-        in vLLM. It ensures that models using the Ulysses attention implementation
-        can run efficiently on the target hardware.
-
-        Returns:
-            dict: A dictionary containing the environment variables that were applied
-                or modified to enable Ulysses attention support.
-
-        Raises:
-            NotImplementedError: This method should be implemented by subclasses to
-                                provide framework- and hardware-specific Ulysses patching.
-        """
-        raise NotImplementedError
diff --git a/mcore_adapter/src/mcore_adapter/platforms/rocm.py b/mcore_adapter/src/mcore_adapter/platforms/rocm.py
index 0df5fdfa6..01ac286df 100644
--- a/mcore_adapter/src/mcore_adapter/platforms/rocm.py
+++ b/mcore_adapter/src/mcore_adapter/platforms/rocm.py
@@ -1,7 +1,8 @@
-from .platform import Platform
+import torch
+
 from ..utils import get_logger
+from .platform import Platform
 
-import torch
 
 logger = get_logger(__name__)
 
@@ -34,17 +35,14 @@ def get_custom_env_vars(cls) -> dict:
             "VLLM_ALLOW_INSECURE_SERIALIZATION": "1",
             # These VLLM related enviroment variables are related to backend. maybe used afterwards.
             # "VLLM_USE_TRITON_FLASH_ATTN":"0",
-            "VLLM_ROCM_USE_AITER":"1",
+            # "VLLM_ROCM_USE_AITER":"1",
             # "VLLM_ROCM_USE_AITER_MOE":"1",
             # "VLLM_ROCM_USE_AITER_ASMMOE":"1",
             # "VLLM_ROCM_USE_AITER_PAGED_ATTN":"1",
             # "RAY_DEBUG": "legacy",
-            "VLLM_USE_V1": "1",
+            "VLLM_USE_V1": "0",
             "TORCHINDUCTOR_COMPILE_THREADS": "2",
             "PYTORCH_HIP_ALLOC_CONF": "expandable_segments:True",
-            "SAFETENSORS_FAST_GPU":"1",
-            "VLLM_ROCM_USE_AITER_MHA":"0",
-            "VLLM_ALLOW_LONG_MAX_MODEL_LEN":"1",
             # "NCCL_DEBUG_SUBSYS":"INIT,COLL",
             # "NCCL_DEBUG":"INFO",
             # "NCCL_DEBUG_FILE":"rccl.%h.%p.log",
@@ -76,7 +74,8 @@ def get_vllm_worker_class(cls):
         try:
             from vllm import envs
 
-            if envs.VLLM_USE_V1:
+            # VLLM_USE_V1 is deprecated in vllm>=0.11.1
+            if not hasattr(envs, "VLLM_USE_V1") or envs.VLLM_USE_V1:
                 from vllm.v1.worker.gpu_worker import Worker
 
                 logger.info("Successfully imported vLLM V1 Worker.")
@@ -104,8 +103,3 @@ def get_vllm_run_time_env_vars(cls, gpu_rank: str) -> dict:
             # "NCCL_P2P_DISABLE":"1",
         }
         return env_vars
-    
-    @classmethod
-    def apply_ulysses_patch(cls) -> None:
-        from roll.utils.context_parallel import apply_ulysses_patch
-        apply_ulysses_patch()
\ No newline at end of file
diff --git a/mcore_adapter/src/mcore_adapter/platforms/unknown.py b/mcore_adapter/src/mcore_adapter/platforms/unknown.py
index 156aa9851..14adb6498 100644
--- a/mcore_adapter/src/mcore_adapter/platforms/unknown.py
+++ b/mcore_adapter/src/mcore_adapter/platforms/unknown.py
@@ -1,7 +1,8 @@
-from .platform import Platform
+import torch
+
 from ..utils import get_logger
+from .platform import Platform
 
-import torch
 
 logger = get_logger(__name__)
 
@@ -36,19 +37,20 @@ def get_custom_env_vars(cls) -> dict:
             # So we set a small timeout for PullObjectsAndGetFromPlasmaStore to avoid holding store_client lock
             # too long.
             "RAY_get_check_signal_interval_milliseconds": "1",
-            "VLLM_ALLOW_INSECURE_SERIALIZATION":"1",
+            "VLLM_ALLOW_INSECURE_SERIALIZATION": "1",
             "TORCHINDUCTOR_COMPILE_THREADS": "2",
             "HGGC_ENABLE_KERNEL_COPY": "0",
             "NCCL_PF_U2MM_HOST": "0",
         }
         return env_vars
-    
+
     @classmethod
     def get_vllm_worker_class(cls):
         try:
             from vllm import envs
 
-            if envs.VLLM_USE_V1:
+            # VLLM_USE_V1 is deprecated in vllm>=0.11.1
+            if not hasattr(envs, "VLLM_USE_V1") or envs.VLLM_USE_V1:
                 from vllm.v1.worker.gpu_worker import Worker
 
                 logger.info("Successfully imported vLLM V1 Worker.")
@@ -63,14 +65,9 @@ def get_vllm_worker_class(cls):
             raise RuntimeError("vLLM is not installed or not properly configured.") from e
 
     @classmethod
-    def get_vllm_run_time_env_vars(cls, gpu_rank:str) -> dict:
+    def get_vllm_run_time_env_vars(cls, gpu_rank: str) -> dict:
         env_vars = {
-            "PYTORCH_CUDA_ALLOC_CONF" : "",
-            "VLLM_ALLOW_INSECURE_SERIALIZATION":"1",
+            "PYTORCH_CUDA_ALLOC_CONF": "",
+            "VLLM_ALLOW_INSECURE_SERIALIZATION": "1",
         }
         return env_vars
-    
-    @classmethod
-    def apply_ulysses_patch(cls) -> None:
-        from roll.utils.context_parallel import apply_ulysses_patch
-        apply_ulysses_patch()
\ No newline at end of file
diff --git a/mcore_adapter/src/mcore_adapter/trainer/trainer.py b/mcore_adapter/src/mcore_adapter/trainer/trainer.py
index 16dc346ba..06b87c170 100644
--- a/mcore_adapter/src/mcore_adapter/trainer/trainer.py
+++ b/mcore_adapter/src/mcore_adapter/trainer/trainer.py
@@ -1,12 +1,11 @@
 import math
 import os
 import random
-import shutil
 import sys
 import time
 import warnings
 from functools import partial
-from typing import TYPE_CHECKING, Any, Dict, Iterator, List, Optional, Union
+from typing import TYPE_CHECKING, Any, Iterator, Optional, Union
 
 import numpy as np
 import torch
@@ -27,12 +26,12 @@
     get_moe_layer_wise_logging_tracker,
     reduce_aux_losses_tracker_across_ranks,
 )
+from megatron.core.transformer.multi_token_prediction import MTPLossLoggingHelper
 from torch._tensor import Tensor
-from torch.utils.data import DataLoader, Dataset, RandomSampler
-from transformers import PreTrainedTokenizerBase
+from torch.utils.data import DataLoader, Dataset, RandomSampler, SequentialSampler
+from transformers import PreTrainedTokenizer, PreTrainedTokenizerBase
 from transformers.trainer import (
     OPTIMIZER_NAME,
-    PREFIX_CHECKPOINT_DIR,
     SCHEDULER_NAME,
     TRAINER_STATE_NAME,
     Trainer,
@@ -47,14 +46,17 @@
     set_seed,
     speed_metrics,
 )
+from transformers.utils import is_peft_available
 
-from ..platforms import current_platform
 from ..checkpointing import get_checkpoint_dir, load_state_dict_from_checkpoint
-from ..constants import DIST_OPTIMIZER_DIR, IGNORE_INDEX
+from ..constants import ADAPTER_CONFIG_NAME, DIST_OPTIMIZER_DIR, IGNORE_INDEX
 from ..initialize import initialize_megatron
+from ..patcher import patch_torch_find_nd_overlapping_shards, patch_torch_validate_global_plan
+from ..platforms import current_platform
 from ..training_args import TrainingArguments
-from ..utils import distributed_reduce, get_logger
+from ..utils import distributed_reduce, get_logger, is_transformers_version_greater_than
 from .utils import (
+    build_sharded_state_dict_metadata,
     check_pack_seq_aligned,
     get_ltor_masks_and_position_ids,
     get_megatron_lr_scheduler,
@@ -67,13 +69,17 @@
 
     from ..models import VirtualModels
 
+
+if is_peft_available():
+    from peft import PeftModel
+
+
 logger = get_logger(__name__)
 
 
 class McaTrainer(Trainer):
     metrics_keys = ["loss"]
     _language_input_names = ["input_ids", "attention_mask", "labels", "position_ids"]
-    ckpt_sharding_type = "fully_sharded_model_space"
 
     def __init__(
         self,
@@ -81,6 +87,12 @@ def __init__(
         args: TrainingArguments = None,
         **kwargs,
     ):
+        if is_transformers_version_greater_than("4.46"):
+            kwargs["processing_class"] = kwargs.pop("tokenizer")
+        else:
+            self.processing_class: PreTrainedTokenizer = kwargs.get("tokenizer")
+        patch_torch_find_nd_overlapping_shards()
+        patch_torch_validate_global_plan()
         initialize_megatron(args=args)
         self.args = args
         super().__init__(
@@ -98,6 +110,7 @@ def __init__(
                 mpu.get_data_parallel_group(with_context_parallel=True),
                 do_cache_distribution=True,  # don't support change model structure during training
             )
+            self.ckpt_sharding_metadata = build_sharded_state_dict_metadata(self.args)
         if self.accelerator.dispatch_batches:
             self.accelerator.dispatch_batches = False
             logger.warning("Currently, accelerator.dispatch_batches must be set to False!")
@@ -107,7 +120,7 @@ def __init__(
         if getattr(self, "processing_class", None) is None:
             self.processing_class = self.tokenizer
 
-    def _prepare_model(self, models: "VirtualModels") -> List["DistributedDataParallel"]:
+    def _prepare_model(self, models: "VirtualModels") -> list["DistributedDataParallel"]:
         config = models.config
         ddp_config = DistributedDataParallelConfig(
             grad_reduce_in_fp32=self.args.accumulate_allreduce_grads_in_fp32,
@@ -131,7 +144,7 @@ def _prepare_model(self, models: "VirtualModels") -> List["DistributedDataParall
         ]
 
     def disable_ddp_forward_pre_hook(
-        self, model_chunks: Optional[List["DistributedDataParallel"]] = None, param_sync=True
+        self, model_chunks: Optional[list["DistributedDataParallel"]] = None, param_sync=True
     ):
         """
         disable the overlap param gather pre-hook of DDP for 3 reasons:
@@ -147,7 +160,7 @@ def disable_ddp_forward_pre_hook(
             # TODO: add param_sync in core0.11.0
             model_chunk.disable_forward_pre_hook()
 
-    def enable_ddp_forward_pre_hook(self, model_chunks: Optional[List["DistributedDataParallel"]] = None):
+    def enable_ddp_forward_pre_hook(self, model_chunks: Optional[list["DistributedDataParallel"]] = None):
         if not (self.args.use_distributed_optimizer and self.args.overlap_param_gather):
             return
         model_chunks = model_chunks or self.models_wrapped
@@ -173,7 +186,7 @@ def get_train_dataloader(self) -> DataLoader:
         if not isinstance(train_dataset, torch.utils.data.IterableDataset):
             if not self.args.dataloader_drop_last:
                 logger.warning("Currently, train dataloader drop_last must be set to True!")
-            dataloader_params["sampler"] = self._get_train_sampler()
+            dataloader_params["sampler"] = SequentialSampler(train_dataset)
             dataloader_params["drop_last"] = True
             dataloader_params["worker_init_fn"] = lambda _: set_seed(torch.initial_seed() % 2**32)
             dataloader_params["prefetch_factor"] = self.args.dataloader_prefetch_factor
@@ -215,11 +228,11 @@ def get_eval_dataloader(self, eval_dataset: Dataset | None = None) -> DataLoader
             dispatch_batches=False,
         )
 
-    def _get_batch_on_this_cp_rank(self, batch: Dict[str, Tensor]):
+    def _get_batch_on_this_cp_rank(self, batch: dict[str, Tensor]):
         dim3_keys = [] if self.model_impl == "transformer_engine" else ["attention_mask"]
         return self.model.get_batch_on_this_cp_rank(batch, dim3_keys=dim3_keys)
 
-    def _prepare_train_inputs(self, data_iterator: Iterator) -> Dict[str, Tensor | Any]:
+    def _prepare_train_inputs(self, data_iterator: Iterator) -> dict[str, Tensor | Any]:
         inputs = next(data_iterator)
         inputs = {**inputs}  # avoid repeated modifications
         if self.args.sequence_packing:
@@ -247,15 +260,18 @@ def _prepare_train_inputs(self, data_iterator: Iterator) -> Dict[str, Tensor | A
     def _pre_compute_loss(self, data_iterator: Iterator, model: DistributedDataParallel):
         inputs = self._prepare_train_inputs(data_iterator)
         loss_mask = (inputs["labels"] != IGNORE_INDEX).float()
+        if "loss_mask" not in inputs:
+            inputs["loss_mask"] = loss_mask
         output_tensor = model(**inputs)
         return output_tensor, loss_mask
 
     def _post_compute_loss(self, loss_mask, losses):
         loss_mask = loss_mask.view(-1).float()
-        cp_size = self.model.config.context_parallel_size
         losses = torch.sum(losses.view(-1) * loss_mask)
         loss_mask = loss_mask.sum()
+        cp_size = self.model.config.context_parallel_size
         if cp_size > 1:
+            # all-reduce loss for logging in context parallel
             loss_info = torch.cat([losses.view(1), loss_mask.view(1)])
             torch.distributed.all_reduce(
                 loss_info, op=torch.distributed.ReduceOp.SUM, group=mpu.get_context_parallel_group()
@@ -275,7 +291,7 @@ def _inner_forward_step(self, data_iterator: Iterator, model: DistributedDataPar
         outputs = self._pre_compute_loss(data_iterator, model)
         return outputs[0], partial(self._post_compute_loss, *outputs[1:])
 
-    def _packing_sequence(self, inputs: Dict[str, Tensor | Any]):
+    def _packing_sequence(self, inputs: dict[str, Tensor | Any]):
         if not self.args.sequence_packing:
             return inputs
         attention_mask = inputs.pop("attention_mask", None)
@@ -304,8 +320,8 @@ def _packing_sequence(self, inputs: Dict[str, Tensor | Any]):
                     cu_seqlens_q=seqlens,
                     cu_seqlens_q_padded=seqlens,
                     cu_seqlens_kv_padded=seqlens,
-                    max_seqlen_q=max_seq_len,
-                    max_seqlen_kv=max_seq_len,
+                    max_seqlen_q=max_seq_len.item(),
+                    max_seqlen_kv=max_seq_len.item(),
                 ),
                 "attention_mask": None,
             }
@@ -313,13 +329,14 @@ def _packing_sequence(self, inputs: Dict[str, Tensor | Any]):
         return inputs
 
     def _get_step_iterator_and_seq_length(
-        self, epoch_iterator: Iterator[Dict[str, Tensor | Any]], standard_batch_size: Optional[int] = None
+        self, epoch_iterator: Iterator[dict[str, Tensor | Any]], standard_batch_size: Optional[int] = None
     ):
         """
         construct data iterator for gradient accumulation
         """
         step_inputs = []
         max_seq_length = 0
+        total_seq_length = 0
         standard_batch_size = standard_batch_size or self.args.per_device_train_batch_size
         for _ in range(self.args.gradient_accumulation_steps):
             try:
@@ -344,20 +361,21 @@ def _get_step_iterator_and_seq_length(
 
             step_inputs.append(inputs)
             max_seq_length = max(max_seq_length, seq_length)
+            total_seq_length = total_seq_length + seq_length
 
         if len(step_inputs) < self.args.gradient_accumulation_steps:
-            return None, 0
+            return None, 0, 0
 
         if not self.args.allow_variable_seq_lengths():
             step_inputs = [self._pad_batched_inputs(inputs, max_seq_length) for inputs in step_inputs]
         for inputs in step_inputs:
             self.current_flos += float(self.floating_point_ops(inputs))
-        return iter(step_inputs), max_seq_length
+        return iter(step_inputs), max_seq_length, total_seq_length
 
     def _align_special_tokens(self, *args, **kwargs):
         pass
 
-    def _pad_batched_inputs(self, inputs: Dict[str, Tensor | Any], seq_length: int):
+    def _pad_batched_inputs(self, inputs: dict[str, Tensor | Any], seq_length: int):
         padding_inputs = {
             k: v.tolist() if v is not None and isinstance(v, Tensor) else v
             for k, v in inputs.items()
@@ -384,7 +402,9 @@ def _stream_eval_inputs(self, eval_dataloader: DataLoader, standard_batch_size:
         max_seq_length = 0
         standard_batch_size = standard_batch_size or self.args.per_device_eval_batch_size
 
-        pad_func = lambda x, length: [self._pad_batched_inputs(i, length) for i in x]
+        def pad_func(x, length):
+            return [self._pad_batched_inputs(i, length) for i in x]
+
         end_flag = torch.tensor(0, device=self.args.device)
         for inputs in eval_dataloader:
             main_inputs = inputs[self.model.main_input_name]
@@ -401,7 +421,7 @@ def _stream_eval_inputs(self, eval_dataloader: DataLoader, standard_batch_size:
         end_flag = torch.ones_like(end_flag)
         dist.all_reduce(end_flag, op=dist.ReduceOp.MAX)
 
-    def training_step(self, models: List[DistributedDataParallel], data_iterator, seq_length):
+    def training_step(self, models: list[DistributedDataParallel], data_iterator, seq_length):
         # a real step not a minibatch of gradient accumulation
         for model in models:
             model.train()
@@ -411,7 +431,7 @@ def training_step(self, models: List[DistributedDataParallel], data_iterator, se
         if len(models) > 1:
             data_list = list(data_iterator)
             data_iterator = [iter(data_list) for _ in range(len(models))]
-        metrics_tensors: List[Dict[str, Tensor]] = self.forward_backward_func(
+        metrics_tensors: list[dict[str, Tensor]] = self.forward_backward_func(
             forward_step_func=self._inner_forward_step,
             data_iterator=data_iterator,
             model=models,
@@ -440,7 +460,7 @@ def training_step(self, models: List[DistributedDataParallel], data_iterator, se
             loss = torch.tensor(0.0, device=self.args.device)
         return loss, metrics_tensors, skipped_iter, grad_norm, num_zeros_in_grad
 
-    def gather_metrics(self, metrics_tensors: List[Dict[str, Tensor]]) -> Dict[str, float]:
+    def gather_metrics(self, metrics_tensors: list[dict[str, Tensor]]) -> dict[str, float]:
         metrics = {}
         if mpu.is_pipeline_last_stage(ignore_virtual=True):
             get_metrics_keys = metrics_tensors[0].keys()
@@ -471,7 +491,9 @@ def create_optimizer(self):
         config = OptimizerConfig(
             optimizer=self.args.optimizer,
             lr=self.args.learning_rate,
-            min_lr=self.args.lr_scheduler_kwargs.get("min_lr", 0.0),
+            min_lr=self.args.lr_scheduler_kwargs.get("min_lr", 0.0)
+            if self.args.lr_scheduler_kwargs is not None
+            else 0.0,
             weight_decay=self.args.weight_decay,
             adam_beta1=self.args.adam_beta1,
             adam_beta2=self.args.adam_beta2,
@@ -487,7 +509,7 @@ def create_optimizer(self):
         self.optimizer = get_megatron_optimizer(config, self.models_wrapped)
         return self.optimizer
 
-    def create_scheduler(self, num_training_steps: int, optimizer: "MegatronOptimizer" = None):
+    def create_scheduler(self, num_training_steps: int, optimizer: "MegatronOptimizer"):
         if self.lr_scheduler is None:
             self.lr_scheduler = get_megatron_lr_scheduler(self.args, num_training_steps, optimizer)
         return self.lr_scheduler
@@ -495,8 +517,27 @@ def create_scheduler(self, num_training_steps: int, optimizer: "MegatronOptimize
     def _load_from_checkpoint(self, resume_from_checkpoint, model=None):
         # TODO: support resume _CUDA_RNG_STATE_TRACKER (which is needed for dropout/init model weights)
         model = model or self.model
-        logger.info(f"Loading model from {resume_from_checkpoint}.")
-        state_dict = load_state_dict_from_checkpoint(resume_from_checkpoint)
+        if isinstance(model[0], PeftModel):
+            state_dict = {}
+            adapter_subdirs = (
+                [
+                    folder_name
+                    for folder_name in os.listdir(resume_from_checkpoint)
+                    if os.path.isdir(os.path.join(resume_from_checkpoint, folder_name))
+                    and os.path.isfile(os.path.join(resume_from_checkpoint, folder_name, ADAPTER_CONFIG_NAME))
+                ]
+                if os.path.isdir(resume_from_checkpoint)
+                else []
+            )
+            if adapter_subdirs:
+                for subdir_name in adapter_subdirs:
+                    peft_id = os.path.join(resume_from_checkpoint, subdir_name)
+                    logger.info(f"Loading adapter from {peft_id}.")
+                    peft_state_dict = load_state_dict_from_checkpoint(peft_id)
+                    state_dict[subdir_name] = peft_state_dict
+        else:
+            logger.info(f"Loading model from {resume_from_checkpoint}.")
+            state_dict = load_state_dict_from_checkpoint(resume_from_checkpoint)
         assert state_dict is not None, "No model state_dict found in checkpoint."
         model.load_state_dict(state_dict)
 
@@ -512,7 +553,7 @@ def _load_optimizer_and_scheduler(self, checkpoint):
         if self.args.use_distributed_optimizer:
             model_shared_state_dict = self.model.sharded_state_dict()
             sharded_state_dict = self.optimizer.sharded_state_dict(
-                model_shared_state_dict, is_loading=True, sharding_type=self.ckpt_sharding_type
+                model_shared_state_dict, is_loading=True, metadata=self.ckpt_sharding_metadata
             )
             load_strategy = dist_checkpointing.serialization.get_default_load_sharded_strategy(optimizer_checkpoint)
             load_strategy = FullyParallelLoadStrategyWrapper(
@@ -617,7 +658,8 @@ def _prepare_train_loop(
                 f" {args.max_steps}"
             )
 
-        self.create_optimizer_and_scheduler(num_training_steps=max_steps)
+        self.create_optimizer()
+        self.create_scheduler(num_training_steps=max_steps, optimizer=self.optimizer)
         self.state = TrainerState(
             stateful_callbacks=[
                 cb for cb in self.callback_handler.callbacks + [self.control] if isinstance(cb, ExportableState)
@@ -643,6 +685,11 @@ def _prepare_train_loop(
             else:
                 self.state.save_steps = args.save_steps
 
+        # ckpt loading
+        if resume_from_checkpoint is not None:
+            if self.is_fsdp_enabled:
+                self._load_from_checkpoint(resume_from_checkpoint, self.model)
+
         self._load_optimizer_and_scheduler(resume_from_checkpoint)
 
         # Train!
@@ -774,10 +821,6 @@ def _inner_training_loop(
             if hasattr(train_dataloader, "set_epoch"):
                 train_dataloader.set_epoch(epoch)
 
-            # Reset the past mems state at the beginning of each epoch if necessary.
-            if args.past_index >= 0:
-                self._past = None
-
             steps_in_epoch = (
                 len(train_dataloader) // args.gradient_accumulation_steps
                 if len_dataloader is not None
@@ -803,8 +846,9 @@ def _inner_training_loop(
             self.disable_ddp_forward_pre_hook(param_sync=False)
             step = -1
             first_step = True
+            tps_time = time.time()
             while True:
-                step_iterator, seq_length = self._get_step_iterator_and_seq_length(cyclic_iterator)
+                step_iterator, seq_length, total_seq_length = self._get_step_iterator_and_seq_length(cyclic_iterator)
                 if step_iterator is None:
                     break
                 step += 1
@@ -835,7 +879,13 @@ def _inner_training_loop(
                 self.state.global_step += 1
                 self.state.epoch = epoch + (step + 1 + steps_skipped) / steps_in_epoch
                 self.control = self.callback_handler.on_step_end(args, self.state, self.control)
-                logs = {"skipped_iter": skipped_iter, "num_zeros_in_grad": num_zeros_in_grad or 0}
+                token_per_sec_per_gpu = total_seq_length / (time.time() - tps_time)
+                tps_time = time.time()
+                logs = {
+                    "skipped_iter": skipped_iter,
+                    "num_zeros_in_grad": num_zeros_in_grad or 0,
+                    "token_per_sec_per_gpu": token_per_sec_per_gpu,
+                }
                 self._maybe_log_save_evaluate(
                     tr_loss,
                     grad_norm,
@@ -895,8 +945,8 @@ def _maybe_log_save_evaluate(
         trial,
         epoch,
         ignore_keys_for_eval,
-        other_logs: Dict[str, float] = {},
-        metrics_tensors: Optional[List[Dict[str, Tensor]]] = None,
+        other_logs: dict[str, float] = {},
+        metrics_tensors: Optional[list[dict[str, Tensor]]] = None,
     ):
         eval_or_save = self.control.should_evaluate or self.control.should_save
         if eval_or_save:
@@ -912,6 +962,20 @@ def _maybe_log_save_evaluate(
 
             clear_aux_losses_tracker()
 
+        mtp_losses = {}
+        if self.model.config.mtp_num_layers is not None and self.model.config.mtp_num_layers > 0:
+            if self.control.should_log:
+                MTPLossLoggingHelper.reduce_loss_in_tracker()
+                tracker = MTPLossLoggingHelper.tracker
+                loss_scale = 1 / self.args.gradient_accumulation_steps
+                MTPLossLoggingHelper.track_mtp_metrics(
+                    loss_scale,
+                    iteration=self.state.global_step,  # Not used when total_loss_dict is provided
+                    writer=None,
+                    wandb_writer=None,
+                    total_loss_dict=mtp_losses,
+                )
+
         if self.control.should_log and self.state.global_step > self._globalstep_last_logged:
             logs = {}
             loss = tr_loss.clone().detach()
@@ -927,16 +991,12 @@ def _maybe_log_save_evaluate(
             # reset tr_loss to zero
             tr_loss -= tr_loss
 
-            # logs["loss"] = round(tr_loss_scalar / (self.state.global_step - self._globalstep_last_logged), 4)
-            if self.args.calculate_per_token_loss:
-                logs["loss"] = round(tr_loss_scalar, 4)
-            else:
-                logs["loss"] = round(tr_loss_scalar / (self.state.global_step - self._globalstep_last_logged), 4)
-            
+            logs["loss"] = round(tr_loss_scalar / (self.state.global_step - self._globalstep_last_logged), 4)
             if grad_norm is not None:
                 logs["grad_norm"] = grad_norm.detach().item() if isinstance(grad_norm, torch.Tensor) else grad_norm
             logs["learning_rate"] = self._get_learning_rate()
             logs.update(moe_losses)
+            logs.update(mtp_losses)
             if metrics_tensors is not None and len(self.metrics_keys) > 1:  # metrics except loss
                 metrics = self.gather_metrics(metrics_tensors)
                 metrics.pop("loss", None)
@@ -964,7 +1024,7 @@ def evaluation_loop(
         dataloader: DataLoader,
         description: str,
         prediction_loss_only: Optional[bool] = None,
-        ignore_keys: Optional[List[str]] = None,
+        ignore_keys: Optional[list[str]] = None,
         metric_key_prefix: str = "eval",
     ) -> EvalLoopOutput:
         args = self.args
@@ -973,7 +1033,7 @@ def evaluation_loop(
         assert prediction_loss_only, "Evaluation with `prediction_loss_only=False` is not supported."
         models = self.model
         models.eval()
-        metrics_tensors: List[Dict[str, Tensor]] = []
+        metrics_tensors: list[dict[str, Tensor]] = []
         for step_inputs, seq_length, batch_size in self._stream_eval_inputs(dataloader):
             num_microbatches = len(step_inputs)
             data_iterator = [iter(step_inputs) for _ in range(len(models))]
@@ -1006,7 +1066,7 @@ def _save_optimizer_and_scheduler(self, output_dir):
         if self.args.use_distributed_optimizer:
             model_shared_state_dict = self.model.sharded_state_dict()
             state_dict = self.optimizer.sharded_state_dict(
-                model_shared_state_dict, sharding_type=self.ckpt_sharding_type
+                model_shared_state_dict, metadata=self.ckpt_sharding_metadata
             )
             # validate access integrity in the first time
             validate_access_integrity = getattr(self, "_validate_access_integrity", True)
@@ -1033,7 +1093,7 @@ def _save_optimizer_and_scheduler(self, output_dir):
     def save_model(self, output_dir: str = None, _internal_call: bool = False):
         output_dir = output_dir or self.args.output_dir
         if not (self.args.save_only_model and self.args.save_hf_model):
-            self.model.save_pretrained(output_dir)
+            self.model.save_pretrained(output_dir, save_merged_model=self.args.save_merged_model)
         if self.args.save_hf_model:
             self.model.save_pretrained_as_hf(output_dir)
         if self.args.should_save:
@@ -1041,7 +1101,7 @@ def save_model(self, output_dir: str = None, _internal_call: bool = False):
                 self.processing_class.save_pretrained(output_dir)
             torch.save(self.args, os.path.join(output_dir, "training_args.bin"))
 
-    def estimate_tokens(self, inputs: Dict[str, Union[torch.Tensor, Any]]):
+    def estimate_tokens(self, inputs: dict[str, Union[torch.Tensor, Any]]):
         if not hasattr(self.model, "estimate_tokens"):
             return 0
         return self.model.estimate_tokens(inputs)
diff --git a/mcore_adapter/src/mcore_adapter/trainer/utils.py b/mcore_adapter/src/mcore_adapter/trainer/utils.py
index cbdefa891..fae44535f 100644
--- a/mcore_adapter/src/mcore_adapter/trainer/utils.py
+++ b/mcore_adapter/src/mcore_adapter/trainer/utils.py
@@ -1,8 +1,10 @@
-from typing import TYPE_CHECKING, List, Dict
+from typing import TYPE_CHECKING
 
 import torch
 from megatron.core.optimizer_param_scheduler import OptimizerParamScheduler
 
+from ..utils import is_mcore_version_greater_than
+
 
 if TYPE_CHECKING:
     from megatron.core.optimizer import MegatronOptimizer
@@ -10,6 +12,40 @@
     from ..training_args import TrainingArguments
 
 
+def build_sharded_state_dict_metadata(args: "TrainingArguments") -> dict:
+    """Builds metadata used for sharded_state_dict versioning.
+
+
+    The whole content metadata is passed to ``sharded_state_dict`` model and optimizer methods
+    and therefore affects only the logic behind sharded_state_dict creation.
+    The content metadata should be minimalistic, ideally flat (or with a single nesting level)
+    and with semantically meaningful flag names (e.g. `distrib_optim_sharding_type`).
+    In particular, a simple integer (or SemVer) versioning flag (e.g. `metadata['version'] = 3.4`)
+    is discouraged, because the metadata serves for all models and optimizers and it's practically
+    impossible to enforce a linearly increasing versioning for this whole space.
+    """
+    metadata: dict = {}
+
+    if not is_mcore_version_greater_than("0.14.0"):
+        # For backward compatibility with Megatron core < v0.14.0
+        if args.use_distributed_optimizer:
+            metadata["distrib_optim_sharding_type"] = "fully_sharded_model_space"
+        return metadata
+
+    if args.use_distributed_optimizer:
+        distrib_optim_fully_reshardable = args.distrib_optim_fully_reshardable
+        distrib_optim_fully_reshardable_mem_efficient = args.distrib_optim_fully_reshardable_mem_efficient
+        if distrib_optim_fully_reshardable:
+            metadata["distrib_optim_sharding_type"] = "fully_reshardable"
+            metadata["distrib_optim_fully_reshardable_mem_efficient"] = distrib_optim_fully_reshardable_mem_efficient
+        else:
+            metadata["distrib_optim_sharding_type"] = "dp_reshardable"
+
+    metadata["singleton_local_shards"] = False
+    metadata["chained_optim_avoid_prefix"] = True
+    return metadata
+
+
 def get_ltor_masks_and_position_ids(input_ids, build_attention_mask=True, attn_mask_1D=None):
     """Build masks and position id for left to right model."""
 
@@ -84,8 +120,6 @@ def check_pack_seq_aligned(attention_mask: "torch.Tensor", align_size: int):
     False
     ```
     """
-    bsz = attention_mask.size(0)
-    dtype, device = attention_mask.dtype, attention_mask.device
     max_num = torch.max(attention_mask).item()
     is_valid = True
     for i in range(max_num):
@@ -107,7 +141,7 @@ def step(self, increment=1):
         super().step(increment)
         self._last_lr = [group["lr"] for group in self.optimizer.param_groups]
 
-    def get_last_lr(self) -> List[float]:
+    def get_last_lr(self) -> list[float]:
         """Return last computed learning rate by current scheduler."""
         return self._last_lr
 
@@ -115,8 +149,10 @@ def get_last_lr(self) -> List[float]:
 def get_megatron_lr_scheduler(args: "TrainingArguments", num_training_steps: int, optimizer: "MegatronOptimizer"):
     scheduler_type_map = {  # hf to megatron
         "constant_with_warmup": "constant",
+        "inverse_sqrt": "inverse-square-root",
         "cosine_with_min_lr": "cosine",
-        "wsd": "WSD",
+        "cosine_warmup_with_min_lr": "cosine",
+        "warmup_stable_decay": "WSD",
     }
     lr_scheduler_kwargs = args.lr_scheduler_kwargs or {}
     max_lr = lr_scheduler_kwargs.get("max_lr", args.learning_rate)
@@ -127,6 +163,15 @@ def get_megatron_lr_scheduler(args: "TrainingArguments", num_training_steps: int
     lr_decay_style = scheduler_type_map.get(lr_scheduler_type, lr_scheduler_type)
     if lr_decay_style not in ["constant", "cosine", "linear", "inverse-square-root", "WSD"]:
         raise ValueError(f"lr_scheduler_type {lr_scheduler_type} is not supported")
+    kwargs = {}
+    if lr_decay_style == "WSD":
+        wsd_decay_steps = lr_scheduler_kwargs.get("wsd_decay_steps", None)
+        lr_wsd_decay_style = lr_scheduler_kwargs.get("lr_wsd_decay_style", None)
+        assert wsd_decay_steps is not None, "wsd_decay_steps is required for WSD"
+        kwargs = {
+            "wsd_decay_steps": wsd_decay_steps,
+            "lr_wsd_decay_style": lr_wsd_decay_style,
+        }
 
     return MegatronLRScheduler(
         optimizer,
@@ -140,4 +185,5 @@ def get_megatron_lr_scheduler(args: "TrainingArguments", num_training_steps: int
         end_wd=args.weight_decay,
         wd_incr_style="constant",
         wd_incr_steps=0,
+        **kwargs,
     )
diff --git a/mcore_adapter/src/mcore_adapter/training_args.py b/mcore_adapter/src/mcore_adapter/training_args.py
index 251fe9b34..412322d11 100644
--- a/mcore_adapter/src/mcore_adapter/training_args.py
+++ b/mcore_adapter/src/mcore_adapter/training_args.py
@@ -14,6 +14,17 @@
 
 @dataclass
 class DistributingParallelArguments:
+    """
+    NOTE:
+    - Most arguments should default to None to avoid overwriting checkpoint configurations
+    - Only training-only parameters (not affecting model checkpoints) should have non-None defaults (e.g., `variable_seq_lengths`)
+    - This class has high priority and will override config values read from checkpoints
+    - For minor configurations, consider using the `additional_configs` instead of adding adding new fields
+
+    CONFIGURATION EFFECTS:
+    Arguments are passed to TransformerConfig during model loading from hf/megatron checkpoints
+    """
+
     tensor_model_parallel_size: Optional[int] = field(
         default=None,
         metadata={"help": "Degree of tensor model parallelism."},
@@ -183,10 +194,7 @@ class DistributingParallelArguments:
         },
     )
     # mtp
-    mtp_num_layers: Optional[int] = field(
-        default=None,
-        metadata={"help": "The number of mtp layers."}
-    )
+    mtp_num_layers: Optional[int] = field(default=None, metadata={"help": "The number of mtp layers."})
     # train options
     calculate_per_token_loss: bool = field(
         default=False,
@@ -202,6 +210,25 @@ class DistributingParallelArguments:
             "choices": ["local", "transformer_engine"],
         },
     )
+    fp8_recipe: Optional[str] = field(
+        default=None,
+        metadata={
+            "help": "FP8 recipe as defined in mcore. If None, FP8 is not used. Supported recipes: "
+            "'mxfp8' on blackwell, 'blockwise' on hopper. Other recipes are not tested yet.",
+            # NOTE: mxfp8 does not work with moe recompute_modules if moe is used.
+        },
+    )
+    fp8_param: bool = field(
+        default=False,
+        # TODO: fp8_param does not work with mxfp8 for now, check TE support later.
+        metadata={"help": "If true, use fp8 weights during training instead of bf16."},
+    )
+    fp8: Optional[str] = field(
+        default=None,
+        metadata={
+            "help": "FP8 format to use. Supported formats: 'e4m3', 'hybrid'. Do not change if unsure",
+        },
+    )
     additional_configs: Optional[Union[dict, str]] = field(
         default_factory=dict,
         metadata={
@@ -259,6 +286,14 @@ class MegatronArguments(DistributingParallelArguments):
         default=False,
         metadata={"help": "Use distributed optimizer."},
     )
+    distrib_optim_fully_reshardable: bool = field(
+        default=True,
+        metadata={"help": "Whether optimizer states are fully reshardable."},
+    )
+    distrib_optim_fully_reshardable_mem_efficient: bool = field(
+        default=False,
+        metadata={"help": "Whether optimizer states are fully reshardable in memory efficient way."},
+    )
     overlap_grad_reduce: bool = field(
         default=False,
         metadata={"help": "If true, overlap grad reduce-scatter with backward compute in distributed optimizer."},
@@ -300,6 +335,7 @@ class MegatronArguments(DistributingParallelArguments):
     )
 
     save_hf_model: bool = field(default=False, metadata={"help": "Save model as hf format."})
+    save_merged_model: bool = field(default=False, metadata={"help": "Save merged model weights in LoRA training."})
 
     sequence_packing: bool = field(
         default=False,
diff --git a/mcore_adapter/src/mcore_adapter/utils.py b/mcore_adapter/src/mcore_adapter/utils.py
index c56fdb830..8db5599d8 100644
--- a/mcore_adapter/src/mcore_adapter/utils.py
+++ b/mcore_adapter/src/mcore_adapter/utils.py
@@ -1,11 +1,14 @@
-import importlib.util
+import importlib.metadata
 import logging
 import sys
+from functools import lru_cache
 from typing import Any, Mapping
 
 import torch
 import torch.distributed as dist
+from packaging import version
 from transformers.trainer_pt_utils import atleast_1d
+from transformers.utils.import_utils import _is_package_available
 
 
 def get_logger(name: str) -> logging.Logger:
@@ -67,9 +70,37 @@ def divide(numerator, denominator):
     return numerator // denominator
 
 
-def _is_package_available(name: str) -> bool:
-    return importlib.util.find_spec(name) is not None
+def _get_package_version(name: str) -> str:
+    try:
+        return importlib.metadata.version(name)
+    except Exception:
+        return "0.0.0"
 
 
-def is_peft_available() -> bool:
-    return _is_package_available("peft")
+@lru_cache
+def is_mcore_version_greater_than(content: str):
+    return version.parse(_get_package_version("megatron.core")) >= version.parse(content)
+
+
+def is_megatron_llama():
+    """
+    Check if the installed package is megatron-llama-core rather than megatron-core.
+    Use cached_value to avoid re-checking the package.
+    """
+    if not hasattr(is_megatron_llama, "cached_value"):
+        from importlib.metadata import distributions
+
+        is_megatron_llama.cached_value = any(
+            dist.metadata.get("Name") == "megatron-llama-core" for dist in distributions()
+        )
+    return is_megatron_llama.cached_value
+
+
+@lru_cache
+def is_safetensors_available() -> bool:
+    return _is_package_available("safetensors")
+
+
+@lru_cache
+def is_transformers_version_greater_than(content: str):
+    return version.parse(_get_package_version("transformers")) >= version.parse(content)
diff --git a/mcore_adapter/tools/convert.py b/mcore_adapter/tools/convert.py
index 1a5ebab0b..e1c0ae8d1 100644
--- a/mcore_adapter/tools/convert.py
+++ b/mcore_adapter/tools/convert.py
@@ -3,7 +3,7 @@
 from typing import Optional
 
 import torch
-from transformers import AutoConfig, AutoTokenizer, HfArgumentParser
+from transformers import AutoConfig, HfArgumentParser
 
 from mcore_adapter.models.converter.post_converter import convert_checkpoint_to_hf, convert_checkpoint_to_mca
 from mcore_adapter.training_args import DistributingParallelArguments
@@ -16,6 +16,7 @@
 @dataclass
 class ConvertArguments:
     checkpoint_path: str
+    adapter_path: str | None = field(default=None)
     output_path: str = field(default="./output")
     bf16: bool = field(default=False)
     fp16: bool = field(default=False)
@@ -27,13 +28,19 @@ def __post_init__(self):
         if self.bf16 and self.fp16:
             raise ValueError("bf16 and fp16 cannot be both True.")
 
+
 def convert_mca_to_hf(convert_args: ConvertArguments):
     torch_dtype = None
     if convert_args.bf16:
         torch_dtype = torch.bfloat16
     elif convert_args.fp16:
         torch_dtype = torch.float16
-    convert_checkpoint_to_hf(convert_args.checkpoint_path, convert_args.output_path, torch_dtype=torch_dtype)
+    convert_checkpoint_to_hf(
+        convert_args.checkpoint_path,
+        convert_args.output_path,
+        adapter_name_or_path=convert_args.adapter_path,
+        torch_dtype=torch_dtype,
+    )
 
     config = AutoConfig.from_pretrained(convert_args.output_path, trust_remote_code=True)
     if convert_args.convert_model_max_length is not None:
@@ -42,12 +49,16 @@ def convert_mca_to_hf(convert_args: ConvertArguments):
         config.save_pretrained(convert_args.output_path)
     logger.info(f"\n ==============HF config===========: \n {config}")
 
+
 def main():
     convert_args, dist_args = HfArgumentParser(
         [ConvertArguments, DistributingParallelArguments]
     ).parse_args_into_dataclasses()
 
-    mca_config_path = os.path.join(convert_args.checkpoint_path, "mca_config.json")
+    if convert_args.adapter_path is not None:
+        mca_config_path = os.path.join(convert_args.adapter_path, "mca_config.json")
+    else:
+        mca_config_path = os.path.join(convert_args.checkpoint_path, "mca_config.json")
     from_mca = os.path.exists(mca_config_path)
 
     if not from_mca:
diff --git a/pyproject.toml b/pyproject.toml
index 7d6a333bd..cfc6f82bc 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -14,3 +14,12 @@ line-length = 119
 [tool.ruff.isort]
 lines-after-imports = 2
 known-first-party = ["roll"]
+
+[tool.pytest.ini_options]
+testpaths = ["tests"]
+markers = [
+    "gpu: mark test as requiring GPU (CUDA or NPU)",
+    "distributed: mark test as requiring distributed setup (multi-process)",
+    "slow: mark test as slow running",
+    "npu: mark test as requiring Ascend NPU",
+]
diff --git a/requirements_common.txt b/requirements_common.txt
index 1bff312ab..f57299c9f 100644
--- a/requirements_common.txt
+++ b/requirements_common.txt
@@ -1,4 +1,4 @@
-ray[default,cgraph] # vllm required ray[default,cgraph]>=2.48.0
+ray[default,cgraph]==2.48.0 # vllm required ray[default,cgraph]>=2.48.0
 numpy<2.0a0,>=1.25
 tensordict
 sympy
@@ -7,7 +7,6 @@ datasets==3.1.0
 tqdm
 peft==0.12.0
 tyro>=0.5.7
-accelerate==0.34.2
 pydantic
 pytest
 loralib
@@ -21,9 +20,11 @@ dacite
 codetiming
 more_itertools
 pybase64
+sglang-router
 
 wandb
 swanlab
+trackio
 
 math-verify
 openai
diff --git a/requirements_torch2100_vllm.txt b/requirements_torch2100_vllm.txt
new file mode 100644
index 000000000..076bd41d6
--- /dev/null
+++ b/requirements_torch2100_vllm.txt
@@ -0,0 +1,17 @@
+-r requirements_common.txt
+
+torch==2.10.0.*
+torchvision==0.25.0.* 
+torchaudio==2.10.0.*
+
+transformers==5.2.0
+deepspeed==0.16.4
+accelerate==1.7.0
+
+flash-attn
+
+# for GDN , eg: Qwen3Next
+flash-linear-attention
+
+--extra-index-url https://wheels.vllm.ai/nightly/cu130
+vllm
diff --git a/requirements_torch260_diffsynth.txt b/requirements_torch260_diffsynth.txt
index 8ef0348a4..3e47106bf 100644
--- a/requirements_torch260_diffsynth.txt
+++ b/requirements_torch260_diffsynth.txt
@@ -7,6 +7,7 @@ torchaudio==2.6.0.*
 flash-attn
 
 deepspeed==0.16.4
+accelerate==0.34.2
 
 diffsynth
 
diff --git a/requirements_torch260_sglang.txt b/requirements_torch260_sglang.txt
index 5d992b16c..75c587257 100644
--- a/requirements_torch260_sglang.txt
+++ b/requirements_torch260_sglang.txt
@@ -8,6 +8,7 @@ flash-attn
 
 transformer-engine[pytorch]==2.2.0
 deepspeed==0.16.4
+accelerate==0.34.2
 sglang[srt,torch-memory-saver]==0.4.6.post4
 transformers==4.51.1
 cuda-bindings==12.9.0
diff --git a/requirements_torch260_vllm.txt b/requirements_torch260_vllm.txt
index 8a6d2d93b..6e6cbb001 100644
--- a/requirements_torch260_vllm.txt
+++ b/requirements_torch260_vllm.txt
@@ -8,4 +8,5 @@ flash-attn
 
 transformer-engine[pytorch]==2.2.0
 deepspeed==0.16.4
+accelerate==0.34.2
 vllm==0.8.4
diff --git a/requirements_torch280_sglang.txt b/requirements_torch280_sglang.txt
index e174bc6ac..b706d2fc5 100644
--- a/requirements_torch280_sglang.txt
+++ b/requirements_torch280_sglang.txt
@@ -5,6 +5,7 @@ torchvision==0.23.0.*
 torchaudio==2.8.0.*
 
 deepspeed==0.16.4
+accelerate==0.34.2
 sglang[srt,torch-memory-saver]==0.5.2
 
 # for GDN , eg: Qwen3Next
diff --git a/requirements_torch280_vllm.txt b/requirements_torch280_vllm.txt
index d01319cf6..34eba804c 100644
--- a/requirements_torch280_vllm.txt
+++ b/requirements_torch280_vllm.txt
@@ -6,6 +6,7 @@ torchaudio==2.8.0.*
 
 transformers==4.57.0
 deepspeed==0.16.4
+accelerate==0.34.2
 
 flash-attn
 
diff --git a/requirements_torch_2100_vllm_amd.txt b/requirements_torch_2100_vllm_amd.txt
new file mode 100644
index 000000000..7de9cc0ca
--- /dev/null
+++ b/requirements_torch_2100_vllm_amd.txt
@@ -0,0 +1,178 @@
+PyJWT==2.12.1
+accelerate==1.13.0
+aiohappyeyeballs==2.6.1
+aiohttp==3.13.5
+aiosignal==1.4.0
+amd-quark==0.11.1
+annotated-doc==0.0.4
+annotated-types==0.7.0
+anthropic==0.92.0
+anyio==4.13.0
+astor==0.8.1
+attrs==26.1.0
+azure-core==1.39.0
+azure-identity==1.25.3
+azure-storage-blob==12.28.0
+blake3==1.0.8
+boto3==1.42.86
+botocore==1.42.86
+cachetools==7.0.5
+cbor2==5.9.0
+certifi==2026.2.25
+cffi==2.0.0
+charset-normalizer==3.4.7
+clang-format==22.1.3
+click==8.3.2
+cloudpickle==3.1.2
+cmake==4.3.1
+colorama==0.4.6
+compressed-tensors==0.14.0.1
+conch-triton-kernels==1.2.1
+cryptography==46.0.7
+datasets==4.8.4
+depyf==0.20.0
+dill==0.4.1
+diskcache==5.6.3
+distro==1.9.0
+dnspython==2.8.0
+docstring_parser==0.17.0
+einops==0.8.2
+email-validator==2.3.0
+evaluate==0.4.6
+fastapi-cli==0.0.24
+fastapi-cloud-cli==0.16.1
+fastapi==0.135.3
+fastar==0.10.0
+fastsafetensors==0.2.2
+frozenlist==1.8.0
+gguf==0.18.0
+google-api-core==2.30.2
+google-auth==2.49.1
+google-cloud-core==2.5.1
+google-cloud-storage==3.10.1
+google-crc32c==1.8.0
+google-resumable-media==2.8.2
+googleapis-common-protos==1.74.0
+grpcio-reflection==1.78.0
+grpcio==1.78.0
+h11==0.16.0
+hf-xet==1.4.3
+hiredis==3.3.1
+httpcore==1.0.9
+httptools==0.7.1
+httpx-sse==0.4.3
+httpx==0.28.1
+huggingface_hub==0.36.2
+humanize==4.15.0
+idna==3.11
+ijson==3.5.0
+importlib_metadata==8.7.1
+interegular==0.3.3
+isodate==0.7.2
+jiter==0.13.0
+jmespath==1.1.0
+joblib==1.5.3
+jsonschema-specifications==2025.9.1
+jsonschema==4.26.0
+lark==1.2.2
+libnacl==2.1.0
+llguidance==1.3.0
+llvmlite==0.44.0
+lm-format-enforcer==0.11.3
+loguru==0.7.3
+markdown-it-py==4.0.0
+mcp==1.27.0
+mdurl==0.1.2
+mistral_common==1.11.0
+ml_dtypes==0.5.4
+model-hosting-container-standards==0.1.14
+msal-extensions==1.3.1
+msal==1.35.1
+msgspec==0.21.0
+multidict==6.7.1
+multiprocess==0.70.19
+narwhals==2.19.0
+numba==0.61.2
+numpy==2.1.3
+onnx-ir==0.2.0
+onnx==1.19.0
+onnxscript==0.6.2
+onnxslim==0.1.90
+openai-harmony==0.0.8
+openai==2.31.0
+opencv-python-headless==4.13.0.92
+opentelemetry-api==1.40.0
+opentelemetry-exporter-otlp-proto-common==1.40.0
+opentelemetry-exporter-otlp-proto-grpc==1.40.0
+opentelemetry-exporter-otlp-proto-http==1.40.0
+opentelemetry-exporter-otlp==1.40.0
+opentelemetry-proto==1.40.0
+opentelemetry-sdk==1.40.0
+opentelemetry-semantic-conventions-ai==0.5.1
+opentelemetry-semantic-conventions==0.61b0
+outlines_core==0.2.11
+partial-json-parser==0.2.1.1.post7
+peft==0.18.1
+plotly==6.6.0
+prometheus-fastapi-instrumentator==7.1.0
+prometheus_client==0.24.1
+propcache==0.4.1
+proto-plus==1.27.2
+protobuf==6.33.6
+psutil==7.2.2
+pyarrow==23.0.1
+pyasn1==0.6.3
+pyasn1_modules==0.4.2
+pybase64==1.4.3
+pycountry==26.2.16
+pycparser==3.0
+pydantic-extra-types==2.11.2
+pydantic-settings==2.13.1
+pydantic==2.12.5
+pydantic_core==2.41.5
+pytest-asyncio==1.3.0
+python-dotenv==1.2.2
+python-json-logger==4.1.0
+python-multipart==0.0.24
+pyzmq==27.1.0
+redis==7.4.0
+referencing==0.37.0
+regex==2026.4.4
+requests==2.33.1
+rich-toolkit==0.19.7
+rich==14.3.3
+rignore==0.7.6
+rpds-py==0.30.0
+runai-model-streamer-azure==0.15.7
+runai-model-streamer-gcs==0.15.7
+runai-model-streamer-s3==0.15.7
+runai-model-streamer==0.15.7
+s3transfer==0.16.0
+safetensors==0.7.0
+sentencepiece==0.2.1
+sentry-sdk==2.57.0
+setproctitle==1.3.7
+setuptools-scm==10.0.5
+shellingham==1.5.4
+sniffio==1.3.1
+sse-starlette==3.3.4
+starlette==0.52.1
+supervisor==4.3.0
+tensorizer==2.10.1
+tiktoken==0.12.0
+timm==1.0.26
+tokenizers==0.22.2
+transformers==4.57.6
+typer==0.24.1
+typing-inspection==0.4.2
+urllib3==2.6.3
+uvicorn==0.44.0
+uvloop==0.22.1
+vcs-versioning==1.1.1
+watchfiles==1.1.1
+websockets==16.0
+xgrammar==0.1.33
+xxhash==3.6.0
+yarl==1.23.0
+zipp==3.23.0
+zstandard==0.25.0
diff --git a/roll/__init__.py b/roll/__init__.py
index e69de29bb..a874f1fc7 100644
--- a/roll/__init__.py
+++ b/roll/__init__.py
@@ -0,0 +1,11 @@
+# set RAY_DEDUP_LOGS=0 before importing ray
+import os
+os.environ["RAY_DEDUP_LOGS"] = os.getenv("RAY_DEDUP_LOGS", "1")
+
+# Enable deterministic mode if DETERMINISTIC_MODE environment variable is set
+if os.getenv("DETERMINISTIC_MODE", "0") == "1":
+    import torch
+    torch.backends.cudnn.deterministic = True
+    torch.backends.cudnn.benchmark = False
+    torch.use_deterministic_algorithms(True, warn_only=False)
+    print("Deterministic mode enabled")
diff --git a/roll/configs/base_config.py b/roll/configs/base_config.py
index dd918673f..80949874c 100644
--- a/roll/configs/base_config.py
+++ b/roll/configs/base_config.py
@@ -3,15 +3,53 @@
 import sys
 from dataclasses import dataclass, field
 from datetime import datetime
-from typing import Dict, Literal, Optional, Union
+from typing import Dict, Literal, Optional, Union, List
 
-from roll.configs.worker_config import WorkerConfig, is_colocated
-from roll.utils.config_utils import validate_megatron_batch_size, calculate_megatron_dp_size
+from roll.configs.worker_config import WorkerConfig, is_actor_infer_overlapping_with_any_cluster
+from roll.platforms import current_platform
+from roll.utils.config_utils import (calculate_megatron_dp_size,
+                                     validate_megatron_batch_size)
 from roll.utils.logging import get_logger
 
-
 logger = get_logger()
 
+@dataclass
+class RolloutMockConfig:
+    """Configuration for rollout dump/mock mechanism for precision alignment testing."""
+    enable: bool = field(
+        default=False,
+        metadata={"help": "Enable rollout dump/mock mechanism for precision alignment testing"}
+    )
+    mode: Literal["dump", "mock"] = field(
+        default="dump",
+        metadata={"help": "dump: save rollout data, mock: load pre-recorded data"}
+    )
+    dump_dir: str = field(
+        default="./rollout_mock_dumps",
+        metadata={"help": "Storage directory for rollout dump/mock data"}
+    )
+
+@dataclass
+class RouterArguments:
+    router_name: Literal[
+        "PromptAffinityRouter",
+        "EnvAffinityRouter",
+        "SglangRouter",
+    ] = field(
+        default=None,
+        metadata={
+            "help": "The name of the router."
+        },
+    )
+    router_config: Dict = field(
+        default_factory=dict,
+        metadata={"help": "Configuration dictionary for the router."},
+    )
+    max_running_requests: int = field(
+        default=128,
+        metadata={"help": "The maximum number of running requests."}
+    )
+
 @dataclass
 class ScheduleConfig:
     generate_opt_level: int = field(
@@ -35,10 +73,18 @@ class ScheduleConfig:
     max_additional_running_prompts: int = field(
         default=16, metadata={"help": "The additional number of running prompts, beyond batch_size."}
     )
+    user_defined_rollout_loop_cls: str = field(
+        default="roll.distributed.scheduler.user_defined_rollout_loop.UserDefinedRolloutLoop",
+        metadata={"help": "Path to class UserDefinedRolloutLoop."}
+    )
+    router_args: RouterArguments = field(
+        default=None,
+        metadata={"help": "The router configuration, encapsulated in a RouterArguments object."},
+    )
 
 
 @dataclass
-class BaseConfig:
+class BaseConfig(ScheduleConfig):
 
     exp_name: str = field(
         default=os.path.basename(sys.argv[0])[: -len(".py")],
@@ -136,14 +182,31 @@ class BaseConfig:
         default=None,
         metadata={"help": "The maximum length of the sequence to be padded."},
     )
-    alive_check_interval: int = field(
-        default=10,
-        metadata={"help": "The interval of worker alive check."}
-    )
     profiler_timeline: bool = field(default=False, metadata={"help": "Whether to use profiler mode or not."})
     profiler_memory: bool = field(default=False, metadata={"help": "Whether to use profiler memory or not."})
     report_length_and_rewards: bool = field(default=False, metadata={"help": "Whether to report lengths and rewards of prompts in each epoch."})
 
+    is_offload_states: bool = field(
+        default=False,
+        metadata={
+            "help": (
+                "Whether to offload model states to CPU to save GPU memory. "
+                "Models will be offloaded after each operation and reloaded before the next one. "
+                "Reduces GPU memory usage at the cost of CPU-GPU transfer overhead."
+            )
+        }
+    )
+    is_offload_optimizer_states_in_train_step: bool = field(
+        default=False,
+        metadata={
+            "help": (
+                "Whether to offload optimizer states to CPU during training to save GPU memory. "
+                "Optimizer states will be offloaded during forward/backward and reloaded for optimizer step. "
+                "Reduces GPU memory usage at the cost of CPU-GPU transfer overhead."
+            )
+        }
+    )
+
     length_profiler_dir: str = field(
         default='./output/profiler',
         metadata={"help": "directory to write length and rewards metric of prompts"}
@@ -156,6 +219,10 @@ class BaseConfig:
         default_factory=dict,
         metadata={"help": "system environment variables."}
     )
+    model_update_buffer_size_mb: int = field(
+        default=1024,
+        metadata={"help": "Buffer size in MB for model update operations (e.g., 1024 = 1GB)."}
+    )
     num_nodes: int = field(
         default=1,
         metadata={"help": "Number of nodes available for distributed training."}
@@ -172,6 +239,10 @@ class BaseConfig:
         default=None,
         metadata={"help": "snapshot_download func source type, such as MODELSCOPE, HUGGINGFACE_HUB."},
     )
+    rollout_mock: Optional[RolloutMockConfig] = field(
+        default=None,
+        metadata={"help": "Rollout mock configuration for precision alignment testing."}
+    )
 
 
     def to_dict(self):
@@ -251,6 +322,15 @@ def __post_init__(self):
         from ..platforms import current_platform
         self.num_gpus_per_node = current_platform.device_count()
 
+        if hasattr(self, 'actor_train') and isinstance(self.actor_train, WorkerConfig):
+            self.actor_train.system_envs.update({k: v for k, v in self.system_envs.items() if k not in self.actor_train.system_envs})
+        if hasattr(self, 'actor_infer') and isinstance(self.actor_infer, WorkerConfig):
+            self.actor_infer.system_envs.update({k: v for k, v in self.system_envs.items() if k not in self.actor_infer.system_envs})
+        if hasattr(self, 'reference') and isinstance(self.reference, WorkerConfig):
+            self.reference.system_envs.update({k: v for k, v in self.system_envs.items() if k not in self.reference.system_envs})
+        if hasattr(self, 'critic') and isinstance(self.critic, WorkerConfig):
+            self.critic.system_envs.update({k: v for k, v in self.system_envs.items() if k not in self.critic.system_envs})
+
         # Validate rollout_batch_size divisibility for Megatron data parallelism
         if hasattr(self, 'actor_train') and isinstance(self.actor_train, WorkerConfig) and self.actor_train.strategy_args is not None:
             strategy_name = self.actor_train.strategy_args.strategy_name
@@ -271,6 +351,15 @@ def __post_init__(self):
                     f"Skipping DP validation for non-Megatron actor_train strategy: {strategy_name}"
                 )
 
+        if hasattr(self, 'actor_infer') and isinstance(self.actor_infer, WorkerConfig) and self.actor_infer.strategy_args is not None:
+            strategy_name = self.actor_infer.strategy_args.strategy_name
+            assert strategy_name in ["vllm", "sglang"]
+            # Use max_running_requests+1 to reserve extra one for abort_requests.
+            # 1000 is ray_constants.DEFAULT_MAX_CONCURRENCY_ASYNC.
+            max_concurrency = max(self.max_running_requests + 1, 1000)
+            self.actor_infer.max_concurrency = max(self.actor_infer.max_concurrency, max_concurrency)
+            logger.info(f"Set max_concurrency of actor_infer to {self.actor_infer.max_concurrency}")
+
         # the required num nodes
         total_devices = []
         for attribute_name in dir(self):
@@ -293,18 +382,62 @@ def set_max_steps(self, max_steps: int):
                 if hasattr(attribute, "training_args"):
                     setattr(attribute.training_args, "max_steps", max_steps)
 
-    def validate_worker_config(self):
-        # check if current worker supports sequence packing
-        allowed_names = {
-            'student', 'teacher', 'sft_train',
-        }
-        for attr_name in dir(self):
-            attr = getattr(self, attr_name)
-            if isinstance(attr, WorkerConfig) and attr.use_sequence_packing:
-                if attr.name not in allowed_names:
-                    raise ValueError(
-                        f"Worker '{attr.name}' (from field '{attr_name}') don't support use sequence packing now"
-                    )
+@dataclass
+class TrainInferISWeightConfig:
+    enabled: bool = field(
+        default=False,
+        metadata={"help": "Whether to generate train-infer IS weight and store it into batch (train_infer_is_weight)."},
+    )
+    weight_type: Literal["token", "segment", "geometric", "sequence"] = field(
+        default="token",
+        metadata={"help": "Granularity for IS weight: token / segment / geometric / sequence."},
+    )
+    upper_bound: Optional[float] = field(
+        default=1.2,
+        metadata={"help": "Upper bound (clamp) for IS weight. Set to None to disable clamping."},
+    )
+    detach: bool = field(
+        default=True,
+        metadata={"help": "Detach IS weight tensor to prevent gradient flow (recommended)."},
+    )
+
+
+@dataclass
+class TrainInferFilterConfig:
+    enabled: bool = field(
+        default=False,
+        metadata={"help": "Whether to enable this filter rule (applied to response_mask)."},
+    )
+    agg_type: Literal["token", "segment", "geometric", "sequence"] = field(
+        default="token",
+        metadata={"help": "Aggregation level used for filtering: token / segment / geometric / sequence."},
+    )
+
+    ratio_enabled: bool = field(
+        default=True,
+        metadata={"help": "Whether to apply ratio-based filtering (exp(old_logp - infer_logp))."},
+    )
+    ratio_low: float = field(default=0.8, metadata={"help": "Lower threshold for ratio filtering."})
+    ratio_high: float = field(default=1.2, metadata={"help": "Upper threshold for ratio filtering."})
+
+    diff_enabled: bool = field(
+        default=False,
+        metadata={"help": "Whether to apply diff-based filtering (exp(old) - exp(infer))."},
+    )
+    diff_low: float = field(default=-0.2, metadata={"help": "Lower threshold for diff filtering."})
+    diff_high: float = field(default=0.2, metadata={"help": "Upper threshold for diff filtering."})
+
+
+@dataclass
+class TrainInferCorrectionConfig:
+    is_weight: TrainInferISWeightConfig = field(
+        default_factory=TrainInferISWeightConfig,
+        metadata={"help": "Config for generating train-infer IS weight (stored in batch)."},
+    )
+    filters: List[TrainInferFilterConfig] = field(
+        default_factory=list,
+        metadata={"help": "A list of filter rules applied sequentially to response_mask."},
+    )
 
 @dataclass
 class PPOConfig(BaseConfig):
@@ -325,6 +458,7 @@ class PPOConfig(BaseConfig):
     reference: WorkerConfig = field(
         default_factory=WorkerConfig, metadata={"help": "Configuration for the reference role."}
     )
+    reward: WorkerConfig = field(default_factory=WorkerConfig, metadata={"help": "Configuration for reward inference."})
 
     async_generation_ratio: float = field(
         default=0,
@@ -405,8 +539,62 @@ class PPOConfig(BaseConfig):
     enable_old_logprobs_recompute: bool = field(default=False, metadata={"help": "Enable old_logprobs computation optimization for disable caching"})
     force_disable_old_logprobs_recompute: bool = field(default=False, metadata={"help": "Force disable old_logprobs computation optimization for disable caching, priority is higher than enable_old_logprobs_recompute"})
 
+    train_infer_correction: TrainInferCorrectionConfig = field(
+        default_factory=TrainInferCorrectionConfig,
+        metadata={
+            "help": (
+                "Train-infer correction config for off-policy/mismatch handling. "
+                "Pipeline will compute train_infer_is_weight from old_log_probs vs infer_logprobs "
+                "and optionally apply filters to response_mask."
+            )
+        },
+    )
+
+    # OPD (On-Policy Distillation) Configuration
+    pure_opd_pipeline_type: Literal["rlvr", "agentic"] = field(
+        default="rlvr",
+        metadata={"help": "Pipeline type for pure On-Policy Distillation. Used by start_onpolicy_distill_pipeline.py "
+                 "to determine which config class and pipeline to use. "
+                 "'rlvr': RLVRConfig + RLVRPipeline, 'agentic': AgenticConfig + AgenticPipeline"}
+    )
+    teacher: WorkerConfig = field(
+        default_factory=WorkerConfig,
+        metadata={"help": "Configuration for the teacher role (used in OPD mode). "
+                 "When is_pure_opd=True or use_opd=True, teacher is automatically mapped to reference."}
+    )
+    student_train: WorkerConfig = field(
+        default_factory=WorkerConfig,
+        metadata={"help": "Configuration for the student training role (used in OPD mode). "
+                 "When configured, student_train is mapped to actor_train."}
+    )
+    student_infer: WorkerConfig = field(
+        default_factory=WorkerConfig,
+        metadata={"help": "Configuration for the student inference role (used in OPD mode). "
+                 "When configured, student_infer is mapped to actor_infer."}
+    )
+    is_pure_opd: bool = field(
+        default=False,
+        metadata={"help": "Enable pure On-Policy Distillation mode. "
+                 "In this mode, rewards come entirely from Teacher KL divergence. "
+                 "Automatically sets: gamma=0, adv_estimator='reinforce', critic_warmup=0. "
+                 "This is set by start_onpolicy_distill_pipeline.py automatically."}
+    )
+    use_opd: bool = field(
+        default=False,
+        metadata={"help": "Enable mixed OPD mode: add OPD KL penalty to token_level_reward. "
+                 "This allows combining RL reward with distillation signal. "
+                 "The OPD KL is computed as: reverse_kl = student_logp - teacher_logp, "
+                 "and added to token_level_rewards as: reward - opd_kl_coef * reverse_kl"}
+    )
+    opd_kl_coef: float = field(
+        default=1.0,
+        metadata={"help": "Coefficient for OPD KL penalty when use_opd=True. "
+                 "Controls the weight of distillation signal relative to RL reward."}
+    )
+
     def __post_init__(self):
         super().__post_init__()
+        assert self.async_generation_ratio == 0 or self.generate_opt_level == 1
 
         if (
             self.actor_train.model_args.model_name_or_path is None
@@ -433,11 +621,83 @@ def __post_init__(self):
             self.enable_reference = True
         if self.force_disable_old_logprobs_recompute:
             self.enable_old_logprobs_recompute = False
+        elif self.adv_estimator in ['step_reinforce', "gigpo"]:
+            self.enable_old_logprobs_recompute = True
         else:
             self.set_old_logprobs_status()
 
         logger.info(f"enable_old_logprobs_recompute: {self.enable_old_logprobs_recompute}\tenable_reference: {self.enable_reference}")
 
+    def _handle_opd_mapping(self):
+        """
+        Handle OPD (On-Policy Distillation) mode configuration mapping.
+
+        Pure OPD mode (is_pure_opd=True):
+        - Requires: student_train, student_infer, teacher
+        - Forbidden: reference
+        - Mapping: student_train → actor_train, student_infer → actor_infer, teacher → reference
+
+        Mixed OPD mode (use_opd=True):
+        - Requires: teacher
+        - Forbidden: reference
+        - Mapping: teacher → reference only
+        - actor_train/actor_infer are configured normally by user
+
+        This method is called at the beginning of __post_init__ before normal PPO initialization.
+        """
+        has_student_train = self.student_train.is_configured
+        has_student_infer = self.student_infer.is_configured
+        has_teacher = self.teacher.is_configured
+        has_reference_configured = self.reference.is_configured
+
+        # Mutual exclusion check
+        if self.is_pure_opd and self.use_opd:
+            raise ValueError(
+                "is_pure_opd=True and use_opd=True are mutually exclusive. "
+                "Use is_pure_opd=True for pure OPD mode (rewards from Teacher KL only), "
+                "or use_opd=True for mixed mode (external rewards + Teacher KL)."
+            )
+
+        # ========== Pure OPD mode ==========
+        if self.is_pure_opd:
+            # Validation: all student fields and teacher must be configured
+            if not (has_student_train and has_student_infer and has_teacher):
+                raise ValueError(
+                    "In pure OPD mode (is_pure_opd=True), 'student_train', 'student_infer' "
+                    "and teacher must be configured.\n"
+                )
+
+            # Perform mapping for pure OPD
+            logger.info(f"Pure OPD mode: mapping student_train to actor_train")
+            self.actor_train = self.student_train
+            logger.info(f"Pure OPD mode: mapping student_infer to actor_infer")
+            self.actor_infer = self.student_infer
+            logger.info(f"Pure OPD mode: mapping teacher to reference")
+            self.reference = self.teacher
+
+            # Enable reference for OPD mode (needed for both pure and mixed mode)
+            self.enable_reference = True
+
+        # ========== Mixed OPD mode ==========
+        elif self.use_opd:
+            # Validation: teacher must be configured, reference should NOT be configured
+            if not has_teacher:
+                raise ValueError(
+                    "In mixed OPD mode (use_opd=True), 'teacher' must be configured.\n"
+                )
+            if has_reference_configured:
+                raise ValueError(
+                    "In mixed OPD mode (use_opd=True), 'reference' should NOT be configured. "
+                )
+
+            # Perform mapping for mixed OPD (only teacher → reference)
+            logger.info(f"Mixed OPD mode: mapping teacher to reference")
+            self.reference = self.teacher
+            # Note: actor_train and actor_infer are configured normally by user
+
+            # Enable reference for OPD mode (needed for both pure and mixed mode)
+            self.enable_reference = True
+
     def set_max_steps(self, max_steps: int):
         actor_backward_batch_size = (
             self.actor_train.training_args.per_device_train_batch_size
@@ -448,23 +708,33 @@ def set_max_steps(self, max_steps: int):
             * self.critic.training_args.gradient_accumulation_steps
         )
         # 没有除dp_size，需要在分布式环境初始化后再除
-        self.actor_train.training_args.max_steps = max_steps * (
-            self.rollout_batch_size
+        # 先计算总的训练步数，最后再除以 backward_batch_size
+        self.actor_train.training_args.max_steps = max(1, (
+            max_steps
+            * self.rollout_batch_size
             * self.actor_infer.generating_args.num_return_sequences
             * self.ppo_epochs
             // actor_backward_batch_size
-        )
-        self.critic.training_args.max_steps = max_steps * (
-            self.rollout_batch_size
+        ))
+        self.critic.training_args.max_steps = max(1, (
+            max_steps
+            * self.rollout_batch_size
             * self.actor_infer.generating_args.num_return_sequences
             // critic_backward_batch_size
-        )
+        ))
 
         logger.info(f"pipeline max_steps: {self.max_steps} to {max_steps}")
         logger.info(f"actor train max_steps without dp_size: {self.actor_train.training_args.max_steps}")
         logger.info(f"critic train max_steps without dp_size: {self.critic.training_args.max_steps}")
         self.max_steps = max_steps
 
+    def _get_effective_cp_size_ulysses(self, configured_ulysses_size: Optional[int]) -> int:
+        if not configured_ulysses_size or configured_ulysses_size <= 1:
+            return 1
+        if current_platform.apply_ulysses_patch() is not None:
+            return configured_ulysses_size
+        return 1
+
     def set_old_logprobs_status(self):
         batch_size = self.rollout_batch_size * self.actor_infer.generating_args.num_return_sequences
         actor_backward_batch_size = (
@@ -474,7 +744,13 @@ def set_old_logprobs_status(self):
         dp_size = 1
         if self.actor_train.strategy_args is not None:
             if self.actor_train.strategy_args.strategy_name == "deepspeed_train":
-                dp_size = len(self.actor_train.device_mapping)
+                configured_ulysses_size = getattr(self.actor_train.model_args, 'ulysses_size', None) or 1
+                cp_size = self._get_effective_cp_size_ulysses(configured_ulysses_size)
+                dp_size = len(self.actor_train.device_mapping) // cp_size
+            elif self.actor_train.strategy_args.strategy_name in ("fsdp2_train", "fsdp2_infer"):
+                configured_ulysses_size = getattr(self.actor_train.model_args, 'ulysses_size', None) or 1
+                cp_size = self._get_effective_cp_size_ulysses(configured_ulysses_size)
+                dp_size = len(self.actor_train.device_mapping) // cp_size
             elif self.actor_train.strategy_args.strategy_name == "megatron_train":
                 strategy_config = self.actor_train.strategy_args.strategy_config
                 tp = strategy_config.get('tensor_model_parallel_size', 1)
@@ -504,6 +780,55 @@ def async_pipeline(self) -> bool:
         return self.async_generation_ratio > 0
 
     @property
-    def is_train_infer_colocated(self) -> bool:
-        """Whether actor_train and actor_infer are colocated."""
-        return is_colocated(self.actor_train, self.actor_infer)
+    def is_actor_infer_colocated(self) -> bool:
+        """Whether actor_infer are colocated with any other clusters (exclude reward)."""
+        return is_actor_infer_overlapping_with_any_cluster(
+            actor_infer=self.actor_infer,
+            actor_train=self.actor_train,
+            reference=self.reference,
+            critic=self.critic
+        )
+
+    def _apply_opd_config(self):
+        """
+        Apply OPD-specific parameter overrides.
+
+        This method should be called at the end of __post_init__ in subclasses
+        (RLVRConfig, AgenticConfig) to apply OPD-specific settings.
+
+        Note: The mapping of student_*/teacher to actor_*/reference is already
+        handled by _handle_opd_mapping(). This method only applies OPD-specific
+        parameter overrides like gamma, adv_estimator, etc.
+
+        This method handles both pure OPD mode (is_pure_opd=True)
+        and mixed OPD mode (use_opd=True).
+        """
+        # Pure OPD mode specific settings
+        if self.is_pure_opd:
+            # Set worker names for OPD mode (override default names for both modes)
+            self.actor_train.name = "student_train"
+            self.actor_infer.name = "student_infer"
+            self.reference.name = "teacher"
+
+            # gamma=0: OPD's token_level_rewards has KL penalty at every token
+            # If gamma=1, compute_reinforce_return will accumulate KL values across entire sequence
+            self.gamma = 0
+
+            # Use reinforce as default advantage estimator (no GAE, no critic needed)
+            logger.warning("Pure OPD mode: set adv_estimator as 'reinforce'")
+            self.adv_estimator = "reinforce"
+
+            # No critic warmup needed (reinforce doesn't use critic)
+            self.critic_warmup = 0
+
+            # Disable KL loss (OPD handles KL through token_level_rewards)
+            self.use_kl_loss = False
+            self.add_token_level_kl = False
+
+            logger.info(f"Pure OPD mode configured: gamma={self.gamma}, adv_estimator={self.adv_estimator}")
+
+        # Mixed OPD mode doesn't need parameter overrides
+        elif self.use_opd:
+            # Set worker names for OPD mode (override default names for both modes)
+            self.reference.name = "teacher"
+            logger.info(f"Mixed OPD mode configured: opd_kl_coef={self.opd_kl_coef}")
diff --git a/roll/configs/data_args.py b/roll/configs/data_args.py
index 54ff17a87..921ecd089 100644
--- a/roll/configs/data_args.py
+++ b/roll/configs/data_args.py
@@ -36,7 +36,6 @@ class DataArguments:
     id: Optional[str] = field(default="id", metadata={"help": "Which column in file to use as id"})
     prompt: Optional[str] = field(default=None, metadata={"help": "Which column in file to use as prompt"})
     response: Optional[str] = field(default="solution", metadata={"help": "Which column in file to use as label"})
-    # image: Optional[str] = field(default='image', metadata={"help": "Which column in file to use as image"})
     messages: Optional[str] = field(default=None, metadata={"help": "Which column in file to use as messages"})
 
     def __post_init__(self):
diff --git a/roll/configs/generating_args.py b/roll/configs/generating_args.py
index 68cf88d17..848ce7af3 100644
--- a/roll/configs/generating_args.py
+++ b/roll/configs/generating_args.py
@@ -58,6 +58,10 @@ class GeneratingArguments:
         default=None,
         metadata={"help": "Whether to include the stop strings in output text."},
     )
+    logprobs: Optional[int] = field(
+        default=0,
+        metadata={"help": "The number of logprobs to return. Set None to not return logprobs."},
+    )
 
     def to_dict(self) -> Dict[str, Any]:
         args = asdict(self)
diff --git a/roll/configs/model_args.py b/roll/configs/model_args.py
index ce300250a..c9b8b8446 100644
--- a/roll/configs/model_args.py
+++ b/roll/configs/model_args.py
@@ -17,6 +17,14 @@ class LoraArguments:
             "help": "Name(s) of modules apart from LoRA layers to be set as trainable and saved in the final checkpoint."
         },
     )
+    autocast_adapter_dtype: bool = field(
+        default=True,
+        metadata={
+            "help": "Whether to autocast the adapter dtype. Defaults to `True`. Right now, "
+            "this will only cast adapter weights using float16 or bfloat16 to float32, "
+            "as this is typically required for stable training, and only affect select PEFT tuners."
+        },
+    )
     lora_alpha: Optional[int] = field(
         default=None,
         metadata={"help": "The scale factor for LoRA fine-tuning (default: lora_rank * 2)."},
@@ -69,17 +77,26 @@ class ModelArguments(LoraArguments):
         default=False,
         metadata={"help": "Whether or not to disable gradient checkpointing."},
     )
+    gradient_checkpointing_use_reentrant: Optional[bool] = field(
+        default=None,
+        metadata={
+            "help": (
+                "Gradient checkpointing implementation toggle for torch.utils.checkpoint.\n"
+                "- None (default): auto (use reentrant=True for MoE models; otherwise False)\n"
+            )
+        },
+    )
     device_map: Optional[str] = field(
         default="balanced", metadata={"help": "transformer's from_pretrained device map"}
     )
     dtype: Optional[Literal["fp32", "bf16", "fp16"]] = field(
         default="bf16", metadata={"help": "Set model dtype as fp32, bf16, or fp16, otherwise use config's torch_dtype"}
     )
-    model_type: Optional[Literal["auto_sequence_classification", "auto_token_classification", "trl", "diffusion_module"]] = field(
+    model_type: Optional[
+        Literal["auto_sequence_classification", "auto_token_classification", "trl", "diffusion_module"]
+    ] = field(
         default=None,
-        metadata={
-            "help": "reward model type."
-        },
+        metadata={"help": "reward model type."},
     )
     num_labels: Optional[int] = field(
         default=1,
@@ -100,9 +117,7 @@ class ModelArguments(LoraArguments):
     )
     ulysses_size: Optional[int] = field(
         default=1,
-        metadata={
-            "help": "The group size for Ulysses attention."
-        },
+        metadata={"help": "The group size for Ulysses attention."},
     )
 
     def __post_init__(self):
diff --git a/roll/configs/training_args.py b/roll/configs/training_args.py
index 4b7ad2661..92f1d81e3 100644
--- a/roll/configs/training_args.py
+++ b/roll/configs/training_args.py
@@ -92,6 +92,10 @@ class TrainingArguments:
         metadata={"help": "Linear warmup over warmup_ratio fraction of total steps."}
     )
     warmup_steps: int = field(default=0, metadata={"help": "Linear warmup over warmup_steps."})
+    save_hf_model: bool = field(
+        default=False,
+        metadata={"help": "Save model as hf format."}
+    )
 
     def get_warmup_steps(self, num_training_steps: int):
         """
diff --git a/roll/configs/worker_config.py b/roll/configs/worker_config.py
index 0c7c9ea12..65aafa63b 100644
--- a/roll/configs/worker_config.py
+++ b/roll/configs/worker_config.py
@@ -4,24 +4,75 @@
 from roll.configs import DataArguments, GeneratingArguments, ModelArguments
 from roll.configs.training_args import TrainingArguments
 from roll.utils.logging import get_logger
-
-
 logger = get_logger()
 
 
 @dataclass
 class StrategyArguments:
     strategy_name: Literal[
-        "deepspeed_train", "hf_infer", "deepspeed_infer", "vllm", "sglang", "megatron_infer", "megatron_train", "mock_infer", "diffusion_deepspeed_train"
+        "deepspeed_train",
+        "hf_infer",
+        "deepspeed_infer",
+        "vllm",
+        "sglang",
+        "megatron_infer",
+        "megatron_train",
+        "diffusion_deepspeed_train",
+        "fsdp2_train",
+        "fsdp2_infer",
     ] = field(
         default="deepspeed_train",
         metadata={
-            "help": "The name of the strategy. Options: 'deepspeed_train', 'diffusion_deepspeed_train', 'hf_infer', 'deepspeed_infer', 'mock_infer', 'vllm', 'sglang', "
-            "'megatron_infer', 'megatron_train'."
+            "help": "The name of the strategy. Options: 'deepspeed_train', 'diffusion_deepspeed_train', 'hf_infer', 'deepspeed_infer', 'vllm', 'sglang', "
+            "'megatron_infer', 'megatron_train', 'fsdp2_train', 'fsdp2_infer'."
         },
     )
     strategy_config: Optional[Dict] = field(
-        default_factory=dict, metadata={"help": "Configuration dictionary for the strategy."}
+        default_factory=dict,
+        metadata={"help": "Configuration dictionary for the strategy."},
+    )
+
+    def __post_init__(self):
+        # Ensure strategy_config is always a dict, even when YAML sets it to null (~)
+        if self.strategy_config is None:
+            self.strategy_config = {}
+
+@dataclass
+class SequencePackingConfig:
+    algorithm: str = field(
+        default="none",
+        metadata={"help": "Sequence packing algorithm: 'none' (default partitioning) or 'load_balance' "
+                          "(redistribute sentences across microbatches for better load balancing). "
+                          "Note: 'load_balance' requires proper loss scaling as microbatches contain "
+                          "different numbers of sentences."}
+    )
+
+    max_packed_sequence_length_forward: int = field(
+        default=None,
+        metadata={"help": "Maximum sequence length after packing sentences in a microbatch during inference. "
+                          "With context parallelism enabled, each CP rank handles "
+                          "max_packed_sequence_length_forward // cp_size."}
+    )
+
+    max_packed_sequence_length_train: int = field(
+        default=None,
+        metadata={"help": "Maximum sequence length after packing sentences in a microbatch during training. "
+                          "With context parallelism enabled, each CP rank handles "
+                          "max_packed_sequence_length_train // cp_size."}
+    )
+
+    min_num_micro_batches_forward: int = field(
+        default=1,
+        metadata={"help": "Minimum number of microbatches per mini-batch during inference. "
+                          "Used with 'load_balance' algorithm to control samples per microbatch "
+                          "and memory usage."}
+    )
+
+    min_num_micro_batches_train: int = field(
+        default=1,
+        metadata={"help": "Minimum number of microbatches per mini-batch (per gradient update) during training. "
+                          "Used with 'load_balance' algorithm to control samples per microbatch "
+                          "and memory usage."}
     )
 
 
@@ -31,13 +82,10 @@ class WorkerConfig:
         default=None,
         metadata={"help": "name of this role."},
     )
-    worker_cls: Optional[str] = field(
-        default=None,
-        metadata={"help": "The class of the worker."}
-    )
+    worker_cls: Optional[str] = field(default=None, metadata={"help": "The class of the worker."})
     pg_variant: Optional[str] = field(
         default=None,
-        metadata={"help": "The variant of the policy gradient."}
+        metadata={"help": "The variant of the policy gradient."},
     )
     model_args: ModelArguments = field(
         default_factory=ModelArguments,
@@ -45,23 +93,21 @@ class WorkerConfig:
     )
     training_args: TrainingArguments = field(
         default_factory=TrainingArguments,
-        metadata={"help": "Training-related arguments."}
+        metadata={"help": "Training-related arguments."},
     )
     data_args: DataArguments = field(
         default=None,
-        metadata={"help": "Data-related arguments; optional and can be None."}
+        metadata={"help": "Data-related arguments; optional and can be None."},
     )
     generating_args: GeneratingArguments = field(
         default=None,
-        metadata={"help": "Arguments for generating output; optional and can be None."}
+        metadata={"help": "Arguments for generating output; optional and can be None."},
     )
     strategy_args: StrategyArguments = field(
         default=None,
-        metadata={"help": "The strategy configuration, encapsulated in a StrategyArguments object."}
+        metadata={"help": "The strategy configuration, encapsulated in a StrategyArguments object."},
     )
-    world_size: int = field(
-        default=None,
-        metadata={"help": "The number of role clusters."})
+    world_size: int = field(default=None, metadata={"help": "The number of role clusters."})
     device_mapping: Union[List[int], str] = field(
         default=None,
         metadata={
@@ -70,49 +116,33 @@ class WorkerConfig:
             "If device_mapping is None, the worker uses cpu only."
         },
     )
-    num_gpus_per_worker: int = field(
-        default=1,
-        metadata={"help": "The number of gpu per worker."}
-    )
-    model_update_frequency: int = field(
-        default=1,
-        metadata={"help": "Frequency of model updates."}
-    )
-    model_update_method: Literal["nccl", "rpc"] = field(
-        default="nccl",
-        metadata={
-            "help": "The method of model updates. Options: 'nccl', 'rpc', rpc only for RTP recently."
-        },
-    )
-    infer_batch_size: int = field(
-        default=16,
-        metadata={"help": "Batch size for inference."}
-    )
+    num_gpus_per_worker: int = field(default=1, metadata={"help": "The number of gpu per worker."})
+    model_update_frequency: int = field(default=1, metadata={"help": "Frequency of model updates."})
+    infer_batch_size: int = field(default=16, metadata={"help": "Batch size for inference."})
     backend_timeout: int = field(
         default=30,
-        metadata={"help": "minutes for dist backend communicating."}
+        metadata={"help": "minutes for dist backend communicating."},
     )
     system_envs: dict = field(
         default_factory=dict,
-        metadata={"help": "system environment variables for this worker."}
+        metadata={"help": "system environment variables for this worker."},
     )
     topr_positive_weight: float = field(
         default=1.0,
-        metadata={"help": "Weight for positive samples in TOPR loss."}
+        metadata={"help": "Weight for positive samples in TOPR loss."},
     )
     topr_negative_weight: float = field(
         default=1.0,
-        metadata={"help": "Weight for negative samples in TOPR loss."}
-    )
-    use_remove_padding: bool = field(
-        default=False,
-        metadata={"help": "Remove tail padding token in a micro batch, don't pack sequences(different from verl). must set `variable_seq_lengths` for megatron."}
+        metadata={"help": "Weight for negative samples in TOPR loss."},
     )
+    max_concurrency: int = field(default=1, metadata={"help": "max_concurrency of this Ray Actor"})
 
     use_dynamic_batching_in_train: bool = field(
         default=False,
-        metadata={"help": "Dynamic batching is a feature designed to group sequences of similar lengths into batches, "
-                          "minimizing padding and improving computational and memory efficiency."}
+        metadata={
+            "help": "Dynamic batching is a feature designed to group sequences of similar lengths into batches, "
+            "minimizing padding and improving computational and memory efficiency."
+        },
     )
     max_tokens_per_microbatch_in_train: int = field(
         default=0,
@@ -122,38 +152,77 @@ class WorkerConfig:
                 "This config must be set when using dynamic batching. "
                 "Recommended value: sequence_length × 2 × micro_batch_size."
             )
-        }
+        },
     )
-    sequence_length_round_in_train:int = field(
+    sequence_length_round_in_train: int = field(
         default=4,
-        metadata={"help": "The value to round up to when truncating the sequence length."
-                          "Note: This config must be set when using dynamic batching."}
+        metadata={
+            "help": "The value to round up to when truncating the sequence length."
+            "Note: This config must be set when using dynamic batching."
+        },
     )
     use_dynamic_batching_in_infer: bool = field(
         default=False,
-        metadata={"help": "Dynamic batching is a feature designed to group sequences of similar lengths into batches, "
-                          "minimizing padding and improving computational and memory efficiency."}
+        metadata={
+            "help": "Dynamic batching is a feature designed to group sequences of similar lengths into batches, "
+            "minimizing padding and improving computational and memory efficiency."
+        },
     )
-    max_tokens_per_microbatch_in_infer:int = field(
+    max_tokens_per_microbatch_in_infer: int = field(
         default=None,
-        metadata={"help": "Set the maximum number of tokens for each micro-batch. "
-                          "Note: This config must be set when using dynamic batching."}
+        metadata={
+            "help": "Set the maximum number of tokens for each micro-batch. "
+            "Note: This config must be set when using dynamic batching."
+        },
     )
-    sequence_length_round_in_infer:int = field(
+    sequence_length_round_in_infer: int = field(
         default=4,
-        metadata={"help": "The value to round up to when truncating the sequence length."
-                          "Note: This config must be set when using dynamic batching."}
+        metadata={
+            "help": "The value to round up to when truncating the sequence length."
+            "Note: This config must be set when using dynamic batching."
+        },
     )
     offload_nccl: bool = field(
         default=False,
-        metadata={"help": "Whether offload nccl buffer to save gpu memory."}
+        metadata={"help": "Whether offload nccl buffer to save gpu memory."},
     )
 
     # sequence packing
     use_sequence_packing: bool = field(
         default=False,
-        metadata={"help": "Concatenates multiple sequences into a single “packed” sequence, eliminating most padding. "
-                          "Only supported in the megatron strategy"}
+        metadata={
+            "help": "Concatenates multiple sequences into a single “packed” sequence, eliminating most padding. "
+            "Only supported in the megatron strategy"
+        },
+    )
+
+    sequence_packing_args: SequencePackingConfig = field(
+        default_factory= SequencePackingConfig,
+        metadata={
+            "help": "Sequence packing related arguments "
+        }
+    )
+
+
+    logits_in_fp32: bool = field(
+        default=True,
+        metadata={
+            "help": "Force logits dtype to Float"
+        }
+    )
+
+    apply_loss_scale: bool = field(
+        default=True,
+        metadata={
+            "help": (
+                "Whether to multiply the aggregated loss by the global loss_scale (typically the total number of "
+                "micro-batches in a global step, i.e., DP×GA) to cancel the backend’s default gradient-mean behavior "
+                "under Data Parallel + Gradient Accumulation. This restores a sum-over-microbatches semantics so the "
+                "resulting gradients are equivalent to computing the loss on the full global batch at once with the "
+                "global denominator (especially important with variable-length inputs/sequence packing). Disable only "
+                "if you already apply an equivalent scaling elsewhere or your backend does not average across DP/GA."
+            )
+        }
     )
 
     def __post_init__(self):
@@ -187,21 +256,45 @@ def __post_init__(self):
         self.resource_placement_groups: Optional[List[Dict]] = None
         self.checkpoint_config: Optional[Dict] = None
 
+        # Flag to indicate if this worker is configured (has GPU or model path)
+        has_gpu = bool(self.device_mapping)
+        has_model = self.model_args is not None and self.model_args.model_name_or_path is not None
+        self.is_configured: bool = has_gpu or has_model
+
         if hasattr(self, "model_args"):
             if self.model_args.dtype == "bf16":
                 self.training_args.bf16 = True
             elif self.model_args.dtype == "fp16":
                 self.training_args.fp16 = True
 
-def is_colocated(actor_train: WorkerConfig, actor_infer: WorkerConfig):
-    train_devices = set(actor_train.device_mapping or [])
+
+
+def is_actor_infer_overlapping_with_any_cluster(actor_infer: WorkerConfig, actor_train: WorkerConfig = None, reference: WorkerConfig = None, critic: WorkerConfig = None) -> bool:
+    """
+    Check if actor_infer overlaps with ANY of the provided clusters.
+
+    Args:
+        actor_infer: The actor_infer WorkerConfig
+        actor_train: The actor_train WorkerConfig (optional)
+        reference: The reference WorkerConfig (optional)
+        critic: The critic WorkerConfig (optional)
+
+    Returns:
+        True if actor_infer overlaps with any provided cluster, False otherwise
+    """
     infer_devices = set(actor_infer.device_mapping or [])
-    if train_devices.issuperset(infer_devices):
-        return True
-    if train_devices.intersection(infer_devices):
-        # TODO: raise here
-        # raise ValueError(
-        #     f"train and infer share some devices, but train not cover infer. {train_devices=} {infer_devices=}"
-        # )
-        return False
+
+    clusters = {
+        'actor_train': actor_train,
+        'reference': reference,
+        'critic': critic
+    }
+
+    for cluster_name, cluster_config in clusters.items():
+        if cluster_config is not None:
+            cluster_devices = set(cluster_config.device_mapping or [])
+            if infer_devices.intersection(cluster_devices):
+                return True
+
     return False
+
diff --git a/roll/datasets/chat_template.py b/roll/datasets/chat_template.py
index 8314c99bf..a454d1dd2 100644
--- a/roll/datasets/chat_template.py
+++ b/roll/datasets/chat_template.py
@@ -48,15 +48,6 @@ def qwen3_chat_template(tokenizer: "PreTrainedTokenizer", conversation, tools=No
     kwargs["enable_thinking"] = True
     return tokenizer.apply_chat_template(conversation, tools, documents, **kwargs)
 
-@register_chat_template("qwen2_5_dpo")
-def dpo_chat_template(tokenizer: "PreTrainedTokenizer", conversation, tools=None, documents=None, **kwargs):
-    kwargs["tokenize"] = False
-
-    # Disable generation prompt ('<|assistant|>') to avoid redundant tokens in DPO training
-    kwargs["add_generation_prompt"] = kwargs.get("add_generation_prompt", False)
-
-    return tokenizer.apply_chat_template(conversation, tools, documents, **kwargs)
-
 # TODO: change template name ?
 @register_chat_template("chatml")
 def chatml_chat_template(tokenizer: "PreTrainedTokenizer", conversation, tools=None, documents=None, **kwargs):
diff --git a/roll/datasets/collator.py b/roll/datasets/collator.py
index 8eba22ac1..47e3f6bb5 100644
--- a/roll/datasets/collator.py
+++ b/roll/datasets/collator.py
@@ -119,12 +119,19 @@ class DataCollatorWithPaddingForMM:
     answer_key: Optional[str] = "ground_truth"
     image_key: Optional[str] = "image"
     image_flag_key: Optional[str] = "image_flag"
+    video_key: Optional[str] = "video"
+    video_flag_key: Optional[str] = "video_flag"
+    image_placeholder: Optional[str] = None
+    image_token: str = "<|vision_start|><|image_pad|><|vision_end|>"
+    video_placeholder: Optional[str] = None
+    video_token: str = "<|vision_start|><|video_pad|><|vision_end|>"
     padding: Union[bool, str, PaddingStrategy] = True
     max_length: Optional[int] = None
     pad_to_multiple_of: Optional[int] = None
     padded_keys: List[str] = field(default_factory=lambda: ["input_ids", "attention_mask", "labels"])
     extra_unpadded_keys: List[str] = field(default_factory=lambda: [])
     return_tensors: str = "pt"
+    return_infer_inputs: bool = True  # whether to include infer engine inputs which differs with train
 
     def __call__(self, features: List[Dict[str, Any]]) -> Dict[str, Any]:
         assert self.tokenizer and self.processor
@@ -136,14 +143,24 @@ def __call__(self, features: List[Dict[str, Any]]) -> Dict[str, Any]:
             # cannot process as batch directly though processor output as batch
             # since pixel_values would be packed among batch images while DataProto
             # requires all data fields has same batch size
-            # if image is None, model_inputs would not inlcude image feature field
+            # if image is None, model_inputs would not include image feature field
+            prompt = feature[self.prompt_key]
+            if not isinstance(prompt, str):
+                prompt = self.processor.apply_chat_template(prompt, tokenize=False, add_generation_prompt=True)
+            if self.image_placeholder:
+                prompt = prompt.replace(self.image_placeholder, self.image_token)
+            if self.video_placeholder:
+                prompt = prompt.replace(self.video_placeholder, self.video_token)
+            # TODO: support video
             model_inputs: BatchFeature = self.processor(
                 images=feature[self.image_key]
                 if self.image_key and (not self.image_flag_key or feature[self.image_flag_key])
                 else None,
-                text=feature[self.prompt_key],
+                text=prompt,
             )
-            for key in ["prompt", "position_ids", "rope_deltas"]:   # remove unnecessary feature
+            if not isinstance(model_inputs, BatchFeature):
+                model_inputs = BatchFeature(data=model_inputs)
+            for key in ["prompt", "position_ids", "rope_deltas"]:  # remove unnecessary feature
                 if key in model_inputs:
                     model_inputs.pop(key)
             for key in filter(lambda k: k in model_inputs, self.padded_keys):
@@ -159,22 +176,23 @@ def __call__(self, features: List[Dict[str, Any]]) -> Dict[str, Any]:
                 # concat at dim=0 before model forward
                 un_padded_features["multi_modal_inputs"].append(dict(model_inputs))
                 # inputs for infer engine, not tensors
-                un_padded_features["multi_modal_data"].append(
-                    {
-                        "prompt_token_ids":  # different with input_ids
-                        self.tokenizer.encode(feature[self.prompt_key], add_special_tokens=False),
-                        "multi_modal_data": {
-                            "image": [feature[self.image_key]]
-                            if not isinstance(feature[self.image_key], list)
-                            else feature[self.image_key]
-                        },
-                    }
-                    if (not self.image_flag_key or feature[self.image_flag_key]) and feature[self.image_key]
-                    else {
-                        "prompt_token_ids":  # different with input_ids
-                        self.tokenizer.encode(feature[self.prompt_key], add_special_tokens=False),
-                    }
-                )
+                if self.return_infer_inputs:
+                    un_padded_features["multi_modal_data"].append(
+                        {
+                            "prompt_token_ids":  # different with input_ids
+                            self.tokenizer.encode(prompt, add_special_tokens=False),
+                            "multi_modal_data": {
+                                "image": [feature[self.image_key]]
+                                if not isinstance(feature[self.image_key], list)
+                                else feature[self.image_key]
+                            },
+                        }
+                        if (not self.image_flag_key or feature[self.image_flag_key]) and feature[self.image_key]
+                        else {
+                            "prompt_token_ids":  # different with input_ids
+                            self.tokenizer.encode(prompt, add_special_tokens=False),
+                        }
+                    )
             if self.answer_key:
                 un_padded_features[self.answer_key].append(feature[self.answer_key])
             if self.extra_unpadded_keys:
diff --git a/roll/datasets/dataset.py b/roll/datasets/dataset.py
index 9da7a8ecd..32097af0b 100644
--- a/roll/datasets/dataset.py
+++ b/roll/datasets/dataset.py
@@ -1,5 +1,5 @@
 import os
-from typing import Callable, Dict, Union, List
+from typing import Callable, Union
 
 from datasets import Dataset, IterableDataset, load_dataset
 
@@ -9,11 +9,19 @@
 
 logger = get_logger()
 
-REGISTERED_DATASETS: Dict[str, Callable[[List[str], str, dict], Union[Dataset, IterableDataset]]] = {}
+FILEEXT2TYPE = {
+    "arrow": "arrow",
+    "csv": "csv",
+    "json": "json",
+    "jsonl": "json",
+    "parquet": "parquet",
+    "txt": "text",
+}
+REGISTERED_DATASETS: dict[str, Callable[[list[str], str, dict], Union[Dataset, IterableDataset]]] = {}
 
 
 def register_dataset(key: str):
-    def decorator(func: Callable[[List[str], str, dict], Union[Dataset, IterableDataset]]):
+    def decorator(func: Callable[[list[str], str, dict], Union[Dataset, IterableDataset]]):
         if key in REGISTERED_DATASETS:
             raise ValueError(f"Dataset type '{key}' already exists!")
         REGISTERED_DATASETS[key] = func
@@ -29,20 +37,14 @@ def get_dataset(data_args: "DataArguments"):
     data_files = []
     dataset_dir = getattr(data_args, "dataset_dir", ".")
     dataset_type = getattr(data_args, "dataset_type", "default")
-    FILEEXT2TYPE = {
-        "arrow": "arrow",
-        "csv": "csv",
-        "json": "json",
-        "jsonl": "json",
-        "parquet": "parquet",
-        "txt": "text",
-    }
     if isinstance(data_name, list):
         local_path = ""
     else:
         local_path: str = os.path.join(dataset_dir, data_name)
-
-    if os.path.isdir(local_path):
+    if dataset_type in ("odps",):
+        data_path = dataset_type
+        data_files.extend(data_name)
+    elif os.path.isdir(local_path):
         for file_name in os.listdir(local_path):
             data_files.append(os.path.join(local_path, file_name))
             if data_path is None:
@@ -69,21 +71,13 @@ def get_dataset(data_args: "DataArguments"):
     logger.info(f"load_data_files: {chr(10)} {chr(10).join(data_files)}")
     logger.info(f"prompt column: {data_args.prompt}  label column: {data_args.response}")
 
-    return REGISTERED_DATASETS[data_path](data_files, split='train')
+    return REGISTERED_DATASETS[data_path](data_files, split="train")
 
 
-def create_local_dataset(dataset_name: Union[List[str], str],
-                         split: str = "train",
-                         dataset_kwargs: Dict = None) -> Union[Dataset, IterableDataset]:
+def create_local_dataset(
+    dataset_name: Union[list[str], str], split: str = "train", dataset_kwargs: dict = None
+) -> Union[Dataset, IterableDataset]:
     data_files = []
-    FILEEXT2TYPE = {
-        "arrow": "arrow",
-        "csv": "csv",
-        "json": "json",
-        "jsonl": "json",
-        "parquet": "parquet",
-        "txt": "text",
-    }
     data_path = None
 
     logger.info(f"load dataset: {dataset_name}")
@@ -93,7 +87,7 @@ def create_local_dataset(dataset_name: Union[List[str], str],
             if data_path is None:
                 data_path = FILEEXT2TYPE.get(file_name.split(".")[-1], None)
             elif data_path != FILEEXT2TYPE.get(file_name.split(".")[-1], None):
-                raise ValueError("File types should be identical.")
+                raise ValueError(f"File types should be identical. {data_path=} NOT {file_name=}")
         logger.info(f"load dataset files: {data_files}")
     elif os.path.isfile(dataset_name):  # is file
         data_files.append(dataset_name)
@@ -105,6 +99,13 @@ def create_local_dataset(dataset_name: Union[List[str], str],
                 data_path = FILEEXT2TYPE.get(file_name.split(".")[-1], None)
             elif data_path != FILEEXT2TYPE.get(file_name.split(".")[-1], None):
                 raise ValueError("File types should be identical.")
+    elif isinstance(dataset_name, str) and dataset_name.startswith("odps://"):
+        # TODO: How to separate ODPS and AILake.
+        data_path = "odps"
+        data_files.extend(dataset_name)
+    elif isinstance(dataset_name, str) and dataset_name.startswith("ailake://"):
+        data_path = "ailake"
+        data_files.extend(dataset_name)
     else:
         dataset = load_dataset(dataset_name)
         logger.info(f"Loaded: {dataset=}")
@@ -122,44 +123,34 @@ def create_local_dataset(dataset_name: Union[List[str], str],
 @register_dataset("default")
 @register_dataset("json")
 def default_json_dataset(
-        data_files: "DataPaths",
-        split: str = "train",
-        **kwargs
+    data_files: "DataPaths", split: str = "train", **kwargs
 ) -> Union["Dataset", "IterableDataset"]:
     return load_dataset("json", data_files=data_files, **kwargs)[split]
 
 
 @register_dataset("arrow")
 def default_arrow_dataset(
-        data_files: "DataPaths",
-        split: str = "train",
-        **kwargs
+    data_files: "DataPaths", split: str = "train", **kwargs
 ) -> Union["Dataset", "IterableDataset"]:
     return load_dataset("arrow", data_files=data_files, **kwargs)[split]
 
 
 @register_dataset("csv")
 def default_csv_dataset(
-        data_files: "DataPaths",
-        split: str = "train",
-        **kwargs
+    data_files: "DataPaths", split: str = "train", **kwargs
 ) -> Union["Dataset", "IterableDataset"]:
     return load_dataset("csv", data_files=data_files, **kwargs)[split]
 
 
 @register_dataset("parquet")
 def default_parquet_dataset(
-        data_files: "DataPaths",
-        split: str = "train",
-        **kwargs
+    data_files: "DataPaths", split: str = "train", **kwargs
 ) -> Union["Dataset", "IterableDataset"]:
     return load_dataset("parquet", data_files=data_files, **kwargs)[split]
 
 
 @register_dataset("text")
 def default_text_dataset(
-        data_files: "DataPaths",
-        split: str = "train",
-        **kwargs
+    data_files: "DataPaths", split: str = "train", **kwargs
 ) -> Union["Dataset", "IterableDataset"]:
     return load_dataset("text", data_files=data_files, **kwargs)[split]
diff --git a/roll/datasets/global_dataset.py b/roll/datasets/global_dataset.py
index 8e1338d0f..26ec3a1c6 100644
--- a/roll/datasets/global_dataset.py
+++ b/roll/datasets/global_dataset.py
@@ -1,3 +1,4 @@
+import asyncio
 import random
 from typing import Dict, Optional, Any, Callable
 
@@ -44,6 +45,7 @@ async def get_data_item(self, seed: int, **kwargs) -> Dict:
             if seed is not None:
                 self.idx = random.randint(0, len(self.dataset) - 1)
             else:
+                self.idx += 1
                 if self.idx == len(self.dataset):
                     self.epoch += 1
                     self.dataset = self.dataset.shuffle(seed=self.epoch)
@@ -79,4 +81,6 @@ async def reset(self):
         refs = []
         for dataset_name, dataset_ref in self.global_dataset_dict.items():
             refs.append(dataset_ref.reset.remote())
-        ray.get(refs)
+        if refs:
+            # async
+            await asyncio.gather(*refs)
diff --git a/roll/distributed/executor/cluster.py b/roll/distributed/executor/cluster.py
index 7267819b4..9c18b7c0c 100644
--- a/roll/distributed/executor/cluster.py
+++ b/roll/distributed/executor/cluster.py
@@ -2,6 +2,7 @@
 from typing import List, Type, Dict, Union, Any
 
 import ray
+from ray._private.async_compat import has_async_methods
 from ray._private.worker import RemoteFunctionNoArgs
 from ray.runtime_env import RuntimeEnv
 from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
@@ -23,6 +24,7 @@
 from roll.utils.import_utils import safe_import_class
 from roll.utils.logging import get_logger
 
+
 logger = get_logger()
 
 
@@ -46,6 +48,7 @@ def __init__(
         else:
             self.worker_cls = worker_cls
         self.resource_manager = resource_manager
+        self.placement_groups = None
         self.worker_config = worker_config
 
         self.workers: List[Any] = []
@@ -80,6 +83,17 @@ def tp_size(self):
     def pp_size(self):
         return self.worker_rank_info[0].pp_size
 
+    @property
+    def cp_size(self):
+        return self.worker_rank_info[0].cp_size
+
+    @property
+    def vp_size(self):
+        if 'virtual_pipeline_model_parallel_size' in self.worker_config.strategy_args.strategy_config:
+            return self.worker_config.strategy_args.strategy_config['virtual_pipeline_model_parallel_size']
+        else:
+            return 1
+
     @property
     def worker_rank_info(self) -> List[RankInfo]:
         if not self._worker_rank_info or not self.initialized:
@@ -96,11 +110,20 @@ def _create_workers(self):
             device_mapping=self.worker_config.device_mapping, world_size=self.worker_config.world_size
         )
         logger.debug(f"placement_groups: {placement_groups}")
+        self.placement_groups = placement_groups
 
         for rank, pgs in enumerate(placement_groups):
             deploy_pg = pgs[0]
             pg_zero_gpu_ranks = sorted([pg["gpu_rank"] for pg in pgs if pg["node_rank"] == deploy_pg["node_rank"]])
-            worker_name = f"{self.cluster_name}-{rank}"
+
+            # Include GPU IDs in worker name for timeline visualization
+            # Format: actor_train-0-G0 (single GPU) or actor_infer-0-G01 (TP=2)
+            if pg_zero_gpu_ranks and deploy_pg["gpu_rank"] is not None:
+                gpu_str = "".join(str(g) for g in pg_zero_gpu_ranks)
+                worker_name = f"{self.cluster_name}-{rank}-G{gpu_str}"
+            else:
+                # CPU-only workers
+                worker_name = f"{self.cluster_name}-{rank}"
             env_vars = {
                 "WORLD_SIZE": str(self.world_size),
                 "RANK": str(rank),
@@ -121,12 +144,21 @@ def _create_workers(self):
             runtime_env = RuntimeEnv(env_vars=env_vars)
             self.worker_config.resource_placement_groups = pgs
 
+            if has_async_methods(self.worker_cls.__ray_metadata__.modified_class):
+                max_concurrency = (self.worker_config.max_concurrency if self.worker_config.max_concurrency > 1
+                                else 1000) # equivalent to DEFAULT_MAX_CONCURRENCY_ASYNC in ray
+                logger.info(f"set max_concurrency to {max_concurrency} for worker {type(self.worker_cls)}")
+            else:
+                assert self.worker_config.max_concurrency == 1
+                max_concurrency = 1
+
             worker_options = {
                 "scheduling_strategy": PlacementGroupSchedulingStrategy(placement_group=deploy_pg["placement_group"]),
                 "name": worker_name,
                 "namespace": RAY_NAMESPACE,
                 "runtime_env": runtime_env,
                 "num_cpus": 0.01,
+                "max_concurrency": max_concurrency,
             }
 
             if current_platform.ray_device_key == "GPU":
diff --git a/roll/distributed/executor/model_update_group.py b/roll/distributed/executor/model_update_group.py
index 46e019fe1..3ea8effd4 100644
--- a/roll/distributed/executor/model_update_group.py
+++ b/roll/distributed/executor/model_update_group.py
@@ -1,158 +1,41 @@
-import itertools
-import json
-import time
-from collections import defaultdict
-from typing import List, Any
-
 import ray
 
+from roll.configs.base_config import PPOConfig
 from roll.distributed.executor.cluster import Cluster
 from roll.distributed.scheduler.protocol import DataProto
-from roll.utils.functionals import reduce_metrics
+from roll.utils.functionals import reduce_metrics_list
 
 
 class ModelUpdateGroup:
-
-    def __init__(self, src_cluster: Cluster, tgt_cluster: Cluster, frequency: int = 1):
-        self.src_cluster: Any = src_cluster
-        self.tgt_cluster: Any = tgt_cluster
+    def __init__(self, src_cluster: Cluster, tgt_cluster: Cluster, pipeline_config: PPOConfig, frequency=1):
+        self.src_cluster = src_cluster
+        self.tgt_cluster = tgt_cluster
         self.frequency = frequency
+        self.pipeline_config = pipeline_config
         self.model_update_name = f"model_update/{self.src_cluster.cluster_name}_2_{self.tgt_cluster.cluster_name}"
+        train_devices = set(src_cluster.worker_config.device_mapping or [])
+        infer_devices = set(tgt_cluster.worker_config.device_mapping or [])
 
-        # 存src actor -> tgt actors的映射 (src_actor, tgt_actors)
-        # 相同pp_rank的comm_plan是可以并发执行的，全部并发执行需要探索一下
-        # Dict[pp_rank, Dict[src_actor_rank, List[tgt_actor_rank]]]
-        self.broadcast_comm_pan = defaultdict(lambda: defaultdict(list))
-
-        # 用于相同gpu的actor发送
-        self.p2p_comm_plan = defaultdict(lambda: defaultdict(list))
-
-        self.make_comm_plan()
-        self.make_collective_group()
-
-    def make_comm_plan(self):
-        """
-        comm_plan demo:
-        {
-        "0":
-            {
-                "0": [
-                        {"rank": 0, "device": {"rank": 1, "node_rank": 0, "gpu_rank": 1}},
-                        {"rank": 1, "device": {"rank": 0, "node_rank": 0, "gpu_rank": 2}},
-                        {"rank": 2, "device": {"rank": 0, "node_rank": 0, "gpu_rank": 4}},
-                        {"rank": 3, "device": {"rank": 0, "node_rank": 0, "gpu_rank": 6}}],
-                "1": [
-                        {"rank": 0, "device": {"rank": 0, "node_rank": 0, "gpu_rank": 0}},
-                        {"rank": 1, "device": {"rank": 1, "node_rank": 0, "gpu_rank": 3}},
-                        {"rank": 2, "device": {"rank": 1, "node_rank": 0, "gpu_rank": 5}},
-                        {"rank": 3, "device": {"rank": 1, "node_rank": 0, "gpu_rank": 7}}]
-            },
-        "1": {
-                "2": [
-                        {"rank": 0, "device": {"rank": 0, "node_rank": 0, "gpu_rank": 0}},
-                        {"rank": 1, "device": {"rank": 1, "node_rank": 0, "gpu_rank": 3}},
-                        {"rank": 2, "device": {"rank": 0, "node_rank": 0, "gpu_rank": 4}},
-                        {"rank": 3, "device": {"rank": 0, "node_rank": 0, "gpu_rank": 6}}],
-                "3": [
-                        {"rank": 0, "device": {"rank": 1, "node_rank": 0, "gpu_rank": 1}},
-                        {"rank": 1, "device": {"rank": 0, "node_rank": 0, "gpu_rank": 2}},
-                        {"rank": 2, "device": {"rank": 1, "node_rank": 0, "gpu_rank": 5}},
-                        {"rank": 3, "device": {"rank": 1, "node_rank": 0, "gpu_rank": 7}}
-                    ]
-            }
-        }
-        """
-        src_pp_ranks: List[int] = [rank_info.pp_rank for rank_info in self.src_cluster.worker_rank_info]
-        group_by_pp_rank = defaultdict(list)
-        for i, pp_rank in enumerate(src_pp_ranks):
-            group_by_pp_rank[pp_rank].append(i)
+        assert (max(train_devices) - min(train_devices)) == (len(train_devices) - 1), f"{train_devices=} must be continuous"
+        assert (max(infer_devices) - min(infer_devices)) == (len(infer_devices) - 1), f"{infer_devices=} must be continuous"
 
-        tgt_devices = []
-        for rank in range(self.tgt_cluster.world_size):
-            for device in self.tgt_cluster.rank2devices[rank]:
-                tgt_devices.append(dict(rank=rank, device=device))
-
-        for pp_rank, src_ranks in group_by_pp_rank.items():
-            for src_rank in src_ranks:
-                self.broadcast_comm_pan[pp_rank][src_rank] = []
-            src_rank_iter = itertools.cycle(src_ranks)
-            i = 0
-            while i < len(tgt_devices):
-                tgt_device = tgt_devices[i]
-                src_rank = next(src_rank_iter)
-                # 如何src_rank和tgt_rank位于同一个设备上，再取一个，如果两个相同，则无法分配当前tgt，加入p2p
-                src_device = self.src_cluster.rank2devices[src_rank][0]
-                if (src_device["node_rank"], src_device["gpu_rank"]) == (
-                    tgt_device["device"]["node_rank"],
-                    tgt_device["device"]["gpu_rank"],
-                ):
-                    src_rank_next = next(src_rank_iter)
-                    if src_rank_next == src_rank:
-                        self.p2p_comm_plan[pp_rank][src_rank].append(tgt_device)
-                    else:
-                        i += 1
-                        self.broadcast_comm_pan[pp_rank][src_rank_next].append(tgt_device)
-                        if i >= len(tgt_devices):
-                            break
-                        tgt_device_next = tgt_devices[i]
-                        self.broadcast_comm_pan[pp_rank][src_rank].append(tgt_device_next)
-                else:
-                    self.broadcast_comm_pan[pp_rank][src_rank].append(tgt_device)
-                i += 1
-        print(f"broadcast_comm_pan: {json.dumps(self.broadcast_comm_pan)}")
-        print(f"p2p_comm_plan: {json.dumps(self.p2p_comm_plan)}")
-        if len(self.p2p_comm_plan) > 0:
-            print("p2p comm does not suggest, please change your config")
-
-    def model_update_group_name(self, src_rank, tgt_devices):
-        tgt_names = [f"({tgt_device['rank']},{tgt_device['device']['rank']})" for tgt_device in tgt_devices]
-        return f"model_update_{self.src_cluster.cluster_name}_{src_rank}_to_{self.tgt_cluster.cluster_name}_{'-'.join(tgt_names)}"
-
-    def make_collective_group(self):
-        for pp_rank, pp_comm_plan in self.broadcast_comm_pan.items():
-            refs = []
-            pp_comm_plan_args = {}
-            for src_rank, tgt_devices in pp_comm_plan.items():
-                comm_plan_args = {}
-                group_name = self.model_update_group_name(src_rank, tgt_devices)
-                group_master_worker = self.src_cluster.rank2worker[src_rank]
-                group_master_addr = ray.get(group_master_worker.get_node_ip.remote())
-                group_master_port = ray.get(group_master_worker.get_free_port.remote())
-                comm_plan_args["group_name"] = group_name
-                comm_plan_args["master_addr"] = group_master_addr
-                comm_plan_args["master_port"] = group_master_port
-                comm_plan_args["tgt_devices"] = tgt_devices
-                comm_plan_args["src_pp_rank"] = pp_rank
-                comm_plan_args["src_rank"] = src_rank
-                pp_comm_plan_args[src_rank] = comm_plan_args
-                ref = group_master_worker.setup_collective_group.remote(model_update_name=self.model_update_name,
-                                                                        comm_plan={src_rank: comm_plan_args})
-                refs.append(ref)
-
-            print(f"pp_rank: {pp_rank} pp_comm_plan_args: {json.dumps(pp_comm_plan_args)}")
-            for tgt_worker in self.tgt_cluster.workers:
-                ref = tgt_worker.setup_collective_group.remote(model_update_name=self.model_update_name,
-                                                               comm_plan=pp_comm_plan_args)
-                refs.append(ref)
-            ray.get(refs)
+        ray.get(
+            [
+                train_worker.setup_model_update.remote(
+                    infer_cluster=self.tgt_cluster, model_update_name=self.model_update_name
+                )
+                for train_worker in self.src_cluster.workers
+            ]
+        )
 
     def model_update(self, step=None):
-        metrics_list = {}
-        if step % self.frequency == 0:
-            for pp_rank, pp_comm_plan in self.broadcast_comm_pan.items():
-                # 一个pp rank 内的要一起更新，目标是更新这一pp rank(pp stage part)内的参数
-                # 具体model_update由src role自行实现，这样不需要显式更新模型参数
-                refs = []
-                for src_rank, tgt_devices in pp_comm_plan.items():
-                    src_cluster = self.src_cluster.rank2worker[src_rank]
-                    ref = src_cluster.start_model_update.remote(
-                        model_update_name=self.model_update_name,
-                        tgt_workers=self.tgt_cluster.workers,
-                        broadcast_tgt_devices=tgt_devices,
-                        p2p_tgt_devices=self.p2p_comm_plan[pp_rank][src_rank],
-                    )
-                    refs.append(ref)
-                data = ray.get(refs)
-
-                metrics_list.update(reduce_metrics(DataProto.concat(data).meta_info.pop("metrics", {})))
-        return metrics_list
+        if step % self.frequency != 0:
+            return {}
+
+        dataprotos: list[DataProto] = ray.get(
+            [
+                train_worker.start_model_update.remote(model_update_name=self.model_update_name)
+                for train_worker in self.src_cluster.workers
+            ]
+        )
+        return reduce_metrics_list([dataproto.meta_info["metrics"] for dataproto in dataprotos])
diff --git a/roll/distributed/executor/worker.py b/roll/distributed/executor/worker.py
index ce162a2dd..d6e5fca5c 100644
--- a/roll/distributed/executor/worker.py
+++ b/roll/distributed/executor/worker.py
@@ -18,6 +18,7 @@
 from roll.utils.network_utils import collect_free_port, get_node_ip
 from roll.utils.offload_states import OffloadStateType
 from roll.utils.offload_nccl import monkey_patch_torch_dist
+
 from roll.platforms import current_platform
 
 
@@ -99,19 +100,14 @@ def get_free_port():
         ).remote()
         master_addr = Worker.get_node_ip()
         max_retry_count = int(os.environ.get("MAX_PORT_RETRY_COUNT", 1000))
-        retry_count = 0
-        master_port = collect_free_port()
-        while retry_count < max_retry_count:
-            master_addr_port_key = f"MASTER_ADDR_PORT:{master_addr}:{master_port}"
-            if ray.get(shared_storage.get.remote(master_addr_port_key)) is None:
-                ray.get(shared_storage.put.remote(master_addr_port_key, True))
-                break
-            master_port = collect_free_port()
-            retry_count += 1
-        if retry_count >= max_retry_count:
-            raise RuntimeError(f"Can not allocate unique MASTER_PORT on {master_addr}.")
-        return master_port
 
+        for i in range(max_retry_count):
+            master_port = collect_free_port()
+            master_addr_port_key = f"MASTER_ADDR_PORT:{master_addr}:{master_port}"
+            success = ray.get(shared_storage.put_if_absent.remote(master_addr_port_key, True))
+            if success:
+                return master_port
+        raise RuntimeError(f"Can not allocate unique MASTER_PORT on {master_addr}.")
     def get_master_addr_and_port(self):
         return self.master_addr, self.master_port
 
@@ -145,6 +141,12 @@ def load_states(self, *args, **kwargs):
             self.strategy.load_states()
         else:
             self.logger.warning("worker has not strategy")
+    
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL)
+    def process_weights_after_loading(self):
+        if getattr(self, "strategy", None) is not None:
+            self.strategy.process_weights_after_loading()
+        
 
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
     def offload_states(self, *args, **kwargs):
@@ -159,11 +161,8 @@ def broadcast_parameter(self, *args, **kwargs):
         else:
             self.logger.warning("worker has not strategy")
 
-    def broadcast_bucket(self, *args, **kwargs):
-        if getattr(self, "strategy", None) is not None:
-            self.strategy.broadcast_bucket(*args, **kwargs)
-        else:
-            self.logger.warning("worker has not strategy")
+    def setup_model_update(self, *args, **kwargs):
+        self.strategy.setup_model_update(*args, **kwargs)
 
     def setup_collective_group(self, *args, **kwargs):
         if getattr(self, "strategy", None) is not None:
@@ -171,6 +170,12 @@ def setup_collective_group(self, *args, **kwargs):
         else:
             self.logger.warning("worker has not strategy")
 
+    def setup_p2p_collective_group(self, *args, **kwargs):
+        if getattr(self, "strategy", None) is not None:
+            self.strategy.setup_p2p_collective_group(*args, **kwargs)
+        else:
+            self.logger.warning("worker does not have a strategy")
+
     def start_model_update(self, *args, **kwargs):
         metrics = {}
         if getattr(self, "strategy", None) is not None:
@@ -189,9 +194,9 @@ def start_model_update(self, *args, **kwargs):
         output = DataProto(meta_info={"metrics": metrics})
         return output
 
-    def update_parameter(self, *args, **kwargs):
+    def model_update_set_read_done_handle(self, *args, **kwargs):
         if getattr(self, "strategy", None) is not None:
-            self.strategy.update_parameter(*args, **kwargs)
+            self.strategy.model_update_set_read_done_handle(*args, **kwargs)
         else:
             self.logger.warning("worker has not strategy")
 
@@ -207,10 +212,6 @@ def add_lora(self, *args, **kwargs):
         else:
             self.logger.warning("worker has not strategy")
 
-    def download_models(self, model_name_or_paths: set[str]):
-        futures.wait([self.thread_executor.submit(download_model, model_name_or_path)
-                      for model_name_or_path in model_name_or_paths])
-
     @register(dispatch_mode=Dispatch.DP_MP_COMPUTE)
     def get_metrics(self, metric_names: Optional[List[str]] = None) -> DataProto:
         """
diff --git a/roll/distributed/scheduler/driver_utils.py b/roll/distributed/scheduler/driver_utils.py
index c6a7b634a..e9c9e1f6e 100644
--- a/roll/distributed/scheduler/driver_utils.py
+++ b/roll/distributed/scheduler/driver_utils.py
@@ -121,4 +121,20 @@ async def wait(self):
                 self.arrived = 0
                 self.event.clear()
                 return
-        await self.event.wait()
\ No newline at end of file
+        await self.event.wait()
+
+
+@ray.remote
+class Locker:
+    def __init__(self):
+        self._locked = False
+
+    def acquire(self):
+        if self._locked:
+            return False
+        self._locked = True
+        return True
+
+    def release(self):
+        assert self._locked
+        self._locked = False
diff --git a/roll/distributed/scheduler/generate_scheduler.py b/roll/distributed/scheduler/generate_scheduler.py
index d968eb5aa..39f2417fc 100644
--- a/roll/distributed/scheduler/generate_scheduler.py
+++ b/roll/distributed/scheduler/generate_scheduler.py
@@ -1,499 +1,565 @@
+import asyncio
 import copy
 import itertools
-import queue
 import random
-import threading
-import asyncio
+import math
 import uuid
-import time
-from collections import defaultdict
+from collections import defaultdict, deque
+from dataclasses import dataclass, fields
+
 from typing import Any, Union, Optional, Dict, List, Set
+from contextlib import asynccontextmanager
 
 import numpy as np
-import ray
 import torch
 from datasets import Dataset
-from tensordict import TensorDict
-from torch.nn.utils.rnn import pad_sequence
 from tqdm import tqdm
 from transformers import set_seed
 
-import hashlib
-import base64
-import json
-import os
-
 from roll.distributed.executor.cluster import Cluster
-from roll.distributed.scheduler.protocol import DataProto, collate_fn, pad_dataproto_to_divisor, unpad_dataproto
+from roll.distributed.scheduler.router import RouterManager
+from roll.distributed.scheduler.protocol import DataProto, pad_dataproto_to_divisor, unpad_dataproto
 from roll.distributed.scheduler.reward_scheduler import RewardScheduler
+from roll.distributed.scheduler.rollout_mock_mixin import RolloutMockMixin
 from roll.models.model_providers import default_tokenizer_provider, default_processor_provider
-from roll.utils.constants import RAY_NAMESPACE
-from roll.utils.functionals import (
-    postprocess_generate,
-    reduce_metrics,
-    concatenate_input_and_output,
-    GenerateRequestType,
-)
+from roll.utils.taskgroups import TaskGroup # TODO use official TaskGroup after upgrade to python 3.11
+from roll.utils.metrics.metrics_manager import DurationTracker
+from roll.utils.import_utils import safe_import_class
 from roll.utils.logging import get_logger
 
 
 logger = get_logger()
 
 
-@ray.remote(concurrency_groups={"single_thread": 1, "multi_thread": 128})
-class GenerateScheduler:
-
-    def __init__(self, pipeline_config=None):
-        self.cluster: Union[Any, Cluster] = None
-        self.pipeline_config = pipeline_config
-        self.progress_bar: Optional[tqdm] = None
-        self.request_counter = itertools.count()
-        self.dp_fetch_count = {}
-        self.load_balance_coordinator = {}
-        self.mp_rank_zero = {}
-        self.data: Optional[DataProto] = None
-        self.responses: Dict[int, List[DataProto]] = defaultdict(list)
-        self.request_id_2_prompt_id: Dict[str, int] = {}
-        self.prompt_id_2_request_ids: Dict[int, set] = defaultdict(set)
-        self.response_batch_size: Optional[int] = None
-        self.abort_request_ids: set[str] = set()
-        self.input_data: Optional[DataProto] = None
-        self.is_completed = False
-        self.request_id_2_dp_rank = {}
-        self.completed_count = set()
-        self.prompt_count = 0
-        self.max_running_requests = 128
-        self.alive_check_interval = 10
-        self.last_alive_check = time.time()
-        self.lock = threading.Lock()
-        self.response_callback_fn = None
-
-    def generate(self, data: DataProto, actor_cluster: Union[Any, Cluster], pipeline_config) -> DataProto:
-        self.response_callback_fn = data.meta_info["response_callback_fn"]
-        self.pipeline_config = pipeline_config
-        self.cluster = actor_cluster
-        if len(self.mp_rank_zero) == 0:
-            dp_ranks: List[int] = [rank_info.dp_rank for rank_info in self.cluster.worker_rank_info]
-            for i, dp_rank in enumerate(dp_ranks):
-                rank_info = self.cluster.get_rank_info(rank=i)
-                if rank_info.tp_rank == 0 and rank_info.pp_rank == 0 and rank_info.cp_rank == 0:
-                    self.mp_rank_zero[dp_rank] = self.cluster.workers[i]
-        self.dp_fetch_count = {dp_rank: 0 for dp_rank in self.mp_rank_zero.keys()}
-        self.load_balance_coordinator = {dp_rank: 0 for dp_rank in self.mp_rank_zero.keys()}
-        self.request_id_2_prompt_id.clear()
-        self.prompt_id_2_request_ids.clear()
-        self.abort_request_ids.clear()
-        self.request_id_2_dp_rank.clear()
-        self.completed_count.clear()
-
-        generate_opt_level = pipeline_config.generate_opt_level
-        num_return_sequences = actor_cluster.worker_config.generating_args.num_return_sequences
-
-        is_num_return_sequences_expand = pipeline_config.is_num_return_sequences_expand
-        if generate_opt_level == 0 and is_num_return_sequences_expand:
-            logger.warning("is_num_return_sequences_expand=True and generate_opt_level may reduce performance.")
-
-        data.batch["prompt_id"] = torch.arange(data.batch.batch_size[0], device=data.batch.device)
-        self.input_data = data
-        data.meta_info["is_num_return_sequences_expand"] = is_num_return_sequences_expand
-        data.meta_info["num_return_sequences"] = num_return_sequences
-
-        self.prompt_count = self.input_data.batch.batch_size[0]
-
-        generation_config = self.cluster.worker_config.generating_args.to_dict()
+def expand_requests(data: DataProto, num_return_sequences, is_num_return_sequences_expand):
+    """
+    Args:
+        data (DataProto) [IN|OUT]: 'num_return_sequences' will be overwritten
+    """
+    assert "generation_config" in data.meta_info, f"data {data.meta_info} should have key 'generation_config'"
+    generation_config = data.meta_info["generation_config"]
+    target_requests = []
+    if is_num_return_sequences_expand:
+        generation_config["num_return_sequences"] = 1
+        for _ in range(num_return_sequences):
+            target_requests.append(copy.deepcopy(data))
+    else:
         generation_config["num_return_sequences"] = num_return_sequences
-        if is_num_return_sequences_expand:
-            generation_config["num_return_sequences"] = 1
-        data.meta_info["generation_config"] = generation_config
-
-        if generate_opt_level == 0:
-            if is_num_return_sequences_expand:
-                batch_size = data.batch.batch_size[0]
-                output_batch_size = batch_size * num_return_sequences
-                input_ids = data.batch["input_ids"]
-                attention_mask = data.batch["attention_mask"]
-                position_ids = data.batch["position_ids"]
-                input_ids = input_ids.unsqueeze(1).repeat(1, num_return_sequences, 1).view(output_batch_size, -1)
-                attention_mask = (
-                    attention_mask.unsqueeze(1).repeat(1, num_return_sequences, 1).view(output_batch_size, -1)
-                )
-                if position_ids.dim() == 3:  # (bsz, 3, seqlen)
-                    # qwen2vl mrope, maybe use a placeholder and let model generate position_ids
-                    position_ids = (
-                        position_ids.unsqueeze(1)
-                        .repeat(1, num_return_sequences, 1, 1)
-                        .view(output_batch_size, *position_ids.shape[-2:])
-                    )
-                else:
-                    position_ids = (
-                        position_ids.unsqueeze(1).repeat(1, num_return_sequences, 1).view(output_batch_size, -1)
-                    )
+        target_requests.append(copy.deepcopy(data))
+    return target_requests
+
+def expand_responses(response: Optional[Union[DataProto, List[DataProto]]]) -> List[DataProto]:
+    ret: List[DataProto] = []
+    if response is None:
+        return ret
+    stack = deque([response])
+    while stack:
+        current = stack.pop()
+        if isinstance(current, list):
+            stack.extend(reversed(current))
+        else:
+            assert isinstance(current, DataProto)
+            batch_size = current.batch.batch_size[0]
+            assert batch_size >= 0
+            if batch_size > 1:
+                stack.extend(reversed([current[i] for i in range(batch_size)]))
+            else:
+                ret.append(current)
+    return ret
+
+
+@dataclass
+class ExperienceItem:
+    prompt_id: int
+    domain: str = "default"
+    sampling_start_step: Optional[int] = None
+    data: Optional[DataProto] = None
+
+
+class ItemsGroup:
+    """
+    items with the same starting step
+    """
+    def __init__(self, start_step):
+        self.start_step: int = start_step
+        self.running_prompts: Set[int] = set()
+        self.finished_prompts: deque[List[ExperienceItem]] = deque()
+        self.num_samples = 0
+        self.event = asyncio.Event()
+
+    def info(self):
+        return (
+            f"ItemsGroup {self.start_step}: "
+            f"{len(self.running_prompts)=} "
+            f"{len(self.finished_prompts)=} "
+            f"{self.num_samples=} "
+        )
 
-                non_tensor_batch = dict(
-                    (k, np.repeat(v, num_return_sequences)) for k, v in data.non_tensor_batch.items()
-                )
+    def empty(self) -> bool:
+        return len(self.running_prompts) == 0 and len(self.finished_prompts) == 0
 
-                data = DataProto(
-                    batch=TensorDict(
-                        {"input_ids": input_ids, "attention_mask": attention_mask, "position_ids": position_ids},
-                        batch_size=output_batch_size,
-                    ),
-                    non_tensor_batch=non_tensor_batch,
-                    meta_info=data.meta_info,
-                )
-            ret = self.cluster.generate(data)
-            self.input_data = None
-            return ret
-        elif generate_opt_level == 1:
-            # async + load balance
-            if is_num_return_sequences_expand:
-                batch_size = data.batch.batch_size[0]
-                output_batch_size = batch_size * num_return_sequences
-                input_ids = data.batch["input_ids"]
-                attention_mask = data.batch["attention_mask"]
-                position_ids = data.batch["position_ids"]
-                prompt_ids = data.batch["prompt_id"]
-                input_ids = input_ids.repeat(num_return_sequences, 1)
-                attention_mask = attention_mask.repeat(num_return_sequences, 1)
-                if position_ids.dim() == 3:  # (bsz, 3, seqlen)
-                    position_ids = position_ids.repeat(num_return_sequences, 1, 1)
-                    non_tensor_batch = dict(
-                        (k, np.tile(v, num_return_sequences))
-                        for k, v in data.non_tensor_batch.items())
-                else:
-                    position_ids = position_ids.repeat(num_return_sequences, 1)
-                    non_tensor_batch = {}
-                prompt_ids = prompt_ids.unsqueeze(-1).repeat(num_return_sequences, 1)
-
-                data = DataProto(
-                    batch=TensorDict(
-                        {
-                            "input_ids": input_ids,
-                            "attention_mask": attention_mask,
-                            "position_ids": position_ids,
-                            "prompt_id": prompt_ids,
-                        },
-                        batch_size=output_batch_size,
-                    ),
-                    non_tensor_batch=non_tensor_batch,
-                    meta_info=data.meta_info,
-                )
-            self.is_completed = False
-            ret = self.generate_opt_level_1(data)
-            self.input_data = ret
-            return ret
+    def get_running_prompt_ids(self) -> Set[int]:
+        return self.running_prompts
+
+    def begin_prompt(self, prompt_id):
+        assert prompt_id not in self.running_prompts
+        self.running_prompts.add(prompt_id)
+
+    def commit_prompt(self, prompt_id: int, result: List[ExperienceItem]):
+        self.running_prompts.remove(prompt_id)
+        assert prompt_id not in self.finished_prompts
+        self.finished_prompts.append(result)
+        self.num_samples += len(result)
+        self.event.set()
+
+    def abort_prompt(self, prompt_id: int):
+        self.running_prompts.remove(prompt_id)
+        assert prompt_id not in self.finished_prompts
+        self.event.set()
+
+    async def get_batch(self, expected_samples) -> List[List[ExperienceItem]]:
+        """
+        Get at most batch_size * num_return_sequences samples from finished prompts,
+        blocking wait when there are running and has not collect enough responses.
+        """
+        assert expected_samples >= 0
+        while self.num_samples < expected_samples and not len(self.running_prompts) == 0:
+            self.event.clear()
+            await self.event.wait()
+        if self.num_samples <= expected_samples:
+            result = list(self.finished_prompts)
+            collected_samples = self.num_samples
+            self.finished_prompts = deque()
+            self.num_samples = 0
         else:
-            raise NotImplementedError(f"not support generate_opt_level {generate_opt_level}")
+            result = []
+            collected_samples = 0
+            while collected_samples < expected_samples and self.finished_prompts:
+                item = self.finished_prompts.popleft()
+                result.append(item)
+                collected_samples += len(item)
+                self.num_samples -= len(item)
+        assert sum(len(item) for item in self.finished_prompts) == self.num_samples
+        assert collected_samples == sum(len(item) for item in result)
+        # collected_samples may greater than expected_samples
+        return result
+
+
+class ReplayBuffer:
+    """
+    Provide a transactional interface to control running and finished prompts.
+
+    Both sync and async training are supported (sync training is special case of async training).
+
+    Limit running prompts (not aware of num_return_sequences) below batch_size
+    or batch_size + max_additional_running_prompts.
+
+    ReplayBuffer only control how many prompts can be sent at the same time and do not
+    provide rate limit or load balance to ActorInfer or RewardWorker.
+
+    Public interface:
+        * advance_step: update current step and increate total batch size. (think of
+            this as an epoch-based reclamation (or epoch-based garbage collection))
+        * poll: poll for a prompt_id with implicit rate limit
+        * begin: bind prompt_id to current step
+        * commit/abort: accept or filter out responses of a prompt
+        * gc: garbage collect outdated running or committed(finished) prompts
+            (sync training will clear all stored but not used prompts)
+
+    Usage: see tests/distributed/scheduler/test_generate_scheduler.py and RolloutContext.
+    """
+    def __init__(
+        self,
+        async_generation_ratio,
+        is_use_additional_prompts,
+        max_additional_running_prompts
+    ):
+        self.pid = 0
+        self.current_step = None
+        self.groups: Dict[int, ItemsGroup] = {}
+        self.prompt_id_to_start_step: Dict[int, int] = {} # only store map info for running prompts
+
+        self.batch_size = 0
+        assert async_generation_ratio >= 0
+        assert not is_use_additional_prompts or max_additional_running_prompts > 0
+        self.async_generation_ratio = async_generation_ratio
+        self.is_use_additional_prompts = is_use_additional_prompts
+        self.max_additional_running_prompts = max_additional_running_prompts
+
+        self._shutdown = False
+
+        self.running_prompts = 0 # prompts in running state
+        self.running_extra_prompts = 0 # additinal prompts in running state
+        # only running_prompts not running_extra_prompts will add to completed_prompts at commit
+        # so running_prompts + completed_prompts may less than used_prompts if is_use_additional_prompts is set
+        self.completed_prompts = 0 # prompts in commit state
+        self.event = asyncio.Event()
+        self.advance_step_event = asyncio.Event()
+
+    def info(self) -> str:
+        group_info = [group.info() for group in self.groups.values()]
+        return (
+            f"ReplayBuffer: {self.current_step=} {self.batch_size=} "
+            f"{self.used_prompts=}  {self.completed_prompts=} {self.running_prompts=} {self.running_extra_prompts=} "
+            f"{group_info=} "
+        )
+
+    def _next_pid(self):
+        pid = self.pid
+        self.pid += 1
+        return pid
+
+    @property
+    def used_prompts(self) -> int:
+        return self.pid
+
+    def shutdown(self):
+        self._shutdown = True
+        self.event.set()
+        self.advance_step_event.set()
+
+    def advance_step(self, step, batch_size):
+        # step must increase monotonically
+        assert not self.current_step or step > self.current_step
+        assert step not in self.groups
+        old_step = self.current_step
+        old_batch_size = self.batch_size
+        self.current_step = step
+        # Must create ItemsGroup before get_batch. Otherwise,
+        # if user call get_batch with min_step = current_step before
+        # any process_new_prompt task is scheduled, get_batch will skip
+        # current step and return empty list which breaks the postcondition
+        # of get_enough_finished_prompts.
+        self.groups[step] = ItemsGroup(start_step=step)
+        if self.batch_size == 0 and self.async_generation_ratio > 0:
+            # first step
+            self.batch_size = math.ceil(batch_size * self.async_generation_ratio)
+        self.batch_size += batch_size
+        logger.info(f"advance_step from {old_step} to {self.current_step}, "
+                    f"batch_size from {old_batch_size} to {self.batch_size}")
+        self.event.set()
+        self.advance_step_event.set()
+
+    def _check_send_new_request(self) -> bool:
+        if self.running_prompts + self.completed_prompts < self.batch_size:
+            self.running_prompts += 1
+            return True
+        elif self.is_use_additional_prompts and self.batch_size > 0 and (self.running_prompts + self.running_extra_prompts < self.max_additional_running_prompts):
+            # condition self.batch_size>0 ensure not at initialization stage
+            self.running_extra_prompts += 1
+            return True
+        else:
+            return False
 
-    def get_available_dp_rank(self):
+    async def poll(self) -> int:
+        """
+        Will blocking wait when can not send new request and is not in shutdown stage.
+        """
+        prompt_id = self._next_pid()
         while True:
-            # 负载均衡逻辑，期望各dp 正在处理的条数基本接近
-            sorted_ranks = sorted(
-                self.load_balance_coordinator.keys(), key=lambda rank: (self.load_balance_coordinator[rank], rank)
-            )
-            if self.load_balance_coordinator[sorted_ranks[0]] < self.max_running_requests:
-                yield sorted_ranks[0]
-
-    def send_request_to_one_worker(self, data: DataProto):
-        dp_rank = next(self.get_available_dp_rank())
-        ray.get(self.cluster.workers[dp_rank].add_request.remote(command=GenerateRequestType.ADD, data=data))
-        self.load_balance_coordinator[dp_rank] += 1
-        self.dp_fetch_count[dp_rank] += 1
-
-    def generate_opt_level_1(self, data: DataProto):
-        # async++
-        is_num_return_sequences_expand = self.pipeline_config.is_num_return_sequences_expand
-        num_return_sequences = self.cluster.worker_config.generating_args.num_return_sequences
-
-        response_batch_size = 1 if is_num_return_sequences_expand else num_return_sequences
-        self.response_batch_size = response_batch_size
-        self.progress_bar = tqdm(
-            total=self.prompt_count, desc="generate progress(prompt)", mininterval=int(self.prompt_count * 0.1) + 1
-        )
+            if self._shutdown:
+                raise asyncio.CancelledError
+            elif self._check_send_new_request():
+                self.prompt_id_to_start_step[prompt_id] = None
+                return prompt_id
+            self.event.clear()
+            await self.event.wait()
+
+    async def begin(self, prompt_id) -> int:
+        """
+        Blocking wait if group of current_step not exists (happen during garbage collection).
 
-        self.data = data
-        self.responses: Dict[int, List[DataProto]] = defaultdict(list)
+        Exception:
+            asyncio.CancelledError: if prompt_id is aborted or at system shutdown stage.
+        """
+        assert self.current_step is not None
+        while True:
+            start_step = self.current_step
+            if start_step in self.groups:
+                assert start_step == next(reversed(self.groups))
+                break
+            elif self._shutdown:
+                raise asyncio.CancelledError
+            self.advance_step_event.clear()
+            await self.advance_step_event.wait()
+        if prompt_id not in self.prompt_id_to_start_step:
+            raise asyncio.CancelledError
+        assert self.prompt_id_to_start_step[prompt_id] is None, f"{prompt_id=} {self.prompt_id_to_start_step[prompt_id]=}"
+        self.prompt_id_to_start_step[prompt_id] = start_step
+        group = self.groups[start_step]
+        group.begin_prompt(prompt_id)
+        return start_step
+
+    def _commit_prompt(self):
+        assert self.running_prompts + self.running_extra_prompts > 0
+        if self.running_prompts > 0:
+            self.running_prompts -= 1
+            self.completed_prompts += 1
+        else:
+            self.running_extra_prompts -= 1
 
-        logger.info(
-            f"request id size: {data.batch.batch_size[0]} "
-            f"response_batch_size: {response_batch_size} "
-            f"is_num_return_sequences_expand: {is_num_return_sequences_expand}"
-        )
-        self.cluster.start_server(data=DataProto(meta_info=data.meta_info), blocking=True)
-
-        # 分发数据至收到target rollout 完成
-        # 无限循环，把所有的response发送给dp worker
-        send_request_count = 0
-        request_refs = []
-        data_index_counter = itertools.count()
-        last_alive_check = time.time()
-        while not self.is_completed:
-
-            # 探测dp worker是否存活，dp worker的server thread可能由于异常退出，造成hang
-            current_time = time.time()
-            if current_time - last_alive_check >= self.alive_check_interval:
-                self.cluster.add_request(command=GenerateRequestType.ALIVE_CHECK, data=DataProto())
-                last_alive_check = current_time
-
-            if send_request_count < data.batch.batch_size[0]:
-                # 取一个可以发送request的dp worker
-                dp_rank = next(self.get_available_dp_rank())
-
-                # 还有数据需要发送, 取需要发送的数据
-                # request_id 全局递增，否则vllm/sglang scheduler状态不对
-                request_id = next(self.request_counter)
-                data_index = next(data_index_counter)
-                request_data = collate_fn([self.data[data_index]])
-                request_data.meta_info["request_id"] = str(request_id)
-                prompt_id = self.data[data_index].batch["prompt_id"].item()
-                self.request_id_2_prompt_id[request_data.meta_info["request_id"]] = request_data.batch[
-                    "prompt_id"
-                ].item()
-                self.request_id_2_dp_rank[request_data.meta_info["request_id"]] = dp_rank
-                self.prompt_id_2_request_ids[prompt_id].add(request_data.meta_info["request_id"])
-                # 需要注意上面的调用顺序, report_response中会更新request_id索引dp_rank，所以这里需要最后add request_id
-                request_data.meta_info["response_callback_fn"] = self.response_callback_fn
-                request_data.meta_info["generation_config"] = data.meta_info["generation_config"]
-                request_refs.append(
-                    self.cluster.workers[dp_rank].add_request.remote(
-                        command=GenerateRequestType.ADD, data=request_data
-                    )
-                )
-                with self.lock:
-                    self.load_balance_coordinator[dp_rank] += 1
-                self.dp_fetch_count[dp_rank] += 1
-                send_request_count += 1
-                if len(request_refs) % self.cluster.world_size == 0:
-                    ray.get(request_refs)
-                    request_refs = []
-
-        gen_metrics = self.cluster.stop_server()
-        generate_return_num = num_return_sequences
-        response_ids_list_of_list = []
-        eos_token_id = None
-        pad_token_id = None
-        for sample_index in range(len(self.responses)):
-            response_ids_list = []
-            for response in self.responses[sample_index]:
-                eos_token_id = response.meta_info["eos_token_id"]
-                pad_token_id = response.meta_info["pad_token_id"]
-                response_ids_list.extend(response.meta_info["output_token_ids"])
-            assert (
-                len(response_ids_list) >= generate_return_num
-            ), f"response_ids_list length {len(response_ids_list)} < generate_return_num {generate_return_num}"
-            response_ids_list_of_list.extend(response_ids_list[:generate_return_num])
-
-        response_ids_list_of_list = [torch.tensor(token_ids) for token_ids in response_ids_list_of_list]
-        output_tensor = pad_sequence(response_ids_list_of_list, batch_first=True, padding_value=pad_token_id)
-        output_tensor = concatenate_input_and_output(
-            input_ids=self.input_data.batch["input_ids"],
-            output_ids=output_tensor,
-            num_return_sequences=generate_return_num,
-        )
-        output: DataProto = postprocess_generate(
-            prompts=self.input_data,
-            output=output_tensor,
-            num_return_sequences=generate_return_num,
-            sequence_length=self.pipeline_config.sequence_length,
-            eos_token_id=eos_token_id,
-            pad_token_id=pad_token_id,
-        )
-        _, sorted_indices = torch.sort(output.batch["prompt_id"])
-        output.reorder(indices=sorted_indices)
-        output.pop("prompt_id")
-        self.data = None
-        output.meta_info["metrics"] = reduce_metrics(gen_metrics.meta_info.pop("metrics", {}))
-        logger.info(f"dp_fetch_count: {self.dp_fetch_count}")
-        return output
-
-    @ray.method(concurrency_group="single_thread")
-    def report_response(self, data: DataProto):
+    def commit(self, prompt_id, result: List[ExperienceItem]):
+        try:
+            if prompt_id not in self.prompt_id_to_start_step:
+                # Prompt has finished or has been garbage collected.
+                raise asyncio.CancelledError
+            start_step = self.prompt_id_to_start_step.pop(prompt_id)
+            if start_step is None:
+                raise RuntimeError("Prompt has not been bind to step, cannot commit.")
+            assert start_step in self.groups, "group must exits between begin and commit/abort"
+            # assert len(result) == num_return_sequences
+            assert all(item.sampling_start_step == start_step for item in result)
+            self._commit_prompt()
+            self.groups[start_step].commit_prompt(prompt_id, result)
+        finally:
+            self.event.set()
+
+    def _abort_prompt(self):
+        assert self.running_prompts + self.running_extra_prompts > 0
+        if self.running_prompts > 0:
+            self.running_prompts -= 1
+        else:
+            self.running_extra_prompts -= 1
+
+    def abort(self, prompt_id):
+        try:
+            if prompt_id not in self.prompt_id_to_start_step:
+                # Prompt has finished or has been garbage collected.
+                return
+            start_step = self.prompt_id_to_start_step.pop(prompt_id)
+            if start_step is None:
+                # Prompt has not been bind to step.
+                self._abort_prompt()
+                return
+            assert start_step in self.groups, "group must exits between begin and commit/abort"
+            self._abort_prompt()
+            self.groups[start_step].abort_prompt(prompt_id)
+        finally:
+            self.event.set()
+
+    async def get_batch(self, expected_samples: int, progress_bar) -> List[ExperienceItem]:
         """
-        本质上也是维护了一个状态机
+        await on this function to wait for enough requests to be collected
+
+        Assume self.groups will not be mutated during this function, i.e. min(self.groups,keys) and
+        max(self.groups.keys) will not change and no iterator invalidation.
         """
-        request_id = data.meta_info["request_id"]
-        prompt_id = self.request_id_2_prompt_id[request_id]
-        dp_rank = self.request_id_2_dp_rank[request_id]
-        with self.lock:
-            self.load_balance_coordinator[dp_rank] -= 1
-
-        if self.is_completed:
-            return
-
-        self.responses[prompt_id].append(data)
-        required_response_count = self.cluster.worker_config.generating_args.num_return_sequences
-        self.prompt_id_2_request_ids[prompt_id].remove(data.meta_info["request_id"])
-        if len(self.responses[prompt_id]) * self.response_batch_size >= required_response_count:
-            # 取已经完成的prompt_id，对应的request_ids，需要都取消
-            if prompt_id not in self.completed_count:
-                self.progress_bar.update(1)
-            self.completed_count.add(prompt_id)
-            abort_refs = []
-            for request_id in self.prompt_id_2_request_ids[prompt_id]:
-                with self.lock:
-                    self.load_balance_coordinator[dp_rank] -= 1
-                abort_refs.append(
-                    self.cluster.workers[dp_rank].add_request.remote(
-                        command=GenerateRequestType.ABORT, data=DataProto(meta_info={"request_id": request_id})
-                    )
-                )
-        if len(self.completed_count) >= self.prompt_count:
-            self.is_completed = True
+        min_step = self.current_step - math.ceil(self.async_generation_ratio)
+        # min_step_group must exist or min_step must less than min step of self.groups
+        assert min_step in self.groups or next(iter(self.groups)) > min_step
 
+        logger.info(f"ReplayBuffer get_batch: {self.current_step=} {min_step=} {expected_samples=}, {self.info()}")
 
-@ray.remote(concurrency_groups={"single_thread": 1, "multi_thread": 256})
-class DynamicSamplingScheduler:
+        collected_samples = 0
+        responses: List[List[DataProto]] = []
 
-    def __init__(self, pipeline_config=None):
-        self.pipeline_config = pipeline_config
-        set_seed(seed=pipeline_config.seed)
-        self.progress_bar: Optional[tqdm] = None
-        self.request_counter = None
-        self.dp_fetch_count = {}
-        self.load_balance_coordinator = {}
-        self.mp_rank_zero = {}
-        self.request_id_2_prompt_id: Dict[str, int] = {}
-        self.prompt_id_2_request_ids: Dict[int, set] = defaultdict(set)
-        # prompt_id to unique prompt hash value
-        self.prompt_id_2_hash_str: Dict[int, str] = {}
-        self.response_batch_size: Optional[int] = None
-        self.abort_request_ids: set[str] = set()
-        self.request_id_2_dp_rank = {}
-        self.requests_buffers: Dict[str, DataProto] = {}
-        self.lock = threading.Lock()
-        self.last_alive_check = time.time()
-        self.dataset_iter_count = 0
-        self.exception_queue = queue.Queue()
-        self.running = False
-        self.dataset_epoch = 0
-        self.reward_scheduler = RewardScheduler()
+        # Iter on self.groups will go from small step to large step.
+        for step, group in self.groups.items():
+            if step < min_step:
+                continue
+            elif step == self.current_step:
+                # special case: current running step, scheduler may have not send
+                # new prompts (because of concurrency), we handle it outside this for loop.
+                break
+            elif step == min_step:
+                if self.async_generation_ratio % 1 == 0:
+                    expected = expected_samples - collected_samples
+                else:
+                    expected = int(expected_samples * (self.async_generation_ratio % 1))
+            else:
+                expected = expected_samples - collected_samples
+            finished_prompts = await group.get_batch(expected_samples=expected)
+            amount = sum(len(response) for response in finished_prompts)
+            collected_samples += amount
+            progress_bar.update(amount)
+            responses.extend(finished_prompts)
+            if collected_samples >= expected_samples:
+                break
 
-        # Flow control measures. max_running_requests limits the maximum number of concurrent requests for each dp.
-        # max_additional_running_prompts limits the number of prompts running simultaneously to avoid excessive consumption of prompts.
-        self.max_running_requests = self.pipeline_config.max_running_requests
-        self.max_additional_running_prompts = self.pipeline_config.max_additional_running_prompts
-        self.is_use_additional_prompts = self.pipeline_config.is_use_additional_prompts
-        self.alive_check_interval = self.pipeline_config.alive_check_interval
-
-        self.actor_cluster = None
-        self.reward_clusters = None
-        self.reward_worker_iters = None
-        self.dataset = None
-        self.indices = []
-        self.batch_size = None
-        self.dataset_iter = None
-        self.collect_fn_cls = None
-        self.collect_fn_kwargs = None
-        self.collect_fn = None
-        self.tokenizer = None
-        self.processor = None
-        self.response_filter_fn = None
-        self.query_filter_fn = None
-        self.response_callback_fn = None
-        self.generation_config = None
-
-        self.completed_buffers = None
-        self.query_group_buffers = None
-
-        self.query_filter_count = 0
-        self.response_filter_count = 0
-        self.running_prompts = 0
-        self.response_cache: Dict[str, List] = None
-        self.prompt_use_count = 0
-        self.sequence_length = pipeline_config.sequence_length
-
-    def set_scheduler(
+        # step == self.current_step, wait for scheduler to send enough new prompts
+        while collected_samples < expected_samples:
+            # There may be no running prompt at this time,
+            # yield control to schedule process_new_prompt.
+            await asyncio.sleep(0)
+            finished_prompts = await group.get_batch(expected_samples=expected_samples-collected_samples)
+            amount = sum(len(response) for response in finished_prompts)
+            collected_samples += amount
+            # If want to update progress_bar in a fine-grained manner, can call get_batch on the latest step
+            # with expected_samples=num_return_sequences. But it will increase overhead.
+            progress_bar.update(amount)
+            responses.extend(finished_prompts)
+
+        result: List[ExperienceItem] = []
+        for response in responses:
+            result.extend(response)
+        assert len(result) == collected_samples
+        return result
+
+    def gc(self) -> List[int]:
+        """
+        Garbage collect old ItemsGroup.
+
+        Return aborted prompt ids to scheduler(caller) and
+        rely on scheduler(caller) to abort generate requests.
+
+        Assume called after get_batch(step=current_step) and before advance_step(step=current_step + 1),
+        and will garbage collect steps equal or less than current_step - min_start_step.
+
+        User must handle return value of begin and commit to check whether should shutdown.
+        """
+        # Assume the following operations are atomic (no yiled).
+        if self.current_step is None:
+            assert not self.groups
+            return []
+        max_gc_step = self.current_step - math.ceil(self.async_generation_ratio)
+        assert max_gc_step == self.current_step or self.async_generation_ratio > 0
+        assert not self.groups or max_gc_step <= next(reversed(self.groups))
+        aborted_prompts = []
+        # Must remove group after all prompts are gracefully aborted.
+        aborted_groups = []
+        # Iter on self.groups will go from small step to large step.
+        for step, group in self.groups.items():
+            if step <= max_gc_step:
+                aborted_prompts.extend(group.get_running_prompt_ids())
+                aborted_groups.append(step)
+        for prompt_id in aborted_prompts:
+            self.abort(prompt_id)
+        for step in aborted_groups:
+            assert self.groups[step].empty() or self.is_use_additional_prompts, f"{step=} {self.groups[step]=}"
+            del self.groups[step]
+        logger.info(f"ReplayBuffer {self.current_step=} {max_gc_step=} garbage collect groups {aborted_groups}")
+        return aborted_prompts
+
+
+class DynamicSamplingScheduler(RolloutMockMixin):
+    def __init__(
         self,
+        pipeline_config,
         actor_cluster: Union[Any, Cluster],
         reward_clusters: Dict[str, Union[Any, Cluster]],
         dataset: Dataset,
         collect_fn_cls,
         collect_fn_kwargs,
-        response_filter_fn=None,
-        query_filter_fn=None,
-        response_callback_fn=None,
         state: Dict[str, Any] = None,
         is_val: bool = False,
-        is_vlm: bool = False,
     ):
-        """
-        GenerateScheduler可以由多个实例，不再局限于单例
-        """
+        self.pipeline_config = pipeline_config
+        set_seed(seed=pipeline_config.seed)
+
         self.is_val = is_val
         if self.is_val:
             self.sequence_length = self.pipeline_config.val_sequence_length
             logger.info(f"validation generate scheduler sequence_length is: {self.sequence_length}")
         else:
+            self.sequence_length = pipeline_config.sequence_length
             logger.info(f"training generate scheduler sequence_length is: {self.sequence_length}")
 
+        # Initialize rollout mock mechanism from mixin (after is_val is set)
+        self._init_rollout_mock()
+
         self.actor_cluster = actor_cluster
+
         self.reward_clusters = reward_clusters
         self.reward_worker_iters = {}
         for domain, cluster in reward_clusters.items():
             self.reward_worker_iters[domain] = itertools.cycle(cluster.workers)
 
+        # metrics of a step
+        self.generate_timer = {domain: DurationTracker() for domain in reward_clusters.keys()}
+        self.reward_timer = {domain: DurationTracker() for domain in reward_clusters.keys()}
+
+        self.request_id = uuid.uuid4()
+        self.request_counter = 0
+
         self.dataset = dataset
         self.indices = list(range(len(dataset)))
         if state is not None and state.get("dataset_iter_count", 0) > 0:
             for _ in range(state["dataset_iter_count"]):
                 self.get_next_dataset_item()
+        self.dataset_epoch = 0
+        self.dataset_iter = None
+        self.dataset_iter_count = 0
 
         self.collect_fn_cls = collect_fn_cls
         self.collect_fn_kwargs = collect_fn_kwargs
         self.tokenizer = default_tokenizer_provider(model_args=self.actor_cluster.worker_config.model_args)
         self.processor = default_processor_provider(model_args=self.actor_cluster.worker_config.model_args)
-        if is_vlm:
+        if "processor" in [f.name for f in fields(collect_fn_cls)]:
             collect_fn_kwargs["processor"] = self.processor
         self.collect_fn = self.collect_fn_cls(tokenizer=self.tokenizer, **self.collect_fn_kwargs)
 
-        if self.is_use_additional_prompts:
-            self.response_filter_fn = response_filter_fn
-            self.query_filter_fn = query_filter_fn
-        else:
-            self.response_filter_fn = lambda data_list, config: True
-            self.query_filter_fn = lambda data_list, config: True
-            logger.info(f"use_additional_prompts is False, disable query and response filtering.")
-        self.response_callback_fn = response_callback_fn
-        dp_ranks: List[int] = [rank_info.dp_rank for rank_info in self.actor_cluster.worker_rank_info]
-        for i, dp_rank in enumerate(dp_ranks):
-            rank_info = self.actor_cluster.get_rank_info(rank=i)
-            if rank_info.tp_rank == 0 and rank_info.pp_rank == 0 and rank_info.cp_rank == 0:
-                self.mp_rank_zero[dp_rank] = self.actor_cluster.workers[i]
-
-        self.request_counter = GlobalCounter.options(
-            name=f"DynamicSchedulerRequestCounter",
-            get_if_exists=True,
-            namespace=RAY_NAMESPACE,
-        ).remote()
-
-    def reset_status(self):
-        self.completed_buffers: Dict[int, List[DataProto]] = defaultdict(list)
-        self.query_group_buffers: Dict[int, List[DataProto]] = defaultdict(list)
-
-        self.dp_fetch_count = {dp_rank: 0 for dp_rank in self.mp_rank_zero.keys()}
-        self.load_balance_coordinator = {dp_rank: 0 for dp_rank in self.mp_rank_zero.keys()}
-        self.request_id_2_prompt_id.clear()
-        self.prompt_id_2_request_ids.clear()
-        self.prompt_id_2_hash_str.clear()
-        self.abort_request_ids.clear()
-        self.request_id_2_dp_rank.clear()
-        self.requests_buffers.clear()
-        self.response_filter_count = 0
-        self.query_filter_count = 0
-        self.running_prompts = 0
-        self.prompt_use_count = 0
-        self.response_cache = defaultdict(list)
-        self.exception_queue = queue.Queue()
-        bar_name = "-".join(self.reward_clusters.keys())
-        self.progress_bar = tqdm(
-            total=self.batch_size,
-            desc=f"{bar_name} generate progress(prompt)",
-            mininterval=int(self.batch_size * 0.1) + 1,
+        self.async_sending_task = None
+
+        # Dynamic filter is supported no matter whether is_use_additional_prompts,
+        # is_use_additional_prompts is required when using dynamic num_return_sequences.
+        self.replay_buffer = ReplayBuffer(
+            async_generation_ratio=self.pipeline_config.async_generation_ratio if not is_val else 0,
+            is_use_additional_prompts=self.pipeline_config.is_use_additional_prompts if not is_val else False,
+            max_additional_running_prompts=self.pipeline_config.max_additional_running_prompts if not is_val else 0,
         )
 
-    def get_batch_opt_level_0(self, data: DataProto, batch_size: int) -> DataProto:
+        self.router_manager = RouterManager(self.actor_cluster, router_args=self.pipeline_config.router_args,
+                                            num_gpus_per_node=self.pipeline_config.num_gpus_per_node)
+        self.router_client = None
+
+        self.running_tasks: Dict[int, asyncio.Task] = {}
+
+        # meta_info is reassigned every step
+        self.meta_info = None
+
+        udrl_cls = safe_import_class(pipeline_config.user_defined_rollout_loop_cls)
+        assert udrl_cls
+        self.udrl = udrl_cls()
+
+        self.reward_scheduler = RewardScheduler()
+
+    async def initialize(self):
+        await self.router_manager.initialize()
+        self.router_client = await RouterManager.create_client(self.router_manager)
+
+        # async_sending_task is paused at start. But can not call self.pause_sampling directly here,
+        # becauseuActorInfer.strategy has not been initialized yet and is not ready to serve abort_requests rpc.
+        self.router_manager.suspend()
+
+        # async_sending_task coroutine will last during the whole training process, only stop at shutdown or exception.
+        # Because we do not need to pause all running prompts but only suspend generate requests, so that reward requests
+        # still can run during model update.
+        self.async_sending_task = asyncio.create_task(self.sending_request())
+
+    def next_request_id(self):
+        request_id = f"{self.request_id}_{self.request_counter}"
+        self.request_counter += 1
+        return request_id
+
+    def gc(self):
+        aborted_prompts = self.replay_buffer.gc()
+        for prompt_id in aborted_prompts:
+            if task := self.running_tasks.get(prompt_id, None):
+                task.cancel()
+
+    async def pause_sampling(self):
+        self.router_manager.suspend()
+        self.gc()
+        await self.router_manager.abort_all()
+        await self.router_manager.wait_complete()
+        logger.info(f"sampling paused, replay_buffer info: {self.replay_buffer.info()}")
+
+    async def shutdown(self):
+        self.replay_buffer.shutdown()
+        await self.router_manager.shutdown()
+        self.gc()
+        await self.async_sending_task
+
+    async def get_batch_opt_level_0(self, data: DataProto, batch_size: int) -> DataProto:
+        generation_config = copy.deepcopy(data.meta_info["generation_config"])
         completed_data: List[DataProto] = []
         query_use_count = 0
+        if self.is_val:
+            query_filter_fn = lambda data_list, config: True
+        else:
+            from roll.distributed.scheduler.user_defined_rollout_loop import query_filter
+            query_filter_fn = query_filter
+        query_filter_count = 0
 
         while len(completed_data) < batch_size:
             data_item_list = [self.get_next_dataset_item() for _ in range(batch_size)]
@@ -503,7 +569,7 @@ def get_batch_opt_level_0(self, data: DataProto, batch_size: int) -> DataProto:
 
             gen_batch = request_data.pop(batch_keys=["input_ids", "attention_mask", "position_ids"])
             gen_batch.meta_info = request_data.meta_info
-            num_return_sequences = self.generation_config["num_return_sequences"]
+            num_return_sequences = generation_config["num_return_sequences"]
             request_data = request_data.repeat(repeat_times=num_return_sequences)
 
             # Pad gen_batch to be divisible by dp_size to avoid errors
@@ -513,7 +579,7 @@ def get_batch_opt_level_0(self, data: DataProto, batch_size: int) -> DataProto:
 
             batch.union(other=request_data)
             batch.rename(old_keys="prompt_id", new_keys="origin_prompt_id")
-            batch_rewards = self.reward_scheduler.compute_rewards(data=batch, reward_clusters=self.reward_clusters, pipeline_config=self.pipeline_config)
+            batch_rewards = await self.reward_scheduler.compute_rewards(data=batch, reward_clusters=self.reward_clusters, pipeline_config=self.pipeline_config)
             metrics = batch.meta_info.pop("metrics", {})
             metrics.update(batch_rewards.meta_info.pop("metrics", {}))
 
@@ -522,216 +588,140 @@ def get_batch_opt_level_0(self, data: DataProto, batch_size: int) -> DataProto:
             batch.meta_info["metrics"] = metrics
             batch_grouped: Dict[str, DataProto] = batch.group_by("origin_prompt_id")
             for prompt_id, batch_item in batch_grouped.items():
-                if self.query_filter_fn([batch_item], self.pipeline_config):
+                if query_filter_fn([batch_item], self.pipeline_config):
                     completed_data.append(batch_item)
                 else:
-                    self.query_filter_count += 1
+                    query_filter_count += 1
             query_use_count += batch_size
 
-        batch = DataProto.concat(completed_data[: self.batch_size])
+        batch = DataProto.concat(completed_data[: batch_size])
         batch.meta_info["metrics"] = {
-            f"scheduler/query_filter_count": self.query_filter_count,
-            f"scheduler/response_filter_count": self.response_filter_count,
-            f"scheduler/collect_query_count": self.batch_size,
+            f"scheduler/query_filter_count": query_filter_count,
+            f"scheduler/collect_query_count": batch_size,
             f"scheduler/query_use_count": query_use_count,
         }
-        self.reset_status()
         return batch
 
-
-    def get_batch(self, data: DataProto, batch_size: int) -> DataProto:
-        """
-        从dataset里，按给定策略sample batch
-        1. 常规无过滤
-        2. 动态过滤
-        """
-        self.batch_size = batch_size
-        self.reset_status()
-        self.running = True
-        self.generation_config = copy.deepcopy(data.meta_info["generation_config"])
+    async def get_batch(self, data: DataProto, global_step: int, batch_size: int) -> DataProto:
+        # MOCK MODE: Load pre-recorded data, skip rollout (from mixin)
+        if self._should_load_mock(global_step):
+            return await self._load_mock_batch(global_step)
 
         if self.pipeline_config.generate_opt_level == 0:
-            return self.get_batch_opt_level_0(data, batch_size)
+            return await self.get_batch_opt_level_0(data, batch_size)
 
-        prompt_id_counter = itertools.count()
-        num_return_sequences = self.generation_config["num_return_sequences"]
-        while True:
-            if (
-                sum([len(v) for v in list(self.completed_buffers.values())[:]])
-                >= self.batch_size * num_return_sequences
-            ):
-                self.running = False
-                break
-            self.check_worker_alive(self.actor_cluster)
-            self.check_response_callback()
-            if not self.check_send_new_request():
-                time.sleep(1)
-                continue
+        num_return_sequences = data.meta_info["generation_config"]["num_return_sequences"]
+        self.meta_info = copy.deepcopy(data.meta_info)
+        self.meta_info["collect_non_finish"] = self.pipeline_config.async_generation_ratio > 0
 
-            # get a query from dataset
-            prompt_id = next(prompt_id_counter)
-            dataset_item = self.get_next_dataset_item()
-            if int(os.environ.get("REPORT_LENGTH_AND_REWARDS", "0")):
-                prompt_digest = hashlib.md5(
-                    (dataset_item.get('prompt', '') + dataset_item.get('messages', '')).encode()
-                ).digest()
-            domain = dataset_item.get("domain", "default")
-            collect_data = self.collect_fn([dataset_item])
-            request_data: DataProto = DataProto.from_single_dict(collect_data, meta_info=data.meta_info)
+        assert self.router_manager.size() == 0, f"worker state: {self.router_manager.size()}"
+        # Notice: self.replay_buffer.running_prompts may not be 0 because
+        # pause_sampling only pause generate request but not reward request.
 
-            # replica, redundancy
-            request_data_list = self.expand_requests(request_data)
-
-            dp_rank = next(self.get_available_dp_rank())
-            with self.lock:
-                self.prompt_use_count += 1
-                self.running_prompts += 1
-                for req in request_data_list:
-                    # get a available worker, 需要控制max_running_request, 当前策略会始终保持worker的满载
-                    request_id = ray.get(self.request_counter.get_value.remote())
-                    req.meta_info["request_id"] = f"{request_id}"
-                    req.meta_info["response_callback_fn"] = self.response_callback_fn
-                    self.request_id_2_prompt_id[req.meta_info["request_id"]] = prompt_id
-                    self.request_id_2_dp_rank[req.meta_info["request_id"]] = dp_rank
-                    self.prompt_id_2_request_ids[prompt_id].add(req.meta_info["request_id"])  # 用于replica情况
-                    if int(os.environ.get("REPORT_LENGTH_AND_REWARDS", "0")):
-                        self.prompt_id_2_hash_str[prompt_id] = base64.urlsafe_b64encode(prompt_digest).decode().rstrip('=') # prompt_id 对应 unique prompt
-                    self.requests_buffers[req.meta_info["request_id"]] = req
-                    self.actor_cluster.workers[dp_rank].add_request.remote(command=GenerateRequestType.ADD, data=req)
-                    req.meta_info.pop("response_callback_fn")
-                    self.load_balance_coordinator[dp_rank] += 1
-                    self.dp_fetch_count[dp_rank] += 1
-
-        completed_buffers = {k: v for k, v in self.completed_buffers.items() if len(v) > 0}
-        collect_data = [item for sublist in list(completed_buffers.values())[:] for item in sublist]
-        query_use_count = next(prompt_id_counter)
-        logger.info(
-            f"total collect data: {len(collect_data)}, collect queries: {len(completed_buffers)} "
-            f"used queries: {query_use_count}  query_filter_count: {self.query_filter_count} "
-            f"response_filter_count: {self.response_filter_count}"
+        self.replay_buffer.advance_step(step=global_step, batch_size=batch_size)
+        logger.info(f"start sampling, {global_step=} {batch_size=}, {self.replay_buffer.info()}")
+        self.router_manager.resume()
+
+        bar_name = "-".join(self.reward_clusters.keys())
+        progress_bar = tqdm(
+            total=batch_size * num_return_sequences,
+            desc=f"{bar_name} generate progress(prompt)",
+            mininterval=int(batch_size * 0.1) + 1,
         )
-        # TODO: 这里 len(collect_data) > rollout_batch_size, 可以尝试动态扩大batch_size
-        batch = DataProto.concat(collect_data[: self.batch_size * num_return_sequences])
-        batch.meta_info["metrics"] = {
-            f"scheduler/query_filter_count": self.query_filter_count,
-            f"scheduler/response_filter_count": self.response_filter_count,
-            f"scheduler/collect_query_count": len(completed_buffers),
-            f"scheduler/query_use_count": query_use_count,
+
+        # await on both get_batch and async_sending_task to receive exception from async_sending_task as soon as possible
+        get_task = asyncio.create_task(
+            self.replay_buffer.get_batch(expected_samples=batch_size * num_return_sequences, progress_bar=progress_bar)
+        )
+        await asyncio.wait({get_task, self.async_sending_task}, return_when=asyncio.FIRST_COMPLETED)
+        if self.async_sending_task.done():
+            assert self.async_sending_task.exception() is not None
+            await self.async_sending_task
+        assert get_task.done()
+        finished_items = await get_task
+
+        if self.pipeline_config.is_use_additional_prompts:
+            # Keep the first batch_size*num_return_sequences ExperienceItem now.
+            assert len(finished_items) >= batch_size * num_return_sequences
+            finished_items = finished_items[:batch_size * num_return_sequences]
+        assert len(finished_items) == batch_size * num_return_sequences
+        batch = self.collect_items_as_batch(finished_items=finished_items)
+
+        if self.is_val or self.pipeline_config.async_generation_ratio <= 0:
+            await self.pause_sampling()
+            assert not self.replay_buffer.groups, f"{self.replay_buffer.groups=}"
+
+        for domain in self.reward_clusters.keys():
+            metrics = {}
+            generate_stat = self.generate_timer[domain].log()
+            metrics[f"scheduler/{domain}/time/generate/count"] = generate_stat["count"]
+            metrics[f"scheduler/{domain}/time/generate/min"] = generate_stat["min"]
+            metrics[f"scheduler/{domain}/time/generate/max"] = generate_stat["max"]
+            metrics[f"scheduler/{domain}/time/generate/mean"] = generate_stat["mean"]
+            reward_stat = self.reward_timer[domain].log()
+            metrics[f"scheduler/{domain}/time/reward/count"] = reward_stat["count"]
+            metrics[f"scheduler/{domain}/time/reward/min"] = reward_stat["min"]
+            metrics[f"scheduler/{domain}/time/reward/max"] = reward_stat["max"]
+            metrics[f"scheduler/{domain}/time/reward/mean"] = reward_stat["mean"]
+            batch.meta_info["metrics"].update(metrics)
+
+        # DUMP MODE: Save merged batch (from mixin)
+        await self._maybe_dump_batch(batch, global_step)
+
+        return batch
+
+    def collect_items_as_batch(self, finished_items: List[ExperienceItem]) -> DataProto:
+        collect_data_by_domain = defaultdict(list)
+        data_off_policy_step = 0.0
+        prompt_ids = set()
+        for item in finished_items:
+            collect_data_by_domain[item.domain].append(item.data)
+            data_off_policy_step += self.replay_buffer.current_step - item.sampling_start_step
+            prompt_ids.add(item.prompt_id)
+        data_off_policy_step = data_off_policy_step / len(finished_items)
+
+        collect_data_by_domain = {
+            domain: DataProto.concat(data_list) for domain, data_list in collect_data_by_domain.items()
         }
+        query_use_count = len(prompt_ids)
+        collect_data_num = sum(data.batch.batch_size[0] for data in collect_data_by_domain.values())
+        assert collect_data_num == len(finished_items)
+        logger.info(f"total collect data: {collect_data_num}, collect queries: {query_use_count}")
+
+        batch = DataProto.concat(list(collect_data_by_domain.values()))
+        # TODO support response_filter_count and query_filter_count
+        batch.meta_info.setdefault("metrics", {}).update({
+            f"scheduler/collect_query_count": query_use_count,
+            f"scheduler/query_use_count": query_use_count,
+            f"scheduler/off_policy_ratio": data_off_policy_step,
+        })
 
-        # 统计全部response metrics
         metrics = {}
-        for domain, response_batches in self.response_cache.items():
-            response_batch = DataProto.concat(response_batches[:])
+        for domain, response_batch in collect_data_by_domain.items():
             sequence_score = response_batch.batch["scores"]
             metrics[f"scheduler/{domain}/score/mean"] = torch.mean(sequence_score).detach().item()
             metrics[f"scheduler/{domain}/score/max"] = torch.max(sequence_score).detach().item()
             metrics[f"scheduler/{domain}/score/min"] = torch.min(sequence_score).detach().item()
-
         batch.meta_info["metrics"].update(metrics)
-        self.reset_status()
 
-        return batch
+        # TODO shigao implement REPORT_LENGTH_AND_REWARDS (deleted at refactor)
 
-    @ray.method(concurrency_group="multi_thread")
-    def report_response(self, data: DataProto):
-        """
-        这里需要考虑多线程数据访问
-        data 返回可能有多条的
-        """
-        try:
-            request_id = data.meta_info["request_id"]
-            prompt_id = self.request_id_2_prompt_id[request_id]
-            num_return_sequences = self.generation_config["num_return_sequences"]
-
-            batch = self.postprocess_output_ids(data)
-            output_count = batch.batch.batch_size[0]
-            with self.lock:
-                self.load_balance_coordinator[self.request_id_2_dp_rank[request_id]] -= 1
-                self.prompt_id_2_request_ids[prompt_id].remove(request_id)
-                domain = "default"
-                if "domain" in batch.non_tensor_batch.keys():
-                    domain = batch.non_tensor_batch["domain"][0]
-                reward_worker = next(self.reward_worker_iters[domain])
-
-            if not self.running:
-                return
-
-            # call reward
-            # reward worker得能支持单条数据计算, dynamic sampling对需要batch计算reward的需要注意...
-            # 多域的时候,llm as judge, 需要单独为reward worker分配gpu
-
-            # set rollout id
-            batch.non_tensor_batch["rollout_id"] = np.array([str(uuid.uuid4()) for _ in range(output_count)], dtype=object)
-
-            rewards: DataProto = ray.get(reward_worker.compute_rewards.remote(batch))
-            batch.union(rewards)
-
-            response_buffers: List[DataProto] = []
-            batch_expanded = [batch[[idx]] for idx in range(output_count)]
+        return batch
 
-            # response_filter, 不太需要response filter
-            for batch_item in batch_expanded:
-                if self.response_filter_fn(batch_item, self.pipeline_config):
-                    response_buffers.append(batch_item)
-                else:
-                    self.response_filter_count += 1
-
-            with self.lock:
-                self.response_cache[domain].extend(batch_expanded)
-
-                if len(response_buffers) == 0:
-                    if len(self.prompt_id_2_request_ids[prompt_id]) == 0:
-                        self.running_prompts -= 1
-                    return
-
-                if len(self.completed_buffers[prompt_id]) > 0:
-                    return
-
-                # expand batch to response
-                self.query_group_buffers[prompt_id].extend(response_buffers)
-
-                # query_filter, query has n responses
-                if len(self.query_group_buffers[prompt_id]) >= num_return_sequences:
-                    if not self.query_filter_fn(self.query_group_buffers[prompt_id], self.pipeline_config):
-                        self.query_filter_count += 1
-                        del self.query_group_buffers[prompt_id]
-                        self.abort_requests(self.prompt_id_2_request_ids[prompt_id])
-                        return
-
-                    assert len(self.query_group_buffers[prompt_id]) >= num_return_sequences, (
-                        f"expect to generate {num_return_sequences} results from one prompt, "
-                        f"but get {len(self.query_group_buffers[prompt_id])}."
-                    )
-                    self.completed_buffers[prompt_id] = self.query_group_buffers[prompt_id][:num_return_sequences]
-                    self.progress_bar.update()
-
-                    if int(os.environ.get("REPORT_LENGTH_AND_REWARDS", "0")):
-                        # report response level rewards
-                        response_level_rewards = [data.batch["response_level_rewards"] for data in self.query_group_buffers[prompt_id]]
-                        response_rewards = torch.cat(response_level_rewards, dim=0).long().cpu().tolist()
-                        prompt_hash = self.prompt_id_2_hash_str.pop(prompt_id)
-                        prompt_response_proto = DataProto.concat(self.query_group_buffers[prompt_id][:num_return_sequences])
-                        # report response level lengths
-                        response_lengths = torch.sum(prompt_response_proto.batch["response_mask"], dim=1).cpu().tolist()
-
-                        lengths_and_rewards = {
-                            'domain': domain,
-                            'prompt_hash': prompt_hash,
-                            'response_lengths': response_lengths,
-                            'response_rewards': response_rewards
-                        }
-                        length_dir = os.path.join(self.pipeline_config.length_profiler_dir, "length")
-                        os.makedirs(length_dir, exist_ok=True)
-                        filename = f"response-length-and-rewards-{domain}-ep{self.dataset_epoch}.jsonl"
-                        length_file_path = os.path.join(length_dir, filename)
-                        with open(length_file_path, "a") as f:
-                            f.write(json.dumps(lengths_and_rewards) + "\n")
-
-                    # abort uncompleted request
-                    self.abort_requests(self.prompt_id_2_request_ids[prompt_id])
-        except Exception as e:
-            self.exception_queue.put(e)
+    async def sending_request(self):
+        async with TaskGroup() as tg:
+            while True:
+                try:
+                    prompt_id = await self.replay_buffer.poll()
+                except:
+                    logger.info(f"stop sending_request coroutine")
+                    break
+                task = tg.create_task(RolloutContext.process_new_prompt(scheduler=self, prompt_id=prompt_id))
+                self.running_tasks[prompt_id] = task
+
+            # The above loop only break at shutdown, it is safe to abort all infligh requests here.
+            await self.router_manager.abort_all()
+            # Implicitly wait until all running tasks finished when TaskGroup context exit.
 
     def get_next_dataset_item(self):
         if self.dataset_iter is None:
@@ -755,216 +745,154 @@ def get_next_dataset_item(self):
     def get_scheduler_state(self):
         return {"dataset_iter_count": self.dataset_iter_count}
 
-    def abort_requests(self, request_ids: Set[str]):
-        abort_refs = []
-        self.running_prompts -= 1
-        for request_id in request_ids:
-            dp_rank = self.request_id_2_dp_rank[request_id]
-            self.load_balance_coordinator[dp_rank] -= 1
-            abort_refs.append(
-                self.actor_cluster.workers[dp_rank].add_request.remote(
-                    command=GenerateRequestType.ABORT, data=DataProto(meta_info={"request_id": request_id})
-                )
-            )
-
-    def postprocess_output_ids(self, data: DataProto) -> DataProto:
-        # postprocess_generate, input_ids, attention_mask, left pad
-        request_id = data.meta_info["request_id"]
-        request: DataProto = self.requests_buffers.pop(request_id)
 
-        eos_token_id = data.meta_info["eos_token_id"]
-        pad_token_id = data.meta_info["pad_token_id"]
-        output_token_ids = data.meta_info["output_token_ids"]
-        output_tokens = [torch.tensor(token_ids) for token_ids in output_token_ids]
+class RolloutContext:
+    """
+    Helper class to manage life cycle of rollout of a prompt.
+    Provide a context manager based interface to user and hide implementation
+    details of DynamicSamplingScheduler, Router and ReplayBuffer from user.
+    """
 
-        output_logprobs = data.meta_info.get("output_logprobs", None)
-
-        output_tensor = pad_sequence(output_tokens, batch_first=True, padding_value=pad_token_id)
-        output_tensor = concatenate_input_and_output(
-            input_ids=request.batch["input_ids"], output_ids=output_tensor, num_return_sequences=len(output_tokens)
-        )
-        output: DataProto = postprocess_generate(
-            prompts=request,
-            output=output_tensor,
-            num_return_sequences=len(output_tokens),
-            sequence_length=self.sequence_length,
-            eos_token_id=eos_token_id,
-            pad_token_id=pad_token_id,
-            output_logprobs=output_logprobs,
-        )
-        request_repeat = request.repeat(repeat_times=len(output_tokens))
-        output.non_tensor_batch = request_repeat.non_tensor_batch
-        output.meta_info = request_repeat.meta_info
-        return output
-
-    def expand_requests(self, data: DataProto):
-        """
-        replica, 以及redundancy
-        """
-        generate_opt_level = self.pipeline_config.generate_opt_level
-        is_num_return_sequences_expand = self.pipeline_config.is_num_return_sequences_expand
-        num_return_sequences = self.generation_config["num_return_sequences"]
-
-        assert generate_opt_level > 0, (
-            f"generate_opt_level {generate_opt_level} should > 0, " f"in dynamic sampling scheduler."
-        )
-        assert "generation_config" in data.meta_info, f"data {data.meta_info} should have key 'generation_config'"
-        generation_config = data.meta_info["generation_config"]
-
-        target_requests = []
-        if is_num_return_sequences_expand:
-            generation_config["num_return_sequences"] = 1
-            for _ in range(num_return_sequences):
-                target_requests.append(copy.deepcopy(data))
+    @staticmethod
+    async def process_new_prompt(
+        scheduler: DynamicSamplingScheduler,
+        prompt_id: int,
+    ):
+        num_return_sequences = scheduler.meta_info["generation_config"]["num_return_sequences"]
+        context = RolloutContext(scheduler=scheduler, prompt_id=prompt_id, meta_info=scheduler.meta_info)
+        success = False
+        try:
+            responses = await scheduler.udrl.process_new_prompt(context=context)
+            if responses is None:
+                logger.info(f"filter out prompt {prompt_id}")
+                raise asyncio.CancelledError # abort this prompt
+            responses = expand_responses(responses)
+            assert (
+                len(responses) == num_return_sequences or scheduler.replay_buffer.is_use_additional_prompts
+            ), "is_use_additional_prompts is required when using dynamic num_return_sequences"
+        except Exception as e:
+            logger.warning(f"abort prompt {prompt_id} on exception {e}")
+            raise
         else:
-            generation_config["num_return_sequences"] = num_return_sequences
-            target_requests.append(copy.deepcopy(data))
-
-        return target_requests
-
-    def check_worker_alive(self, cluster):
-        # 探测dp worker是否存活，dp worker的server thread可能由于异常退出，造成hang
-        current_time = time.time()
-        if current_time - self.last_alive_check >= self.alive_check_interval:
-            cluster.add_request(command=GenerateRequestType.ALIVE_CHECK, data=DataProto())
-            self.last_alive_check = current_time
-
-    def check_response_callback(self):
-        if self.exception_queue.qsize() > 0:
-            e = self.exception_queue.get()
-            logger.error(f"report_response get exception {e}")
-            raise e
-
-    def check_send_new_request(self) -> bool:
-        if self.running_prompts >= (self.batch_size + self.max_additional_running_prompts):
-            return False
-        if not self.is_use_additional_prompts and self.prompt_use_count >= self.batch_size:
-            return False
-        return True
-
-    def get_available_dp_rank(self):
-        while True:
-            # 负载均衡逻辑，期望各dp 正在处理的条数基本接近
-            sorted_ranks = sorted(
-                self.load_balance_coordinator.keys(), key=lambda rank: (self.load_balance_coordinator[rank], rank)
-            )
-            if self.load_balance_coordinator[sorted_ranks[0]] < self.max_running_requests:
-                yield sorted_ranks[0]
-
-
-@ray.remote
-class GlobalCounter:
-    def __init__(self):
-        self.value = -1
-
-    def get_value(self):
-        self.value += 1
-        return self.value
-
+            success = True
+        finally:
+            scheduler.running_tasks.pop(prompt_id, None)
+
+            # commit/abort should be put at last in finally block, because commit may raise exception
+            if not success:
+                scheduler.replay_buffer.abort(prompt_id)
+            else:
+                assert context.sampling_start_step is not None
+                scheduler.replay_buffer.commit(
+                    prompt_id,
+                    [
+                        ExperienceItem(
+                            prompt_id=prompt_id,
+                            domain=context.domain,
+                            sampling_start_step=context.sampling_start_step,
+                            data=response,
+                        )
+                        for response in responses
+                    ],
+                )
 
-@ray.remote
-class RequestScheduler:
-    def __init__(self, infer_cluster, pipeline_config):
-        self.infer_cluster = infer_cluster
-        self.pipeline_config = pipeline_config
-        self.request_id = uuid.uuid4()
-        self.request_counter = 0
-        self.src_rank2_dp_rank = {}
-        self.request_id_2_dp_rank = {}
-        self.inflight_requests: List[Dict[str, asyncio.Future]] = [{} for _ in range(self.infer_cluster.world_size)]
-        self.worker_iter = itertools.cycle(range(self.infer_cluster.world_size))
-
-        self.need_suspend = False
-        self.suspend_notifier = asyncio.Event()
-
-    async def generate_one_request(self, data: DataProto):
-        await self._check_suspend()
-
-        src_rank = data.meta_info["src_rank"]
-        if src_rank not in self.src_rank2_dp_rank:
-            dp_rank = next(self.worker_iter)
-            self.src_rank2_dp_rank[src_rank] = dp_rank
-        dp_rank = self.src_rank2_dp_rank[src_rank]
-        request_id = f"{self.request_id}_{self.request_counter}"
-        self.request_counter += 1
-        data.meta_info["request_id"] = request_id
-        fut = asyncio.Future()
-        self.request_id_2_dp_rank[request_id] = dp_rank
-        self.inflight_requests[dp_rank][request_id] = fut
-        ref = self.infer_cluster.workers[dp_rank].add_request.remote(command=GenerateRequestType.ADD, data=data)
-        await asyncio.wrap_future(ref.future())
-        response_data = await fut
-        if response_data is None:
-            # request aborted
-            return None
-
-        # postprocess_generate, input_ids, attention_mask, left pad
-        eos_token_id = response_data.meta_info["eos_token_id"]
-        pad_token_id = response_data.meta_info["pad_token_id"]
-        output_token_ids = response_data.meta_info["output_token_ids"]
-        output_tokens = [torch.tensor(token_ids) for token_ids in output_token_ids]
-
-        output_logprobs = response_data.meta_info.get("output_logprobs", None)
-
-        output_tensor = pad_sequence(output_tokens, batch_first=True, padding_value=pad_token_id)
-        output_tensor = concatenate_input_and_output(
-            input_ids=data.batch["input_ids"], output_ids=output_tensor, num_return_sequences=len(output_tokens)
-        )
-        output: DataProto = postprocess_generate(
-            prompts=data,
-            output=output_tensor,
-            num_return_sequences=len(output_tokens),
-            sequence_length=output_tensor.shape[-1],
-            eos_token_id=eos_token_id,
-            pad_token_id=pad_token_id,
-            pad_to_seq_len=data.meta_info.get("pad_to_seq_len", True),
-            output_logprobs=output_logprobs,
-        )
-        request_repeat = data.repeat(repeat_times=len(output_tokens))
-        output.non_tensor_batch = request_repeat.non_tensor_batch
-        output.meta_info = request_repeat.meta_info
-        return output
-
-    async def report_response(self, data: DataProto, is_abort=False):
-        request_id = data.meta_info["request_id"]
-        if request_id not in self.request_id_2_dp_rank:
-            return
-        dp_rank = self.request_id_2_dp_rank.pop(request_id)
-        fut = self.inflight_requests[dp_rank].pop(request_id)
-        if is_abort:
-            fut.set_result(None)
+    def __init__(
+        self,
+        scheduler: DynamicSamplingScheduler,
+        prompt_id: int,
+        meta_info,
+    ):
+        # store reference to scheduler as a 'proxy'
+        self._scheduler: DynamicSamplingScheduler = scheduler
+
+        # export system/prompt level meta info and config to user
+        self.prompt_id = prompt_id
+        self.meta_info = copy.deepcopy(meta_info) # user may change config in meta_info
+        self.pipeline_config = scheduler.pipeline_config
+        self.is_val = scheduler.is_val
+        self.sequence_length = scheduler.sequence_length
+        self.prompt_length = scheduler.pipeline_config.prompt_length
+        self.is_num_return_sequences_expand = scheduler.pipeline_config.is_num_return_sequences_expand
+
+        # User can call reward worker of different domain in for a single data, but ExperienceItem.domain is bind to dataset
+        self.domain = None
+
+        # The following attributes are setted after generate and reward begin.
+        self.sampling_start_step = None
+        self.inflight_requests = None
+        self._in_do_generate_and_reward = False
+
+    def get_request_data(self, meta_info):
+        assert not self._in_do_generate_and_reward and self.sampling_start_step is None
+
+        # TODO allow user to get multiple data inside a RolloutContext?
+        if getattr(self, "got_data", False):
+            raise RuntimeError("Should call get_request_data only once."
+                               " If want ot filter dataset item out, return None"
+                               " and let framework to schedule another prompt")
         else:
-            fut.set_result(data)
+            self.got_data: bool = True
+
+        dataset_item = self._scheduler.get_next_dataset_item()
+        domain = dataset_item.get("domain", "default")
+        collect_data = self._scheduler.collect_fn([dataset_item])
+        self.domain = domain
+        return DataProto.from_single_dict(collect_data, meta_info=meta_info), domain
+
+    @asynccontextmanager
+    async def do_generate_and_reward(self, max_concurrency):
+        assert not self._in_do_generate_and_reward and self.sampling_start_step is None
+        self._in_do_generate_and_reward = True
+
+        # Assume sampling_start_step of all samples of this prompt are the same, however
+        # the real sampling_start_step can be different from self.sampling_start_step.
+        self.sampling_start_step = await self._scheduler.replay_buffer.begin(prompt_id=self.prompt_id)
+        self.inflight_requests = set()
+        try:
+            yield
+        finally:
+            assert not self.inflight_requests, f"User should gather all running requests: {self.inflight_requests}"
+            self._in_do_generate_and_reward = False
 
-    async def abort_request(self):
-        futures = []
-        for i in range(self.infer_cluster.world_size):
-            if len(self.inflight_requests[i]) == 0:
-                continue
-            ref = self.infer_cluster.workers[i].add_request.remote(
-                    command=GenerateRequestType.ABORT, data=DataProto(
-                        meta_info={"request_id": [request_id for request_id in self.inflight_requests[i].keys()]}
-                    )
-                )
-            futures.append(ref)
-            for request_id in self.inflight_requests[i].keys():
-                futures.append(self.report_response(data=DataProto(meta_info={"request_id": request_id}), is_abort=True))
-        # must await at last, because report_response will mut inflight_requests
-        await asyncio.gather(*futures)
-
-    async def _check_suspend(self):
-        while self.need_suspend:
-            await self.suspend_notifier.wait()
-
-    async def suspend(self):
-        if self.need_suspend:
-            return
-        self.suspend_notifier.clear()
-        self.need_suspend = True
-        await self.abort_request()
-
-    def resume(self):
-        if not self.need_suspend:
-            return
-        self.need_suspend = False
-        self.suspend_notifier.set()
+    async def generate(
+        self,
+        req: DataProto,
+        domain: str,
+    ) -> DataProto:
+        assert self._in_do_generate_and_reward
+        with self._scheduler.generate_timer[domain].track():
+            request_id = self._scheduler.next_request_id()
+            req.meta_info["request_id"] = request_id
+            logger.debug(f"generate_and_reward: {self.prompt_id=} {request_id} generate_request")
+            self.inflight_requests.add(request_id)
+            try:
+                return await self._scheduler.router_client.generate_request(req=req, request_id=request_id, uid=self.prompt_id)
+            finally:
+                self.inflight_requests.remove(request_id)
+
+    async def compute_rewards(
+        self,
+        req: DataProto,
+        domain: str,
+    ) -> DataProto:
+        # reward worker得能支持单条数据计算, dynamic sampling对需要batch计算reward的需要注意...
+        # 多域的时候,llm as judge, 需要单独为reward worker分配gpu
+        assert self._in_do_generate_and_reward
+        with self._scheduler.reward_timer[domain].track():
+            reward_worker = next(self._scheduler.reward_worker_iters[domain])
+            logger.debug(f"generate_and_reward: {self.prompt_id=} compute_rewards")
+            output_count = req.batch.batch_size[0]
+            req.non_tensor_batch["rollout_id"] = np.array([str(uuid.uuid4()) for _ in range(output_count)], dtype=object)
+            return await reward_worker.compute_rewards.remote(req)
+
+    async def abort_running_requests(self):
+        """
+        Abort all running requests.
+
+        Notice: Both abort and partial rollout will return a unfinished response, user should distinguish
+        these two cases by themselves to avoid dead loop (if do not check abort state in multi-turn rollout,
+        may send generate request again).
+        """
+        assert self._in_do_generate_and_reward
+        assert self.prompt_id is not None
+        self._scheduler.router_manager.abort_requests(request_ids=list(self.inflight_requests), uid=self.prompt_id)
diff --git a/roll/distributed/scheduler/resource_manager.py b/roll/distributed/scheduler/resource_manager.py
index ac9810f41..3779827f7 100644
--- a/roll/distributed/scheduler/resource_manager.py
+++ b/roll/distributed/scheduler/resource_manager.py
@@ -39,6 +39,7 @@ def __init__(self, num_gpus_per_node, num_nodes):
 
         if self.gpu_per_node > 0:
             assert self.num_gpus <= available_gpu, f"num_gpus {self.num_gpus} > available_gpu {available_gpu}"
+            
             bundles = []
             for i in range(self.num_nodes):
                 node = nodes_maybe_used[i]
@@ -47,6 +48,7 @@ def __init__(self, num_gpus_per_node, num_nodes):
 
             self.placement_groups = [ray.util.placement_group([bundle]) for bundle in bundles]
             ray.get([pg.ready() for pg in self.placement_groups])
+
             gpu_ranks = ray.get([
                 get_visible_gpus.options(
                     placement_group=pg,
@@ -89,7 +91,8 @@ def nodes_placement_group(self, node_rank) -> PlacementGroup:
         return self.node2pg[node_rank]
 
     def destroy_placement_group(self):
-        [ray.util.remove_placement_group(pg) for pg in self.placement_groups]
+        for pg in self.placement_groups:
+            ray.util.remove_placement_group(pg)
 
     def allocate_placement_group(self, world_size, device_mapping: List[int] = None) -> List[List[Dict]]:
         """
diff --git a/roll/distributed/scheduler/reward_scheduler.py b/roll/distributed/scheduler/reward_scheduler.py
index 5619539e4..a58132c0f 100644
--- a/roll/distributed/scheduler/reward_scheduler.py
+++ b/roll/distributed/scheduler/reward_scheduler.py
@@ -1,3 +1,4 @@
+import asyncio
 from collections import defaultdict
 from typing import Dict, Optional, List, Any
 
@@ -29,7 +30,7 @@ def __init__(self):
         self.pipeline_config = None
         self.progress_bar: Optional[tqdm] = None
 
-    def compute_rewards(self, data: DataProto, reward_clusters: Dict[str, Any], pipeline_config) -> DataProto:
+    async def compute_rewards(self, data: DataProto, reward_clusters: Dict[str, Any], pipeline_config) -> DataProto:
         """
         保序返回rewards
         """
@@ -54,7 +55,8 @@ def compute_rewards(self, data: DataProto, reward_clusters: Dict[str, Any], pipe
             # reward worker compute_rewards 接口返回结果保序
             if domain not in grouped_data.keys():
                 continue
-            domain_rewards: DataProto = DataProto.materialize_concat(data_refs=domain_rewards_ref)
+            data = await asyncio.gather(*[ref.obj_ref for ref in domain_rewards_ref])
+            domain_rewards: DataProto = DataProto.concat(data)
             domain_rewards.batch["prompt_id"] = grouped_data[domain].batch["prompt_id"]
             rewards_list.append(domain_rewards)
 
diff --git a/roll/distributed/scheduler/rollout_mock_mixin.py b/roll/distributed/scheduler/rollout_mock_mixin.py
new file mode 100644
index 000000000..ece814cf5
--- /dev/null
+++ b/roll/distributed/scheduler/rollout_mock_mixin.py
@@ -0,0 +1,200 @@
+"""
+Rollout Mock Mixin for dump/mock mechanism.
+
+This mixin provides dump/mock functionality for schedulers to enable
+deterministic testing by saving/loading DataProto objects.
+"""
+import os
+import pickle
+from typing import Optional
+
+from roll.distributed.scheduler.protocol import DataProto
+from roll.utils.logging import get_logger
+
+logger = get_logger()
+
+
+class RolloutMockMixin:
+    """
+    Mixin class providing rollout dump/mock functionality.
+
+    This mixin should be used with scheduler classes that have:
+    - self.config or self.pipeline_config: Configuration object with optional rollout_mock attribute
+    - self.mode (str) OR self.is_val (bool): Indicating 'train' or 'val' mode
+
+    Usage:
+        # For schedulers with self.mode (like RolloutScheduler):
+        class MyScheduler(RolloutMockMixin, BaseScheduler):
+            def __init__(self, config, mode, ...):
+                self.config = config
+                self.mode = mode
+                self._init_rollout_mock()
+                ...
+
+        # For schedulers with self.is_val (like DynamicSamplingScheduler):
+        class MyScheduler(RolloutMockMixin, BaseScheduler):
+            def __init__(self, pipeline_config, ...):
+                self.pipeline_config = pipeline_config
+                self.is_val = is_val
+                self._init_rollout_mock()
+                ...
+
+            async def get_batch(self, ...):
+                # In mock mode, load pre-recorded data
+                if self._should_load_mock(global_step):
+                    return await self._load_mock_batch(global_step)
+
+                # Normal flow...
+                batch = await self._actual_get_batch(...)
+
+                # In dump mode, save the batch
+                await self._maybe_dump_batch(batch, global_step)
+                return batch
+    """
+
+    def _get_config(self):
+        """Get configuration object (supports both self.config and self.pipeline_config)."""
+        return getattr(self, 'config', None) or getattr(self, 'pipeline_config', None)
+
+    def _get_mode_str(self) -> str:
+        """
+        Get mode string ('train' or 'val').
+
+        Supports both self.mode (str) and self.is_val (bool) attributes.
+        """
+        if hasattr(self, 'mode'):
+            return self.mode
+        elif hasattr(self, 'is_val'):
+            return 'val' if self.is_val else 'train'
+        else:
+            raise AttributeError("Scheduler must have either 'mode' or 'is_val' attribute")
+
+    def _init_rollout_mock(self):
+        """
+        Initialize rollout mock configuration.
+
+        Should be called in the scheduler's __init__ method after
+        config and mode/is_val attributes are set.
+        """
+        config = self._get_config()
+        if config is None:
+            logger.warning("[RolloutMock] No config found, mock functionality disabled")
+            self.mock_config = None
+            return
+
+        self.mock_config = getattr(config, 'rollout_mock', None)
+        if self.mock_config and self.mock_config.enable:
+            mode_str = self._get_mode_str()
+            dump_dir = os.path.join(self.mock_config.dump_dir, mode_str)
+            os.makedirs(dump_dir, exist_ok=True)
+            logger.info(
+                f"[RolloutMock] Rollout Mock enabled: mode={self.mock_config.mode}, "
+                f"dir={self.mock_config.dump_dir}, scheduler_mode={mode_str}, format=pickle"
+            )
+
+    def _should_load_mock(self, global_step: int) -> bool:
+        """
+        Check if we should load mock data for this step.
+
+        Args:
+            global_step: Current training step
+
+        Returns:
+            True if mock mode is enabled and we should load data
+        """
+        return (
+            self.mock_config
+            and self.mock_config.enable
+            and self.mock_config.mode == "mock"
+        )
+
+    def _should_dump_batch(self) -> bool:
+        """
+        Check if we should dump batches.
+
+        Returns:
+            True if dump mode is enabled
+        """
+        return (
+            self.mock_config
+            and self.mock_config.enable
+            and self.mock_config.mode == "dump"
+        )
+
+    async def _maybe_dump_batch(self, batch: DataProto, global_step: int):
+        """
+        Dump batch if dump mode is enabled.
+
+        Args:
+            batch: DataProto to dump
+            global_step: Current training step
+        """
+        if self._should_dump_batch():
+            await self._dump_batch(batch, global_step)
+
+    async def _dump_batch(self, batch: DataProto, global_step: int):
+        """
+        Dump DataProto to disk (pickle format).
+
+        Args:
+            batch: DataProto to dump
+            global_step: Current training step
+        """
+        mode_str = self._get_mode_str()
+        dump_path = os.path.join(
+            self.mock_config.dump_dir,
+            mode_str,
+            f"step_{global_step:06d}.pkl"
+        )
+        os.makedirs(os.path.dirname(dump_path), exist_ok=True)
+
+        # Use pickle serialization (DataProto supports __getstate__/__setstate__)
+        with open(dump_path, 'wb') as f:
+            pickle.dump(batch, f, protocol=pickle.HIGHEST_PROTOCOL)
+
+        file_size_mb = os.path.getsize(dump_path) / (1024 * 1024)
+        logger.info(
+            f"[RolloutMock] Dumped step {global_step}: {dump_path} "
+            f"(samples={len(batch)}, size={file_size_mb:.2f}MB)"
+        )
+
+    async def _load_mock_batch(self, global_step: int) -> DataProto:
+        """
+        Load pre-recorded DataProto from disk (strict mode).
+
+        Args:
+            global_step: Current training step
+
+        Returns:
+            Loaded DataProto
+
+        Raises:
+            FileNotFoundError: If mock file doesn't exist
+        """
+        mode_str = self._get_mode_str()
+        mock_path = os.path.join(
+            self.mock_config.dump_dir,
+            mode_str,
+            f"step_{global_step:06d}.pkl"
+        )
+
+        # Strict mode: raise error if file doesn't exist
+        if not os.path.exists(mock_path):
+            raise FileNotFoundError(
+                f"[RolloutMock] Mock file not found: {mock_path}\n"
+                f"Possible reasons:\n"
+                f"  1. Step {global_step} was never run in dump mode\n"
+                f"  2. Incorrect dump_dir configuration: {self.mock_config.dump_dir}\n"
+                f"  3. Mode mismatch (current mode: {mode_str})\n"
+                f"Please run in dump mode first to ensure all step data is generated."
+            )
+
+        # Deserialize
+        with open(mock_path, 'rb') as f:
+            batch = pickle.load(f)
+
+        logger.info(
+            f"[RolloutMock] Loaded step {global_step}: {mock_path} "
+            f"(samples={len(batch)})"
+        )
+        return batch
diff --git a/roll/distributed/scheduler/rollout_scheduler.py b/roll/distributed/scheduler/rollout_scheduler.py
index 8f301730c..bd680e0bb 100644
--- a/roll/distributed/scheduler/rollout_scheduler.py
+++ b/roll/distributed/scheduler/rollout_scheduler.py
@@ -10,15 +10,196 @@
 from tqdm import tqdm
 
 from roll.distributed.executor.cluster import Cluster
-from roll.distributed.scheduler.generate_scheduler import RequestScheduler
+from roll.distributed.scheduler.router import RouterManager
 from roll.distributed.scheduler.protocol import DataProto
+from roll.pipeline.agentic.agentic_config import EnvManagerConfig, EnvMonitorConfig
+from roll.distributed.scheduler.rollout_mock_mixin import RolloutMockMixin
 from roll.pipeline.agentic.agentic_config import EnvManagerConfig
-from roll.utils.functionals import append_to_dict, GenerateRequestType
+from roll.utils.functionals import append_to_dict
 from roll.utils.import_utils import safe_import_class
 from roll.utils.logging import get_logger
 
 logger = get_logger()
 
+
+class EnvActivityMonitor:
+    """Environment activity monitor for tracking and detecting hung envs."""
+
+    def __init__(self, config: EnvMonitorConfig, group_queue_dict: Dict[int, 'GroupQueue']):
+        """
+        Args:
+            config: EnvMonitorConfig object
+            group_queue_dict: Reference to GroupQueue dict for checking episode status
+        """
+        self.group_queue_dict = group_queue_dict
+        self.enable = config.enable
+
+        # Configuration parameters
+        self.monitor_interval = config.monitor_interval  # seconds
+        self.hung_timeout = config.hung_timeout  # seconds (default: 1 hour)
+
+        # Tracking data structures - Dual-timestamp approach
+        # Track when env starts processing an episode
+        # Key: ((group_id, env_id), episode_id) -> Value: timestamp
+        self.env_episode_start: Dict[Tuple[Tuple[int, int], int], float] = {}
+
+        # Track when env submits episode rollout
+        # Key: ((group_id, env_id), episode_id) -> Value: timestamp
+        self.env_episode_submit: Dict[Tuple[Tuple[int, int], int], float] = {}
+
+        # Track each env's current episode (for cleanup)
+        # Key: (group_id, env_id) -> Value: episode_id
+        self.env_current_episode: Dict[Tuple[int, int], int] = {}
+
+        # Monitor task
+        self.monitor_task: Optional[asyncio.Task] = None
+
+    def record_episode_start(self, group_id: int, env_id: int, episode_id: int):
+        """
+        Record when env starts processing a new episode.
+        Called from GroupQueue.get_episode_id() when an episode is assigned to an env.
+
+        Args:
+            group_id: Group ID
+            env_id: Environment ID
+            episode_id: Episode ID assigned to this env
+        """
+        if not self.enable:
+            return
+
+        env_key = (group_id, env_id)
+        episode_key = ((group_id, env_id), episode_id)
+
+        # Automatic cleanup: Remove old episode records for this env
+        old_episode_id = self.env_current_episode.get(env_key)
+        if old_episode_id is not None and old_episode_id != episode_id:
+            old_episode_key = ((group_id, env_id), old_episode_id)
+            self.env_episode_start.pop(old_episode_key, None)
+            self.env_episode_submit.pop(old_episode_key, None)
+
+        # Record new episode start time
+        self.env_episode_start[episode_key] = time.time()
+        self.env_current_episode[env_key] = episode_id
+
+    def record_activity(self, group_id: int, env_id: int, episode_id: int, rollout: Optional[DataProto]):
+        """
+        Record env activity when submitting a rollout.
+        Called from GroupQueueManager.put() when env submits rollout.
+
+        Args:
+            group_id: Group ID
+            env_id: Environment ID
+            episode_id: Episode ID
+            rollout: Rollout data (None means env is exiting)
+        """
+        if not self.enable:
+            return
+
+        env_key = (group_id, env_id)
+        episode_key = ((group_id, env_id), episode_id)
+
+        if rollout is None:
+            # Env calls put(..., None) to signal exit, remove all tracking
+            self.env_episode_start.pop(episode_key, None)
+            self.env_episode_submit.pop(episode_key, None)
+            self.env_current_episode.pop(env_key, None)
+            return
+
+        # Normal rollout submission, record submit time
+        self.env_episode_submit[episode_key] = time.time()
+
+    def start_monitoring(self):
+        """Start background monitoring task."""
+        if not self.enable or self.monitor_task is not None:
+            return
+
+        self.monitor_task = asyncio.create_task(self._monitor_loop())
+
+    def stop_monitoring(self):
+        """Stop background monitoring task."""
+        if self.monitor_task:
+            self.monitor_task.cancel()
+            self.monitor_task = None
+
+    def cleanup_episode(self, group_id: int, episode_id: int):
+        """
+        Clean up monitoring data for completed episode.
+        Note: With dual-timestamp tracking, cleanup is mostly automatic in record_episode_start().
+        This method is kept for compatibility but has minimal work to do.
+        """
+        if not self.enable:
+            return
+
+        # No cleanup needed - dual-timestamp approach handles cleanup automatically
+        # when new episodes start via record_episode_start()
+        pass
+
+    async def _monitor_loop(self):
+        """Background monitoring task that periodically detects hung envs and logs."""
+        while True:
+            try:
+                await asyncio.sleep(self.monitor_interval)
+                self.check_and_log_hung_envs()
+            except asyncio.CancelledError:
+                break
+            except Exception as e:
+                logger.error(f"[EnvMonitor] Monitor loop error: {e}")
+
+    def check_and_log_hung_envs(self):
+        """
+        Detect and log hung envs using dual-timestamp tracking.
+
+        Detection Logic:
+        - For each env with a start time recorded:
+          - Check if current episode has a submit time
+          - If no submit time and (now - start_time) > hung_timeout:
+            → Report as hung
+          - If submit time exists:
+            → Env has completed, don't report (even if timestamp is old)
+        """
+        now = time.time()
+        hung_envs_by_group = {}  # group_id -> list of hung env info
+
+        # Iterate over all episode start records
+        for episode_key, start_time in self.env_episode_start.items():
+            (group_id, env_id), episode_id = episode_key
+
+            # Check if this episode has been submitted
+            submit_time = self.env_episode_submit.get(episode_key)
+
+            if submit_time is None:
+                # Env started but hasn't submitted (still processing)
+                inactive_time = now - start_time
+
+                if inactive_time > self.hung_timeout:
+                    # Report as hung
+                    if group_id not in hung_envs_by_group:
+                        hung_envs_by_group[group_id] = []
+
+                    hung_envs_by_group[group_id].append({
+                        "env_id": env_id,
+                        "episode_id": episode_id,
+                        "inactive_seconds": int(inactive_time),
+                    })
+            # else: Episode submitted, env is waiting for next episode (normal)
+
+        # Output logs
+        if hung_envs_by_group:
+            for group_id, hung_envs in hung_envs_by_group.items():
+                hung_env_ids = [e["env_id"] for e in hung_envs]
+                logger.warning(
+                    f"[EnvMonitor] Group {group_id}: Detected {len(hung_envs)} hung envs: {hung_env_ids}"
+                )
+                for env_info in hung_envs[:5]:  # Only log details for first 5
+                    logger.warning(
+                        f"[EnvMonitor]   - env_id={env_info['env_id']}, "
+                        f"episode_id={env_info['episode_id']}, "
+                        f"inactive_for={env_info['inactive_seconds']}s"
+                    )
+                if len(hung_envs) > 5:
+                    logger.warning(f"[EnvMonitor]   ... and {len(hung_envs) - 5} more")
+
+
 @dataclass
 class GroupData:
     group_id: int
@@ -37,6 +218,7 @@ def __init__(
         max_traj_per_env,
         async_generation_ratio,
         group_filter,
+        env_monitor: Optional['EnvActivityMonitor'] = None,
     ):
         self.group_id = group_id
         self.progress_bar = progress_bar
@@ -47,6 +229,7 @@ def __init__(
         self.async_generation_ratio = async_generation_ratio
         self.group_filter = group_filter
         self.group_filter_count = 0
+        self.env_monitor = env_monitor
 
         self.current_step = None
         self.next_episode_id = 0
@@ -95,17 +278,33 @@ def advance_step(self, step):
                     expired_episodes.append(episode_id)
             for episode_id in expired_episodes:
                 self.groups.pop(episode_id)
+                if self.env_monitor:
+                    self.env_monitor.cleanup_episode(self.group_id, episode_id)
 
         self.current_step = step
         self._advance_step(step)
         self.progress.set()
 
-    async def get_episode_id(self) -> Optional[int]:
+    async def get_episode_id(self, env_id: Optional[int] = None) -> Optional[int]:
+        """
+        Get the next episode_id for an env to process.
+
+        Args:
+            env_id: Environment ID requesting work (None for backward compatibility)
+
+        Returns:
+            episode_id to process, or None if shutting down
+        """
         while not self.quit:
             # iterate over groups in order
             for episode_id, group in self.groups.items():
                 if group.running_rollouts < self.group_size + self.group_size_redundancy:
                     group.running_rollouts += 1
+
+                    # Record episode start for hang detection
+                    if self.env_monitor and env_id is not None:
+                        self.env_monitor.record_episode_start(self.group_id, env_id, episode_id)
+
                     return episode_id
             if self.max_traj_per_env is None:
                 while self.current_step is None:
@@ -132,6 +331,8 @@ def put(self, episode_id, start_step, rollout):
                 logger.info(f"filter rollout group {group.group_id} episode {group.episode_id}")
                 self.group_filter_count += 1
                 self.groups.pop(episode_id)
+                if self.env_monitor:
+                    self.env_monitor.cleanup_episode(self.group_id, episode_id)
                 self.advance_group(create_step=self.current_step)
             else:
                 self.complete.set()
@@ -146,6 +347,8 @@ async def get(self) -> GroupData:
             group = self.groups[episode_id]
             if len(group.rollouts) >= self.group_size:
                 self.groups.pop(episode_id)
+                if self.env_monitor:
+                    self.env_monitor.cleanup_episode(self.group_id, episode_id)
                 return group
             self.complete.clear()
             await self.complete.wait()
@@ -156,7 +359,7 @@ def __init__(self, config, env_manager_config: EnvManagerConfig, mode):
         self.mode = mode
         self.env_manager_config = env_manager_config
         self.group_size = self.env_manager_config.group_size
-        self.progress_bar = tqdm(desc=f"{self.mode} rollout progress(trajectory)", mininterval=self.env_manager_config.max_traj_per_env)
+        self.progress_bar = tqdm(desc=f"{self.mode} rollout progress(total trajectory)", mininterval=self.env_manager_config.max_traj_per_env)
         self.pending_gets = set()
         self.rollout_complete = {}
 
@@ -170,7 +373,15 @@ def __init__(self, config, env_manager_config: EnvManagerConfig, mode):
         else:
             self.async_generation_ratio = 0
             self.max_traj_per_env = env_manager_config.max_traj_per_env if config.val_batch_size > 0 else None
+
+        # Initialize env activity monitor first (before creating GroupQueues)
         self.group_queue: Dict[int, GroupQueue] = {}
+        self.env_monitor = EnvActivityMonitor(
+            config=config.env_monitor,
+            group_queue_dict=self.group_queue
+        )
+
+        # Create GroupQueues with env_monitor reference
         for rank, rank_env_configs in env_manager_config.env_configs.items():
             for env_id, env_config in rank_env_configs.items():
                 group_id = env_config["group_id"]
@@ -183,8 +394,13 @@ def __init__(self, config, env_manager_config: EnvManagerConfig, mode):
                         max_traj_per_env=self.max_traj_per_env,
                         async_generation_ratio=self.async_generation_ratio,
                         group_filter=self.group_filter,
+                        env_monitor=self.env_monitor,
                     )
 
+        # Start monitoring after all GroupQueues are created
+        if config.env_monitor.enable:
+            self.env_monitor.start_monitoring()
+
         # for debug
         self.total = 0
         self.waiting = 0
@@ -208,19 +424,51 @@ def advance_step(self, step):
         for group_queue in self.group_queue.values():
             group_queue.advance_step(step)
 
-    async def get_episode_id(self, group_id):
+    async def get_episode_id(self, group_id, env_id=None):
+        """
+        Get the next episode ID for an environment.
+
+        Args:
+            group_id: Group ID
+            env_id: Environment ID (for hang detection tracking)
+
+        Returns:
+            episode_id to process
+        """
         assert group_id in self.group_queue
-        return await self.group_queue[group_id].get_episode_id()
+        return await self.group_queue[group_id].get_episode_id(env_id)
 
     def shutdown(self):
+        # Stop monitoring task
+        self.env_monitor.stop_monitoring()
+
         for get_task in self.pending_gets:
             get_task.cancel()
         self.pending_gets = set()
         for group_queue in self.group_queue.values():
             group_queue.shutdown()
 
-    def put(self, group_id, episode_id, start_step, rollout: DataProto):
+    def put(self, group_id, episode_id, start_step, rollout: DataProto, env_id=None):
+        """
+        Put rollout data to queue.
+
+        Args:
+            group_id: Group ID
+            episode_id: Episode ID
+            start_step: Starting step
+            rollout: Rollout data (can be None for final submission)
+            env_id: Environment ID (optional, for monitoring)
+
+        Backward compatibility:
+        - Old calls: put(group_id, episode_id, start_step, rollout) - env_id defaults to None
+        - New calls: put(group_id, episode_id, start_step, rollout, env_id) - enables monitoring
+        """
         assert group_id in self.group_queue
+
+        # Record env activity only if env_id is provided
+        if env_id is not None:
+            self.env_monitor.record_activity(group_id, env_id, episode_id, rollout)
+
         self.waiting += 1
         self.group_queue[group_id].put(episode_id, start_step, rollout)
         self.waiting -= 1
@@ -236,6 +484,7 @@ async def get_batch(self, batch_size, current_step) -> List[DataProto]:
 
         # When batch_size < 0, iterate until exit run_rollout_loop immediately.
         ret: List[DataProto] = []
+        progress_bar = tqdm(desc=f"{self.mode} rollout get_batch progress(trajectory)", mininterval=self.group_size)
         while batch_size < 0 or len(ret) < batch_size:
 
             if len(self.rollout_complete) == len(self.group_queue):
@@ -277,7 +526,9 @@ async def wait_a_episode():
 
                         group_rollout = group_rollout[:self.group_size]
                         ret.extend(group_rollout)
-                    assert batch_size < 0 or (done and len(ret) >= batch_size) or (not done and len(ret) <= batch_size)
+                        progress_bar.update(len(group_rollout))
+
+                    assert batch_size < 0 or (done and len(ret) >= batch_size) or (not done and len(ret) <= batch_size), f"{batch_size=}, {len(ret)=}, {done=}"
                     if done:
                         self.pending_gets.update(done)
                 self.pending_gets.update(pending)
@@ -288,7 +539,7 @@ async def wait_a_episode():
             d.meta_info["get_batch_return_start_time"] = get_batch_return_start_time
         return ret
 
-class RolloutScheduler:
+class RolloutScheduler(RolloutMockMixin):
     """
     Usage:
         # User should control load_states/offload_states in pipeline by themselves.
@@ -310,10 +561,15 @@ def __init__(self, config, env_manager_config: EnvManagerConfig, resource_manage
         self.resource_manager = resource_manager
         self.infer_cluster = infer_cluster
         self.mode = mode
+        self.collator = collator
 
         env_num = self.env_manager_config.world_size * self.env_manager_config.max_env_num_per_worker
 
         self.env_output_queue = GroupQueueManager.options(
+            name=f"GroupQueueManager-{mode}",
+            scheduling_strategy=NodeAffinitySchedulingStrategy(
+                node_id=ray.get_runtime_context().get_node_id(),
+                soft=False),
             max_concurrency = env_num + 1 # reserve extra one for get_batch
         ).remote(
             self.config,
@@ -321,13 +577,14 @@ def __init__(self, config, env_manager_config: EnvManagerConfig, resource_manage
             mode
         )
 
-        self.generate_scheduler = RequestScheduler.options(
+        self.router_manager = ray.remote(RouterManager).options(
+                name=f"RouterManager-{self.env_manager_config.name}-{mode}",
                 scheduling_strategy=NodeAffinitySchedulingStrategy(
                     node_id=ray.get_runtime_context().get_node_id(),
                     soft=False,
                 ),
                 max_concurrency = env_num + 1 # reserve extra one for suspend/resume
-            ).remote(infer_cluster=self.infer_cluster, pipeline_config=config)
+            ).remote(actor_cluster=self.infer_cluster, router_args=config.router_args, num_gpus_per_node=config.num_gpus_per_node)
 
         self.es_manager: Any = Cluster(
             name=self.env_manager_config.name,
@@ -335,27 +592,36 @@ def __init__(self, config, env_manager_config: EnvManagerConfig, resource_manage
             resource_manager=self.resource_manager,
             worker_config=self.env_manager_config,
         )
-        self.es_manager.initialize(
+
+        self.rollout_task = None
+
+        # Initialize rollout mock mechanism from mixin
+        self._init_rollout_mock()
+
+    async def initialize(self):
+        await self.router_manager.initialize.remote()
+        await asyncio.gather(*self.es_manager.initialize(
             pipeline_config=self.config,
-            generate_scheduler=self.generate_scheduler,
+            generate_scheduler=self.router_manager,
             output_queue=self.env_output_queue,
-            collator=collator,
+            collator=self.collator,
             mode=self.mode,
-        )
-
-        self.rollout_task = None
+            blocking=False,
+        ))
 
     async def shutdown(self):
         if self.rollout_task is None:
             return
         await asyncio.gather(*self.es_manager.stop(blocking=False))
         await self.env_output_queue.shutdown.remote()
-        await self.generate_scheduler.abort_request.remote()
+        await self.router_manager.shutdown.remote()
         await self.rollout_task
         self.rollout_task = None
 
     async def suspend(self):
-        await self.generate_scheduler.suspend.remote()
+        await self.router_manager.suspend.remote()
+        await self.router_manager.abort_all.remote()
+        await self.router_manager.wait_complete.remote()
 
     async def _run_rollout_loop(self, seed):
         await asyncio.gather(*self.es_manager.run_rollout_loop(seed, blocking=False))
@@ -366,6 +632,10 @@ async def _get_batch(self, batch_size, global_step):
     async def get_batch(self, data: DataProto, batch_size):
         global_step = data.meta_info["global_step"]
 
+        # MOCK MODE: Load pre-recorded data, skip rollout (from mixin)
+        if self._should_load_mock(global_step):
+            return await self._load_mock_batch(global_step)
+
         # start env manager
         if self.rollout_task is None:
             seed = random.randint(0, 1000000) if self.mode == "train" else self.config.seed
@@ -373,7 +643,7 @@ async def get_batch(self, data: DataProto, batch_size):
 
         await asyncio.gather(*self.es_manager.update_step(global_step, blocking=False))
         await self.env_output_queue.advance_step.remote(global_step)
-        await self.generate_scheduler.resume.remote()
+        await self.router_manager.resume.remote()
 
         get_task = asyncio.create_task(self._get_batch(batch_size, global_step))
         await asyncio.wait({get_task, self.rollout_task}, return_when=asyncio.FIRST_COMPLETED)
@@ -399,4 +669,95 @@ async def get_batch(self, data: DataProto, batch_size):
         batch = DataProto.concat(data_batch)
         batch.meta_info["metrics"] = metrics
         batch.meta_info["get_batch_return_start_time"] = time.time()
+
+        # DUMP MODE: Save merged batch (from mixin)
+        await self._maybe_dump_batch(batch, global_step)
+
         return batch
+
+    async def shrink_sampler(self, target_gpus: List[int]) -> Dict[str, Any]:
+        """Thin wrapper: Delegate shrink operation to RequestScheduler.
+
+        v4.6 ARCHITECTURAL CHANGE: RolloutScheduler no longer performs validation,
+        calculation, or state management. All worker lifecycle operations are now
+        owned by RequestScheduler for atomic execution under routing_lock.
+
+        Args:
+            target_gpus: GPU IDs to free (e.g., [4,5] for actor_train or [6,7] for critic)
+
+        Returns:
+            Dict with metrics from RequestScheduler.shrink_workers():
+                - "shrink_duration_ms": Total shrink operation time
+                - "offload_ranks": DP ranks offloaded
+                - "aborted": Number of requests aborted
+                - "remapped": Number of src_ranks remapped (cleared from routing)
+                - "rollout_scheduler_duration_ms": Timing from RolloutScheduler perspective
+
+        Raises:
+            RuntimeError: If shrink_workers() fails (propagated from RequestScheduler)
+
+        Side Effects:
+            - Calls RequestScheduler.shrink_workers() which performs:
+              * Validation, calculation, rebalancing, state offload atomically
+              * All operations protected by routing_lock
+
+        Example:
+            # Shrink before training to free actor_train GPUs
+            metrics = await rollout_scheduler.shrink_sampler.remote([4, 5, 6, 7])
+            # RequestScheduler handles: validation → calculation → rebalance → offload
+        """
+        start_time = time.time()
+
+        # Delegate complete shrink operation to RequestScheduler (atomic under routing_lock)
+        result = await self.router_manager.shrink_workers.remote(target_gpus)
+
+        # Add timing from RolloutScheduler perspective
+        result["rollout_scheduler_duration_ms"] = (time.time() - start_time) * 1000
+
+        return result
+
+    async def expand_sampler(self, target_gpus: List[int], skip_load: bool = False) -> Dict[str, Any]:
+        """Thin wrapper: Delegate expand operation to RequestScheduler.
+
+        v4.6 ARCHITECTURAL CHANGE: RolloutScheduler no longer performs validation,
+        calculation, or state management. All worker lifecycle operations are now
+        owned by RequestScheduler for atomic execution under routing_lock.
+
+        Args:
+            target_gpus: GPU IDs to restore (e.g., [4,5] for actor_train or [6,7] for critic)
+            skip_load: If True, skip model loading (use when model_update already loaded states).
+                      This only updates active_dp_ranks to restore routing state.
+
+        Returns:
+            Dict with metrics from RequestScheduler.expand_workers():
+                - "expand_duration_ms": Total expand operation time
+                - "load_ranks": DP ranks reloaded
+                - "aborted": Number of requests aborted (proportional rebalancing)
+                - "remapped": Number of src_ranks remapped (same as aborted)
+                - "rollout_scheduler_duration_ms": Timing from RolloutScheduler perspective
+
+        Raises:
+            RuntimeError: If expand_workers() fails (propagated from RequestScheduler)
+
+        Side Effects:
+            - Calls RequestScheduler.expand_workers() which performs:
+              * Validation, calculation, state loading (unless skip_load=True), routing updates atomically
+              * All operations protected by routing_lock
+
+        Example:
+            # Expand after training to restore actor_train GPUs
+            metrics = await rollout_scheduler.expand_sampler.remote([4, 5, 6, 7])
+            # RequestScheduler handles: validation → calculation → load → rebalance
+
+            # After model_update already loaded states, just restore routing:
+            metrics = await rollout_scheduler.expand_sampler.remote([4, 5, 6, 7], skip_load=True)
+        """
+        start_time = time.time()
+
+        # Delegate complete expand operation to RequestScheduler (atomic under routing_lock)
+        result = await self.router_manager.expand_workers.remote(target_gpus, skip_load)
+
+        # Add timing from RolloutScheduler perspective
+        result["rollout_scheduler_duration_ms"] = (time.time() - start_time) * 1000
+
+        return result
diff --git a/roll/distributed/scheduler/router.py b/roll/distributed/scheduler/router.py
new file mode 100644
index 000000000..2f31ddd46
--- /dev/null
+++ b/roll/distributed/scheduler/router.py
@@ -0,0 +1,1261 @@
+import asyncio
+import itertools
+import math
+import time
+import uuid
+import httpx
+import weakref
+from abc import abstractmethod
+from collections import defaultdict
+from typing import Any, Dict, List, Set
+from urllib.parse import quote
+
+import ray
+
+from roll.distributed.executor.cluster import Cluster
+from roll.distributed.executor.worker import Worker
+from roll.distributed.scheduler.protocol import DataProto
+from roll.configs.base_config import RouterArguments
+from roll.models.model_providers import default_tokenizer_provider
+from roll.utils.functionals import gather_unpadded_input_ids
+from roll.utils.checkpoint_manager import download_model
+from roll.utils.logging import get_logger
+
+
+logger = get_logger()
+
+def is_report_data_finished(data: DataProto) -> bool:
+    finish_reasons = data.meta_info.get("finish_reasons", [])
+    assert isinstance(finish_reasons, list), f"{finish_reasons}"
+    assert all(isinstance(finish_reason, str) for finish_reason in finish_reasons), f"{finish_reasons}"
+    return not any(finish_reason == "abort" for finish_reason in finish_reasons)
+
+def raise_for_status(response: httpx.Response):
+    if not response.is_success:
+        try:
+            response.raise_for_status()
+        except Exception as e:
+            raise RuntimeError(str(e))
+
+async def wait_sglang_router_ready(router_process, url):
+    async with httpx.AsyncClient(timeout=httpx.Timeout(None)) as client:
+        for attempt in range(60):
+            await asyncio.sleep(1)
+            try:
+                response = await client.get(url)
+                if response.status_code in [200, 404]:
+                    break
+                else:
+                    logger.info(f"Waiting for sglang router {url} to ready ({attempt=}) (status={response.status_code})...")
+                    raise_for_status(response)
+                assert router_process.is_alive()
+            except httpx.ConnectError:
+                logger.info(f"Waiting for sglang router {url} to start ({attempt=})...")
+
+async def wait_sglang_router_workflow(router_url, expected):
+    expected = set(expected)
+    async with httpx.AsyncClient(timeout=httpx.Timeout(None)) as client:
+        while True:
+            await asyncio.sleep(3)
+            response = await client.get(f"{router_url}/workers")
+            raise_for_status(response)
+            response = response.json()
+            if {worker["url"] for worker in response["workers"]} == expected:
+                break
+            logger.info(f"Waiting for sglang router worker workflow {router_url} ready, "
+                        f"{expected=}, current count={response['total']}, workers={response['workers']} ...")
+
+class RouterManager:
+    def __init__(self, actor_cluster: Cluster, router_args: RouterArguments, num_gpus_per_node: int):
+        self.actor_cluster = actor_cluster
+        self.workers = actor_cluster.workers
+
+        self.strategy_name = actor_cluster.worker_config.strategy_args.strategy_name 
+        self.model_path = download_model(actor_cluster.worker_config.model_args.model_name_or_path)
+        self.tokenizer = default_tokenizer_provider(model_args=actor_cluster.worker_config.model_args)
+
+        router_name = router_args.router_name
+        if router_name == "PromptAffinityRouter":
+            self.router_cls = PromptAffinityRouter
+        elif router_name == "EnvAffinityRouter":
+            self.router_cls = EnvAffinityRouter
+        else:
+            self.router_cls = SglangRouter
+        assert self.router_cls is not SglangRouter or self.strategy_name == "sglang"
+        assert (self.router_cls is SglangRouter) == (actor_cluster.worker_config.strategy_args.strategy_config.get("grpc_mode", None) is not None) # xnor
+        logger.info(f"RouterManager use router {self.router_cls.__name__}")
+        self.router: Router = self.router_cls(router_manager=self, workers=self.workers, model_path=self.model_path, router_args=router_args)
+
+        self.inflight_requests = set()
+        self.need_suspend = False
+        self.need_shutdown = False
+        self.suspend_notifier = asyncio.Event()
+        self.empty_notifier = asyncio.Event()
+
+        self.partial_gpu_manager = PartialGPUManager(actor_cluster=actor_cluster, router=self.router, num_gpus_per_node=num_gpus_per_node)
+
+    async def initialize(self):
+        await self.router.initialize()
+
+    def router_meta(self):
+        return {
+            "strategy_name": self.strategy_name,
+            "eos_token_id": self.tokenizer.eos_token_id,
+            "pad_token_id": self.tokenizer.pad_token_id,
+            "sglang_router": self.router_cls is SglangRouter,
+            "router_ip": self.router.router_ip if self.router_cls is SglangRouter else None,
+            "router_port": self.router.router_port if self.router_cls is SglangRouter else None,
+            "worker_urls": self.router.worker_urls if self.router_cls is SglangRouter else None,
+        }
+
+    @classmethod
+    def create_client_sync(cls, self) -> "RouterClient":
+        if isinstance(self, ray.actor.ActorHandle):
+            meta = ray.get(self.router_meta.remote())
+            proxy_cls = RayProxy
+        elif isinstance(self, cls):
+            meta = self.router_meta()
+            proxy_cls = InprocProxy
+        else:
+            raise ValueError(f"self {self} is not a ray actor or RouterManager")
+
+        proxy = proxy_cls(self)
+        if meta["sglang_router"]:
+            proxy = SglangProxy(proxy, meta)
+        return RouterClient(proxy, meta)
+
+    @classmethod
+    async def create_client(cls, self) -> "RouterClient":
+        """
+        self may be a ray actor or normal class.
+        """
+        if isinstance(self, ray.actor.ActorHandle):
+            meta = await self.router_meta.remote()
+            proxy_cls = RayProxy
+        elif isinstance(self, cls):
+            meta = self.router_meta()
+            proxy_cls = InprocProxy
+        else:
+            raise ValueError(f"self {self} is not a ray actor or RouterManager")
+
+        proxy = proxy_cls(self)
+        if meta["sglang_router"]:
+            proxy = SglangProxy(proxy, meta)
+        return RouterClient(proxy, meta)
+
+    async def generate_request(self, payload, request_id, uid):
+        return await self.router.generate_request(payload=payload, request_id=request_id, uid=uid)
+
+    async def abort_requests(self, request_ids, uid):
+        return await self.router.abort_requests(request_ids, uid)
+
+    async def abort_all(self):
+        logger.info(f"abort all requests, remaining requests: {len(self.inflight_requests)}")
+        return await self.router.abort_all(list(self.inflight_requests))
+
+    async def on_send_request(self, request_id) -> bool:
+        while self.need_suspend:
+            await self.suspend_notifier.wait()
+        if self.need_shutdown:
+            return False
+        self.inflight_requests.add(request_id)
+        return True
+
+    async def on_request_routed(self, request_id):
+        self.inflight_requests.remove(request_id)
+        self.empty_notifier.set()
+
+    def suspend(self):
+        """
+        Suspend all running requests.
+
+        All following call of generate will be blocked until resume.
+        """
+        if self.need_suspend:
+            return
+        self.suspend_notifier.clear()
+        self.need_suspend = True
+
+    def resume(self):
+        if not self.need_suspend:
+            return
+        self.need_suspend = False
+        self.suspend_notifier.set()
+
+    async def shutdown(self):
+        self.need_shutdown = True
+        await self.abort_all()
+        self.resume()
+        await self.wait_complete()
+
+    async def wait_complete(self):
+        """
+        Wait until all running requests are finished (no matter whether suspended or not).
+        """
+        logger.info(f"RouterManager: wait all requests complete {self.inflight_requests=}")
+        while len(self.inflight_requests) > 0:
+            self.empty_notifier.clear()
+            await self.empty_notifier.wait()
+        logger.info(f"RouterManager: all requests completed")
+
+    def size(self):
+        return len(self.inflight_requests)
+
+    async def shrink_workers(self, target_gpus: List[int]) -> Dict[str, Any]:
+        logger.info(f"RouterManager shrink_workers {target_gpus=}")
+        return await self.partial_gpu_manager.shrink_workers(target_gpus)
+
+    async def expand_workers(self, target_gpus: List[int], skip_load: bool = False) -> Dict[str, Any]:
+        logger.info(f"RouterManager expand_workers {target_gpus=}")
+        return await self.partial_gpu_manager.expand_workers(target_gpus, skip_load)
+
+class PartialGPUManager:
+    def __init__(self, actor_cluster, router, num_gpus_per_node: int):
+        self.infer_cluster = actor_cluster
+        self.router = router
+        self.num_gpus_per_node = num_gpus_per_node
+
+    def _get_gpus_for_dp_rank(self, dp_rank: int) -> List[int]:
+        """Map DP rank to GPU IDs using cluster's device info.
+
+        Args:
+            dp_rank: Data parallel rank index (0 to dp_size-1)
+
+        Returns:
+            List of GPU IDs used by this DP rank's workers
+
+        Example:
+            # Pure DP: rank == dp_rank
+            # DP rank 0 uses GPUs [0], DP rank 1 uses GPUs [1], etc.
+            gpus = self._get_gpus_for_dp_rank(dp_rank=0)
+            # Returns: [0]
+        """
+        # In agentic pipeline (pure DP): rank == dp_rank, so directly access rank2devices
+        devices_info = self.infer_cluster.rank2devices[dp_rank]
+
+        # Extract GPU IDs: gpu_id = node_rank * num_gpus_per_node + gpu_rank
+        gpu_ids = []
+        for device in devices_info:
+            gpu_id = device["node_rank"] * self.num_gpus_per_node + device["gpu_rank"]
+            gpu_ids.append(gpu_id)
+
+        return sorted(set(gpu_ids))  # Remove duplicates and sort
+
+    def _validate_target_gpus(self, target_gpus: List[int], mode: str) -> None:
+        """Validate target_gpus input for shrink/expand operations.
+
+        Args:
+            target_gpus: List of GPU IDs to free (shrink) or restore (expand)
+            mode: Operation mode ("shrink" or "expand")
+
+        Raises:
+            ValueError: If target_gpus is empty, has duplicates, or mode is invalid
+
+        Example:
+            self._validate_target_gpus([4, 5, 6, 7], mode="shrink")
+            # Validates successfully
+
+            self._validate_target_gpus([], mode="shrink")
+            # Raises: ValueError("[shrink] target_gpus cannot be empty")
+
+            self._validate_target_gpus([4, 4, 5], mode="expand")
+            # Raises: ValueError("[expand] target_gpus has duplicates: [4, 4, 5]")
+        """
+        # VAL: VAL_NON_EMPTY
+        if not target_gpus:
+            raise ValueError(f"[{mode}] target_gpus cannot be empty")
+
+        # VAL: VAL_NO_DUPLICATES
+        if len(target_gpus) != len(set(target_gpus)):
+            raise ValueError(f"[{mode}] target_gpus has duplicates: {target_gpus}")
+
+        if mode not in ("shrink", "expand"):
+            raise ValueError(f"Invalid mode: {mode}")
+
+    def _validate_calculated_ranks(self, ranks: List[int], mode: str) -> None:
+        """Validate calculated DP ranks against current active_dp_ranks state.
+
+        Args:
+            ranks: List of DP ranks calculated from target_gpus
+            mode: Operation mode ("shrink" or "expand")
+
+        Raises:
+            ValueError: If ranks is empty, contains out-of-range values,
+                       or violates state consistency (shrink: must be active,
+                       expand: must be inactive)
+
+        Example:
+            # Shrink validation
+            self.active_dp_ranks = {0, 1, 2, 3}
+            self._validate_calculated_ranks([2, 3], mode="shrink")
+            # Validates successfully (ranks 2, 3 are active)
+
+            self._validate_calculated_ranks([4], mode="shrink")
+            # Raises: ValueError("[shrink] DP rank 4 not active")
+
+            # Expand validation
+            self.active_dp_ranks = {0, 1}
+            self._validate_calculated_ranks([2, 3], mode="expand")
+            # Validates successfully (ranks 2, 3 are inactive)
+
+            self._validate_calculated_ranks([0], mode="expand")
+            # Raises: ValueError("[expand] DP rank 0 already active")
+        """
+        # VAL: VAL_NON_EMPTY
+        if not ranks:
+            raise ValueError(f"[{mode}] Calculated ranks list is empty")
+
+        # VAL: VAL_INT_RANGE
+        for dp_rank in ranks:
+            if not (0 <= dp_rank < self.infer_cluster.world_size):
+                raise ValueError(f"[{mode}] DP rank {dp_rank} out of range [0, {self.infer_cluster.world_size})")
+
+        # AST: State consistency
+
+        # TODO: fix this validation and move to EnvAffinityRouter
+        # for dp_rank in ranks:
+        #     if dp_rank not in self.active_dp_ranks:
+        #         raise ValueError(f"DP rank {dp_rank} not active {mode=}")
+
+    async def shrink_workers(self, target_gpus: List[int]) -> Dict[str, Any]:
+        """Complete atomic shrink operation: validate → rebalance → offload → update routing.
+
+        Orchestrates the full worker shrink process:
+        1. Validates target_gpus input
+        2. Calculates DP ranks to offload based on GPU overlap
+        3. Validates calculated ranks against active state
+        4. Do shrink:
+           - Rebalances routing (aborts requests on shrinking workers)
+           - Offloads model states from shrinking workers
+        5. Returns metrics for monitoring
+
+        Args:
+            target_gpus: GPU IDs to free (e.g., [4, 5, 6, 7] to free second half of 8 GPUs)
+
+        Returns:
+            Metrics dict containing:
+                - "aborted": Number of requests aborted during rebalancing
+                - "remapped": Number of src_ranks remapped (cleared from routing)
+                - "shrink_duration_ms": Total operation time in milliseconds
+                - "offload_ranks": List of DP ranks that were offloaded
+
+        Raises:
+            ValueError: If target_gpus invalid (empty, duplicates) or
+                       calculated ranks invalid (not active, out of range)
+            RuntimeError: If rebalance or offload operations fail
+
+        Example:
+            # Shrink to free GPUs [4, 5, 6, 7] (second half of 8-GPU setup)
+            result = await scheduler.shrink_workers([4, 5, 6, 7])
+            # Returns: {"aborted": 10, "remapped": 5, "shrink_duration_ms": 2340.5, "offload_ranks": [2, 3]}
+
+        Side Effects:
+            - Updates active_dp_ranks (removes offload_ranks)
+            - Aborts in-flight requests on shrinking workers
+            - Clears src_rank mappings for remapped environments
+            - Offloads model states from shrinking workers to CPU
+        """
+        start_time = time.time()
+
+        # VAL: VAL_NON_EMPTY, VAL_NO_DUPLICATES
+        self._validate_target_gpus(target_gpus, mode="shrink")
+        # Calculate DP ranks to offload
+        target_gpus = set(target_gpus)
+        offload_ranks = [dp for dp in range(self.infer_cluster.world_size)
+                         if set(self._get_gpus_for_dp_rank(dp)).intersection(target_gpus)]
+
+        # VAL: VAL_NON_EMPTY, state consistency check
+        self._validate_calculated_ranks(offload_ranks, mode="shrink")
+
+        result = await self.router.rebalance_on_shrink(offload_ranks)
+
+        # release the lock before blocking offload so that active dp rank can work immediately
+        # Offload states from target workers
+        offload_refs = self.infer_cluster.offload_states_partial(offload_ranks, blocking=False)
+        await asyncio.gather(*[asyncio.wrap_future(ref.future()) for ref in offload_refs])
+
+        return {**result, "shrink_duration_ms": (time.time() - start_time) * 1000,
+                "offload_ranks": offload_ranks}
+
+    async def expand_workers(self, target_gpus: List[int], skip_load: bool = False) -> Dict[str, Any]:
+        """Complete atomic expand operation: validate → load → rebalance → update routing.
+
+        Orchestrates the full worker expand process:
+        1. Validates target_gpus input
+        2. Calculates DP ranks to restore based on GPU overlap
+        3. Validates calculated ranks against active state (skip if skip_load=True)
+        4. Do expand:
+           - Loads model states on expanding workers (skip if skip_load=True)
+           - Rebalances routing (proportionally redistributes requests)
+        5. Returns metrics for monitoring
+
+        Args:
+            target_gpus: GPU IDs to restore (e.g., [4, 5, 6, 7] to restore second half of 8 GPUs)
+            skip_load: If True, skip model loading and validation (use when model_update already loaded states).
+                      This only updates active_dp_ranks to restore routing state without re-loading models.
+
+        Returns:
+            Metrics dict containing:
+                - "aborted": Number of requests aborted during rebalancing (proportional redistribution)
+                - "remapped": Number of src_ranks remapped (cleared from routing)
+                - "expand_duration_ms": Total operation time in milliseconds
+                - "load_ranks": List of DP ranks that were restored
+
+        Raises:
+            ValueError: If target_gpus invalid (empty, duplicates) or
+                       calculated ranks invalid (already active, out of range)
+            RuntimeError: If load or rebalance operations fail
+
+        Example:
+            # Expand to restore GPUs [4, 5, 6, 7] (second half of 8-GPU setup)
+            result = await scheduler.expand_workers([4, 5, 6, 7])
+            # Returns: {"aborted": 3, "remapped": 3, "expand_duration_ms": 1850.2, "load_ranks": [2, 3]}
+
+            # After model_update already loaded states to all GPUs, just restore routing:
+            result = await scheduler.expand_workers([4, 5, 6, 7], skip_load=True)
+
+        Side Effects:
+            - Updates active_dp_ranks (adds load_ranks)
+            - Loads model states from CPU to expanding workers (unless skip_load=True)
+            - Aborts some requests from old workers for proportional rebalancing
+            - Clears src_rank mappings for rebalanced environments (will route to new workers)
+        """
+        start_time = time.time()
+
+        # VAL: VAL_NON_EMPTY, VAL_NO_DUPLICATES
+        self._validate_target_gpus(target_gpus, mode="expand")
+
+        # Calculate DP ranks to restore
+        target_gpus = set(target_gpus)
+        load_ranks = [dp for dp in range(self.infer_cluster.world_size)
+                      if set(self._get_gpus_for_dp_rank(dp)).issubset(target_gpus)]
+
+        # VAL: VAL_NON_EMPTY, state consistency check
+        # Skip validation when skip_load=True because ranks may already be "active" in cluster
+        # (model states loaded by model_update) but not tracked in active_dp_ranks yet
+        if not skip_load:
+            self._validate_calculated_ranks(load_ranks, mode="expand")
+            load_refs = self.infer_cluster.load_states_partial(load_ranks, blocking=False)
+            await asyncio.gather(*[asyncio.wrap_future(ref.future()) for ref in load_refs])
+
+        result = await self.router.rebalance_on_expand(load_ranks)
+
+        return {**result, "expand_duration_ms": (time.time() - start_time) * 1000,
+                "load_ranks": load_ranks}
+
+class RouterProxy:
+    """
+    Proxy to RouterManager
+    """
+    @abstractmethod
+    async def generate_request(self, payload, request_id, uid):
+        pass
+
+    @abstractmethod
+    async def on_send_request(self, request_id):
+        pass
+
+    @abstractmethod
+    async def on_request_routed(self, request_id):
+        pass
+
+    def generate_request_sync(self, payload, request_id, uid):
+        raise NotImplementedError
+
+    def on_send_request_sync(self, request_id):
+        raise NotImplementedError
+
+    def on_request_routed_sync(self, request_id):
+        raise NotImplementedError
+
+class InprocProxy(RouterProxy):
+    def __init__(self, router_manager: RouterManager):
+        self.router_manager = router_manager
+
+    async def generate_request(self, payload, request_id, uid):
+        return await self.router_manager.generate_request(payload=payload, request_id=request_id, uid=uid)
+
+    async def on_send_request(self, request_id):
+        return await self.router_manager.on_send_request(request_id)
+
+    async def on_request_routed(self, request_id):
+        return await self.router_manager.on_request_routed(request_id)
+
+class RayProxy(RouterProxy):
+    def __init__(self, router_manager: RouterManager):
+        self.router_manager = router_manager
+
+    async def generate_request(self, payload, request_id, uid):
+        return await self.router_manager.generate_request.remote(payload=payload, request_id=request_id, uid=uid)
+
+    async def on_send_request(self, request_id):
+        return await self.router_manager.on_send_request.remote(request_id)
+
+    async def on_request_routed(self, request_id):
+        return await self.router_manager.on_request_routed.remote(request_id)
+
+    def generate_request_sync(self, payload, request_id, uid):
+        return ray.get(self.router_manager.generate_request.remote(payload=payload, request_id=request_id, uid=uid))
+
+    def on_send_request_sync(self, request_id):
+        return ray.get(self.router_manager.on_send_request.remote(request_id))
+
+    def on_request_routed_sync(self, request_id):
+        return ray.get(self.router_manager.on_request_routed.remote(request_id))
+
+class SglangProxy(RouterProxy):
+    def __init__(self, proxy: RouterProxy, router_meta):
+        self.proxy = proxy
+        self.router_ip = router_meta["router_ip"]
+        self.router_port = router_meta["router_port"]
+        self.worker_urls = router_meta["worker_urls"]
+        self.client = httpx.AsyncClient(timeout=httpx.Timeout(None))
+        self.client_sync = httpx.Client(timeout=httpx.Timeout(None))
+
+    async def generate_request(self, payload, request_id, uid):
+        from roll.distributed.strategy.sglang_strategy import postprocess_generate
+        assert "multi_modal_data" not in payload
+        url = f"http://{self.router_ip}:{self.router_port}/generate"
+        response = await self.client.post(url, json=payload)
+        raise_for_status(response)
+        response = response.json()
+        response = response if isinstance(response, list) else [response]
+        return postprocess_generate(response)
+
+    async def on_send_request(self, request_id):
+        return await self.proxy.on_send_request(request_id)
+
+    async def on_request_routed(self, request_id):
+        return await self.proxy.on_request_routed(request_id)
+
+    def generate_request_sync(self, payload, request_id, uid):
+        from roll.distributed.strategy.sglang_strategy import postprocess_generate
+        assert "multi_modal_data" not in payload
+        url = f"http://{self.router_ip}:{self.router_port}/generate"
+        response = self.client_sync.post(url, json=payload)
+        raise_for_status(response)
+        response = response.json()
+        response = response if isinstance(response, list) else [response]
+        return postprocess_generate(response)
+
+    def on_send_request_sync(self, request_id):
+        return self.proxy.on_send_request_sync(request_id)
+
+    def on_request_routed_sync(self, request_id):
+        return self.proxy.on_request_routed_sync(request_id)
+
+class RouterClient:
+    def __init__(self, proxy, meta):
+        self.proxy = proxy
+        self.strategy_name = meta["strategy_name"]
+        self.eos_token_id = meta["eos_token_id"]
+        self.pad_token_id = meta["pad_token_id"]
+
+    def _preprocess_generate(self, req: DataProto, request_id):
+        if request_id is None:
+            request_id = str(uuid.uuid4())
+        payload = {"rid": str(request_id)}
+
+        generation_config = req.meta_info.get("generation_config")
+        collect_unfinished = req.meta_info.get("collect_unfinished", False)
+        num_return_sequences = generation_config["num_return_sequences"]
+        assert num_return_sequences == 1 or not collect_unfinished, "collect_unfinished is not supported in parallel sampling"
+
+        max_new_tokens = req.meta_info.get("max_new_tokens", generation_config["max_new_tokens"])
+        max_new_tokens = min(max_new_tokens, generation_config["max_new_tokens"])
+        generation_config["max_new_tokens"] = max_new_tokens
+
+        generation_config["eos_token_id"] = [self.eos_token_id, self.pad_token_id]
+        generation_config["pad_token_id"] = self.pad_token_id
+
+        if "multi_modal_data" in req.non_tensor_batch:
+            multi_modal_data = req.non_tensor_batch["multi_modal_data"]
+            assert len(multi_modal_data) == 1
+            payload["multi_modal_data"] = multi_modal_data[0]
+        else:
+            input_ids = req.batch["input_ids"]
+            assert not collect_unfinished or input_ids.size(0) == 1
+            attention_mask = req.batch["attention_mask"]
+            input_ids = gather_unpadded_input_ids(input_ids=input_ids, attention_mask=attention_mask)
+            payload["input_ids"] = input_ids[0]
+
+        match self.strategy_name:
+            case "sglang":
+                from roll.distributed.strategy.sglang_strategy import create_sampling_params_for_sglang
+                sampling_params = create_sampling_params_for_sglang(gen_kwargs=generation_config)
+                payload["sampling_params"] = sampling_params
+                payload["return_logprob"] = generation_config.get("logprobs", 0) is not None
+            case "vllm":
+                from roll.distributed.strategy.vllm_strategy import create_sampling_params_for_vllm
+                # vllm is hard coded to return logprob
+                sampling_params = create_sampling_params_for_vllm(generation_config, collect_unfinished)
+                payload["sampling_params"] = sampling_params
+            case _:
+                raise NotImplementedError(f"strategy {self.strategy_name} is not supported")
+        return payload, request_id
+
+    def _postprocess_generate(self, req, response):
+        output_data = DataProto(meta_info=req.meta_info)
+        output_data.meta_info["finish_reasons"] = response["finish_reasons"]
+        output_data.meta_info["output_token_ids"] = response["output_token_ids"]
+        output_data.meta_info["output_logprobs"] = response.get("output_logprobs", None)
+        output_data.meta_info["eos_token_id"] = [self.eos_token_id, self.pad_token_id]
+        output_data.meta_info["pad_token_id"] = self.pad_token_id
+        return output_data
+
+    async def generate_request(self, req: DataProto, request_id, uid):
+        """
+        Request format is adapted for sglang generate (specificly, use rid rather than request_id),
+        which can be directly used by SglangRouter.
+        Request is expected to be scalar (single request).
+
+        Response format is adapted for ROLL DataProto.
+        Response is expected to be vector (expanded for parallel sample).
+        """
+        payload, request_id = self._preprocess_generate(req, request_id)
+
+        if not await self.proxy.on_send_request(request_id):
+            return None # shutdown
+        try:
+            response = await self.proxy.generate_request(payload=payload, request_id=request_id, uid=uid)
+        finally:
+            await self.proxy.on_request_routed(request_id)
+
+        return self._postprocess_generate(req, response)
+
+    def generate_request_sync(self, req: DataProto, request_id, uid):
+        payload, request_id = self._preprocess_generate(req, request_id)
+
+        if not self.proxy.on_send_request_sync(request_id):
+            return None # shutdown
+        try:
+            response = self.proxy.generate_request_sync(payload=payload, request_id=request_id, uid=uid)
+        finally:
+            self.proxy.on_request_routed_sync(request_id)
+
+        return self._postprocess_generate(req, response)
+
+class Router:
+    def __init__(self, router_manager, workers, model_path, router_args: RouterArguments):
+        self.router_manager_ref = weakref.ref(router_manager)
+        self.workers = workers
+        self.model_path = model_path
+        self.router_args = router_args
+
+    @abstractmethod
+    async def initialize(self):
+        pass
+
+    @abstractmethod
+    async def generate_request(self, payload, request_id, uid):
+        pass
+
+    @abstractmethod
+    async def abort_requests(self, request_ids, uid):
+        pass
+
+    @abstractmethod
+    async def abort_all(self, request_ids):
+        pass
+
+    async def rebalance_on_shrink(self, shrink_dp_ranks: List[int]) -> Dict[str, int]:
+        raise NotImplementedError
+
+    async def rebalance_on_expand(self, expand_dp_ranks: List[int]) -> Dict[str, int]:
+        raise NotImplementedError
+
+class SglangRouter(Router):
+    """
+    Wrap of https://docs.sglang.io/advanced_features/router.html#api-surface
+
+    This is act as a client to sglang-router, can instantiate one SglangRouterClient for every env,
+    """
+    async def initialize(self):
+        self.router_ip = Worker.get_node_ip()
+        self.router_port = Worker.get_free_port()
+
+        self.client = httpx.AsyncClient(timeout=httpx.Timeout(None))
+
+        self.worker_urls = await asyncio.gather(
+            *[
+                worker.get_url.remote()
+                for worker in self.workers
+            ]
+        )
+        self.http_mode = False if self.worker_urls[0].startswith("grpc") else True
+        assert self.http_mode
+
+        import multiprocessing
+        from sglang_router.launch_router import RouterArgs, launch_router
+
+        multiprocessing.set_start_method("spawn")
+
+        router_config = {
+            "host": self.router_ip,
+            "port": self.router_port,
+            "prometheus_port": Worker.get_free_port(),
+            "log_level": "warn",
+            "policy": "cache_aware",
+            "request_timeout_secs": 1800,
+            "max_concurrent_requests": -1,
+            "dp_aware": False,
+            "worker_urls": self.worker_urls,
+        }
+        extra_router_config = self.router_args.router_config
+        if router_config:
+            router_config.update(extra_router_config)
+        router_args = RouterArgs(**router_config)
+        self.router_process = multiprocessing.Process(
+            target=launch_router,
+            args=(router_args,),
+            daemon=True
+        )
+        self.router_process.start()
+        logger.info(f"Launch sglang-router {router_args=}")
+        await wait_sglang_router_ready(self.router_process, f"http://{self.router_ip}:{self.router_port}")
+        await wait_sglang_router_workflow(f"http://{self.router_ip}:{self.router_port}", self.worker_urls)
+
+    async def generate_request(self, payload, request_id, uid):
+        raise RuntimeError("SglangRouter.generate_request is not expected to be called directly, use RouterClient.")
+
+    async def abort_requests(self, request_ids, uid):
+        async def abort_request(self, url, request_id):
+            response = await self.client.post(f"{url}/abort_request", json={"rid": request_id})
+            raise_for_status(response)
+        await asyncio.gather(
+            *[
+                abort_request(self, url=url, request_id=request_id)
+                for request_id in request_ids for url in self.worker_urls
+            ]
+        )
+
+    async def abort_all(self, request_ids):
+        # Cannot use abort_all of sglang, because actor_cluster may be shared between different Routers.
+        await self.abort_requests(request_ids, uid=None)
+
+    async def abort_all_worker(self, url):
+        # Can only be used when router is not shared between two scheudlers.
+        response = await self.client.post(f"{url}/abort_request", json={"abort_all": True})
+        raise_for_status(response)
+
+    async def post_workers(self, urls):
+        responses = await asyncio.gather(
+            *[
+                self.client.post(
+                    f"http://{self.router_ip}:{self.router_port}/workers",
+                    json={"url": url},
+                )
+                for url in urls
+            ]
+        )
+        for response in responses:
+            raise_for_status(response)
+
+    async def delete_workers(self, urls):
+        encoded_urls = [quote(url, safe="") for url in urls]
+        responses = await asyncio.gather(
+            *[self.client.delete(f"http://{self.router_ip}:{self.router_port}/workers/{url}") for url in encoded_urls]
+        )
+        for response in responses:
+            raise_for_status(response)
+
+    async def get_worker_loads(self, url):
+        response = await self.client.get(f"{url}/get_load")
+        raise_for_status(response)
+        return response.json()
+
+    async def wait_worker_complete(self, url):
+        while True:
+            loads = await self.get_worker_loads(url)
+            if all(load["num_reqs"] == 0 and load["num_waiting_reqs"] == 0 for load in loads):
+                break
+            await asyncio.sleep(1)
+
+    async def rebalance_on_shrink(self, shrink_dp_ranks: List[int]) -> Dict[str, int]:
+        shrink_urls = [self.worker_urls[dp_rank] for dp_rank in shrink_dp_ranks]
+
+        router_manager: RouterManager = self.router_manager_ref()
+        router_manager.suspend()
+
+        await self.delete_workers(shrink_urls)
+        logger.info(f"SglangRouter: delete workers on shrink {shrink_dp_ranks=} {shrink_urls=}")
+
+        # FIXME: Do not abort and wait for all workers.
+        # Because call wait_worker_complete of shrink workers may not be accurate. There may be
+        # a client called on_request_routed but has not calling generate_request yet.
+        # Instead, we use RouterManager.wait_complete to make sure no more requests to shrink workers.
+        await asyncio.gather(*[self.abort_all_worker(url) for url in self.worker_urls])
+        logger.info(f"SglangRouter: abort all requests on shrink {shrink_dp_ranks=} {shrink_urls=}")
+
+        logger.info(f"SglangRouter: wait for running requests on shrink ")
+        await router_manager.wait_complete()
+
+        await wait_sglang_router_workflow(f"http://{self.router_ip}:{self.router_port}", {url for url in self.worker_urls if url not in shrink_urls})
+
+        router_manager.resume()
+
+        logger.info(f"SglangRouter: rebalance on shrink finish")
+
+        return {"aborted": 0, "remapped": 0} # for compatibility
+
+    async def rebalance_on_expand(self, expand_dp_ranks: List[int]) -> Dict[str, int]:
+        expand_urls = [self.worker_urls[dp_rank] for dp_rank in expand_dp_ranks]
+
+        await self.post_workers(expand_urls)
+        logger.info(f"SglangRouter: post workers on expand {expand_dp_ranks=}")
+
+        # simply abort all requests to let sglang-router to re-schedule
+        await asyncio.gather(*[self.abort_all_worker(url) for url in self.worker_urls])
+        logger.info(f"SglangRouter: aborted all requests on expand {expand_dp_ranks=}")
+
+        # FIXME: assume expand all workers currently
+        await wait_sglang_router_workflow(f"http://{self.router_ip}:{self.router_port}", self.worker_urls)
+
+        return {"aborted": 0, "remapped": 0} # for compatibility
+
+class PromptAffinityRouter(Router):
+    """
+    Schedule requests of the same prompt to the same worker. Choose worker using best fit
+    strategy (using linear search for simplicity), blocking generate request if no worker available.
+
+    Limit the number of running requests of each dp rank below max_running_requests.
+    """
+    async def initialize(self):
+        self.max_running_requests = self.router_args.max_running_requests
+
+        # key: dp_rank, value: num_inflight_requests
+        self.worker_loads = {dp_rank: 0 for dp_rank in range(len(self.workers))}
+        # cache-aware scheduling by uid
+        self.id_to_dp_rank: Dict[int, int] = {}
+        # dp_rank -> request_ids, used by abort_all
+        self.dp_inflight_requests: List[int, Set[str]] = [set() for _ in self.workers]
+
+        self.lock = asyncio.Lock()
+        # used by acquire
+        self.event = asyncio.Event()
+        # used by reacquire
+        self.worker_event = {dp_rank: asyncio.Event() for dp_rank in range(len(self.workers))}
+
+    def __repr__(self):
+        return f"worker loads: {self.worker_loads}"
+
+    async def generate_request(self, payload, request_id, uid):
+        credit = payload["sampling_params"]["n"]
+        dp_rank = None
+        if uid not in self.id_to_dp_rank:
+            # To prevent multiple generate requests for the same prompt.
+            # It is safe and no performance issue to acquire lock here.
+            # Because acquire is guaranteed to return as long as there has
+            # one worker whose running_requests < max_running_requests no matter
+            # how large credit is.
+            async with self.lock:
+                if uid not in self.id_to_dp_rank:
+                    dp_rank = await self.acquire(credit=credit)
+                    self.id_to_dp_rank[uid] = dp_rank
+        if dp_rank is None:
+            assert uid in self.id_to_dp_rank
+            dp_rank = self.id_to_dp_rank[uid]
+            assert dp_rank is not None
+            await self.reacquire(dp_rank=dp_rank, credit=credit)
+        try:
+            self.dp_inflight_requests[dp_rank].add(request_id)
+            # InferWorker.generate_request only return data with finish_reason=="abort" on abort
+            # but not raise asyncio.CancelledError. This try finally block may be not necessary.
+            return await self.workers[dp_rank].generate_request.remote(payload)
+            # TODO ray.cancel(ref) on asyncio.CancelledError
+        finally:
+            self.dp_inflight_requests[dp_rank].remove(request_id)
+            self.release(dp_rank=dp_rank, credit=credit)
+
+    async def abort_requests(self, request_ids, uid):
+        assert uid is not None
+        dp_rank = self.id_to_dp_rank[uid]
+        await self.workers[dp_rank].abort_requests.remote(request_ids=request_ids)
+
+    async def abort_all(self, request_ids):
+        await asyncio.gather(
+            *[
+                self.workers[dp_rank].abort_requests.remote(list(request_ids))
+                for dp_rank, request_ids in enumerate(self.dp_inflight_requests)
+            ]
+        )
+        self.id_to_dp_rank.clear() # gc uid cache here
+
+    async def acquire(self, credit: int) -> int:
+        while True:
+            # TODO add check of suspend here to stop early
+            target = -1
+            for dp_rank, running_requests in self.worker_loads.items():
+                if running_requests >= self.max_running_requests:
+                    continue
+                if target == -1 or running_requests < self.worker_loads[target]:
+                    target = dp_rank
+            if target != -1:
+                # may send more requests than max_running_requests,
+                # i.e. worker_loads[target] + credit > max_running_requests
+                self.worker_loads[target] += credit
+                return target
+            self.event.clear()
+            await self.event.wait()
+
+    async def reacquire(self, dp_rank: int, credit: int):
+        assert dp_rank in self.worker_loads
+        while True:
+            # TODO add check of suspend here to stop early
+            if self.worker_loads[dp_rank] < self.max_running_requests:
+                self.worker_loads[dp_rank] += credit
+                return
+            self.worker_event[dp_rank].clear()
+            await self.worker_event[dp_rank].wait()
+
+    def release(self, dp_rank: int, credit: int):
+        assert credit >= 0
+        self.worker_loads[dp_rank] -= credit
+        assert self.worker_loads[dp_rank] >= 0
+        self.event.set()
+        self.worker_event[dp_rank].set()
+
+    def size(self):
+        return sum(self.worker_loads.values())
+
+    def full(self) -> bool:
+        return all(running_requests >= self.max_running_requests for running_requests in self.worker_loads.values())
+
+class EnvAffinityRouter(Router):
+    """
+    Schedule requests of the same (env) uid, to the same dp_rank.
+
+    Choose dp_rank by RR for the first time.
+
+    No rate limit now.
+
+    Do not support partial rollout now.
+    """
+    async def initialize(self):
+        self.src_rank2_dp_rank = {}
+        self.request_id_2_src_rank: Dict[str, int] = {}  # Reverse lookup for abort
+        self.running_requests: List[set[str]] = [set() for _ in range(len(self.workers))]
+        self.worker_iter = itertools.cycle(range(len(self.workers)))
+
+        # Active DP ranks for request routing
+        self.active_dp_ranks: Set[int] = set(range(len(self.workers)))  # All ranks initially active
+        self.routing_lock = asyncio.Lock()  # Protect routing updates
+
+    async def generate_request(self, payload, request_id, uid):
+        src_rank = uid
+        # Atomic routing assignment under lock to prevent TOCTOU race with shrink/expand
+        async with self.routing_lock:
+            # Least-loaded dispatch
+            if src_rank not in self.src_rank2_dp_rank:
+                dp_rank = self._get_least_active_dp_rank()
+                self.src_rank2_dp_rank[src_rank] = dp_rank
+            dp_rank = self.src_rank2_dp_rank[src_rank]
+
+        self.request_id_2_src_rank[request_id] = src_rank
+        self.running_requests[dp_rank].add(request_id)
+
+        try:
+            return await self.workers[dp_rank].generate_request.remote(payload)
+        finally:
+            self.running_requests[dp_rank].remove(request_id)
+            # Cleanup tracking (on both success and abort paths)
+            self.request_id_2_src_rank.pop(request_id, None)
+
+    async def abort_requests(self, request_ids, uid):
+        raise NotImplementedError
+
+    async def abort_all(self, request_ids):
+        await asyncio.gather(*(
+            self.workers[dp_rank].abort_requests.remote(list(self.running_requests[dp_rank]))
+            for dp_rank in range(len(self.workers))
+            if self.running_requests[dp_rank]
+        ))
+
+    def _get_least_active_dp_rank(self) -> int:
+        """Find DP rank with fewest assigned src_ranks (environments).
+
+        Returns:
+            DP rank with minimum src_rank count from src_rank2_dp_rank
+
+        Raises:
+            RuntimeError: If no active ranks
+
+        Note:
+            Counts unique src_ranks (environments) per worker, not in-flight requests.
+            With sticky mapping, one src_rank generates multiple sequential requests.
+        """
+        candidate_ranks = list(self.active_dp_ranks)
+        if not candidate_ranks:
+            raise RuntimeError("No active DP ranks")
+        # todo optimization: (yangpeng) not efficient, better to use counter for this
+        # Count src_ranks per dp_rank
+        src_rank_count = defaultdict(int)
+        for src_rank, dp_rank in self.src_rank2_dp_rank.items():
+            if dp_rank in self.active_dp_ranks:
+                src_rank_count[dp_rank] += 1
+
+        # Return dp_rank with minimum src_rank count
+        return min(candidate_ranks, key=lambda r: src_rank_count[r])
+
+    def _clear_src_rank_mappings(self, src_ranks: Set[int]) -> None:
+        """Clear sticky mappings to allow re-routing on retry."""
+        for src_rank in src_ranks:
+            self.src_rank2_dp_rank.pop(src_rank, None)
+
+    async def rebalance_on_shrink(self, shrink_dp_ranks: List[int]) -> Dict[str, int]:
+        # Atomic operation under routing_lock
+        async with self.routing_lock:
+            # Rebalance (abort + update active_dp_ranks)
+            return await self.rebalance_on_shrink_impl(shrink_dp_ranks)
+
+    async def rebalance_on_shrink_impl(self, shrink_dp_ranks: List[int]) -> Dict[str, int]:
+        """Abort requests on shrinking workers, clear mappings for natural re-dispatch.
+
+        Args:
+            shrink_dp_ranks: DP ranks to remove from active set
+
+        Returns:
+            {"aborted": count, "remapped": count}
+
+        Raises:
+            ValueError: If shrink_dp_ranks empty/invalid/duplicates
+            RuntimeError: If timeout or operation fails
+        """
+        # VAL: VAL_NON_EMPTY, VAL_TYPE_CHECK, VAL_INT_RANGE, VAL_NO_DUPLICATES
+        if not shrink_dp_ranks:
+            raise ValueError("shrink_dp_ranks cannot be empty")
+
+        for rank in shrink_dp_ranks:
+            if not isinstance(rank, int):
+                raise TypeError(f"Expected int, got {type(rank)}")
+            if not (0 <= rank < len(self.workers)):
+                raise ValueError(f"rank {rank} out of range")
+
+        if len(shrink_dp_ranks) != len(set(shrink_dp_ranks)):
+            raise ValueError(f"Duplicates in shrink_dp_ranks")
+
+        # P0: LOCK_TIMEOUT
+        try:
+            return await asyncio.wait_for(
+                self._rebalance_on_shrink(shrink_dp_ranks),
+                timeout=30.0
+            )
+        except asyncio.TimeoutError:
+            raise RuntimeError("rebalance_on_shrink timed out after 30s")
+
+    async def _rebalance_on_shrink(self, shrink_dp_ranks: List[int]) -> Dict[str, int]:
+        """Internal implementation of shrink rebalancing.
+
+        PRE-CONDITION: routing_lock MUST be held by caller (shrink_workers).
+        This method does NOT acquire the lock internally to avoid double-lock deadlock.
+
+        Args:
+            shrink_dp_ranks: DP ranks to remove from active set
+
+        Returns:
+            {"aborted": count, "remapped": count}
+
+        Raises:
+            RuntimeError: If shrink operation fails
+        """
+        keep_ranks = list(self.active_dp_ranks - set(shrink_dp_ranks))
+        if not keep_ranks:
+            raise ValueError("Cannot shrink to zero active ranks")
+
+        old_active_ranks = self.active_dp_ranks.copy()
+        self.active_dp_ranks = set(keep_ranks)
+
+        try:
+            total_aborted = 0
+            abort_futures = []
+
+            for dp_rank in shrink_dp_ranks:
+                request_ids = list(self.running_requests[dp_rank])
+                if not request_ids:
+                    continue
+
+                total_aborted += len(request_ids)
+
+                abort_futures.append(
+                    self.workers[dp_rank].abort_requests.remote(request_ids)
+                )
+
+            await asyncio.gather(*abort_futures)
+
+            while True:
+                remain = sum(len(self.running_requests[dp_rank]) for dp_rank in shrink_dp_ranks)
+                if remain == 0:
+                    break
+                logger.info(f"Shrink: waiting for {len(shrink_dp_ranks)} workers {remain=} to finish abort")
+                await asyncio.sleep(3)
+
+            # Clear ALL mappings pointing to shrinking workers (not just in-flight)
+            shrink_dp_ranks_set = set(shrink_dp_ranks)
+            src_ranks_to_remap = set([
+                src_rank for src_rank, dp_rank in self.src_rank2_dp_rank.items()
+                if dp_rank in shrink_dp_ranks_set
+            ])
+            self._clear_src_rank_mappings(src_ranks_to_remap)
+
+            logger.info(
+                f"Shrink: aborted {total_aborted} requests, "
+                f"cleared {len(src_ranks_to_remap)} mappings"
+            )
+
+            return {"aborted": total_aborted, "remapped": len(src_ranks_to_remap)}
+
+        except Exception as e:
+            self.active_dp_ranks = old_active_ranks
+            raise RuntimeError(f"Shrink failed: {e}") from e
+
+    async def rebalance_on_expand(self, expand_dp_ranks: List[int]) -> Dict[str, int]:
+        # Atomic operation under routing_lock
+        async with self.routing_lock:
+            # Rebalance (update active_dp_ranks + conditional abort)
+            return await self.rebalance_on_expand_impl(expand_dp_ranks)
+
+    async def rebalance_on_expand_impl(self, expand_dp_ranks: List[int]) -> Dict[str, int]:
+        """Add workers and rebalance via src_rank-level abort.
+
+        Args:
+            expand_dp_ranks: DP ranks to add to active set
+
+        Returns:
+            {"aborted": count, "remapped": count}
+
+        Raises:
+            ValueError: If expand_dp_ranks invalid
+            RuntimeError: If timeout or operation fails
+        """
+        # VAL: VAL_NON_EMPTY, VAL_TYPE_CHECK, VAL_INT_RANGE, VAL_NO_DUPLICATES
+        if not expand_dp_ranks:
+            raise ValueError("expand_dp_ranks cannot be empty")
+        for rank in expand_dp_ranks:
+            if not isinstance(rank, int):
+                raise TypeError(f"Expected int, got {type(rank)}")
+            if not (0 <= rank < len(self.workers)):
+                raise ValueError(f"rank {rank} out of range")
+        if len(expand_dp_ranks) != len(set(expand_dp_ranks)):
+            raise ValueError(f"Duplicates in expand_dp_ranks")
+
+        # P0: LOCK_TIMEOUT
+        try:
+            return await asyncio.wait_for(
+                self._rebalance_on_expand(expand_dp_ranks),
+                timeout=30.0
+            )
+        except asyncio.TimeoutError:
+            raise RuntimeError("rebalance_on_expand timed out after 30s")
+
+    async def _rebalance_on_expand(self, expand_dp_ranks: List[int]) -> Dict[str, int]:
+        """Internal implementation of expand rebalancing.
+
+        PRE-CONDITION: routing_lock MUST be held by caller (expand_workers).
+        This method does NOT acquire the lock internally to avoid double-lock deadlock.
+
+        Algorithm: Round-robin selection across old workers
+        1. Calculate proportional src_ranks to abort: src_ranks_to_keep = ceil(total * old_count / new_count)
+        2. Group existing src_ranks by dp_rank (only old workers)
+        3. Round-robin iterate over old workers using cycle()
+        4. Select one src_rank at a time until remaining_to_abort reaches 0
+        5. Abort ALL requests from selected src_ranks
+        6. Clear src_rank mappings for reallocation to new workers
+
+        Implementation Notes:
+        - Uses cycle() for infinite round-robin iteration over old workers
+        - Check at line 1146 (if not dp_rank in old_active_dp_ranks) is redundant
+          since dp_rank_to_src_ranks already contains only old workers, but kept as defensive guard
+        - Loop terminates when remaining_to_abort <= 0 or all worker lists are exhausted
+        - If all workers exhausted before reaching target, loop may cycle indefinitely
+          (no explicit check for empty state, but pop(0) will eventually empty all lists)
+
+        Args:
+            expand_dp_ranks: DP ranks to add to active set (already validated)
+
+        Returns:
+            {"aborted": count, "remapped": count} - count of src_ranks aborted/remapped
+
+        Preconditions:
+            - routing_lock MUST be held by caller
+            - expand_dp_ranks validated (non-empty, int, in range, no duplicates)
+
+        Postconditions:
+            - active_dp_ranks updated with expand_dp_ranks
+            - Selected src_ranks aborted and removed from mappings
+            - Requests from aborted src_ranks reported as is_abort=True
+        """
+        # Calculate counts before updating active_dp_ranks
+        old_dp_count = len(self.active_dp_ranks)
+        old_active_dp_ranks = self.active_dp_ranks.copy()
+
+        self.active_dp_ranks.update(expand_dp_ranks)
+        new_dp_count = len(self.active_dp_ranks)
+
+        total_src_ranks = len(self.src_rank2_dp_rank)
+        if total_src_ranks == 0:
+            return {"aborted": 0, "remapped": 0}
+
+        # Proportional calculation
+        src_ranks_to_keep = math.ceil(int(total_src_ranks * old_dp_count / new_dp_count))
+        src_ranks_to_abort = total_src_ranks - src_ranks_to_keep
+
+        if src_ranks_to_abort <= 0:
+            logger.info("Expand: no rebalancing needed (src_ranks_to_abort <= 0)")
+            return {"aborted": 0, "remapped": 0}
+
+        # Group src_ranks by dp_rank (old workers only)
+        dp_rank_to_src_ranks = defaultdict(list)
+        for src_rank, dp_rank in self.src_rank2_dp_rank.items():
+            if dp_rank in old_active_dp_ranks:
+                dp_rank_to_src_ranks[dp_rank].append(src_rank)
+
+        # Round-robin selection: iterate over old workers and select one src_rank at a time
+        # todo optimization:(yangpeng) take uneven dp load into consideration and do dynamic load balancing, not just RR
+        selected_src_ranks = []
+        remaining_to_abort = src_ranks_to_abort
+        for dp_rank in itertools.cycle(dp_rank_to_src_ranks.keys()):
+            if not dp_rank in old_active_dp_ranks:
+                continue
+
+            if remaining_to_abort <= 0:
+                break
+
+            src_ranks_on_worker = dp_rank_to_src_ranks.get(dp_rank, [])
+            if not src_ranks_on_worker:
+                continue
+            selected_src_ranks.append(src_ranks_on_worker.pop(0))
+
+            remaining_to_abort -= 1
+
+        # Remove from mapping and group by dp_rank for abort
+        abort_by_dp_rank = defaultdict(list)
+        for src_rank in selected_src_ranks:
+            dp_rank = self.src_rank2_dp_rank.pop(src_rank)
+
+            # Find request_id(s) for this src_rank
+            for request_id, sr in self.request_id_2_src_rank.items():
+                if sr == src_rank:
+                    abort_by_dp_rank[dp_rank].append(request_id)
+
+        # Send batched ABORT commands
+        abort_futures = []
+        total_aborted = 0
+        for dp_rank, request_ids in abort_by_dp_rank.items():
+            if not request_ids:
+                continue
+
+            total_aborted += len(request_ids)
+            abort_futures.append(
+                self.workers[dp_rank].abort_requests.remote(request_ids)
+            )
+
+
+        await asyncio.gather(*abort_futures)
+
+        logger.info(
+            f"Expand: aborted {len(selected_src_ranks)} src_ranks, "
+            f"cleared {len(selected_src_ranks)} mappings "
+            f"(proportional: {old_dp_count}/{new_dp_count})"
+        )
+
+        return {"aborted": len(selected_src_ranks), "remapped": len(selected_src_ranks)}
diff --git a/roll/distributed/scheduler/storage.py b/roll/distributed/scheduler/storage.py
index da4c9e1d5..279a14e18 100644
--- a/roll/distributed/scheduler/storage.py
+++ b/roll/distributed/scheduler/storage.py
@@ -1,10 +1,7 @@
 import ray
-
 from roll.utils.logging import get_logger
-
 logger = get_logger()
 
-
 @ray.remote
 class SharedStorage:
 
@@ -21,3 +18,9 @@ def get(self, key):
             logger.warning(f"{key} is not found in storage")
             return None
         return ray.get(ref)
+
+    def put_if_absent(self, key: str, data: any) -> bool:
+        if key in self._storage:
+            return False
+        self._storage[key] = ray.put(data)
+        return True
\ No newline at end of file
diff --git a/roll/distributed/scheduler/user_defined_rollout_loop.py b/roll/distributed/scheduler/user_defined_rollout_loop.py
new file mode 100644
index 000000000..aaf8756bc
--- /dev/null
+++ b/roll/distributed/scheduler/user_defined_rollout_loop.py
@@ -0,0 +1,276 @@
+import asyncio
+import copy
+import math
+from typing import List, Optional
+
+import torch
+from torch.nn.utils.rnn import pad_sequence
+
+from roll.distributed.scheduler.generate_scheduler import (
+    RolloutContext,
+    expand_requests,
+)
+from roll.distributed.scheduler.router import is_report_data_finished
+from roll.distributed.scheduler.protocol import DataProto
+from roll.pipeline.rlvr.rlvr_config import RLVRConfig
+from roll.distributed.scheduler.protocol import DataProto
+from roll.utils.functionals import (
+    postprocess_generate,
+    concatenate_input_and_output,
+)
+from roll.utils.logging import get_logger
+
+
+logger = get_logger()
+
+# ================= helper functions =================
+
+def query_filter(data_list: List[DataProto], config: RLVRConfig) -> bool:
+    """
+    各domain的过滤规则可以自定义
+    """
+    response_level_rewards = [data.batch["response_level_rewards"] for data in data_list]
+    if len(response_level_rewards) == 1:
+        return True
+    rewards = torch.cat(response_level_rewards, dim=0)
+
+    domain = data_list[0].non_tensor_batch["domain"][0]
+    query_filter_config = config.rewards[domain].query_filter_config
+
+    if query_filter_config.type == "no_filter":
+        return True
+    elif query_filter_config.type == "mean_filter":
+        threshold_up = query_filter_config.filter_args.get("threshold_up", math.inf)
+        threshold_down = query_filter_config.filter_args.get("threshold_down", -1)
+        if torch.mean(rewards) <= threshold_down or torch.mean(rewards) >= threshold_up:
+            return False
+    elif query_filter_config.type == "std_filter":
+        std_threshold = query_filter_config.filter_args.get("std_threshold", -1)
+        if torch.std(rewards) <= std_threshold:
+            return False
+    return True
+
+def response_filter(data_item, config):
+    return True
+
+def postprocess_paused_data(pre_data, data: DataProto, sequence_length, prompt_length) -> DataProto:
+    if "output_token_ids" not in data.meta_info:  # abort without inferred a token
+        # too many this log means need more infer workers
+        logger.info(f"received data without output_token_ids")
+        return pre_data
+
+    assert len(data.meta_info["output_token_ids"]) == 1, (
+        "async pipeline only support num_return_sequences=1 or is_num_return_sequences_expand=True"
+    )
+
+    # value: list[list[int|float]]
+    for key in ["output_token_ids", "output_logprobs"]:
+        cur_value = data.meta_info.pop(key)
+        pre_value = pre_data.meta_info.get(f"pre_{key}", [[]] * len(cur_value))
+        assert len(pre_value) == len(cur_value)
+        pre_value = [pre_value[i] + cur_value[i] for i in range(len(pre_value))]
+        data.meta_info[f"pre_{key}"] = pre_value
+    new_batch = {**pre_data.batch}
+
+    init_attention_mask = pre_data.batch.get("init_attention_mask", pre_data.batch["attention_mask"])
+    new_batch["init_attention_mask"] = init_attention_mask
+    new_batch["init_input_ids"] = pre_data.batch.get("init_input_ids", pre_data.batch["input_ids"])
+
+    # concat pre output_ids and input_ids
+    new_input_ids = concatenate_input_and_output(
+        input_ids=new_batch["init_input_ids"],
+        output_ids=torch.LongTensor(data.meta_info["pre_output_token_ids"]),
+        num_return_sequences=len(data.meta_info["pre_output_token_ids"]),
+    )
+    new_batch["input_ids"] = new_input_ids
+
+    new_attention_mask = torch.ones_like(new_input_ids, dtype=init_attention_mask.dtype)
+    new_attention_mask[:, :init_attention_mask.shape[1]] = init_attention_mask
+    new_batch["attention_mask"] = new_attention_mask
+
+    max_new_tokens = sequence_length - new_input_ids.shape[1]
+    if max_new_tokens <= 0:
+        raise ValueError(f"max_new_tokens {max_new_tokens} <= 0, init_input_ids {new_batch['init_input_ids'].shape}, "
+        f"pre_output_token_ids {len(data.meta_info['pre_output_token_ids'][0])}")
+    data.meta_info["max_new_tokens"] = max_new_tokens
+    new_non_tensor_batch = dict(
+        [(k, v.repeat(len(data.meta_info["pre_output_token_ids"]))) for k, v in pre_data.non_tensor_batch.items()]
+    )  # repeat num_return_sequences=1
+    if "multi_modal_data" in pre_data.non_tensor_batch:
+        for i, (mm_data, prompt_token_ids) in enumerate(
+            zip(new_non_tensor_batch["multi_modal_data"], data.meta_info["pre_output_token_ids"])
+        ):
+            # use new dict to replace repeated reference
+            mm_data = new_non_tensor_batch["multi_modal_data"][i] = dict(mm_data)
+            # VLM uses prompt_ids (without replaced image tokens) in multi_modal_data
+            prompt_token_ids = mm_data["prompt_token_ids"] + prompt_token_ids
+            mm_data.update({"prompt_token_ids": prompt_token_ids})
+    data = DataProto.from_dict(
+        new_batch, non_tensors=new_non_tensor_batch, meta_info={**pre_data.meta_info, **data.meta_info}
+    )
+    assert data.batch["init_attention_mask"].shape[1] == prompt_length
+    assert data.batch["init_input_ids"].shape[1] == prompt_length
+    return data
+
+def postprocess_output_data(request, data: DataProto, sequence_length) -> DataProto:
+    # postprocess_generate, input_ids, attention_mask, left pad
+    eos_token_id = data.meta_info["eos_token_id"]
+    pad_token_id = data.meta_info["pad_token_id"]
+    input_ids = request.batch.pop("init_input_ids", request.batch["input_ids"])
+    request.batch["input_ids"] = input_ids
+    request.batch["attention_mask"] = request.batch.pop("init_attention_mask", request.batch["attention_mask"])
+    output_token_ids = data.meta_info["output_token_ids"]
+    pre_output_token_ids = request.meta_info.pop("pre_output_token_ids", [[]] * len(output_token_ids))
+    output_token_ids = [pre_output_token_ids[i] + output_token_ids[i] for i in range(len(pre_output_token_ids))]
+
+    output_logprobs = data.meta_info.get("output_logprobs", None)
+    if output_logprobs is not None:
+        pre_output_logprobs = request.meta_info.get("pre_output_logprobs", [[]] * len(output_token_ids))
+        output_logprobs = [pre_output_logprobs[i] + output_logprobs[i] for i in range(len(pre_output_logprobs))]
+
+    output_tokens = [torch.tensor(token_ids) for token_ids in output_token_ids]
+    output_tensor = pad_sequence(output_tokens, batch_first=True, padding_value=pad_token_id)
+    output_tensor = concatenate_input_and_output(
+        input_ids=input_ids, output_ids=output_tensor, num_return_sequences=len(output_tokens)
+    )
+    output: DataProto = postprocess_generate(
+        prompts=request,
+        output=output_tensor,
+        num_return_sequences=len(output_tokens),
+        sequence_length=sequence_length,
+        eos_token_id=eos_token_id,
+        pad_token_id=pad_token_id,
+        output_logprobs=output_logprobs,
+    )
+    request_repeat = request.repeat(repeat_times=len(output_tokens))
+    output.non_tensor_batch = request_repeat.non_tensor_batch
+    output.meta_info = request_repeat.meta_info
+    return output
+
+# ================= example of user defined rollout loop =================
+
+class UserDefinedRolloutLoop:
+    """
+    Default user defined rollout loop.
+
+    User should write there own udrl class with an async function name process_new_prompt
+    with signature (self, context: RolloutContext) -> Optional[DataProto|List[DataProto]].
+
+    RolloutContext hide almost all the implementation details of DynamicSamplingScheduler, LoadBalancer,
+    ReplayBuffer, and sync/async training.
+
+    A typical process_new_prompt has few steps:
+        1. get and filter dataset
+        2: spawn tasks to process requests, including generate, reward, and response level filter
+        3. prompt level filter
+        4. return responses to commit to ReplayBuffer
+
+    To abort this prompt(or dataset), just return None at any where.
+
+    Exception safe:
+        The framework will only raise asyncio.CancelledError exception. (process_new_prompt will be called by scheduler
+        as an asyncio.Task and scheduler may cancel this task if needed. User should not suppress asyncio.CancelledError
+        exception and should handle clean up by themself.)
+    
+        User should catch all other exceptions, any other exceptions will be treat as sys.exit by framework.
+    """
+    def __init__(self):
+        pass
+
+    async def process_new_prompt(self, context: RolloutContext) -> Optional[DataProto|List[DataProto]]:
+        num_return_sequences = context.meta_info["generation_config"]["num_return_sequences"]
+        # TODO user can control whether to expand requests at prompt level
+        is_num_return_sequences_expand = context.is_num_return_sequences_expand
+
+        ################# STEP 1: get and filter dataset
+        # TODO shigao dataset这一层应该暴露哪些部分(是collect前还是后面的数据呢)，需要用户自定义collect_fn吗
+        request_data, domain = context.get_request_data(meta_info=context.meta_info)
+        request_data_list = expand_requests(data=request_data, num_return_sequences=num_return_sequences,
+                            is_num_return_sequences_expand=is_num_return_sequences_expand)
+        # TODO data filter
+
+        ################# STEP 2: spawn tasks to process requests, including generate, reward, and filter at response level
+        # Must run inside RolloutContext.do_generate_and_reward context.
+        # RolloutContext.do_generate_and_reward will wait until can send new request (controlled by LoadBalancer).
+        # And at exit, RolloutContext will enforce there is no running requests.
+        async with context.do_generate_and_reward(max_concurrency=num_return_sequences):
+            responses_list: List[List[DataProto]] = await asyncio.gather(
+                *[self._generate_and_reward(context=context, req=req, domain=domain) for req in request_data_list]
+            )
+            if not all(sublist is not None for sublist in responses_list):
+                return None
+            responses: List[DataProto] = [item for sublist in responses_list for item in sublist]
+            # User can call RolloutContext.abort_running_requests to abort any running generate requests (generate will return a response
+            # with finish_reason=="abort", user should distinguish this from partial rollout to avoid dead loop).
+        # assert there is no running requests outside do_generate_and_reward context.
+
+        ################# STEP 3: prompt level filter
+        if not context.is_val and not query_filter(responses, context.pipeline_config):
+            # TODO add metrics (query_filter_count)
+            logger.debug(f"prompt_id {context.prompt_id} is filtered")
+            return
+
+        ################# STEP 4: return responses to commit to ReplayBuffer
+        return responses
+
+    async def _generate_and_reward(
+        self,
+        context: RolloutContext,
+        req: DataProto,
+        domain: str,
+    ):
+        responses: List[DataProto] = []
+
+        for _ in range(5): # limit max retry times, otherwise may cause dead loop
+            original_req = copy.deepcopy(req)
+
+            # TODO deprecate collect_unfinished after sglang support partial rollout
+            collect_unfinished = req.meta_info.get("collect_unfinished", False)
+
+            # TODO: multi-turn rollout
+            while True:
+                # TODO: user defined request preprocessor
+
+                data = await context.generate(req=req, domain=domain)
+
+                # TODO: user defined response postprocessor
+
+                # Scheduler may abort request in async training. Should resend partial output
+                # to support partial rollout.
+                if data is None:
+                    # only happened at shutdown, abort this prompt
+                    return
+                elif is_report_data_finished(data):
+                    req = postprocess_output_data(req, data, context.sequence_length)
+                    break
+                else:
+                    if not collect_unfinished:
+                        logger.info(f"received unfinished response {context.prompt_id=}")
+                        # return None to abort this prompt
+                        return
+                    else:
+                        req = postprocess_paused_data(req, data, context.sequence_length, context.prompt_length)
+
+            rewards = await context.compute_rewards(req=req, domain=domain)
+            req.union(rewards)
+
+            output_count = req.batch.batch_size[0]
+            assert output_count == req.meta_info["generation_config"]["num_return_sequences"]
+            batch_expanded = [req[[idx]] for idx in range(output_count)]
+
+            response_filter_count = 0
+            for batch_item in batch_expanded:
+                if context.is_val or response_filter(batch_item, context.pipeline_config):
+                    responses.append(batch_item)
+                else:
+                    # TODO add metrics (response_filter_count)
+                    response_filter_count += 1
+
+            if response_filter_count == 0:
+                break
+            else:
+                # retry if filter out some responses
+                original_req.meta_info["generation_config"]["num_return_sequences"] = response_filter_count
+                req = original_req
+
+        return responses
diff --git a/roll/distributed/strategy/deepspeed_strategy.py b/roll/distributed/strategy/deepspeed_strategy.py
index 0053fb4c1..51cf1b21d 100644
--- a/roll/distributed/strategy/deepspeed_strategy.py
+++ b/roll/distributed/strategy/deepspeed_strategy.py
@@ -1,12 +1,9 @@
-import os
 from collections import defaultdict
 from contextlib import nullcontext
-from dataclasses import asdict
 from datetime import timedelta
 from typing import Callable, Dict, Tuple
 
 import deepspeed
-import ray
 import torch
 import torch.distributed as dist
 from codetiming import Timer
@@ -14,7 +11,6 @@
 from deepspeed.runtime.zero import GatheredParameters
 from deepspeed.runtime.zero.offload_config import OffloadStateTypeEnum
 from peft import get_peft_model_state_dict
-from tqdm import tqdm
 from transformers import get_scheduler, set_seed
 from transformers.integrations import HfDeepSpeedConfig
 
@@ -23,6 +19,8 @@
 from roll.distributed.scheduler.protocol import DataProto
 from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
 from roll.models.model_providers import default_processor_provider, default_tokenizer_provider
+from roll.platforms import current_platform
+from roll.third_party.deepspeed.model_update import DeepSpeedWeightUpdater
 from roll.third_party.deepspeed.offload_states_patch import bind_deepspeed_offload_states_func
 from roll.utils.collective import collective
 from roll.utils.context_parallel import get_ulysses_group, set_upg_manager
@@ -31,7 +29,6 @@
 from roll.utils.constants import IGNORE_INDEX
 from roll.utils.logging import get_logger
 from roll.utils.offload_states import OffloadStateType
-from roll.platforms import current_platform
 
 
 logger = get_logger()
@@ -143,6 +140,15 @@ def forward_step(
         micro_batch_size = batch.meta_info["micro_batch_size"]
         num_microbatches = max(batch_size // micro_batch_size, 1)
         micro_batches = batch.chunk(chunks=num_microbatches)
+
+        cp_size = self.worker.rank_info.cp_size
+        batch_num_tokens = self._get_batch_num_tokens(batch)
+        batch.meta_info['batch_num_tokens'] = {k: v // cp_size for k, v in batch_num_tokens.items()}
+        global_valid_tokens = self._get_global_valid_samples(batch)
+        batch.meta_info['global_valid_samples'] = {k: v // cp_size for k, v in global_valid_tokens.items()}
+
+        loss_scale = num_microbatches * self.worker.rank_info.dp_size
+
         disable_adapter = batch.meta_info.get("disable_adapter", False)
         adapter_context = self.unwrap_model().disable_adapter() if disable_adapter else nullcontext()
         losses_reduced = []
@@ -153,6 +159,9 @@ def forward_step(
                 position_ids = data.batch["position_ids"]
                 forward_args = data.meta_info.get("forward_args", {})
                 if position_ids.dim() == 3:
+                    # same as megatron to be compatible with fsdp packing which change position_ids.size(1) to 4
+                    if position_ids.size(1) == 4:
+                        position_ids = position_ids[:, 1:, :].contiguous()  # (bsz, 4, seqlen) -> (bsz, 3, seqlen)
                     # qwen2vl mrope, maybe use a placeholder and let model generate position_ids
                     position_ids = position_ids.transpose(0, 1)  # (bsz, 3, seqlen) -> (3, bsz, seqlen)
                 if "multi_modal_inputs" in data.non_tensor_batch:
@@ -184,6 +193,8 @@ def forward_step(
                     **forward_args,
                 )
                 loss, loss_reduced = forward_func(data, output.logits)
+                if self.worker_config.apply_loss_scale:
+                    loss *= loss_scale
                 losses_reduced.append(loss_reduced)
         results = collate_fn_to_dict_list(losses_reduced)
         return results
@@ -240,16 +251,6 @@ def broadcast_parameter(self, model_update_name, src_pp_rank, dtype, shape, para
                     param.data.copy_(weight)
         del weight
 
-    def update_parameter(self, model_update_name, parameter_name, weight, ranks_in_worker):
-        param = self.model.get_parameter(parameter_name)
-        if not self.ds_config.is_zero3():
-            param.data.copy_(weight)
-        else:
-            with GatheredParameters([param], modifier_rank=0):
-                if dist.get_rank() == 0:
-                    param.data.copy_(weight)
-        del weight
-
     # offload/load 相关接口
     def load_states(self, include=None, non_blocking=False):
         if include is not None:
@@ -341,6 +342,8 @@ def initialize(self, model_provider):
         self.tokenizer = default_tokenizer_provider(model_args=self.worker_config.model_args)
         self.processor = default_processor_provider(model_args=self.worker_config.model_args)
 
+        self.weight_updaters = {}
+
         model = model_provider(tokenizer=self.tokenizer, model_args=self.worker_config.model_args, is_trainable=True)
 
         if cp_size > 1:
@@ -415,6 +418,7 @@ def op_compute_language_loss(self, logits: torch.Tensor, labels: torch.Tensor):
 
         Returns:
             loss: Scalar loss tensor
+            metrics: Dict
         """
         # Labels already shifted by DataCollator, directly compute cross-entropy
         loss = torch.nn.functional.cross_entropy(
@@ -422,7 +426,8 @@ def op_compute_language_loss(self, logits: torch.Tensor, labels: torch.Tensor):
             labels.view(-1),
             ignore_index=IGNORE_INDEX
         )
-        return loss
+        metrics = {f"{self.worker_config.name}/loss@sum": loss.detach().float().unsqueeze(0)}
+        return loss, metrics
 
     def train_step(
         self,
@@ -431,8 +436,18 @@ def train_step(
     ):
         self.model.train()
         mini_batch_size = self.worker_config.training_args.per_device_train_batch_size
-        data_iter = batch.make_iterator(mini_batch_size=mini_batch_size, epochs=1)
         mini_steps = batch.batch.batch_size[0] // self.worker_config.training_args.per_device_train_batch_size
+
+        cp_size = self.worker.rank_info.cp_size
+        batch_num_tokens = self._get_batch_num_tokens(batch)
+        batch.meta_info['batch_num_tokens'] = {k: v // cp_size for k, v in batch_num_tokens.items()}
+        global_valid_tokens = self._get_global_valid_samples(batch)
+        batch.meta_info['global_valid_samples'] = {k: v // cp_size for k, v in global_valid_tokens.items()}
+
+        loss_scale = mini_steps * self.worker.rank_info.dp_size
+        batch.meta_info['micro_batch_size'] = mini_batch_size
+
+        data_iter = batch.make_iterator(mini_batch_size=mini_batch_size, epochs=1)
         metrics = {}
 
         for step in range(mini_steps):
@@ -472,6 +487,8 @@ def train_step(
             loss, loss_reduced = loss_func(data, output.logits)
             append_to_dict(metrics, loss_reduced)
             loss *= self.worker.rank_info.cp_size
+            if self.worker_config.apply_loss_scale:
+                loss *= loss_scale
             self.model.backward(loss)
 
             is_gradient_accumulation_boundary = self.model.is_gradient_accumulation_boundary()
@@ -486,7 +503,7 @@ def train_step(
                     self.offload_states(include=[OffloadStateType.optimizer_states], non_blocking=True)
         return metrics
 
-    def save_checkpoint(self, save_dir, global_step, ckpt_id, tag="checkpoint", local_state_path=None, **kwargs):
+    def save_checkpoint(self, save_dir, global_step, ckpt_id, tag="checkpoint", local_state_path=None, is_last_step=None, **kwargs):
         """
         save ckpt/hf model/tokenizer to local dir
         save_dir/actor_train/{hf files}
@@ -521,9 +538,11 @@ def save_checkpoint(self, save_dir, global_step, ckpt_id, tag="checkpoint", loca
             if getattr(self, "processor", None):
                 self.processor.save_pretrained(save_dir)
             # save tokenizer
+        # DeepSpeedEngine.load_checkpoint method doesn't take an is_last_step argument
+        kwargs.pop("is_last_step", None)
         self.model.save_checkpoint(save_dir, tag=tag, **kwargs)
 
-        if self.worker_config.checkpoint_config.get("async_upload", True):
+        if self.worker_config.checkpoint_config.get("async_upload", True) and not is_last_step:
             self.thread_executor.submit(self.checkpoint_manager.upload, ckpt_id=ckpt_id, local_state_path=local_state_path)
         else:
             self.checkpoint_manager.upload(ckpt_id=ckpt_id, local_state_path=local_state_path)
@@ -554,113 +573,18 @@ def collect_lora_params(self):
         del lora_state_dict
         return lora_params
 
-    def model_update(self, model_update_name, tgt_workers, broadcast_tgt_devices, p2p_tgt_devices):
-        model = self.unwrap_model()
-        if is_lora := (self.worker_config.model_args.lora_target is not None):
-            all_params = self.collect_lora_params()
-            peft_config = model.peft_config.get("default", None)
-        else:
-            all_params = list(model.named_parameters())
-
-        comm_plan = self.model_update_comm_plan[model_update_name][self.worker.rank_info.pp_rank]
-        model = self.unwrap_model()
-        broadcast_time_cost = 0
-        with Timer("model_update_total") as timer_total:
-            for param_name, param in tqdm(
-                all_params, desc="weight update progress", total=len(all_params)
-            ):
-                shape = param.shape if not self.ds_config.is_zero3() else param.ds_shape
-                if not self.ds_config.is_zero3():
-
-                    param_weight = param.data
-                    refs = []
-                    for p2p_tgt_device in p2p_tgt_devices:
-                        p2p_tgt_worker = tgt_workers[p2p_tgt_device["rank"]]
-                        ref = p2p_tgt_worker.update_parameter.remote(
-                            model_update_name=model_update_name,
-                            parameter_name=param_name,
-                            weight=param_weight,
-                            ranks_in_worker=[p2p_tgt_device["device"]["rank"]],
-                            is_lora=is_lora,
-                        )
-                        refs.append(ref)
-
-                    if (
-                        self.worker.rank_info.tp_rank == 0
-                        and self.worker.rank_info.cp_rank == 0
-                        and self.worker.rank_info.dp_rank == 0
-                    ):
-                        for worker in tgt_workers:
-                            ref = worker.broadcast_parameter.remote(
-                                model_update_name=model_update_name,
-                                src_pp_rank=self.worker.rank_info.pp_rank,
-                                dtype=param_weight.dtype,
-                                shape=shape,
-                                parameter_name=param_name,
-                                is_lora=is_lora,
-                            )
-                            refs.append(ref)
-                    if len(broadcast_tgt_devices) > 0:
-                        collective.broadcast(tensor=param_weight, src_rank=0, group_name=comm_plan["group_name"])
-                    ray.get(refs)
-
-                else:
-                    with GatheredParameters([param]):
-                        param_weight = param.data
-                        with Timer("broadcast") as timer_broadcast:
-                            refs = []
-                            for p2p_tgt_device in p2p_tgt_devices:
-                                p2p_tgt_worker = tgt_workers[p2p_tgt_device["rank"]]
-                                ref = p2p_tgt_worker.update_parameter.remote(
-                                    model_update_name=model_update_name,
-                                    parameter_name=param_name,
-                                    weight=param_weight,
-                                    ranks_in_worker=[p2p_tgt_device["device"]["rank"]],
-                                    is_lora=is_lora,
-                                )
-                                refs.append(ref)
-
-                            if (
-                                self.worker.rank_info.tp_rank == 0
-                                and self.worker.rank_info.cp_rank == 0
-                                and self.worker.rank_info.dp_rank == 0
-                            ):
-                                for worker in tgt_workers:
-                                    ref = worker.broadcast_parameter.remote(
-                                        model_update_name=model_update_name,
-                                        src_pp_rank=self.worker.rank_info.pp_rank,
-                                        dtype=param_weight.dtype,
-                                        shape=shape,
-                                        parameter_name=param_name,
-                                        is_lora=is_lora,
-                                    )
-                                    refs.append(ref)
-                            if len(broadcast_tgt_devices) > 0:
-                                collective.broadcast(
-                                    tensor=param_weight, src_rank=0, group_name=comm_plan["group_name"]
-                                )
-                            ray.get(refs)
-                        broadcast_time_cost += timer_broadcast.last
-
-            if is_lora:
-                with Timer("add_lora") as timer_add_lora:
-                    if (
-                        self.worker.rank_info.tp_rank == 0
-                        and self.worker.rank_info.cp_rank == 0
-                        and self.worker.rank_info.dp_rank == 0
-                    ):
-                        refs = []
-                        for worker in tgt_workers:
-                            ref = worker.add_lora.remote(peft_config=asdict(peft_config))
-                            refs.append(ref)
-                        ray.get(refs)
+    def setup_model_update(self, infer_cluster, model_update_name: str):
+        assert model_update_name not in self.weight_updaters
+        is_lora = self.worker_config.model_args.lora_target is not None
+        self.weight_updaters[model_update_name] = DeepSpeedWeightUpdater(
+            pipeline_config=self.worker.pipeline_config,
+            infer_cluster=infer_cluster,
+            worker_config=self.worker_config,
+            model_update_name=model_update_name,
+            model=self.unwrap_model(),
+            ds_config=self.ds_config,
+            is_lora=is_lora,
+        )
 
-        metrics = {
-            "broadcast": broadcast_time_cost,
-        }
-        if is_lora:
-            metrics["all_gather"] = timer_total.last - broadcast_time_cost - timer_add_lora.last
-            metrics["add_lora"] = timer_add_lora.last
-        else:
-            metrics["all_gather"] = timer_total.last - broadcast_time_cost
-        return metrics
+    def model_update(self, model_update_name: str):
+        return self.weight_updaters[model_update_name].model_update()
diff --git a/roll/distributed/strategy/factory.py b/roll/distributed/strategy/factory.py
index e408fd929..a83dcf0f7 100644
--- a/roll/distributed/strategy/factory.py
+++ b/roll/distributed/strategy/factory.py
@@ -2,9 +2,16 @@
 
 from roll.distributed.executor.worker import Worker
 from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
+from roll.utils.asyncio_decorator import create_sync_class
 
 
-def create_strategy(worker: Worker) -> Union[InferenceStrategy, TrainStrategy]:
+def create_strategy(worker: Worker, sync_wrapper: bool = False) -> Union[InferenceStrategy, TrainStrategy]:
+    """
+    Args:
+        sync_wrapper (bool): vllm and sglang override interface of InferenceStrategy to async function.
+            When use those two strategy in ray Threaded Actor, we provide sync_wrapper to wrap
+            async function to sync function to avoid writing too much loop.run_unti_complete.
+    """
     strategy_name = worker.worker_config.strategy_args.strategy_name
 
     # Lazy import strategy to avoid cuda initialized
@@ -13,7 +20,7 @@ def create_strategy(worker: Worker) -> Union[InferenceStrategy, TrainStrategy]:
     elif strategy_name == "deepspeed_train":
         from roll.distributed.strategy.deepspeed_strategy import DeepSpeedTrainStrategy as strategy_cls
     elif strategy_name == "diffusion_deepspeed_train":
-        from roll.distributed.strategy.diffusion_strategy import DeepSpeedTrainStrategy as strategy_cls    
+        from roll.distributed.strategy.diffusion_strategy import DeepSpeedTrainStrategy as strategy_cls
     elif strategy_name == "hf_infer":
         from roll.distributed.strategy.hf_strategy import HfInferStrategy as strategy_cls
     elif strategy_name == "vllm":
@@ -26,7 +33,13 @@ def create_strategy(worker: Worker) -> Union[InferenceStrategy, TrainStrategy]:
         from roll.distributed.strategy.megatron_strategy import MegatronTrainStrategy as strategy_cls
     elif strategy_name == "mock_infer":
         from roll.distributed.strategy.mock_strategy import MockInferStrategy as strategy_cls
+    elif strategy_name == "fsdp2_infer":
+        from roll.distributed.strategy.fsdp2_strategy import FSDP2InferStrategy as strategy_cls
+    elif strategy_name == "fsdp2_train":
+        from roll.distributed.strategy.fsdp2_strategy import FSDP2TrainStrategy as strategy_cls
     else:
         raise ValueError(f"Unknown strategy name: {strategy_name}")
 
+    if sync_wrapper:
+        strategy_cls = create_sync_class(strategy_cls)
     return strategy_cls(worker)
diff --git a/roll/distributed/strategy/fsdp2_strategy.py b/roll/distributed/strategy/fsdp2_strategy.py
new file mode 100644
index 000000000..723043313
--- /dev/null
+++ b/roll/distributed/strategy/fsdp2_strategy.py
@@ -0,0 +1,1283 @@
+import contextlib
+import os
+import random
+from collections import defaultdict
+from contextlib import nullcontext
+from typing import Callable, Dict, Optional, Tuple
+
+import numpy as np
+import ray
+import torch
+import torch.distributed as dist
+import torch.distributed.checkpoint as dcp
+from codetiming import Timer
+from torch import optim
+from torch.distributed.checkpoint.state_dict import StateDictOptions, get_model_state_dict
+from torch.distributed.device_mesh import init_device_mesh
+from torch.distributed.fsdp import CPUOffloadPolicy, MixedPrecisionPolicy
+from torch.distributed.tensor import DTensor, distribute_tensor
+from torch.nn.utils import clip_grad_norm_
+from torch.nn.utils.clip_grad import _clip_grads_with_norm_, _get_total_norm
+from transformers import AutoConfig, get_scheduler, set_seed
+
+from roll.datasets.collator import collate_fn_to_dict_list
+from roll.distributed.executor.worker import Worker
+from roll.distributed.scheduler.protocol import DataProto
+from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
+from roll.models.model_providers import (
+    clear_fsdp2_init_context,
+    default_processor_provider,
+    default_tokenizer_provider,
+    set_fsdp2_init_context,
+)
+from roll.platforms import current_platform
+from roll.third_party.fsdp2.model_update import FSDP2WeightUpdater
+from roll.utils.checkpoint_manager import CheckpointManager, download_model
+from roll.utils.collective import collective
+from roll.utils.context_parallel import get_ulysses_group, set_upg_manager
+from roll.utils.context_parallel.autograd_gather import ulysses_gather
+from roll.utils.context_parallel.rmpad_ulysses import (
+    gather_outputs_and_unpad,
+    ulysses_pad_and_slice_inputs,
+    ulysses_pad_inputs,
+)
+from roll.utils.fsdp_utils import (
+    apply_fsdp2,
+    fsdp2_load_full_state_dict,
+    get_init_weight_context_manager,
+    get_shard_placement_fn,
+)
+from roll.utils.functionals import append_to_dict, log_probs_from_logits
+from roll.utils.logging import get_logger
+from roll.utils.offload_states import OffloadStateType
+
+logger = get_logger()
+
+
+def _parse_dtype(dtype):
+    if dtype is None:
+        return None
+
+    if isinstance(dtype, torch.dtype):
+        return dtype
+
+    if isinstance(dtype, str):
+        dtype_lower = dtype.lower()
+        dtype_map = {
+            "bf16": torch.bfloat16,
+            "bfloat16": torch.bfloat16,
+            "fp16": torch.float16,
+            "float16": torch.float16,
+            "half": torch.float16,
+            "fp32": torch.float32,
+            "float32": torch.float32,
+            "float": torch.float32,
+            "fp64": torch.float64,
+            "float64": torch.float64,
+        }
+
+        if dtype_lower in dtype_map:
+            return dtype_map[dtype_lower]
+        else:
+            if hasattr(torch, dtype):
+                return getattr(torch, dtype)
+            else:
+                raise ValueError(
+                    f"Unsupported dtype string: '{dtype}'. " f"Supported values: {list(dtype_map.keys())}"
+                )
+
+    return dtype
+
+
+def create_device_mesh_with_ulysses(world_size: int, fsdp_size: int):
+    """
+    Create device mesh for FSDP.
+    """
+
+    # Default to global sharding (1D mesh) if fsdp_size is not explicitly set for HSDP
+    if fsdp_size <= 1 or fsdp_size >= world_size:
+        mesh_shape = (world_size,)
+        mesh_dim_names = ["fsdp"]
+    else:
+        # HSDP Case: Shard within fsdp_size group, Replicate across the rest
+        # PyTorch fully_shard shards on the LAST dimension (inner) and replicates on outer dimensions.
+        # Example: world=8, fsdp=4. We want 2 replicas of 4-way sharding.
+        # Mesh: (2, 4). Replicate on dim 0 (2), Shard on dim 1 (4).
+        ddp_size = world_size // fsdp_size
+        mesh_shape = (ddp_size, fsdp_size)
+        mesh_dim_names = ["ddp", "fsdp"]
+
+    return init_device_mesh(
+        current_platform.device_type,
+        mesh_shape=mesh_shape,
+        mesh_dim_names=mesh_dim_names,
+    )
+
+
+class FSDP2StrategyBase(InferenceStrategy):
+    def __init__(self, worker: Worker):
+        super().__init__(worker)
+        self.cpu_offload_enabled: bool = False
+        if not hasattr(self, "checkpoint_manager") or self.checkpoint_manager is None:
+            checkpoint_config = getattr(self.worker_config, "checkpoint_config", None)
+            self.checkpoint_manager = CheckpointManager(checkpoint_config=checkpoint_config)
+        self._model_update_device_buffer: Optional[torch.Tensor] = None
+        self.weight_updaters = {}
+        self._dcp_process_group: Optional[dist.ProcessGroup] = None
+
+    def _get_dcp_process_group(self) -> Optional[dist.ProcessGroup]:
+        if self._dcp_process_group is None:
+            self._dcp_process_group = dist.new_group(backend="gloo", group_desc="roll_dcp_checkpoint_pg")
+        return self._dcp_process_group
+
+    def _get_dp_rank(self) -> int:
+        rank_info = getattr(self.worker, "rank_info", None)
+        if rank_info is not None and getattr(rank_info, "dp_rank", None) is not None:
+            return rank_info.dp_rank
+        return dist.get_rank()
+
+    def _build_checkpoint_paths(
+        self,
+        base_dir: str,
+        world_size: Optional[int] = None,
+        dp_rank: Optional[int] = None,
+    ):
+        world_size = world_size or dist.get_world_size()
+        dp_rank = dp_rank if dp_rank is not None else self._get_dp_rank()
+        suffix = f"world_size_{world_size}_rank_{dp_rank}.pt"
+        model_path = os.path.join(base_dir, f"model_{suffix}")
+        optim_path = os.path.join(base_dir, f"optim_{suffix}")
+        extra_path = os.path.join(base_dir, f"extra_state_{suffix}")
+        return model_path, optim_path, extra_path
+
+    @staticmethod
+    def _get_dcp_checkpoint_dir(base_dir: str) -> str:
+        return os.path.join(base_dir, "dcp")
+
+    def _get_dcp_state_dict_options(self, full_state_dict: bool = False) -> StateDictOptions:
+        # Always use cpu_offload=True for DCP to avoid OOM during load/save
+        # independent of training offload configuration.
+        return StateDictOptions(
+            full_state_dict=full_state_dict,
+            cpu_offload=True,
+        )
+
+    def _save_checkpoint_with_dcp(self, checkpoint_dir: str, is_last_step: bool):
+        state_dict = {
+            **self.model.state_dict(),
+        }
+
+        optimizer = getattr(self, "optimizer", None)
+        if optimizer is not None:
+            state_dict["optimizer"] = optimizer
+
+        scheduler = getattr(self, "scheduler", None)
+        if scheduler is not None:
+            state_dict["scheduler"] = scheduler
+
+        rng_state = self.get_rng_state()
+        state_dict["rng_state"] = rng_state
+        dcp_process_group = self._get_dcp_process_group()
+
+        if not self.async_save_strategy or is_last_step:
+            if self.checkpoint_future is not None:
+                self.checkpoint_future.result()
+                self.checkpoint_future = None
+            dcp.save(
+                state_dict=state_dict,
+                checkpoint_id=checkpoint_dir,
+                process_group=dcp_process_group,
+            )
+        else:
+            if self.checkpoint_future is not None:
+                self.checkpoint_future.result()
+            self.checkpoint_future = dcp.async_save(
+                state_dict=state_dict,
+                checkpoint_id=checkpoint_dir,
+                process_group=dcp_process_group,
+            )
+
+    def _load_checkpoint_with_dcp(self, checkpoint_dir: str):
+        state_dict = {
+            **self.model.state_dict(),
+        }
+
+        optimizer = getattr(self, "optimizer", None)
+        if optimizer is not None:
+            state_dict["optimizer"] = optimizer
+
+        scheduler = getattr(self, "scheduler", None)
+        if scheduler is not None:
+            state_dict["scheduler"] = scheduler
+
+        state_dict["rng_state"] = {}
+        dcp_process_group = self._get_dcp_process_group()
+
+        dcp.load(
+            state_dict=state_dict,
+            checkpoint_id=checkpoint_dir,
+            process_group=dcp_process_group,
+        )
+
+        if "rng_state" in state_dict and state_dict["rng_state"]:
+            self.load_rng_state(state_dict["rng_state"])
+
+        info = self.model.load_state_dict(state_dict, strict=False)
+        missing_keys = info.missing_keys
+        unexpected_keys = info.unexpected_keys
+
+        filtered_unexpected_keys = [
+            key for key in unexpected_keys if key not in ("optimizer", "scheduler", "rng_state")
+        ]
+
+        if missing_keys:
+            logger.warning(f"Missing keys: {missing_keys}")
+        if filtered_unexpected_keys:
+            logger.warning(f"Unexpected keys: {filtered_unexpected_keys}")
+
+    def _load_checkpoint_from_legacy_shards(
+        self,
+        load_dir: str,
+        world_size: int,
+        dp_rank: int,
+        optimizer,
+    ):
+        model_path, optim_path, _ = self._build_checkpoint_paths(
+            load_dir,
+            world_size=world_size,
+            dp_rank=dp_rank,
+        )
+
+        model_state_dict = self._load_torch_file(model_path, required=True)
+        optimizer_state_dict = self._load_torch_file(optim_path, required=optimizer is not None)
+
+        if not model_state_dict:
+            logger.warning("Empty model state dict loaded from %s, skipping model restore", model_path)
+            return
+
+        first_param = next(iter(model_state_dict.values()))
+        if isinstance(first_param, DTensor):
+            self.model.load_state_dict(model_state_dict, assign=True)
+        else:
+            meta_sharded_sd = self.model.state_dict()
+            sharded_sd = {}
+            for param_name, full_tensor in model_state_dict.items():
+                if param_name in meta_sharded_sd:
+                    sharded_meta_param = meta_sharded_sd[param_name]
+                    if isinstance(sharded_meta_param, DTensor):
+                        # Respect the DTensor's device (CPU for offload_policy=True)
+                        target_device = sharded_meta_param.device
+                        sharded_tensor = distribute_tensor(
+                            full_tensor.to(target_device),
+                            sharded_meta_param.device_mesh,
+                            sharded_meta_param.placements,
+                        )
+                        sharded_sd[param_name] = torch.nn.Parameter(sharded_tensor)
+                    else:
+                        sharded_sd[param_name] = torch.nn.Parameter(full_tensor)
+                else:
+                    sharded_sd[param_name] = torch.nn.Parameter(full_tensor)
+            self.model.load_state_dict(sharded_sd, assign=True)
+
+        if optimizer_state_dict is not None and optimizer is not None:
+            optimizer.load_state_dict(optimizer_state_dict)
+
+    def _load_extra_state_dict(self, base_dir: str, world_size: int, dp_rank: int):
+        _, _, extra_state_path = self._build_checkpoint_paths(
+            base_dir,
+            world_size=world_size,
+            dp_rank=dp_rank,
+        )
+
+        if os.path.exists(extra_state_path):
+            return torch.load(extra_state_path, map_location="cpu", weights_only=False)
+
+        return {}
+
+    def save_checkpoint(self, save_dir, global_step, ckpt_id, tag="checkpoint", local_state_path=None, **kwargs):
+        """
+        Save the sharded (DTensor) checkpoint as well as HF-compatible full weights.
+        In FSDP, all ranks should coordinate:
+        1. All ranks save their sharded checkpoints (model/optim/extra state) to the same directory
+        2. Only rank 0 saves the full HuggingFace-compatible model
+        """
+        logger.info(f"save_dir: {save_dir}")
+        if local_state_path is None:
+            local_state_path = save_dir
+
+        is_last_step = kwargs.get("is_last_step", None)
+
+        if is_last_step is None:
+            if self.worker_config.training_args.max_steps is not None:
+                is_last_step = global_step == self.worker_config.training_args.max_steps - 1
+            else:
+                # If max_steps is not set, we consider all steps as the last step in case of hang for async saving
+                is_last_step = True
+
+        # PumpkinComment:
+        # Why we need to wait here and also in save_dcp? Because if not, easy to hang in LoRA
+        # Not sure why, but keep the logic here for now.
+        if self.async_save_strategy and self.checkpoint_future is not None:
+            logger.info("Waiting for previous async checkpoint to complete...")
+            self.checkpoint_future.result()
+            self.checkpoint_future = None
+
+        os.makedirs(save_dir, exist_ok=True)
+
+        with Timer("load", logger=None) as load_timer:
+            self.load_states()
+
+        dcp_checkpoint_dir = self._get_dcp_checkpoint_dir(save_dir)
+        os.makedirs(dcp_checkpoint_dir, exist_ok=True)
+
+        with Timer("hf_save", logger=None) as hf_timer:
+            full_state_options = self._get_dcp_state_dict_options(full_state_dict=True)
+            full_model_state = get_model_state_dict(
+                model=self.model,
+                options=full_state_options,
+            )
+
+            if dist.get_rank() == 0:
+                underlying_model = self.unwrap_model()
+                underlying_model.save_pretrained(
+                    save_dir,
+                    state_dict=full_model_state,
+                    safe_serialization=True,
+                )
+                self.tokenizer.save_pretrained(save_dir)
+                if getattr(self, "processor", None):
+                    self.processor.save_pretrained(save_dir)
+
+        with Timer("dcp_save", logger=None) as dcp_timer:
+            self._save_checkpoint_with_dcp(checkpoint_dir=dcp_checkpoint_dir, is_last_step=is_last_step)
+
+        # PumpkinComment:
+        # If DCP save is async, uploading (which may copy+delete the local dir) must not start
+        # until the async save has fully finished writing checkpoint shards.
+        dcp_save_future = self.checkpoint_future if (self.async_save_strategy and not is_last_step) else None
+
+        checkpoint_config = getattr(self.worker_config, "checkpoint_config", None) or {}
+        async_upload = checkpoint_config.get("async_upload", True)
+        keep_local_file = checkpoint_config.get("keep_local_file", False)
+        if dcp_save_future is not None and async_upload:
+
+            def _on_dcp_done(fut):
+                print("[DEBUG] Enter Callback for DCP save")
+                try:
+                    fut.result()
+                except Exception:
+                    logger.error(f"Async DCP save failed for ckpt_id={ckpt_id}, skip upload.")
+                    return
+
+                self.thread_executor.submit(
+                    self.checkpoint_manager.upload,
+                    ckpt_id=ckpt_id,
+                    local_state_path=local_state_path,
+                    keep_local_file=keep_local_file,
+                )
+
+            dcp_save_future.add_done_callback(_on_dcp_done)
+        else:
+            # If async_upload=False, block until DCP async save completes, then upload.
+            if dcp_save_future is not None:
+                dcp_save_future.result()
+
+            if async_upload:
+                self.thread_executor.submit(
+                    self.checkpoint_manager.upload,
+                    ckpt_id=ckpt_id,
+                    local_state_path=local_state_path,
+                    keep_local_file=keep_local_file,
+                )
+            else:
+                self.checkpoint_manager.upload(
+                    ckpt_id=ckpt_id,
+                    local_state_path=local_state_path,
+                    keep_local_file=keep_local_file,
+                )
+
+        return {
+            "load": load_timer.last,
+            "dcp_save": dcp_timer.last,
+            "hf_save": hf_timer.last,
+        }
+
+    def _load_torch_file(self, path: str, required: bool = True):
+        if os.path.exists(path):
+            return torch.load(path, map_location="cpu", weights_only=False)
+        if required:
+            raise FileNotFoundError(f"Missing checkpoint shard: {path}")
+        logger.warning(f"Optional checkpoint shard missing, skipping: {path}")
+        return None
+
+    def load_checkpoint(self, load_dir, tag="checkpoint", **kwargs):
+        """
+        Load checkpoint from a shared directory where all ranks' sharded checkpoints are stored.
+
+        In FSDP, synchronize the load_dir across all ranks to ensure they load from the same location.
+        """
+        logger.info(f"load_dir: {load_dir}")
+
+        dcp_checkpoint_dir = self._get_dcp_checkpoint_dir(load_dir)
+        used_dcp = False
+        if os.path.isdir(dcp_checkpoint_dir):
+            if dist.is_initialized():
+                dist.barrier()
+
+            self._load_checkpoint_with_dcp(
+                checkpoint_dir=dcp_checkpoint_dir,
+            )
+            used_dcp = True
+            logger.info(f"Loaded DCP checkpoint from {dcp_checkpoint_dir}")
+            if dist.is_initialized():
+                dist.barrier()
+            return
+
+    @staticmethod
+    def get_rng_state():
+        rng_state = {
+            "cpu": torch.get_rng_state(),
+            "device": current_platform.get_rng_state(),
+            "numpy": np.random.get_state(),
+            "random": random.getstate(),
+        }
+        return rng_state
+
+    @staticmethod
+    def load_rng_state(rng_state):
+        torch.set_rng_state(rng_state["cpu"])
+        current_platform.set_rng_state(rng_state["device"])
+        np.random.set_state(rng_state["numpy"])
+        random.setstate(rng_state["random"])
+
+    def _copy_weight_to_param(self, param: torch.nn.Parameter, weight: torch.Tensor):
+        """
+        Copy a full (replicated) tensor onto a possibly-sharded FSDP2 parameter.
+        Handles DTensor placement to keep shards consistent across ranks.
+        """
+
+        target = param.data if hasattr(param, "data") else param
+        source = weight.data if hasattr(weight, "data") else weight
+        source = source.detach()
+
+        if isinstance(source, DTensor):
+            if isinstance(target, DTensor):
+                same_mesh = source.device_mesh == target.device_mesh
+                same_place = source.placements == target.placements
+                if same_mesh and same_place:
+                    target.copy_(source)
+                    return
+            source = source.full_tensor()
+
+        if isinstance(target, DTensor):
+            sharded = distribute_tensor(
+                source.to(target.device),
+                target.device_mesh,
+                target.placements,
+            )
+            target.copy_(sharded)
+        else:
+            target.copy_(source.to(target.device))
+
+    def _gather_full_tensor(self, param: torch.nn.Parameter) -> torch.Tensor:
+        tensor = param.data if hasattr(param, "data") else param
+        if isinstance(tensor, DTensor):
+            original_device = tensor.device
+            if original_device.type == "cpu" and current_platform.device_type != "cpu":
+                tensor = tensor.to(current_platform.device_type)
+            tensor = tensor.full_tensor()
+            if original_device.type == "cpu":
+                tensor = tensor.cpu()
+            # full_tensor() already returns a new tensor from all-gather
+            return tensor.detach()
+        # For non-DTensor (e.g., LoRA params that aren't sharded), we need to clone
+        # to avoid modifying the original parameter during bucket packing
+        return tensor.detach().clone()
+
+    def _move_optimizer_states(self, device: torch.device, non_blocking: bool = False):
+        optimizer = getattr(self, "optimizer", None)
+        if optimizer is None:
+            return
+        for state in optimizer.state.values():
+            for key, value in state.items():
+                if torch.is_tensor(value):
+                    state[key] = value.to(device, non_blocking=non_blocking)
+
+    def _get_broadcast_tensor(self, weight_cpu: torch.Tensor) -> torch.Tensor:
+        """
+        Reuse buffer to avoid allocating new memory.
+        """
+        if current_platform.device_type == "cpu":
+            return weight_cpu
+        numel = weight_cpu.numel()
+        dtype = weight_cpu.dtype
+        buffer = self._model_update_device_buffer
+        if buffer is None or buffer.numel() < numel or buffer.dtype != dtype:
+            buffer = torch.empty(numel, dtype=dtype, device=current_platform.device_type)
+            self._model_update_device_buffer = buffer
+        device_view = buffer[:numel].view(weight_cpu.shape)
+        device_view.copy_(weight_cpu, non_blocking=True)
+        return device_view
+
+    def get_data_input(self, batch: DataProto):
+        """Ensure Ulysses/context-parallel ranks receive identical data."""
+
+        def broadcast_obj(obj, group):
+            obj_list = [obj if dist.get_rank(group) == 0 else None]
+            src_rank = dist.get_process_group_ranks(group)[0]
+            dist.broadcast_object_list(obj_list, src=src_rank, group=group)
+            return obj_list[0]
+
+        if getattr(self.worker.rank_info, "cp_size", 1) <= 1:
+            return batch
+
+        broadcast_non_tensor_batch = batch.meta_info.get("_broadcast_non_tensor_batch", False)
+        if broadcast_non_tensor_batch:
+            tmp_batch = broadcast_obj(batch, get_ulysses_group())
+            batch.batch = tmp_batch.batch
+            batch.non_tensor_batch = tmp_batch.non_tensor_batch
+        else:
+            batch.batch = broadcast_obj(batch.batch, get_ulysses_group())
+        return batch
+
+    def _prepare_fsdp2_model(
+        self,
+        model_provider,
+        *,
+        is_trainable: bool,
+        default_model_dtype: torch.dtype,
+        warmup_collective: bool = False,
+    ):
+
+        set_seed(seed=self.worker.pipeline_config.seed)
+
+        if not torch.distributed.is_initialized():
+            if current_platform.device_type != "cpu":
+                backends_str = f"cpu:gloo,{current_platform.device_type}:{current_platform.communication_backend}"
+            else:
+                backends_str = current_platform.communication_backend
+            torch.distributed.init_process_group(backend=backends_str)
+
+        if warmup_collective:
+            dist.all_reduce(torch.zeros(1).to(current_platform.device_type))
+
+        if self.worker_config.strategy_args.strategy_config.get("apply_tiled_mlp", False):
+            from roll.third_party.fsdp2.tiled_mlp import apply_tiled_mlp_monkey_patch
+
+            apply_tiled_mlp_monkey_patch(
+                num_shards=self.worker_config.strategy_args.strategy_config.get("tiled_num_shards", 4),
+                model_type=self.worker_config.strategy_args.strategy_config.get("model_type", None),
+            )
+
+        world_size = torch.distributed.get_world_size()
+        global_rank = torch.distributed.get_rank()
+
+        cp_size = self.worker_config.model_args.ulysses_size
+        if cp_size > 1:
+            if current_platform.apply_ulysses_patch() is not None:
+                set_upg_manager(
+                    ulysses_size=cp_size,
+                    rank=global_rank,
+                    world_size=world_size,
+                )
+            else:
+                cp_size = 1
+
+        if self.worker_config.model_args.ulysses_size != cp_size:
+            # PumpkinComment: Fallback if something goes wrong with CP
+            logger.warning(
+                f"ulysses_size in config ({self.worker_config.model_args.ulysses_size}) is not equal to cp_size ({cp_size}), using cp_size instead"
+            )
+            self.worker_config.strategy_args.strategy_config["fsdp_size"] = (
+                self.worker_config.strategy_args.strategy_config["fsdp_size"]
+                * self.worker_config.model_args.ulysses_size
+            )
+            self.worker_config.model_args.ulysses_size = cp_size
+
+        self.worker.rank_info.dp_rank = global_rank // cp_size
+        self.worker.rank_info.dp_size = world_size // cp_size
+        self.worker.rank_info.cp_rank = global_rank % cp_size
+        self.worker.rank_info.cp_size = cp_size
+
+        if cp_size > 1 and global_rank == 0:
+            logger.debug(f"FSDP2 CP(Ulysses) enabled: cp_size={cp_size}, dp_size={self.worker.rank_info.dp_size}")
+
+        self.tokenizer = default_tokenizer_provider(model_args=self.worker_config.model_args)
+        self.processor = default_processor_provider(model_args=self.worker_config.model_args)
+
+        torch_dtype = self.worker_config.strategy_args.strategy_config.get("param_dtype", default_model_dtype)
+        torch_dtype = _parse_dtype(torch_dtype)
+        self.worker_config.model_args.compute_dtype = torch_dtype
+
+        fsdp_size = self.worker_config.strategy_args.strategy_config.get("fsdp_size", 1)
+        if cp_size > 1 and (fsdp_size <= 1 or fsdp_size >= world_size):
+            fsdp_size = world_size // cp_size
+            self.worker_config.strategy_args.strategy_config["fsdp_size"] = fsdp_size
+            if global_rank == 0:
+                logger.info(f"CP enabled: auto-setting fsdp_size={fsdp_size} so ddp_size==cp_size for hybrid sharding")
+        elif fsdp_size != world_size:
+            logger.warning(f"fsdp_size {fsdp_size} is not equal to world_size {world_size}, using world_size instead")
+            fsdp_size = world_size
+
+        self.worker_config.strategy_args.strategy_config["fsdp_size"] = fsdp_size
+        self.device_mesh = create_device_mesh_with_ulysses(world_size=world_size, fsdp_size=fsdp_size)
+
+        model_name_or_path = download_model(self.worker_config.model_args.model_name_or_path)
+        config = AutoConfig.from_pretrained(
+            model_name_or_path,
+            trust_remote_code=True,
+            **self.worker_config.model_args.model_config_kwargs,
+        )
+
+        self._validate_ulysses_compat(config, cp_size)
+
+        use_meta_tensor = not getattr(config, "tie_word_embeddings", False)
+        init_context = get_init_weight_context_manager(
+            use_meta_tensor=use_meta_tensor,
+            mesh=self.device_mesh,
+        )
+
+        set_fsdp2_init_context(init_context)
+        try:
+            model = model_provider(
+                tokenizer=self.tokenizer,
+                model_args=self.worker_config.model_args,
+                is_trainable=is_trainable,
+            )
+        finally:
+            clear_fsdp2_init_context()
+
+        self.is_lora = self.worker_config.model_args.lora_target is not None
+
+        return model, torch_dtype, cp_size
+
+    @staticmethod
+    def _validate_ulysses_compat(config, cp_size: int):
+        try:
+            num_attention_heads, num_key_value_heads = (
+                config.num_attention_heads,
+                config.num_key_value_heads,
+            )
+        except AttributeError:
+            num_attention_heads, num_key_value_heads = (
+                config.text_config.num_attention_heads,
+                config.text_config.num_key_value_heads,
+            )
+
+        assert (
+            num_attention_heads % cp_size == 0
+        ), f"num_attention_heads {num_attention_heads} must be divisible by ulysses_size {cp_size}"
+        assert num_key_value_heads % cp_size == 0 or cp_size % num_key_value_heads == 0, (
+            f"num_key_value_heads {num_key_value_heads} must be divisible by ulysses_size "
+            f"{cp_size}or vise versa. Upon ulysses_size % num_key_value_heads == 0,"
+            f"kv heads are repeated to ensure correctness."
+        )
+
+    def load_states(self, include=None, non_blocking=False):
+        if not self.cpu_offload_enabled:
+            if include is None or OffloadStateType.model_params in include:
+                device = current_platform.current_device()
+                self.model.to(device, non_blocking=non_blocking)
+            # When cpu_offload is disabled, always keep optimizer states on GPU
+            self._move_optimizer_states(current_platform.current_device(), non_blocking=non_blocking)
+        else:
+            # When cpu_offload is enabled, only load optimizer states if requested
+            if include is None or OffloadStateType.optimizer_states in include:
+                self._move_optimizer_states(
+                    current_platform.current_device(),
+                    non_blocking=non_blocking,
+                )
+
+    def offload_states(self, include=None, non_blocking=False):
+        """ "
+        PumpkinComment:
+
+        If CPUOFFloadPolicy is True: Every thing about offload /load model param is built from FSDP2.
+        If CPUOFFloadPolicy is False: The model param in on GPU, we need to mvoe the optimizer to GPU as well.
+
+        Therefore, we actually could leave model param. offload/onload logic to FSDP2 during training
+        But here, I maintain mannual support and compatible with FSDP2 CPUOFFloadPolicy for other offload logic.
+        """
+        if not self.cpu_offload_enabled:
+            if include is None or OffloadStateType.model_params in include:
+                self.model.to("cpu", non_blocking=non_blocking)
+                current_platform.empty_cache()
+            # When cpu_offload is disabled, optimizer states should stay on GPU
+            # Only offload optimizer states if cpu_offload is enabled
+        else:
+            # When cpu_offload is enabled, offload optimizer states
+            if include is None or OffloadStateType.optimizer_states in include:
+                self._move_optimizer_states(torch.device("cpu"), non_blocking=non_blocking)
+
+
+class FSDP2InferStrategy(FSDP2StrategyBase):
+    strategy_name = "fsdp2_infer"
+
+    def __init__(self, worker: Worker):
+        super().__init__(worker)
+        self.device_mesh = None
+        self.fsdp_config = None
+
+    def initialize(self, model_provider):
+        model, torch_dtype, _ = self._prepare_fsdp2_model(
+            model_provider,
+            is_trainable=False,
+            default_model_dtype=torch.bfloat16,
+        )
+
+        self.setup_fsdp2_configuration()
+        self.initialize_fsdp2_model(model)
+
+        dist.barrier()
+
+    def setup_fsdp2_configuration(self):
+        """Setup FSDP-2 configuration"""
+        # ckpt strategy
+        async_save_strategy = self.worker_config.strategy_args.strategy_config.get("async_save_ckpt", True)
+        self.async_save_strategy = async_save_strategy
+        if self.async_save_strategy:
+            self.checkpoint_future = None
+
+        # Get mixed precision settings from config
+        param_dtype = self.worker_config.strategy_args.strategy_config.get("param_dtype", torch.bfloat16)
+        reduce_dtype = self.worker_config.strategy_args.strategy_config.get("reduce_dtype", torch.float32)
+
+        # Convert string dtype specifications to torch.dtype
+        param_dtype = _parse_dtype(param_dtype)
+        reduce_dtype = _parse_dtype(reduce_dtype)
+        self.param_dtype = param_dtype
+        self.reduce_dtype = reduce_dtype
+
+        mixed_precision = MixedPrecisionPolicy(
+            param_dtype=param_dtype,
+            reduce_dtype=reduce_dtype,
+            cast_forward_inputs=True,
+        )
+
+        # Reshard after forward setting (FSDP2 uses this instead of sharding_strategy)
+        # FULL_SHARD: reshard_after_forward=True
+        # SHARD_GRAD_OP: reshard_after_forward=False
+        # HYBRID_SHARD: reshard_after_forward=True with a 2D device mesh
+        # HYBRID_SHARD_ZERO2: reshard_after_forward=False with a 2D device mesh
+        # If None, True for submodules, False for root module
+        reshard_after_forward = self.worker_config.strategy_args.strategy_config.get("reshard_after_forward", None)
+
+        offload_policy_cfg = self.worker_config.strategy_args.strategy_config.get("offload_policy", False)
+        self.cpu_offload_enabled = bool(offload_policy_cfg)
+        offload_policy = None
+        if self.cpu_offload_enabled:
+            offload_policy = CPUOffloadPolicy(
+                pin_memory=True,
+            )
+
+        # Store configuration for fully_shard()
+        print(f"[DEBUG] fsdp_config: {self.worker_config.strategy_args.strategy_config.get('fsdp_size', 1)}")
+        self.fsdp_config = {
+            "mesh": self.device_mesh,
+            "reshard_after_forward": reshard_after_forward,
+            "mp_policy": mixed_precision,
+            "offload_policy": offload_policy,
+            "shard_placement_fn": get_shard_placement_fn(
+                fsdp_size=self.worker_config.strategy_args.strategy_config.get("fsdp_size", 1)
+            ),
+        }
+
+    def initialize_fsdp2_model(self, model):
+        offload_policy = self.fsdp_config["offload_policy"]
+        full_state = model.state_dict()
+        apply_fsdp2(
+            model,
+            self.fsdp_config,
+            self.worker_config.strategy_args.strategy_config,
+            self.is_lora,
+        )
+
+        fsdp2_load_full_state_dict(
+            model,
+            full_state,
+            self.device_mesh,
+            offload_policy,
+        )
+
+        self.model = model
+
+    @torch.no_grad()
+    def forward_step(
+        self,
+        batch: DataProto,
+        forward_func: Callable[
+            [DataProto, torch.Tensor],
+            Tuple[torch.Tensor, Dict[str, torch.Tensor]],
+        ],
+    ) -> Dict[str, torch.Tensor]:
+        self.model.eval()
+        batch_size = batch.batch.batch_size[0]
+        micro_batch_size = batch.meta_info["micro_batch_size"]
+        num_microbatches = max(batch_size // micro_batch_size, 1)
+        micro_batches = batch.chunk(chunks=num_microbatches)
+
+        cp_size = self.worker.rank_info.cp_size
+        batch_num_tokens = self._get_batch_num_tokens(batch)
+        batch.meta_info["batch_num_tokens"] = {k: v // cp_size for k, v in batch_num_tokens.items()}
+        global_valid_tokens = self._get_global_valid_samples(batch)
+        batch.meta_info["global_valid_samples"] = {k: v // cp_size for k, v in global_valid_tokens.items()}
+
+        loss_scale = num_microbatches * self.worker.rank_info.dp_size
+
+        disable_adapter = batch.meta_info.get("disable_adapter", False)
+        adapter_context = self.unwrap_model().disable_adapter() if disable_adapter else nullcontext()
+        losses_reduced = []
+
+        with adapter_context:
+            for data in micro_batches:
+                with torch.autocast(
+                    device_type=current_platform.device_type,
+                    dtype=self.param_dtype,
+                ):
+                    input_ids = data.batch["input_ids"]
+                    attention_mask = data.batch["attention_mask"]
+                    position_ids = data.batch["position_ids"]
+                    forward_args = data.meta_info.get("forward_args", {})
+                    if position_ids.dim() == 3:
+                        # qwen-vl mrope-style 3D position_ids stored in DataProto as (bsz, C, seqlen)
+                        # transpose to (C, bsz, seqlen) for model forward.
+                        position_ids = position_ids.transpose(0, 1)  # (bsz, C, seqlen) -> (C, bsz, seqlen)
+                    if "multi_modal_inputs" in data.non_tensor_batch:
+                        multi_modal_inputs = data.non_tensor_batch["multi_modal_inputs"]
+                        multi_modal_data = defaultdict(list)
+                        # mm inputs of some samples would be empty to allow text and mm mixed data
+                        for sample_mm_inputs in multi_modal_inputs:
+                            for key in sample_mm_inputs.keys():
+                                multi_modal_data[key].append(sample_mm_inputs[key])
+                        for key in multi_modal_data.keys():
+                            assert key not in forward_args
+                            # DataProto.to('cuda') in upper frame not work for non_tensor_batch
+                            forward_args[key] = torch.concat(multi_modal_data[key], dim=0).to(input_ids.device)
+                        forward_args.update({"force_vit_image": True})
+
+                    logits = self._fsdp2_forward(
+                        input_ids=input_ids,
+                        attention_mask=attention_mask,
+                        position_ids=position_ids,
+                        forward_args=forward_args,
+                    )
+
+                    loss, loss_reduced = forward_func(data, logits)
+                    if self.worker_config.apply_loss_scale:
+                        loss *= loss_scale
+                losses_reduced.append(loss_reduced)
+
+        results = collate_fn_to_dict_list(losses_reduced)
+        return results
+
+    def get_feature_on_cp_rank(
+        self,
+        input_ids: torch.Tensor,
+        attention_mask: torch.Tensor = None,
+        position_ids: torch.Tensor = None,
+    ):
+        """Get features for specific context parallel rank"""
+        seqlens_in_batch = input_ids.size(1)
+        assert (
+            seqlens_in_batch % self.worker.rank_info.cp_size == 0
+        ), f"input_length={seqlens_in_batch} not divisible by cp_size={self.worker.rank_info.cp_size}"
+        cp_middle_rank_len = seqlens_in_batch // self.worker.rank_info.cp_size
+        padded_input_ids = input_ids
+        result = {}
+        start_index = cp_middle_rank_len * self.worker.rank_info.cp_rank
+        end_index = cp_middle_rank_len * (self.worker.rank_info.cp_rank + 1)
+        result["input_ids"] = padded_input_ids[:, start_index:end_index]
+        if attention_mask is not None:
+            result["attention_mask"] = attention_mask[:, start_index:end_index]
+        if position_ids is not None:
+            if position_ids.dim() == 3:
+                result["position_ids"] = position_ids[:, :, start_index:end_index]
+            else:
+                result["position_ids"] = position_ids[:, start_index:end_index]
+        return result
+
+    def _fsdp2_forward(
+        self,
+        input_ids: torch.Tensor,
+        attention_mask: torch.Tensor,
+        position_ids: torch.Tensor,
+        forward_args: Dict[str, torch.Tensor],
+    ) -> torch.Tensor:
+        cp_size = self.worker.rank_info.cp_size
+        cp_rank = self.worker.rank_info.cp_rank
+
+        # PumpkinComment:
+        # - do NOT slice padded tensors first (would reintroduce imbalance)
+        # - unpad to token stream, pad-to-multiple-of-cp, slice equally, run model with attn_mask=None
+        # - gather outputs and unpad, then pad back to original (bs, seqlen) so downstream remains unchanged
+        if cp_size > 1:
+            underlying = self.unwrap_model()
+            model_type = getattr(getattr(underlying, "config", None), "model_type", "") or ""
+            is_vlm = getattr(getattr(underlying, "config", None), "vision_config", None) is not None
+            is_supported_vlm = is_vlm and model_type in ("qwen2_5_vl", "qwen3_vl")
+
+            if not is_supported_vlm:
+                features = self.get_feature_on_cp_rank(input_ids, attention_mask, position_ids)
+                input_ids = features["input_ids"]
+                attention_mask = features["attention_mask"]
+                position_ids = features["position_ids"]
+
+        # Ensure use_cache is False if not specified (matches HF strategy)
+        if "use_cache" not in forward_args:
+            forward_args["use_cache"] = False
+
+        return self.model(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            **forward_args,
+        ).logits
+
+    def generate(self, batch: DataProto, generation_config):
+        if self.worker.rank_info.cp_size > 1:
+            raise RuntimeError("FSDP2 generate() is not supported with CP(Ulysses) enabled yet. ")
+        input_ids = batch.batch["input_ids"]  # (bs, prompt_length)
+        attention_mask = batch.batch["attention_mask"]  # left-padded attention_mask
+
+        output = self.model.generate(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            use_cache=True,
+            **generation_config,
+        )
+
+        return output
+
+    def unwrap_model(self):
+        if hasattr(self.model, "module"):
+            return self.model.module
+        return self.model
+
+    def broadcast_parameter(
+        self,
+        model_update_name,
+        src_pp_rank,
+        dtype,
+        shape,
+        parameter_name,
+        is_lora=False,
+    ):
+        if model_update_name not in self.model_update_comm_plan:
+            self.model_update_comm_plan[model_update_name] = {}
+        if src_pp_rank not in self.model_update_comm_plan[model_update_name]:
+            self._setup_collective_group_impl(
+                model_update_name=model_update_name,
+                comm_plan=None,
+                backend=None,
+                mode="receiver",
+            )
+        comm_plan = self.model_update_comm_plan[model_update_name][src_pp_rank]
+        weight = torch.empty(shape, dtype=dtype, device=current_platform.device_type)
+        collective.broadcast(tensor=weight, src_rank=0, group_name=comm_plan["group_name"])
+        param = self.model.get_parameter(parameter_name)
+        self._copy_weight_to_param(param, weight)
+        del weight
+
+    def update_parameter(
+        self,
+        model_update_name,
+        parameter_name,
+        weight,
+        ranks_in_worker,
+        is_lora: bool = False,
+    ):
+        # TODO: Update in bucket
+        param = self.model.get_parameter(parameter_name)
+        self._copy_weight_to_param(param, weight)
+        del weight
+
+    def op_compute_log_probs(
+        self,
+        logits: torch.Tensor,
+        input_ids: torch.Tensor,
+        attention_mask: torch.Tensor,
+    ):
+        """
+        input_ids [[p, p, r, r, r, 0, 0]] p: prompt, r: response, 0: pad
+        response_mask [[0, 0, 1, 1, 1, 0, 0]]
+        """
+        # Create labels from FULL input_ids (shifted by 1)
+        labels: torch.Tensor = input_ids[:, 1:].clone()
+        labels[attention_mask[:, 1:] == 0] = 0  # avoid invalid token id
+
+        if self.worker.rank_info.cp_size > 1:
+            # For CP: slice the shifted labels to match the sharded logits
+            # logits are sharded across sequence dimension by Ulysses
+            labels = torch.cat([labels, torch.zeros_like(labels[:, :1])], dim=1)
+            labels = self.get_feature_on_cp_rank(labels)["input_ids"]
+
+            # Compute log_probs for this CP rank
+            log_probs = log_probs_from_logits(logits, labels)
+
+            log_probs = ulysses_gather(
+                log_probs,
+                gather_dim=1,
+                group=get_ulysses_group(),
+                grad_scaler=True,
+            )
+
+            # Apply mask using FULL attention_mask and handle the shift
+            log_probs = log_probs[:, :-1] * attention_mask[:, 1:]
+        else:
+            # Non-CP path: original logic
+            labels = torch.cat([labels, torch.zeros_like(labels[:, :1])], dim=1)
+            log_probs = log_probs_from_logits(logits, labels)
+            log_probs = log_probs[:, :-1] * attention_mask[:, 1:]
+
+        return log_probs
+
+    def op_compute_entropy(self, logits: torch.Tensor, attention_mask: torch.Tensor):
+        from roll.utils.functionals import entropy_from_logits
+
+        entropy = entropy_from_logits(logits)
+        if self.worker.rank_info.cp_size > 1:
+            entropy = ulysses_gather(
+                entropy,
+                gather_dim=1,
+                group=get_ulysses_group(),
+                grad_scaler=True,
+            )
+        entropy = entropy[:, :-1] * attention_mask[:, 1:]
+        return entropy
+
+
+class FSDP2TrainStrategy(FSDP2InferStrategy, TrainStrategy):
+    strategy_name = "fsdp2_train"
+
+    def initialize(self, model_provider):
+        model, torch_dtype, _ = self._prepare_fsdp2_model(
+            model_provider,
+            is_trainable=True,
+            default_model_dtype=torch.float32,
+            warmup_collective=True,
+        )
+
+        logger.info(f"max steps pipeline {self.worker_config.training_args.max_steps}")
+        self.worker_config.training_args.max_steps = (
+            self.worker_config.training_args.max_steps // self.worker.rank_info.dp_size
+        )
+        logger.info(f"max steps worker train {self.worker_config.training_args.max_steps}")
+
+        # Setup FSDP-2 configuration
+        self.setup_fsdp2_configuration()
+
+        if self.param_dtype == torch.float16:
+            from torch.distributed.fsdp.sharded_grad_scaler import ShardedGradScaler
+
+            self.scaler = ShardedGradScaler(growth_interval=400)
+        else:
+            self.scaler = None
+
+        # Initialize FSDP-2 model
+        self.initialize_fsdp2_model(model)
+
+        # In-case of LoRA
+        trainable_params = (param for param in self.model.parameters() if param.requires_grad)
+        self.optimizer = optim.AdamW(
+            trainable_params,
+            lr=self.worker_config.training_args.learning_rate,
+            betas=(
+                self.worker_config.training_args.adam_beta1,
+                self.worker_config.training_args.adam_beta2,
+            ),
+            weight_decay=self.worker_config.training_args.weight_decay,
+        )
+
+        self.scheduler = get_scheduler(
+            self.worker_config.training_args.lr_scheduler_type,
+            self.optimizer,
+            num_warmup_steps=self.worker_config.training_args.get_warmup_steps(
+                self.worker_config.training_args.max_steps
+            ),
+            num_training_steps=self.worker_config.training_args.max_steps,
+        )
+
+        dist.barrier()
+
+    def _grad_accumulation_context(self):
+        set_sync_fn = getattr(self.model, "set_requires_gradient_sync", None)
+        if callable(set_sync_fn):
+            return self._requires_grad_sync_context(set_sync_fn)
+
+        no_sync_method = getattr(self.model, "no_sync", None)
+        if callable(no_sync_method):
+            return no_sync_method()
+
+        return contextlib.nullcontext()
+
+    @contextlib.contextmanager
+    def _requires_grad_sync_context(self, set_sync_fn):
+        set_sync_fn(False)
+        try:
+            yield
+        finally:
+            set_sync_fn(True)
+
+    def _clip_grad_norm(self, max_norm: float):
+        if not self.cpu_offload_enabled:
+            grad_norm = clip_grad_norm_(
+                self.model.parameters(),
+                max_norm=max_norm,
+            )
+        else:
+            grad_norm = self._clip_grad_norm_cpu_offload(max_norm)
+
+        if isinstance(grad_norm, DTensor):
+            grad_norm = grad_norm.full_tensor()
+
+        return grad_norm
+
+    def _clip_grad_norm_cpu_offload(self, max_norm: float):
+        """
+        Mirror VERL's fsdp2_clip_grad_norm_:
+        1. operate on local gradients
+        2. move norm scalar to GPU (avoid CPU DTensor collectives)
+
+        Reference: https://github.com/volcengine/verl/blob/main/verl/utils/fsdp_utils.py#L566
+        Related discussion: https://github.com/volcengine/verl/pull/1026#discussion_r2064879123
+        """
+        parameters = list(self.model.parameters())
+        grads = [p.grad for p in parameters if getattr(p, "grad", None) is not None]
+        if not grads:
+            device = current_platform.current_device()
+            return torch.zeros(1, device=device)
+
+        total_norm = _get_total_norm(
+            grads,
+            norm_type=2.0,
+            error_if_nonfinite=False,
+            foreach=None,
+        )
+        total_norm = total_norm.to(current_platform.current_device(), non_blocking=True)
+        _clip_grads_with_norm_(
+            parameters,
+            max_norm=max_norm,
+            total_norm=total_norm,
+            foreach=None,
+        )
+        return total_norm
+
+    def train_step(
+        self,
+        batch: DataProto,
+        loss_func: Callable[
+            [DataProto, torch.Tensor],
+            Tuple[torch.Tensor, Dict[str, torch.Tensor]],
+        ],
+        no_sync: bool = False,
+    ):
+        """
+        Comment:
+        no_sync: Usually, the inner step already handle no-sync, but leave this option for user if want other accumulation logic
+        """
+        self.model.train()
+        mini_batch_size = self.worker_config.training_args.per_device_train_batch_size
+        data_iter = batch.make_iterator(mini_batch_size=mini_batch_size, epochs=1)
+        mini_steps = batch.batch.batch_size[0] // self.worker_config.training_args.per_device_train_batch_size
+
+        cp_size = self.worker.rank_info.cp_size
+        batch_num_tokens = self._get_batch_num_tokens(batch)
+        batch.meta_info["batch_num_tokens"] = {k: v // cp_size for k, v in batch_num_tokens.items()}
+        global_valid_tokens = self._get_global_valid_samples(batch)
+        batch.meta_info["global_valid_samples"] = {k: v // cp_size for k, v in global_valid_tokens.items()}
+        loss_scale = mini_steps * self.worker.rank_info.dp_size
+        batch.meta_info["micro_batch_size"] = mini_batch_size
+
+        gradient_accumulation_steps = self.worker_config.training_args.gradient_accumulation_steps
+
+        metrics = {}
+        cp_size = max(self.worker.rank_info.cp_size, 1)
+
+        for step in range(mini_steps):
+            data: DataProto = next(data_iter)
+            input_ids = data.batch["input_ids"]
+            attention_mask = data.batch["attention_mask"]
+            position_ids = data.batch["position_ids"]
+            forward_args = data.meta_info.get("forward_args", {})
+            if position_ids.dim() == 3:
+                position_ids = position_ids.transpose(0, 1)  # (bsz, C, seqlen) -> (C, bsz, seqlen)
+            if "multi_modal_inputs" in data.non_tensor_batch:
+                multi_modal_inputs = data.non_tensor_batch["multi_modal_inputs"]
+                multi_modal_data = defaultdict(list)
+                for sample_mm_inputs in multi_modal_inputs:
+                    for key in sample_mm_inputs.keys():
+                        multi_modal_data[key].append(sample_mm_inputs[key])
+                for key in multi_modal_data.keys():
+                    assert key not in forward_args
+                    forward_args[key] = torch.concat(multi_modal_data[key], dim=0).to(input_ids.device)
+                forward_args.update({"force_vit_image": True})
+
+            sync_boundary = ((step + 1) % gradient_accumulation_steps == 0 or (step + 1 == mini_steps)) and not no_sync
+
+            # PumpkinComment:
+            # model.no_sync is replaced by model.set_requires_gradient_sync(False) in FSDP2
+            # but also add support for model.no_sync for compatibility
+            sync_context = contextlib.nullcontext()
+
+            with (
+                sync_context,
+                torch.autocast(
+                    device_type=current_platform.device_type,
+                    dtype=self.param_dtype,
+                ),
+            ):
+                logits = self._fsdp2_forward(
+                    input_ids=input_ids,
+                    attention_mask=attention_mask,
+                    position_ids=position_ids,
+                    forward_args=forward_args,
+                )
+
+                loss, loss_reduced = loss_func(data, logits)
+                append_to_dict(metrics, loss_reduced)
+
+                if self.worker_config.apply_loss_scale:
+                    loss *= loss_scale
+
+                loss = loss / gradient_accumulation_steps
+
+                if self.scaler is not None:
+                    self.scaler.scale(loss).backward()
+                else:
+                    loss.backward()
+
+            if sync_boundary:
+                if self.scaler is not None:
+                    self.scaler.unscale_(self.optimizer)
+                grad_norm = self._clip_grad_norm(
+                    max_norm=self.worker.pipeline_config.max_grad_norm,
+                )
+                metrics[f"{self.worker_config.name}/grad_norm"] = grad_norm.item()
+
+                if self.scaler is not None:
+                    self.scaler.step(self.optimizer)
+                    self.scaler.update()
+                else:
+                    if not torch.isfinite(grad_norm):
+                        logger.warning(f"WARN: rank {dist.get_rank()} grad_norm is not finite: {grad_norm}")
+                    else:
+                        self.optimizer.step()
+                    self.scheduler.step()
+                    self.optimizer.zero_grad(set_to_none=True)
+
+        return metrics
+
+    def setup_model_update(self, infer_cluster, model_update_name: str):
+        assert model_update_name not in self.weight_updaters
+        is_lora = self.worker_config.model_args.lora_target is not None
+        self.weight_updaters[model_update_name] = FSDP2WeightUpdater(
+            pipeline_config=self.worker.pipeline_config,
+            infer_cluster=infer_cluster,
+            worker_config=self.worker_config,
+            model_update_name=model_update_name,
+            model=self.unwrap_model(),
+            is_lora=is_lora,
+        )
+
+    def model_update(self, model_update_name: str):
+        return self.weight_updaters[model_update_name].model_update()
diff --git a/roll/distributed/strategy/hf_strategy.py b/roll/distributed/strategy/hf_strategy.py
index 22c053dcf..a775a0cd7 100644
--- a/roll/distributed/strategy/hf_strategy.py
+++ b/roll/distributed/strategy/hf_strategy.py
@@ -1,14 +1,13 @@
-from concurrent import futures
 from collections import defaultdict
+from concurrent import futures
 from datetime import timedelta
-from typing import List, Optional, Callable, Dict, Tuple
+from typing import Callable, Dict, List, Optional, Tuple
 
 import deepspeed
 import torch
 import torch.distributed as dist
 from accelerate import cpu_offload_with_hook
 from accelerate.hooks import UserCpuOffloadHook
-from roll.utils.collective import collective
 from torch.nn.utils.rnn import pad_sequence
 from transformers import set_seed
 
@@ -17,9 +16,12 @@
 from roll.distributed.strategy.strategy import InferenceStrategy
 from roll.models.func_providers import log_probs_forward_step_func
 from roll.models.model_providers import default_tokenizer_provider
-from roll.utils.logging import get_logger
-from roll.utils.offload_states import OffloadStateType, offload_hf_model, load_hf_model
 from roll.platforms import current_platform
+from roll.utils.collective import collective
+from roll.utils.cuda_ipc_utils import MultiprocessingSerializer
+from roll.utils.logging import get_logger
+from roll.utils.offload_states import OffloadStateType, load_hf_model, offload_hf_model
+from roll.utils.send_recv_utils import monkey_patch_torch_reductions, named_tensors_from_bucket
 
 logger = get_logger()
 
@@ -31,10 +33,14 @@ def __init__(self, worker: "Worker"):
         super().__init__(worker)
         self.executor: futures.ThreadPoolExecutor = futures.ThreadPoolExecutor(max_workers=1)
         self.generate_config = None
+        self.buffer_cache = None
 
     def initialize(self, model_provider):
         set_seed(seed=self.worker.pipeline_config.seed)
-        dist.init_process_group(backend=current_platform.communication_backend, timeout=timedelta(minutes=self.worker_config.backend_timeout))
+        dist.init_process_group(
+            backend=current_platform.communication_backend,
+            timeout=timedelta(minutes=self.worker_config.backend_timeout),
+        )
         dist.all_reduce(torch.zeros(1).to(current_platform.device_type))
 
         self.worker.rank_info.dp_rank = dist.get_rank()
@@ -64,8 +70,9 @@ def forward_step(
             position_ids = data.batch["position_ids"]
             forward_args = data.meta_info.get("forward_args", {})
             if position_ids.dim() == 3:
-                # qwen2vl mrope, maybe use a placeholder and let model generate position_ids
-                position_ids = position_ids.transpose(0, 1)  # (bsz, 3, seqlen) -> (3, bsz, seqlen)
+                # qwen-vl mrope-style 3D position_ids stored in DataProto as (bsz, C, seqlen)
+                # transpose to (C, bsz, seqlen) for model forward.
+                position_ids = position_ids.transpose(0, 1)  # (bsz, C, seqlen) -> (C, bsz, seqlen)
             if "multi_modal_inputs" in data.non_tensor_batch:
                 multi_modal_inputs = data.non_tensor_batch["multi_modal_inputs"]
                 multi_modal_data = defaultdict(list)
@@ -95,6 +102,7 @@ def forward_step(
         return results
 
     def generate(self, batch: DataProto, generation_config):
+        generation_config.pop("logprobs", None)
         if self.generate_config is None:
             self.generate_config = generation_config
             logger.info(f"generate_config: {self.generate_config}")
@@ -132,43 +140,41 @@ def generate(self, batch: DataProto, generation_config):
     def unwrap_model(self):
         return self.model
 
-    # 参数同步相关接口
-    def broadcast_bucket(self, model_update_name, src_pp_rank, meta_infos, bucket_size):
-        if src_pp_rank not in self.model_update_comm_plan[model_update_name]:
-            return
-        comm_plan = self.model_update_comm_plan[model_update_name][src_pp_rank]
-        buffer = torch.empty(bucket_size, dtype=torch.int8, device=current_platform.device_type)
-        collective.broadcast(tensor=buffer, src_rank=0, group_name=comm_plan["group_name"])
-        self.update_parameter_in_bucket(model_update_name, meta_infos, buffer, [dist.get_rank()])
-
-    def broadcast_parameter(self, model_update_name, src_pp_rank, dtype, shape, parameter_name, is_lora=False):
+    def broadcast_parameter(self, names, dtypes, shapes, group_name, is_lora=False):
         assert (
             self.worker_config.num_gpus_per_worker == 1
         ), "hf generate only support on device, please use vllm instead."
-        if src_pp_rank not in self.model_update_comm_plan[model_update_name]:
-            return
-        comm_plan = self.model_update_comm_plan[model_update_name][src_pp_rank]
-        weight = torch.empty(shape, dtype=dtype, device=current_platform.device_type)
-        collective.broadcast(tensor=weight, src_rank=0, group_name=comm_plan["group_name"])
-        self.update_parameter(model_update_name, parameter_name, weight, [dist.get_rank()])
-
-    def update_parameter(self, model_update_name, parameter_name, weight, ranks_in_worker):
-        if dist.get_rank() not in ranks_in_worker:
-            return
+        assert not is_lora
+
+        weights_and_handles = []
+        for name, dtype, shape in zip(names, dtypes, shapes):
+            target_dtype = dtype if isinstance(dtype, torch.dtype) else getattr(torch, dtype)
+            weight = torch.empty(shape, dtype=target_dtype, device=self.device)
+            handle = collective.broadcast(tensor=weight, src_rank=0, group_name=group_name, async_op=True)
+            weights_and_handles.append((name, weight, handle))
+
+        def weights_iter():
+            for name, weight, handle in weights_and_handles:
+                handle.wait()
+                yield name, weight
+
+        for name, weight in weights_iter():
+            self.update_parameter(name, weight)
+
+    def update_parameter(self, parameter_name, weight):
         param = self.model.get_parameter(parameter_name)
         param.data.copy_(weight)
         del weight
 
-    def update_parameter_in_bucket(self, model_update_name, meta_infos, buffer, ranks_in_worker):
-        if dist.get_rank() not in ranks_in_worker:
-            return
-        from mcore_adapter.models.converter.convert_utils import RecvBucketManager
+    def update_parameter_in_bucket(self, serialized_named_tensors, is_lora=False):
+        # TODO: add lora
+        assert not is_lora
 
-        self.recv_manager = getattr(self, "recv_manager", RecvBucketManager())
-        named_params = self.recv_manager.process_bucket(meta_infos, buffer)
-        del buffer
-        for name, weight in named_params.items():
-            self.update_parameter(model_update_name, name, weight, ranks_in_worker)
+        monkey_patch_torch_reductions()
+        bucket_with_meta = MultiprocessingSerializer.deserialize(serialized_named_tensors[0])
+        named_params = named_tensors_from_bucket(**bucket_with_meta)
+        for name, weight in named_params:
+            self.update_parameter(name, weight)
 
     # offload/load 相关接口
     def load_states(self, *args, **kwargs):
diff --git a/roll/distributed/strategy/megatron_strategy.py b/roll/distributed/strategy/megatron_strategy.py
index e4038b8f5..4eeb4cc74 100644
--- a/roll/distributed/strategy/megatron_strategy.py
+++ b/roll/distributed/strategy/megatron_strategy.py
@@ -2,11 +2,13 @@
 import os
 import random
 from collections import defaultdict
+from contextlib import nullcontext
 from functools import partial
-from typing import Callable, Dict, Iterator, List, Tuple
+from typing import TYPE_CHECKING, Callable, Dict, Iterator, List, Tuple
 
 import numpy as np
 import ray
+import ray.actor
 import torch
 import torch.distributed as dist
 from codetiming import Timer
@@ -18,26 +20,33 @@
 from megatron.core.distributed import DistributedDataParallelConfig, finalize_model_grads
 from megatron.core.models.common.embeddings import RotaryEmbedding
 from megatron.core.optimizer import MegatronOptimizer, OptimizerConfig
+from megatron.core.packed_seq_params import PackedSeqParams
 from megatron.core.pipeline_parallel import get_forward_backward_func
-from megatron.core.tensor_parallel import gather_from_tensor_model_parallel_region, reduce_from_tensor_model_parallel_region
+from megatron.core.tensor_parallel import (
+    gather_from_tensor_model_parallel_region,
+    reduce_from_tensor_model_parallel_region,
+)
+from megatron.core.tensor_parallel.cross_entropy import vocab_parallel_cross_entropy
 from megatron.core.transformer.moe.moe_utils import (
     clear_aux_losses_tracker,
     get_moe_layer_wise_logging_tracker,
     reduce_aux_losses_tracker_across_ranks,
 )
-from megatron.core.tensor_parallel.cross_entropy import vocab_parallel_cross_entropy
-from megatron.core.packed_seq_params import PackedSeqParams
+from megatron.core.transformer.multi_token_prediction import MTPLossLoggingHelper
+from transformers.utils import is_peft_available
 
 from mcore_adapter import TrainingArguments
 from mcore_adapter.checkpointing import get_checkpoint_dir, load_state_dict_from_checkpoint
 from mcore_adapter.parallel_functions import context_parallel_gather, vocab_parallel_logprobs
-from mcore_adapter.trainer.utils import get_megatron_lr_scheduler
+from mcore_adapter.patcher import patch_torch_find_nd_overlapping_shards, patch_torch_validate_global_plan
+from mcore_adapter.trainer.utils import build_sharded_state_dict_metadata, get_megatron_lr_scheduler
 from roll.datasets.collator import collate_fn_to_dict_list
 from roll.distributed.executor.worker import Worker
 from roll.distributed.scheduler.protocol import DataProto
-from roll.distributed.scheduler.driver_utils import Barrier
 from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
 from roll.models.model_providers import default_processor_provider, default_tokenizer_provider
+from roll.platforms import current_platform
+from roll.third_party.megatron.model_update import MegatronWeightUpdater
 from roll.third_party.megatron.offload_states_patch import (
     MegatronOffloadStateType,
     bind_megatron_offload_states_func,
@@ -46,15 +55,28 @@
 )
 from roll.third_party.megatron.optimizer import get_megatron_optimizer
 from roll.third_party.megatron.tensor_parallel import vocab_parallel_entropy
-from roll.utils.collective import collective
-from roll.utils.constants import DIST_OPTIMIZER_DIR, IGNORE_INDEX, OPTIMIZER_NAME, RNG_STATE_DIR, SCHEDULER_NAME, RAY_NAMESPACE, BARRIER_NAME
+from roll.utils.constants import (
+    DIST_OPTIMIZER_DIR,
+    IGNORE_INDEX,
+    OPTIMIZER_NAME,
+    RNG_STATE_DIR,
+    SCHEDULER_NAME,
+)
 from roll.utils.context_managers import disable_gradients
-from roll.utils.functionals import append_to_dict
+from roll.utils.dynamic_batching import make_micro_batch_iter_for_dynamic_batching
+from roll.utils.functionals import adjust_sequence_length, append_to_dict, reduce_metrics
 from roll.utils.logging import get_logger
 from roll.utils.offload_states import OffloadStateType
-from roll.utils.dynamic_batching import make_micro_batch_iter_for_dynamic_batching
+from roll.utils.sequence_packing import make_micro_batch_iter_for_sequence_packing, restore_results_order
+
+
+if TYPE_CHECKING:
+    from mcore_adapter.models.model_factory import VirtualModels
+
+
+if is_peft_available():
+    from peft import PeftModel, get_peft_model_state_dict
 
-from roll.platforms import current_platform
 
 logger = get_logger()
 
@@ -63,28 +85,28 @@ class MegatronInferStrategy(InferenceStrategy):
     strategy_name = "megatron_infer"
 
     def __init__(self, worker: Worker):
+        #TODO remove the patches when the latest pytorch version > v2.9.1
+        patch_torch_find_nd_overlapping_shards()
+        patch_torch_validate_global_plan()
         super().__init__(worker)
         config_dict = self.worker_config.training_args.to_dict()
         config_dict.update(self.worker_config.strategy_args.strategy_config)
         # maybe put max_grad_norm into training_args as transformers do, rather
         # than in pipeline_config (PPOConfig)
         config_dict.update({"max_grad_norm": self.worker.pipeline_config.max_grad_norm})
+        config_dict.setdefault("lr_scheduler_kwargs", {})
         logger.info(f"training_args: {config_dict}")
         self.megatron_train_args = TrainingArguments(**config_dict)
         self.model = None
         self.forward_backward_func = None
         self.seq_length = None
-        self.use_remove_padding = self.worker_config.use_remove_padding
         self.use_sequence_packing = self.worker_config.use_sequence_packing
-        self.max_packed_len = None
         # hard to impl with offload states
         assert not self.megatron_train_args.overlap_param_gather, "overlap_param_gather is not supported"
-        if self.worker_config.use_remove_padding:
-            assert self.megatron_train_args.allow_variable_seq_lengths(), "when use_remove_padding=True, must set variable_seq_lengths=True for megatron."
 
     def initialize(self, model_provider):
         self.tokenizer = default_tokenizer_provider(model_args=self.worker_config.model_args)
-        self.model = model_provider(
+        self.model: "VirtualModels" = model_provider(
             tokenizer=self.tokenizer,
             model_args=self.worker_config.model_args,
             training_args=self.megatron_train_args,
@@ -106,6 +128,10 @@ def initialize(self, model_provider):
         self.worker.rank_info.cp_size = mpu.get_context_parallel_world_size()
         self.worker.rank_info.cp_rank = mpu.get_context_parallel_rank()
 
+        if (self.worker_config.use_dynamic_batching_in_infer or self.worker_config.use_sequence_packing) and self.worker.rank_info.pp_size > 1:
+            self.model.config.variable_seq_lengths = True
+            logger.info("Set variable_seq_lengths to True when use dynamic batching and pipeline parallel.")
+
         logger.info(f"{self.model.get_models()}")
         dist.barrier()
 
@@ -144,29 +170,48 @@ def forward_step(
         forward_func: Callable[[DataProto, torch.Tensor], Tuple[torch.Tensor, Dict[str, torch.Tensor]]],
     ) -> Dict[str, torch.Tensor]:
         self.model.eval()
+        batch.meta_info['batch_num_tokens'] = self._get_batch_num_tokens(batch, dp_group=mpu.get_data_parallel_group())
+        batch.meta_info['global_valid_samples'] = self._get_global_valid_samples(batch, dp_group=mpu.get_data_parallel_group())
+
         output_on_all_tp_cp_ranks = batch.meta_info.get("output_on_all_tp_cp_ranks", False)
         if self.worker_config.use_dynamic_batching_in_infer:
             micro_batches_list = list(make_micro_batch_iter_for_dynamic_batching(batch))
             num_microbatches = batch.meta_info["num_micro_batchs"]
             micro_batch_size = 1
+        elif self.use_sequence_packing:
+            vp_size = self.worker_config.strategy_args.strategy_config['virtual_pipeline_model_parallel_size'] \
+                if 'virtual_pipeline_model_parallel_size' in self.worker_config.strategy_args.strategy_config else 1
+            micro_batches_list = list(
+                make_micro_batch_iter_for_sequence_packing(batch, tp_size=self.worker.rank_info.tp_size,
+                                                           cp_size=self.worker.rank_info.cp_size,
+                                                           vp_size=vp_size, is_train=False,
+                                                           dp_group=mpu.get_data_parallel_group(with_context_parallel=True),
+                                                           micro_batch_size=batch.meta_info["micro_batch_size"],
+                                                           config=self.worker_config.sequence_packing_args))
+            num_microbatches = micro_batches_list[0].meta_info["num_micro_batchs"]
+            micro_batch_size = 1
         else:
             batch_size = batch.batch.batch_size[0]
             micro_batch_size = batch.meta_info["micro_batch_size"]
             num_microbatches = max(batch_size // micro_batch_size, 1)
             micro_batches_list = batch.chunk(chunks=num_microbatches)
-        if self.use_sequence_packing:
-            micro_batch_size = 1
-            self.max_packed_len = self._get_max_packed_len(micro_batches_list)
+
+        disable_adapter = batch.meta_info.get("disable_adapter", False)
+        adapter_context = self.models_unwrapped[0].disable_adapter() if disable_adapter else nullcontext()
+
+        for micro_batch in micro_batches_list:
+            micro_batch.meta_info['loss_scale'] = num_microbatches * mpu.get_data_parallel_world_size()
+            micro_batch.meta_info['micro_batch_size'] = micro_batch.batch.batch_size[0]
 
         data_iterator = [iter(micro_batches_list) for _ in range(len(self.model))]
-        with disable_gradients(models=self.model.get_models()):
+        with disable_gradients(models=self.model.get_models()), adapter_context:
             # List 是每个 micro-batch 构成的
             losses_reduced: List[Dict[str, torch.Tensor]] = self.forward_backward_func(
                 forward_step_func=partial(self.inner_forward_step, forward_func),
                 data_iterator=data_iterator,
                 model=self.model.get_models(),
                 num_microbatches=num_microbatches,
-                seq_length=self.seq_length if not self.use_sequence_packing else self.max_packed_len,
+                seq_length=self.seq_length,
                 micro_batch_size=micro_batch_size,
                 forward_only=True,
             )
@@ -176,6 +221,11 @@ def forward_step(
                     data[k] = torch.nn.functional.pad(v, (0, self.seq_length - data[k].size(-1) - 1), "constant", 0)
         results = collate_fn_to_dict_list(losses_reduced)
 
+        if self.use_sequence_packing:
+            results = restore_results_order(results, micro_batches_list[0].meta_info['partition_indices_list'],
+                                  self.worker_config.sequence_packing_args)
+
+
         if not (
                 ((self.worker.rank_info.tp_rank == 0
                 and self.worker.rank_info.cp_rank == 0) or output_on_all_tp_cp_ranks)
@@ -207,29 +257,6 @@ def _get_pad_factor(self):
         pad_factor = math.lcm(16, pad_factor)
         return pad_factor
 
-    def _get_max_packed_len(self, micro_batches_list):
-        max_packed_len = -1
-        for micro_batch in micro_batches_list:
-            input_ids = micro_batch.batch["input_ids"]
-            attention_mask = micro_batch.batch["attention_mask"]
-
-            batch_size = input_ids.shape[0]
-            seq_lens = attention_mask.sum(dim=-1)
-
-            pad_factor = self._get_pad_factor()
-
-            packed_len = 0
-            for b in range(batch_size):
-                seq_len = seq_lens[b].item() if torch.is_tensor(seq_lens[b]) else seq_lens[b]
-                if pad_factor > 1:
-                    padded_seq_len = ((seq_len + pad_factor - 1) // pad_factor) * pad_factor
-                else:
-                    padded_seq_len = seq_len
-                packed_len += padded_seq_len
-
-            max_packed_len = max(packed_len, max_packed_len)
-        return max_packed_len
-
     def _pack_sequences(self, input_tensor, attention_mask, pad_packed_seq_to=None, pad_val=0):
         """
         Pack multiple sequences into a single continuous sequence by removing padding.
@@ -237,8 +264,6 @@ def _pack_sequences(self, input_tensor, attention_mask, pad_packed_seq_to=None,
         Implements sequence packing for efficient batch processing with variable-length sequences.
         Removes per-sample padding and concatenates sequences while maintaining cumulative length info.
 
-        Reference: https://github.com/NVIDIA-NeMo/RL/blob/main/nemo_rl/models/megatron/common.py
-
         Args:
             input_tensor (torch.Tensor): Shape [batch_size, seq_len, ...], padded sequences.
             attention_mask (torch.Tensor): Shape [batch_size, seq_len], 1=valid, 0=padding.
@@ -300,58 +325,42 @@ def _pack_sequences(self, input_tensor, attention_mask, pad_packed_seq_to=None,
 
         # Track running sequence length for padding
         running_seq_len = 0
-        if pad_factor > 1:
-            all_input_tensor_padded = []
-            padded_tokens = []
-            for b in range(batch_size):
-                seq_len = seq_lens[b].item() if torch.is_tensor(seq_lens[b]) else seq_lens[b]
-                if b == batch_size - 1 and pad_packed_seq_to is not None:
-                    # Different from original implementation: calculate remaining length
-                    padded_seq_len = pad_packed_seq_to - running_seq_len
-                else:
-                    # Align to pad_factor boundary
-                    padded_seq_len = ((seq_len + pad_factor - 1) // pad_factor) * pad_factor
-
-                running_seq_len += padded_seq_len
-
-                seq_tokens = input_tensor_unpadded[b]
-
-                # Pad sequence if needed
-                if padded_seq_len > seq_len:
-                    seq_tokens = torch.nn.functional.pad(
-                        seq_tokens, (0, padded_seq_len - seq_len), value=pad_val
-                    )
-                all_input_tensor_padded.append(seq_tokens)
-
-                if cp_size > 1:
-                    # Handle Context Parallel distribution
-                    # Add batch dimension for processing
-                    seq_tokens_with_batch = seq_tokens.unsqueeze(0)  # [1, seq_len]
-                    seq_tokens_with_batch = self._get_feature_on_this_cp_rank(
-                        seq_tokens_with_batch, "seq_tokens"
-                    )
-                    seq_tokens = seq_tokens_with_batch.squeeze(0)  # Remove batch dimension
+        all_input_tensor_padded = []
+        padded_tokens = []
+        for b in range(batch_size):
+            seq_len = seq_lens[b].item() if torch.is_tensor(seq_lens[b]) else seq_lens[b]
+            if b == batch_size - 1 and pad_packed_seq_to is not None:
+                # Different from original implementation: calculate remaining length
+                padded_seq_len = pad_packed_seq_to - running_seq_len
+            else:
+                # Align to pad_factor boundary
+                padded_seq_len = ((seq_len + pad_factor - 1) // pad_factor) * pad_factor
 
-                padded_tokens.append(seq_tokens)
+            running_seq_len += padded_seq_len
 
-            # Concatenate all sequences
-            packed_input_tensor = torch.cat(padded_tokens, dim=0).unsqueeze(0)
-            all_input_tensor_padded = torch.cat(all_input_tensor_padded, dim=0).unsqueeze(0)
+            seq_tokens = input_tensor_unpadded[b]
 
-        else:
-            # No padding factor: simply concatenate unpadded sequences
-            packed_input_tensor = torch.cat(input_tensor_unpadded, dim=0).unsqueeze(0)
-            all_input_tensor_padded = packed_input_tensor
-            if pad_packed_seq_to is not None:
-                # Pad to target length if specified
-                pad_len = pad_packed_seq_to - packed_input_tensor.shape[1]
-                if pad_len > 0:
-                    packed_input_tensor = torch.nn.functional.pad(
-                        packed_input_tensor, (0, pad_len), value=pad_val
-                    )
-                    all_input_tensor_padded = torch.nn.functional.pad(
-                        all_input_tensor_padded, (0, pad_len), value=pad_val
-                    )
+            # Pad sequence if needed
+            if padded_seq_len > seq_len:
+                seq_tokens = torch.nn.functional.pad(
+                    seq_tokens, (0, padded_seq_len - seq_len), value=pad_val
+                )
+            all_input_tensor_padded.append(seq_tokens)
+
+            if cp_size > 1:
+                # Handle Context Parallel distribution
+                # Add batch dimension for processing
+                seq_tokens_with_batch = seq_tokens.unsqueeze(0)  # [1, seq_len]
+                seq_tokens_with_batch = self._get_feature_on_this_cp_rank(
+                    seq_tokens_with_batch, "seq_tokens"
+                )
+                seq_tokens = seq_tokens_with_batch.squeeze(0)  # Remove batch dimension
+
+            padded_tokens.append(seq_tokens)
+
+        # Concatenate all sequences
+        packed_input_tensor = torch.cat(padded_tokens, dim=0).unsqueeze(0)
+        all_input_tensor_padded = torch.cat(all_input_tensor_padded, dim=0).unsqueeze(0)
 
         if cu_seqlens_padded is None:
             cu_seqlens_padded = cu_seqlens.clone()
@@ -384,42 +393,17 @@ def _pack_sequences(self, input_tensor, attention_mask, pad_packed_seq_to=None,
             cu_seqlens_padded,
         )
 
-    def _get_tokens_on_this_cp_rank(
-            self,
-            input_ids: torch.Tensor,
-            cp_rank: int,
-            cp_size: int,
-            seq_dim: int = 1,
-    ) -> torch.Tensor:
-        """Get tokens on this context parallelism rank.
-
-        Assumes that input_ids are already padded to a multiple of cp_size * 2 or cp_size == 1.
-
-        Args:
-            input_ids: Input token IDs [seq_length, ]
-            cp_rank: Context parallelism rank
-            cp_size: Context parallelism size
-
-        Returns:
-            Tokens on this context parallelism rank [1, seq_length // cp_size]
+    def _unpack_sequences(self, output_tensor, cu_seqlens_padded):
         """
-        if cp_size == 1:
-            return input_ids
-
-        # load balance for causal attention
-        shard_size = input_ids.shape[seq_dim] // (cp_size * 2)
-        shard_inds = (cp_rank, (cp_size * 2) - cp_rank - 1)
-
-        # Create slices for each dimension
-        slices = [slice(None)] * input_ids.dim()
-        ids_chunks = []
-
-        for ind in shard_inds:
-            slices[seq_dim] = slice(ind * shard_size, (ind + 1) * shard_size)
-            ids_chunks.append(input_ids[slices])
+        Unpack concatenated sequences into individual padded sequences.
+        """
+        cp_size = mpu.get_context_parallel_world_size()
+        seq_starts = cu_seqlens_padded[:-1] // cp_size
+        seq_ends = cu_seqlens_padded[1:] // cp_size
 
-        ids = torch.cat(ids_chunks, dim=seq_dim)
-        return ids
+        for seq_idx, (seq_start, seq_end) in enumerate(zip(seq_starts, seq_ends)):
+            local_chunk = output_tensor[:, seq_start:seq_end]
+            yield local_chunk
 
     def inner_forward_step(self, loss_func, data_iterator: Iterator[DataProto], model):
         data = next(data_iterator)
@@ -428,18 +412,12 @@ def inner_forward_step(self, loss_func, data_iterator: Iterator[DataProto], mode
         labels = data.batch["labels"] if "labels" in data.batch else None  # labels is only used for sft
         packed_seq_params = None
 
-        if self.use_remove_padding:
-            unpad_seq_len = self._get_unpad_seqlen(attention_mask=attention_mask)
-            input_ids = input_ids[:, :unpad_seq_len].contiguous()
-            attention_mask = attention_mask[:, :unpad_seq_len].contiguous()
         if self.use_sequence_packing:
             input_ids, packed_seq_params, cu_seqlens, cu_seqlens_padded = self._pack_sequences(
-                input_ids, attention_mask, pad_packed_seq_to=self.max_packed_len
+                input_ids, attention_mask,
             )
             if labels is not None:
-                labels, _, _, _ = self._pack_sequences(labels, attention_mask, pad_packed_seq_to=self.max_packed_len,
-                                                       pad_val=IGNORE_INDEX)
-                data.meta_info['labels_packed'] = labels
+                labels, _, _, _ = self._pack_sequences(labels, attention_mask, pad_val=IGNORE_INDEX)
             attention_mask = None
         else:
             input_ids = self._get_feature_on_this_cp_rank(input_ids, "input_ids")
@@ -451,7 +429,7 @@ def inner_forward_step(self, loss_func, data_iterator: Iterator[DataProto], mode
         # AttnMaskType.causal in which attention_mask would not be used, pass
         # it mainly for moe aux loss without pad token and it is 2D
         # position_ids: not used in LLM
-        # While TransformerTurbo Qwen2VlModel requires 4D attention_mask, and
+        # While MCA Qwen2VlModel requires 4D attention_mask, and
         # attention_mask and position_ids would be chunked for cp with dim 2 as
         # seq dim in it if they are provided
         forward_args = data.meta_info.get("forward_args", {})
@@ -459,9 +437,9 @@ def inner_forward_step(self, loss_func, data_iterator: Iterator[DataProto], mode
             # not support MoE VLM, not used temperarily
             attention_mask = None
             position_ids = data.batch["position_ids"]
-            position_ids = position_ids.transpose(0, 1)  # (bsz, 3, seqlen) -> (3, bsz, seqlen)
-            if self.use_remove_padding:
-                position_ids = position_ids[:, :, :unpad_seq_len].contiguous()
+            if position_ids.size(1) == 4:
+                position_ids = position_ids[:, 1:, :].contiguous()  # (bsz, 4, seqlen) -> (bsz, 3, seqlen)
+            position_ids = position_ids.transpose(0, 1)  # (bsz, C, seqlen) -> (C, bsz, seqlen)
         if "multi_modal_inputs" in data.non_tensor_batch:
             multi_modal_inputs = data.non_tensor_batch["multi_modal_inputs"]
             multi_modal_data = defaultdict(list)
@@ -476,22 +454,67 @@ def inner_forward_step(self, loss_func, data_iterator: Iterator[DataProto], mode
                 forward_args[key] = torch.concat(multi_modal_data[key], dim=0).to(input_ids.device)
             forward_args.update({"force_vit_image": True})
 
+        # megatron_llama_core need loss_mask to compute aux loss
+        if "loss_mask" not in forward_args:
+            if labels is not None:
+                forward_args["loss_mask"] = (labels != IGNORE_INDEX).float()
+            else:
+                forward_args["loss_mask"] = torch.ones_like(input_ids)
+
         output_tensor = model(
             input_ids=input_ids, attention_mask=attention_mask, position_ids=position_ids, labels=labels,
             packed_seq_params=packed_seq_params, **forward_args
         )
 
         if self.use_sequence_packing:
-            loss_func.set_packing_params(cu_seqlens=cu_seqlens, cu_seqlens_padded=cu_seqlens_padded, logger=logger)
-
-        return output_tensor, partial(loss_func, data)
-
-    def broadcast_parameter(self, model_update_name, src_pp_rank, dtype, shape, parameter_name):
+            cp_size = mpu.get_context_parallel_world_size()
+            def loss_wrapper(output_tensor):
+                unpacked_output_iter = self._unpack_sequences(
+                    output_tensor,
+                    cu_seqlens_padded,
+                )
+                loss_result = torch.tensor(0.0, device=output_tensor.device)
+                metrics_result_list = []
+                num_samples = len(data)
+                for i in range(num_samples):
+                    single_output_tensor = next(unpacked_output_iter)
+                    full_seq_len = single_output_tensor.size(1) * cp_size
+                    if full_seq_len == 0:
+                    # Create a mock output tensor when the sample is empty to ensure the subsequent pipeline works correctly.
+                        full_seq_len = self._get_pad_factor()
+                        local_seq_len = max(1, full_seq_len // cp_size)
+                        new_shape = list(single_output_tensor.shape)
+                        new_shape[1] = local_seq_len
+                        single_output_tensor = torch.zeros(new_shape, dtype=single_output_tensor.dtype,
+                                                           device=single_output_tensor.device)
+                    single_data = data[i:i+1]
+                    for key, val in single_data.batch.items():
+                        single_data.batch[key] = adjust_sequence_length(val, full_seq_len, self.seq_length, pad_value=IGNORE_INDEX
+                                                                  if key in {'labels', 'labels_for_loss'} else 0)
+                    loss, metrics = loss_func(single_data, single_output_tensor)
+                    loss_result += loss
+                    for key, val in metrics.items():
+                        if isinstance(val, torch.Tensor):
+                            metrics[key] = adjust_sequence_length(val, self.seq_length, full_seq_len, pad_value=0)
+                    metrics_result_list.append(metrics)
+                    del single_output_tensor
+                metrics_result_dict = collate_fn_to_dict_list(metrics_result_list)
+                if self.worker_config.apply_loss_scale:
+                    loss_result *= data.meta_info['loss_scale']
+                return loss_result, reduce_metrics(metrics_result_dict)
+
+            return output_tensor, loss_wrapper
+        else:
+            def loss_wrapper(output_tensor):
+                loss, metrics = loss_func(data, output_tensor)
+                if self.worker_config.apply_loss_scale:
+                    loss *= data.meta_info['loss_scale']
+                return loss, metrics
+            return output_tensor, loss_wrapper
+
+    def broadcast_parameter(self, *args, **kwargs):
         pass
 
-    def broadcast_bucket(self, model_update_name, src_pp_rank, meta_infos, bucket_size):
-        raise NotImplementedError
-
     def load_states(self, include=None, non_blocking=False):
         reload_megatron_no_grad_module(model_chunks=self.model.get_models())
 
@@ -508,10 +531,7 @@ def op_compute_log_probs(self, logits: torch.Tensor, input_ids: torch.Tensor, at
         """
         ori_seq_length = attention_mask.size(1)
         cp_size = mpu.get_context_parallel_world_size()
-        seq_len = logits.size(1) * cp_size if self.use_remove_padding else ori_seq_length
-        # remove padding token
-        if self.use_remove_padding:
-            input_ids = input_ids[:, :seq_len]
+        seq_len = ori_seq_length
 
         labels: torch.Tensor = input_ids[:, 1:].clone()
         labels[attention_mask[:, 1:seq_len] == 0] = 0  # avoid invalid token id
@@ -522,21 +542,15 @@ def op_compute_log_probs(self, logits: torch.Tensor, input_ids: torch.Tensor, at
         log_probs = vocab_parallel_logprobs(logits, labels)
         if mpu.get_context_parallel_world_size() > 1:
             log_probs = context_parallel_gather(log_probs, parallel_dim=1)
-        # add pad to recover tensor shape
-        if self.use_remove_padding:
-            pad_token_num = ori_seq_length - seq_len
-            log_probs = torch.nn.functional.pad(log_probs, pad=(0, pad_token_num), value=0)
         log_probs = log_probs[:, :-1] * attention_mask[:, 1:]
         return log_probs
 
     def op_compute_entropy(self, logits: torch.Tensor, attention_mask: torch.Tensor):
+        if self.worker_config.logits_in_fp32:
+            logits = logits.float()
         entropy = vocab_parallel_entropy(logits)
         if mpu.get_context_parallel_world_size() > 1:
             entropy = context_parallel_gather(entropy, parallel_dim=1)
-        # add pad to recover shape
-        if self.use_remove_padding:
-            pad_token_num = attention_mask.size(1) - entropy.size(1)
-            entropy = torch.nn.functional.pad(entropy, pad=(0, pad_token_num), value=0)
         entropy = entropy[:, :-1] * attention_mask[:, 1:]
         return entropy
 
@@ -927,31 +941,25 @@ def op_compute_various_divergence(
         else:
             raise ValueError(f"Unsupported reduction: {reduction}. Use 'mean', 'sum', or 'none'.")
 
-    def op_compute_language_loss(self, losses: torch.Tensor, labels: torch.Tensor):
-        if not self.use_sequence_packing:
-            labels = self._get_feature_on_this_cp_rank(labels, "labels")
+    def op_compute_language_loss(self, losses: torch.Tensor, labels: torch.Tensor, batch_num_tokens: int):
+        labels = self._get_feature_on_this_cp_rank(labels, "labels")
 
         loss_mask = (labels != IGNORE_INDEX).float()
         loss_mask = loss_mask.view(-1).float()
         losses = torch.sum(losses.view(-1) * loss_mask)
-        loss_mask = loss_mask.sum()
 
         if mpu.get_context_parallel_world_size() > 1:
-            loss_info = torch.cat([losses.view(1), loss_mask.view(1)])
+            loss_info = torch.cat([losses.view(1)])
             torch.distributed.all_reduce(
                 loss_info, op=torch.distributed.ReduceOp.SUM, group=mpu.get_context_parallel_group()
             )
-            losses, loss_mask = loss_info[0], loss_info[1]
-
-        loss = losses.clone() # clone to make sure loss is not a view
+            losses = loss_info[0]
 
-        local_num_tokens = loss_mask.clone().detach()
-        if local_num_tokens == 0:
-            local_num_tokens += 1  # avoid divide by zero
+        loss = losses.clone() / batch_num_tokens# clone to make sure loss is not a view
 
-        metrics = {f"{self.worker_config.name}/loss": (loss / local_num_tokens).clone().detach().unsqueeze(0)}
+        metrics = {f"{self.worker_config.name}/loss@sum": loss.clone().detach().item()}
 
-        return loss, local_num_tokens.int(), metrics
+        return loss, metrics
 
 class MegatronTrainStrategy(MegatronInferStrategy, TrainStrategy):
     strategy_name = "megatron_train"
@@ -965,11 +973,12 @@ def __init__(self, worker: Worker):
 
     def initialize(self, model_provider):
         self.seq_length = self.worker.pipeline_config.sequence_length
+        self.weight_updaters: dict[str, MegatronWeightUpdater] = {}
 
         self.tokenizer = default_tokenizer_provider(model_args=self.worker_config.model_args)
         self.processor = default_processor_provider(model_args=self.worker_config.model_args)
         # model provider will initialize megatron distributed groups
-        self.model = model_provider(
+        self.model: "VirtualModels" = model_provider(
             tokenizer=self.tokenizer,
             model_args=self.worker_config.model_args,
             training_args=self.megatron_train_args,
@@ -1032,10 +1041,6 @@ def initialize(self, model_provider):
         self.worker.rank_info.cp_size = mpu.get_context_parallel_world_size()
         self.worker.rank_info.cp_rank = mpu.get_context_parallel_rank()
 
-        self.barrier = Barrier.options(
-            name=BARRIER_NAME, get_if_exists=True, namespace=RAY_NAMESPACE
-        ).remote(self.worker.world_size / self.worker.rank_info.pp_size)
-
         logger.info(f"max steps pipeline {self.worker_config.training_args.max_steps}")
         self.worker_config.training_args.max_steps = (
             self.worker_config.training_args.max_steps // self.worker.rank_info.dp_size
@@ -1053,6 +1058,7 @@ def initialize(self, model_provider):
                 mpu.get_data_parallel_group(with_context_parallel=True),
                 do_cache_distribution=True,
             )
+            self.ckpt_sharding_metadata = build_sharded_state_dict_metadata(self.megatron_train_args)
 
         if self.megatron_train_args.overlap_grad_reduce:
             model_config = self.model.config
@@ -1068,18 +1074,37 @@ def initialize(self, model_provider):
                 if len(self.models_wrapped) == 1:
                     model_config.grad_sync_func = model_config.grad_sync_func[0]
 
+        if (self.worker_config.use_dynamic_batching_in_train or self.worker_config.use_sequence_packing or
+            self.worker_config.use_sequence_packing) and self.worker.rank_info.pp_size > 1:
+            self.model.config.variable_seq_lengths = True
+            logger.info("Set variable_seq_lengths to True when use dynamic batching and pipeline parallel.")
+
         logger.info(f"{self.model.get_models()}")
         dist.barrier()
 
     def train_step(self, batch: DataProto, loss_func: Callable):
         self.model.train()
 
+        global_step = batch.meta_info.get("global_step", 0)
         is_offload_optimizer_states_in_train_step = batch.meta_info.get("is_offload_optimizer_states_in_train_step", True)
+        batch.meta_info['batch_num_tokens'] = self._get_batch_num_tokens(batch, dp_group=mpu.get_data_parallel_group())
+        batch.meta_info['global_valid_samples'] = self._get_global_valid_samples(batch, dp_group=mpu.get_data_parallel_group())
 
         if self.worker_config.use_dynamic_batching_in_train:
             micro_batches_list = list(make_micro_batch_iter_for_dynamic_batching(batch))
             num_microbatches = batch.meta_info["num_micro_batchs"]
             mini_batch_size = 1
+        elif self.use_sequence_packing:
+            vp_size = self.worker_config.strategy_args.strategy_config['virtual_pipeline_model_parallel_size']\
+                if 'virtual_pipeline_model_parallel_size' in self.worker_config.strategy_args.strategy_config else 1
+            micro_batches_list = list(make_micro_batch_iter_for_sequence_packing(batch, tp_size=self.worker.rank_info.tp_size,
+                                                                cp_size=self.worker.rank_info.cp_size,
+                                                                vp_size=vp_size, is_train=True,
+                                                                dp_group=mpu.get_data_parallel_group(with_context_parallel=True),
+                                                                micro_batch_size=self.worker_config.training_args.per_device_train_batch_size,
+                                                                                 config=self.worker_config.sequence_packing_args))
+            num_microbatches = micro_batches_list[0].meta_info["num_micro_batchs"]
+            mini_batch_size = 1
         else:
             mini_batch_size = self.worker_config.training_args.per_device_train_batch_size
             num_microbatches = batch.batch.batch_size[0] // self.worker_config.training_args.per_device_train_batch_size
@@ -1087,10 +1112,10 @@ def train_step(self, batch: DataProto, loss_func: Callable):
                 num_microbatches == self.megatron_train_args.gradient_accumulation_steps
             ), f"num_microbatches={num_microbatches} gradient_accumulation_steps={self.megatron_train_args.gradient_accumulation_steps}"
             micro_batches_list = batch.chunk(chunks=num_microbatches)
-        if self.use_sequence_packing:
-            mini_batch_size = 1
-            self.max_packed_len = self._get_max_packed_len(micro_batches_list)
-            logger.info(f"max_packed_len: {self.max_packed_len}")
+
+        for micro_batch in micro_batches_list:
+            micro_batch.meta_info['loss_scale'] = num_microbatches * mpu.get_data_parallel_world_size()
+            micro_batch.meta_info['micro_batch_size'] = micro_batch.batch.batch_size[0]
 
         data_iterator = [iter(micro_batches_list) for _ in range(len(self.model))]
 
@@ -1099,13 +1124,14 @@ def train_step(self, batch: DataProto, loss_func: Callable):
             data_iterator=data_iterator,
             model=self.model.get_models(),
             num_microbatches=num_microbatches,
-            seq_length=self.seq_length if not self.use_sequence_packing else self.max_packed_len,
+            seq_length=self.seq_length,
             micro_batch_size=mini_batch_size,
             forward_only=False,
         )
 
         # 只有step的时候需要load optimizer states
         self.load_states(include=[OffloadStateType.optimizer_states])
+
         update_successful, grad_norm, num_zeros_in_grad = self.optimizer.step()
         if is_offload_optimizer_states_in_train_step:
             self.offload_states(include=[OffloadStateType.optimizer_states], non_blocking=True)
@@ -1117,6 +1143,13 @@ def train_step(self, batch: DataProto, loss_func: Callable):
 
         for model in self.model:
             model.zero_grad_buffer()
+            # Offload/reload does not update cached_param_buffer_shard_list/cached_grad_buffer_shard_list,
+            # resulting using old params in `start_param_sync`, which leads to wrong results. So we clear the cache.
+            for bucket_group in model.bucket_groups + model.expert_parallel_bucket_groups:
+                if hasattr(bucket_group, "cached_param_buffer_shard_list"):
+                    bucket_group.cached_param_buffer_shard_list = [None] * len(bucket_group.buckets)
+                if hasattr(bucket_group, "cached_grad_buffer_shard_list"):
+                    bucket_group.cached_grad_buffer_shard_list = [None] * len(bucket_group.buckets)
         self.optimizer.zero_grad()
 
         metrics = {}
@@ -1136,49 +1169,23 @@ def train_step(self, batch: DataProto, loss_func: Callable):
             clear_aux_losses_tracker()
             metrics.update(moe_losses)
 
+        if self.model.config.mtp_num_layers is not None and self.model.config.mtp_num_layers > 0:
+            mtp_total_loss_dict = {}
+            MTPLossLoggingHelper.reduce_loss_in_tracker()
+            tracker = MTPLossLoggingHelper.tracker
+            if "values" in tracker:
+                loss_scale = 1 / self.megatron_train_args.gradient_accumulation_steps
+                mtp_losses = tracker["values"] * loss_scale
+                mtp_num_layers = mtp_losses.shape[0]
+                for i in range(mtp_num_layers):
+                    name = self.worker_config.name + "/" + f"mtp_{i+1} loss"
+                    mtp_total_loss_dict[name] = mtp_losses[i].item()
+                MTPLossLoggingHelper.clean_loss_in_tracker()
+                metrics.update(mtp_total_loss_dict)
         return metrics
 
-    def model_update(self, model_update_name, tgt_workers, broadcast_tgt_devices, p2p_tgt_devices):
-        comm_plan = self.model_update_comm_plan[model_update_name][self.worker.rank_info.pp_rank]
-        broadcast_time_cost = 0
-        with Timer("model_update_total") as timer_total:
-            for meta_infos, buffer in self.model.all_gather_weights_as_hf_bucket(
-                models=self.models_unwrapped, bucket_size=256 * 1024 * 1024
-            ):
-                ray.get(self.barrier.wait.remote())
-                refs = []
-                with Timer("broadcast") as timer_broadcast:
-                    for p2p_tgt_device in p2p_tgt_devices:
-                        p2p_tgt_worker = tgt_workers[p2p_tgt_device["rank"]]
-                        ref = p2p_tgt_worker.update_parameter_in_bucket.remote(model_update_name=model_update_name,
-                            meta_infos=meta_infos, buffer=buffer, ranks_in_worker=[p2p_tgt_device["device"]["rank"]]
-                        )
-                        refs.append(ref)
-
-                    if (
-                        self.worker.rank_info.tp_rank == 0
-                        and self.worker.rank_info.cp_rank == 0
-                        and self.worker.rank_info.dp_rank == 0
-                    ):
-                        for worker in tgt_workers:
-                            ref = worker.broadcast_bucket.remote(
-                                model_update_name=model_update_name,
-                                src_pp_rank=self.worker.rank_info.pp_rank,
-                                meta_infos=meta_infos,
-                                bucket_size=buffer.numel() * buffer.element_size(),
-                            )
-                            refs.append(ref)
-                    if len(broadcast_tgt_devices) > 0:
-                        collective.broadcast(tensor=buffer, src_rank=0, group_name=comm_plan["group_name"])
-                    ray.get(refs)
-                ray.get(self.barrier.wait.remote())
-                broadcast_time_cost += timer_broadcast.last
-
-        metrics = {
-            "all_gather": timer_total.last - broadcast_time_cost,
-            "broadcast": broadcast_time_cost,
-        }
-        return metrics
+    def model_update(self, model_update_name: str):
+        return self.weight_updaters[model_update_name].model_update()
 
     def load_states(self, include=None, non_blocking=False):
         if include is not None:
@@ -1208,6 +1215,16 @@ def offload_states(self, include=None, non_blocking=False, pin_memory=True):
         RotaryEmbedding.forward.cache_clear()
         current_platform.empty_cache()
 
+    def setup_model_update(self, infer_cluster, model_update_name: str):
+        assert model_update_name not in self.weight_updaters
+        self.weight_updaters[model_update_name] = MegatronWeightUpdater(
+            pipeline_config=self.worker.pipeline_config,
+            worker_config=self.worker_config,
+            model_update_name=model_update_name,
+            models_unwrapped=self.models_unwrapped,
+            infer_cluster=infer_cluster,
+        )
+
     def save_checkpoint(self, save_dir, global_step, ckpt_id, tag="checkpoint", local_state_path=None, **kwargs):
         logger.info(f"save_dir: {save_dir}")
         if local_state_path is None:
@@ -1215,9 +1232,26 @@ def save_checkpoint(self, save_dir, global_step, ckpt_id, tag="checkpoint", loca
         with Timer("load") as load_timer:
             self.load_states()
 
+        is_last_step = kwargs.get("is_last_step", False)
+
+        if self.megatron_train_args.save_hf_model:
+            self.model.save_pretrained_as_hf(save_dir)
+
         # save model and tokenizer
         if len(self.models_unwrapped) == 1:
-            self.models_unwrapped[0].save_pretrained(save_dir)
+            if is_peft_available() and isinstance(self.models_unwrapped[0], PeftModel):
+                for adapter_name, peft_config in self.models_unwrapped[0].peft_config.items():
+                    adapter_save_directory = os.path.join(save_dir, adapter_name)
+                    peft_config.save_pretrained(adapter_save_directory)
+                    peft_state_dict = get_peft_model_state_dict(
+                        self.models_unwrapped[0], self.models_unwrapped[0].state_dict_for_save_checkpoint(), adapter_name
+                    )
+                    self.models_unwrapped[0].base_model.model.save_pretrained(
+                        adapter_save_directory, state_dict={"model": peft_state_dict}
+                    )
+                self.models_unwrapped[0].config.save_pretrained(save_dir)
+            else:
+                self.models_unwrapped[0].save_pretrained(save_dir)
         else:
             state_dict = {f"model{i}": model.state_dict_for_save_checkpoint() for i, model in
                           enumerate(self.models_unwrapped)}
@@ -1236,8 +1270,9 @@ def save_checkpoint(self, save_dir, global_step, ckpt_id, tag="checkpoint", loca
         os.makedirs(checkpoint_dir, exist_ok=True)
         if self.megatron_train_args.use_distributed_optimizer:
             model_shared_state_dict = self.model.sharded_state_dict()
-            optimizer_state_dict = self.optimizer.sharded_state_dict(model_shared_state_dict,
-                                                                     sharding_type="fully_sharded_model_space")
+            optimizer_state_dict = self.optimizer.sharded_state_dict(
+                model_shared_state_dict, metadata=self.ckpt_sharding_metadata
+            )
             dist_checkpointing.save(
                 optimizer_state_dict,
                 checkpoint_dir=checkpoint_dir,
@@ -1246,7 +1281,7 @@ def save_checkpoint(self, save_dir, global_step, ckpt_id, tag="checkpoint", loca
                 validate_access_integrity=self._validate_access_integrity,
             )
             self._validate_access_integrity = False
-        elif not dist.is_initialized() or mpu.get_data_modulo_expert_parallel_rank() == 0:
+        elif not dist.is_initialized() or mpu.get_expert_data_parallel_rank() == 0:
             torch.save(self.optimizer.state_dict(), os.path.join(checkpoint_dir, OPTIMIZER_NAME))
             logger.info(f"Saving optimizer state to {os.path.join(checkpoint_dir, OPTIMIZER_NAME)}")
 
@@ -1269,7 +1304,7 @@ def save_checkpoint(self, save_dir, global_step, ckpt_id, tag="checkpoint", loca
         os.makedirs(os.path.dirname(rgn_path), exist_ok=True)
         torch.save(rng_states, rgn_path)
 
-        if self.worker_config.checkpoint_config.get("async_upload", True):
+        if self.worker_config.checkpoint_config.get("async_upload", True) and not is_last_step:
             self.thread_executor.submit(self.checkpoint_manager.upload, ckpt_id=ckpt_id, local_state_path=local_state_path)
         else:
             self.checkpoint_manager.upload(ckpt_id=ckpt_id, local_state_path=local_state_path)
@@ -1292,10 +1327,12 @@ def load_checkpoint(self, load_dir, tag="checkpoint", **kwargs):
             f"Loading optimizer from {optimizer_checkpoint}, process_index: {self.megatron_train_args.process_index}"
         )
 
+        self.offload_states()
+
         if self.megatron_train_args.use_distributed_optimizer:
             model_shared_state_dict = self.model.sharded_state_dict()
             sharded_state_dict = self.optimizer.sharded_state_dict(
-                model_shared_state_dict, is_loading=True, sharding_type="fully_sharded_model_space"
+                model_shared_state_dict, is_loading=True, metadata=self.ckpt_sharding_metadata
             )
             load_strategy = dist_checkpointing.serialization.get_default_load_sharded_strategy(optimizer_checkpoint)
             load_strategy = FullyParallelLoadStrategyWrapper(
@@ -1334,3 +1371,5 @@ def load_checkpoint(self, load_dir, tag="checkpoint", **kwargs):
             tensor_parallel.get_cuda_rng_tracker().set_states(checkpoint_rng_state["rng_tracker_states"])
         else:
             logger.info(f"not load rng state, not found file: {rng_file}")
+
+        self.load_states()
diff --git a/roll/distributed/strategy/mock_strategy.py b/roll/distributed/strategy/mock_strategy.py
index fcf626732..81da4179b 100644
--- a/roll/distributed/strategy/mock_strategy.py
+++ b/roll/distributed/strategy/mock_strategy.py
@@ -81,9 +81,6 @@ def unwrap_model(self):
         # return self.model
         raise NotImplementedError
 
-    def update_parameter(self, model_update_name, parameter_name, weight, ranks_in_worker):
-        logger.warning(f"update_parameter method is not implemented in {self.strategy_name} strategy")
-
     def update_parameter_in_bucket(self, model_update_name, meta_infos, buffer, ranks_in_worker):
         logger.warning(f"update_parameter_in_bucket method is not implemented in {self.strategy_name} strategy")
 
diff --git a/roll/distributed/strategy/sglang_strategy.py b/roll/distributed/strategy/sglang_strategy.py
index cdd46ce4d..c09f65641 100644
--- a/roll/distributed/strategy/sglang_strategy.py
+++ b/roll/distributed/strategy/sglang_strategy.py
@@ -1,25 +1,39 @@
 import asyncio
+import atexit
 import copy
 import gc
 import io
 import os
-import queue
-from concurrent import futures
-from datetime import timedelta
-from typing import List, Optional
+import pathlib
+import random
+import setproctitle
 
+import ray
+import grpc
+import httpx
 import torch
-import torch.distributed as dist
 from torch.nn.utils.rnn import pad_sequence
 from transformers import set_seed
+from fastapi import Request
+from fastapi.responses import Response
+from fastapi.routing import APIRoute
 
 from roll.distributed.executor.worker import Worker
 from roll.distributed.scheduler.protocol import DataProto
 from roll.distributed.strategy.strategy import InferenceStrategy
-from roll.third_party.sglang import async_engine
 from roll.third_party.sglang import patch as sglang_patch
-from roll.utils.functionals import GenerateRequestType, concatenate_input_and_output
+from sglang.srt.managers.io_struct import (
+    GenerateReqInput,
+    ReleaseMemoryOccupationReqInput,
+    ResumeMemoryOccupationReqInput,
+    UpdateWeightsFromDistributedReqInput,
+    InitWeightsUpdateGroupReqInput,
+    UpdateWeightsFromTensorReqInput,
+)
+from sglang.srt.utils import kill_process_tree
+from roll.utils.functionals import concatenate_input_and_output, gather_unpadded_input_ids
 from roll.utils.logging import get_logger
+from roll.utils.network_utils import collect_free_port
 from roll.utils.offload_states import OffloadStateType
 from roll.platforms import current_platform
 
@@ -32,39 +46,44 @@
 logger = get_logger()
 
 
+class SglangSlaveActor:
+    async def initialize(self, sglang_config):
+        grpc_mode = sglang_config.get("grpc_mode", None)
+        if grpc_mode is None:
+            self.model = SglangEngine()
+        elif grpc_mode == True:
+            raise NotImplementedError(f"grpc_mode is not supported now")
+        else:
+            self.model = SglangHttpEngine()
+
+        # [no_return]
+        # sglang will join scheduler process at node other than 0
+        await self.model.initialize(sglang_config)
+
 class SgLangStrategy(InferenceStrategy):
     strategy_name = "sglang"
 
     def __init__(self, worker: Worker):
         super().__init__(worker)
-        self.model
-        self.async_model = None
-        self.sampling_params = None
-        self.use_gpu_executor = True
-        self.executor: futures.ThreadPoolExecutor = futures.ThreadPoolExecutor(max_workers=1)
-        self.sglang_outputs_list: List = []
-        self.input_ids_list: List = []
-        self.command_queue: Optional[queue.Queue] = None
-
-        self.request_ids = set()
-        self.generation_config = None
-        self.running = None
-
-    def initialize(self, model_provider):
-        set_seed(seed=self.worker.pipeline_config.seed)
-        self.command_queue = queue.Queue()
+        self.model = None
+        self.slave_list = []
+        self.is_model_in_gpu = True
+        self.is_kv_cache_in_gpu = True
 
-        dist.init_process_group(backend=current_platform.communication_backend, timeout=timedelta(minutes=self.worker_config.backend_timeout))
-        dist.all_reduce(torch.zeros(1).to(current_platform.device_type))
+    async def initialize(self, model_provider):
+        set_seed(seed=self.worker.pipeline_config.seed)
 
         sglang_config = copy.deepcopy(self.worker_config.strategy_args.strategy_config)
-        tp_size = sglang_config.pop("tensor_parallel_size", current_platform.device_count())
+        tp_size = sglang_config.pop("tensor_parallel_size", len(self.worker_config.resource_placement_groups))
+        pp_size = sglang_config.pop("pipeline_parallel_size", 1)
+        gpu_per_worker = current_platform.device_count()
 
-        dp_rank = dist.get_rank()
-        dp_size = dist.get_world_size()
-        self.worker.rank_info.dp_rank = dp_rank
-        self.worker.rank_info.dp_size = dp_size
-        logger.info(f"[sglang][local]: {dp_rank=} {dp_size=} {tp_size=}")
+        assert (tp_size * pp_size) % gpu_per_worker == 0
+        nnodes = (tp_size * pp_size) // gpu_per_worker
+
+        assert self.worker.rank_info.dp_rank == self.worker.rank
+        assert self.worker.rank_info.dp_size == self.worker.world_size
+        logger.info(f"[sglang][local]: dp_rank={self.worker.rank} dp_size={self.worker.world_size} {tp_size=}")
 
         if self.worker_config.model_args.dtype == "fp32":
             dtype = "float32"
@@ -86,82 +105,109 @@ def initialize(self, model_provider):
                 "trust_remote_code": True,
                 "tp_size": tp_size,
                 "log_level": sglang_config.get("log_level", "info"),
-                "port": 30000 + dp_rank * 500,
+                "log_level_http": sglang_config.get("log_level_http", "warning"),
+                # socket collects free port [32768 - 65535]，allocate sglang port to random [20000-30000] + sglang dp_rank
+                "port": random.randint(20000, 30000) + self.worker.rank * 8, # nccl_port = port + random(100, 1000)
                 # 'disable_cuda_graph': True,
                 "disable_custom_all_reduce": sglang_config.get("disable_custom_all_reduce", True),
+                'nnodes': nnodes,
+                'node_rank': 0,
             }
         )
+
+        if nnodes > 1:
+            sglang_config['dist_init_addr'] = f'{ray.util.get_node_ip_address()}:{collect_free_port()}'
+
         logger.info(f"[sglang][sglang_config]: {sglang_config}")
 
-        os.environ.pop("PYTORCH_CUDA_ALLOC_CONF", None)
-        self.model = sglang_patch.engine.EngineSA(**sglang_config)
-        self.model.is_model_in_gpu = True
-
-        self.tokenizer = get_tokenizer(self.worker_config.model_args.model_name_or_path, trust_remote_code=True)
-
-        additional_special_tokens = self.tokenizer.additional_special_tokens
-        special_tokens = [
-            add_token
-            for add_token in self.tokenizer.added_tokens_decoder.values()
-            if add_token.special and add_token.content not in additional_special_tokens
-        ]
-        self.tokenizer.add_special_tokens(
-            {"additional_special_tokens": special_tokens}, replace_additional_special_tokens=False
-        )
-        logger.info(f"add {special_tokens} to additional_special_tokens: {self.tokenizer.additional_special_tokens}")
-        self.event_loop = asyncio.get_event_loop()
+        sglang_args_list = []
+        for i in range(nnodes):
+            sglang_config_tmp = copy.deepcopy(sglang_config)
+            sglang_config_tmp['node_rank'] = i
+            sglang_args_list.append(sglang_config_tmp)
+
+        if nnodes > 1:
+            node_index = 0
+            sglang_pg_list = []
+            node_index_list = list(range(self.worker.rank * nnodes, (self.worker.rank + 1) * nnodes))
+            for item in self.worker_config.resource_placement_groups:
+                if item['node_rank'] in node_index_list and item['gpu_rank'] == 0:
+                    sglang_pg_list.append(item['placement_group'])
+                    node_index += 1
+
+            from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
+            from roll.utils.constants import RAY_NAMESPACE
+            for i in range(1, nnodes):
+                sglang_ray_option = {
+                    'scheduling_strategy': PlacementGroupSchedulingStrategy(sglang_pg_list[i]), 
+                    'name': f'sglang-slave-{node_index_list[i]}',
+                    'namespace': RAY_NAMESPACE,
+                    'runtime_env': 
+                    {'env_vars': 
+                        {'WORLD_SIZE': str(nnodes), 
+                        'RANK': str(i), 
+                        'WORKER_NAME': f'sglang-slave-{node_index_list[i]}',
+                        'CUDA_VISIBLE_DEVICES': ','.join(map(str, list(range(gpu_per_worker)))), 'RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES': '1', 
+                        'ROLL_LOG_DIR': os.getenv("ROLL_LOG_DIR", "./output/logs/")
+                        }
+                    }, 
+                    'num_cpus': 0.01,
+                    'num_gpus': 0.01
+                }
+                sglang_worker = ray.remote(SglangSlaveActor).options(**sglang_ray_option).remote()
+                sglang_worker.initialize.remote(sglang_args_list[i])
+                self.slave_list.append(sglang_worker)
+
+        # grpc_mode is supported from v0.4.10
+        grpc_mode = sglang_config.get("grpc_mode", None)
+        if grpc_mode is None:
+            self.model = SglangEngine()
+        elif grpc_mode == True:
+            raise NotImplementedError(f"grpc_mode is not supported now")
+        else:
+            self.model = SglangHttpEngine()
+        await self.model.initialize(sglang_args_list[0])
+
+    def get_url(self):
+        return self.model.get_url()
 
     def op_compute_log_probs(self, logits: torch.Tensor, input_ids: torch.Tensor, attention_mask: torch.Tensor):
         pass
 
-    def start_server(self, data: DataProto, request_complete_callback):
-        self.running = True
-        self.command_queue = queue.Queue()
-        async_engine.start_async_sglang(
-            self.event_loop,
-            self.model,
-            request_complete_callback,
-            self.command_queue,
-            max_running_requests=self.worker.pipeline_config.max_running_requests,
+    async def abort_requests(self, request_ids=None):
+        # assert isinstance(self.model, SglangEngine)
+        # TODO sglang support abort_all and abort parallel sampling request from v0.4.9
+        # https://github.com/sgl-project/sglang/pull/6698
+        if request_ids is None: # temporary solution to abort rquest with parallel sampling
+            request_ids = self.model.engine.tokenizer_manager.rid_to_state
+        for rid in request_ids:
+            self.model.engine.tokenizer_manager.abort_request(rid)
+
+    async def generate_request(self, payload: dict):
+        # assert isinstance(self.model, SglangEngine)
+        from sglang import __version__ as version
+        if version < '0.5' and payload["sampling_params"]["n"] > 1: # fixed in https://github.com/sgl-project/sglang/pull/7508
+            payload["rid"] = None
+        obj = GenerateReqInput(
+            input_ids=payload["input_ids"],
+            sampling_params=payload["sampling_params"],
+            rid=payload["rid"],
+            return_logprob=payload["return_logprob"],
         )
+        generator = self.model.engine.tokenizer_manager.generate_request(obj, None)
+        chunks = None
+        async for chunks in generator:
+            chunks = chunks
+        assert chunks is not None
+        chunks = chunks if isinstance(chunks, list) else [chunks]
 
-    def add_request(self, command, data: DataProto):
-        if command == GenerateRequestType.ADD:
-            input_ids = data.batch["input_ids"]
-            attention_mask = data.batch["attention_mask"]
-            request_id = data.meta_info["request_id"]
-            self.request_ids.add(request_id)
-            generation_config = data.meta_info.get("generation_config")
-            max_new_tokens = data.meta_info.get("max_new_tokens", generation_config["max_new_tokens"])
-            max_new_tokens = min(max_new_tokens, generation_config["max_new_tokens"])
-            sampling_params = create_sampling_params_for_sglang(
-                gen_kwargs={**generation_config, "max_new_tokens": max_new_tokens}
-            )
-            prompt_token_ids = gather_unpadded_input_ids(input_ids=input_ids, attention_mask=attention_mask)
-            async_engine.add_request(
-                self.command_queue, ([request_id], prompt_token_ids, sampling_params, data.meta_info)
-            )
-
-        elif command == GenerateRequestType.ABORT:
-            request_id = data.meta_info["request_id"]
-            async_engine.abort_request(self.command_queue, rid=request_id)
-
-        elif command == GenerateRequestType.STOP:
-            self.command_queue.put(None)
-            self.request_ids.clear()
-            self.running = False
-
-    def generate(self, batch: DataProto, generation_config):
-        if self.sampling_params is None:
-            self.sampling_params = create_sampling_params_for_sglang(gen_kwargs=generation_config)
-            old_sampling_params = self.sampling_params
-            logger.info(f"sampling_params: {self.sampling_params}")
-        else:
-            new_sampling_params = create_sampling_params_for_sglang(gen_kwargs=generation_config)
-            old_sampling_params = self.sampling_params
-            if not compare_sampling_params(new_sampling_params, self.sampling_params):
-                self.sampling_params = new_sampling_params
-                logger.info(f"switch sampling_params: {self.sampling_params}")
+        return postprocess_generate(chunks)
+
+    async def generate(self, batch: DataProto, generation_config):
+        # assert isinstance(self.model, SglangEngine)
+        assert self.is_model_in_gpu
+        sampling_params = create_sampling_params_for_sglang(gen_kwargs=generation_config)
+        logger.info(f"sampling_params: {sampling_params}")
 
         input_ids = batch.batch["input_ids"]  # (bs, prompt_length)
         attention_mask = batch.batch["attention_mask"]  # left-padded attention_mask
@@ -195,66 +241,279 @@ def generate(self, batch: DataProto, generation_config):
                 image_data.append(image_per_sample)
         else:
             prompt_token_ids = gather_unpadded_input_ids(input_ids=input_ids, attention_mask=attention_mask)
-        sglang_outputs = self.model.generate(
-            input_ids=prompt_token_ids, image_data=image_data, sampling_params=self.sampling_params
+        return_logprob = sampling_params.pop("return_logprob", False)
+        sglang_outputs = await self.model.engine.async_generate(
+            input_ids=prompt_token_ids, image_data=image_data, sampling_params=sampling_params, return_logprob=return_logprob
         )
 
         # (bs * num_return_sequences, max_response_len)
         output_ids = gather_outputs_to_pad_tensor(
             request_outputs=sglang_outputs,
-            pad_token_id=self.tokenizer.pad_token_id,
+            pad_token_id=self.model.tokenizer.pad_token_id,
             device=input_ids.device,
         )
 
         # (bs * num_return_sequences, input_len + max_response_len)
         output = concatenate_input_and_output(
-            input_ids=input_ids, output_ids=output_ids, num_return_sequences=self.sampling_params["n"]
+            input_ids=input_ids, output_ids=output_ids, num_return_sequences=sampling_params["n"]
         )
-
-        # 回归初始采样参数
-        self.sampling_params = old_sampling_params
-
         return output
 
-    # 参数同步相关接口
-    def setup_collective_group(self, model_update_name, comm_plan, backend=None):
-        if backend is None:
-            backend = current_platform.communication_backend
-        self.model.setup_collective_group(comm_plan=comm_plan, backend=backend, rank_in_cluster=self.worker.rank)
-
-    def broadcast_parameter(self, model_update_name, src_pp_rank, dtype, shape, parameter_name, is_lora=False):
-        self.model.broadcast_parameter(src_pp_rank, dtype, shape, parameter_name)
-
-    def broadcast_bucket(self, model_update_name, src_pp_rank, meta_infos, bucket_size):
-        self.model.broadcast_bucket(src_pp_rank, meta_infos, bucket_size)
-
-    def update_parameter(self, model_update_name, parameter_name, weight, ranks_in_worker):
-        self.model.update_parameter(parameter_name, weight, ranks_in_worker)
-
-    def update_parameter_in_bucket(self, model_update_name, meta_infos, buffer, ranks_in_worker):
-        self.model.update_parameter_in_bucket(meta_infos, buffer, ranks_in_worker)
-
-    def load_states(self, *args, **kwargs):
-        self.model.flush_cache()
-        if not self.model.is_model_in_gpu:
-            self.model.resume_memory_occupation()
-            logger.info("self.model.resume_memory_occupation exec ....")
-            self.model.is_model_in_gpu = True
-
-    def offload_states(self, include=None, non_blocking=False):
+    async def setup_collective_group(self, master_address, master_port, rank_offset, world_size, group_name, backend=None):
+        logger.info(f"setup_collective_group {group_name=}")
+        payload = {
+            "master_address": master_address,
+            "master_port": master_port,
+            "group_name": group_name,
+            "rank_offset": rank_offset,
+            "world_size": world_size,
+            "backend": backend if backend is not None else current_platform.communication_backend,
+        }
+        return await self.model.init_weights_update_group(payload)
+
+    async def broadcast_parameter(self, names, dtypes, shapes, group_name, is_lora=False):
+        await self._reload_model()
+        assert not is_lora, "lora training is not supported with sglang"
+        payload = {"names": names, "dtypes": dtypes, "shapes": shapes, "group_name": group_name, "flush_cache": False}
+        return await self.model.update_weights_from_distributed(payload)
+
+    async def update_parameter_in_bucket(self, serialized_named_tensors, is_lora=False):
+        await self._reload_model()
+        assert not is_lora, "lora training is not supported with sglang"
+        # required above sglang 0.5
+        payload = {
+            "load_format": "flattened_bucket",
+            "flush_cache": False,
+            "serialized_named_tensors": serialized_named_tensors,
+        }
+        return await self.model.update_weights_from_tensor(payload)
+
+    async def _reload_model(self):
+        if self.is_model_in_gpu:
+            return
+        self.is_model_in_gpu = True
+        tags = ["weights"]
+        payload = {"tags": tags}
+        await self.model.resume_memory_occupation(payload)
+        logger.info(f"self.model.resume_memory_occupation {tags=} exec ....")
+
+    async def flush_cache(self):
+        await self.model.flush_cache()
+
+    async def load_states(self, *args, **kwargs):
+        await self.flush_cache()
+        tags = []
+        if not self.is_model_in_gpu:
+            tags.append("weights")
+        if not self.is_kv_cache_in_gpu:
+            tags.extend(["kv_cache", "cuda_graph"])
+        if tags:
+            payload = {"tags": tags}
+            await self.model.resume_memory_occupation(payload)
+            logger.info(f"self.model.resume_memory_occupation {tags=} exec ....")
+        self.is_model_in_gpu, self.is_kv_cache_in_gpu = True, True
+
+    async def offload_states(self, include=None, non_blocking=False):
         if include is None or OffloadStateType.model_params in include:
-            if self.worker.pipeline_config.is_train_infer_colocated and self.model.is_model_in_gpu:
-                self.model.release_memory_occupation()
+            if self.worker.pipeline_config.is_actor_infer_colocated and self.is_model_in_gpu:
+                await self.model.release_memory_occupation()
                 logger.info("self.model.release_memory_occupation exec ....")
-                self.model.is_model_in_gpu = False
+                # always release all
+                self.is_model_in_gpu, self.is_kv_cache_in_gpu = False, False
+
         gc.collect()
         current_platform.empty_cache()
 
+class SglangEngine:
+    def __init__(self):
+        self.engine = None
+        self.tokenizer = None
+
+    async def initialize(self, sglang_config):
+        os.environ["SGLANG_BLOCK_NONZERO_RANK_CHILDREN"] = "0"
+        os.environ.pop("PYTORCH_CUDA_ALLOC_CONF", None)
+        os.environ["FLASHINFER_WORKSPACE_BASE"] = os.path.join(
+            pathlib.Path.home().as_posix(), ".cache", os.environ.get("WORKER_NAME", ""))
+        self.engine = sglang_patch.engine.engine_module.Engine(**sglang_config)
+        self.engine.tokenizer_manager.auto_create_handle_loop() # some rpc of tokenizer_manager will not create handle_loop automatically
+
+        self.tokenizer = get_tokenizer(sglang_config["model_path"], trust_remote_code=True)
+
+    async def init_weights_update_group(self, payload):
+        return await self.engine.tokenizer_manager.init_weights_update_group(InitWeightsUpdateGroupReqInput(**payload))
+
+    async def update_weights_from_distributed(self, payload):
+        return await self.engine.tokenizer_manager.update_weights_from_distributed(UpdateWeightsFromDistributedReqInput(**payload))
+
+    async def update_weights_from_tensor(self, payload):
+        return await self.engine.tokenizer_manager.update_weights_from_tensor(UpdateWeightsFromTensorReqInput(**payload))
+
+    async def resume_memory_occupation(self, payload):
+        await self.engine.tokenizer_manager.resume_memory_occupation(ResumeMemoryOccupationReqInput(**payload))
+
+    async def release_memory_occupation(self):
+        await self.engine.tokenizer_manager.release_memory_occupation(ReleaseMemoryOccupationReqInput(), None)
+
+    async def flush_cache(self):
+        await self.engine.tokenizer_manager.flush_cache()
+
+def shutdown():
+    kill_process_tree(os.getpid(), include_parent=False)
+
+class SglangHttpEngine:
+    @staticmethod
+    async def dummy_health_generate(request: Request) -> Response:
+        return Response(status_code=200)
+
+    @staticmethod
+    def remove_route(routes, path):
+        for index, route in enumerate(routes):
+            if isinstance(route, APIRoute) and route.path_format == path:
+                del routes[index]
+                break
+
+    @staticmethod
+    def launch_server(sglang_config):
+        setproctitle.setproctitle("sglang::server")
+        from sglang.srt.server_args import ServerArgs
+        from sglang.srt.entrypoints.http_server import launch_server, app, health_generate
+        server_args = ServerArgs(**sglang_config)
+        SglangHttpEngine.remove_route(app.routes, "/health")
+        SglangHttpEngine.remove_route(app.routes, "/health_generate")
+        app.get("/health")(SglangHttpEngine.dummy_health_generate)
+        app.get("/health_generate")(SglangHttpEngine.dummy_health_generate)
+        app.get("/health_generate_original")(health_generate)
+        launch_server(server_args)
+
+    @staticmethod
+    async def wait_worker_healthy(worker_process, url, client):
+        while True:
+            await asyncio.sleep(10)
+            try:
+                response = await client.get(f"{url}/health_generate_original")
+                if response.status_code == 200:
+                    break
+                elif response.status_code != 503:
+                    response.raise_for_status()
+                else:
+                    logger.info(f"Waiting for sglang worker {url} ready...")
+                assert worker_process.is_alive()
+            except httpx.ConnectError:
+                logger.info(f"Waiting for sglang worker {url} to start...")
+
+    def __init__(self):
+        self.worker_process = None
+        self.url = None
+        self.client = None
+
+    def get_url(self):
+        return self.url
+
+    async def initialize(self, sglang_config):
+        os.environ.pop("PYTORCH_CUDA_ALLOC_CONF", None)
+        os.environ["FLASHINFER_WORKSPACE_BASE"] = os.path.join(
+            pathlib.Path.home().as_posix(), ".cache", os.environ.get("WORKER_NAME", ""))
+        import multiprocessing
+
+        multiprocessing.set_start_method("spawn")
+        atexit.register(shutdown)
+
+        sglang_config["host"] = Worker.get_node_ip()
+        assert sglang_config["port"] > 0
+        self.worker_process = multiprocessing.Process(
+            target=SglangHttpEngine.launch_server,
+            args=(sglang_config,),
+        )
+        self.worker_process.start()
+        self.url = f"http://{sglang_config['host']}:{sglang_config['port']}"
+        logger.info(f"start sglang server url={self.url}")
+
+        self.client = httpx.AsyncClient(timeout=httpx.Timeout(None))
+        await SglangHttpEngine.wait_worker_healthy(worker_process=self.worker_process, url=self.url, client=self.client)
+
+    async def init_weights_update_group(self, payload):
+        response = await self.client.post(f"{self.url}/init_weights_update_group", json=payload)
+        response.raise_for_status()
+        response = response.json()
+        return response["success"], response["message"]
+
+    async def update_weights_from_distributed(self, payload):
+        payload["dtypes"] = [str(dtype).removeprefix("torch.") for dtype in payload["dtypes"]]
+        response = await self.client.post(f"{self.url}/update_weights_from_distributed", json=payload)
+        response.raise_for_status()
+        response = response.json()
+        return response["success"], response["message"]
+
+    async def update_weights_from_tensor(self, payload):
+        response = await self.client.post(f"{self.url}/update_weights_from_tensor", json=payload)
+        response.raise_for_status()
+
+    async def resume_memory_occupation(self, payload):
+        response = await self.client.post(f"{self.url}/resume_memory_occupation", json=payload)
+        response.raise_for_status()
+
+    async def release_memory_occupation(self):
+        response = await self.client.post(f"{self.url}/release_memory_occupation", json={})
+        response.raise_for_status()
+
+    async def flush_cache(self):
+        response = await self.client.post(f"{self.url}/flush_cache", json={})
+        response.raise_for_status()
+
+class SglangGrpcEngine:
+    @staticmethod
+    def launch_server(sglang_config):
+        setproctitle.setproctitle("sglang::server")
+        from sglang.srt.server_args import ServerArgs
+        from sglang.srt.entrypoints.grpc_server import serve_grpc
+        server_args = ServerArgs(**sglang_config)
+        asyncio.run(serve_grpc(server_args))
+
+    @staticmethod
+    async def wait_worker_healthy(worker_process, url, client):
+        from sglang.srt.grpc import sglang_scheduler_pb2
+        request = sglang_scheduler_pb2.HealthCheckRequest()
+        while True:
+            await asyncio.sleep(10)
+            try:
+                response = await client.HealthCheck(request)
+                if response.healthy:
+                    break
+                assert worker_process.is_alive()
+            except Exception as e:
+                logger.info(f"Waiting for sglang worker {url} to start ...")
+
+    async def initialize(self, sglang_config):
+        os.environ.pop("PYTORCH_CUDA_ALLOC_CONF", None)
+        os.environ["FLASHINFER_WORKSPACE_BASE"] = os.path.join(
+            pathlib.Path.home().as_posix(), ".cache", os.environ.get("WORKER_NAME", ""))
+        import multiprocessing
+        from sglang.srt.grpc import sglang_scheduler_pb2_grpc
+
+        multiprocessing.set_start_method("spawn")
+        atexit.register(shutdown)
 
-def gather_unpadded_input_ids(input_ids: torch.Tensor, attention_mask: torch.Tensor):
-    gathered_input_ids = [ids[mask.bool()].tolist() for ids, mask in zip(input_ids, attention_mask)]
-    return gathered_input_ids
+        sglang_config["skip_tokenizer_init"] = False
 
+        sglang_config["host"] = Worker.get_node_ip()
+        assert sglang_config["port"] > 0
+        self.worker_process = multiprocessing.Process(
+            target=SglangHttpEngine.launch_server,
+            args=(sglang_config,),
+        )
+        self.worker_process.start()
+        self.url = f"grpc://{sglang_config['host']}:{sglang_config['port']}"
+        logger.info(f"start sglang server url={self.url}")
+
+        self.channel = grpc.aio.insecure_channel(
+            f"{sglang_config['host']}:{sglang_config['port']}",
+            options=[
+                ("grpc.max_send_message_length", 1024 * 1024 * 256),
+                ("grpc.max_receive_message_length", 1024 * 1024 * 256),
+            ],
+        )
+        self.client = sglang_scheduler_pb2_grpc.SglangSchedulerStub(self.channel)
+        await SglangHttpEngine.wait_worker_healthy(worker_process=self.worker_process, url=self.url, client=self.client)
 
 def gather_outputs_to_pad_tensor(request_outputs, pad_token_id, device=None) -> torch.Tensor:
     if device is None:
@@ -266,18 +525,6 @@ def gather_outputs_to_pad_tensor(request_outputs, pad_token_id, device=None) ->
     return output_tensor
 
 
-def concatenate_input_and_output(input_ids, output_ids, num_return_sequences):
-    batch_size, input_seq_len = input_ids.size()
-    _, output_seq_len = output_ids.size()
-    repeated_input_ids = (
-        input_ids.unsqueeze(1)
-        .repeat(1, num_return_sequences, 1)
-        .view(batch_size * num_return_sequences, input_seq_len)
-    )
-    sequences = torch.cat((repeated_input_ids, output_ids), dim=1)
-    return sequences
-
-
 def create_sampling_params_for_sglang(gen_kwargs: dict):
     return dict(
         max_new_tokens=gen_kwargs["max_new_tokens"],
@@ -287,33 +534,32 @@ def create_sampling_params_for_sglang(gen_kwargs: dict):
         stop_token_ids=gen_kwargs["eos_token_id"],
         repetition_penalty=gen_kwargs["repetition_penalty"],
         n=gen_kwargs["num_return_sequences"],
-        return_logprob=gen_kwargs.get("logprobs", 0) > 0,
         stop=gen_kwargs["stop_strings"],
         no_stop_trim=gen_kwargs.get("include_stop_str_in_output", True),
     )
 
-
-def compare_sampling_params(params1: dict, params2: dict) -> bool:
-    # 只比较采样参数的配置
-    param_attrs = [
-        "temperature",
-        "top_p",
-        "top_k",
-        "max_new_tokens",
-        "n",
-        "stop_token_ids",
-        "presence_penalty",
-        "frequency_penalty",
-        "repetition_penalty",
-        "min_p",
-        "stop",
-        "ignore_eos",
-    ]
-
-    # 比较每个采样参数
-    for attr in param_attrs:
-        if attr in params1 and attr in params2:
-            if params1[attr] != params2[attr]:
-                print(f"采样参数 {attr} 不同: {params1[attr]} != {params2[attr]}")
-                return False
-    return True
+def postprocess_generate(chunks):
+    output_data = {}
+    output_token_ids = [chunk.get("output_ids", []) for chunk in chunks]
+    output_logprobs = [chunk["meta_info"].get("output_token_logprobs", None) for chunk in chunks]
+    has_logprobs = any(logprobs is not None for logprobs in output_logprobs)
+    if has_logprobs:
+        lens = [min(len(ids), len(logprobs)) for ids, logprobs in zip(output_token_ids, output_logprobs)]
+        output_token_ids = [ids[:l] for ids, l in zip(output_token_ids, lens)]
+        output_logprobs = [logprobs[:l] for logprobs, l in zip(output_logprobs, lens)]
+        output_logprobs = [[prob_info[0] for prob_info in logprobs] for logprobs in output_logprobs]
+        output_data["output_logprobs"] = output_logprobs
+        assert all([len(ids) == len(logprobs) for ids, logprobs in zip(output_token_ids, output_logprobs)]), (
+            "output_token_ids and output_logprobs length not match"
+        )
+    output_data["output_token_ids"] = output_token_ids
+    output_data["finish_reasons"] = []
+    for chunk in chunks:
+        finish_reason = chunk["meta_info"]["finish_reason"]
+        if isinstance(finish_reason, dict):
+            finish_reason = finish_reason["type"]
+            output_data["finish_reasons"].append(finish_reason)
+        else:
+            output_data["finish_reasons"].append(finish_reason)
+    assert len(output_data["finish_reasons"]) == len(output_data["output_token_ids"])
+    return output_data
diff --git a/roll/distributed/strategy/strategy.py b/roll/distributed/strategy/strategy.py
index d13f675c9..6171b5faf 100644
--- a/roll/distributed/strategy/strategy.py
+++ b/roll/distributed/strategy/strategy.py
@@ -4,14 +4,18 @@
 
 import torch
 import torch.nn.functional as F
+import torch.distributed as dist
 
 from roll.distributed.scheduler.protocol import DataProto
 from roll.platforms import current_platform
+from roll.distributed.executor.worker import Worker
 from roll.utils.checkpoint_manager import CheckpointManager
 from roll.utils.constants import IGNORE_INDEX
 from roll.utils.collective import collective
 from roll.utils.functionals import log_probs_from_logits, get_dist_info_from_comm_plan, entropy_from_logits
 from roll.utils.logging import get_logger
+from roll.utils.cuda_ipc_utils import MultiprocessingSerializer
+
 
 logger = get_logger()
 
@@ -23,6 +27,7 @@ def __init__(self, worker: "Worker"):
         self.worker = worker
         self.model = None
         self.tokenizer = None
+        self.running = False
 
         self.worker_config = self.worker.worker_config
         self.thread_executor: futures.ThreadPoolExecutor = futures.ThreadPoolExecutor(max_workers=5)
@@ -62,12 +67,6 @@ def get_metrics(self, metric_names: Optional[List[str]] = None) -> Dict[str, flo
         """
         return {}
 
-    def start_server(self, *args, **kwargs):
-        raise NotImplementedError
-
-    def add_request(self, command, data: DataProto, *args, **kwargs):
-        raise NotImplementedError()
-
     def unwrap_model(self, *args, **kwargs):
         raise NotImplementedError
 
@@ -84,16 +83,10 @@ def load_checkpoint(self, *args, **kwargs):
     def broadcast_parameter(self, model_update_name, src_pp_rank, dtype, shape, parameter_name):
         raise NotImplementedError
 
-    def broadcast_bucket(self, model_update_name, src_pp_rank, meta_infos, bucket_size):
+    def update_parameter_in_bucket(self, model_update_name, meta_infos, buffer, bucket_id, ranks_in_worker, is_lora=False):
         raise NotImplementedError
 
-    def update_parameter(self, model_update_name, parameter_name, weight, ranks_in_worker):
-        """
-        engine模式中，p2p update要求engine能够将param 更新至指定的rank
-        """
-        raise NotImplementedError
-
-    def update_parameter_in_bucket(self, model_update_name, meta_infos, buffer, ranks_in_worker):
+    def setup_model_update(self, *args, **kwargs):
         raise NotImplementedError
 
     def _setup_collective_group_impl(
@@ -154,7 +147,7 @@ def setup_collective_group(self, model_update_name, comm_plan, backend=None, mod
         self._setup_collective_group_impl(model_update_name, comm_plan, backend, mode=mode)
 
     # offload/load 相关接口
-    def load_states(self):
+    def load_states(self, *args, **kwargs):
         raise NotImplementedError
 
     def offload_states(self, *args, **kwargs):
@@ -179,17 +172,18 @@ def op_compute_entropy(self, logits: torch.Tensor, attention_mask: torch.Tensor)
         entropy = entropy[:, :-1] * attention_mask[:, 1:]
         return entropy
 
-    def op_compute_language_loss_from_logits(self, logits: torch.Tensor, targets: torch.Tensor):
-        # shift
+    def op_compute_language_loss_from_logits(self, logits: torch.Tensor, targets: torch.Tensor, reduction='mean'):
         logits = logits[..., :-1, :].contiguous()
         targets = targets[..., 1:].contiguous()
+
         loss = F.cross_entropy(
             logits.view(-1, logits.size(-1)),
             targets.view(-1),
-            ignore_index=IGNORE_INDEX
+            ignore_index=IGNORE_INDEX,
+            reduction=reduction
         )
-        mask = (targets != IGNORE_INDEX)
-        valid_tokens = mask.sum()
+
+        valid_tokens = (targets.view(-1) != IGNORE_INDEX).sum()
         return loss, valid_tokens
 
     def op_compute_topk_logits(self, logits: torch.Tensor, topk: int = 0):
@@ -310,11 +304,13 @@ def op_compute_various_divergence(self, loss_callable, logits, teacher_topk_prob
 
     # Both megatron and deepspeed can output language loss directly.
     # This op is mainly for computing context-parallel loss.
-    def op_compute_language_loss(self, losses: torch.Tensor, labels: torch.Tensor):
+    def op_compute_language_loss(self, losses: torch.Tensor, labels: torch.Tensor, batch_num_tokens: int):
         loss_mask = (labels != IGNORE_INDEX).float()
         loss_mask = loss_mask.view(-1).float()
         losses = torch.sum(losses.view(-1) * loss_mask)
-        return losses
+        losses = losses / batch_num_tokens
+        metrics = {f"{self.worker_config.name}/loss@sum": losses.clone().detach().item()}
+        return losses, metrics
 
     def op_compute_gather_by_teacher_indices(
             self,
@@ -352,6 +348,87 @@ def op_compute_gather_by_teacher_indices(
         # Gather along vocab dimension (last dim)
         gathered_logits = torch.gather(student_logits, dim=-1, index=teacher_indices)
         return gathered_logits
+    
+    async def process_weights_after_loading(self,*args, **kwargs):
+        pass
+
+    def _get_batch_num_tokens(self, batch: DataProto, dp_group=None):
+        """
+        Only supports `batch.meta_info["loss_mask_keys"]` as a `list[str]`.
+        """
+        assert "loss_mask_keys" in batch.meta_info, (
+            "Please set loss_mask_keys in meta info. "
+            "When batch_num_tokens is not required, set loss_mask_keys to an empty list []."
+        )
+
+        loss_mask_keys = batch.meta_info["loss_mask_keys"]
+        if not isinstance(loss_mask_keys, list):
+            raise TypeError(f"loss_mask_keys must be a list[str], got {type(loss_mask_keys)}")
+        if not all(isinstance(k, str) for k in loss_mask_keys):
+            raise TypeError("loss_mask_keys must be a list[str]")
+
+        out = {}
+        for key in loss_mask_keys:
+            if key not in batch.batch:
+                continue
+
+            loss_mask = batch.batch[key]
+            if key in ["labels", "labels_for_loss"]:
+                loss_mask = (loss_mask != IGNORE_INDEX)
+            elif key == "response_mask":
+                loss_mask = loss_mask[:, 1:]
+
+            num = loss_mask.sum()
+            dist.all_reduce(num, op=dist.ReduceOp.SUM, group=dp_group)
+
+            if num.item() == 0:
+                num = num.new_tensor(1)
+
+            out[key] = num
+
+        return out
+
+    def _get_global_valid_samples(self, batch: DataProto, dp_group=None):
+        """
+        Only supports `batch.meta_info["loss_mask_keys"]` as a `list[str]`.
+        """
+        assert "loss_mask_keys" in batch.meta_info, (
+            "Please set loss_mask_keys in meta info. "
+            "When global_num_tokens is not required, set loss_mask_keys to an empty list []."
+        )
+
+        loss_mask_keys = batch.meta_info["loss_mask_keys"]
+        if not isinstance(loss_mask_keys, list):
+            raise TypeError(f"loss_mask_keys must be a list[str], got {type(loss_mask_keys)}")
+        if not all(isinstance(k, str) for k in loss_mask_keys):
+            raise TypeError("loss_mask_keys must be a list[str]")
+
+        out = {}
+
+        num_valid = torch.tensor(len(batch), device=batch.batch["input_ids"].device)
+        dist.all_reduce(num_valid, op=dist.ReduceOp.SUM, group=dp_group)
+        out["default"] = num_valid
+
+        for key in loss_mask_keys:
+            if key not in batch.batch:
+                continue
+
+            loss_mask = batch.batch[key]
+            if key in ["labels", "labels_for_loss"]:
+                loss_mask = (loss_mask != IGNORE_INDEX)
+            elif key == "response_mask":
+                loss_mask = loss_mask[:, 1:]
+
+            local_valid = torch.any(loss_mask > 0, dim=-1).to(torch.long)
+            num_valid = local_valid.sum()
+            dist.all_reduce(num_valid, op=dist.ReduceOp.SUM, group=dp_group)
+
+            if num_valid.item() == 0:
+                num_valid = num_valid.new_tensor(1)
+
+            out[key] = num_valid
+
+        return out
 
 
 class TrainStrategy(InferenceStrategy):
@@ -366,6 +443,70 @@ def setup_collective_group(self, model_update_name, comm_plan, backend=None, mod
         self._setup_collective_group_impl(model_update_name, comm_plan, backend, mode=mode)
 
 
+    def setup_p2p_collective_group(self, model_update_name, comm_plan, backend="nccl"):
+        (intra_rank, info), = comm_plan.items()
+        collective.init_collective_group(
+            info["world_size"],
+            intra_rank,
+            backend=backend,
+            group_name=info["group_name"],
+            master_addr=info["master_addr"],
+            master_port=info["master_port"],
+            global_ranks=info["global_ranks"]
+        )
+        # 可选：warm-up
+        collective.allreduce(torch.zeros(1).cuda(), group_name=info["group_name"])
+        # 保存元数据
+        if model_update_name not in self.model_update_comm_plan:
+            self.model_update_comm_plan[model_update_name] = {}
+        self.model_update_comm_plan[model_update_name][info["group_name"]] = {
+            "rank": intra_rank,
+            "world_size": info["world_size"],
+            "group_name": info["group_name"],
+            "comm_plan": comm_plan,
+        }
+
+    def model_update_set_write_done_handle(self,):
+        """
+        Set the write synchronization event required for reading and writing shared memory
+        """
+        if not hasattr(self, "_events_inited"):
+            # Sender -> Receiver：Write complete
+            self._write_done_event = torch.cuda.Event(interprocess=True)
+            self._write_done_handle = self._write_done_event.ipc_handle()
+            # Sender <- Receiver：Read complete
+            self._read_done_event_remote = None
+            self._events_inited = True
+
+    def model_update_set_read_done_handle(self, read_done_handles):
+        """
+        Set the read synchronization event required for reading and writing shared memory
+        """
+        logger.warning(f"[Rank {dist.get_rank()}] model_update_set_read_done_handle called")
+        read_done_handle = None
+
+        for p2p_tgt_device in self.p2p_tgt_devices:
+            worker_rank = p2p_tgt_device['rank']
+            local_rank = p2p_tgt_device['device']['rank']
+            for read_done_handle_full_dict in read_done_handles:
+                if worker_rank in read_done_handle_full_dict:
+                    read_done_handle_list = read_done_handle_full_dict[worker_rank]
+                    for read_done_handle_dict in read_done_handle_list:
+                        if local_rank in read_done_handle_dict:
+                            read_done_handle = read_done_handle_dict[local_rank]
+
+        if not hasattr(self, "_read_done_event_remote"):
+            if read_done_handle is not None:
+                logger.warning(f"[Rank {dist.get_rank()}] Creating _read_done_event_remote from handle")
+                self._read_done_event_remote = torch.cuda.Event.from_ipc_handle(
+                    device=torch.cuda.current_device(),
+                    handle=read_done_handle
+                )
+            else:
+                logger.warning(
+                    f"[Rank {dist.get_rank()}] No read_done_handle found, setting _read_done_event_remote=None")
+                self._read_done_event_remote = None
+
     def train_step(
         self,
         batch: DataProto,
diff --git a/roll/distributed/strategy/vllm_strategy.py b/roll/distributed/strategy/vllm_strategy.py
index 663bdf804..6ee0f9d9d 100644
--- a/roll/distributed/strategy/vllm_strategy.py
+++ b/roll/distributed/strategy/vllm_strategy.py
@@ -2,12 +2,8 @@
 import copy
 import gc
 import os
-import queue
-import threading
-import time
-from collections import defaultdict, deque
-from concurrent import futures
-from typing import Dict, List, Optional, Union
+from collections import deque
+from typing import Dict, List, Optional
 from packaging.version import Version
 
 import torch
@@ -18,13 +14,18 @@
 from vllm import RequestOutput, SamplingParams
 from vllm.lora.request import LoRARequest
 from vllm.sampling_params import RequestOutputKind, BeamSearchParams
+from vllm.inputs.data import TokensPrompt
 from vllm.utils import random_uuid
 
 from roll.distributed.executor.worker import Worker
 from roll.distributed.scheduler.protocol import DataProto, list_of_dict_to_dict_of_list
 from roll.distributed.strategy.strategy import InferenceStrategy
-from roll.third_party.vllm import LLM, AsyncLLM
-from roll.utils.functionals import GenerateRequestType, concatenate_input_and_output, reduce_metrics
+from roll.third_party.vllm import create_async_llm
+from roll.utils.functionals import (
+    concatenate_input_and_output,
+    reduce_metrics,
+    gather_unpadded_input_ids,
+)
 from roll.utils.logging import get_logger
 from roll.utils.offload_states import OffloadStateType
 from roll.platforms import current_platform
@@ -38,26 +39,33 @@ class VllmStrategy(InferenceStrategy):
 
     def __init__(self, worker: Worker):
         super().__init__(worker)
-        self.model: Union[LLM, AsyncLLM]
-        self.executor: futures.ThreadPoolExecutor = futures.ThreadPoolExecutor(max_workers=1)
-        self.pending_size = 1
-        self.command_queue: Optional[queue.Queue] = None
-
-        self.request_metas = {}
-        self.running = False
-        
+
         # Metrics snapshot infrastructure
         self._metrics_snapshots = deque(maxlen=3600)
         self._metrics_snapshot_interval = 1.0  # Snapshot every 1 second
-        self._metrics_thread = None
+        self._metrics_task = None
 
-    def initialize(self, model_provider):
+    async def initialize(self, model_provider):
         set_seed(seed=self.worker.pipeline_config.seed)
         vllm_config = copy.deepcopy(self.worker_config.strategy_args.strategy_config)
-        engine_mode = vllm_config.pop("engine_mode", "sync")  # sync/async
-        self.pending_size = vllm_config.pop("pending_size", 1)
+        # Must explicitly set VLLM_USE_V1 to pass this check: https://github.com/vllm-project/vllm/pull/14972
+        os.environ["VLLM_USE_V1"] = str(vllm_config.pop("VLLM_USE_V1", 1))
         self.sleep_level = vllm_config.pop("sleep_level", 1)
-        self.command_queue = queue.Queue()
+
+        data_parallel_size = vllm_config.get("data_parallel_size", 1)
+        if data_parallel_size > 1:
+            logger.info(
+                f"VllmStrategy {self.worker.cluster_name} enable data parallel {data_parallel_size=} data_parallel_rank={self.worker.rank}"
+                f" data_parallel_address={os.environ['MASTER_ADDR']} data_parallel_rpc_port={os.environ['MASTER_PORT']}"
+            )
+            assert data_parallel_size == self.worker.world_size, f"{data_parallel_size=} != {self.worker.world_size=}"
+            vllm_config.update(
+                {
+                    "data_parallel_rank": self.worker.rank, # set data_parallel_rank to use external load balancing
+                    "data_parallel_address": os.environ["MASTER_ADDR"],
+                    "data_parallel_rpc_port": os.environ["MASTER_PORT"],
+                }
+            )
 
         if self.worker_config.model_args.dtype == "fp32":
             dtype = "float32"
@@ -79,6 +87,7 @@ def initialize(self, model_provider):
                 ),  # potentially hangs in tp>1
                 "enable_prefix_caching": vllm_config.get("enable_prefix_caching", True),
                 "load_format": vllm_config.get("load_format", "dummy"),  # use model update passed value
+                "max_num_batched_tokens": vllm_config.get("max_num_batched_tokens", 8192), # use default value of LLM class usage context
             }
         )
 
@@ -95,40 +104,32 @@ def initialize(self, model_provider):
         logger.info(f"vllm_config: {vllm_config}")
         assert not dist.is_initialized()
 
-        # set VLLM_PORT to avoid port conflict applied by vllm
-        vllm_port = self.worker.get_free_port()
-        os.environ["VLLM_PORT"] = str(vllm_port)
+        # Can not set VLLM_PORT explicitly in DP. Each call of get_engine_client_zmq_addr in
+        # DPCoordinator will return the same port, which will cause port conflict.
+        # https://github.com/vllm-project/vllm/blob/releases/v0.10.0/vllm/v1/engine/coordinator.py#L72
+        if not data_parallel_size > 1:
+            # set VLLM_PORT to avoid port conflict applied by vllm
+            vllm_port = self.worker.get_free_port()
+            os.environ["VLLM_PORT"] = str(vllm_port)
+
+        self.model = await create_async_llm(resource_placement_groups=self.worker_config.resource_placement_groups, **vllm_config)
+
 
-        if engine_mode == "sync":
-            self.model = LLM(resource_placement_groups=self.worker_config.resource_placement_groups, **vllm_config)
+        if Version("0.15.0") <= Version(vllm.__version__):
             self.tokenizer = self.model.get_tokenizer()
         else:
-            self.model = AsyncLLM(
-                resource_placement_groups=self.worker_config.resource_placement_groups, **vllm_config
-            )
-            loop = asyncio.get_event_loop()
-            self.tokenizer = loop.run_until_complete(self.model.get_tokenizer())
-        additional_special_tokens = self.tokenizer.additional_special_tokens
-        special_tokens = [
-            add_token
-            for add_token in self.tokenizer.added_tokens_decoder.values()
-            if add_token.special and add_token.content not in additional_special_tokens
-        ]
-        self.tokenizer.add_special_tokens(
-            {"additional_special_tokens": special_tokens}, replace_additional_special_tokens=False
-        )
-        logger.info(f"add {special_tokens} to additional_special_tokens: {self.tokenizer.additional_special_tokens}")
+            self.tokenizer = await self.model.get_tokenizer()
 
-        self.worker.rank_info.dp_rank = self.worker.rank
-        self.worker.rank_info.dp_size = self.worker.world_size
+        assert self.worker.rank_info.dp_rank == self.worker.rank
+        assert self.worker.rank_info.dp_size == self.worker.world_size
 
         self.is_model_in_gpu = True
 
-        self._metrics_thread = threading.Thread(
-            target=self._collect_metrics_snapshot,
-            name="metrics-collection"
-        )
-        self._metrics_thread.start()
+        try:
+            from vllm.v1.metrics.reader import get_metrics_snapshot
+            self._metrics_task = asyncio.create_task(self._collect_metrics_snapshot())
+        except Exception as e:
+            logger.warning(f"Failed to create metrics collector task: {e}")
 
     def op_compute_log_probs(self, logits: torch.Tensor, input_ids: torch.Tensor, attention_mask: torch.Tensor):
         """
@@ -136,57 +137,52 @@ def op_compute_log_probs(self, logits: torch.Tensor, input_ids: torch.Tensor, at
         """
         pass
 
-    def generate(self, batch: DataProto, generation_config) -> torch.Tensor:
+    async def generate(self, batch: DataProto, generation_config) -> torch.Tensor:
         # Check if beam search is requested
         if self._should_use_beam_search(generation_config):
-            return self._generate_with_beam_search(batch, generation_config)
+            return await self._generate_with_beam_search(batch, generation_config)
         else:
-            return self._generate_standard(batch, generation_config)
+            return await self._generate_standard(batch, generation_config)
 
     def _should_use_beam_search(self, generation_config) -> bool:
         """Check if beam search should be used based on generation_config."""
         return generation_config.get("num_beams", 1) > 1 or generation_config.get("use_beam_search", False)
 
-    def _generate_standard(self, batch: DataProto, generation_config) -> torch.Tensor:
+    async def _generate_standard(self, batch: DataProto, generation_config: Dict) -> torch.Tensor:
         """Standard generate method for non-beam search cases."""
-        sampling_params = create_sampling_params_for_vllm(gen_kwargs=generation_config)
+        sampling_params = SamplingParams(**create_sampling_params_for_vllm(gen_kwargs=generation_config))
 
         input_ids = batch.batch["input_ids"]  # (bs, prompt_length)
         attention_mask = batch.batch["attention_mask"]  # left-padded attention_mask
 
-        vllm_input_args = {}
         if "multi_modal_data" in batch.non_tensor_batch:
-            vllm_input_args["prompts"] = batch.non_tensor_batch["multi_modal_data"]
+            prompts = [TokensPrompt(data) for data in batch.non_tensor_batch["multi_modal_data"]]
         else:
-            if Version(vllm.__version__) >= Version("0.11.0"):
-                from vllm.inputs import TokensPrompt
-                prompt_token_ids_list=gather_unpadded_input_ids(
-                    input_ids=input_ids, attention_mask=attention_mask
-                )
-                vllm_input_args["prompts"] = [TokensPrompt(prompt_token_ids=prompt_token_ids)for prompt_token_ids in prompt_token_ids_list]
-            else:
-                vllm_input_args["prompt_token_ids"] = gather_unpadded_input_ids(
-                    input_ids=input_ids, attention_mask=attention_mask
-                )
+            prompts = [TokensPrompt(prompt_token_ids=prompt)
+                for prompt in gather_unpadded_input_ids(input_ids=input_ids, attention_mask=attention_mask)
+            ]
 
-        lora_requests = None
+        lora_request = None
         if self.is_lora:
-            batch_size = len(input_ids)
-            lora_int_ids = list(self.model.llm_engine.list_loras())
+            lora_int_ids = list(await self.model.list_loras())
             if len(lora_int_ids) > 0:
                 lora_int_id = lora_int_ids[0]
-                lora_requests = [
-                    LoRARequest(
-                        lora_name=f"{lora_int_id}", lora_int_id=lora_int_id, lora_path="dummy_lora_path"
-                    )
-                ] * batch_size
-
-        vllm_outputs = self.model.generate(
-            sampling_params=sampling_params,
-            use_tqdm=False,
-            lora_request=lora_requests,
-            **vllm_input_args,
-        )
+                lora_request = LoRARequest(lora_name=f"{lora_int_id}", lora_int_id=lora_int_id, lora_path="dummy_lora_path")
+
+        async def _generate(prompt):
+            request_id = random_uuid()
+            result_generator = self.model.generate(
+                prompt=prompt,
+                sampling_params=sampling_params,
+                request_id=request_id,
+                lora_request=lora_request,
+            )
+            output: Optional[RequestOutput] = None
+            async for result in result_generator:
+                output = result
+            return output
+
+        vllm_outputs = await asyncio.gather(*[_generate(prompt) for prompt in prompts])
 
         # (bs * num_return_sequences, max_response_len)
         output_ids = gather_outputs_to_pad_tensor(
@@ -202,7 +198,7 @@ def _generate_standard(self, batch: DataProto, generation_config) -> torch.Tenso
 
         return output
 
-    def _generate_with_beam_search(self, batch: DataProto, generation_config) -> torch.Tensor:
+    async def _generate_with_beam_search(self, batch: DataProto, generation_config: Dict) -> torch.Tensor:
         """Generate using beam search method."""
         # Create beam search parameters
         beam_params = BeamSearchParams(
@@ -231,20 +227,24 @@ def _generate_with_beam_search(self, batch: DataProto, generation_config) -> tor
             prompts = [{"prompt_token_ids": token_ids} for token_ids in token_lists]
 
         # Call beam_search method
-        beam_search_outputs = self.model.beam_search(
-            prompts=prompts,
-            params=beam_params,
-        )
+        async def _beam_search(prompt):
+            request_id = random_uuid()
+            result_generator = self.model.beam_search(
+                prompt=prompt,
+                request_id=request_id,
+                params=beam_params,
+            )
+            output: Optional[RequestOutput] = None
+            async for result in result_generator:
+                output = result
+            return output
+
+        beam_search_outputs = await asyncio.gather(*[_beam_search(prompt) for prompt in prompts])
 
         generated_token_ids = []
-        token_ids = [prompt['prompt_token_ids'] for prompt in prompts]
-        for batch_idx, output in enumerate(beam_search_outputs):
-            # Each output contains beam_width sequences
-            for beam_idx, sequence in enumerate(output.sequences):
-                # Get prompt length for this input
-                prompt_length = len(token_ids[batch_idx])
-                # Extract only the generated tokens (exclude prompt)
-                generated_tokens = sequence.tokens[prompt_length:]
+        for request_output in beam_search_outputs:
+            for completion_output in request_output.outputs:
+                generated_tokens = completion_output.token_ids
                 generated_token_ids.append(torch.tensor(generated_tokens, device=input_ids.device))
 
         # Pad the sequences
@@ -259,217 +259,118 @@ def _generate_with_beam_search(self, batch: DataProto, generation_config) -> tor
 
         return output
 
-    def process_vllm_output(self, vllm_outputs: List[RequestOutput], request_complete_callback, collect_unfinished=False):
-        # 转成response id, request_complete_callback
-        report_request_ids = []
-        for request_output in vllm_outputs:
-            if not (request_output.finished or collect_unfinished):
-                continue
-            request_id = request_output.request_id
-            meta_info = self.request_metas.pop(request_id, None)
-            if meta_info is None:
-                continue
-            output_token_ids, finish_reasons, logprobs = [], [], []
-            for completion_output in request_output.outputs:
-                output_token_ids.append(completion_output.token_ids)
-                finish_reasons.append(completion_output.finish_reason)
-                if completion_output.logprobs is not None:
-                    logprobs.append(
-                        [
-                            float(lps[token_id].logprob)
-                            for token_id, lps in zip(completion_output.token_ids, completion_output.logprobs)
-                        ]
-                    )
-            output_data = DataProto(meta_info=meta_info)
-            output_data.meta_info["output_token_ids"] = output_token_ids
-            output_data.meta_info["finish_reasons"] = finish_reasons
-            output_data.meta_info["output_logprobs"] = logprobs
-            request_complete_callback(data=output_data)
-            report_request_ids.append(request_id)
-        return report_request_ids
-
-    def start_server(self, data: DataProto, request_complete_callback):
-        self.command_queue = queue.Queue()
-        self.running = True
-        collect_unfinished = data.meta_info.get("collect_unfinished", False)
-
-        while True:
-            while not self.command_queue.empty():
-                command, batch = self.command_queue.get_nowait()
-                if command == GenerateRequestType.ADD:
-                    input_ids = batch.batch["input_ids"]
-                    attention_mask = batch.batch["attention_mask"]
-                    request_id = batch.meta_info["request_id"]
-                    self.request_metas[request_id] = batch.meta_info
-                    generation_config = batch.meta_info.get("generation_config")
-                    max_new_tokens = batch.meta_info.get("max_new_tokens", generation_config["max_new_tokens"])
-                    max_new_tokens = min(max_new_tokens, generation_config["max_new_tokens"])
-                    output_kind = RequestOutputKind.CUMULATIVE if collect_unfinished else RequestOutputKind.FINAL_ONLY
-                    sampling_params = create_sampling_params_for_vllm(
-                        gen_kwargs={**generation_config, "max_new_tokens": max_new_tokens, "output_kind": output_kind}
-                    )
-                    if "multi_modal_data" in batch.non_tensor_batch:
-                        prompt_token_ids = [
-                            batch.non_tensor_batch["multi_modal_data"][0]
-                            ["prompt_token_ids"]
-                        ]
-                        multi_modal_data = (
-                            [batch.non_tensor_batch["multi_modal_data"][0]["multi_modal_data"]]
-                            if "multi_modal_data" in batch.non_tensor_batch["multi_modal_data"][0]
-                            else None
-                        )
-                    else:
-                        prompt_token_ids = gather_unpadded_input_ids(
-                            input_ids=input_ids, attention_mask=attention_mask
-                        )
-                        multi_modal_data = None
-                    lora_requests = None
-                    if self.is_lora:
-                        batch_size = len(prompt_token_ids)
-                        lora_int_ids = list(self.model.llm_engine.list_loras())
-                        if len(lora_int_ids) > 0:
-                            lora_int_id = lora_int_ids[0]
-                            lora_requests = [
-                                LoRARequest(
-                                    lora_name=f"{lora_int_id}", lora_int_id=lora_int_id, lora_path="dummy_lora_path"
-                                )
-                            ] * batch_size
-                    self.model.add_requests(
-                        request_ids=[request_id],
-                        prompt_token_ids=prompt_token_ids,
-                        sampling_params=sampling_params,
-                        multi_modal_data=multi_modal_data,
-                        lora_requests=lora_requests,
-                    )
-                elif command == GenerateRequestType.ABORT:
-                    request_id = batch.meta_info["request_id"]
-                    self.model.abort_request(request_id=request_id)
-                elif command == GenerateRequestType.STOP:
-                    stop_time = time.time()
-                    wait_seconds = 120
-                    while collect_unfinished and len(self.request_metas) > 0:  # for partial rollout
-                        vllm_outputs: List[RequestOutput] = self.model.fetch_output()
-                        processed_request_ids = self.process_vllm_output(
-                            vllm_outputs=vllm_outputs,
-                            request_complete_callback=request_complete_callback,
-                            collect_unfinished=collect_unfinished,
-                        )
-                        if time.time() - stop_time > wait_seconds:
-                            logger.warning(f"Timeout after {wait_seconds}s waiting for running requests to complete. "
-                                           f"Remaining running requests: {len(self.request_metas)}")
-                            break
-                        self.model.abort_request(request_id=processed_request_ids)
-                    self.model.abort_request(request_id=list(self.request_metas.keys()))
-                    self.request_metas.clear()
-                    while not self.command_queue.empty():
-                        self.command_queue.get_nowait()
-                    # Run llm_engine again to consume all out standing requests and
-                    # stop model execute loop, otherwise collective_rpc will stuck by
-                    # model execute loop or there will be garbage output at next step.
-                    self.model.clear_unfinished_requests()
-                    self.running = False
-                    return
-
-            vllm_outputs: List[RequestOutput] = self.model.fetch_output()
-            self.process_vllm_output(vllm_outputs=vllm_outputs, request_complete_callback=request_complete_callback)
-
-    def add_request(self, command, data: DataProto):
-        self.command_queue.put((command, data))
-
-    async def async_generate(self, batch: DataProto, generation_config: Dict) -> torch.Tensor:
-        # TODO: refactor async_generate interface. not supported now!
-        raise NotImplementedError()
-        from vllm.inputs.data import TokensPrompt
-
-        sampling_params = create_sampling_params_for_vllm(gen_kwargs=generation_config)
-
-        input_ids = batch.batch["input_ids"]  # (bs, prompt_length)
-        attention_mask = batch.batch["attention_mask"]  # left-padded attention_mask
-        assert input_ids.size(0) == 1, f"async_generate: batch['input_ids'] must have exactly one batch dimension"
+    async def generate_request(self, payload: Dict):
+        if "multi_modal_data" in payload:
+            multi_modal_data = payload["multi_modal_data"]
+            prompt_token_ids = multi_modal_data["prompt_token_ids"]
+            multi_modal_data = (multi_modal_data["multi_modal_data"]
+                                if "multi_modal_data" in multi_modal_data else None)
+            prompt = TokensPrompt(prompt_token_ids=prompt_token_ids, multi_modal_data=multi_modal_data)
+        else:
+            prompt = TokensPrompt(prompt_token_ids=payload["input_ids"])
 
-        prompt_token_ids = gather_unpadded_input_ids(input_ids=input_ids, attention_mask=attention_mask)
+        lora_request = None
+        if self.is_lora:
+            lora_int_ids = list(await self.model.list_loras())
+            if len(lora_int_ids) > 0:
+                lora_int_id = lora_int_ids[0]
+                lora_request = LoRARequest(lora_name=f"{lora_int_id}", lora_int_id=lora_int_id, lora_path="dummy_lora_path")
 
-        # TODO meaningful request id?
-        #   async_generate如何实现abort_request
-        request_id = random_uuid()
         result_generator = self.model.generate(
-            prompt=TokensPrompt(prompt_token_ids=prompt_token_ids[0]),
-            sampling_params=sampling_params,
-            request_id=request_id,
+            prompt=prompt,
+            sampling_params=SamplingParams(**payload["sampling_params"]),
+            request_id=payload["rid"],
+            lora_request=lora_request,
         )
-        vllm_output: Optional[RequestOutput] = None
-        async for request_output in result_generator:
-            vllm_output = request_output
-        assert vllm_output is not None
+        output: Optional[RequestOutput] = None
+        # vLLM support partial rollout in v1 from 0.10.1, and will return finished output
+        # with finish_reason setted no matter what RequestOutputKind is.
+        # For compatibility, the following except block are only for v0 and older version of v1.
+        try:
+            async for result in result_generator:
+                output = result
+        except asyncio.CancelledError:
+            if output is None:
+                return {"finish_reasons": ["abort"]}
+
+        output_token_ids, finish_reasons, logprobs = [], [], []
+        for completion_output in output.outputs:
+            output_token_ids.append(completion_output.token_ids)
+            # For compatibility, older version may return unfinished result, set finish_reason of those to 'abort'.
+            finish_reason = "abort" if completion_output.finish_reason is None else completion_output.finish_reason
+            finish_reasons.append(finish_reason)
+            if completion_output.logprobs is not None:
+                logprobs.append(
+                    [
+                        float(lps[token_id].logprob)
+                        for token_id, lps in zip(completion_output.token_ids, completion_output.logprobs)
+                    ]
+                )
+        return {
+            "output_token_ids": output_token_ids,
+            "finish_reasons": finish_reasons,
+            "output_logprobs": logprobs,
+        }
 
-        # (bs * num_return_sequences, max_response_len)
-        output_ids = gather_outputs_to_pad_tensor(
-            request_outputs=[vllm_output], pad_token_id=self.tokenizer.pad_token_id, device=input_ids.device
-        )
-        # (bs * num_return_sequences, input_len + max_response_len)
-        output = concatenate_input_and_output(
-            input_ids=input_ids, output_ids=output_ids, num_return_sequences=sampling_params.n
-        )
-        return output
+    async def abort_requests(self, request_ids):
+        for id in request_ids:
+            await self.model.abort(request_id=id)
 
     # offload/reload 接口
-    def load_states(self, *args, **kwargs):
-        self.model.reset_prefix_cache()
+    async def load_states(self, *args, **kwargs):
+        await self.model.reset_prefix_cache()
         if not self.is_model_in_gpu:
-            self.model.load_states()
+            await self.model.load_states()
             self.is_model_in_gpu = True
 
-    def offload_states(self, include=None, non_blocking=False):
+    async def offload_states(self, include=None, non_blocking=False):
+        await self.model.reset_prefix_cache()
         if include is None or OffloadStateType.model_params in include:
-            if self.is_model_in_gpu and self.worker.pipeline_config.is_train_infer_colocated:
-                self.model.offload_states(self.sleep_level)
+            if self.is_model_in_gpu and self.worker.pipeline_config.is_actor_infer_colocated:
+                await self.model.offload_states(self.sleep_level)
                 self.is_model_in_gpu = False
         gc.collect()
         current_platform.empty_cache()
+    
+    async def process_weights_after_loading(self,*args, **kwargs):
+        await self.model.process_weights_after_loading()
 
     # 参数同步相关接口
-    def setup_collective_group(self, model_update_name, comm_plan, backend=None):
-        if backend is None:
-            backend = current_platform.communication_backend
-        self.model.setup_collective_group(comm_plan=comm_plan, backend=backend, rank_in_cluster=self.worker.rank)
-
-    def broadcast_parameter(self, model_update_name, src_pp_rank, dtype, shape, parameter_name, is_lora=False):
-        self.model.broadcast_parameter(src_pp_rank, dtype, shape, parameter_name, is_lora)
+    async def setup_collective_group(self, master_address, master_port, rank_offset, world_size, group_name, backend=None):
+        logger.info(f"setup_collective_group {group_name=}")
+        backend = backend if backend is not None else current_platform.communication_backend
+        await self.model.setup_collective_group(master_address, master_port, rank_offset, world_size, group_name, backend)
 
-    def broadcast_bucket(self, model_update_name, src_pp_rank, meta_infos, bucket_size):
-        self.model.broadcast_bucket(src_pp_rank, meta_infos, bucket_size)
+    async def broadcast_parameter(self, names, dtypes, shapes, group_name, is_lora=False):
+        await self.model.broadcast_parameter(names, dtypes, shapes, group_name, is_lora)
 
-    def update_parameter(self, model_update_name, parameter_name, weight, ranks_in_worker, is_lora=False):
-        self.model.update_parameter(parameter_name, weight, ranks_in_worker, is_lora)
+    async def update_parameter_in_bucket(self, serialized_named_tensors, is_lora=False):
+        await self.model.update_parameter_in_bucket(serialized_named_tensors, is_lora)
 
-    def update_parameter_in_bucket(self, model_update_name, meta_infos, buffer, ranks_in_worker):
-        self.model.update_parameter_in_bucket(meta_infos, buffer, ranks_in_worker)
+    async def add_lora(self, peft_config):
+        peft_config["target_modules"] = set(self.worker_config.model_args.lora_target)
+        await self.model.add_lora(peft_config)
 
-    def add_lora(self, peft_config):
-        self.model.add_lora(peft_config)
-
-    def _collect_metrics_snapshot(self):
+    async def _collect_metrics_snapshot(self):
         """Collect metrics snapshots periodically in a background thread."""
-        try:
-            while True:
-                raw_metrics = self.model.get_metrics()
-                snapshot = {
-                    'vllm/kv_cache_usage_perc_max': [],
-                    'vllm/num_requests_waiting_max': [],
-                    'vllm/num_preemptions_max': []
-                }
-                for metric in raw_metrics:
-                    if metric.name == "vllm:kv_cache_usage_perc":
-                        snapshot['vllm/kv_cache_usage_perc_max'].append(metric.value)
-                    elif metric.name == "vllm:num_requests_waiting":
-                        snapshot['vllm/num_requests_waiting_max'].append(metric.value)
-                    elif metric.name == "vllm:num_preemptions":
-                        snapshot['vllm/num_preemptions_max'].append(metric.value)
-                self._metrics_snapshots.append(snapshot)
-
-                time.sleep(self._metrics_snapshot_interval)
-        except Exception as e:
-            logger.warning(f"Failed to get metrics: {e}")
+        from vllm.v1.metrics.reader import get_metrics_snapshot
+        while True:
+            raw_metrics = get_metrics_snapshot()
+            snapshot = {
+                'vllm/kv_cache_usage_perc_max': [],
+                'vllm/num_requests_waiting_max': [],
+                'vllm/num_preemptions_max': []
+            }
+            for metric in raw_metrics:
+                if metric.name == "vllm:kv_cache_usage_perc":
+                    snapshot['vllm/kv_cache_usage_perc_max'].append(metric.value)
+                elif metric.name == "vllm:num_requests_waiting":
+                    snapshot['vllm/num_requests_waiting_max'].append(metric.value)
+                elif metric.name == "vllm:num_preemptions":
+                    snapshot['vllm/num_preemptions_max'].append(metric.value)
+            self._metrics_snapshots.append(snapshot)
+
+            await asyncio.sleep(self._metrics_snapshot_interval)
 
     def get_metrics(self, metric_names: Optional[List[str]] = None) -> Dict[str, float]:
         """
@@ -487,10 +388,6 @@ def get_metrics(self, metric_names: Optional[List[str]] = None) -> Dict[str, flo
         self._metrics_snapshots.clear()
         return reduce_metrics(metrics_snapshots)
 
-def gather_unpadded_input_ids(input_ids: torch.Tensor, attention_mask: torch.Tensor):
-    gathered_input_ids = [ids[mask.bool()].tolist() for ids, mask in zip(input_ids, attention_mask)]
-    return gathered_input_ids
-
 
 def gather_outputs_to_pad_tensor(request_outputs: List["RequestOutput"], pad_token_id, device=None) -> torch.Tensor:
     if device is None:
@@ -504,13 +401,10 @@ def gather_outputs_to_pad_tensor(request_outputs: List["RequestOutput"], pad_tok
     return output_tensor
 
 
-def create_sampling_params_for_vllm(gen_kwargs):
-    output_kind = gen_kwargs.get("output_kind", RequestOutputKind.FINAL_ONLY)
-    if output_kind != RequestOutputKind.FINAL_ONLY:
-        assert gen_kwargs["num_return_sequences"] == 1, (
-            "fetch_output only supports num_return_sequences=1 or output_kind=FINAL"
-        )
-    return SamplingParams(
+def create_sampling_params_for_vllm(gen_kwargs, collect_unfinished=False):
+    # TODO vLLM support partial rollout in v1 from 0.10.1, and do not need to set RequestOutputKind to CUMULATIVE
+    output_kind = RequestOutputKind.CUMULATIVE if collect_unfinished else RequestOutputKind.FINAL_ONLY
+    return dict(
         max_tokens=gen_kwargs["max_new_tokens"],
         temperature=gen_kwargs["temperature"],
         top_p=gen_kwargs["top_p"],
diff --git a/roll/models/model_providers.py b/roll/models/model_providers.py
index 939badc92..b5c432026 100644
--- a/roll/models/model_providers.py
+++ b/roll/models/model_providers.py
@@ -1,14 +1,17 @@
+import inspect
 import os
-from typing import List, Optional
+import threading
+from typing import Any, List, Optional
 
 import torch
+import torch.nn as nn
+from packaging.version import Version
 from peft import LoraConfig, TaskType, get_peft_model
 from transformers import (
     AutoConfig,
     AutoModelForCausalLM,
     AutoModelForSequenceClassification,
     AutoModelForTokenClassification,
-    AutoModelForVision2Seq,
     AutoProcessor,
     AutoTokenizer,
     PreTrainedTokenizer,
@@ -18,22 +21,50 @@
 from transformers.integrations import is_deepspeed_zero3_enabled
 from transformers.modeling_utils import is_fsdp_enabled
 
+from roll.configs import ModelArguments
+from roll.platforms import current_platform
+from roll.utils.checkpoint_manager import download_model, file_lock_context
+from roll.utils.logging import get_logger
+from roll.utils.packages import is_transformers_version_greater_than
 
 try:
     from mcore_adapter import TrainingArguments as mca_TrainingArguments
+    from mcore_adapter.adapters import (
+        apply_megatron_lora,
+        find_all_embedding_modules,
+        find_all_linear_modules,
+        find_all_router_modules,
+        set_linear_is_expert,
+    )
     from mcore_adapter.models import AutoModel
 except Exception as e:
     mca_TrainingArguments = None
 
-from roll.configs import ModelArguments
-from roll.utils.checkpoint_manager import download_model, file_lock_context
-from roll.utils.logging import get_logger
-from roll.utils.packages import is_transformers_version_greater_than
-from roll.platforms import current_platform
-
 
 logger = get_logger()
 
+# Thread-local storage for FSDP2 initialization context
+_fsdp2_init_context = threading.local()
+
+
+def set_fsdp2_init_context(context):
+    _fsdp2_init_context.context = context
+
+
+def clear_fsdp2_init_context():
+    if hasattr(_fsdp2_init_context, "context"):
+        delattr(_fsdp2_init_context, "context")
+
+
+def is_fsdp2_enabled():
+    if hasattr(_fsdp2_init_context, "context"):
+        return True
+    return False
+
+
+def is_fsdp_or_fsdp2_enabled():
+    return is_fsdp_enabled() or is_fsdp2_enabled()
+
 
 def prepare_automap_files(model_path: str):
     python_files = []
@@ -49,7 +80,7 @@ def prepare_automap_files(model_path: str):
                 pass
 
 
-def default_tokenizer_provider(model_args: "ModelArguments", model_name_or_path: str=None):
+def default_tokenizer_provider(model_args: "ModelArguments", model_name_or_path: str = None):
     if model_args.model_type == "diffusion_module":
         return None
     if model_name_or_path is None:
@@ -66,7 +97,7 @@ def default_tokenizer_provider(model_args: "ModelArguments", model_name_or_path:
     return tokenizer
 
 
-def default_processor_provider(model_args: "ModelArguments", model_name_or_path: str=None):
+def default_processor_provider(model_args: "ModelArguments", model_name_or_path: str = None):
     if model_args.model_type == "diffusion_module":
         return None
     if model_name_or_path is None:
@@ -119,22 +150,38 @@ def freeze_model(model, model_args: "ModelArguments"):
 
 
 # Inspired by: https://github.com/hiyouga/LLaMA-Factory/blob/main/src/llamafactory/model/adapter.py
-def setup_lora_training(config, model, model_args: "ModelArguments", is_trainable: Optional[bool] = False):
+def setup_lora_training(
+    config, model, model_args: "ModelArguments", is_trainable: Optional[bool] = False, is_mca: Optional[bool] = False
+):
     model.enable_input_require_grads()
-
     if is_trainable:
-        target_modules = model_args.lora_target
 
+        def get_target_modules(model: "torch.nn.Module", model_args: "ModelArguments"):
+            target_modules = model_args.lora_target
+            if "all-linear" in model_args.lora_target:
+                target_modules.remove("all-linear")
+                target_modules += find_all_linear_modules(model)
+            if "all-embedding" in model_args.lora_target:
+                target_modules.remove("all-embedding")
+                target_modules += find_all_embedding_modules(model)
+            if "all-router" in model_args.lora_target:
+                target_modules.remove("all-router")
+                target_modules += find_all_router_modules(model)
+            return target_modules
+
+        target_modules = get_target_modules(model, model_args)
         lora_config = {
-            "task_type": TaskType.CAUSAL_LM,
             "r": model_args.lora_rank,
             "target_modules": target_modules,
             "lora_alpha": model_args.lora_alpha,
             "lora_dropout": model_args.lora_dropout,
             "modules_to_save": model_args.additional_target,
         }
-
-        model = get_peft_model(model, LoraConfig(**lora_config))
+        if not is_mca:
+            lora_config.update({"task_type": TaskType.CAUSAL_LM})
+        model = get_peft_model(
+            model, LoraConfig(**lora_config), autocast_adapter_dtype=model_args.autocast_adapter_dtype
+        )
     return model
 
 
@@ -148,10 +195,28 @@ def load_model(
     """
     model_name_or_path = download_model(model_args.model_name_or_path)
     prepare_automap_files(model_args.model_name_or_path)
-    init_kwargs = {"trust_remote_code": True, **model_args.model_config_kwargs}
+    init_kwargs = {
+        "trust_remote_code": True,
+        **model_args.model_config_kwargs,
+    }
     config = AutoConfig.from_pretrained(model_name_or_path, **init_kwargs)
     if model_args.attn_implementation is not None and model_args.attn_implementation != "auto":
         setattr(config, "_attn_implementation", model_args.attn_implementation)
+
+    # ---------------------------------------------------------------------
+    # PumpkinComment:
+    # Ref: https://github.com/volcengine/verl/blob/main/verl/workers/fsdp_workers.py
+    # Many VLMs have a separate vision attention stack. When Ulysses/CP is enabled, we patch
+    # HF flash-attention paths for text attention. However, vision attention often:
+    # - does not carry the same kwargs (e.g. missing position_ids), or
+    # - calls into different flash-attn wrappers,
+    # which can cause mismatched collectives / deadlocks across ranks.
+    ulysses_size = int(model_args.ulysses_size or 1)
+    if getattr(config, "vision_config", None) is not None:
+        vc = config.vision_config
+        setattr(vc, "_attn_implementation", "sdpa")
+        setattr(vc, "attn_implementation", "sdpa")
+
     if not is_trainable:
         setattr(config, "use_cache", True)
     else:
@@ -159,22 +224,54 @@ def load_model(
     if model_args.moe_aux_loss_coef is not None:
         setattr(config, "router_aux_loss_coef", model_args.moe_aux_loss_coef)
         setattr(config, "output_router_logits", is_trainable)
-    init_kwargs["low_cpu_mem_usage"] = not is_deepspeed_zero3_enabled()
-    if not is_deepspeed_zero3_enabled() and not is_fsdp_enabled():
+    init_kwargs["low_cpu_mem_usage"] = not is_deepspeed_zero3_enabled() and not is_fsdp2_enabled()
+
+    # TODO: Shall we need the compute_dtype? Check the necessity.
+    if not is_deepspeed_zero3_enabled():
         init_kwargs["torch_dtype"] = model_args.compute_dtype
+
+    if not is_deepspeed_zero3_enabled() and not is_fsdp_or_fsdp2_enabled():
         if init_kwargs["low_cpu_mem_usage"]:  # device map requires low_cpu_mem_usage=True
             if "device_map" not in init_kwargs and model_args.device_map:
                 init_kwargs["device_map"] = model_args.device_map
 
     init_kwargs["config"] = config
     init_kwargs["pretrained_model_name_or_path"] = model_name_or_path
-    if type(config) in AutoModelForVision2Seq._model_mapping.keys():  # assume built-in models
-        model_class = AutoModelForVision2Seq  # image and video
+    # TODO: remove AutoModelForVision2Seq after deprecate torch260
+    import transformers
+
+    if Version("4.54.0") <= Version(transformers.__version__):
+        from transformers import AutoModelForImageTextToText
+
+        it2t_model_cls = AutoModelForImageTextToText
+    else:
+        from transformers import AutoModelForVision2Seq
+
+        it2t_model_cls = AutoModelForVision2Seq
+    if type(config) in it2t_model_cls._model_mapping.keys():  # assume built-in models
+        model_class = it2t_model_cls  # image and video
     else:
         model_class = AutoModelForCausalLM  # text
-    model = model_class.from_pretrained(**init_kwargs)
+
+    fsdp2_init_context = getattr(_fsdp2_init_context, "context", None)
+
+    if fsdp2_init_context is not None:
+        with fsdp2_init_context():
+            model = model_class.from_pretrained(**init_kwargs)
+    else:
+        model = model_class.from_pretrained(**init_kwargs)
+
     if not model_args.disable_gradient_checkpointing:
-        model.gradient_checkpointing_enable(gradient_checkpointing_kwargs={"use_reentrant": False})
+        # PumpkinComment:
+        # - use_reentrant=False is generally preferred, but some MoE models can produce
+        #   a different set of autograd-saved tensors between forward and recomputation,
+        #   which triggers torch.utils.checkpoint.CheckpointError.
+        if model_args.gradient_checkpointing_use_reentrant is None:
+            use_reentrant = True if _is_moe_config(config) else False
+        else:
+            use_reentrant = bool(model_args.gradient_checkpointing_use_reentrant)
+
+        model.gradient_checkpointing_enable(gradient_checkpointing_kwargs={"use_reentrant": use_reentrant})
 
     if model_args.lora_target is None:
         freeze_model(model, model_args)
@@ -209,6 +306,30 @@ def load_model(
     else:
         model.train()
 
+    # Debug case, we may not use the default_actor model provider
+    patch_model(model, config, use_mcore=False)
+
+    if ulysses_size > 1 and getattr(config, "vision_config", None) is not None:
+        model_type = getattr(config, "model_type", None) or ""
+        if model_type in ("qwen2_5_vl", "qwen3_vl"):
+            from roll.utils.context_parallel.vlm_cp_patch import patch_vlm_decoder_for_cp
+
+            decoder = find_vlm_text_decoder(model)
+            if decoder is None:
+                logger.warning(f"CP(VLM) enabled but failed to locate text decoder for model_type={model_type}")
+            else:
+                patch_vlm_decoder_for_cp(decoder, name=f"{model_type}.text_decoder")
+        else:
+            logger.warning(f"CP(VLM) enabled but model_type={model_type} not fully tested")
+
+    if is_fsdp2_enabled() and getattr(config, "vision_config", None) is not None:
+        # PumpkinComment:
+        # Otherwise we will have precision issue
+        vision_tower_blocks = get_vl_model_vision_tower_blocks(model)
+        if vision_tower_blocks is not None:
+            for block in vision_tower_blocks:
+                block._fsdp2_cast_forward_inputs = False
+
     return model
 
 
@@ -217,16 +338,43 @@ def patch_model(model, config, use_mcore):
 
     model_type = config.model_type
 
+    # Avoid double-patching when multiple providers call patch_model()
+    if getattr(model, "_roll_forward_patched", False):
+        return
+
     forward_patch = None
     # patch to force vit forward with mock image to avoid hang
     if not use_mcore:
-        if "qwen2_vl" == model_type or "qwen2_5_vl" == model_type:
-            if is_peft_model := getattr(model, "peft_config", None) is not None:
+        if model_type in ("qwen2_vl", "qwen2_5_vl", "qwen3_vl"):
+            if is_peft_model := (getattr(model, "peft_config", None) is not None):
                 ori_forward = type(model.get_base_model()).forward
             else:
                 ori_forward = type(model).forward
 
             def _handle_missing_visual(self, inputs_embeds: "torch.FloatTensor"):
+                if getattr(self.config, "model_type", None) == "qwen3_vl":
+                    # Qwen3-VL vision forward returns (image_embeds, deepstack_embeds_list)
+                    patch_dim = (
+                        self.config.vision_config.in_channels
+                        * self.config.vision_config.temporal_patch_size
+                        * self.config.vision_config.patch_size
+                        * self.config.vision_config.patch_size
+                    )
+                    mock_pixel_values = torch.zeros(
+                        16,
+                        patch_dim,
+                        device=inputs_embeds.device,
+                        dtype=inputs_embeds.dtype,
+                    )
+                    mock_grid_thw = torch.LongTensor([[1, 4, 4]]).to(inputs_embeds.device)
+                    vision_out = self.visual(mock_pixel_values, grid_thw=mock_grid_thw)
+                    image_embeddings = vision_out[0] if isinstance(vision_out, tuple) else vision_out
+                    deepstack_list = vision_out[1] if isinstance(vision_out, tuple) and len(vision_out) > 1 else []
+                    inputs_embeds = inputs_embeds + image_embeddings.mean() * 0
+                    for emb in deepstack_list or []:
+                        inputs_embeds = inputs_embeds + emb.mean() * 0
+                    return inputs_embeds
+
                 mock_pixel_values = torch.zeros(
                     4,
                     self.config.vision_config.in_channels
@@ -264,31 +412,32 @@ def forward_patch(
                 assert inputs_embeds is None
                 if kwargs.pop("force_vit_image", False) and pixel_values is None:
                     # force vit forward with mock image to avoid hang
-                    inputs_embeds = self.model.embed_tokens(input_ids)
+                    inputs_embeds = self.get_input_embeddings()(input_ids)
                     inputs_embeds = _handle_missing_visual(self, inputs_embeds)
                 if kwargs.pop("force_vit_video", False) and pixel_values_videos is None:
                     if inputs_embeds is None:
-                        inputs_embeds = self.model.embed_tokens(input_ids)
+                        inputs_embeds = self.get_input_embeddings()(input_ids)
                     # force vit forward with mock image to avoid hang
                     inputs_embeds = _handle_missing_visual(self, inputs_embeds)
                 return ori_forward(
                     self,
-                    input_ids,
-                    attention_mask,
-                    position_ids,
-                    past_key_values,
-                    inputs_embeds,
-                    labels,
-                    use_cache,
-                    output_attentions,
-                    output_hidden_states,
-                    # return_dict,
-                    pixel_values,
-                    pixel_values_videos,
-                    image_grid_thw,
-                    video_grid_thw,
-                    rope_deltas,
-                    cache_position,
+                    input_ids=input_ids,
+                    attention_mask=attention_mask,
+                    position_ids=position_ids,
+                    past_key_values=past_key_values,
+                    inputs_embeds=inputs_embeds,
+                    labels=labels,
+                    use_cache=use_cache,
+                    output_attentions=output_attentions,
+                    output_hidden_states=output_hidden_states,
+                    return_dict=return_dict,
+                    pixel_values=pixel_values,
+                    pixel_values_videos=pixel_values_videos,
+                    image_grid_thw=image_grid_thw,
+                    video_grid_thw=video_grid_thw,
+                    rope_deltas=rope_deltas,
+                    cache_position=cache_position,
+                    **kwargs,
                 )
 
         if forward_patch is not None:
@@ -296,6 +445,7 @@ def forward_patch(
                 model.get_base_model().forward = types.MethodType(forward_patch, model.get_base_model())
             else:
                 model.forward = types.MethodType(forward_patch, model)
+            setattr(model, "_roll_forward_patched", True)
 
 
 def default_diffusion_module_provider(
@@ -306,8 +456,9 @@ def default_diffusion_module_provider(
 ):
     if model_args.model_config_kwargs["model_name"] == "wan2_2":
         from roll.pipeline.diffusion.modules.wan_module import WanTrainingModule
+
         print(f"{model_args.model_config_kwargs=}")
-        training_module =  WanTrainingModule(**model_args.model_config_kwargs)
+        training_module = WanTrainingModule(**model_args.model_config_kwargs)
     else:
         raise NotImplementedError(f"model_type {model_args.model_type} not implemented yet")
 
@@ -320,9 +471,9 @@ def default_actor_model_provider(
     training_args: "TrainingArguments" = None,
     is_trainable: Optional[bool] = False,
 ):
+    model_args.model_name_or_path = download_model(model_args.model_name_or_path)
     config = AutoConfig.from_pretrained(model_args.model_name_or_path, trust_remote_code=True)
     old_model_name_or_path = model_args.model_name_or_path
-    model_args.model_name_or_path = download_model(model_args.model_name_or_path)
     prepare_automap_files(model_args.model_name_or_path)
     if (
         mca_TrainingArguments is not None
@@ -341,7 +492,12 @@ def default_actor_model_provider(
             model.eval()
             for param in model.parameters():
                 param.requires_grad = False
-        freeze_model(model, model_args)
+        if model_args.lora_target is None:
+            freeze_model(model, model_args)
+        else:
+            apply_megatron_lora()
+            set_linear_is_expert(model[0])
+            model.models[0] = setup_lora_training(model[0].config, model[0], model_args, is_trainable, is_mca=True)
         patch_model(model, config, use_mcore=True)
     else:
         # hf
@@ -349,7 +505,7 @@ def default_actor_model_provider(
             "torch_dtype": model_args.compute_dtype,
             "trust_remote_code": True,
         }
-        if not is_deepspeed_zero3_enabled():
+        if not is_deepspeed_zero3_enabled() and not is_fsdp2_enabled():
             init_kwargs["low_cpu_mem_usage"] = True
             if is_trainable:
                 init_kwargs["device_map"] = {"": current_platform.current_device()}
@@ -409,7 +565,11 @@ class TokenClassifierOutput(ModelOutput):
             config = AutoConfig.from_pretrained(model_args.model_name_or_path, trust_remote_code=True)
             config.num_labels = model_args.num_labels
             if model_args.attn_implementation is not None and model_args.attn_implementation != "auto":
-                setattr(config, "_attn_implementation", model_args.attn_implementation)
+                setattr(
+                    config,
+                    "_attn_implementation",
+                    model_args.attn_implementation,
+                )
             model = AutoModelForSequenceClassification.from_pretrained(
                 model_args.model_name_or_path, config=config, **init_kwargs
             )
@@ -418,7 +578,11 @@ class TokenClassifierOutput(ModelOutput):
             config = AutoConfig.from_pretrained(model_args.model_name_or_path, trust_remote_code=True)
             config.num_labels = model_args.num_labels
             if model_args.attn_implementation is not None and model_args.attn_implementation != "auto":
-                setattr(config, "_attn_implementation", model_args.attn_implementation)
+                setattr(
+                    config,
+                    "_attn_implementation",
+                    model_args.attn_implementation,
+                )
             model = AutoModelForTokenClassification.from_pretrained(
                 model_args.model_name_or_path, config=config, **init_kwargs
             )
@@ -434,8 +598,12 @@ class TokenClassifierOutput(ModelOutput):
             AutoModelForCausalLMWithValueHead.post_init = no_set_device_hook_post_init
             model = load_model(model_args, is_trainable, True)
             setattr(model, "forward", token_classifier_forward.__get__(model))
-            setattr(model, "load_state_dict", value_head_load_state_dict.__get__(model))
-            logger.info(f"patch AutoModelForCausalLMWithValueHead load_state_dict and forward")
+            setattr(
+                model,
+                "load_state_dict",
+                value_head_load_state_dict.__get__(model),
+            )
+            logger.info("patch AutoModelForCausalLMWithValueHead load_state_dict and forward")
         else:
             raise NotImplementedError
         if model.config.pad_token_id is None:
@@ -482,7 +650,11 @@ def default_value_model_provider(
             config = AutoConfig.from_pretrained(model_args.model_name_or_path, trust_remote_code=True)
             config.num_labels = model_args.num_labels
             if model_args.attn_implementation is not None and model_args.attn_implementation != "auto":
-                setattr(config, "_attn_implementation", model_args.attn_implementation)
+                setattr(
+                    config,
+                    "_attn_implementation",
+                    model_args.attn_implementation,
+                )
             model = AutoModelForTokenClassification.from_pretrained(
                 model_args.model_name_or_path, config=config, **init_kwargs
             )
@@ -498,7 +670,11 @@ def default_value_model_provider(
             AutoModelForCausalLMWithValueHead.post_init = no_set_device_hook_post_init
             model = load_model(model_args, is_trainable, True)
             setattr(model, "forward", token_classifier_forward.__get__(model))
-            setattr(model, "load_state_dict", value_head_load_state_dict.__get__(model))
+            setattr(
+                model,
+                "load_state_dict",
+                value_head_load_state_dict.__get__(model),
+            )
         else:
             raise NotImplementedError
         if model.config.pad_token_id is None:
@@ -511,44 +687,219 @@ def default_value_model_provider(
 
 def get_extra_data_provider(model_name_or_path: str, processor=None):
     model_name_or_path = download_model(model_name_or_path)
-    config = AutoConfig.from_pretrained(model_name_or_path)
-    if "qwen2" in config.model_type:
+    try:
+        config = AutoConfig.from_pretrained(model_name_or_path, trust_remote_code=True)
+        model_type = config.model_type
+    except ValueError as e:
+        # mca ckpt use mca_config.json as config file
+        import json
+
+        from mcore_adapter.constants import MCA_CONFIG_NAME
+
+        config_file = os.path.join(model_name_or_path, MCA_CONFIG_NAME)
+        model_type = None
+        if os.path.isfile(config_file):
+            with open(config_file, "r", encoding="utf-8") as reader:
+                text = reader.read()
+            config_values = json.loads(text)
+            model_type = config_values.get("hf_model_type")
+        else:
+            raise e
+
+    # NOTE:
+    if isinstance(model_type, str) and (("qwen2" in model_type) or (model_type in ("qwen3_vl", "qwen3_vl_moe"))):
         import types
 
         from transformers import BatchFeature  # help define a object to accesss attr
 
+        def _call_get_rope_index(fn, input_ids: torch.LongTensor, **candidate_kwargs):
+            sig = inspect.signature(fn)
+            params = sig.parameters
+            accepts_kwargs = any(p.kind == inspect.Parameter.VAR_KEYWORD for p in params.values())
+            if accepts_kwargs:
+                return fn(input_ids, **candidate_kwargs)
+
+            filtered = {k: v for k, v in candidate_kwargs.items() if k in params}
+            return fn(input_ids, **filtered)
+
+        spatial_merge_size = getattr(getattr(config, "vision_config", None), "spatial_merge_size", None)
+        if spatial_merge_size is None and processor is not None:
+            spatial_merge_size = getattr(getattr(processor, "image_processor", None), "merge_size", None)
+        if spatial_merge_size is None:
+            raise ValueError(
+                f"spatial_merge_size is required for model_type={model_type} get_rope_index, "
+                "but it was not found in config.vision_config nor processor.image_processor."
+            )
+        vc = {"spatial_merge_size": spatial_merge_size}
+        tokens_per_second = getattr(getattr(config, "vision_config", None), "tokens_per_second", None)
+        if model_type == "qwen2_5_vl" and tokens_per_second is not None:
+            vc["tokens_per_second"] = tokens_per_second
+
+        image_token_id = getattr(config, "image_token_id", None)
+        video_token_id = getattr(config, "video_token_id", None)
+        vision_start_token_id = getattr(config, "vision_start_token_id", None)
+        if processor is not None and hasattr(processor, "tokenizer"):
+            image_token_id = image_token_id or processor.tokenizer.convert_tokens_to_ids("<|image_pad|>")
+            video_token_id = video_token_id or processor.tokenizer.convert_tokens_to_ids("<|video_pad|>")
+            vision_start_token_id = vision_start_token_id or processor.tokenizer.convert_tokens_to_ids(
+                "<|vision_start|>"
+            )
+
         dummy_self = BatchFeature(
             {
                 "config": BatchFeature(
                     {
-                        "vision_config": BatchFeature({"spatial_merge_size": processor.image_processor.merge_size}),
-                        "image_token_id": processor.tokenizer.convert_tokens_to_ids("<|image_pad|>"),
-                        "video_token_id": processor.tokenizer.convert_tokens_to_ids("<|video_pad|>"),
-                        "vision_start_token_id": processor.tokenizer.convert_tokens_to_ids("<|vision_start|>"),
+                        "vision_config": BatchFeature(vc),
+                        "image_token_id": image_token_id,
+                        "video_token_id": video_token_id,
+                        "vision_start_token_id": vision_start_token_id,
                     }
                 )
             }
         )
-        if is_transformers_version_greater_than("4.52.0"):
-            from transformers.models.qwen2_vl import Qwen2VLModel
 
-            get_rope_index = types.MethodType(Qwen2VLModel.get_rope_index, dummy_self)
+        is_tf_ge_4_52 = is_transformers_version_greater_than("4.52.0")
+        if model_type == "qwen2_5_vl":
+            if is_tf_ge_4_52:
+                from transformers.models.qwen2_5_vl.modeling_qwen2_5_vl import Qwen2_5_VLModel
+
+                get_rope_index = types.MethodType(Qwen2_5_VLModel.get_rope_index, dummy_self)
+            else:
+                from transformers.models.qwen2_5_vl.modeling_qwen2_5_vl import Qwen2_5_VLForConditionalGeneration
+
+                get_rope_index = types.MethodType(Qwen2_5_VLForConditionalGeneration.get_rope_index, dummy_self)
+        elif model_type in ("qwen3_vl", "qwen3_vl_moe"):
+            from transformers.models.qwen3_vl.modeling_qwen3_vl import Qwen3VLModel
+
+            get_rope_index = types.MethodType(Qwen3VLModel.get_rope_index, dummy_self)
         else:
-            from transformers.models.qwen2_vl import Qwen2VLForConditionalGeneration
+            if is_tf_ge_4_52:
+                from transformers.models.qwen2_vl import Qwen2VLModel
+
+                get_rope_index = types.MethodType(Qwen2VLModel.get_rope_index, dummy_self)
+            else:
+                from transformers.models.qwen2_vl import Qwen2VLForConditionalGeneration
 
-            get_rope_index = types.MethodType(Qwen2VLForConditionalGeneration.get_rope_index, dummy_self)
+                get_rope_index = types.MethodType(Qwen2VLForConditionalGeneration.get_rope_index, dummy_self)
 
         def extra_data_provider(
             input_ids: torch.LongTensor,
             image_grid_thw: Optional[torch.LongTensor] = None,
             video_grid_thw: Optional[torch.LongTensor] = None,
             attention_mask: Optional[torch.Tensor] = None,
+            second_per_grid_ts: Optional[torch.Tensor] = None,
         ):
-            rope_index = get_rope_index(input_ids, image_grid_thw, video_grid_thw, attention_mask)[0]
-            # (3, bsz, seqlen) -> (bsz, 3, seqlen) to put it into DataProto,
-            # transpose it batck to (3, bsz, seqlen) before forward for model
+            # Keep kwargs to be resilient to HF signature changes between versions/models.
+            out = _call_get_rope_index(
+                get_rope_index,
+                input_ids,
+                image_grid_thw=image_grid_thw,
+                video_grid_thw=video_grid_thw,
+                second_per_grid_ts=second_per_grid_ts,
+                attention_mask=attention_mask,
+            )
+            rope_index = out[0]
+            # PumpkinComment:
+            # HF Qwen-VL "mrope" position_ids are expected to be 4-channel in newer transformers:
+            #   [text_pos_ids, mrope_t, mrope_h, mrope_w]
+            # while some HF get_rope_index implementations return only the 3D vision part (3, bsz, seqlen).
+            #
+            # I normalize here so downstream strategies don't need model-specific hacks.
+            # Note: transformers < 4.54 only accepts vision position ids in some Qwen-VL variants.
+            if is_transformers_version_greater_than("4.53.3") and rope_index.dim() == 3 and rope_index.size(0) == 3:
+                bsz, seqlen = input_ids.shape
+                if attention_mask is not None:
+                    text_pos_full = attention_mask.long().cumsum(-1) - 1
+                    text_pos_full = torch.clamp(text_pos_full, min=0).to(
+                        dtype=rope_index.dtype, device=rope_index.device
+                    )
+                    text_pos_full = text_pos_full.unsqueeze(0)  # (1, bsz, seqlen)
+                else:
+                    text_pos_full = (
+                        torch.arange(seqlen, dtype=rope_index.dtype, device=rope_index.device)
+                        .view(1, 1, -1)
+                        .expand(1, bsz, -1)
+                    )
+                rope_index = torch.cat([text_pos_full, rope_index], dim=0)  # (4, bsz, seqlen)
+
+            # (C, bsz, seqlen) -> (bsz, C, seqlen) to put it into DataProto,
+            # transpose it back to (C, bsz, seqlen) before forward for model.
             rope_index = rope_index.transpose(0, 1)
             return {"position_ids": rope_index}
 
         return extra_data_provider
-    return None
\ No newline at end of file
+
+    def default_extra_data_provider(
+        input_ids: torch.LongTensor,
+        attention_mask: Optional[torch.Tensor] = None,
+    ):
+        bsz, seqlen = input_ids.shape
+        position_ids = torch.arange(seqlen, dtype=torch.long, device=input_ids.device)
+        position_ids = position_ids.unsqueeze(0).expand(bsz, -1)
+        if attention_mask is not None:
+            position_ids = position_ids.masked_fill(attention_mask == 0, 0)
+        return {"position_ids": position_ids}
+
+    return default_extra_data_provider
+
+
+def find_vlm_text_decoder(model: nn.Module) -> Optional[nn.Module]:
+    """
+    Best-effort extractor for the text decoder stack of common VLM wrappers.
+    """
+    # Unwrap PEFT if present.
+    base = getattr(model, "get_base_model", None)
+    if callable(base):
+        model = base()
+
+    # Common attribute patterns across HF VLMs.
+    for path in (
+        ("language_model",),
+        ("model", "language_model"),
+        ("model", "text_model"),
+        ("text_model",),
+        ("model",),
+    ):
+        cur: Any = model
+        ok = True
+        for p in path:
+            if not hasattr(cur, p):
+                ok = False
+                break
+            cur = getattr(cur, p)
+        if ok and isinstance(cur, nn.Module):
+            # Heuristic: the decoder usually has an embedding or layers attr.
+            return cur
+    return None
+
+
+def get_vl_model_vision_tower_blocks(vl_model_instance):
+    """
+    Util to extract Vision Tower from a VL model instance
+
+    Reference: https://github.com/volcengine/verl/blob/main/verl/workers/fsdp_workers.py#L128-L138
+    """
+    if hasattr(vl_model_instance, "model") and hasattr(vl_model_instance.model, "visual"):
+        # transformers >= 4.52.0
+        return vl_model_instance.model.visual.blocks
+    elif hasattr(vl_model_instance, "visual"):
+        # transformers < 4.52.0
+        return vl_model_instance.visual.blocks
+    return None
+
+
+def _is_moe_config(cfg) -> bool:
+    if cfg is None:
+        return False
+    # Heuristic: cover common HF config fields for MoE models.
+    moe_keys = (
+        "num_experts",
+        "n_experts",
+        "moe_num_experts",
+        "num_local_experts",
+        "num_experts_per_tok",
+        "router_aux_loss_coef",
+        "output_router_logits",
+        "moe_layer_freq",
+    )
+    return any(getattr(cfg, k, None) not in (None, 0, False) for k in moe_keys)
diff --git a/roll/pipeline/agentic/agentic_actor_pg_worker.py b/roll/pipeline/agentic/agentic_actor_pg_worker.py
new file mode 100644
index 000000000..28c84fcc4
--- /dev/null
+++ b/roll/pipeline/agentic/agentic_actor_pg_worker.py
@@ -0,0 +1,588 @@
+import numpy as np
+import torch
+
+from roll.distributed.scheduler.protocol import DataProto
+from roll.pipeline.base_worker import ActorWorker as BaseActorWorker
+from roll.utils.functionals import masked_mean, agg_loss, compute_approx_kl
+from roll.pipeline.agentic.utils import compute_segment_masked_mean
+from roll.pipeline.agentic.agentic_pipeline import get_episode_scores
+from roll.utils.train_infer_corrections import compute_train_infer_correction
+from roll.platforms import current_platform
+
+
+class ActorWorker(BaseActorWorker):
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        # 缓存PG变体的配置参数
+        self._pg_config_cache = {}
+        self._pg_variant_logged = True
+        self._topr_sample_logged = False
+        self._cispo_config_logged = False
+        self._kimi15_config_logged = False
+
+    def _get_or_cache_config(self, key, default_value):
+        """获取或缓存配置值"""
+        if key not in self._pg_config_cache:
+            self._pg_config_cache[key] = getattr(self.pipeline_config.actor_train, key, default_value)
+        return self._pg_config_cache[key]
+
+    def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
+        """
+        loss func接口定义:
+            data: DataProto, 由train_step透传
+            output_tensor: torch.Tensor, model.forward()的输出Tensor
+        """
+        response_mask = data.batch["response_mask"][:, 1:].long()
+        ref_log_probs = data.batch["ref_log_probs"]
+        advantages = data.batch["advantages"]
+
+        batch_num_tokens = data.meta_info['batch_num_tokens']
+        global_valid_samples = data.meta_info['global_valid_samples']
+
+        log_probs = self.strategy.op_compute_log_probs(
+            logits=output_tensor, input_ids=data.batch["input_ids"], attention_mask=data.batch["response_mask"]
+        )
+        old_log_probs = self.get_old_log_probs_with_cache(data, log_probs)
+        infer_log_probs = data.batch.get("infer_logprobs", old_log_probs)
+        infer_log_probs = infer_log_probs if len(infer_log_probs) > 0 else old_log_probs
+
+        train_infer_metric = {}
+        if not self.pipeline_config.enable_old_logprobs_recompute:
+            train_infer_is_weight, filter_mask, train_infer_metric = compute_train_infer_correction(
+                cfg=self.pipeline_config.train_infer_correction,
+                response_mask=response_mask,
+                old_log_probs=old_log_probs,
+                infer_log_probs=infer_log_probs,
+                global_valid_samples=global_valid_samples['response_mask'],
+                global_valid_tokens=batch_num_tokens['response_mask'],
+            )
+
+            # Apply filter mask to response_mask
+            response_mask = response_mask.long() * filter_mask.long()
+        else:
+            train_infer_is_weight = data.batch['train_infer_is_weight']
+
+        if self.pipeline_config.ratio_type == "segment":
+            # 计算序列级别的 ratio：对每段连续的1分别计算 masked_mean，不连续的段不相乘
+            log_ratio = log_probs - old_log_probs
+            masked_log_ratio = compute_segment_masked_mean(log_ratio, response_mask)
+            ratio = masked_log_ratio.exp()
+        else:
+            ratio = (log_probs - old_log_probs).exp()
+
+        pg_variant = self._get_or_cache_config("pg_variant", "vanilla")
+        self._cached_metrics = {
+            "pg_variant": pg_variant,
+            "ratio": ratio,
+            "response_mask": response_mask,
+        }
+
+        if pg_variant == "vanilla":  # Basic Policy Gradient
+            pg_loss = self._compute_vanilla_pg_loss(ratio, log_probs, advantages)
+        elif pg_variant == "ppo":  # Proximal Policy Optimization
+            pg_loss = self._compute_ppo_loss(ratio, advantages, response_mask, batch_num_tokens=batch_num_tokens,
+                                             global_valid_samples=global_valid_samples)
+        elif pg_variant == "tis":  # Truncated Importance Sampling
+            pg_loss = self._compute_tis_loss(ratio, log_probs, old_log_probs, response_mask, advantages, data,
+                                             batch_num_tokens=batch_num_tokens, global_valid_samples=global_valid_samples)
+        elif pg_variant == "topr":  # Tapered off-policy REINFORCE
+            pg_loss = self._compute_topr_loss(ratio, log_probs, old_log_probs, advantages, data)
+        elif pg_variant == "cispo":  # Clipped Importance Sampling Policy Optimization    Minimax-M1
+            pg_loss = self._compute_cispo_loss(ratio, log_probs, advantages)
+        elif pg_variant == "kimi15":  # Kimi15
+            pg_loss = self._compute_kimi15_loss(ratio, log_probs, old_log_probs, advantages)
+        else:
+            raise ValueError(f"Unsupported pg_variant: {pg_variant}")
+
+        if self.pipeline_config.train_infer_correction.is_weight.enabled:
+            pg_loss = pg_loss * train_infer_is_weight
+
+        pg_loss = agg_loss(loss_mat=pg_loss, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                           batch_num_tokens=batch_num_tokens['response_mask'], global_valid_samples=global_valid_samples['response_mask'])
+        # 缓存损失相关指标
+        self._cached_metrics.update({"original_pg_loss": pg_loss})
+
+        kl_loss = compute_approx_kl(
+            log_probs=log_probs, log_probs_base=ref_log_probs, action_mask=response_mask, kl_penalty="k3"
+        )
+        kl_loss = agg_loss(loss_mat=kl_loss, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                           batch_num_tokens=batch_num_tokens['response_mask'], global_valid_samples=global_valid_samples['response_mask'])
+
+        approxkl = compute_approx_kl(
+            log_probs=log_probs, log_probs_base=old_log_probs, action_mask=response_mask, kl_penalty="mse"
+        )
+        policykl = compute_approx_kl(
+            log_probs=log_probs, log_probs_base=old_log_probs, action_mask=response_mask, kl_penalty="kl"
+        )
+
+        if self.pipeline_config.use_kl_loss:
+            total_loss = pg_loss + kl_loss * self.pipeline_config.kl_loss_coef
+        else:
+            total_loss = pg_loss
+        if self.pipeline_config.entropy_loss_coef > 0:
+            entropy = self.strategy.op_compute_entropy(
+                logits=output_tensor, attention_mask=data.batch["response_mask"]
+            )
+            entropy_loss = agg_loss(
+                loss_mat=entropy,
+                loss_mask=response_mask,
+                loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                batch_num_tokens=batch_num_tokens['response_mask'],
+                global_valid_samples=global_valid_samples['response_mask'],
+            )
+            total_loss = total_loss - entropy_loss * self.pipeline_config.entropy_loss_coef
+
+        self._cached_metrics.update(
+            {
+                "kl_loss": kl_loss,
+                "approxkl": approxkl,
+                "policykl": policykl,
+            }
+        )
+
+        self._cached_metrics["total_loss"] = total_loss
+
+        # 使用缓存的指标
+        pg_metrics = self._get_pg_metrics(data, batch_num_tokens=batch_num_tokens, global_valid_samples=global_valid_samples,)
+        pg_metrics.update(train_infer_metric)
+        return total_loss, pg_metrics
+
+    def _compute_ppo_loss(self, ratio: torch.Tensor, advantages: torch.Tensor, response_mask: torch.Tensor,
+                          batch_num_tokens: dict, global_valid_samples: dict):
+        """
+        计算PPO损失
+        """
+        pg_clip = self.pipeline_config.pg_clip
+        pg_clip_low = (
+            self.pipeline_config.pg_clip_low
+            if self.pipeline_config.use_pg_clip_range
+            else self.pipeline_config.pg_clip
+        )
+        pg_clip_high = (
+            self.pipeline_config.pg_clip_high
+            if self.pipeline_config.use_pg_clip_range
+            else self.pipeline_config.pg_clip
+        )
+        surr1 = ratio * advantages
+        surr2 = ratio.clamp(1 - pg_clip_low, 1 + pg_clip_high) * advantages
+        loss = -torch.min(surr1, surr2)
+        if self.pipeline_config.dual_clip_loss:
+            dual_clip_loss = -torch.max(-loss, (1 + pg_clip * 2) * advantages)
+            loss = torch.where(advantages < 0, dual_clip_loss, loss)
+
+        # 缓存PPO相关指标
+        clipped_low = (ratio < 1 - pg_clip_low).float()
+        clipped_high = (ratio > 1 + pg_clip_high).float()
+        clipped = (clipped_low + clipped_high).float()
+
+        self._cached_metrics.update(
+            {
+                "ppo_ratio_high_clipfrac": agg_loss(loss_mat=clipped_high, loss_mask=response_mask, loss_agg_mode='token-mean',
+                                                batch_num_tokens=batch_num_tokens['response_mask'],).detach().item(),
+                "ppo_ratio_low_clipfrac": agg_loss(loss_mat=clipped_low, loss_mask=response_mask, loss_agg_mode='token-mean',
+                                                batch_num_tokens=batch_num_tokens['response_mask'],).detach().item(),
+                "ppo_ratio_clipfrac": agg_loss(loss_mat=clipped, loss_mask=response_mask, loss_agg_mode='token-mean',
+                                                batch_num_tokens=batch_num_tokens['response_mask'],).detach().item(),
+                "clipfrac": agg_loss(
+                    loss_mat=torch.lt(surr2, surr1).float(),
+                    loss_mask=response_mask,
+                    loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                    batch_num_tokens=batch_num_tokens['response_mask'],
+                    global_valid_samples=global_valid_samples['response_mask'],
+                )
+                .detach()
+                .item(),
+            }
+        )
+
+        return loss
+
+    def _compute_vanilla_pg_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, advantages: torch.Tensor):
+        """
+        计算原始Policy Gradient损失
+
+        Args:
+            ratio: 重要性采样比率 π(a|s) / π_old(a|s)
+            advantages: 优势函数值
+
+        Returns:
+            pg_loss: Policy Gradient损失
+        """
+
+        return -log_probs * advantages
+
+    def _compute_tis_loss(
+        self,
+        ratio: torch.Tensor,
+        log_probs: torch.Tensor,
+        old_log_probs: torch.Tensor,
+        response_mask: torch.Tensor,
+        advantages: torch.Tensor,
+        data: DataProto,
+        batch_num_tokens: dict,
+        global_valid_samples: dict
+    ):
+        """
+        计算Truncated Importance Sampling (TIS) 损失
+        根据论文: Truncated Importance Sampling for Value-based Reinforcement Learning
+        TIS将重要性采样比率截断在[0, 1]范围内
+        """
+        # 缓存TIS配置
+        tis_lower_bound = self._get_or_cache_config("tis_lower_bound", 0.0)
+        tis_upper_bound = self._get_or_cache_config("tis_upper_bound", 1.0)
+
+        # 截断重要性采样比率
+        clipped_ratio = torch.clamp(ratio, min=tis_lower_bound, max=tis_upper_bound)
+
+        TIS_loss = -clipped_ratio.detach() * advantages * log_probs
+
+        # 缓存TIS相关指标
+        lower_clipped = (ratio < tis_lower_bound).float()
+        upper_clipped = (ratio > tis_upper_bound).float()
+        total_clipped = (lower_clipped + upper_clipped).float()
+
+        self._cached_metrics.update(
+            {
+                "tis_lower_bound": tis_lower_bound,
+                "tis_upper_bound": tis_upper_bound,
+                "tis_lower_clipfrac": agg_loss(loss_mat=lower_clipped, loss_mask=response_mask, loss_agg_mode='token-mean',
+                                                batch_num_tokens=batch_num_tokens['response_mask'],).detach().item(),
+                "tis_upper_clipfrac": agg_loss(loss_mat=upper_clipped, loss_mask=response_mask, loss_agg_mode='token-mean',
+                                                batch_num_tokens=batch_num_tokens['response_mask'],).detach().item(),
+                "tis_total_clipfrac": agg_loss(loss_mat=total_clipped, loss_mask=response_mask, loss_agg_mode='token-mean',
+                                                batch_num_tokens=batch_num_tokens['response_mask'],).detach().item(),
+                "tis_clipped_ratio": clipped_ratio.detach(),
+            }
+        )
+
+        return TIS_loss
+
+    def _compute_topr_loss(
+        self,
+        ratio: torch.Tensor,
+        log_probs: torch.Tensor,
+        old_log_probs: torch.Tensor,
+        advantages: torch.Tensor,
+        data: DataProto,
+    ):
+        """
+        计算TOPR (Tapered off-policy REINFORCE) 损失. https://arxiv.org/abs/2503.14286
+
+        根据论文公式(8):
+        ∇J_TOPR(π) = Σ_{τ∈T^+} μ(τ)R(τ)∇log π(τ) + Σ_{τ∈T^-} μ(τ)[π(τ)/μ(τ)]_0^1 R(τ)∇log π(τ)
+
+        - 正样本(T^+): SFT更新, 直接对log π(τ)求导, 不使用importance sampling
+        - 负样本(T^-): TIS更新, 使用clipped importance sampling ratio [0,1]
+
+        Args:
+            ratio: 重要性采样比率 π(a|s) / π_old(a|s) [batch_size, seq_len]
+            log_probs: 当前策略的log概率 [batch_size, seq_len]
+            old_log_probs: 旧策略的log概率 [batch_size, seq_len]
+            advantages: 优势函数值 [batch_size, seq_len]
+            data: 数据，包含奖励/分数信息
+
+        Returns:
+            topr_loss: TOPR损失 [batch_size, seq_len]
+        """
+        # 缓存TOPR配置
+        positive_weight = self._get_or_cache_config("topr_positive_weight", 1.0)
+        negative_weight = self._get_or_cache_config("topr_negative_weight", 1.0)
+
+        # scores = data.batch['scores']dim=@).to(current_platform.device_type)
+        scores = get_episode_scores(data).to(current_platform.device_type)
+        positive_mask = (scores > 0).float()
+        negative_mask = (scores <= 0).float()
+
+        if not self._topr_sample_logged:
+            total_samples = len(scores)
+            positive_count = positive_mask.sum().item()
+            negative_count = negative_mask.sum().item()
+            self.logger.info(
+                f"TOPR样本分布 - 总样本: {total_samples}, 正样本: {positive_count} ({positive_count/total_samples*100:.1f}%), 负样本: {negative_count} ({negative_count/total_samples*100:.1f}%)"
+            )
+            self.logger.info(
+                f"TOPR奖励统计 - 平均: {scores.mean().item():.4f}, 标准差: {scores.std().item():.4f}, 最大: {scores.max().item():.4f}, 最小: {scores.min().item():.4f}"
+            )
+            self.logger.info(f"TOPR权重配置 - 正样本权重: {positive_weight}, 负样本权重: {negative_weight}")
+            self._topr_sample_logged = True
+
+        # 计算损失组件
+        positive_token_mask = positive_mask.unsqueeze(-1).expand_as(log_probs)
+        negative_token_mask = negative_mask.unsqueeze(-1).expand_as(log_probs)
+
+        positive_loss = -advantages * log_probs * positive_token_mask
+
+        # 负样本: TIS更新，使用clipped importance sampling ratio
+        # 梯度是: -[π(τ)/μ(τ)]_0^1 * R(τ) * ∇log π(τ)
+        clipped_ratio = torch.clamp(ratio, min=0.0, max=1.0).detach()
+        negative_loss = -clipped_ratio * advantages * log_probs * negative_token_mask
+
+        weighted_positive_loss = positive_weight * positive_loss
+        weighted_negative_loss = negative_weight * negative_loss
+
+        topr_loss = weighted_positive_loss + weighted_negative_loss
+
+        # 缓存TOPR相关指标
+        negative_lower_clipped = ((ratio < 0.0) & (negative_token_mask > 0)).float()
+        negative_upper_clipped = ((ratio > 1.0) & (negative_token_mask > 0)).float()
+        negative_total_clipped = negative_lower_clipped + negative_upper_clipped
+        self._cached_metrics.update(
+            {
+                "topr_positive_loss": positive_loss,
+                "topr_negative_loss": negative_loss,
+                "topr_weighted_positive_loss": weighted_positive_loss,
+                "topr_weighted_negative_loss": weighted_negative_loss,
+                "topr_positive_weight": positive_weight,
+                "topr_negative_weight": negative_weight,
+                "topr_positive_samples": positive_mask.sum().detach().item(),
+                "topr_negative_samples": negative_mask.sum().detach().item(),
+                "topr_positive_ratio": (positive_mask.sum() / (positive_mask.size(0) + 1e-8)).detach().item(),
+                "topr_negative_ratio": (negative_mask.sum() / (negative_mask.size(0) + 1e-8)).detach().item(),
+                "topr_negative_lower_clipfrac": negative_lower_clipped.mean().detach().item(),
+                "topr_negative_upper_clipfrac": negative_upper_clipped.mean().detach().item(),
+                "topr_negative_total_clipfrac": negative_total_clipped.mean().detach().item(),
+                "topr_scores_mean": scores.mean().detach().item(),
+                "topr_scores_std": scores.std().detach().item(),
+            }
+        )
+
+        return topr_loss
+
+    def _compute_cispo_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, advantages: torch.Tensor):
+        """
+        计算CISPO (Clipped Importance Sampling Policy Optimization) 损失
+
+        根据论文: https://arxiv.org/abs/2503.14286
+        CISPO使用截断的重要性采样权重, 同时使用stop-gradient操作来稳定训练
+
+        公式: J_CISPO(θ) = E[sg(r̂_t(θ)) * Â_t * log π_θ(a_t|s_t)]
+        其中: r̂_t(θ) = clip(r_t(θ), 1-ε_low^IS, 1+ε_high^IS)
+
+        Args:
+            ratio: 重要性采样比率 π(a|s) / π_old(a|s) [batch_size, seq_len]
+            log_probs: 当前策略的log概率 [batch_size, seq_len]
+            advantages: 优势函数值 [batch_size, seq_len]
+
+        Returns:
+            cispo_loss: CISPO损失 [batch_size, seq_len]
+        """
+        # 缓存CISPO配置
+        epsilon_low = self._get_or_cache_config("cispo_epsilon_low", 0.1)
+        epsilon_high = self._get_or_cache_config("cispo_epsilon_high", 0.1)
+        use_unified_mask = self._get_or_cache_config("cispo_use_unified_mask", False)
+
+        clip_lower = 1.0 - epsilon_low
+        clip_upper = 1.0 + epsilon_high
+
+        if not self._cispo_config_logged:
+            self.logger.info(f"CISPO配置 - epsilon_low: {epsilon_low}, epsilon_high: {epsilon_high}")
+            self.logger.info(f"CISPO截断范围: [{clip_lower:.3f}, {clip_upper:.3f}]")
+            self.logger.info(f"CISPO使用统一mask: {use_unified_mask}")
+            self._cispo_config_logged = True
+
+        clipped_ratio = torch.clamp(ratio, min=clip_lower, max=clip_upper)
+
+        # 缓存CISPO相关指标
+        lower_clipped = (ratio < clip_lower).float()
+        upper_clipped = (ratio > clip_upper).float()
+        total_clipped = (lower_clipped + upper_clipped).float()
+
+        if use_unified_mask:
+            # 使用统一mask公式 (论文公式7). 实际上应该和PPO一致了
+            # M_t = 0 if (A_t > 0 and r_t > 1+ε_high) or (A_t < 0 and r_t < 1-ε_low), else 1
+            positive_advantages = advantages > 0
+            negative_advantages = advantages < 0
+
+            mask_positive = positive_advantages & (ratio > clip_upper)
+            mask_negative = negative_advantages & (ratio < clip_lower)
+            token_mask = ~(mask_positive | mask_negative)
+
+            cispo_loss = -clipped_ratio.detach() * advantages * log_probs * token_mask.float()
+        else:
+            cispo_loss = -clipped_ratio.detach() * advantages * log_probs
+
+        cispo_metrics = {
+            "cispo_epsilon_low": epsilon_low,
+            "cispo_epsilon_high": epsilon_high,
+            "cispo_clip_lower": clip_lower,
+            "cispo_clip_upper": clip_upper,
+            "cispo_use_unified_mask": float(use_unified_mask),
+            "cispo_lower_clipfrac": lower_clipped.mean().detach().item(),
+            "cispo_upper_clipfrac": upper_clipped.mean().detach().item(),
+            "cispo_total_clipfrac": total_clipped.mean().detach().item(),
+            "cispo_clipped_ratio": clipped_ratio.detach(),
+        }
+        if use_unified_mask:
+            cispo_metrics.update(
+                {
+                    "cispo_masked_positive_tokens": mask_positive.float().mean().detach().item(),
+                    "cispo_masked_negative_tokens": mask_negative.float().mean().detach().item(),
+                    "cispo_kept_tokens": token_mask.float().mean().detach().item(),
+                }
+            )
+
+        self._cached_metrics.update(cispo_metrics)
+        return cispo_loss
+
+    def _compute_kimi15_loss(
+        self, ratio: torch.Tensor, log_probs: torch.Tensor, old_log_probs: torch.Tensor, advantages: torch.Tensor
+    ):
+        """
+        计算Kimi15损失 https://arxiv.org/pdf/2501.12599
+
+        根据论文公式(3):
+        1/k Σ (∇_θ log π_θ(y_j, z_j|x)(r(x, y_j, y*) - r̄) - τ/2 ∇_θ (log π_θ(y_j, z_j|x)/π_θ_i(y_j, z_j|x))^2)
+
+        这相当于最小化损失函数的负值:
+        L = -[(r - r̄) * log π_θ - τ/2 * (log π_θ/π_θ_i)^2]
+        """
+        # 缓存Kimi15配置
+        tau = self._get_or_cache_config("kimi15_tau", 0.1)
+
+        if not self._kimi15_config_logged:
+            self.logger.info(f"Kimi15配置 - tau (正则化参数): {tau}")
+            self._kimi15_config_logged = True
+
+        # 计算并缓存指标
+        log_ratio = torch.log(ratio + 1e-8)
+        policy_grad_magnitude = (advantages * log_ratio).abs().mean().item()
+        kl_reg_magnitude = (tau * log_ratio.pow(2) * 0.5).mean().item()
+
+        kimi15_loss = -advantages * log_probs + tau * 0.5 * (log_probs - old_log_probs).pow(2)
+
+        self._cached_metrics.update(
+            {
+                "kimi15_tau": tau,
+                "kimi15_log_ratio_mean": log_ratio.mean().item(),
+                "kimi15_log_ratio_std": log_ratio.std().item(),
+                "kimi15_log_ratio_abs_mean": log_ratio.abs().mean().item(),
+                "kimi15_policy_grad_magnitude": policy_grad_magnitude,
+                "kimi15_kl_reg_magnitude": kl_reg_magnitude,
+                "kimi15_reg_ratio": kl_reg_magnitude / (policy_grad_magnitude + 1e-8),
+            }
+        )
+
+        return kimi15_loss
+
+    def _get_pg_metrics(self, data: DataProto, batch_num_tokens: dict, global_valid_samples: dict,):
+        """
+        获取Policy Gradient相关的指标，使用缓存的值避免重复计算
+        """
+        # 从缓存中获取基础值
+        cached = self._cached_metrics
+        ratio = cached["ratio"]
+        response_mask = cached["response_mask"]
+
+        scores = get_episode_scores(data).to(current_platform.device_type)
+        positive_mask = (scores > 0).float()
+        negative_mask = (scores <= 0).float()
+        positive_token_mask = positive_mask.unsqueeze(-1).expand_as(response_mask) * response_mask
+        negative_token_mask = negative_mask.unsqueeze(-1).expand_as(response_mask) * response_mask
+
+        # 构建基础指标
+        base_metrics = {
+            "actor/ratio_mean@sum": agg_loss(loss_mat=ratio, loss_mask=response_mask, loss_agg_mode='seq-mean-token-mean',
+                                                global_valid_samples=global_valid_samples['response_mask'],).detach().item(),
+            "actor/ratio_max@max": torch.max(ratio * response_mask).detach().item(),
+            "actor/ratio_min@min": torch.min(ratio * response_mask + (1 - response_mask) * 1e10).detach().item(),
+            "actor/pg_loss@sum": cached["original_pg_loss"].detach().item(),
+            "actor/kl_loss@sum": cached["kl_loss"].detach().item(),
+            "actor/total_loss@sum": cached["total_loss"].detach().item(),
+            "actor/approxkl@sum": agg_loss(
+                loss_mat=cached["approxkl"], loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                batch_num_tokens=batch_num_tokens['response_mask'], global_valid_samples=global_valid_samples['response_mask']
+            ).detach().item(),
+            "actor/policykl@sum": agg_loss(
+                loss_mat=cached["policykl"], loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                batch_num_tokens=batch_num_tokens['response_mask'], global_valid_samples=global_valid_samples['response_mask']
+            ).detach().item(),
+        }
+
+        # 根据PG变体添加特定指标
+        pg_variant = cached["pg_variant"]
+
+        if pg_variant == "ppo":
+            ppo_metrics = {
+                "actor/ppo_ratio_high_clipfrac@sum": cached["ppo_ratio_high_clipfrac"],
+                "actor/ppo_ratio_low_clipfrac@sum": cached["ppo_ratio_low_clipfrac"],
+                "actor/ppo_ratio_clipfrac@sum": cached["ppo_ratio_clipfrac"],
+            }
+            base_metrics.update(ppo_metrics)
+
+        elif pg_variant == "tis":
+            tis_metrics = {
+                "actor/tis_lower_clipfrac@sum": cached["tis_lower_clipfrac"],
+                "actor/tis_upper_clipfrac@sum": cached["tis_upper_clipfrac"],
+                "actor/tis_total_clipfrac@sum": cached["tis_total_clipfrac"],
+                "actor/tis_clipped_ratio_mean@sum": agg_loss(
+                loss_mat=cached["tis_clipped_ratio"], loss_mask=response_mask, loss_agg_mode='seq-mean-token-mean',
+                global_valid_samples=global_valid_samples['response_mask']).detach().item(),
+                "actor/tis_lower_bound": cached["tis_lower_bound"],
+                "actor/tis_upper_bound": cached["tis_upper_bound"],
+            }
+            base_metrics.update(tis_metrics)
+
+        elif pg_variant == "topr":
+            # 计算TOPR损失组件的聚合指标
+            topr_loss_metrics = {
+                "actor/topr_positive_loss": agg_loss(
+                    loss_mat=cached["topr_positive_loss"],
+                    loss_mask=positive_token_mask,
+                    loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                ).detach().item(),
+                "actor/topr_negative_loss": agg_loss(
+                    loss_mat=cached["topr_negative_loss"],
+                    loss_mask=negative_token_mask,
+                    loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                ).detach().item(),
+                "actor/topr_weighted_positive_loss": agg_loss(
+                    loss_mat=cached["topr_weighted_positive_loss"],
+                    loss_mask=positive_token_mask,
+                    loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                ).detach().item(),
+                "actor/topr_weighted_negative_loss": agg_loss(
+                    loss_mat=cached["topr_weighted_negative_loss"],
+                    loss_mask=negative_token_mask,
+                    loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                ).detach().item(),
+            }
+
+            topr_metrics = {
+                "actor/topr_positive_samples@sum": cached["topr_positive_samples"],
+                "actor/topr_negative_samples@sum": cached["topr_negative_samples"],
+                "actor/topr_positive_ratio": cached["topr_positive_ratio"],
+                "actor/topr_negative_ratio": cached["topr_negative_ratio"],
+                "actor/topr_negative_lower_clipfrac": cached["topr_negative_lower_clipfrac"],
+                "actor/topr_negative_upper_clipfrac": cached["topr_negative_upper_clipfrac"],
+                "actor/topr_negative_total_clipfrac": cached["topr_negative_total_clipfrac"],
+                "actor/topr_scores_mean": cached["topr_scores_mean"],
+                "actor/topr_scores_std": cached["topr_scores_std"],
+                "actor/topr_positive_weight": cached["topr_positive_weight"],
+                "actor/topr_negative_weight": cached["topr_negative_weight"],
+                **topr_loss_metrics,
+            }
+            base_metrics.update(topr_metrics)
+
+        elif pg_variant == "cispo":
+            cispo_metrics = {
+                f"actor/cispo_{key}": value
+                for key, value in cached.items()
+                if key.startswith("cispo_") and key != "cispo_clipped_ratio"
+            }
+
+            # 特殊处理需要计算的指标
+            cispo_metrics["actor/cispo_clipped_ratio_mean@sum"] = agg_loss(loss_mat=cached["cispo_clipped_ratio"],
+                                                                       loss_mask=response_mask,
+                                                                       loss_agg_mode='seq-mean-token-mean',
+                                                                       batch_num_tokens=batch_num_tokens['response_mask'],
+                                                                       global_valid_samples=global_valid_samples['response_mask'])\
+                                                                        .detach().item()
+            base_metrics.update(cispo_metrics)
+
+        elif pg_variant == "kimi15":
+            kimi15_metrics = {
+                f"actor/kimi15_{key}": value for key, value in cached.items() if key.startswith("kimi15_")
+            }
+            base_metrics.update(kimi15_metrics)
+
+        return base_metrics
diff --git a/roll/pipeline/agentic/agentic_actor_worker.py b/roll/pipeline/agentic/agentic_actor_worker.py
index 75510c675..fad7b3996 100644
--- a/roll/pipeline/agentic/agentic_actor_worker.py
+++ b/roll/pipeline/agentic/agentic_actor_worker.py
@@ -4,7 +4,8 @@
 from roll.distributed.scheduler.protocol import DataProto
 from roll.pipeline.base_worker import ActorWorker as BaseActorWorker
 from roll.utils.functionals import masked_mean, agg_loss, compute_approx_kl
-
+from roll.pipeline.agentic.utils import compute_segment_masked_mean
+from roll.utils.train_infer_corrections import compute_train_infer_correction
 
 class ActorWorker(BaseActorWorker):
     def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
@@ -17,6 +18,9 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         ref_log_probs = data.batch["ref_log_probs"]
         advantages = data.batch["advantages"]
 
+        batch_num_tokens = data.meta_info['batch_num_tokens']
+        global_valid_samples = data.meta_info['global_valid_samples']
+
         log_probs = self.strategy.op_compute_log_probs(
             logits=output_tensor, input_ids=data.batch["input_ids"], attention_mask=data.batch["response_mask"]
         )
@@ -24,16 +28,40 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         infer_log_probs = data.batch.get("infer_logprobs", old_log_probs)
         infer_log_probs = infer_log_probs if len(infer_log_probs) > 0 else old_log_probs
 
+        train_infer_metric = {}
+        if not self.pipeline_config.enable_old_logprobs_recompute:
+            train_infer_is_weight, filter_mask, train_infer_metric = compute_train_infer_correction(
+                cfg=self.pipeline_config.train_infer_correction,
+                response_mask=response_mask,
+                old_log_probs=old_log_probs,
+                infer_log_probs=infer_log_probs,
+                global_valid_samples=global_valid_samples['response_mask'],
+                global_valid_tokens=batch_num_tokens['response_mask'],
+            )
+
+            # Apply filter mask to response_mask
+            response_mask = response_mask.long() * filter_mask.long()
+        else:
+            train_infer_is_weight = data.batch['train_infer_is_weight']
+
         if self.pipeline_config.ratio_type == "segment":
-            raise NotImplemented(f"ratio_type: {self.pipeline_config.ratio_type} not implemented")
+            # 计算序列级别的 ratio：对每段连续的1分别计算 masked_mean，不连续的段不相乘
+            log_ratio = log_probs - old_log_probs
+            masked_log_ratio = compute_segment_masked_mean(log_ratio, response_mask)
+            ratio = masked_log_ratio.exp()
         else:
             ratio = (log_probs - old_log_probs).exp()
-        
-        train_infer_ratio = (log_probs - infer_log_probs).exp()
-        train_infer_diff = log_probs.exp() - infer_log_probs.exp()
 
-        pg_clip_low = self.pipeline_config.pg_clip_low if self.pipeline_config.use_pg_clip_range else self.pipeline_config.pg_clip
-        pg_clip_high = self.pipeline_config.pg_clip_high if self.pipeline_config.use_pg_clip_range else self.pipeline_config.pg_clip  
+        pg_clip_low = (
+            self.pipeline_config.pg_clip_low
+            if self.pipeline_config.use_pg_clip_range
+            else self.pipeline_config.pg_clip
+        )
+        pg_clip_high = (
+            self.pipeline_config.pg_clip_high
+            if self.pipeline_config.use_pg_clip_range
+            else self.pipeline_config.pg_clip
+        )
         surr1 = ratio * advantages
         surr2 = ratio.clamp(1 - pg_clip_low, 1 + pg_clip_high) * advantages
         pg_loss = -torch.min(surr1, surr2)
@@ -41,11 +69,17 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
             dual_clip_loss = -torch.max(-pg_loss, (1 + self.pipeline_config.pg_clip * 2) * advantages)
             pg_loss = torch.where(advantages < 0, dual_clip_loss, pg_loss)
 
-        pg_loss = agg_loss(loss_mat=pg_loss, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode)
+        if self.pipeline_config.train_infer_correction.is_weight.enabled:
+            pg_loss = pg_loss * train_infer_is_weight
 
-        kl_loss = compute_approx_kl(log_probs=log_probs, log_probs_base=ref_log_probs, action_mask=response_mask,
-                                    kl_penalty="k3")
-        kl_loss = agg_loss(loss_mat=kl_loss, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode)
+        pg_loss = agg_loss(loss_mat=pg_loss, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                           batch_num_tokens=batch_num_tokens['response_mask'], global_valid_samples=global_valid_samples['response_mask'])
+
+        kl_loss = compute_approx_kl(
+            log_probs=log_probs, log_probs_base=ref_log_probs, action_mask=response_mask, kl_penalty="k3"
+        )
+        kl_loss = agg_loss(loss_mat=kl_loss, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                           batch_num_tokens=batch_num_tokens['response_mask'], global_valid_samples=global_valid_samples['response_mask'])
 
         approxkl = compute_approx_kl(
             log_probs=log_probs, log_probs_base=old_log_probs, action_mask=response_mask, kl_penalty="mse"
@@ -62,37 +96,52 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         else:
             total_loss = pg_loss
         if self.pipeline_config.entropy_loss_coef > 0:
-            entropy = self.strategy.op_compute_entropy(logits=output_tensor, attention_mask=data.batch["response_mask"])
+            entropy = self.strategy.op_compute_entropy(
+                logits=output_tensor, attention_mask=data.batch["response_mask"]
+            )
             entropy_loss = agg_loss(
                 loss_mat=entropy,
                 loss_mask=response_mask,
                 loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                batch_num_tokens=batch_num_tokens['response_mask'],
+                global_valid_samples=global_valid_samples['response_mask'],
             )
             total_loss = total_loss - entropy_loss * self.pipeline_config.entropy_loss_coef
 
-        train_infer_prob_metric = {
-            "actor/train_infer_ratio_mean": masked_mean(train_infer_ratio, response_mask, dim=-1).mean().detach().item(),
-            "actor/train_infer_diff_mean": masked_mean(train_infer_diff, response_mask, dim=-1).mean().detach().item(),
-        }
-
         pg_metrics = {
-            "actor/ppo_ratio_high_clipfrac": clipped_high.mean().detach().item(),
-            "actor/ppo_ratio_low_clipfrac": clipped_low.mean().detach().item(),
-            "actor/ppo_ratio_clipfrac": clipped.mean().detach().item(),
-            "actor/ratio_mean": masked_mean(ratio, response_mask, dim=-1).mean().detach().item(),
-            "actor/ratio_max": torch.max(ratio * response_mask).detach().item(),
-            "actor/ratio_min": torch.min(ratio * response_mask + (1 - response_mask) * 1e10).detach().item(),
-            "actor/clipfrac": agg_loss(loss_mat=torch.lt(surr2, surr1).float(), loss_mask=response_mask,
-                                       loss_agg_mode=self.pipeline_config.loss_agg_mode).detach().item(),
-            "actor/pg_loss": pg_loss.detach().item(),
-            "actor/kl_loss": kl_loss.detach().item(),
-            "actor/total_loss": total_loss.detach().item(),
-            "actor/approxkl": agg_loss(loss_mat=approxkl, loss_mask=response_mask,
-                                       loss_agg_mode=self.pipeline_config.loss_agg_mode).detach().item(),
-            "actor/policykl": agg_loss(loss_mat=policykl, loss_mask=response_mask,
-                                       loss_agg_mode=self.pipeline_config.loss_agg_mode).detach().item(),
-            **train_infer_prob_metric
+            "actor/ppo_ratio_high_clipfrac@sum": agg_loss(loss_mat=clipped_high,
+                                                loss_mask=response_mask, loss_agg_mode='token-mean',
+                                                batch_num_tokens=batch_num_tokens['response_mask'],).detach().item(),
+            "actor/ppo_ratio_low_clipfrac@sum": agg_loss(loss_mat=clipped_low,
+                                                loss_mask=response_mask, loss_agg_mode='token-mean',
+                                                batch_num_tokens=batch_num_tokens['response_mask'],).detach().item(),
+            "actor/ppo_ratio_clipfrac@sum": agg_loss(loss_mat=clipped,
+                                                loss_mask=response_mask, loss_agg_mode='token-mean',
+                                                batch_num_tokens=batch_num_tokens['response_mask'],).detach().item(),
+            "actor/ratio_mean@sum": agg_loss(loss_mat=ratio,
+                                                loss_mask=response_mask, loss_agg_mode='seq-mean-token-mean',
+                                                global_valid_samples=global_valid_samples['response_mask'],).detach().item(),
+            "actor/ratio_max@max": torch.max(ratio * response_mask).detach().item(),
+            "actor/ratio_min@min": torch.min(ratio * response_mask + (1 - response_mask) * 1e10).detach().item(),
+            "actor/clipfrac@sum": agg_loss(
+                loss_mat=torch.lt(surr2, surr1).float(),
+                loss_mask=response_mask,
+                loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                batch_num_tokens=batch_num_tokens['response_mask'],
+                global_valid_samples=global_valid_samples['response_mask'],
+            ).detach().item(),
+            "actor/pg_loss@sum": pg_loss.detach().item(),
+            "actor/kl_loss@sum": kl_loss.detach().item(),
+            "actor/total_loss@sum": total_loss.detach().item(),
+            "actor/approxkl@sum": agg_loss(
+                loss_mat=approxkl, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                batch_num_tokens=batch_num_tokens['response_mask'], global_valid_samples=global_valid_samples['response_mask']
+            ).detach().item(),
+            "actor/policykl@sum": agg_loss(
+                loss_mat=policykl, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                batch_num_tokens=batch_num_tokens['response_mask'], global_valid_samples=global_valid_samples['response_mask']
+            ).detach().item(),
+            **train_infer_metric,
         }
-        
-        return total_loss, pg_metrics
 
+        return total_loss, pg_metrics
diff --git a/roll/pipeline/agentic/agentic_config.py b/roll/pipeline/agentic/agentic_config.py
index fc2e53cbb..231f3859d 100644
--- a/roll/pipeline/agentic/agentic_config.py
+++ b/roll/pipeline/agentic/agentic_config.py
@@ -8,7 +8,7 @@
 
 from omegaconf import DictConfig
 
-from roll.configs.base_config import PPOConfig
+from roll.configs.base_config import PPOConfig, RouterArguments
 from roll.configs.worker_config import WorkerConfig
 from roll.utils.logging import get_logger
 
@@ -41,7 +41,7 @@ def _resolve_reward_norm_defaults(method: str, grouping: str) -> Dict[str, Optio
 
 @dataclass
 class RewardNormalizationConfig:
-    grouping: str = field(default="state", metadata={"help": "state / batch / inductive"})
+    grouping: str = field(default="batch", metadata={"help": "state / batch / inductive / global"})
     method: str = field(
         default="identity",
         metadata={
@@ -61,6 +61,16 @@ class RewardNormalizationConfig:
             "help": "Std type for reward normalization: 'batch' (normalize across batch), 'group' (normalize within groups), None (without dividing by std)"
         },
     )
+    global_scale_factor: Optional[float] = field(
+        default=None,
+        metadata={
+            "help": "Scale factor for global reward transformation. Applied after mapping if both are specified."
+        },
+    )
+    global_shift_value: Optional[float] = field(
+        default=None,
+        metadata={"help": "Shift value for global reward transformation. Applied after scaling if specified."},
+    )
 
     def __post_init__(self):
 
@@ -160,6 +170,18 @@ def final_group_size(self):
         return self.group_size + self.group_size_redundancy
 
 
+@dataclass
+class RewardConfig(WorkerConfig):
+    llm_proxy: LLMProxyConfig = field(default_factory=LLMProxyConfig, metadata={"help": "llm proxy config."})
+
+@dataclass
+class EnvMonitorConfig:
+    """Configuration for environment activity monitoring."""
+    enable: bool = field(default=True, metadata={"help": "Enable env monitoring"})
+    monitor_interval: int = field(default=30, metadata={"help": "Monitor interval in seconds"})
+    hung_timeout: int = field(default=3600, metadata={"help": "Hung timeout threshold in seconds (default: 1 hour)"})
+
+
 @dataclass
 class AgenticConfig(PPOConfig):
     # agentic related
@@ -167,9 +189,16 @@ class AgenticConfig(PPOConfig):
     train_env_manager: EnvManagerConfig = field(default_factory=EnvManagerConfig)
     val_env_manager: EnvManagerConfig = field(default_factory=EnvManagerConfig)
     render_save_dir: str = field(default=None, metadata={"help": "Directory to save rendered frames."})
+    reward: RewardConfig = field(default=None, metadata={"help": "Configuration for reward inference."})
     reward_normalization: RewardNormalizationConfig = field(
         default_factory=RewardNormalizationConfig, metadata={"help": "Reward normalization configuration."}
     )
+    env_monitor: EnvMonitorConfig = field(
+        default_factory=EnvMonitorConfig, metadata={"help": "Environment monitoring configuration."}
+    )
+    dirty_data_mask: bool = field(default=False, metadata={"help": "if dirty data mask is True, will mask dirty data"})
+    open_feedback_turn: bool = field(default=False, metadata={"help": "open feedback turn"})
+    use_token_reward: bool = field(default=False, metadata={"help": "use token reward"})
 
     batch_adjust_mode: Literal["copy", "delete", "auto", "random_sample"] = field(
         default="copy", metadata={"help": "batch adjust mode: copy or delete"}
@@ -178,20 +207,77 @@ class AgenticConfig(PPOConfig):
     step_reward_weight: float = field(default=1.0, metadata={"help": "Step reward weight, used in GiGPO."})
     step_reward_gamma: float = field(default=0.95, metadata={"help": "Gamma parameter for step reward calculation"})
     ratio_type: Literal["token", "segment"] = field(default="token", metadata={"help": "Ratio type: token or segment"})
+    exp_mode: str = field(
+        default="train",
+        metadata={
+            "help": "experiment mode: 'train' for training, 'eval_gt' for ground truth validation, 'eval_test' for unit test validation"
+        },
+    )
+
+    partial_gpu_mode: bool = field(
+        default=True,
+        metadata={
+            "help": "Enable partial GPU mode. When True, AgenticPipeline will validate and derive "
+                    "partial_gpu_mode from device_mapping; when False, partial GPU logic is disabled."
+        },
+    )
+
+    parse_tool_call_parameter_to_dict: bool = field(default=False, metadata={"help": "Parse tool call parameter to dict. for https://github.com/QwenLM/Qwen3-Coder/issues/444"})
+
+    skip_mock_system_prompt: bool = field(
+        default=False,
+        metadata={
+            "help": "Set to True when chat template will not add system prompt automatically if not present in messages, e.g. Qwen3.5 series."
+        }
+    )
 
     def __post_init__(self):
-        self.actor_infer.generating_args.num_return_sequences = 1
+        # Handle OPD mapping FIRST before any access to actor_train/actor_infer/reference
+        # This ensures student_train/student_infer/teacher are mapped correctly
+        self._handle_opd_mapping()
+
+        # Now safe to access actor_infer (may have been mapped from student_infer)
+        assert self.actor_infer.generating_args or self.train_env_manager.generating_args, "must have generating_args in env_manager or actor infer."
+
+        # If actor_infer.generating_args exists, set it for both env managers
+        if self.actor_infer.generating_args:
+            self.train_env_manager.generating_args = self.actor_infer.generating_args
+            self.val_env_manager.generating_args = self.actor_infer.generating_args
+        # If train_env_manager.generating_args exists, set it for actor_infer
+        elif self.train_env_manager.generating_args:
+            self.actor_infer.generating_args = self.train_env_manager.generating_args
+
+        # Ensure num_return_sequences is 1 for all generating_args
+        if self.actor_infer.generating_args:
+            self.actor_infer.generating_args.num_return_sequences = 1
+        if self.train_env_manager.generating_args:
+            self.train_env_manager.generating_args.num_return_sequences = 1
+        if self.val_env_manager.generating_args:
+            self.val_env_manager.generating_args.num_return_sequences = 1
+
+        logger.info(f"actor_infer.generating_args: {self.actor_infer.generating_args}\n"
+                    f"train_env_manager.generating_args: {self.train_env_manager.generating_args}\n"
+                    f"val_env_manager.generating_args: {self.val_env_manager.generating_args}")
         super().__post_init__()
 
         # default worker_cls
         if self.actor_train.worker_cls is None:
             self.actor_train.worker_cls = "roll.pipeline.agentic.agentic_actor_worker.ActorWorker"
         if self.actor_infer.worker_cls is None:
-            self.actor_infer.worker_cls = "roll.pipeline.base_worker.ActorWorker"
+            self.actor_infer.worker_cls = "roll.pipeline.base_worker.InferWorker"
         if self.reference.worker_cls is None:
             self.reference.worker_cls = "roll.pipeline.base_worker.ActorWorker"
         if self.critic.worker_cls is None:
             self.critic.worker_cls = "roll.pipeline.base_worker.CriticWorker"
+        if self.reward:
+            if self.reward.worker_cls is None:
+                self.reward.worker_cls = "roll.pipeline.base_worker.InferWorker"
+            if self.reward.name is None:
+                self.reward.name = "reward"
+
+        if self.router_args is None:
+            self.router_args = RouterArguments(router_name="EnvAffinityRouter", router_config=dict())
+            self.router_args.max_running_requests = self.max_running_requests
 
         self.train_env_manager.name = "train_env"
         self.val_env_manager.name = "val_env"
@@ -205,9 +291,7 @@ def __post_init__(self):
         assert self.max_steps > 0 or self.max_steps == -1, "max_steps must be greater than 0 or -1"
 
         self.train_env_manager.model_args.model_name_or_path = self.pretrain
-        self.train_env_manager.generating_args = self.actor_infer.generating_args
         self.val_env_manager.model_args.model_name_or_path = self.pretrain
-        self.val_env_manager.generating_args = self.actor_infer.generating_args
         self.custom_envs = DictConfig(self.custom_envs)
         self.make_env_configs(self.train_env_manager)
         self.make_env_configs(self.val_env_manager)
@@ -222,10 +306,30 @@ def __post_init__(self):
         logger.info(f"train_env_manager.max_traj_per_env: {self.train_env_manager.max_traj_per_env}")
         assert self.train_env_manager.max_traj_per_env >= traj_per_env, f"max_traj_per_env must be >= {traj_per_env}"
 
+        # Validate rollout_batch_size is compatible with group_size
+        # The scheduler collects trajectories in complete groups to maintain variance reduction properties
+        if self.rollout_batch_size > 0:  # Skip validation if negative (unlimited batch)
+            assert self.rollout_batch_size % self.train_env_manager.group_size == 0, (
+                f"rollout_batch_size ({self.rollout_batch_size}) must be a multiple of "
+                f"train_env_manager.group_size ({self.train_env_manager.group_size}). "
+                f"The scheduler collects trajectories in complete groups, so batch_size must be divisible by group_size. "
+                f"Suggested values: rollout_batch_size={self.rollout_batch_size} with group_size in {[i for i in [1, 2, 4, 8, 16] if self.rollout_batch_size % i == 0]}, "
+                f"or group_size={self.train_env_manager.group_size} with rollout_batch_size as a multiple of {self.train_env_manager.group_size}."
+            )
+
         val_env_num = self.val_env_manager.num_env_groups * self.val_env_manager.group_size
         if self.val_batch_size < 0:
             self.val_env_manager.max_traj_per_env = sys.maxsize
         else:
+
+            # Validate val_batch_size is compatible with group_size (similar to rollout_batch_size validation)
+            assert self.val_batch_size % self.val_env_manager.group_size == 0, (
+                f"val_batch_size ({self.val_batch_size}) must be a multiple of "
+                f"val_env_manager.group_size ({self.val_env_manager.group_size}). "
+                f"Suggested values: val_batch_size={self.val_batch_size} with group_size in {[i for i in [1, 2, 4, 8, 16] if self.val_batch_size % i == 0]}, "
+                f"or group_size={self.val_env_manager.group_size} with val_batch_size as a multiple of {self.val_env_manager.group_size}."
+            )
+
             assert (
                 self.val_batch_size % val_env_num == 0
             ), f"val_batch_size {self.val_batch_size} must be divisible by val_env_num {val_env_num}, equal best"
@@ -236,7 +340,22 @@ def __post_init__(self):
         logger.info(f"val_env_manager.max_traj_per_env: {self.val_env_manager.max_traj_per_env}")
         assert self.val_env_manager.max_traj_per_env >= traj_per_env, f"max_traj_per_env must be >= {traj_per_env}"
 
-        self.validate_worker_config()
+        if (
+            hasattr(self, "actor_infer")
+            and isinstance(self.actor_infer, WorkerConfig)
+            and self.actor_infer.strategy_args is not None
+        ):
+            strategy_name = self.actor_infer.strategy_args.strategy_name
+            assert strategy_name in ["vllm", "sglang"]
+            max_concurrency = max(
+                self.train_env_manager.world_size * self.train_env_manager.max_env_num_per_worker + 1,
+                self.val_env_manager.world_size * self.val_env_manager.max_env_num_per_worker + 1,
+            )
+            self.actor_infer.max_concurrency = max(self.actor_infer.max_concurrency, max_concurrency)
+            logger.info(f"Set max_concurrency of actor_infer to {self.actor_infer.max_concurrency}")
+
+        # Apply OPD configuration at the end (handles student_train/student_infer/teacher mapping)
+        self._apply_opd_config()
 
     def make_env_configs(self, env_manager_config: EnvManagerConfig):
         # construct env configs
diff --git a/roll/pipeline/agentic/agentic_pipeline.py b/roll/pipeline/agentic/agentic_pipeline.py
index 4e666e6fd..e6313537f 100644
--- a/roll/pipeline/agentic/agentic_pipeline.py
+++ b/roll/pipeline/agentic/agentic_pipeline.py
@@ -1,7 +1,7 @@
 import json
 import os.path
-import random
 import time
+from concurrent.futures import ThreadPoolExecutor
 from typing import Any, Dict, List
 
 import numpy as np
@@ -12,37 +12,53 @@
 from ray.util.timer import _Timer
 
 from roll.datasets.global_dataset import GlobalDatasetManager
-from roll.distributed.scheduler.rollout_scheduler import RolloutScheduler
 from roll.distributed.executor.cluster import Cluster
 from roll.distributed.scheduler.protocol import DataProto
+from roll.distributed.scheduler.router import RouterManager
+from roll.distributed.scheduler.rollout_scheduler import RolloutScheduler
+from roll.configs.base_config import RouterArguments
 from roll.models.model_providers import default_tokenizer_provider
 from roll.pipeline.agentic.agentic_config import AgenticConfig, EnvManagerConfig
-from roll.pipeline.agentic.utils import (dump_rollout_render, compute_discounted_returns,
-                                         compute_response_level_rewards, dump_rollout_trajectories, get_agentic_response_level_mask, agentic_compute_advantage)
+from roll.pipeline.agentic.utils import (
+    agentic_compute_advantage,
+    compute_discounted_returns,
+    compute_response_level_rewards,
+    dump_rollout_trajectories,
+    get_agentic_response_level_mask,
+)
 from roll.pipeline.base_pipeline import BasePipeline
 from roll.utils.constants import RAY_NAMESPACE
+from roll.utils.dynamic_batching import dynamic_batching_shard
 from roll.utils.functionals import (
-    apply_kl_penalty,
-    compute_advantage,
-    reduce_metrics,
-    masked_mean,
     RunningMoments,
-    compute_clip_fraction,
     agg_loss,
     compute_token_reward,
+    masked_mean,
+    reduce_metrics,
+    batch_balance
 )
+from roll.utils.train_infer_corrections import apply_train_infer_correction_to_batch
 from roll.utils.kl_controller import get_kl_controller
 from roll.utils.logging import get_logger
+from roll.utils.offload_states import OffloadStateType
+
 
 logger = get_logger()
 
 
+def is_lora_training(pipeline_config: AgenticConfig) -> bool:
+    return pipeline_config.actor_train.model_args.lora_target is not None
+
 class AgenticPipeline(BasePipeline):
     def __init__(self, pipeline_config: AgenticConfig):
         super().__init__(pipeline_config)
         self.pipeline_config: AgenticConfig
 
         self.pipeline_config.set_max_steps(max_steps=self.pipeline_config.max_steps)
+        self.use_ref_model = self.pipeline_config.enable_reference and (not is_lora_training(self.pipeline_config))
+
+        # Derived configuration for partial GPU mode (auto-detected from device_mapping)
+        self.partial_gpu_mode: bool = False
 
         self.kl_ctrl = get_kl_controller(
             init_kl_coef=self.pipeline_config.init_kl_coef,
@@ -50,12 +66,14 @@ def __init__(self, pipeline_config: AgenticConfig):
             kl_horizon=self.pipeline_config.kl_horizon,
         )
 
+        # INIT PHASE: Create Clusters
         self.actor_train: Any = Cluster(
             name=self.pipeline_config.actor_train.name,
             worker_cls=self.pipeline_config.actor_train.worker_cls,
             resource_manager=self.resource_manager,
             worker_config=self.pipeline_config.actor_train,
         )
+
         self.actor_infer: Any = Cluster(
             name=self.pipeline_config.actor_infer.name,
             worker_cls=self.pipeline_config.actor_infer.worker_cls,
@@ -64,7 +82,7 @@ def __init__(self, pipeline_config: AgenticConfig):
         )
         download_clusters = [self.actor_train, self.actor_infer]
 
-        if self.pipeline_config.enable_reference:
+        if self.use_ref_model:
             self.reference: Any = Cluster(
                 name=self.pipeline_config.reference.name,
                 worker_cls=self.pipeline_config.reference.worker_cls,
@@ -73,6 +91,7 @@ def __init__(self, pipeline_config: AgenticConfig):
             )
             download_clusters.append(self.reference)
 
+
         if self.pipeline_config.adv_estimator == "gae":
             self.critic: Any = Cluster(
                 name=self.pipeline_config.critic.name,
@@ -81,10 +100,47 @@ def __init__(self, pipeline_config: AgenticConfig):
                 worker_config=self.pipeline_config.critic,
             )
             download_clusters.append(self.critic)
+
+        # INIT PHASE: Create Reward Cluster (if device_mapping is configured)
+        self.reward = None
+        self.reward_scheduler = None
+        if (
+            self.pipeline_config.reward is not None
+            and len(self.pipeline_config.reward.device_mapping) > 0
+        ):
+            self.reward: Any = Cluster(
+                name=self.pipeline_config.reward.name,
+                worker_cls=self.pipeline_config.reward.worker_cls,
+                resource_manager=self.resource_manager,
+                worker_config=self.pipeline_config.reward,
+            )
+            download_clusters.append(self.reward)
+
+        # INIT PHASE: Download Models
         self.download_models(*download_clusters)
         self.tokenizer = default_tokenizer_provider(model_args=self.pipeline_config.actor_train.model_args)
 
+        if self.reward:
+            # Create reward scheduler as Ray named actor for environment managers to access
+            self.reward_scheduler = ray.remote(RouterManager).options(
+                name=f"RewardScheduler-{self.pipeline_config.reward.name}",
+                get_if_exists=True,
+                namespace=RAY_NAMESPACE,
+                scheduling_strategy=NodeAffinitySchedulingStrategy(
+                    node_id=ray.get_runtime_context().get_node_id(),
+                    soft=False,
+                ),
+            ).remote(
+                actor_cluster=self.reward,
+                router_args=RouterArguments(router_name="EnvAffinityRouter"),
+                num_gpus_per_node=self.pipeline_config.num_gpus_per_node
+            )
+            ray.get(self.reward_scheduler.initialize.remote())
+            logger.info(f"Created reward scheduler as Ray named actor: RewardScheduler-{self.pipeline_config.reward.name}")
+
+        # INIT PHASE: Create RolloutSchedulers
         self.train_rollout_scheduler = ray.remote(RolloutScheduler).options(
+            name="RolloutScheduler-train",
             scheduling_strategy=NodeAffinitySchedulingStrategy(
                 node_id=ray.get_runtime_context().get_node_id(),
                 soft=False)).remote(
@@ -94,7 +150,9 @@ def __init__(self, pipeline_config: AgenticConfig):
             infer_cluster=self.actor_infer,
             mode="train",
         )
+
         self.val_rollout_scheduler = ray.remote(RolloutScheduler).options(
+            name="RolloutScheduler-val",
             scheduling_strategy=NodeAffinitySchedulingStrategy(
                 node_id=ray.get_runtime_context().get_node_id(),
                 soft=False)).remote(
@@ -107,16 +165,26 @@ def __init__(self, pipeline_config: AgenticConfig):
         self.val_dataset_manager = GlobalDatasetManager.options(name=f"val_dataset_manager",
                                                                 get_if_exists=True,
                                                                 namespace=RAY_NAMESPACE).remote()
+        # INIT PHASE: Initialize Clusters
         refs: List[ray.ObjectRef] = []
         refs.extend(self.actor_train.initialize(pipeline_config=self.pipeline_config, blocking=False))
         if self.pipeline_config.adv_estimator == "gae":
             refs.extend(self.critic.initialize(pipeline_config=self.pipeline_config, blocking=False))
         ray.get(refs)
 
-        self.actor_infer.initialize(pipeline_config=self.pipeline_config, blocking=True)
+        refs = []
+        if self.reward:
+            # INIT PHASE: Initialize Reward Cluster
+            refs.extend(self.reward.initialize(pipeline_config=self.pipeline_config, blocking=False))
+        refs.extend(self.actor_infer.initialize(pipeline_config=self.pipeline_config, blocking=False))
+        ray.get(refs)
 
-        if self.pipeline_config.enable_reference:
+        if self.use_ref_model:
             refs.extend(self.reference.initialize(pipeline_config=self.pipeline_config, blocking=True))
+
+        ray.get([self.train_rollout_scheduler.initialize.remote(), self.val_rollout_scheduler.initialize.remote()])
+
+        # INIT PHASE: Setup Operations
         self.set_model_update_pair(
             src_cluster=self.actor_train,
             tgt_cluster=self.actor_infer,
@@ -130,6 +198,12 @@ def __init__(self, pipeline_config: AgenticConfig):
 
         self.running = RunningMoments()
 
+        # Validate partial GPU mode configuration and set self.partial_gpu_mode
+        if self.pipeline_config.partial_gpu_mode:
+            self.partial_gpu_mode = self._validate_partial_gpu_config()
+        else:
+            self.partial_gpu_mode = False
+
     @torch.no_grad()
     def run(self):
         # Calculate tokens-per-second system throughput
@@ -145,58 +219,156 @@ def run(self):
             # Add overall step timing
             with Timer(name="pipeline_step_total", logger=None) as step_timer:
                 with tps_timer:
+                    # PHASE 1: Offload States
                     if self.pipeline_config.adv_estimator == "gae":
                         self.critic.offload_states(blocking=True)
                     self.actor_train.offload_states(blocking=True)
 
+                    # PHASE 2: Suspend & Stop Server
+                    # Suspend rollout scheduler to pause request processing
                     ray.get(self.train_rollout_scheduler.suspend.remote())
-                    if self.pipeline_config.async_generation_ratio > 0:
-                        self.actor_infer.stop_server()
 
+                    # Stop generation server if using async mode (will restart after model update)
+                    if self.pipeline_config.async_pipeline:
+                        self.actor_infer.offload_states(include=OffloadStateType.other_params)
+
+                    # PHASE 3: Model Update
                     with Timer(name="model_update", logger=None) as model_update_timer:
                         model_update_metrics: Dict = self.model_update(global_step)
                     metrics["time/step_model_update"] =model_update_timer.last
-
                     metrics.update(model_update_metrics)
-                    if self.pipeline_config.async_generation_ratio > 0:
-                        self.actor_infer.start_server(data=DataProto(meta_info={"global_step": global_step, "is_offload_states": False}))
-                    else:
-                        self.actor_infer.start_server(data=DataProto(meta_info={"global_step": global_step, "is_offload_states": True}))
+
+                    # PHASE 4: init kv cache
+                    self.actor_infer.load_states()
+                    if self.reward:
+                        self.reward.load_states()
+
+                    # PHASE 5: Expand Sampler (partial GPU mode, step > 0)
+                    # Restore routing state: model_update loaded states to ALL GPUs, now update active_dp_ranks
+                    # Step 0: active_dp_ranks initialized with all ranks {0,1,2,3}, no expand needed
+                    # Step 1+: After shrink in previous iteration, active_dp_ranks was {2,3}.
+                    #          model_update just loaded states to [0,1,2,3], so update routing state to match.
+                    #          Use skip_load=True to avoid re-loading already-loaded model states.
+                    if self.partial_gpu_mode and global_step > 0:
+                        target_gpus = []
+                        if hasattr(self.actor_train.worker_config, 'device_mapping') and self.actor_train.worker_config.device_mapping:
+                            target_gpus.extend(self.actor_train.worker_config.device_mapping)
+                        if self.pipeline_config.adv_estimator == "gae":
+                            if hasattr(self.critic.worker_config, 'device_mapping') and self.critic.worker_config.device_mapping:
+                                target_gpus.extend(self.critic.worker_config.device_mapping)
+
+                        if target_gpus:
+                            expand_metrics = ray.get(
+                                self.train_rollout_scheduler.expand_sampler.remote(target_gpus, skip_load=True)
+                            )
+                            logger.info(f"Expand routing state (skip_load): {expand_metrics}")
+                            metrics.update({"expand/" + k: v for k, v in expand_metrics.items()})
 
                     batch: DataProto = DataProto()
                     batch.meta_info = {"global_step": global_step}
 
-                    if self.pipeline_config.eval_steps > 0 and global_step % self.pipeline_config.eval_steps == 0:
-                        with Timer(name="val", logger=None) as val_timer:
-                            metrics.update(self.val(global_step=global_step))
-                        metrics["time/step_val"] = val_timer.last
+                    # PHASE 6: Validation (every eval_steps) - Async
+                    val_future = None
+                    val_metrics = {}
+                    with Timer(name="val", logger=None) as val_timer:
+                        if self.pipeline_config.eval_steps > 0 and global_step % self.pipeline_config.eval_steps == 0:
+                            # Submit val task to thread pool asynchronously
+                            val_future = self.executor.submit(self.val, global_step)
+
+                        # PHASE 7: Rollout Get Batch
+                        with Timer(name="rollout", logger=None) as rollout_timer:
+                            batch = ray.get(self.train_rollout_scheduler.get_batch.remote(batch, self.pipeline_config.rollout_batch_size))
+                            sample_uuids = [f"{traj_id}_{i}" for i, traj_id in enumerate(batch.non_tensor_batch['traj_id'])]
+                            batch.non_tensor_batch['sample_uuid'] = np.array(sample_uuids, dtype=object)
+                            if "get_batch_return_start_time" in batch.meta_info:
+                                metrics["time/get_batch_cost_train"] = time.time() - batch.meta_info.pop("get_batch_return_start_time")
+                            actor_infer_metrics = self.actor_infer.get_metrics()
+                            metrics.update(reduce_metrics(actor_infer_metrics.meta_info.pop("metrics", {})))
+                            metrics.update(compute_rollout_traj_metrics(batch))
+
+                            dump_rollout_trajectories(self.pipeline_config.rollout_dump_dir, global_step, batch)
+
+                        metrics["time/step_rollout"] = rollout_timer.last
+                        metrics.update(reduce_metrics(batch.meta_info.pop("metrics", {})))
+                        batch.meta_info["global_step"] = global_step
+                        batch.meta_info["_broadcast_non_tensor_batch"] = True
+                        batch.meta_info["loss_mask_keys"] = ["response_mask"]
 
-                    with Timer(name="rollout", logger=None) as rollout_timer:
-                        batch.meta_info["is_offload_states"] = True
-                        batch = ray.get(self.train_rollout_scheduler.get_batch.remote(batch, self.pipeline_config.rollout_batch_size))
-                        sample_uuids = [f"{traj_id}_{i}" for i, traj_id in enumerate(batch.non_tensor_batch['traj_id'])]
-                        batch.non_tensor_batch['sample_uuid'] = np.array(sample_uuids, dtype=object)
-                        if "get_batch_return_start_time" in batch.meta_info:
-                            metrics["time/get_batch_cost_train"] = time.time() - batch.meta_info.pop("get_batch_return_start_time")
-                        actor_infer_metrics = self.actor_infer.get_metrics()
-                        metrics.update(reduce_metrics(actor_infer_metrics.meta_info.pop("metrics", {})))
+                        # PHASE 8: Stop Server Sync (sync mode only) - Wait for async val to complete
+                        if val_future is not None:
+                            val_metrics = val_future.result()
 
-                        dump_rollout_trajectories(self.pipeline_config.rollout_dump_dir, global_step, batch)
+                    if len(val_metrics) > 0:
+                        metrics.update(val_metrics)
+                        metrics["time/step_val"] = val_timer.last
 
-                    metrics["time/step_rollout"] = rollout_timer.last
-                    metrics.update(reduce_metrics(batch.meta_info.pop("metrics", {})))
-                    batch.meta_info["global_step"] = global_step
-                    if not (self.pipeline_config.async_generation_ratio > 0):
-                        self.actor_infer.stop_server()
+                    if not self.pipeline_config.async_pipeline:
+                        # Suspend scheduler before offload actor infer, because there may be
+                        # some inflight redundant trajectories.
+                        ray.get(self.train_rollout_scheduler.suspend.remote())
+                        self.actor_infer.offload_states()
+                        if self.reward:
+                            self.reward.offload_states()
+
+                    # PHASE 9: Shrink Sampler (partial GPU mode)
+                    # Partial GPU overlap: Shrink sampler to free training GPUs before training phase
+                    # This offloads actor_infer models from training GPUs (e.g., [0,1]) so they can be
+                    # used by actor_train and critic for the training phase. After shrink, actor_infer
+                    # only has models loaded on inference-dedicated GPUs (e.g., [2,3]).
+                    #
+                    # Example with actor_infer on [0,1,2,3], actor_train on [0,1]:
+                    #   Before shrink: actor_infer has models on all GPUs [0,1,2,3]
+                    #   After shrink: actor_infer offloads from [0,1], keeps models on [2,3]
+                    #   During training: actor_train uses freed GPUs [0,1]
+                    #   Next iteration: model_update reloads actor_infer to all GPUs [0,1,2,3]
+                    elif self.partial_gpu_mode:
+                        with Timer(name="cal_ref_log_probs", logger=None) as shrink_timer:
+                            target_gpus = []
+                            # Collect actor_train GPUs
+                            if hasattr(self.actor_train.worker_config, 'device_mapping') and self.actor_train.worker_config.device_mapping:
+                                target_gpus.extend(self.actor_train.worker_config.device_mapping)
+                            # Collect critic GPUs if using GAE
+                            if self.pipeline_config.adv_estimator == "gae":
+                                if hasattr(self.critic.worker_config, 'device_mapping') and self.critic.worker_config.device_mapping:
+                                    target_gpus.extend(self.critic.worker_config.device_mapping)
+
+                            assert target_gpus, "cannot be empty"
+                            shrink_metrics = ray.get(self.train_rollout_scheduler.shrink_sampler.remote(target_gpus))
+                            logger.info(f"Shrink sampler: {shrink_metrics}")
+                            metrics.update({"shrink/" + k: v for k, v in shrink_metrics.items()})
+                        metrics["time/step_shrink"] = shrink_timer.last
 
                     batch = compute_discounted_returns(batch, self.pipeline_config.adv_estimator, self.pipeline_config.step_reward_gamma)
 
                     batch = self.adjust_batch(batch, mode=self.pipeline_config.batch_adjust_mode)
                     metrics.update(reduce_metrics(batch.meta_info.pop("metrics", {})))
 
+                    # PHASE 11: Reference Log Probs
                     with Timer(name="cal_ref_log_probs", logger=None) as cal_timer:
+                        # TODO better the code structure, move the dynamic batching and sequence packing to worker/strategy
                         if self.pipeline_config.enable_reference:
-                            ref_log_probs_refs: List[ray.ObjectRef] = self.reference.compute_log_probs(batch, blocking=False)
+                            worker_config = self.pipeline_config.reference if self.use_ref_model else self.pipeline_config.actor_train
+                            worker = self.reference if self.use_ref_model else self.pipeline_config.actor_train
+                            if worker_config.use_dynamic_batching_in_infer:
+                                batch, dynamic_batching_metrics = dynamic_batching_shard(
+                                    batch,
+                                    worker.dp_size,
+                                    worker_config.max_tokens_per_microbatch_in_infer,
+                                    worker_config.sequence_length_round_in_infer,
+                                    worker_config.strategy_args.strategy_config.get("pipeline_model_parallel_size", 1),
+                                    worker_config.strategy_args.strategy_config.get("virtual_pipeline_model_parallel_size", None),
+                                    "reference/compute_log_probs",
+                                )
+                                metrics.update(dynamic_batching_metrics)
+                            if not self.use_ref_model:
+                                batch.meta_info["disable_adapter"] = True
+                                batch.meta_info["is_offload_states"] = False
+                                batch_balance(batch, dp_size=self.actor_train.dp_size, minibatch_size=len(batch))
+                                ref_log_probs_refs: List[ray.ObjectRef] = self.actor_train.compute_log_probs(batch, blocking=False)
+                            else:
+                                batch_balance(batch, dp_size=self.reference.dp_size, minibatch_size=len(batch))
+                                ref_log_probs_refs: List[ray.ObjectRef] = self.reference.compute_log_probs(batch, blocking=False)
+
                             ref_log_probs = DataProto.materialize_concat(data_refs=ref_log_probs_refs)
                             ref_log_probs.rename(old_keys="log_probs", new_keys="ref_log_probs")
                             batch = batch.union(ref_log_probs)
@@ -205,9 +377,24 @@ def run(self):
                             metrics.update({"critic/ref_log_prob/mean": avg_ref_log_prob.item()})
                     metrics["time/step_ref_log_probs_values_reward"] = cal_timer.last
 
+                    # PHASE 12: Old Log Probs & Values
                     with Timer(name="cal_old_log_probs_values", logger=None) as cal_old_logpb_timer:
+                        if self.pipeline_config.enable_reference and not self.use_ref_model:
+                            batch.meta_info["disable_adapter"] = False
                         batch.meta_info["is_offload_states"] = False
                         if self.pipeline_config.enable_old_logprobs_recompute:
+                            batch_balance(batch, dp_size=self.actor_train.dp_size, minibatch_size=len(batch))
+                            if self.pipeline_config.actor_train.use_dynamic_batching_in_infer:
+                                batch, dynamic_batching_metrics = dynamic_batching_shard(
+                                    batch,
+                                    self.actor_train.dp_size,
+                                    self.pipeline_config.actor_train.max_tokens_per_microbatch_in_infer,
+                                    self.pipeline_config.actor_train.sequence_length_round_in_infer,
+                                    self.pipeline_config.actor_train.strategy_args.strategy_config.get("pipeline_model_parallel_size", 1),
+                                    self.pipeline_config.actor_train.strategy_args.strategy_config.get("virtual_pipeline_model_parallel_size", None),
+                                    "actor_train/compute_log_probs",
+                                )
+                                metrics.update(dynamic_batching_metrics)
                             old_log_probs: DataProto = self.actor_train.compute_log_probs(batch, blocking=True)
                             batch.batch["old_log_probs"] = old_log_probs.batch["log_probs"]
                             avg_old_log_prob = masked_mean(batch.batch["old_log_probs"], batch.batch["response_mask"][:, 1:])
@@ -245,6 +432,7 @@ def run(self):
                         metrics.update(mask_metrics)
                     metrics["time/step_cal_response_level_mask"] = timer.last
 
+                    # PHASE 13: Advantage Computation
                     with Timer(name="cal_response_norm_rewards", logger=None) as timer:
                         # Rewards need to be processed after grouping
                         # We can group by tag(env_type)/traj_group_id(group)/batch(rollout_batch)... to compute rewards / advantages
@@ -271,17 +459,40 @@ def run(self):
                             advantage_clip=self.pipeline_config.advantage_clip,
                             whiten_advantages=self.pipeline_config.whiten_advantages,
                             whiten_rewards=self.pipeline_config.whiten_rewards,
+                            pipeline_config=self.pipeline_config,
                         )
                         metrics.update(reduce_metrics(batch.meta_info.pop("metrics", {})))
                     metrics["time/step_adv"] = timer.last
 
+                    if self.pipeline_config.enable_old_logprobs_recompute:
+                        batch, corr_metrics = apply_train_infer_correction_to_batch(self.pipeline_config, batch,
+                                                                                    update_mask_keys=batch.meta_info['loss_mask_keys'])
+                        metrics.update(corr_metrics)
+
+                    # PHASE 14: Training (critic + actor)
                     with Timer(name="train_timer", logger=None) as train_timer:
                         if self.pipeline_config.adv_estimator == "gae":
                             critic_train_metrics_refs: List[ray.ObjectRef] = self.critic.train_step(batch, blocking=False)
 
                         # implement critic warmup
                         if self.pipeline_config.critic_warmup <= global_step:
+                            batch_balance_metrics = batch_balance(batch, dp_size=self.actor_train.dp_size,
+                                minibatch_size=self.actor_train.dp_size * self.pipeline_config.actor_train.training_args.per_device_train_batch_size *
+                                self.pipeline_config.actor_train.training_args.gradient_accumulation_steps,
+                                logging_prefix="global_seqlen/actor_train")
+                            metrics.update(batch_balance_metrics)
                             # update actor
+                            if self.pipeline_config.actor_train.use_dynamic_batching_in_train:
+                                batch, dynamic_batching_metrics = dynamic_batching_shard(
+                                    batch,
+                                    self.actor_train.dp_size,
+                                    self.pipeline_config.actor_train.max_tokens_per_microbatch_in_train,
+                                    self.pipeline_config.actor_train.sequence_length_round_in_train,
+                                    self.pipeline_config.actor_train.strategy_args.strategy_config.get("pipeline_model_parallel_size", 1),
+                                    self.pipeline_config.actor_train.strategy_args.strategy_config.get("virtual_pipeline_model_parallel_size", None),
+                                    "actor_train/train_step",
+                                )
+                                metrics.update(dynamic_batching_metrics)
                             actor_train_metrics_refs = self.actor_train.train_step(batch, blocking=False)
                             actor_train_metrics: DataProto = DataProto.materialize_concat(data_refs=actor_train_metrics_refs)
                             metrics.update(reduce_metrics(actor_train_metrics.meta_info.pop("metrics", {})))
@@ -293,7 +504,7 @@ def run(self):
                     metrics["time/step_train"] = train_timer.last
 
                 with Timer(name="compute_data_metrics", logger=None) as data_metrics_timer:
-                    data_metrics = compute_data_metrics(batch=batch)
+                    data_metrics = compute_train_data_metrics(batch=batch)
 
                 metrics["time/step_compute_data_metrics"] = data_metrics_timer.last
                 metrics.update(data_metrics)
@@ -318,6 +529,10 @@ def run(self):
                         log_res = []
                         batch_grouped = batch.group_by(keys="traj_id")
                         for group_name, group_batch in batch_grouped.items():
+                            if "step" in group_batch.non_tensor_batch.keys():
+                                indices = torch.argsort(torch.from_numpy(group_batch.non_tensor_batch["step"].astype(np.int64)))
+                                group_batch.reorder(indices)
+
                             prompt_mask = group_batch.batch["prompt_mask"]
                             non_prompt_mask = torch.logical_not(group_batch.batch["prompt_mask"]) * group_batch.batch["attention_mask"]
                             input_ids = group_batch.batch["input_ids"]
@@ -327,7 +542,7 @@ def run(self):
                             responses = self.tokenizer.batch_decode(response_ids_list, skip_special_tokens=False)
                             episode_scores = group_batch.non_tensor_batch["episode_scores"].tolist()
                             step_scores = group_batch.non_tensor_batch["step_scores"].tolist()
-                            if not isinstance(step_scores[0], float):
+                            if isinstance(step_scores[0], np.ndarray):
                                 step_scores = [t.tolist() for t in step_scores]
 
                             log_item = []
@@ -361,8 +576,11 @@ def run(self):
             self.train_rollout_scheduler.shutdown.remote(),
             self.val_rollout_scheduler.shutdown.remote(),
         ])
+
+
         logger.info("pipeline complete!")
 
+
     def val(self, global_step):
         batch = DataProto()
         metrics = {}
@@ -434,6 +652,11 @@ def adjust_batch(self, data: DataProto, mode="copy") -> DataProto:
         metrics = data.meta_info.get("metrics", {})
         metrics["system/batch_add_count"] = 0
         metrics["system/batch_remove_count"] = 0
+
+        # 防止删除所有样本导致空批次
+        if mode == "delete" and threshold >= batch_size:
+            mode = "copy"
+
         if mode == "delete":
             remove_indices = np.random.choice(batch_size, threshold, replace=False)
             remove_indices = np.sort(remove_indices)
@@ -463,6 +686,190 @@ def adjust_batch(self, data: DataProto, mode="copy") -> DataProto:
 
         return adjusted_batch
 
+    def _validate_partial_gpu_config(self) -> bool:
+        """Derive partial_gpu_mode from device_mapping and validate all requirements.
+
+        Universal validations (both Model A and B):
+        - Reference colocation with actor_train
+
+        Partial mode validations (Model B only - when train ⊂ infer):
+        1. Minimum DP size (≥2)
+        2. Async generation requirement (>0)
+        3. Critic disjoint from actor_train
+        4. Freed GPU capacity check
+        5. TP/PP/EP compatibility
+        6. At least 1 rank remains active
+
+        Returns:
+            partial_gpu_mode: True if train ⊂ infer (Configuration Model B),
+                              False if train ∩ infer = ∅ (Configuration Model A)
+
+        Raises:
+            ValueError: Invalid configuration (device_mapping overlap, capacity issues,
+                        DP size too small, missing async_generation_ratio, reference not colocated)
+        """
+        # rvst: yangpeng
+        # Extract device mappings
+        train_devices = set(self.actor_train.worker_config.device_mapping)
+        infer_devices = set(self.actor_infer.worker_config.device_mapping)
+        critic_devices = set(self.critic.worker_config.device_mapping) if hasattr(self, 'critic') and self.critic else set()
+        ref_devices = set(self.reference.worker_config.device_mapping) if self.pipeline_config.enable_reference else set()
+        reward_devices = set(self.reward.worker_config.device_mapping) if self.reward else set()
+
+        # VAL: VAL_NON_EMPTY - ensure device_mapping not empty
+        if not train_devices or not infer_devices:
+            raise ValueError(
+                f"device_mapping cannot be empty: "
+                f"train={list(train_devices)}, infer={list(infer_devices)}"
+            )
+
+        # Universal validation: Reference must always colocate with actor_train (both Model A and B)
+        # VAL: VAL_SUBSET (exact match) - reference colocation
+        if self.pipeline_config.enable_reference:
+            assert ref_devices == train_devices, (
+                f"Reference device_mapping must match actor_train exactly: "
+                f"ref={list(ref_devices)}, train={list(train_devices)}"
+            )
+
+        # Determine configuration mode
+        if train_devices.isdisjoint(infer_devices):
+            # Configuration Model A: Disjoint GPUs
+            partial_gpu_mode = False
+            logger.info("Detected Configuration Model A: Disjoint device_mapping, partial_gpu_mode=False")
+            return partial_gpu_mode
+
+        elif train_devices.issubset(infer_devices) and len(train_devices) < len(infer_devices):
+            # Configuration Model B: Partial overlap
+            partial_gpu_mode = True
+            logger.info("Detected Configuration Model B: Subset device_mapping, partial_gpu_mode=True")
+
+            # CRITICAL VALIDATIONS (6 checks for partial mode)
+
+            # Validation 1: Minimum DP size
+            # VAL: VAL_INT_RANGE(min=2, max=inf) - infer_dp_size
+            infer_dp_size = self.actor_infer.worker_config.world_size
+            assert infer_dp_size >= 2, (
+                f"partial_gpu_mode requires actor_infer.dp_size >= 2, "
+                f"got {infer_dp_size}"
+            )
+
+            # Validation 2: Async generation required
+            # VAL: VAL_INT_RANGE(min=0.0, exclusive) - async_generation_ratio
+            async_ratio = self.pipeline_config.async_generation_ratio
+            assert async_ratio > 0, (
+                f"partial_gpu_mode requires async_generation_ratio > 0, got {async_ratio}"
+            )
+
+            # Validation 3: Critic disjoint validation
+            # VAL: VAL_SUBSET(critic_devices, infer_devices) + disjoint check
+            if hasattr(self, 'critic') and self.critic is not None:
+                assert critic_devices.issubset(infer_devices), (
+                    f"Critic device_mapping must be subset of actor_infer: "
+                    f"critic={list(critic_devices)}, infer={list(infer_devices)}"
+                )
+                assert critic_devices.isdisjoint(train_devices), (
+                    f"Critic device_mapping must be disjoint from actor_train: "
+                    f"critic={list(critic_devices)}, train={list(train_devices)}"
+                )
+
+            # Validation 4: Freed GPU capacity
+            # VAL: VAL_INT_RANGE - freed GPU count check (no overlap)
+
+
+            # Validation 5: TP/PP/EP compatibility
+            # VAL: VAL_INT_RANGE(min=1) + device_mapping divisibility check
+            # Extract TP and PP sizes from strategy config since workers aren't initialized yet
+            infer_strategy_config = self.actor_infer.worker_config.strategy_args.strategy_config
+            tp_size = infer_strategy_config.get("tensor_parallel_size", 1)
+            pp_size = infer_strategy_config.get("pipeline_parallel_size", 1)
+
+            assert tp_size >= 1 and pp_size >= 1, (
+                f"tp_size and pp_size must be >= 1: tp={tp_size}, pp={pp_size}"
+            )
+
+            expected_gpu_count = tp_size * pp_size * infer_dp_size
+            actual_gpu_count = len(infer_devices)
+            assert expected_gpu_count == actual_gpu_count, (
+                f"Parallelism configuration mismatch: "
+                f"tp_size * pp_size * dp_size = {tp_size} * {pp_size} * {infer_dp_size} = {expected_gpu_count}, "
+                f"but device_mapping has {actual_gpu_count} GPUs"
+            )
+
+            # Validation 6: At least 1 rank remains active
+            # VAL: VAL_SUBSET, AST: AST_POSTCONDITION(remaining_ranks >= 1)
+            gpus_per_dp_rank = tp_size * pp_size
+            freed_gpus = train_devices | critic_devices
+            freed_gpu_list = list(freed_gpus)
+            self._validate_minimum_active_ranks(
+                infer_dp_size, infer_devices, freed_gpu_list, gpus_per_dp_rank
+            )
+
+            logger.info(
+                f"Partial GPU mode validated: infer_dp_size={infer_dp_size}, "
+                f"freed_gpus={sorted(freed_gpus)}"
+            )
+
+            return partial_gpu_mode
+
+        else:
+            partial_gpu_mode = False
+            assert len(train_devices) == len(infer_devices) + len(reward_devices),  "colocating mode"
+            assert self.pipeline_config.async_generation_ratio == 0, "colocating mode only support sync/on-policy training"
+
+            return partial_gpu_mode
+
+
+    def _validate_minimum_active_ranks(
+        self,
+        infer_dp_size: int,
+        infer_devices: set,
+        freed_gpu_list: list,
+        gpus_per_dp_rank: int
+    ) -> None:
+        """Validate at least 1 DP rank remains active after shrink.
+
+        Args:
+            infer_dp_size: Total DP size
+            infer_devices: Infer device_mapping (as set for validation)
+            freed_gpu_list: List of GPUs to free (train_devices | critic_devices)
+            gpus_per_dp_rank: GPUs per DP rank (tp * pp)
+
+        Raises:
+            ValueError: If all ranks would be offloaded
+        """
+        # First validate that freed GPUs are subset of infer GPUs
+        freed_gpu_set = set(freed_gpu_list)
+        if not freed_gpu_set.issubset(infer_devices):
+            raise ValueError(
+                f"Freed GPUs (train + critic) must be subset of infer device_mapping: "
+                f"freed={sorted(freed_gpu_list)}, infer={sorted(infer_devices)}"
+            )
+
+        # Convert infer_devices to ordered list to match DP rank assignment
+        infer_devices_list = sorted(list(infer_devices))
+
+        # Iterate through all DP ranks to find at least one that remains active
+        # Each DP rank uses gpus_per_dp_rank consecutive GPUs from device_mapping
+        at_least_one_active = False
+        for dp_rank in range(infer_dp_size):
+            # Get GPU range for this DP rank
+            start_idx = dp_rank * gpus_per_dp_rank
+            end_idx = start_idx + gpus_per_dp_rank
+            dp_rank_gpus = set(infer_devices_list[start_idx:end_idx])
+
+            # Check if this DP rank's GPUs are NOT in the freed set
+            if dp_rank_gpus.isdisjoint(freed_gpu_set):
+                at_least_one_active = True
+                break
+
+        if not at_least_one_active:
+            raise ValueError(
+                f"At least 1 DP rank must remain active after shrink. "
+                f"All {infer_dp_size} DP ranks have at least one GPU in freed set. "
+                f"infer_devices={sorted(infer_devices_list)}, freed_gpus={sorted(freed_gpu_list)}, "
+                f"gpus_per_rank={gpus_per_dp_rank}"
+            )
+
 def get_episode_scores(batch: DataProto) -> torch.Tensor:
     batch_group_by_traj: Dict[str, DataProto] = batch.group_by(keys="traj_id")
     scores = []
@@ -487,17 +894,48 @@ def get_traj_env_time(batch: DataProto) -> torch.Tensor:
         scores.append(episode_scores)
     return torch.tensor(scores, dtype=torch.float32)
 
-def compute_data_metrics(batch):
+
+def compute_rollout_traj_metrics(batch) -> Dict:
+    """
+    Compute metrics for the rollout trajectory, before sample for train
+    """
+    episode_scores = get_episode_scores(batch)
+    # fix: https://github.com/volcengine/verl/pull/60
+    response_mask = batch.batch["response_mask"][:, 1:].bool()
+    prompt_mask = batch.batch["prompt_mask"].bool() # 首轮 prompt length
+    prompt_lengths = prompt_mask.sum(-1).float()  # (batch_size,)
+    response_length = response_mask.sum(-1).float()  # (batch_size,)
+    non_prompt_mask = (torch.logical_not(batch.batch["prompt_mask"]) * batch.batch["attention_mask"]).float().sum(-1)
+
+    metrics = {
+        # score, sequence_score from env
+        "rollout/score/mean": torch.mean(episode_scores).detach().item(),
+        "rollout/score/max": torch.max(episode_scores).detach().item(),
+        "rollout/score/min": torch.min(episode_scores).detach().item(),
+        # response length
+        "rollout/response_length/mean": torch.mean(response_length).detach().item(),
+        "rollout/response_length/max": torch.max(response_length).detach().item(),
+        "rollout/response_length/min": torch.min(response_length).detach().item(),
+        # prompt length
+        "rollout/prompt_length/mean": torch.mean(prompt_lengths).detach().item(),
+        "rollout/prompt_length/max": torch.max(prompt_lengths).detach().item(),
+        "rollout/prompt_length/min": torch.min(prompt_lengths).detach().item(),
+        # non-prompt length
+        "rollout/non_prompt_length/mean": torch.mean(non_prompt_mask).detach().item(),
+        "rollout/non_prompt_length/max": torch.max(non_prompt_mask).detach().item(),
+        "rollout/non_prompt_length/min": torch.min(non_prompt_mask).detach().item(),
+    }
+    return metrics
+
+def compute_train_data_metrics(batch):
+    """
+    Compute metrics on the training data.
+    This is different from `rollout_traj`: `rollout_traj` contains trajectory data for the entire batch,
+    while under `step_wise`, `train_batch` is sampled from `rollout_batch`, so the data distributions will differ.
+    """
     # token_level_scores are per-token scores assigned by the reward model, possibly after normalization/clipping
     # score denotes the raw environment reward
     episode_scores = get_episode_scores(batch)
-    try:
-        traj_rollout_times = get_traj_rollout_time(batch)
-        traj_env_times = get_traj_env_time(batch)
-    except Exception as e:
-        traj_rollout_times = torch.zeros(batch.batch.batch_size[0], dtype=torch.float32)
-        traj_env_times = torch.zeros(batch.batch.batch_size[0], dtype=torch.float32)
-
     sequence_reward = batch.batch["token_level_rewards"].sum(-1)
     advantages = batch.batch["advantages"]
     # fix: https://github.com/volcengine/verl/pull/60
@@ -543,17 +981,6 @@ def compute_data_metrics(batch):
         "tokens/non_prompt_length/mean": torch.mean(non_prompt_mask).detach().item(),
         "tokens/non_prompt_length/max": torch.max(non_prompt_mask).detach().item(),
         "tokens/non_prompt_length/min": torch.min(non_prompt_mask).detach().item(),
-
-        # # traj_rollout_time
-        "env/traj_rollout_time/mean": torch.mean(traj_rollout_times).detach().item() if traj_rollout_times.numel() > 0 else 0.0,
-        "env/traj_rollout_time/max": torch.max(traj_rollout_times).detach().item() if traj_rollout_times.numel() > 0 else 0.0,
-        "env/traj_rollout_time/min": torch.min(traj_rollout_times).detach().item() if traj_rollout_times.numel() > 0 else 0.0,
-
-        # traj_env_times
-        "env/traj_env_time/mean": torch.mean(traj_env_times).detach().item() if traj_env_times.numel() > 0 else 0.0,
-        "env/traj_env_time/max": torch.max(traj_env_times).detach().item() if traj_env_times.numel() > 0 else 0.0,
-        "env/traj_env_time/min": torch.min(traj_env_times).detach().item() if traj_env_times.numel() > 0 else 0.0,
-
     }
 
     if "values" in batch.batch.keys():
diff --git a/roll/pipeline/agentic/agentic_rollout_pipeline.py b/roll/pipeline/agentic/agentic_rollout_pipeline.py
index 0586d3ec9..2bd87206a 100644
--- a/roll/pipeline/agentic/agentic_rollout_pipeline.py
+++ b/roll/pipeline/agentic/agentic_rollout_pipeline.py
@@ -13,6 +13,7 @@
 from roll.distributed.scheduler.protocol import DataProto
 from roll.models.model_providers import default_tokenizer_provider
 from roll.pipeline.agentic.agentic_config import AgenticConfig
+from roll.pipeline.agentic.agentic_pipeline import get_episode_scores
 from roll.pipeline.agentic.utils import dump_rollout_trajectories
 from roll.pipeline.base_pipeline import BasePipeline
 from roll.utils.functionals import (
@@ -54,6 +55,8 @@ def __init__(self, pipeline_config: AgenticConfig):
         if self.use_policy_model:
             self.actor_infer.initialize(pipeline_config=self.pipeline_config, blocking=True)
 
+        ray.get(self.rollout_scheduler.initialize.remote()) # must initialize after actor_infer
+
     @torch.no_grad()
     def run(self):
 
@@ -64,9 +67,7 @@ def run(self):
             batch.meta_info = {"global_step": global_step}
 
             with Timer(name="rollout", logger=None) as rollout_timer:
-                if self.use_policy_model:
-                    batch.meta_info["is_offload_states"] = True
-                    self.actor_infer.start_server(data=batch)
+                self.actor_infer.load_states()
                 batch = ray.get(self.rollout_scheduler.get_batch.remote(batch, self.pipeline_config.rollout_batch_size))
                 if batch is None:
                     break
@@ -78,14 +79,14 @@ def run(self):
 
             metrics["time/step_rollout"] = rollout_timer.last
             eval_metrics = reduce_metrics(batch.meta_info.get("metrics", {}))
-            eval_score = batch.batch["scores"].sum(-1)
+            eval_score = get_episode_scores(batch)
             eval_metrics["score/mean"] = torch.mean(eval_score).detach().item()
             eval_metrics["score/max"] = torch.max(eval_score).detach().item()
             eval_metrics["score/min"] = torch.min(eval_score).detach().item()
 
             batch_grouped = batch.group_by(keys="tags")
             for group_name, group_batch in batch_grouped.items():
-                eval_score = group_batch.batch["scores"].sum(-1)
+                eval_score = get_episode_scores(group_batch)
                 eval_metrics[f"{group_name}/score/mean"] = torch.mean(eval_score).detach().item()
                 eval_metrics[f"{group_name}/score/max"] = torch.max(eval_score).detach().item()
                 eval_metrics[f"{group_name}/score/min"] = torch.min(eval_score).detach().item()
diff --git a/roll/pipeline/agentic/env/__init__.py b/roll/pipeline/agentic/env/__init__.py
index e32f6d6c7..a983cd009 100644
--- a/roll/pipeline/agentic/env/__init__.py
+++ b/roll/pipeline/agentic/env/__init__.py
@@ -8,11 +8,24 @@
 
 gem.register("sokoban", entry_point="roll.pipeline.agentic.env.sokoban:SokobanEnv")
 gem.register("frozen_lake", entry_point="roll.pipeline.agentic.env.frozen_lake:FrozenLakeEnv")
+gem.register("sokoban_mcp", entry_point="roll.pipeline.agentic.env.mcp:SokobanMCPEnv")
 gem.register("roll_math", entry_point="roll.pipeline.agentic.env.gem.math_env:MathEnv")
 gem.register("roll_code", entry_point="roll.pipeline.agentic.env.gem.code_env:CodeEnv")
 gem.register("roll_qa", entry_point="roll.pipeline.agentic.env.gem.qa_env:QaEnv")
 gem.register("sokoban_sandbox", entry_point="roll.pipeline.agentic.env.sandbox:SokobanSandboxEnv")
+gem.register("sokoban_native_env", entry_point="roll.pipeline.agentic.env.sokoban.native_env:SokobanNativeEnv")
+gem.register("deepeyes", entry_point="roll.pipeline.agentic.env.deepeyes:DeepEyesEnv")
+gem.register("rock_tb_native_env", entry_point="roll.pipeline.agentic.env.sandbox.rock_tb_native_env:RockTBNativeEnv")
 
+try:
+    gem.register("openreward_env", entry_point="roll.pipeline.agentic.env.openreward:OpenRewardEnv")
+except Exception as e:
+    logger.info(f"Failed to register openreward_env: {e}")
+
+try:
+    gem.register("atropos_env", entry_point="roll.pipeline.agentic.env.atropos:AtroposEnv")
+except Exception as e:
+    logger.info(f"Failed to register atropos_env: {e}")
 
 try:
     # add webshop-minimal to PYTHONPATH
diff --git a/roll/pipeline/agentic/env/atropos/__init__.py b/roll/pipeline/agentic/env/atropos/__init__.py
new file mode 100644
index 000000000..739efdae2
--- /dev/null
+++ b/roll/pipeline/agentic/env/atropos/__init__.py
@@ -0,0 +1,3 @@
+from roll.pipeline.agentic.env.atropos.atropos_env import AtroposEnv
+
+__all__ = ["AtroposEnv"]
diff --git a/roll/pipeline/agentic/env/atropos/atropos_env.py b/roll/pipeline/agentic/env/atropos/atropos_env.py
new file mode 100644
index 000000000..554dc1132
--- /dev/null
+++ b/roll/pipeline/agentic/env/atropos/atropos_env.py
@@ -0,0 +1,197 @@
+from datasets import disable_progress_bar; disable_progress_bar()
+import concurrent.futures
+try:
+    import tqdm.contrib.concurrent
+    def safe_thread_map(fn, *iterables, **kwargs):
+        with concurrent.futures.ThreadPoolExecutor() as executor:
+            return list(executor.map(fn, *iterables))
+    tqdm.contrib.concurrent.thread_map = safe_thread_map
+except ImportError:
+    pass
+
+import asyncio
+import logging
+import os
+import sys
+import time
+import json
+from typing import Any, Dict, List, Optional, Tuple, Union
+
+# Attempt to use uvloop if available
+try:
+    import uvloop
+    asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())
+except ImportError:
+    pass
+
+from gem import Env
+from roll.pipeline.agentic.env.atropos.manager import (
+    load_atropos_env_class,
+    create_atropos_instance,
+    safe_get_next_item
+)
+from roll.pipeline.agentic.env.atropos.executor import execute_controlled_rollout
+from roll.utils.constants import EpisodeStopReason
+
+logger = logging.getLogger(__name__)
+
+class AtroposEnv(Env):
+    """
+    Atropos environment adapter for ROLL.
+    Ported with critical attributes for TrajEnvManager compatibility.
+    """
+
+    def _get_loop(self):
+        """Get or create a usable event loop for the current thread.
+        
+        Handles Ray's ThreadPoolExecutor threads where no default event loop exists
+        (Python 3.10+ raises RuntimeError in non-main threads).
+        """
+        # First try to get an existing, non-closed loop
+        try:
+            loop = asyncio.get_event_loop()
+            if not loop.is_closed():
+                return loop
+        except RuntimeError:
+            pass
+        # Create and install a new loop for this thread
+        loop = asyncio.new_event_loop()
+        asyncio.set_event_loop(loop)
+        return loop
+
+    def _run_async(self, coro):
+        """Run an async coroutine synchronously, safe from any thread context.
+        
+        If an event loop is already running in this thread, spawn a helper thread
+        to run the coroutine via asyncio.run(). Otherwise, use run_until_complete().
+        """
+        try:
+            loop = asyncio.get_running_loop()
+        except RuntimeError:
+            loop = None
+
+        if loop is not None and loop.is_running():
+            # We're inside a running loop (e.g. Ray async actor) — delegate to a thread
+            import concurrent.futures
+            with concurrent.futures.ThreadPoolExecutor(max_workers=1) as pool:
+                future = pool.submit(asyncio.run, coro)
+                return future.result(timeout=120)
+        else:
+            # No running loop — use the thread-local loop directly
+            local_loop = self._get_loop()
+            return local_loop.run_until_complete(coro)
+
+    def __init__(
+        self,
+        atropos_env_path: str,
+        max_steps: int = 16,
+        env_config: Optional[Dict[str, Any]] = None,
+        debug: bool = False,
+        **kwargs
+    ) -> None:
+        # Mandatory attributes for ROLL NativeEnvManager
+        # We use object.__setattr__ to bypass gem.Env's strict __setattr__ which often fails on late-bound attributes
+        object.__setattr__(self, "_env_reset_failed", False)
+        object.__setattr__(self, "_env_info", {})
+        
+        super().__init__()
+        
+        # Path injection to ensure Atropos and ROLL modules are findable
+        for path in ["/workspace/ROLL", "/workspace/atropos"]:
+            if path not in sys.path:
+                sys.path.append(path)
+
+        self.atropos_env_path = atropos_env_path
+        self.max_steps = max_steps
+        self.debug = debug
+        self.env_config = env_config or {}
+        
+        # 1. Dynamic Loading
+        self.env_class = load_atropos_env_class(atropos_env_path)
+        self.env = create_atropos_instance(self.env_class, self.env_config)
+        
+        # 2. Async Lifecycle Management — always run setup() to completion
+        self._run_async(self.env.setup())
+
+        # Episode state
+        self.current_item = None
+        self.history = []
+        self.step_count = 0
+        
+    @property
+    def env_reset_failed(self):
+        return getattr(self, "_env_reset_failed", False)
+
+    @property
+    def env_info(self):
+        return getattr(self, "_env_info", {})
+
+    def reset(self, seed: Optional[int] = None, **kwargs) -> Tuple[Any, Dict[str, Any]]:
+        """
+        Resets the environment and returns the initial observation.
+        """
+        object.__setattr__(self, "_env_reset_failed", False)
+        try:
+            self.current_item = self._run_async(safe_get_next_item(self.env))
+            
+            # Extract the initial prompt from the environment item
+            initial_prompt = ""
+            if isinstance(self.current_item, dict):
+                initial_prompt = self.current_item.get("question", 
+                                 self.current_item.get("problem_statement", 
+                                 self.current_item.get("prompt", "")))
+            else:
+                initial_prompt = str(self.current_item) or "New Task"
+                
+            self.history = [{"role": "user", "content": str(initial_prompt)}]
+            self.step_count = 0
+            
+            if self.debug:
+                logger.info(f"\n{'='*20} ATROPOS RESET {'='*20}")
+                logger.info(f"Task: {str(initial_prompt)[:100]}...")
+            
+            object.__setattr__(self, "_env_info", {"item": self.current_item})
+            return self.history, self.env_info
+        except Exception as e:
+            logger.error(f"AtroposEnv reset failed: {e}")
+            object.__setattr__(self, "_env_reset_failed", True)
+            return "Reset Failed", {}
+
+    def step(self, action: Any) -> Tuple[Any, float, bool, bool, Dict[str, Any]]:
+        self.step_count += 1
+        assistant_msg = str(action)
+        
+        if self.debug:
+            logger.info(f"\n--- ATROPOS STEP {self.step_count} ---")
+            logger.info(f"Action: {assistant_msg[:200]}...")
+            
+        # Delegate execution to the controlled rollout bridge
+        try:
+            obs, reward, done, info = self._run_async(
+                execute_controlled_rollout(
+                    self.env, 
+                    self.current_item, 
+                    assistant_msg, 
+                    self.history, 
+                    debug=self.debug,
+                    reward_config=self.config.get("reward_config")
+                )
+            )
+            
+            self.history.append({"role": "assistant", "content": assistant_msg})
+            if not done and obs:
+                if isinstance(obs, list):
+                    for msg in obs: self.history.append(msg)
+                else:
+                    self.history.append({"role": "user", "content": str(obs)})
+            
+            truncated = (self.step_count >= self.max_steps)
+            if truncated: done = True
+                
+            return self.history, float(reward), done, truncated, info
+        except Exception as e:
+            logger.error(f"AtroposEnv step failed: {e}")
+            return "Step Failed", 0.0, True, True, {"error": str(e)}
+
+    def render(self): pass
+    def close(self): pass
diff --git a/roll/pipeline/agentic/env/atropos/executor.py b/roll/pipeline/agentic/env/atropos/executor.py
new file mode 100644
index 000000000..5a127f6bd
--- /dev/null
+++ b/roll/pipeline/agentic/env/atropos/executor.py
@@ -0,0 +1,175 @@
+import asyncio
+import logging
+from typing import Any, Dict, List, Optional, Tuple, Union
+
+from atroposlib.envs.base import BaseEnv, ScoredDataGroup
+from atroposlib.envs.server_handling.server_baseline import APIServer, APIServerConfig
+from openai.types.chat.chat_completion import ChatCompletion, ChatCompletionMessage, Choice
+
+logger = logging.getLogger(__name__)
+
+class RolloutTurnBoundary(Exception):
+    """Exception raised to signal a turn boundary in the controlled rollout."""
+    def __init__(self, observation: Union[str, List[Dict[str, Any]]], metadata: Dict[str, Any] = None):
+        self.observation = observation
+        self.metadata = metadata or {}
+
+class AtroposExecutionBridge(APIServer):
+    """
+    Internal execution adapter that bridges ROLL actions into Atropos trajectories.
+    It provides the action from ROLL and collects the environment's reaction 
+    for the next step.
+    """
+    def __init__(self, action: str, history: List[Dict[str, Any]], debug: bool = False, reward_config: Dict = None):
+        # We don't need a real config for this mock
+        super().__init__(APIServerConfig(model_name="mock", base_url="mock", api_key="x"))
+        self.action = action
+        self.initial_history_len = len(history)
+        self.call_count = 0
+        self.debug = debug
+
+    async def check_server_status_task(self, chat_completion: bool = True):
+        """Mock health check."""
+        self.server_healthy = True
+
+    async def _tokens_and_logprobs_completion_wrapper(self, **kwargs) -> Any:
+        self.call_count += 1
+        prompt = kwargs.get("prompt", "")
+        
+        if self.debug:
+            print(f"[AtroposExecutionBridge] Call {self.call_count} | Prompt len: {len(prompt)}")
+
+        # First call: Provide the response from the ROLL assistant.
+        if self.call_count == 1:
+            # Generate tokens for the provided action.
+            mock_tokens = [ord(c) for c in self.action]
+            mock_logprobs = [0.0] * len(mock_tokens)
+            if self.debug:
+                print(f"[AtroposExecutionBridge] Providing action tokens: {self.action}")
+            return ([0], [mock_tokens], [mock_logprobs], ["stop"])
+        
+        # Subsequent calls: Signal that we've reached a new turn boundary.
+        else:
+            # Extract the new observation from the prompt.
+            observation = prompt
+            if self.debug:
+                print(f"[AtroposExecutionBridge] Signalling Turn Boundary. New observation captured.")
+            raise RolloutTurnBoundary(observation)
+
+    async def _completion_wrapper(self, **kwargs) -> Any:
+        raise NotImplementedError("Completion not supported in AtroposExecutionBridge")
+
+    async def _chat_completion_wrapper(self, **kwargs) -> Any:
+        """Fallback for non-managed calls."""
+        self.call_count += 1
+        messages = kwargs.get("messages", [])
+        if self.call_count == 1:
+            return self._create_chat_completion(self.action)
+        else:
+            observation = messages[self.initial_history_len:]
+            raise RolloutTurnBoundary(observation)
+
+    async def _get_logprobs_wrapper(self, **kwargs) -> Dict[str, Any]:
+        return {
+            "prompt_tokens": [],
+            "prompt_topk_token_ids": [],
+            "prompt_topk_logprobs": []
+        }
+
+    def _create_chat_completion(self, content: str) -> ChatCompletion:
+        import uuid
+        import time
+        from openai.types.chat.chat_completion import Choice, ChatCompletionMessage
+        
+        return ChatCompletion(
+            id=str(uuid.uuid4()),
+            choices=[
+                Choice(
+                    finish_reason="stop",
+                    index=0,
+                    message=ChatCompletionMessage(content=content, role="assistant"),
+                )
+            ],
+            created=int(time.time()),
+            model="mock",
+            object="chat.completion",
+        )
+
+async def execute_controlled_rollout(
+    env: BaseEnv,
+    item: Any,
+    action: str,
+    history: List[Dict[str, Any]],
+    debug: bool = False, reward_config: Dict = None
+) -> Tuple[Union[str, List[Dict[str, Any]]], float, bool, Dict[str, Any]]:
+    """
+    Executes a controlled segment of an Atropos trajectory.
+    
+    This function bridges a single ROLL step into the Atropos trajectory-based engine
+    by running a rollout until either the trajectory terminates or a new 
+    turn boundary is reached.
+    """
+    
+    # 1. Attach the execution bridge
+    original_servers = env.server.servers
+    execution_bridge = AtroposExecutionBridge(action, history, debug=debug)
+    env.server.servers = [execution_bridge]
+    
+    try:
+        if debug:
+            logger.info(f"[AtroposBridge] Executing controlled rollout. History: {len(history)}")
+            
+        # 2. Trigger Atropos environment logic
+        result, _ = await env.collect_trajectories(item)
+        
+        # 3. Trajectory finished naturally — extract Atropos math score
+        atropos_reward = 0.0
+        if result and isinstance(result, (dict, ScoredDataGroup)) and "scores" in result:
+            if len(result["scores"]) > 0:
+                atropos_reward = float(result["scores"][0])
+
+        # 4. Compute Universal Bridge Reward
+        if atropos_reward > 0:
+            reward = atropos_reward
+        else:
+            format_bonus = 0.0
+            
+            # Default to reasoning tags if no config (backward compatibility)
+            markers = [
+                {"marker": "<think>", "reward": 0.2},
+                {"marker": "\\boxed{", "reward": 0.3},
+            ]
+            
+            # Override with YAML config if provided
+            length_bounty_max = 0.2
+            if reward_config:
+                markers = reward_config.get("format_markers", markers)
+                length_bounty_max = reward_config.get("length_bounty_max", length_bounty_max)
+
+            # Check markers
+            for bonus_item in markers:
+                if bonus_item["marker"] in action:
+                    format_bonus += bonus_item["reward"]
+            
+            # Continuous Length component (CRITICAL for GRPO variance)
+            length_bonus = min(len(action) / 1000.0, length_bounty_max)
+            reward = -1.0 + format_bonus + length_bonus
+
+        if debug:
+            logger.info(f"[AtroposBridge] Rollout complete (Traj End). Atropos: {atropos_reward}, Final: {reward}")
+            
+        return "", reward, True, {"result": result}
+        
+    except RolloutTurnBoundary as e:
+        # 4. A new turn boundary was reached
+        if debug:
+            logger.info(f"[AtroposBridge] Rollout complete (Turn Boundary). Observation captured.")
+            
+        return e.observation, 0.0, False, e.metadata
+        
+    except Exception as e:
+        logger.error(f"Error during partial trajectory execution: {e}")
+        raise
+    finally:
+        # Restore original servers
+        env.server.servers = original_servers
diff --git a/roll/pipeline/agentic/env/atropos/manager.py b/roll/pipeline/agentic/env/atropos/manager.py
new file mode 100644
index 000000000..be5b35d1d
--- /dev/null
+++ b/roll/pipeline/agentic/env/atropos/manager.py
@@ -0,0 +1,76 @@
+import importlib
+import logging
+from typing import Any, Dict, Optional, Type
+
+from atroposlib.envs.base import BaseEnv, BaseEnvConfig, ServerBaseline
+
+logger = logging.getLogger(__name__)
+
+def load_atropos_env_class(env_path: str) -> Type[BaseEnv]:
+    """
+    Dynamically load an Atropos environment class from a string.
+    Format: 'module_path:ClassName'
+    Example: 'atropos.environments.gsm8k_server:GSM8kEnv'
+    """
+    try:
+        module_path, class_name = env_path.split(":")
+        module = importlib.import_module(module_path)
+        env_class = getattr(module, class_name)
+        if not issubclass(env_class, BaseEnv):
+            raise TypeError(f"{class_name} is not a subclass of BaseEnv")
+        return env_class
+    except Exception as e:
+        logger.error(f"Failed to load Atropos environment from {env_path}: {e}")
+        raise
+
+def create_atropos_instance(
+    env_class: Type[BaseEnv],
+    env_config_dict: Dict[str, Any],
+    server_configs: Optional[Any] = None
+) -> BaseEnv:
+    """
+    Creates an instance of an Atropos environment with the provided config.
+    
+    This factory ensures the environment is initialized for controlled 
+    rollout execution within the ROLL framework.
+    """
+    # Initialize default configs if not provided
+    # Initialize default configs if not provided
+    base_config, base_servers = env_class.config_init()
+
+    # Merge provided config into the base config class
+    # base_config is an instance of the environment-specific config class
+    config_cls = type(base_config)
+    env_config = config_cls(**{**base_config.model_dump(), **env_config_dict})
+    
+    # If no server configs provided, use the defaults from config_init
+    if server_configs is None:
+        server_configs = base_servers
+        
+    return env_class(
+        config=env_config,
+        server_configs=server_configs,
+        slurm=False,
+        testing=True # Default to testing mode for ROLL integration (avoids slurm/gpu check)
+    )
+
+async def safe_get_next_item(env: BaseEnv) -> Dict[str, Any]:
+    """
+    Safely get the next item from the environment, with fallback logic.
+    """
+    if hasattr(env, "get_next_item") and callable(env.get_next_item):
+        try:
+            return await env.get_next_item()
+        except Exception as e:
+            logger.warning(f"env.get_next_item() failed: {e}. Falling back.")
+            
+    # Fallback: Check if there's a dataset we can iterate
+    if hasattr(env, "train") and isinstance(env.train, (list, tuple)):
+        it = getattr(env, "_fallback_iter", 0)
+        item = env.train[it % len(env.train)]
+        env._fallback_iter = it + 1
+        return item
+    
+    # Final fallback: Empty task (not ideal but avoids crash)
+    logger.error("No valid data source found in Atropos environment.")
+    return {"question": "No task provided.", "problem_statement": "No task provided."}
diff --git a/roll/pipeline/agentic/env/atropos/verify_atropos.py b/roll/pipeline/agentic/env/atropos/verify_atropos.py
new file mode 100644
index 000000000..905098d6a
--- /dev/null
+++ b/roll/pipeline/agentic/env/atropos/verify_atropos.py
@@ -0,0 +1,114 @@
+import os
+import sys
+import asyncio
+import logging
+from types import ModuleType
+from typing import Any, Dict, List, Optional, Tuple, Union
+
+# Add current directory and Atropos to path
+sys.path.append(os.path.abspath("."))
+sys.path.append(os.path.abspath("../atropos"))
+
+# --- MOCK GEM DEPENDENCY ---
+if "gem" not in sys.modules:
+    gem = ModuleType("gem")
+    def register(id, entry_point, **kwargs):
+        logging.info(f"[Mock Gem] Registered environment: {id} -> {entry_point}")
+    gem.register = register
+    
+    class Env:
+        def __init__(self, *args, **kwargs): pass
+        def reset(self, *args, **kwargs): return None, {}
+        def step(self, action): return None, 0.0, False, False, {}
+    gem.Env = Env
+    sys.modules["gem"] = gem
+
+# Try to import from real ROLL first
+try:
+    from roll.utils.constants import EpisodeStopReason
+except ImportError:
+    constants = ModuleType("roll.utils.constants")
+    class EpisodeStopReason:
+        DONE = "done"
+        TRUNCATED = "truncated"
+    constants.EpisodeStopReason = EpisodeStopReason
+    if "roll" not in sys.modules:
+        sys.modules["roll"] = ModuleType("roll")
+    if "roll.utils" not in sys.modules:
+        sys.modules["roll.utils"] = ModuleType("roll.utils")
+    sys.modules["roll.utils.constants"] = constants
+
+from roll.pipeline.agentic.env.atropos import AtroposEnv
+
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger("AtroposValidation")
+
+def test_gsm8k_integration():
+    """Validates the standard single-turn rollout flow."""
+    logger.info("\n=== Testing GSM8K Integration (Single-Turn) ===")
+    
+    env_path = "environments.gsm8k_server:GSM8kEnv"
+    
+    env = AtroposEnv(
+        atropos_env_path=env_path,
+        max_steps=5,
+        debug=True,
+        env_config={
+            "group_size": 1,
+            "max_token_length": 128
+        }
+    )
+
+    obs, info = env.reset()
+    logger.info(f"Initial Observation: {obs}")
+    
+    mock_action = "<think> Let's solve this. 1+1=2. </think> The answer is \\boxed{2}"
+    obs, reward, terminated, truncated, info = env.step(mock_action)
+    
+    logger.info(f"Step Result: Reward={reward}, Terminated={terminated}")
+    if terminated:
+        logger.info("SUCCESS: Single-turn rollout validated.")
+
+def test_multiturn_tool_use():
+    """Validates multi-turn history persistence through the Execution Bridge."""
+    logger.info("\n=== Testing Multi-Turn Tool Use Integration ===")
+    
+    env_path = "environments.tool_use_multiturn_server:MultiTurnToolCallingEnv"
+    
+    # Initialize with default data loading
+    env = AtroposEnv(
+        atropos_env_path=env_path,
+        max_steps=10,
+        debug=True,
+        env_config={
+            "group_size": 1,
+            "max_token_length": 256
+        }
+    )
+    
+    # reset() will call safe_get_next_item and setup history
+    obs, info = env.reset()
+    logger.info(f"Initial Observation: {obs}")
+    
+    # STEP 1: Simulate a tool call action
+    # We use a tool call format that the environment expects
+    action_1 = "<think>I need a tool.</think><tool_call>{\"name\":\"calc\",\"arguments\":{\"q\":\"5+5\"}}</tool_call>"
+    logger.info(f"Step 1 Action: {action_1}")
+    
+    obs, reward, terminated, truncated, info = env.step(action_1)
+    logger.info(f"Step 1 Observation: {obs}")
+    
+    if not terminated:
+        logger.info("SUCCESS: Turn boundary detected after tool call.")
+        
+        # STEP 2: Finish the episode
+        action_2 = "<think>Done.</think>The answer is 10."
+        obs, reward, terminated, truncated, info = env.step(action_2)
+        logger.info(f"Step 2 Result: Reward={reward}, Terminated={terminated}")
+
+if __name__ == "__main__":
+    test_gsm8k_integration()
+    try:
+        test_multiturn_tool_use()
+    except Exception as e:
+        logger.error(f"Multi-turn test failed: {e}")
diff --git a/roll/pipeline/agentic/env/deepeyes/__init__.py b/roll/pipeline/agentic/env/deepeyes/__init__.py
new file mode 100644
index 000000000..7756b3fa5
--- /dev/null
+++ b/roll/pipeline/agentic/env/deepeyes/__init__.py
@@ -0,0 +1,7 @@
+"""
+Adapted from the nicely written code from gym_sokoban
+"""
+
+from .env import DeepEyesEnv
+
+__all__ = ["DeepEyesEnv"]
diff --git a/roll/pipeline/agentic/env/deepeyes/env.py b/roll/pipeline/agentic/env/deepeyes/env.py
new file mode 100644
index 000000000..8b3b31cfc
--- /dev/null
+++ b/roll/pipeline/agentic/env/deepeyes/env.py
@@ -0,0 +1,451 @@
+import os
+import random
+import requests
+import hashlib
+import json
+import PIL.Image as Image
+from io import BytesIO
+from typing import Optional, Dict, List, Tuple
+
+import datasets
+import ray
+import numpy as np
+from dacite import from_dict
+from gem import Env
+from transformers.image_utils import load_image
+
+from roll.configs.data_args import DataArguments
+from roll.distributed.scheduler.protocol import DataProto
+from roll.datasets.global_dataset import GlobalDataset, GlobalDatasetManager
+from roll.pipeline.rlvr.rlvr_config import RewardConfig
+from roll.pipeline.agentic.llm_proxy.proxy_utils import generate_by_proxy
+from roll.utils.checkpoint_manager import file_lock_context
+from roll.utils.constants import RAY_NAMESPACE, EpisodeStopReason
+from roll.utils.random_utils import all_seed
+from roll.utils.logging import get_logger
+
+from .utils import VisualToolBoxV2, get_prompt
+
+
+logger = get_logger()
+
+
+def load_images(images, timeout=None):
+    out_images = []
+    for image in images:
+        if isinstance(image, dict):
+            image = Image.open(BytesIO(image["bytes"]))
+        image = load_image(image, timeout)
+        out_images.append(image)
+    return out_images
+
+
+def encode_function(
+    data,
+    prompt_getter,
+    ground_truth_getter,
+    image_getter,
+    env_getter,
+    data_source_getter,
+    question_getter,
+):
+    image_list = []
+    for idx, image in enumerate(image_getter(data)):
+        try:
+            image_out = load_images(image if isinstance(image, (list, tuple)) else [image], timeout=None)
+        except Exception as e:
+            image_num = len(image) if isinstance(image, (list, tuple)) else 1
+            image_out = [Image.new("RGB", (224, 224), (255, 255, 255))] * image_num
+        image_list.append(image_out)
+    encodings = {
+        "data_source": data_source_getter(data),
+        "images": image_list,
+        "prompt": prompt_getter(data),
+        "env_name": env_getter(data),
+        "ground_truth": ground_truth_getter(data),
+        "question": question_getter(data),
+    }
+    return encodings
+
+
+def encode_dataset(dataset, num_proc, encode_function, new_fingerprint=None):
+    # regularized data filed
+    features = datasets.Features(
+        {
+            "data_source": datasets.Value(dtype="string"),
+            "images": datasets.Sequence(feature=datasets.Image(mode=None, decode=True)),
+            "prompt": dataset.features["prompt"],
+            "env_name": datasets.Value(dtype="string"),
+            "ground_truth": datasets.Value(dtype="string"),
+            "question": datasets.Value(dtype="string"),
+            # use index to match dataset item with rollout item
+            # "index": datasets.Value(dtype="int"),
+        }
+    )
+    remove_columns = list(dataset.features.keys() - features.keys())
+    prompt_getter = lambda data: data["prompt"]
+    ground_truth_getter = lambda data: [x["ground_truth"] for x in data["reward_model"]]
+    image_getter = lambda data: data["images"]
+    env_getter = lambda data: data["env_name"]
+    data_source_getter = lambda data: data["data_source"]
+    question_getter = lambda data: [x["question"] for x in data["extra_info"]]
+    logger.info(f"Begin : {dataset}")
+    dataset = dataset.map(
+        lambda data: encode_function(
+            data,
+            prompt_getter,
+            ground_truth_getter,
+            image_getter,
+            env_getter,
+            data_source_getter,
+            question_getter,
+        ),
+        batched=True,
+        batch_size=100,
+        num_proc=num_proc,
+        features=features,
+        remove_columns=remove_columns,
+        new_fingerprint=new_fingerprint,
+        desc="Encoding dataset",
+    )
+    logger.info(f"Encoding: {dataset}")
+    return dataset
+
+
+@ray.remote
+class DeepEyesDataset(GlobalDataset.__ray_actor_class__):
+    def __init__(
+        self,
+        dataset_name,
+        split: str = "train",
+        mode="sample",
+        dataset_kwargs: Dict = None,
+        seed: Optional[int] = None,
+        epoch: Optional[int] = 0,
+        idx: Optional[int] = 0,
+    ):
+        num_proc = dataset_kwargs.pop("num_proc", 1)
+        logger.info("load dataset")
+        super().__init__(dataset_name, split, mode, dataset_kwargs)
+        # use seed/epoch/idx to resume
+        self.seed = seed
+        self.epoch = epoch
+        self.idx = idx
+        logger.info("encode dataset")
+        self.dataset = encode_dataset(dataset=self.dataset, num_proc=num_proc, encode_function=encode_function)
+        if self.seed is not None and self.mode != "traversal":
+            self.dataset = self.dataset.shuffle(seed=self.seed + self.epoch)
+
+    async def get_data_item(self, seed: int, **kwargs):
+        if self.idx == len(self.dataset):
+            self.epoch += 1
+            self.idx = 0
+            if self.mode != "traversal":
+                self.dataset = self.dataset.shuffle(seed=self.seed + self.epoch)
+        data = None
+        if seed not in self.seed_to_idx:
+            self.seed_to_idx[seed] = self.idx
+            if self.idx < len(self.dataset):
+                data = self.dataset[self.idx]
+                self.idx += 1
+        else:
+            stored_idx = self.seed_to_idx[seed]
+            if stored_idx < len(self.dataset):
+                data = self.dataset[stored_idx]
+        return data
+
+
+
+class DeepEyesEnv(Env):
+    image_placeholder: str = "<image>"
+
+    def __init__(
+        self,
+        data_args,
+        mode: str = "train",
+        seed: Optional[int] = None,
+        epoch: Optional[int] = 0,
+        idx: Optional[int] = 0,
+        max_steps: int = 10,
+        acc_weight: float = 0.8,
+        format_weight: float = 0.2,
+        tool_weight: float = 1.2,
+        reward_tokenizer=None,
+        reward_proxy=None,
+        enable_thinking: bool = False,
+        reward_generating_args: Optional[Dict] = None,
+        current_env_id: Optional[int] = None,
+    ):
+        data_args: DataArguments = from_dict(data_class=DataArguments, data=data_args)
+        self.mode = mode
+        self.visual_toolbox = VisualToolBoxV2()
+        self.max_steps = max_steps
+
+        # Reward weights
+        self.acc_weight = acc_weight
+        self.format_weight = format_weight
+        self.tool_weight = tool_weight
+
+        # Reward inference components
+        self.reward_tokenizer = reward_tokenizer
+        self.reward_proxy = reward_proxy
+        self.enable_thinking = enable_thinking
+        # Default generation config for reward model if not provided
+        self.reward_generating_args = reward_generating_args or {
+            "temperature": 0.2,
+            "max_new_tokens": 2048,
+            "top_p": 0.95,
+        }
+
+        # Store current_env_id for src_rank tracking in reward inference
+        self.current_env_id = current_env_id if current_env_id is not None else 0
+
+        # Episode tracking
+        self.step_count = 0
+        self.has_tool_call_failure = False
+
+        # Convert train/val mode to sample/traversal for GlobalDataset
+        global_dataset_mode = "sample" if self.mode == "train" else "traversal"
+        self.dataset = DeepEyesDataset.options(
+            name=f"{self.mode}_deepeyes", get_if_exists=True, namespace=RAY_NAMESPACE
+        ).remote(
+            dataset_name=data_args.file_name,
+            split="train",
+            dataset_kwargs={"num_proc": data_args.preprocessing_num_workers},
+            mode=global_dataset_mode,
+            seed=seed,
+            epoch=epoch,
+            idx=idx,
+        )
+        self.dataset_manager = GlobalDatasetManager.options(
+            name=f"{self.mode}_dataset_manager", get_if_exists=True, namespace=RAY_NAMESPACE
+        ).remote()
+        ray.get(self.dataset_manager.register.remote(dataset_name="deepeyes", dataset_ref=self.dataset))
+
+    def reset(self, seed=None):
+        data: Optional[Dict] = ray.get(self.dataset.get_data_item.remote(seed=seed))
+        self._data_item = data
+        first_obs = {"prompt": self._data_item["prompt"], "image": [self._data_item["images"][0]]}
+        self.visual_toolbox.reset(first_obs["image"])
+
+        # Reset episode tracking
+        self.step_count = 0
+        self.has_tool_call_failure = False
+
+        return first_obs, {}
+
+    def step(self, action: str):
+        self.step_count += 1
+
+        # Handle control-type actions (EpisodeStopReason)
+        # Similar to terminal_native_env.py:281-286
+        if isinstance(action, EpisodeStopReason) and action == EpisodeStopReason.MAX_LENGTH:
+            # Force termination and compute reward
+            logger.info(f"[MAX_LENGTH] Episode terminated due to MAX_LENGTH, step_count={self.step_count}")
+            reward, reward_info = self.obtain_outcome_reward("")
+            info = {"metrics": {}, "metrics_agg_mode": self.visual_toolbox.metrics_agg_mode}
+            if reward_info:
+                info.update(reward_info)
+            return "", reward, True, True, info
+
+        result, _, done, exe_info = self.visual_toolbox.execute(action)
+        info = {"metrics": exe_info, "metrics_agg_mode": self.visual_toolbox.metrics_agg_mode}
+
+        # Track tool call failures: if a tool call was attempted but failed or was invalid
+        # success_tool_call is 1 when tool call succeeds, 0 otherwise
+        if exe_info.get("tool_call", 0) == 1 and exe_info.get("success_tool_call", 0) == 0:
+            self.has_tool_call_failure = True
+
+        # Check if max_steps is reached
+        step_limit_reached = self.step_count >= self.max_steps
+        truncated = False
+
+        # If step limit is reached, force episode termination
+        if step_limit_reached and not done:
+            done = True
+            truncated = True
+            logger.info(f"[MAX_STEPS] Reached maximum steps ({self.max_steps}), truncating episode")
+
+        # Compute reward on the last step (when done=True)
+        # Pass the action (final model response) to obtain_outcome_reward
+        reward = 0.0
+        if done:
+            reward, reward_info = self.obtain_outcome_reward(action)
+            if reward_info:
+                info.update(reward_info)
+
+        return result, reward, done, truncated, info
+
+    def obtain_outcome_reward(self, response: str) -> Tuple[float, Dict]:
+        """
+        Compute the final reward for the episode using LLM-as-judge.
+
+        This method is called in step() when the episode terminates (done=True).
+        It extracts the answer from the model response, validates the format,
+        calls the reward model (LLM judge) to evaluate accuracy, and computes
+        the final weighted reward.
+
+        Args:
+            response: The final model response (action from the last step)
+
+        Returns:
+            Tuple[float, Dict]: (final_reward, reward_info)
+                - final_reward: weighted combination of acc, format, and tool rewards
+                - reward_info: dict with detailed reward breakdown and metadata
+        """
+        # Extract answer and validate format from the response
+        # Following DeepEyesRewardWorker._get_llm_judgment logic
+        answer_text, is_format_error = self._extract_answer(response)
+
+        # Get LLM judgment for accuracy if reward proxy is available
+        # Following the exact logic from DeepEyesRewardWorker._get_llm_judgment
+        acc_reward = 0.0
+        llm_response = None
+
+        if self.reward_proxy is not None and self.reward_tokenizer is not None:
+            question = self._data_item["question"]
+            ground_truth = self._data_item["ground_truth"]
+
+            # yali: 与使用prompt作为question有diff, prompt里包含了system/user, question只包含问题
+            judge_prompt_text = get_prompt(answer_text, ground_truth, question)
+            judge_messages = [
+                {"role": "system", "content": "You are a helpful assistant."},
+                {"role": "user", "content": judge_prompt_text},
+            ]
+
+            # Call reward model through proxy
+            llm_response = generate_by_proxy(
+                messages=judge_messages,
+                tokenizer=self.reward_tokenizer,
+                proxy=self.reward_proxy,
+                enable_thinking=self.enable_thinking,
+                generation_config=self.reward_generating_args,
+                src_rank=self.current_env_id,
+            )
+
+            if llm_response is not None:
+                acc_reward = self._extract_score(llm_response)
+            else:
+                # LLM judgment failed, return -999.0 (invalid sample)
+                logger.warning("LLM judgment failed (returned None), marking sample as invalid")
+                return -999.0, {
+                    "reward_info": {
+                        "final_reward": -999.0,
+                        "acc_reward": 0.0,
+                        "format_reward": 0.0,
+                        "tool_reward": 0.0,
+                        "llm_judgment_failed": True,
+                        "response": response,
+                        "answer": answer_text,
+                    }
+                }
+
+        # Penalize for model trying to predict longer answer to hack llm-as-judge
+        if len(answer_text) >= 1000:
+            acc_reward = 0.0
+            is_format_error = True
+
+        # Compute component rewards
+        # tool_reward is based on whether vision tools were used successfully
+        # - step_count > 1 means tools were called
+        # - acc_reward > 0.5 means the answer is correct
+        # - has_tool_call_failure=False means all tool calls were successful
+        format_reward = -1.0 if is_format_error else 0.0
+        tool_reward = 1.0 if self.step_count > 1 and acc_reward > 0.5 and not self.has_tool_call_failure else 0.0
+
+        # Compute final weighted reward
+        final_reward = (
+            self.acc_weight * acc_reward +
+            self.format_weight * format_reward +
+            self.tool_weight * tool_reward
+        )
+
+        # Build detailed reward info
+        reward_info = {
+            "reward_info": {
+                "final_reward": final_reward,
+                "acc_reward": acc_reward,
+                "format_reward": format_reward,
+                "tool_reward": tool_reward,
+                "is_format_error": is_format_error,
+                "step_count": self.step_count,
+                "has_tool_call_failure": self.has_tool_call_failure,
+                "question": self._data_item.get("question"),
+                "ground_truth": self._data_item.get("ground_truth"),
+                "response": response,
+                "answer": answer_text,
+                "llm_response": llm_response,
+            }
+        }
+
+        # logger.info(json.dumps(reward_info, ensure_ascii=False))
+        return final_reward, reward_info
+
+    def _extract_answer(self, predict_str: str) -> Tuple[str, bool]:
+        """
+        Extract answer from model response and validate format.
+
+        Args:
+            predict_str: The model's response string
+
+        Returns:
+            Tuple[str, bool]: (answer_text, is_format_error)
+        """
+        is_format_error = False
+
+        # Check think tags
+        count_think_1 = predict_str.count("<think>")
+        count_think_2 = predict_str.count("</think>")
+        if count_think_1 != count_think_2:
+            is_format_error = True
+
+        # Extract content after last </think>
+        predict_no_think = predict_str.split("</think>")[-1].strip()
+
+        # Check answer tags
+        count_answer_1 = predict_no_think.count("<answer>")
+        count_answer_2 = predict_no_think.count("</answer>")
+        if count_answer_1 != count_answer_2:
+            is_format_error = True
+
+        # Extract answer text
+        answer_text = predict_str.split("<answer>")[-1].split("</answer>")[0].strip()
+
+        return answer_text, is_format_error
+
+    def _extract_score(self, response: str) -> float:
+        """
+        Extract accuracy score from LLM judge response.
+
+        Args:
+            response: The LLM judge's response string
+
+        Returns:
+            float: Accuracy reward (1.0 or 0.0)
+        """
+        if "Judgement:" in response:
+            response = response.split("Judgement:")[-1].strip()
+            if "1" in response:
+                return 1.0
+            elif "0" in response:
+                return 0.0
+            else:
+                logger.warning(f"[WARNING] Response format error: {response}")
+                return 0.0
+        else:
+            if response == "1":
+                return 1.0
+            elif response == "0":
+                return 0.0
+            else:
+                logger.warning(f"[WARNING] Response format error: {response}")
+                return 0.0
+
+    def add_extra_data(self, data: DataProto, messages: List[Dict]):
+        data.non_tensor_batch.update(
+            {
+                "question": np.array([self._data_item["question"]], dtype=object),
+                "ground_truth": np.array([self._data_item["ground_truth"]], dtype=object),
+                "message": np.array([messages], dtype=object),
+            }
+        )
diff --git a/roll/pipeline/agentic/env/deepeyes/utils.py b/roll/pipeline/agentic/env/deepeyes/utils.py
new file mode 100644
index 000000000..554bfed03
--- /dev/null
+++ b/roll/pipeline/agentic/env/deepeyes/utils.py
@@ -0,0 +1,370 @@
+"""
+reference: https://github.com/Visual-Agent/DeepEyes/blob/main/verl/workers/agent/envs/mm_process_engine/visual_toolbox_v2.py
+"""
+
+
+import numpy as np
+from typing import Dict, Any
+import re
+import json
+from math import ceil, floor
+
+
+class PROMPT:
+    SYSTEM_PROMPT_V1 = """You are a helpful assistant.
+    # Tools
+    You may call one or more functions to assist with the user query.
+    You are provided with function signatures within <tools></tools> XML tags:
+    <tools>
+    {"type":"function","function":{"name":"image_zoom_in_tool","description":"Zoom in on a specific region of an image by cropping it based on a bounding box (bbox).","parameters":{"type":"object","properties":{"image_path":{"type":"string","description":"Path or URL of the image to zoom in."},"bbox":{"type":"array","items":{"type":"number"},"minItems":4,"maxItems":4,"description":"The bounding box of the region to zoom in, as [x1, y1, x2, y2], where (x1, y1) is the top-left corner and (x2, y2) is the bottom-right corner."}},"required":["image_path","bbox"]}}}
+    {"type":"function","function":{"name":"image_rotate_tool","description":"Rotate an image by a specified angle (clockwise or counterclockwise).","parameters":{"type":"object","properties":{"image_path":{"type":"string","description":"Path or URL of the image to be rotated."},"angle":{"type":"integer","description":"Rotation angle in degrees (e.g., 90, 180, 270). Positive values for clockwise, negative for counterclockwise."}},"required":["image_path","angle"]}}}
+    </tools>
+    For each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:
+    <tool_call>
+    {"name": <function-name>, "arguments": <args-json-object>}
+    </tool_call>"""
+    # user v1 failed, model do not output toolcall
+    USER_PROMPT_V1 = "\nReason in your mind and then give the final answer. Output strictly following the format <think>[your inner thoughts]</think><answer>[your final answer]</answer>."
+    # v2: no image_path
+    #     SYSTEM_PROMPT_V2 = """You are a helpful assistant.
+    # # Tools
+    # You may call one or more functions to assist with the user query.
+    # You are provided with function signatures within <tools></tools> XML tags:
+    # <tools>
+    # {"type":"function","function":{"name":"image_zoom_in_tool","description":"Zoom in on a specific region of an image by cropping it based on a bounding box (bbox).","parameters":{"type":"object","bbox":{"type":"array","items":{"type":"number"},"minItems":4,"maxItems":4,"description":"The bounding box of the region to zoom in, as [x1, y1, x2, y2], where (x1, y1) is the top-left corner and (x2, y2) is the bottom-right corner."}},"required":["bbox"]}}}
+    # </tools>
+    # For each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:
+    # <tool_call>
+    # {"name": <function-name>, "arguments": <args-json-object>}
+    # </tool_call>"""
+    SYSTEM_PROMPT_V2 = """You are a helpful assistant.
+# Tools
+You may call one or more functions to assist with the user query.
+You are provided with function signatures within <tools></tools> XML tags:
+<tools>
+{"type":"function","function":{"name":"image_zoom_in_tool","description":"Zoom in on a specific region of an image by cropping it based on a bounding box (bbox) and an optional object label.","parameters":{"type":"object","properties":{"bbox_2d":{"type":"array","items":{"type":"number"},"minItems":4,"maxItems":4,"description":"The bounding box of the region to zoom in, as [x1, y1, x2, y2], where (x1, y1) is the top-left corner and (x2, y2) is the bottom-right corner."},"label":{"type":"string","description":"The name or label of the object in the specified bounding box (optional)."}},"required":["bbox"]}}}
+</tools>
+# How to call a tool
+Return a json object with function name and arguments within <tool_call></tool_call> XML tags:
+<tool_call>
+{"name": <function-name>, "arguments": <args-json-object>}
+</tool_call>
+**Example**:  
+<tool_call>  
+{"name": "image_zoom_in_tool", "arguments": {"bbox_2d": [10, 20, 100, 200], "label": "the apple on the desk"}}  
+</tool_call>"""
+    USER_PROMPT_V2 = "\nThink first, call **image_zoom_in_tool** if needed, then answer. Format strictly as:  <think>...</think>  <tool_call>...</tool_call> (if tools needed)  <answer>...</answer> "
+    SYSTEM_PROMPT_V3 = ""
+    USER_PROMPT_V3 = """\nIf the images provided above are sufficient to answer the user's question, please put your final answer within <answer></answer>. 
+Otherwise generate a new grouding in JSON format:
+```json\n{\n  "function": "zoom_in",\n  "bbox_2d": [x1, y1, x2, y2],\n  "label": "object_name"\n}\n``` 
+The zoomed-in image of your grounding will be provided in next turn.
+"""
+    SYSTEM_PROMPT_V4 = ""
+    USER_PROMPT_V4 = """\nIf the current images are insufficient to answer the question, request a zoom-in by providing this tool_call object within tags:
+<tool_call>
+{"function": "zoom_in", "bbox_2d": [x1, y1, x2, y2], "label": "object_name"}
+</tool_call>
+The zoomed image will be provided in the next turn. Otherwise, provide your answer within <answer> </answer> tags.
+"""
+    SYSTEM_PROMPT_V5 = """You are a helpful assistant.
+# Tools
+You are provided with function signatures within <tools></tools> XML tags:
+<tools>
+{"type":"function","function":{"name":"image_zoom_in_tool","description":"Zoom in on a specific region of an image by cropping it based on a bounding box (bbox) and an optional object label.","parameters":{"type":"object","properties":{"bbox_2d":{"type":"array","items":{"type":"number"},"minItems":4,"maxItems":4,"description":"The bounding box of the region to zoom in, as [x1, y1, x2, y2], where (x1, y1) is the top-left corner and (x2, y2) is the bottom-right corner."},"label":{"type":"string","description":"The name or label of the object in the specified bounding box (optional)."}},"required":["bbox"]}}}
+</tools>
+# How to call a tool
+Return a json object with function name and arguments within <tool_call></tool_call> XML tags:
+<tool_call>
+{"name": <function-name>, "arguments": <args-json-object>}
+</tool_call>
+You may call **one or more** functions to assist with the user query.
+**Example**:  
+<tool_call>  
+{"name": "image_zoom_in_tool", "arguments": {"bbox_2d": [10, 20, 100, 200], "label": "the apple on the desk"}}  
+</tool_call>
+<tool_call>  
+{"name": "image_zoom_in_tool", "arguments": {"bbox_2d": [8, 40, 50, 150], "label": "the person under the tree"}}  
+</tool_call>"""
+    # USER_PROMPT_V5 = "\nThink first, call **image_zoom_in_tool** one or more times if needed, i.e., <think>...</think>  <tool_call>...</tool_call> <tool_call>...</tool_call> (if any tools needed) OR <answer>...</answer> (if no tools needed)."
+    # # 看第一轮的rollout，这个会有一些问题，导致模型最后没回答，只是说了一句信息完备，不用调工具了。后续观察score上涨很快，应该自己学会了！
+    # TURN_PROMPT_V5 = "\nAbove are the tool responses after calling {}. Think first, continue to call **image_zoom_in_tool** if needed. Format strictly as:  <think>...</think>  <tool_call>...</tool_call> <tool_call>...</tool_call> (if any tools needed)."
+    #     TURN_PROMPT_V5_PLUS = """Think in your mind first, <think> Analyze the problem thoroughly. Determine if available information suffices or if tools are needed. Decide whether to call tools one or more times or provide final answer.</think>
+    # Then execute one action: <tool_call> tools </tool_call> OR <answer> complete response </answer>
+    # """
+    TURN_PROMPT_V5 = "\nThink in the mind first, and then decide whether to call tools one or more times OR provide final answer. Format strictly as: <think>...</think> <tool_call>...</tool_call> <tool_call>...</tool_call> (if any tools needed) OR <answer>...</answer> (if no tools needed)."
+    USER_PROMPT_V5 = TURN_PROMPT_V5
+
+
+
+class VisualToolBoxV2(object):
+    name = "visual_toolbox_v2"
+    # user_prompt = "Here is the cropped image returned after you calling the function {}.\nIf the images provided above are sufficient to answer the user's question, please put your final answer within <answer></answer>. Otherwise you can continue to call tools within <tool_call></tool_call>."
+    user_prompt = PROMPT.USER_PROMPT_V2
+    metrics_agg_mode = {
+        "extract_answer": "sum",
+        "extract_none": "sum",
+        "invalid_tool_call": "sum",
+        "success_tool_call": "sum",
+        "failed_tool_call": "sum",
+        "tool_call": "sum",
+    }
+
+    def __init__(self):
+        self.multi_modal_data = None  # To store the current image being processed
+
+    def extract_answer(self, action_string: str) -> Dict[str, any]:
+        answer = re.findall(r"<answer>(.*?)</answer>", action_string, re.DOTALL)
+        return answer[-1] if answer else None
+
+    def extract_action(self, action_string: str) -> Dict[str, Any]:
+        """
+        Extracts the tool call from the action string.
+        Args:
+            action_string: The string containing the tool call in XML tags.
+        Returns:
+            A dictionary with the tool name and arguments.
+        Raises:
+            ValueError: If no tool call is found or JSON is invalid.
+        """
+        tool_call_match = re.findall(r"<tool_call>(.*?)</tool_call>", action_string, re.DOTALL)
+        return tool_call_match[-1] if tool_call_match else None
+
+    def execute(self, action_string: str, **kwargs) -> tuple:
+        """
+        Execute the tool functionality based on the action string.
+        Args:
+            action_string: The string containing the tool call in XML tags.
+        Returns:
+            observation: The structured observation with the processed image.
+            reward: 0.1 if tool call is successful with correct JSON format, 0 otherwise.
+            done: Whether the episode is terminated.
+            info: Additional info.
+        """
+        exe_info = {
+            "extract_answer": 0,
+            "extract_none": 0,
+            "invalid_tool_call": 0,
+            "success_tool_call": 0,
+            "failed_tool_call": 0,
+            "tool_call": 0,
+        }
+        answer = self.extract_answer(action_string)
+        if answer:
+            exe_info["extract_answer"] = 1
+            return "", 0.0, True, exe_info
+        action = self.extract_action(action_string)
+        if not action:
+            exe_info["extract_none"] = 1
+            return "", 0.0, True, exe_info
+        exe_info["tool_call"] = 1
+        try:
+            tool_call = json.loads(action.strip())
+        except Exception as e:
+            error_msg = f"Invalid tool call format: {action.strip()}. Error: {e}"
+            obs = f"Error: {str(error_msg)}"
+            exe_info["invalid_tool_call"] = 1
+            return obs, 0.0, False, exe_info
+        try:
+            tool_name = tool_call["name"]
+            args = tool_call["arguments"]
+            if tool_name == "image_zoom_in_tool":
+                # Zoom in by cropping the image
+                # image_path = args["image_path"]
+                bbox = args["bbox_2d"]
+                bbox = self.maybe_resize_bbox(*bbox)
+                if not bbox:
+                    raise ValueError(f"ZOOM IN ARGUMENTS ARE INVALID")
+                # img = Image.open(image_path)
+                img = self.multi_modal_data["image"][0]
+                cropped_img = img.crop(bbox)
+                current_image = cropped_img
+            elif tool_name == "image_rotate_tool":
+                # Rotate the image
+                # image_path = args["image_path"]
+                angle = args["angle"]
+                # img = Image.open(image_path)
+                img = self.multi_modal_data["image"][0]
+                rotated_img = img.rotate(angle)
+                current_image = rotated_img
+            else:
+                raise ValueError(f"Unknown tool name: {tool_name}")
+            obs = {
+                "prompt": "<tool_response>" + "<image>" + self.user_prompt + "</tool_response>",
+                "image": [current_image],
+            }
+            reward = 0.0  # Reward for successful tool call with correct JSON
+            done = False
+            print(f"[DEBUG] SUCCESS ACTION {action_string=}")
+            exe_info["success_tool_call"] = 1
+            return obs, reward, done, exe_info
+        except Exception as e:
+            # Return an error observation if something goes wrong
+            print(f"[DEBUG] Execute WRONG - {str(e)} {action_string=}")
+            obs = f"Error: {str(e)}"
+            reward = 0.0  # No reward for failed execution
+            done = False
+            exe_info["failed_tool_call"] = 1
+            return obs, reward, done, exe_info
+
+    def reset(self, image):
+        self.multi_modal_data = {"image": image}
+        self.height = self.multi_modal_data["image"][0].height
+        self.width = self.multi_modal_data["image"][0].width
+
+    def validate_bbox(self, left, top, right, bottom):
+        try:
+            assert left < right and bottom > top, f"invalid shape for {left=}, {top=}, {right=}, {bottom=}"
+            height = bottom - top
+            width = right - left
+            assert max(height, width) / min(height, width) <= 100, (
+                f"aspect ratio error: {left=}, {top=}, {right=}, {bottom=}"
+            )
+            assert min(height, width) > 30, f"{height=}, {width=} is too small"
+            assert max(height, width) >= 56 and min(height, width) >= 14, (
+                "images shape error, input image shape is too small"
+            )
+            return True
+        except Exception as err:
+            print(f" [ERROR vl_agent #2] {err=}")
+            return False
+
+    def maybe_resize_bbox(self, left, top, right, bottom):
+        left = max(0, left)
+        top = max(0, top)
+        right = min(self.width, right)
+        bottom = min(self.height, bottom)
+        if not self.validate_bbox(left, top, right, bottom):
+            return None
+        height = bottom - top
+        width = right - left
+        if height < 28 or width < 28:
+            center_x = (left + right) / 2.0
+            center_y = (top + bottom) / 2.0
+            ratio = 28 / min(height, width)
+            new_half_height = ceil(height * ratio * 0.5)
+            new_half_width = ceil(width * ratio * 0.5)
+            new_left = floor(center_x - new_half_width)
+            new_right = ceil(center_x + new_half_width)
+            new_top = floor(center_y - new_half_height)
+            new_bottom = ceil(center_y + new_half_height)
+            if not self.validate_bbox(new_left, new_top, new_right, new_bottom):
+                return None
+            return [new_left, new_top, new_right, new_bottom]
+        return [left, top, right, bottom]
+
+
+def get_chat_template():
+    chat_template = """
+Below are two answers to a question. Question is [Question], [Standard Answer] is the standard answer to the question, and [Model_answer] is the answer extracted from a model's output to this question.  Determine whether these two answers are consistent.
+Note that [Model Answer] is consistent with [Standard Answer] whenever they are essentially the same. If the meaning is expressed in the same way, it is considered consistent, for example, 'pink' and 'it is pink'.
+If they are consistent, Judement is 1; if they are different, Judement is 0. Just output Judement and don't output anything else.\n\n
+"""
+    return chat_template
+
+
+def get_gpt4_score_ICE():
+    example_1 = """
+[Question]: Is the countertop tan or blue?
+[Standard Answer]: The countertop is tan.
+[Model_answer] : tan
+Judgement: 1
+"""  # noqa
+    example_2 = """
+[Question]: On which side of the picture is the barrier?
+[Standard Answer]: The barrier is on the left side of the picture.
+[Model_answer] : left
+Judgement: 1
+"""  # noqa
+    example_3 = """
+[Question]: Is the kite brown and large?
+[Standard Answer]: Yes, the kite is brown and large.
+[Model_answer] : Yes
+Judgement: 1
+"""  # noqa
+    example_4 = """
+[Question]: Are the spots on a giraffe?
+[Standard Answer]: No, the spots are on a banana.
+[Model_answer] : no
+Judgement: 1
+"""  # noqa
+    example_5 = """
+[Question]: Who is wearing pants?
+[Standard Answer]: The boy is wearing pants.
+[Model_answer] : The person in the picture is wearing pants.
+Judgement: 1
+"""  # noqa
+    example_6 = """
+[Question]: Is the man phone both blue and closed?
+[Standard Answer]: Yes, the man phone is both blue and closed.
+[Model_answer] : No.
+Judgement: 0
+"""  # noqa
+    example_7 = """
+[Question]: What color is the towel in the center of the picture?
+[Standard Answer]: The towel in the center of the picture is blue.
+[Model_answer] : The towel in the center of the picture is pink.
+Judgement: 0
+"""  # noqa
+    return [example_1, example_2, example_3, example_4, example_5, example_6, example_7]
+
+
+COMMON_VERIFY_PROMPT = """# CONTEXT #
+I am a teacher, and I have some high-level reasoning problems. I am tasked with evaluating the correctness of a student's answer. 
+Below, I am provided with a problem and a reference answer. Additionally, a student's answer is provided. My job is to assess whether the student's answer captures the same meaning as the reference answer, even when expressed with different wording or format.
+# OBJECTIVE #
+I need you to judge whether the student's answer is correct given the ground truth answer.
+Your tasks include:
+1. Identify Semantic Equivalence: Carefully examine the expression in both answers. Confirm whether the semantic meaning of student's final answer is equivalent to the reference answer, even when expressed with different wording or format.
+# TONE #
+Professional, scientific.
+# RESPONSE: MARKDOWN REPORT #
+## Equivalence Judgement
+[Whether the student's answer share the same meaning with the reference answer. (TRUE or FALSE)]
+# ATTENTION #
+ - The reference answer is ALWAYS correct. You should carefully judge whether the student gives the same answer as reference answer.
+ - The Equivalence Judgement is only TRUE or FALSE. The answer is FALSE even if the student's final answer almost correct with a minor mistakes.
+ - Don't give extra explanation.
+**Question**:
+{query}
+**Reference Answer**
+{gold_ans}
+## Student Final Answer
+{pred_ans}"""
+MATH_VERIFY_PROMPT = """# CONTEXT #
+I am a teacher, and I have some high-level math problems. I am tasked with evaluating the correctness of a student's answer. 
+Below, I am provided with a problem and a reference answer. Additionally, a student's answer is provided. My job is to assess whether the student's answer captures the same meaning as the reference answer, even when expressed with different wording or format.
+# OBJECTIVE #
+I need you to judge whether the student's answer is correct given the ground truth answer.
+Your tasks include:
+1. Identify Mathematical or Notational Equivalence: Pay special attention to any LaTeX expressions in both answers. Confirm that the mathematical relationships, variables, and operations conveyed are equivalent.
+# TONE #
+Professional, scientific.
+# RESPONSE: MARKDOWN REPORT #
+## Equivalence Judgement
+[Whether the student's answer share the same meaning with the reference answer. (TRUE or FALSE)]
+# ATTENTION #
+ - The reference answer is ALWAYS correct. You should carefully judge whether the student gives the same answer as reference answer.
+ - The Equivalence Judgement is only TRUE or FALSE. The answer is FALSE even if the student's final answer almost correct with a minor mistakes.
+ - Don't give extra explanation.
+**Question**:
+{query}
+**Reference Answer**
+{gold_ans}
+## Student Final Answer
+{pred_ans}"""
+
+
+def get_prompt(predict_str, ground_truth, question):
+    examples = get_gpt4_score_ICE()
+    chat_template = get_chat_template()
+    demo_prompt = chat_template
+    for example in examples:
+        demo_prompt += example + "\n\n"
+    test_prompt = f"""
+[Question]: {question}
+[Standard Answer]: {ground_truth}
+[Model_answer] : {predict_str}
+Judgement:"""
+    full_prompt = f"{demo_prompt}{test_prompt}"
+    return full_prompt
diff --git a/roll/pipeline/agentic/env/openreward/__init__.py b/roll/pipeline/agentic/env/openreward/__init__.py
new file mode 100644
index 000000000..ff87e1907
--- /dev/null
+++ b/roll/pipeline/agentic/env/openreward/__init__.py
@@ -0,0 +1,3 @@
+from .openreward_env import OpenRewardEnv
+
+__all__ = ["OpenRewardEnv"]
diff --git a/roll/pipeline/agentic/env/openreward/openreward_env.py b/roll/pipeline/agentic/env/openreward/openreward_env.py
new file mode 100644
index 000000000..9caace7d3
--- /dev/null
+++ b/roll/pipeline/agentic/env/openreward/openreward_env.py
@@ -0,0 +1,414 @@
+"""OpenReward environment for ROLL agentic training.
+
+Wraps the OpenReward sync SDK to implement the ``gem.Env`` interface expected by
+:class:`AgentNativeStepEnvManager`.  Each episode opens an OpenReward session for
+one task, collects tool-call interactions, and returns the terminal reward.
+
+Usage in YAML config::
+
+    custom_envs:
+      MyEnvTag:
+        env_type: "openreward_env"
+        env_config:
+          environment_name: "kanishk/EndlessTerminals"
+          split: "train"
+          max_steps: 16
+"""
+import copy
+import logging
+import os
+import time
+from typing import Any, Dict, List, Optional, SupportsFloat, Tuple, Union
+
+from gem import Env
+
+from roll.pipeline.agentic.env.openreward.tool_utils import (
+    openreward_spec_to_qwen_tool,
+    parse_tool_call,
+    reduce_rewards,
+)
+from roll.utils.constants import EpisodeStopReason
+
+logger = logging.getLogger(__name__)
+
+
+class OpenRewardEnv(Env):
+    """ROLL environment backed by the OpenReward SDK.
+
+    The model generates ``<tool_call>`` XML blocks.  This class parses them,
+    forwards the call to :pymethod:`session.call_tool`, and wraps the result
+    in ``<tool_response>`` for the next model turn.
+
+    Args:
+        environment_name: Fully-qualified OpenReward environment name
+            (e.g. ``"kanishk/EndlessTerminals"``).
+        split: Dataset split to draw tasks from (``"train"`` or ``"test"``).
+        mode: ``"train"`` or ``"val"`` — mirrors the ROCK env convention.
+        max_steps: Maximum tool-call turns per episode.
+        system_prompt_template: Override the default system prompt template.
+            Must contain a ``{tools}`` placeholder.
+        reward_reduction: How to reduce per-step rewards (``"sum"``, ``"mean"``,
+            ``"max"``, ``"min"``).
+        nonterminal_reward: Penalty added when the episode truncates without
+            reaching a terminal state.  ``None`` means no penalty.
+        retry_max_attempts: Number of session-creation retries on transient errors.
+        retry_backoff_seconds: Base backoff between retries (doubles each attempt).
+    """
+
+    def __init__(
+        self,
+        environment_name: str,
+        split: str = "train",
+        mode: str = "train",
+        max_steps: int = 16,
+        system_prompt_template: Optional[str] = None,
+        reward_reduction: str = "sum",
+        nonterminal_reward: Optional[float] = None,
+        retry_max_attempts: int = 3,
+        retry_backoff_seconds: float = 5.0,
+        **kwargs: Any,
+    ) -> None:
+        super().__init__()
+        self._environment_name = environment_name
+        self._split = split
+        self._mode = mode
+        self._max_steps = max_steps
+        self._system_prompt_template = system_prompt_template
+        self._reward_reduction = reward_reduction
+        self._nonterminal_reward = nonterminal_reward
+        self._retry_max_attempts = retry_max_attempts
+        self._retry_backoff_seconds = retry_backoff_seconds
+
+        # --- SDK handles (lazy: created once in __init__) ---
+        from openreward import OpenReward
+
+        api_key = os.environ.get("OPENREWARD_API_KEY", "")
+        self._client = OpenReward(api_key=api_key) if api_key else OpenReward()
+        self._or_env = self._client.environments.get(name=environment_name)
+        self._num_tasks: int = self._or_env.num_tasks(split)
+        logger.info(
+            "[OpenRewardEnv] Connected to %s — %d %s tasks",
+            environment_name, self._num_tasks, split,
+        )
+
+        # --- Episode state (reset each episode) ---
+        self._session: Any = None
+        self._message_history: List[Dict[str, str]] = []
+        self._step_rewards: List[float] = []
+        self._task_index: int = -1
+        self.current_step: int = 0
+        self._num_tool_calls: int = 0
+        self._num_failed_tool_calls: int = 0
+        self._finished: bool = False
+
+        # --- Flags read by the env manager ---
+        self.env_reset_failed: bool = False
+        self.env_timeout: bool = False
+
+    # ------------------------------------------------------------------
+    # gem.Env interface
+    # ------------------------------------------------------------------
+
+    def reset(
+        self, seed: Optional[int] = None,
+    ) -> Tuple[List[Dict[str, str]], Dict[str, Any]]:
+        """Open an OpenReward session and return the initial conversation.
+
+        Args:
+            seed: Used to deterministically select a task index.
+
+        Returns:
+            ``(observation, info)`` where *observation* is a list of message
+            dicts (system + user prompt) and *info* contains ``tools``,
+            ``error_msg``, and ``failure_mode`` keys.
+        """
+        super().reset(seed=seed)
+        self._clean_state()
+
+        # Derive a deterministic task index from the seed
+        if seed is not None:
+            self._task_index = seed % self._num_tasks
+        else:
+            self._task_index = 0
+
+        # Open session with retry logic
+        if not self._open_session():
+            # Session creation failed — signal to env manager
+            return [], {
+                "tools": [],
+                "error_msg": "Session creation failed after retries",
+                "failure_mode": "session_creation_failed",
+            }
+
+        # Fetch tools and prompt from the live session
+        try:
+            raw_tools = self._session.list_tools()
+            prompt_blocks = self._session.get_prompt()
+        except Exception as exc:
+            logger.error("[OpenRewardEnv] Failed to get tools/prompt: %s", exc)
+            self.env_reset_failed = True
+            self._close_session()
+            return [], {
+                "tools": [],
+                "error_msg": str(exc),
+                "failure_mode": "tools_or_prompt_failed",
+            }
+
+        # Convert OpenReward tool specs to Qwen-native dict format.
+        # These are passed via info["tools"] → env_manager → tokenizer.apply_chat_template(tools=...)
+        # The tokenizer's Jinja2 template builds the system prompt automatically with the correct
+        # tool-call format that the model was trained on (<function=name><parameter=key>...</parameter>).
+        self._qwen_tools = [openreward_spec_to_qwen_tool(t) for t in raw_tools]
+
+        user_text = "".join(
+            b.text for b in prompt_blocks if b.type == "text"
+        )
+
+        # No manual system prompt needed — the tokenizer builds it from tools=.
+        # We only provide the user message with the task prompt.
+        self._message_history = [
+            {"role": "user", "content": user_text},
+        ]
+
+        # --- Observability: log reset ---
+        logger.info(
+            "[OBSERVE][ENV_RESET] task_index=%d tools=[%s] prompt=%.200s",
+            self._task_index,
+            ", ".join(t["function"]["name"] for t in self._qwen_tools),
+            user_text[:200].replace("\n", "\\n"),
+        )
+
+        return copy.deepcopy(self._message_history), {
+            "tools": self._qwen_tools,
+            "error_msg": "",
+            "failure_mode": "",
+            "task_name": f"{self._environment_name}:{self._split}:{self._task_index}",
+        }
+
+    def step(
+        self, action: Union[str, Any],
+    ) -> Tuple[List[Dict[str, str]], SupportsFloat, bool, bool, Dict[str, Any]]:
+        """Execute one tool-call turn.
+
+        Args:
+            action: The model's decoded text output, or an
+                :class:`EpisodeStopReason` for forced termination.
+
+        Returns:
+            ``(observation, reward, terminated, truncated, info)``
+        """
+        self.current_step += 1
+
+        # Handle forced-termination actions from the env manager
+        if isinstance(action, EpisodeStopReason):
+            reward = self._compute_final_reward(reached_terminal=False)
+            info = self._build_info(stop_reason=action.value)
+            self._close_session()
+            return copy.deepcopy(self._message_history), reward, True, True, info
+
+        # Enforce max_steps internally (env manager expects this)
+        if self.current_step > self._max_steps:
+            reward = self._compute_final_reward(reached_terminal=False)
+            info = self._build_info(stop_reason="max_steps")
+            self._close_session()
+            return copy.deepcopy(self._message_history), reward, True, True, info
+
+        # Clean trailing special tokens from the model output
+        clean_action = action.replace("<|im_end|>", "").rstrip()
+
+        # --- Observability: log model action ---
+        logger.info(
+            "[OBSERVE][ENV_ACTION] step=%d has_tool_call=%s has_close_tag=%s action=%.500s",
+            self.current_step, "<tool_call>" in clean_action, "</tool_call>" in clean_action,
+            clean_action.replace("\n", "\\n"),
+        )
+
+        # Append the assistant's message to history
+        self._message_history.append({"role": "assistant", "content": clean_action})
+
+        # Parse the tool call
+        tc = parse_tool_call(clean_action)
+
+        if tc is None:
+            # No tool call found — nudge the model
+            nudge = (
+                "No tool call detected in your response. "
+                "Please use the provided tools with <tool_call>...</tool_call> format "
+                "to complete the task."
+            )
+            self._message_history.append({"role": "user", "content": nudge})
+            info = self._build_info(stop_reason="no_tool_call")
+            return copy.deepcopy(self._message_history), 0.0, False, False, info
+
+        if tc["type"] == "error":
+            # Parse error — nudge with the error message
+            error_nudge = (
+                f"Tool call parse error: {tc['error']}. "
+                "Please ensure arguments are valid JSON within "
+                "<tool_call>...</tool_call> tags."
+            )
+            self._message_history.append({"role": "user", "content": error_nudge})
+            self._num_failed_tool_calls += 1
+            info = self._build_info(stop_reason="parse_error")
+            return copy.deepcopy(self._message_history), 0.0, False, False, info
+
+        # Valid tool call — execute it
+        self._num_tool_calls += 1
+
+        # --- Observability: log tool call request ---
+        logger.info(
+            "[OBSERVE][TOOL_CALL] step=%d name=%s arguments=%s",
+            self.current_step, tc["name"],
+            str(tc["arguments"])[:300].replace("\n", "\\n"),
+        )
+
+        tool_text, finished = self._execute_tool_call(tc["name"], tc["arguments"])
+
+        # --- Observability: log tool response ---
+        logger.info(
+            "[OBSERVE][TOOL_RESPONSE] step=%d name=%s finished=%s reward=%s output=%.200s",
+            self.current_step, tc["name"], finished,
+            self._step_rewards[-1] if self._step_rewards else None,
+            tool_text[:200].replace("\n", "\\n"),
+        )
+
+        # Append tool response as user message
+        self._message_history.append({
+            "role": "user",
+            "content": f"<tool_response>\n{tool_text}\n</tool_response>",
+        })
+
+        # Determine termination and reward
+        terminated = finished
+        reward = 0.0
+        if terminated:
+            reward = self._compute_final_reward(reached_terminal=True)
+            self._close_session()
+
+        info = self._build_info(
+            stop_reason="finished" if terminated else "continue",
+        )
+        return copy.deepcopy(self._message_history), reward, terminated, False, info
+
+    def close(self) -> None:
+        """Release the OpenReward session if still open."""
+        self._close_session()
+
+    @property
+    def env_info(self) -> Dict[str, Any]:
+        """Task metadata used by ``formulate_rollouts`` for trajectory logging."""
+        return {
+            "environment_name": self._environment_name,
+            "task_index": self._task_index,
+            "split": self._split,
+            "current_step": self.current_step,
+            "num_tool_calls": self._num_tool_calls,
+        }
+
+    # ------------------------------------------------------------------
+    # Internal helpers
+    # ------------------------------------------------------------------
+
+    def _clean_state(self) -> None:
+        """Reset all per-episode state."""
+        self._close_session()
+        self._message_history = []
+        self._step_rewards = []
+        self._task_index = -1
+        self.current_step = 0
+        self._num_tool_calls = 0
+        self._num_failed_tool_calls = 0
+        self._finished = False
+        self.env_reset_failed = False
+        self.env_timeout = False
+
+    def _open_session(self) -> bool:
+        """Open an OpenReward session with retry + exponential backoff.
+
+        Returns:
+            ``True`` if a session was opened, ``False`` on failure.
+        """
+        backoff = self._retry_backoff_seconds
+        for attempt in range(self._retry_max_attempts + 1):
+            try:
+                self._session = self._or_env.session(
+                    split=self._split, index=self._task_index,
+                )
+                self._session.__enter__()
+                logger.info(
+                    "[OpenRewardEnv] Session opened: %s split=%s index=%d (attempt %d)",
+                    self._environment_name, self._split, self._task_index, attempt,
+                )
+                return True
+            except Exception as exc:
+                logger.warning(
+                    "[OpenRewardEnv] Session creation failed (attempt %d/%d): %s",
+                    attempt + 1, self._retry_max_attempts + 1, exc,
+                )
+                if attempt < self._retry_max_attempts:
+                    time.sleep(backoff)
+                    backoff *= 2
+
+        self.env_reset_failed = True
+        return False
+
+    def _close_session(self) -> None:
+        """Safely close the active session."""
+        if self._session is not None:
+            try:
+                self._session.__exit__(None, None, None)
+            except Exception as exc:
+                logger.debug("[OpenRewardEnv] Error closing session: %s", exc)
+            self._session = None
+
+    def _execute_tool_call(
+        self, name: str, arguments: Dict[str, Any],
+    ) -> Tuple[str, bool]:
+        """Call a tool on the OpenReward session.
+
+        Returns:
+            ``(tool_output_text, finished)``
+        """
+        try:
+            tool_out = self._session.call_tool(name, arguments)
+            tool_text = "".join(
+                b.text for b in tool_out.blocks if b.type == "text"
+            )
+            if tool_out.reward is not None:
+                self._step_rewards.append(tool_out.reward)
+            return tool_text, tool_out.finished
+        except Exception as exc:
+            logger.warning("[OpenRewardEnv] Tool call failed (%s): %s", name, exc)
+            self._num_failed_tool_calls += 1
+            return f"Error executing tool '{name}': {exc}", False
+
+    def _compute_final_reward(self, reached_terminal: bool) -> float:
+        """Compute the episode reward from collected step rewards."""
+        rewards = list(self._step_rewards)
+        if not reached_terminal and self._nonterminal_reward is not None:
+            rewards.append(self._nonterminal_reward)
+        return reduce_rewards(rewards, self._reward_reduction)
+
+    def _build_info(self, stop_reason: str = "") -> Dict[str, Any]:
+        """Build the info dict returned by ``step()``."""
+        metrics = {
+            "env_timeout": self.env_timeout,
+            "env_reset_failed": self.env_reset_failed,
+            "success": any(r > 0 for r in self._step_rewards),
+            "raw_reward": self._compute_final_reward(reached_terminal=True),
+            "current_step": self.current_step,
+            "num_tool_calls": self._num_tool_calls,
+            "num_failed_tool_calls": self._num_failed_tool_calls,
+        }
+        metrics_agg_mode = {
+            "success": "last",
+            "raw_reward": "last",
+        }
+        return {
+            "metrics": metrics,
+            "metrics_agg_mode": metrics_agg_mode,
+            "failure_mode": "",
+            "error_messages": [],
+            "stop_reason": stop_reason,
+            "test_output": "",
+        }
diff --git a/roll/pipeline/agentic/env/openreward/tool_utils.py b/roll/pipeline/agentic/env/openreward/tool_utils.py
new file mode 100644
index 000000000..01477407b
--- /dev/null
+++ b/roll/pipeline/agentic/env/openreward/tool_utils.py
@@ -0,0 +1,134 @@
+"""Reusable utilities for OpenReward tool call parsing and system prompt building.
+
+Supports Qwen3.5's **native** tool-call format (``<function=name><parameter=key>...``)
+as well as the JSON fallback (``{"name": ..., "arguments": {...}}``).
+"""
+import json
+import re
+from typing import Any, Dict, List, Optional
+
+
+# ---------------------------------------------------------------------------
+# Tool-spec conversion: OpenReward spec → Qwen chat-template dict
+# ---------------------------------------------------------------------------
+
+def openreward_spec_to_qwen_tool(spec: Any) -> Dict[str, Any]:
+    """Convert an OpenReward tool spec to the dict format expected by
+    ``tokenizer.apply_chat_template(tools=[...])``.
+
+    The Qwen3.5 chat template expects each tool as::
+
+        {"type": "function", "function": {"name": ..., "description": ..., "parameters": ...}}
+
+    Args:
+        spec: OpenReward tool spec with ``.name``, ``.input_schema``, ``.description``.
+
+    Returns:
+        A dict compatible with the Qwen tokenizer's ``tools`` parameter.
+    """
+    return {
+        "type": "function",
+        "function": {
+            "name": spec.name,
+            "description": spec.description,
+            "parameters": spec.input_schema,
+        },
+    }
+
+
+# ---------------------------------------------------------------------------
+# Tool-call parsing: Qwen native XML + JSON fallback
+# ---------------------------------------------------------------------------
+
+# Regex for Qwen3.5 native format: <function=name>...<parameter=key>\nvalue\n</parameter>...
+_FUNCTION_RE = re.compile(
+    r"<function=(?P<name>[^>]+)>(?P<body>.*?)</function>",
+    re.DOTALL,
+)
+_PARAMETER_RE = re.compile(
+    r"<parameter=(?P<key>[^>]+)>\s*(?P<value>.*?)\s*</parameter>",
+    re.DOTALL,
+)
+
+
+def parse_tool_call(text: str) -> Optional[Dict[str, Any]]:
+    """Parse a tool call from model output.
+
+    Supports two formats:
+
+    1. **Qwen3.5 native** (preferred)::
+
+        <tool_call>
+        <function=bash>
+        <parameter=command>ls</parameter>
+        <parameter=description>list files</parameter>
+        </function>
+        </tool_call>
+
+    2. **JSON fallback** (cookbook style)::
+
+        <tool_call>
+        {"name": "bash", "arguments": {"command": "ls", "description": "list files"}}
+        </tool_call>
+
+    Args:
+        text: Raw model output.
+
+    Returns:
+        ``None`` if no ``<tool_call>`` found.
+        ``{"type": "success", "name": str, "arguments": dict}`` on success.
+        ``{"type": "error", "error": str}`` on parse failure.
+    """
+    start_tag = "<tool_call>"
+    si = text.find(start_tag)
+    if si == -1:
+        return None
+
+    end_tag = "</tool_call>"
+    ei = text.find(end_tag, si)
+    inner = text[si + len(start_tag):ei].strip() if ei != -1 else text[si + len(start_tag):].strip()
+
+    if not inner:
+        return {"type": "error", "error": "empty tool call block"}
+
+    # --- Try Qwen native XML format first ---
+    func_match = _FUNCTION_RE.search(inner)
+    if func_match:
+        name = func_match.group("name").strip()
+        body = func_match.group("body")
+        arguments: Dict[str, str] = {}
+        for param_match in _PARAMETER_RE.finditer(body):
+            key = param_match.group("key").strip()
+            value = param_match.group("value").strip()
+            arguments[key] = value
+        return {"type": "success", "name": name, "arguments": arguments}
+
+    # --- Fallback: JSON format ---
+    try:
+        data = json.loads(inner)
+        if not isinstance(data, dict):
+            return {"type": "error", "error": f"parsed value is not a dict: {type(data).__name__}"}
+        name = data.get("name")
+        if not name:
+            return {"type": "error", "error": "missing 'name' field in tool call"}
+        args = data.get("arguments", {})
+        if not isinstance(args, dict):
+            return {"type": "error", "error": f"arguments is not a dict: {type(args).__name__}"}
+        return {"type": "success", "name": name, "arguments": args}
+    except (json.JSONDecodeError, KeyError) as exc:
+        return {"type": "error", "error": str(exc)}
+
+
+def reduce_rewards(rewards: List[float], method: str) -> float:
+    """Reduce a list of per-step rewards to a single scalar."""
+    if not rewards:
+        return 0.0
+    if method == "sum":
+        return sum(rewards)
+    elif method == "mean":
+        return sum(rewards) / len(rewards)
+    elif method == "max":
+        return max(rewards)
+    elif method == "min":
+        return min(rewards)
+    raise ValueError(f"Unknown reward reduction method: {method!r}")
diff --git a/roll/third_party/vllm/vllm_0_10_0/__init__.py b/roll/pipeline/agentic/env/rock/__init__.py
similarity index 100%
rename from roll/third_party/vllm/vllm_0_10_0/__init__.py
rename to roll/pipeline/agentic/env/rock/__init__.py
diff --git a/roll/pipeline/agentic/env/rock/agent_manager.py b/roll/pipeline/agentic/env/rock/agent_manager.py
new file mode 100644
index 000000000..b00f411e9
--- /dev/null
+++ b/roll/pipeline/agentic/env/rock/agent_manager.py
@@ -0,0 +1,160 @@
+import asyncio
+import concurrent.futures
+import threading
+from abc import ABC, abstractmethod
+from typing import Dict, Optional, Type
+
+from rock.sdk.sandbox.agent.base import Agent
+from rock.sdk.sandbox.agent.config import AgentConfig
+from rock.sdk.sandbox.agent.iflow_cli import IFlowCli, IFlowCliConfig
+from rock.sdk.sandbox.agent.rock_agent import RockAgent, RockAgentConfig
+from rock.sdk.sandbox.agent.swe_agent import SweAgent, SweAgentConfig
+from rock.sdk.sandbox.client import Sandbox
+
+
+class SingleLoopRunner:
+    def __init__(self, name="single-loop"):
+        self._ready = threading.Event()
+        self._loop: Optional[asyncio.AbstractEventLoop] = None
+        self._thread = threading.Thread(target=self._run, name=name, daemon=True)
+        self._thread.start()
+        self._ready.wait()
+
+    def _run(self):
+        loop = asyncio.new_event_loop()
+        asyncio.set_event_loop(loop)
+        self._loop = loop
+        self._ready.set()
+        loop.run_forever()
+
+    @property
+    def loop(self) -> asyncio.AbstractEventLoop:
+        assert self._loop is not None
+        return self._loop
+
+    def call(self, coro, timeout: Optional[float] = None):
+        fut = asyncio.run_coroutine_threadsafe(coro, self.loop)
+        return fut.result(timeout=timeout)
+
+    def submit(self, coro):
+        return asyncio.run_coroutine_threadsafe(coro, self.loop)
+
+    def stop(self):
+        if self._loop and self._loop.is_running():
+            self._loop.call_soon_threadsafe(self._loop.stop)
+
+    def close(self, timeout: float = 5.0):
+        if not self._loop:
+            return
+
+        async def _cleanup():
+            current = asyncio.current_task()
+            tasks = [t for t in asyncio.all_tasks() if t is not current]
+            for t in tasks:
+                t.cancel()
+            await asyncio.gather(*tasks, return_exceptions=True)
+
+            await self._loop.shutdown_asyncgens()
+            await self._loop.shutdown_default_executor()
+
+        try:
+            asyncio.run_coroutine_threadsafe(_cleanup(), self._loop).result(timeout=timeout)
+        except Exception:
+            pass
+
+        if self._loop.is_running():
+            self._loop.call_soon_threadsafe(self._loop.stop)
+        self._thread.join(timeout=timeout)
+
+        try:
+            self._loop.close()
+        except Exception:
+            pass
+
+
+# ============ 工厂模式：创建 Agent ============
+class AgentFactory:
+    """Agent 工厂类"""
+
+    _registry: Dict[str, tuple[Type[Agent], Type[AgentConfig]]] = {}
+
+    @classmethod
+    def register(
+        cls,
+        agent_type: str,
+        agent_class: Type[Agent],
+        config_class: Type[AgentConfig],
+    ):
+        """注册新的 agent 类型"""
+        cls._registry[agent_type] = (agent_class, config_class)
+
+    @classmethod
+    def create(cls, agent_type: str, sandbox: Sandbox, config_dict: dict) -> tuple[Agent, AgentConfig]:
+        """创建 agent 实例和对应的运行策略"""
+        if agent_type not in cls._registry:
+            raise ValueError(f"Unsupported agent type: {agent_type}")
+
+        (
+            agent_class,
+            config_class,
+        ) = cls._registry[agent_type]
+        config = config_class(**config_dict)
+        agent = agent_class(sandbox)
+        return agent, config
+
+
+AgentFactory.register("default", RockAgent, RockAgentConfig)
+AgentFactory.register("swe-agent", SweAgent, SweAgentConfig)
+AgentFactory.register("iflow-cli", IFlowCli, IFlowCliConfig)
+
+
+# ============ 重构后的 AgentManager ============
+class AgentManager:
+    def __init__(self, sandbox: Sandbox, agent_config_dict: dict):
+        self._sandbox: Sandbox = sandbox
+        self._agent_config_dict: dict = agent_config_dict
+
+        agent_type = agent_config_dict.get("agent_type")
+        if not agent_type:
+            raise ValueError("agent_type is required in config")
+
+        # 使用工厂创建 agent 和运行策略
+        agent, agent_config = AgentFactory.create(agent_type, self._sandbox, agent_config_dict)
+        self._sandbox.agent = agent
+        self._agent_config = agent_config
+        self._loop_runner = SingleLoopRunner()
+        self._agent_run_future = None
+
+    @property
+    def agent(self) -> Agent:
+        return self._sandbox.agent
+
+    def install_agent(self) -> None:
+        self._loop_runner.call(self.agent.install(self._agent_config))
+
+    def start_agent(self, prompt: str):
+        fut = self._loop_runner.submit(self.agent.run(prompt=prompt))
+        self._agent_run_future = fut
+        return fut
+
+    def anti_call_llm(
+        self,
+        index: int,
+        response_payload: Optional[str] = None,
+        timeout: Optional[float] = None,
+    ) -> str:
+        return self._loop_runner.call(self.agent.model_service.anti_call_llm(index, response_payload), timeout=timeout)
+
+    def close(self, timeout: float = 10.0, cancel_agent: bool = True):
+        fut = self._agent_run_future
+        if fut:
+            if not fut.done():
+                try:
+                    fut.result(timeout=timeout)
+                except concurrent.futures.TimeoutError:
+                    if cancel_agent:
+                        fut.cancel()
+                except Exception:
+                    pass
+
+        self._loop_runner.close(timeout=timeout)
diff --git a/roll/pipeline/agentic/env/rock/sandbox_manager_v2.py b/roll/pipeline/agentic/env/rock/sandbox_manager_v2.py
new file mode 100644
index 000000000..d6736f894
--- /dev/null
+++ b/roll/pipeline/agentic/env/rock/sandbox_manager_v2.py
@@ -0,0 +1,1399 @@
+import asyncio
+import json
+import logging
+import os
+import shutil
+import tempfile
+import time
+import traceback
+from pathlib import Path
+from typing import Any, Dict, List, Optional, Tuple, Union
+
+import httpcore
+import httpx
+from rock.actions import BashAction, BashObservation, Command, CommandResponse, CreateBashSessionRequest
+
+# rl-rock SDK Imports
+from rock.sdk.sandbox.client import Sandbox
+from rock.sdk.sandbox.config import SandboxConfig
+from rock.sdk.sandbox.speedup.types import SpeedupType
+
+# Internal Project Dependencies
+from roll.pipeline.agentic.env.rock.agent_manager import AgentManager
+from roll.pipeline.agentic.tools.action_parser import ActionParser, Qwen3CoderActionParser
+
+
+logging.getLogger("httpx").setLevel(logging.ERROR)
+
+
+class RunStatus:
+    """Status codes for sandbox operations"""
+    SUCCESS = "success"
+    FAILED = "failed"
+    TIMEOUT = "timeout"
+    UNKNOWN_ERROR = "unknown_error"
+    CREATE_BOX = "create_box"
+    SANDBOX_START_FAILED = "sandbox_start_failed"
+    INFERENCE = "inference"
+    INFERENCE_FAILED = "inference_failed"
+    TEST = "test"
+    TEST_FAILED = "test_failed"
+    EXCEPTION = "exception"
+
+
+class FailureMode:
+    """Failure modes for terminal-bench operations"""
+    NONE = "none"
+    UNSET = "unset"
+    AGENT_TIMEOUT = "agent_timeout"
+    UNKNOWN_AGENT_ERROR = "unknown_agent_error"
+    TEST_TIMEOUT = "test_timeout"
+    UNKNOWN_TEST_ERROR = "unknown_test_error"
+    PARSE_ERROR = "parse_error"
+    SANDBOX_START_FAILED = "sandbox_start_failed"
+    SANDBOX_CREATE_SESSION_FAILED = "sandbox_create_session_failed"
+    RUN_SANDBOX_COMMAND_FAILED = "run_sandbox_command_failed"
+    RUN_SANDBOX_UPLOAD_FAILED = "run_sandbox_upload_failed"
+    RUN_SANDBOX_EXCEPTION = "run_sandbox_exception"
+    RUN_CLI_TYPE_NOT_SUPPORT = "run_cli_type_not_support"
+    AGENT_INSTALLATION_FAILED = "agent_installation_failed"
+    IMAGE_NOT_FOUND_EXCEPTION = "image_not_found_exception"
+
+    TOOL_CALL_PARSE_FAILED = "tool_call_parse_failed"
+    TOOL_EXECUTION_TIMEOUT = "tool_execution_timeout"
+    TOOL_EXECUTION_FAILED = "tool_execution_failed"
+    TOOL_EXECUTION_EXCEPTION = "tool_execution_exception"
+    TOOL_RESPONSE_PROCESSING_FAILED = "tool_response_processing_failed"
+    MODEL_RESPONSE_PROCESSING_EXCEPTION = "model_response_processing_exception"
+
+    TEST_SESSION_CREATION_FAILED = "test_session_creation_failed"
+    TEST_DIRECTORY_CREATION_FAILED = "test_directory_creation_failed"
+    TEST_FILE_UPLOAD_FAILED = "test_file_upload_failed"
+
+    START_SCRIPT_FAILED = "start_script_failed"
+
+    IFLOW_SYSINFO_COMMAND_FAILED = "iflow_sysinfo_command_failed"
+    IFLOW_SYSINFO_PARSE_FAILED = "iflow_sysinfo_parse_failed"
+    IFLOW_SYSINFO_EXCEPTION = "iflow_sysinfo_exception"
+
+    MODEL_SERVICE_START_FAILED = "model_service_start_failed"
+    MODEL_SERVICE_ANTI_CALL_LLM_FAILED = "model_service_anti_call_llm_failed"
+    AGENT_START_FAILED = "agent_start_failed"
+
+
+class RunSessionResponse:
+    """Response object for sandbox session operations"""
+    def __init__(self, exit_code: int =None, output: str =None, failure_reason: str =None):
+        self.exit_code = exit_code
+        self.output = output
+        self.failure_reason = failure_reason
+
+    def __str__(self):
+        return f"exit_code: {self.exit_code}, output: {self.output}, failure_reason: {self.failure_reason}"
+
+
+class SandboxManagerV2:
+    """
+    Unified sandbox and session management utility.
+    Handles environment initialization, session management, and integrates with IFlowCLITool.
+    """
+    def __init__(
+        self,
+        sandbox_image: str,
+        logger,
+        xrl_authorization: str = "",
+        sandbox_base_url: str = "http://localhost:8080",
+        user_id: str = "0000",
+        experiment_id: str = "test",
+        agent_config: dict = {
+            "agent_type": "iflow-cli",
+            "agent_version": "0.0.1",
+        },
+        run_region: str = "",
+        start_script: str = "",
+        dataset_tag: str = "",
+        test_files: List[str] = None,
+        task_name: str = "",
+        debug: bool = False,
+        default_timeout: float = 60.0,
+        startup_timeout: float = 600.0,
+        install_agent_timeout: float = 1200.0,
+        default_head_content_limit: int = 10 * 1024 * 1024,
+    ):
+        self.sandbox: Sandbox = None
+        self.sandbox_image = sandbox_image
+        self.logger = logger
+        self.xrl_authorization = xrl_authorization
+        self.sandbox_base_url = sandbox_base_url
+        self.user_id = user_id
+        self.experiment_id = experiment_id
+
+        self.agent_config = agent_config
+
+        self.run_region = run_region
+        self.start_script = start_script
+        self.dataset_tag = dataset_tag
+        self.test_files = test_files
+        self.task_name = task_name
+        self.debug = debug
+
+        self.active_sessions = {}
+        self.is_initialized = False
+        self.agent_session_name = "agent"
+        self.test_session_name = "test"
+
+        self.max_retry = 3
+        self.backoff = 2.0
+        self.startup_timeout = startup_timeout
+        self.install_agent_timeout = install_agent_timeout
+
+        self.image_id = sandbox_image
+        self.auto_clear_seconds = 60 * 60
+        self.default_timeout = default_timeout
+        self.head_content_limit = default_head_content_limit
+
+        self.failure_mode = FailureMode.NONE
+        self.run_status = RunStatus.SUCCESS
+        self.error_messages = []
+
+        self.is_environment_available = False
+        self.initialization_error = None
+
+        # Model service client properties
+        self.proxy_session_name = "model_service"
+        self.error_suffix = ""
+
+        self.action_parser: ActionParser = Qwen3CoderActionParser()  # TODO: 支持更多类型的aciton parser
+        self.agent_manager: AgentManager = None
+
+        self._initialize_sandbox_with_times()
+
+
+    def  _initialize_sandbox_with_times(self):
+        self.logger.info(f"[SANDBOX_INIT] START - Image ID: {self.image_id}")
+        self.sandbox_id = ""
+
+        max_init_attempts = 3
+        is_success = False
+        sandbox_ip = None
+        reason = ""
+        for attempt in range(1, max_init_attempts + 1):
+            self.logger.info(f"[SANDBOX_INIT] Attempt [{attempt}/{max_init_attempts}] - Initializing sandbox")
+            try:
+                is_success, sandbox_ip, reason = self._initialize_sandbox()
+                if is_success and sandbox_ip:
+                    self.logger.info(f"[SANDBOX_INIT] Success on attempt {attempt}! - Sandbox started successfully with IP: {sandbox_ip}, sandbox_id: {self.sandbox_id}")
+                    break
+                else:
+                    if attempt < max_init_attempts:
+                        wait_time = 120.0 * attempt
+                        time.sleep(wait_time)
+            except Exception as e:
+                self.logger.error(f"[{attempt}/{max_init_attempts}] image_id:{self.image_id} create_session e:{e}, sandbox_id:{self.sandbox.sandbox_id}")
+                if attempt < max_init_attempts:
+                    wait_time = 120.0 * attempt
+                    time.sleep(wait_time)
+
+        self.sandbox_ip = sandbox_ip
+        if is_success and sandbox_ip:
+            self.logger.info(f"[SANDBOX_INIT] Final Success! - Sandbox started successfully with IP: {sandbox_ip}, sandbox_id: {self.sandbox_id}")
+            self.is_environment_available = True
+        else:
+            self.logger.error(f"[SANDBOX_INIT] Final Failure! - Failed to start sandbox after {max_init_attempts} attempts: {reason}, sandbox_image: {self.image_id}, sandbox_ip: {self.sandbox_ip}, sandbox_id: {self.sandbox_id}")
+            self.is_environment_available = False
+            self.initialization_error = f"Failed to initialize sandbox after {max_init_attempts} attempts: {reason}, sandbox_ip: {sandbox_ip}, sandbox_image: {self.image_id}"
+
+
+    def _initialize_sandbox(self):
+        """Initialize sandbox and create sessions during environment construction"""
+        sandbox_ip = None
+        self.logger.info(f"[SANDBOX_START] START - Starting sandbox with image: {self.image_id}")
+        try:
+            success, sandbox_ip = self.start_sandbox(
+                max_retry=self.max_retry,
+                backoff=self.backoff
+            )
+            if success and sandbox_ip:
+                self.logger.info(f"[SANDBOX_START] Success! - Sandbox environment initialized with IP: {sandbox_ip}, sandbox_id: {self.sandbox_id}")
+            else:
+                self.logger.error("! - Failed to initialize sandbox environment")
+                self.failure_mode = FailureMode.SANDBOX_START_FAILED
+                time.sleep(20.0)
+                return False, sandbox_ip, "Failed to start sandbox"
+        except Exception as e:
+            self.logger.error(f"[SANDBOX_START] Failed! - Error initializing sandbox environment: {e}")
+            self.failure_mode = FailureMode.SANDBOX_START_FAILED
+            time.sleep(20.0)
+            return False, sandbox_ip, "Failed to start sandbox"
+
+        is_alive_response = asyncio.run(self.sandbox.is_alive())
+        if not is_alive_response.is_alive:
+            self.logger.error("[SANDBOX_START] Failed! - Sandbox is not alive")
+            self.failure_mode = FailureMode.SANDBOX_START_FAILED
+            return False, sandbox_ip, "sandbox_util is not alive"
+        self.sandbox_ip = sandbox_ip
+
+        self.error_suffix = f"sandbox_ip: {self.sandbox_ip}, sandbox_id: {self.sandbox_id}, sandbox_image: {self.image_id}"
+
+        # 创建session
+        self.logger.info(f"[SESSION_CREATE] START - Creating session: {self.agent_session_name}")
+        try:
+            success = self.create_session(session=self.agent_session_name)
+            if success:
+                self.active_sessions[self.agent_session_name] = {
+                    "created_at": time.time(),
+                    "last_used": time.time()
+                }
+                self.logger.info(f"[SESSION_CREATE] Success! - Session '{self.agent_session_name}' created successfully")
+            else:
+                self.logger.error(f"[SESSION_CREATE] Failed! - Failed to create session '{self.agent_session_name}'")
+                self.failure_mode = FailureMode.SANDBOX_CREATE_SESSION_FAILED
+                return False, sandbox_ip, f"Failed to create session '{self.agent_session_name}'"
+        except Exception as e:
+            self.logger.error(f"[SESSION_CREATE] Failed! - Error creating session '{self.agent_session_name}': {e}")
+            self.failure_mode = FailureMode.SANDBOX_CREATE_SESSION_FAILED
+            return False, sandbox_ip, f"Failed to create session '{self.agent_session_name}'"
+
+        # 初始化iflow-cli
+        self.logger.info("[AGENT_INSTALL] START - Installing IFlowCLITool")
+        try:
+            success, message = self._install_agent(self.agent_session_name)
+            if success:
+                self.is_initialized = True
+                self.logger.info("[AGENT_INSTALL] Success! - Sandbox and sessions initialized successfully")
+            else:
+                self.logger.error(f"[AGENT_INSTALL] Failed! - Agent installation failed: {message}, {self.error_suffix}")
+                self.failure_mode = FailureMode.AGENT_INSTALLATION_FAILED
+                return False, sandbox_ip, f"Agent installation failed: {message}, {self.error_suffix}"
+        except Exception as e:
+            self.logger.error(f"[AGENT_INSTALL] Failed! - Error during sandbox initialization: {e}, {self.error_suffix}")
+            self.failure_mode = FailureMode.AGENT_INSTALLATION_FAILED
+            return False, sandbox_ip, f"Agent installation failed: {str(e)}"
+
+        # 启动初始化服务
+        if self.start_script:
+            self.logger.info("[AGENT_START] START - Starting start.sh")
+            try:
+                success = self._run_start_script(self.agent_session_name, self.start_script)
+                if success:
+                    self.logger.info("[AGENT_START] Success! - run start.sh successfully")
+                else:
+                    self.logger.warning("⚠️ [AGENT_START] Warning! - run start.sh failed")
+            except Exception as e:
+                self.logger.warning(f"[AGENT_START] ERROR! - run start.sh failed, error: {e}")
+
+        # 清理沙盒环境中的测试文件
+        self.logger.info("[CLEANUP] START - Cleaning up problematic files in sandbox")
+        try:
+            success, message = self._cleanup_problematic_files(self.agent_session_name)
+            if success:
+                self.logger.info("[CLEANUP] Success! - Problematic files cleaned up successfully")
+            else:
+                self.logger.warning(f"⚠️ [CLEANUP] Warning! - Some files could not be cleaned up: {message}")
+        except Exception as e:
+            self.logger.warning(f"⚠️ [CLEANUP] Warning! - Error during file cleanup: {e}")
+
+            return False, sandbox_ip, f"Agent installation failed: {str(e)}, {self.error_suffix}"
+
+        return True, sandbox_ip, ""
+
+    def start_sandbox(self, max_retry: int = 3, backoff: float = 20.0):
+        """Start a sandbox instance"""
+        try:
+            start = time.time()
+            config = SandboxConfig(
+                base_url=self.sandbox_base_url,
+                image=self.image_id,
+                auto_clear_seconds=self.auto_clear_seconds,
+                startup_timeout=self.startup_timeout,
+                user_id = self.user_id,
+                experiment_id=self.experiment_id,
+                xrl_authorization=self.xrl_authorization
+            )
+            sandbox = Sandbox(config)
+
+            asyncio.run(sandbox.start())
+            cost = time.time() - start
+            self.logger.debug(f"image_id:{self.image_id}, sandbox_id:{sandbox.sandbox_id}, sandbox ip: {sandbox.host_ip},  start sandbox cost:{cost}")
+            self.sandbox = sandbox
+            self.sandbox_id = sandbox.sandbox_id
+            return True, sandbox.host_ip
+        except Exception as e:
+            self.logger.error(f"image_id:{self.image_id}, start_sandbox e:{e}")
+            time.sleep(20.0)
+        return False, None
+
+    def create_session(self, session: str, max_retry: int = 3, backoff: float = 20.0):
+        """Create a session in the sandbox"""
+        for attempt in range(1, max_retry + 1):
+            try:
+                asyncio.run(
+                    self.sandbox.create_session(CreateBashSessionRequest(session=session, startup_source=["/root"
+                                                                                                          "/.bashrc"],
+                                                                         env_enable=True, env={"HOME": "/root",
+                                                                                               "IFLOW_ENV":"train",
+                                                                                               "DISABLE_SEND_PV":"1",
+                                                                                               "HF_ENDPOINT":"https://hf-mirror.com",
+                                                                                               "UV_INDEX_URL":"https://mirrors.aliyun.com/pypi/simple/"})))
+                return True
+            except Exception as e:
+                self.logger.error(
+                    f"[{attempt}/{max_retry}] image_id:{self.image_id}, session:{session} create_session e:{e}, sandbox_id:{self.sandbox.sandbox_id}")
+                if attempt == max_retry:
+                    return False
+                time.sleep(backoff * attempt)
+        return False
+
+    def run_in_session(self, command: str, session: str, max_retry: int = 3, backoff: float = 10.0, timeout: float = None, execute_enable: bool = False):
+        """
+        Run a command in a session with retry logic for errors and empty outputs.
+        """
+        self.logger.debug(f"[RUN_SESSION] START - image_id:{self.image_id}, sandbox_ip: {self.sandbox_ip}, session:{session}, command: {json.dumps(command, ensure_ascii=False)}, sandbox_id:{self.sandbox.sandbox_id}")
+
+        response = RunSessionResponse()
+        last_error_msg = ""
+
+        if timeout is None:
+            timeout = self.default_timeout
+
+        for attempt in range(1, max_retry + 1):
+            wait_time = backoff * attempt
+            try:
+                self.logger.debug(f"[RUN_SESSION] Attempt [{attempt}/{max_retry}] - Executing command in session '{session}' with timeout {timeout}s")
+
+                async def run_with_timeout():
+                    if execute_enable:
+                        execute_rsp: CommandResponse = await self.sandbox.execute(
+                            Command(command=["/bin/bash", "-c", command])
+                        )
+                        return BashObservation(
+                            output=execute_rsp.stdout,
+                            exit_code=execute_rsp.exit_code,
+                            failure_reason=execute_rsp.stderr,
+                        )
+                    else:
+                        return await self.sandbox.run_in_session(
+                            BashAction(session=session, command=command, check="silent"))
+
+                session_ret = asyncio.run(
+                    asyncio.wait_for(run_with_timeout(), timeout=timeout))
+
+                response = session_ret
+                if session_ret.exit_code is None:
+                    response.exit_code = -1
+                if session_ret.output is None:
+                    response.output = ""
+                if session_ret.failure_reason is None:
+                    response.failure_reason = ""
+
+                self.logger.debug(f"[RUN_SESSION] Attempt [{attempt}/{max_retry}] Result - exit_code: {response.exit_code}, output_length: {len(response.output) if response.output else 0}")
+                self.logger.debug(f"[RUN_SESSION] SUCCESS - Command executed on attempt {attempt}/{max_retry}, sandbox_id: {self.sandbox.sandbox_id}, sandbox_ip: {self.sandbox_ip}")
+                return response
+
+            except asyncio.TimeoutError:
+                timeout_msg = f"Command execution timed out after {timeout} seconds, sandbox_id: {self.sandbox.sandbox_id}, sandbox_ip: {self.sandbox_ip}, command: {command}"
+                response.exit_code = -1
+                response.output = timeout_msg
+                response.failure_reason = "TIMEOUT"
+                if attempt == max_retry:
+                    self.logger.error(f"[RUN_SESSION] FAILED - All {max_retry} attempts timed out. Timeout: {timeout}s, Sandbox ID: {self.sandbox.sandbox_id}, sandbox_ip: {self.sandbox_ip}, command: {command}")
+                    return response
+                self.logger.info(f"[RUN_SESSION] TimeoutError, last_error_msg: {last_error_msg}, Sandbox ID: {self.sandbox.sandbox_id}, sandbox_ip: {self.sandbox_ip}")
+                if attempt < max_retry:
+                    time.sleep(wait_time)
+            except Exception as exc:
+                # Get detailed error information
+                error_type = type(exc).__name__
+                error_module = exc.__class__.__module__
+                error_args = exc.args if hasattr(exc, 'args') else ()
+
+                # Build comprehensive error message
+                if str(exc).strip():
+                    last_error_msg = str(exc)
+                else:
+                    last_error_msg = f"{error_module}.{error_type}: {error_args}"
+
+                # Add additional context for empty ReadError
+                if isinstance(exc, (httpx.ReadError, httpcore.ReadError)) and not str(exc).strip():
+                    last_error_msg = f"{error_type}: Network read error with no details - args: {error_args}"
+
+                last_error_msg = f"{last_error_msg}, sandbox_id:{self.sandbox.sandbox_id}, sandbox_ip: {self.sandbox_ip}, command: {command}"
+                response.exit_code = -1
+                response.output = last_error_msg
+                response.failure_reason = last_error_msg
+
+                self.logger.info(f"traceback.format_exc: {traceback.format_exc()}, last_error_msg: {last_error_msg}")
+                if "/bin/bash: line 1: " in last_error_msg:
+                    return response
+                self.logger.error(f"[RUN_SESSION] EXCEPTION - Attempt [{attempt}/{max_retry}] failed with exception: {last_error_msg}, sandbox_id: {self.sandbox.sandbox_id}, sandbox_ip: {self.sandbox_ip}")
+                if attempt == max_retry:
+                    self.logger.error(f"[RUN_SESSION] FAILED - All {max_retry} attempts failed due to exceptions. Final error: {last_error_msg}, sandbox_id: {self.sandbox.sandbox_id}, sandbox_ip: {self.sandbox_ip}")
+                    return response
+                if attempt < max_retry:
+                    self.logger.info(f"[RUN_SESSION] Retrying attempt [{attempt}/{max_retry}] in {wait_time} seconds, sandbox_id: {self.sandbox.sandbox_id}, sandbox_ip: {self.sandbox_ip}")
+                    time.sleep(wait_time)
+
+        self.logger.error("[RUN_SESSION] UNEXPECTED - Reached end of retry loop unexpectedly")
+        return response
+
+    def stop_sandbox(self):
+        if self.agent_manager is not None:
+            try:
+                self.agent_manager.close(timeout=10.0)
+            except Exception as e:
+                self.logger.error(f"agent_manager.close failed: {e}")
+
+        try:
+            if self.sandbox is None:
+                return True
+            asyncio.run(self.sandbox.stop())
+            self.sandbox = None
+            return True
+        except Exception as e:
+            self.logger.error(f"image_id:{self.image_id}, stop_sandbox e:{e}, sandbox_id:{self.sandbox.sandbox_id}")
+            return False
+
+
+    def upload_file(self, file_path: Union[str, Path], target_path: str, max_retry: int = 3, backoff: float = 2.0):
+        """Upload a file to the sandbox"""
+        for attempt in range(1, max_retry + 1):
+            self.logger.debug(
+                f"[upload_file, {attempt}/{max_retry}] image_id:{self.image_id}, file_path:{file_path} target_path: {target_path}, sandbox_id:{self.sandbox.sandbox_id}"
+            )
+            try:
+                response = asyncio.run(
+                    self.sandbox.upload_by_path(str(file_path), target_path)
+                )  # rl-rock use upload_by_path to replace aupload
+                return response.success, response.message
+            except Exception as exc:
+                self.logger.error(
+                    f"image_id:{self.image_id}, file_path:{file_path} target_path: {target_path}, upload failed: {str(exc)}, "
+                    f"sandbox_id:{self.sandbox.sandbox_id}"
+                )
+                if attempt == max_retry:
+                    return False, f"upload_file exp:{str(exc)}"
+                time.sleep(backoff * attempt)
+        return False, "upload_file failed"
+
+    def _upload_and_execute_script(
+        self, script_content: str, script_name: str, session_name: str, timeout: int = 300, log_filename: str = None
+    ) -> Tuple[bool, str]:
+        """
+        上传并执行脚本
+
+        Args:
+            script_content: 脚本内容
+            script_name: 脚本文件名
+            session_name: 会话名称
+            timeout: 超时时间（秒）
+            log_filename: 日志文件名（可选）
+
+        Returns:
+            (成功标志, 错误信息)
+        """
+        try:
+            script_path = f"/tmp/{script_name}"
+
+            # 上传脚本
+            is_success, message = self._upload_settings(script_content, "/tmp", script_name)
+            if not is_success:
+                return False, f"Failed to upload script {script_name}: {message}"
+
+            # 执行脚本
+            if log_filename is None:
+                log_filename = f"{script_name.replace('.sh', '')}_info.txt"
+
+            run_status, result = self.run_session_with_timeout(
+                session_name,
+                f"bash {script_path}",
+                timeout,
+                log_filename,
+            )
+
+            if run_status != RunStatus.SUCCESS:
+                return False, f"Script execution failed: {run_status}, {result}"
+
+            return True, ""
+
+        except Exception as e:
+            return False, f"Error executing script {script_name}: {str(e)}"
+
+    def _setup_speedup(self, session_name: str) -> Tuple[bool, str]:
+        """
+        根据环境配置加速
+
+        Args:
+            session_name: 会话名称
+
+        Returns:
+            (成功标志, 错误信息)
+        """
+        try:
+            # 默认环境：配置 APT 和 PIP 加速（阿里云公网源）
+            self.logger.info("Configuring APT and PIP speedup...")
+
+            # 配置 APT 加速
+            apt_result = asyncio.run(
+                self.sandbox.network.speedup(
+                    speedup_type=SpeedupType.APT,
+                    speedup_value="http://mirrors.cloud.aliyuncs.com",
+                    timeout=300,
+                )
+            )
+            if apt_result.exit_code != 0:
+                self.logger.warning(f"APT speedup skipped: {apt_result.output} ({apt_result.failure_reason})")
+
+            # 配置 PIP 加速
+            pip_result = asyncio.run(
+                self.sandbox.network.speedup(
+                    speedup_type=SpeedupType.PIP,
+                    speedup_value="http://mirrors.cloud.aliyuncs.com/pypi/simple/",
+                    timeout=60,
+                )
+            )
+            if pip_result.exit_code != 0:
+                self.logger.warning(f"PIP speedup skipped: {pip_result.output} ({pip_result.failure_reason})")
+
+            return True, ""
+
+        except Exception as e:
+            error_msg = f"Error during speedup configuration: {e}"
+            self.logger.error(error_msg)
+            return False, error_msg
+
+    def _install_agent(self, session_name: str) -> Tuple[bool, str]:
+        """Install and configure the agent in the sandbox"""
+        self.agent_manager: AgentManager = AgentManager(self.sandbox, self.agent_config)
+
+        try:
+            # 配置加速
+            is_success, message = self._setup_speedup(session_name)
+            if not is_success:
+                return False, f"Speedup configuration failed: {message}"
+
+            # 安装 agent
+            self.agent_manager.install_agent()
+
+            return True, ""
+
+        except Exception as e:
+            error_msg = f"Error during agent installation: {e}, {self.error_suffix}"
+            self.logger.error(error_msg)
+            return False, error_msg
+
+
+    def run_session_with_timeout(self, session_name: str, command: str, timeout, output_file, interval=10):
+        """Run a command with timeout and save output to a file"""
+        try:
+            start_time = time.time()
+            # Handle None timeout - use a default value of 300 seconds (5 minutes)
+            if timeout is None:
+                timeout = self.default_timeout
+                self.logger.debug(f"[RUN_SESSION] Timeout is None, using default timeout of {timeout} seconds")
+            end_time = start_time + timeout
+            content = ''
+            if command == "":
+                return RunStatus.SUCCESS, "Command is empty"
+            response = self.run_in_session(
+                command=f"nohup {command} < /dev/null > {output_file} 2>&1 &",
+                session=session_name,
+            )
+            if response.exit_code != 0:
+                if "511" in response.output or "/bin/bash: line 1: " in response.output:
+                    self.logger.warning("HTTP 511 error or syntax error detected, attempting file-based command execution workaround")
+                    try:
+                        response, output_file = self._run_command_via_file(command=command, session=session_name)
+
+                        if response.exit_code == 0:
+                            self.logger.info("File-based command execution succeeded")
+                        else:
+                            self.logger.warning("File-based command execution also failed")
+                            return RunStatus.FAILED, "run command failed: " + response.output
+                    except Exception as file_exc:
+                        self.logger.error(f"File-based workaround failed: {str(file_exc)}")
+                        return RunStatus.FAILED, "run command failed: " + str(file_exc)
+                else:
+                    return RunStatus.FAILED, "run command failed: " + response.output
+
+            pid = self._extract_pid(response.output)
+            if len(pid) == 0:
+                time.sleep(1)
+                content = self.read_content(session_name, output_file)
+                return RunStatus.SUCCESS, content
+
+            while time.time() < end_time:
+                if not self.is_process_running(session_name, pid):
+                    content = self.read_content(session_name, output_file, True)
+                    return RunStatus.SUCCESS, content
+
+                if time.time() >= end_time:
+                    content = self.read_content(session_name, output_file, True)
+                    return RunStatus.TIMEOUT, content
+                time.sleep(interval)
+        except Exception as e:
+            self.logger.error(
+                f"run_session_with_timeout exception, sandbox_id:{self.sandbox.sandbox_id}, sandbox_ip: {self.sandbox_ip}, command:{command}, exp:{str(e)}")
+            return RunStatus.UNKNOWN_ERROR, "run command exception: " + str(e)
+        return RunStatus.TIMEOUT, "run command timeout"
+
+    def run_script_with_timeout(self, session_name: str, script_text: str, timeout, max_retry: int = 3) -> RunSessionResponse:
+        """
+        Execute shell script text by uploading it as a .sh file and then executing.
+
+        Args:
+            session_name: Name of the session to execute in
+            script_text: Multi-line shell script text to execute
+            timeout: Timeout in seconds
+            max_retry: Number of times to retry
+
+        Returns:
+            RunSessionResponse object with exit_code, output, and failure_reason
+        """
+        self.logger.info(f"[RUN_SCRIPT] START - Executing script text in session '{session_name}'")
+
+        # Handle None timeout - use a default value of 300 seconds (5 minutes)
+        if timeout is None:
+            timeout = self.default_timeout
+            self.logger.debug(f"[RUN_SCRIPT] Timeout is None, using default timeout of {timeout} seconds")
+
+        # Generate a unique output file for the script
+        timestamp = int(time.time())
+        output_file = f"/tmp/script_output_{timestamp}_{hash(script_text) % 10000}.sh.out"
+
+        # Generate a unique script name
+        script_hash = hash(script_text) % 10000
+        script_path = f"/tmp/script_{timestamp}_{script_hash}.sh"
+
+        # Ensure session exists (session management from execute_command)
+        if not self.is_initialized:
+            response = RunSessionResponse()
+            response.exit_code = -1
+            response.output = "Sandbox environment not initialized"
+            response.failure_reason = "ENVIRONMENT_NOT_INITIALIZED"
+            return response
+
+        try:
+            if session_name not in self.active_sessions:
+                if not self.create_managed_session(session_name):
+                    response = RunSessionResponse()
+                    response.exit_code = -1
+                    response.output = f"Failed to create session '{session_name}'"
+                    response.failure_reason = "SESSION_CREATION_FAILED"
+                    return response
+
+            self.active_sessions[session_name]["last_used"] = time.time()
+
+            # Upload the script content as a .sh file (similar to _install_agent approach)
+            is_success, message = self._upload_settings(script_text, "/tmp", f"script_{timestamp}_{script_hash}.sh")
+            if not is_success:
+                response = RunSessionResponse()
+                response.exit_code = -1
+                response.output = f"Failed to upload script file: {message}"
+                response.failure_reason = "SCRIPT_UPLOAD_FAILED"
+                return response
+
+            # Make the script executable
+            chmod_response = self.run_in_session(f"chmod +x {script_path}", session_name)
+            if chmod_response.exit_code != 0:
+                response = RunSessionResponse()
+                response.exit_code = -1
+                response.output = f"Failed to make script executable: {chmod_response.output}"
+                response.failure_reason = "SCRIPT_CHMOD_FAILED"
+                return response
+
+            # Call run_session_with_timeout which handles nohup and process monitoring
+            run_status, result = self.run_session_with_timeout(
+                session_name=session_name,
+                command=f"bash {script_path}",  # Execute the uploaded script file
+                timeout=timeout,
+                output_file=output_file,
+            )
+
+            # Convert RunStatus and result to RunSessionResponse
+            response = RunSessionResponse()
+            response.output = result
+
+            if run_status == RunStatus.SUCCESS:
+                response.exit_code = 0
+            elif run_status == RunStatus.TIMEOUT:
+                response.exit_code = 1
+                response.failure_reason = "TIMEOUT"
+            elif run_status == RunStatus.FAILED:
+                response.exit_code = 1
+                response.failure_reason = "FAILED"
+            else:  # UNKNOWN_ERROR or others
+                response.exit_code = -1
+                response.failure_reason = run_status
+
+            # Clean up the uploaded script file
+            self.run_in_session(f"rm -f {script_path}", session_name)
+
+            return response
+
+        except Exception as e:
+            self.logger.error(
+                f"run_script_with_timeout exception, sandbox_id:{self.sandbox.sandbox_id}, sandbox_ip: {self.sandbox_ip}, script_text:{script_text[:100]}..., exp:{str(e)}")
+
+            # Clean up the uploaded script file on exception
+            try:
+                self.run_in_session(f"rm -f {script_path}", session_name)
+            except:
+                pass  # Ignore cleanup errors
+
+            response = RunSessionResponse()
+            response.exit_code = -1
+            response.output = f"run script exception: {str(e)}"
+            response.failure_reason = "EXCEPTION"
+            return response
+
+    def _extract_pid(self, output: str) -> str:
+        """Extract process ID from command output"""
+        lines = output.splitlines()
+        if not lines:
+            return ""
+        last_line = lines[-1].strip()
+        import re
+        match = re.match(r'\[\d+\]\s+(\d+)$', last_line)
+        return match.group(1) if match else ""
+
+    def is_process_running(self, session_name: str, pid):
+        """Check if a process is still running"""
+        response = self.run_in_session(command=f"kill -0 {pid}", session=session_name)
+        return response.exit_code == 0
+
+    def read_content(self, session_name, output_file, execute_enable: bool = False):
+        """Read content from a file in the sandbox"""
+        cmd = f"head -c {self.head_content_limit} {output_file}"
+        res = self.run_in_session(command=cmd, session=session_name, execute_enable=execute_enable)
+        if res.exit_code == 0:
+            return res.output
+        else:
+            print(f"{cmd} error, sandbox_id:{self.sandbox.sandbox_id}")
+            return ''
+
+    def _run_command_via_file(self, command: str, session: str) -> RunSessionResponse:
+        """
+        Workaround for 511 errors: write command to file, upload it, then execute
+        """
+        self.logger.info(f"[FILE_WORKAROUND] START - Attempting file-based execution for command: {command[:100]}...")
+        response = RunSessionResponse()
+        temp_script_name = f"temp_command_{session}_{int(time.time())}.sh"
+        temp_output_file = f"temp_output_{session}_{int(time.time())}.txt"
+
+        try:
+            if "tool_calls" in command:
+                tool_call = command
+                script_content = f"""#!/bin/bash
+# Auto-generated script to workaround network issues
+# Session: agent, Attempt: 1
+
+set -e
+
+# Store the JSON payload in a variable using a here document
+read -r -d '' JSON_PAYLOAD << 'EOF' || true
+{tool_call}
+EOF
+
+# Execute the command with the JSON payload
+nohup iflow -t "$JSON_PAYLOAD" < /dev/null > {temp_output_file} 2>&1 &
+"""
+            else:
+                script_content = f"""#!/bin/bash
+# Auto-generated script to workaround network issues
+# Session: agent, Attempt: 1
+
+set -e
+nohup {command} < /dev/null > {temp_output_file} 2>&1 &
+"""
+            with tempfile.NamedTemporaryFile(mode='w', suffix='.sh', delete=False) as temp_file:
+                temp_file.write(script_content)
+                temp_file_path = temp_file.name
+
+            self.logger.debug(f"[FILE_WORKAROUND] Created temporary script: {temp_file_path}")
+
+            try:
+                self.logger.debug(f"[FILE_WORKAROUND] Uploading script to sandbox: {temp_script_name}")
+                upload_success, upload_message = self.upload_file(
+                    temp_file_path,
+                    f"{temp_script_name}"
+                )
+
+                if not upload_success:
+                    self.logger.error(f"[FILE_WORKAROUND] Failed to upload script file: {upload_message}")
+                    response.exit_code = -1
+                    response.output = f"Upload failed: {upload_message}"
+                    response.failure_reason = "SCRIPT_UPLOAD_FAILED"
+                    return response, temp_output_file
+
+                self.logger.debug(f"[FILE_WORKAROUND] Successfully uploaded script to {temp_script_name}")
+
+                chmod_command = f"chmod +x {temp_script_name}"
+                self.logger.debug(f"[FILE_WORKAROUND] Making script executable: {chmod_command}")
+
+                chmod_ret = asyncio.run(
+                    self.sandbox.run_in_session(
+                        BashAction(session=session, command=chmod_command, check="silent")))
+
+                if chmod_ret.exit_code != 0:
+                    self.logger.error(f"[FILE_WORKAROUND] chmod command failed: {chmod_ret.output}")
+                    response.exit_code = -1
+                    response.output = f"chmod failed: {chmod_ret.output}"
+                    response.failure_reason = "CHMOD_FAILED"
+                    return response, temp_output_file
+
+                self.logger.debug("[FILE_WORKAROUND] Script made executable successfully")
+
+                exec_command = f"bash {temp_script_name}"
+                self.logger.info(f"[FILE_WORKAROUND] Executing script via run_session_with_timeout: {exec_command}")
+                session_ret = asyncio.run(
+                    self.sandbox.run_in_session(
+                        BashAction(session=session, command=exec_command, check="silent")))
+                response = session_ret
+                if session_ret.exit_code is None:
+                    response.exit_code = -1
+                if session_ret.output is None:
+                    response.output = ""
+                if session_ret.failure_reason is None:
+                    response.failure_reason = ""
+                return response, temp_output_file
+            except Exception as exec_exc:
+                self.logger.error(f"[FILE_WORKAROUND] Failed to execute script via file method: {exec_exc}")
+                response.exit_code = -1
+                response.output = f"Script execution failed: {str(exec_exc)}"
+                response.failure_reason = "SCRIPT_EXECUTION_FAILED"
+                return response, temp_output_file
+
+
+        except Exception as e:
+            self.logger.error(f"[FILE_WORKAROUND] File-based command execution failed: {str(e)}")
+            response.exit_code = -1
+            response.output = f"File method error: {str(e)}"
+            response.failure_reason = "FILE_METHOD_ERROR"
+            return response, temp_output_file
+
+
+    def create_managed_session(self, session_name: str) -> bool:
+        """
+        Create a new managed session in the sandbox with tracking.
+        """
+        is_alive_response = asyncio.run(self.sandbox.is_alive())
+        if not is_alive_response.is_alive:
+            print("sandbox_util is not alive")
+            return False
+
+        try:
+            success = self.create_session(session=session_name)
+
+            if success:
+                self.active_sessions[session_name] = {
+                    "created_at": time.time(),
+                    "last_used": time.time()
+                }
+                self.logger.debug(f"Session '{session_name}' created successfully")
+            else:
+                self.logger.error(f"Failed to create session '{session_name}'")
+
+            return success
+
+        except Exception as e:
+            self.logger.error(f"Error creating session '{session_name}': {e}")
+            return False
+
+
+    def close(self):
+        """Close the sandbox environment and cleanup resources."""
+        try:
+            self.stop_sandbox()
+            self.active_sessions.clear()
+            self.is_initialized = False
+            self.logger.debug("Sandbox environment closed successfully")
+
+        except Exception as e:
+            self.logger.error(f"Error closing sandbox environment: {e}")
+
+
+    def _run_start_script(self, session_name: str, start_script: str) -> bool:
+        """Run the start script in the sandbox"""
+        try:
+            start_script_path = None
+            for test_file_path in self.test_files:
+                test_path = Path(test_file_path)
+                if not test_path.exists():
+                    self.logger.warning(f"Test path not found: {test_file_path}")
+                    continue
+
+                if test_path.is_dir():
+                    script_path = test_path / self.task_name / start_script
+                    if script_path.exists():
+                        start_script_path = str(script_path)
+                        break
+
+            if not start_script_path:
+                self.logger.warning(f"Start script {start_script} not found for task {self.task_name}")
+                return False
+
+            pwd_response = self.run_in_session("pwd", session_name)
+            if pwd_response.exit_code == 0:
+                current_working_dir = pwd_response.output.strip()
+            else:
+                current_working_dir = "/app"
+
+            target_path = os.path.join(current_working_dir, start_script)
+            is_success, message = self.upload_file(start_script_path, target_path)
+            if not is_success:
+                self.logger.error(f"[RUN_START_SCRIPT] Failed to upload start script: {message}")
+                self.failure_mode = FailureMode.START_SCRIPT_FAILED
+                return False
+
+            if self.dataset_tag == "safety":
+                pass
+
+            chmod_response = self.run_in_session(f"chmod +x {target_path}", session_name)
+
+            bg_command = f"nohup bash {target_path} > start_agent_script.log 2>&1 &"
+            bg_response = self.run_in_session(bg_command, session_name)
+            time.sleep(5)
+            if bg_response.exit_code == 0:
+                self.logger.info("[RUN_START_SCRIPT] Start script launched in background successfully")
+                # Give the script a moment to start
+                time.sleep(2)
+                return True
+            else:
+                self.logger.warning(f"[RUN_START_SCRIPT] Failed to launch start script in background: {bg_response.output}")
+                self.failure_mode = FailureMode.START_SCRIPT_FAILED
+                return False
+
+        except Exception as e:
+            self.logger.error(f"[RUN_START_SCRIPT] Error running start script: {e}")
+            self.failure_mode = FailureMode.START_SCRIPT_FAILED
+            return False
+
+    def _upload_settings(self, content: str, directory: str, filename: str) -> tuple:
+        """Upload settings to the sandbox"""
+
+        import tempfile
+        with tempfile.NamedTemporaryFile(mode='w', delete=False) as temp_file:
+            temp_file.write(content)
+            temp_file.write('\n')
+            temp_filename = temp_file.name
+        try:
+            is_success, message = self.upload_file(temp_filename, f"{directory}/{filename}")
+            return is_success, message
+        finally:
+            import os
+            os.unlink(temp_filename)
+
+    def _cleanup_problematic_files(self, session_name: str) -> Tuple[bool, str]:
+        problematic_paths = [
+            "/app/tests",
+            "/app/run-tests.sh",
+            "/app/solution.sh",
+            "/app/task.yaml",
+            "/app/test.sh",
+            "/app/Dockerfile",
+            "/app/docker-compose.yaml",
+            "/app/setup_apt_source.sh",
+            "/app/install_iflow_info.txt",
+            "/app/start_agent_script.log"
+        ]
+
+        paths_str = " ".join(problematic_paths)
+        cleanup_command = f"rm -rf {paths_str} 2>/dev/null || true"
+
+        try:
+            self.logger.info(f"[CLEANUP] START - Attempting to remove problematic files: {paths_str}")
+
+            remove_response = self.run_in_session(cleanup_command, session_name)
+
+            check_command = f"ls -la {paths_str} 2>/dev/null | grep -E '^[d-]' || echo 'All files cleaned'"
+            check_response = self.run_in_session(check_command, session_name)
+
+            cleanup_results = []
+            if check_response.output and "All files cleaned" in check_response.output:
+                self.logger.info("[CLEANUP] Success! - All problematic files have been cleaned up")
+                cleanup_results = [f"Cleaned: {path}" for path in problematic_paths]
+                return True, "; ".join(cleanup_results)
+        except Exception as e:
+            error_msg = f"Exception during cleanup: {str(e)}"
+            self.logger.warning(f"⚠️ [CLEANUP] {error_msg}")
+            return False, error_msg
+
+
+    def start_agent(self, prompt: str) -> RunSessionResponse:
+        try:
+            self.agent_manager.start_agent(prompt=prompt)
+            return RunSessionResponse(exit_code=0, output="Agent started Successfully")
+        except Exception as e:
+            return RunSessionResponse(exit_code=1, failure_reason=str(e))
+
+
+
+    def _compress_directory(self, local_dir: Union[str, Path], archive_name: str) -> bool:
+        """
+        压缩本地目录为 .tar.gz
+
+        Args:
+            local_dir: 要压缩的目录路径
+            archive_name: 压缩包文件名（包含.tar.gz后缀）
+
+        Returns:
+            bool: 压缩成功返回True，失败返回False
+        """
+        try:
+            self.logger.debug(f"[COMPRESS] START - 正在压缩 {local_dir} -> {archive_name}")
+
+            # 使用 gztar 格式压缩
+            base_name = archive_name.replace('.tar.gz', '')
+            shutil.make_archive(base_name, 'gztar', local_dir)
+
+            self.logger.debug(f"[COMPRESS] Success! - 压缩完成: {archive_name}")
+            return True
+
+        except Exception as e:
+            self.logger.error(f"[COMPRESS] Failed! - 压缩目录失败 {local_dir}: {e}")
+            return False
+
+    def run_tests(self, test_files: List[str], test_timeout_sec: int = 60, task_name: str = "") -> dict:
+        """Run tests for the task - upload tests folder via compressed archive and run-tests.sh separately"""
+        self.logger.info(f"[TEST_SESSION] START - Creating test session: {self.test_session_name}")
+        test_output = ""
+        is_success = self.create_session(session=self.test_session_name)
+        if not is_success:
+            error_msg = "Failed to create test session"
+            self.logger.error(f"[TEST_SESSION] Failed! - {error_msg}")
+            self.failure_mode = FailureMode.TEST_SESSION_CREATION_FAILED
+            self.error_messages.append(f"Test session creation error: {error_msg}")
+            return False, FailureMode.TEST_SESSION_CREATION_FAILED, test_output, ""
+        else:
+            self.logger.info("[TEST_SESSION] Success! - Test session created")
+
+        test_dir = '/tests'
+        response = self.run_in_session(f"mkdir -p {test_dir}", self.test_session_name)
+        if response.exit_code != 0:
+            error_msg = f"Failed to create test directory: {response.output}"
+            self.logger.error(f"[TEST_SESSION] Failed! - {error_msg}")
+            self.failure_mode = FailureMode.TEST_DIRECTORY_CREATION_FAILED
+            self.error_messages.append(f"Test directory creation error: {error_msg}")
+            return False, FailureMode.TEST_DIRECTORY_CREATION_FAILED, test_output, ""
+        else:
+            self.logger.info("[TEST_SESSION] Success! - Test directory created")
+
+        task_dir = None
+        for test_file_path in test_files:
+            test_path = Path(test_file_path)
+            if not test_path.exists():
+                self.logger.warning(f"Test path not found: {test_file_path}")
+                continue
+
+            if test_path.is_dir():
+                task_test_dir = test_path / task_name
+                if task_test_dir.exists():
+                    task_dir = task_test_dir
+                    break
+
+        tests_dir = task_dir / "tests"
+        if tests_dir.exists():
+            with tempfile.TemporaryDirectory() as temp_dir:
+                archive_name = f"{task_name}_tests.tar.gz"
+                archive_path = os.path.join(temp_dir, archive_name)
+
+                if self._compress_directory(str(tests_dir), archive_path):
+                    self.logger.info(f"[TEST_COMPRESS] Success! - Compressed {tests_dir} to {archive_path}")
+
+                    # 上传压缩包
+                    is_success, message = self.upload_file(archive_path, f"{test_dir}/{archive_name}")
+                    if not is_success:
+                        error_msg = f"Failed to upload test archive {archive_name}: {message}"
+                        self.logger.error(error_msg)
+                        self.failure_mode = FailureMode.TEST_FILE_UPLOAD_FAILED
+                        self.error_messages.append(f"Test archive upload error: {error_msg}")
+                        return False, FailureMode.TEST_FILE_UPLOAD_FAILED, test_output, ""
+
+                    # 记录当前工作目录
+                    pwd_response = self.run_in_session("pwd", self.test_session_name)
+                    if pwd_response.exit_code == 0:
+                        current_working_dir = pwd_response.output.strip()
+                        self.logger.info(f"[TEST_SESSION] Current working directory recorded: {current_working_dir}")
+                    else:
+                        current_working_dir = "/app"
+                        self.logger.warning(f"[TEST_SESSION] Failed to get current working directory, using default: {current_working_dir}")
+
+                    extract_response = self.run_in_session(f"cd {test_dir} && tar -xzf {archive_name} && rm {archive_name}", self.test_session_name)
+                    if extract_response.exit_code != 0:
+                        error_msg = f"Failed to extract test archive: {extract_response.output}"
+                        self.logger.error(error_msg)
+                        self.failure_mode = FailureMode.TEST_FILE_UPLOAD_FAILED
+                        self.error_messages.append(f"Test archive extraction error: {error_msg}")
+                        return False, FailureMode.TEST_FILE_UPLOAD_FAILED, test_output, ""
+
+                    self.logger.info("[TEST_UPLOAD] Success! - Tests folder uploaded and extracted successfully")
+                else:
+                    error_msg = f"Failed to compress test directory: {tests_dir}"
+                    self.logger.error(error_msg)
+                    self.failure_mode = FailureMode.TEST_FILE_UPLOAD_FAILED
+                    self.error_messages.append(f"Test compression error: {error_msg}")
+                    return False, FailureMode.TEST_FILE_UPLOAD_FAILED, test_output, ""
+        else:
+            self.logger.warning(f"Tests directory not found: {tests_dir}")
+
+
+        run_tests_script = task_dir / "run-tests.sh"
+
+        if run_tests_script.exists():
+            is_success, message = self.upload_file(str(run_tests_script), f"{test_dir}/run-tests.sh")
+            if not is_success:
+                error_msg = f"Failed to upload run-tests.sh: {message}"
+                self.logger.error(error_msg)
+                self.failure_mode = FailureMode.TEST_FILE_UPLOAD_FAILED
+                self.error_messages.append(f"Run-tests script upload error: {error_msg}")
+                return False, FailureMode.TEST_FILE_UPLOAD_FAILED, test_output, ""
+            self.logger.info("[TEST_UPLOAD] Success! - run-tests.sh uploaded successfully")
+        else:
+            error_msg = f"run-tests.sh not found: {run_tests_script}"
+            self.logger.error(error_msg)
+            self.failure_mode = FailureMode.TEST_FILE_UPLOAD_FAILED
+            self.error_messages.append(f"Run-tests script not found: {error_msg}")
+            return False, FailureMode.TEST_FILE_UPLOAD_FAILED, test_output, ""
+
+        self.logger.info("[TEST_SESSION] Success! - All test files uploaded successfully")
+
+        # 执行测试
+        sandbox_run_test_scripts = f"{test_dir}/run-tests.sh"
+        chmod_response = self.run_in_session(f"chmod +x {sandbox_run_test_scripts}", self.test_session_name)
+
+        cd_response = self.run_in_session(f"cd {current_working_dir}", self.test_session_name)
+
+        test_command = f"bash {sandbox_run_test_scripts}"
+        run_status, test_output = self.run_session_with_timeout(
+            self.test_session_name,
+            test_command,
+            60 * 20,
+            "test.txt"
+        )
+        self.logger.info(f"[RUN_TESTS] Completed - Test run status: {run_status}, test_output: {json.dumps(test_output, ensure_ascii=False)}...")
+        if run_status != RunStatus.SUCCESS:
+            if run_status == RunStatus.TIMEOUT:
+                error_msg = "Test execution timed out"
+                self.failure_mode = FailureMode.TEST_TIMEOUT
+                self.error_messages.append(f"Test timeout error: {error_msg}")
+                return False, FailureMode.TEST_TIMEOUT, test_output, test_command
+            else:
+                error_msg = f"Test execution failed with status: {run_status}"
+                self.failure_mode = FailureMode.UNKNOWN_TEST_ERROR
+                self.error_messages.append(f"Test execution error: {error_msg}")
+                return False, FailureMode.UNKNOWN_TEST_ERROR, test_output, test_command
+
+        with open("test_output.txt", "w") as f:
+            f.write(test_output)
+        is_resolved = self._parse_test_results(test_output)
+
+        return is_resolved, "", test_output, test_command
+
+    def _parse_test_results(self, test_output: str) -> bool:
+        """Parse test results to determine if the task is resolved"""
+        if "SWEBench results starts here" in test_output:
+            test_output = test_output.split("SWEBench results starts here")[-1]
+        if "short test summary info" in test_output:
+            test_output = test_output.split("short test summary info")[-1]
+        if "test session starts" in test_output:
+            test_output = test_output.split("test session starts")[-1]
+        if "All tests passed" in test_output:
+            return True
+        if "PASSED" in test_output and "FAILED" not in test_output:
+            return True
+        if "PASS" in test_output and "FAIL" not in test_output:
+            return True
+        return False
+
+    def run_ground_truth_solution(self, agent_timeout_sec: int, task_id: Union[str, int], task_name: str = "") -> Tuple[str, float, bool, bool, Dict[str, Any]]:
+        """
+        Run ground truth solution for evaluation mode.
+        """
+        self.logger.info(f"[GROUND_TRUTH] START - Running ground truth solution for task: {task_name}")
+
+        self.failure_mode = FailureMode.NONE
+        self.error_messages.clear()
+
+        reward = 0.0
+        terminated = True
+        truncated = False
+        observation = ""
+        is_valid = True
+
+        try:
+            solution_file_path = None
+            for test_file_path in self.test_files:
+                test_path = Path(test_file_path)
+                if not test_path.exists():
+                    self.logger.warning(f"Test path not found: {test_file_path}")
+                    continue
+
+                if test_path.is_dir():
+                    potential_solution_path = test_path / task_name / "solution.sh"
+                    if potential_solution_path.exists():
+                        solution_file_path = str(potential_solution_path)
+                        break
+
+            if not solution_file_path:
+                error_msg = f"Ground truth solution file not found: {solution_file_path}"
+                self.logger.error(f"[GROUND_TRUTH] Failed! - {error_msg}")
+                self.failure_mode = FailureMode.RUN_SANDBOX_UPLOAD_FAILED
+                self.error_messages.append(f"Solution file not found: {error_msg}")
+                observation = error_msg
+                is_valid = False
+                info = {"action_is_valid": is_valid}
+                return observation, reward, terminated, truncated, info
+
+
+            pwd_response = self.run_in_session("pwd", self.agent_session_name)
+            if pwd_response.exit_code == 0:
+                current_working_dir = pwd_response.output.strip()
+            else:
+                current_working_dir = "/app"
+
+            target_solution_path = os.path.join(current_working_dir, "solution.sh")
+            self.logger.info(f"[GROUND_TRUTH] Uploading solution from {solution_file_path} to {target_solution_path}")
+            is_success, message = self.upload_file(solution_file_path, target_solution_path)
+
+            chmod_response = self.run_in_session(f"chmod +x {target_solution_path}", self.agent_session_name)
+
+            run_status, result = self.run_session_with_timeout(
+                self.agent_session_name,
+                f"bash {target_solution_path}",
+                60*40,
+                "ground_truth_output.txt"
+            )
+
+            if run_status == RunStatus.SUCCESS:
+                observation = f"Ground truth solution executed successfully. Output: {result[:1000]}..."
+                self.logger.info("[GROUND_TRUTH] Success! - Ground truth solution executed successfully")
+                is_valid = True
+            elif run_status == RunStatus.TIMEOUT:
+                error_msg = f"Ground truth solution execution timed out after {agent_timeout_sec}s"
+                self.logger.error(f"[GROUND_TRUTH] Failed! - {error_msg}")
+                self.failure_mode = FailureMode.TOOL_EXECUTION_TIMEOUT
+                self.error_messages.append(f"Execution timeout: {error_msg}")
+                observation = f"{error_msg}. Partial output: {result[:500]}..."
+                is_valid = False
+            else:
+                error_msg = f"Ground truth solution execution failed with status: {run_status}"
+                self.logger.error(f"[GROUND_TRUTH] Failed! - {error_msg}")
+                self.failure_mode = FailureMode.TOOL_EXECUTION_FAILED
+                self.error_messages.append(f"Execution failed: {error_msg}")
+                observation = f"{error_msg}. Output: {result[:500]}..."
+                is_valid = False
+
+        except Exception as e:
+            error_msg = f"Exception during ground truth solution execution: {str(e)}"
+            self.logger.error(f"[GROUND_TRUTH] Failed! - {error_msg}")
+            self.failure_mode = FailureMode.RUN_SANDBOX_EXCEPTION
+            self.error_messages.append(f"Execution exception: {error_msg}")
+            observation = error_msg
+            is_valid = False
+
+        info = {
+            "action_is_valid": is_valid,
+            "have_tool_call": False,
+            "success": is_valid
+        }
+        self.logger.info(f"[GROUND_TRUTH] Completed - terminated: {terminated}, valid: {is_valid}, failure_mode: {self.failure_mode}")
+        return observation, reward, terminated, truncated, info
+
+
+    def get_messages_and_tools(self, request_payload: str):
+        """
+        Get messages and tools from iflow-cli request_payload_json_str.
+
+        Args:
+            request_payload: JSON string containing the request payload with messages and tools
+
+        Returns:
+            Tuple of (messages, tools, error_message)
+        """
+        self.logger.debug("[GET_MESSAGES_TOOLS] START - Processing request payload")
+
+        # Parse the request payload JSON
+        try:
+            request_data = json.loads(request_payload)
+        except json.JSONDecodeError as e:
+            error_msg = f"Failed to parse request payload JSON: {str(e)}, request_payload: {request_payload}"
+            self.logger.error(f"[GET_MESSAGES_TOOLS] Failed! - {error_msg}, {self.error_suffix}")
+            self.failure_mode = FailureMode.IFLOW_SYSINFO_PARSE_FAILED
+            self.error_messages.append(f"Request payload parse error: {error_msg}")
+            return [], [], error_msg
+
+        # Extract messages and tools from the request data
+        assert "messages" in request_data, f"Messages not found in request data, {request_data}"
+
+        messages = request_data.get("messages", [])
+        tools = request_data.get("tools", [])
+        self.logger.debug(f"[GET_MESSAGES_TOOLS] Success! - Extracted {len(messages)} messages and {len(tools)} tools")
+        return messages, tools, ""
+
+    def format_response_payload(self, response: str) -> Tuple[str, Dict]:
+        """
+        用action_parser代替了原来iflow_cli_tool的parse逻辑
+        """
+        self.logger.debug(f"[FORMAT_RESPONSE] START - Processing response of length: {len(response)}")
+
+        # Extract tool calls and content upfront
+        tool_calls = []
+        content = response
+        has_tool_calls = "<tool_call>" in response
+        action_is_valid = False
+        info = {}
+        # Parse tool calls if present
+        if has_tool_calls:
+            self.logger.debug("[FORMAT_RESPONSE] Tool calls detected in response")
+            try:
+                is_parsed, parsed_tool_calls = self.action_parser.parse_action(response)
+                if is_parsed and parsed_tool_calls:
+                    tool_calls = parsed_tool_calls
+                    # Extract the text content before tool calls
+                    content_parts = response.split("<tool_call>")
+                    content = content_parts[0] if content_parts else response
+                    self.logger.debug("[FORMAT_RESPONSE] Tool calls formatted successfully")
+                    action_is_valid = True
+                else:
+                    # Tool call parsing failed, treat as regular response
+                    content = response
+                    self.logger.debug("[FORMAT_RESPONSE] Tool call parsing failed, treating as regular response")
+
+            except Exception as parse_exc:
+                self.logger.error(f"[FORMAT_RESPONSE] Error parsing tool calls: {str(parse_exc)}, {self.error_suffix}")
+                # Fallback to regular response
+                content = response
+        else:
+            # No tool calls, conversation finished
+            action_is_valid = True
+
+        # Build response payload uniformly
+        response_payload = {
+            "choices": [
+                {
+                    "index": 0,
+                    "message": {"role": "assistant", "content": content},
+                    "finish_reason": "tool_calls" if tool_calls else "stop",
+                }
+            ]
+        }
+
+        # Add tool calls if present
+        if tool_calls:
+            response_payload["choices"][0]["message"]["tool_calls"] = tool_calls
+
+        # Convert to JSON string
+        response_payload_json = json.dumps(response_payload, ensure_ascii=False)
+        self.logger.debug(f"[FORMAT_RESPONSE] Success! - Payload length: {len(response_payload_json)}")
+        info["action_is_valid"] = action_is_valid
+        return response_payload_json, info
+
+
+    def fetch_agent_request(
+        self, index: int, response_payload: Optional[str] = None, timeout: float = None
+    ) -> RunSessionResponse:
+        try:
+            result = self.agent_manager.anti_call_llm(index, response_payload, timeout=timeout)
+            return RunSessionResponse(exit_code=0, output=result)
+        except Exception as e:
+            return RunSessionResponse(exit_code=1, failure_reason=str(e))
diff --git a/roll/pipeline/agentic/env/sandbox/rock_tb_native_env.py b/roll/pipeline/agentic/env/sandbox/rock_tb_native_env.py
new file mode 100644
index 000000000..811efdeed
--- /dev/null
+++ b/roll/pipeline/agentic/env/sandbox/rock_tb_native_env.py
@@ -0,0 +1,603 @@
+import itertools
+from typing import Any, Dict, List, Optional, SupportsFloat, Tuple, Union
+
+import ray
+from gem import Env
+from omegaconf import OmegaConf
+
+from roll.datasets.global_dataset import GlobalDataset, GlobalDatasetManager
+from roll.pipeline.agentic.env.rock.sandbox_manager_v2 import FailureMode, RunSessionResponse, SandboxManagerV2
+from roll.utils.constants import RAY_NAMESPACE, EpisodeStopReason
+from roll.utils.logging import get_logger
+
+
+class RockTBNativeEnv(Env):
+    """
+    Terminal-bench native environment for iflow native mode.
+
+    This environment provides Terminal-bench functionality using the iflow native
+    architecture with ROCK model service integration. It handles terminal-based
+    tasks with integrated agent interaction.
+    """
+
+    def __init__(
+        self,
+        exp_mode: str = "train",
+        group_id: int = 0,
+        num_env_groups: int = 1,
+        max_steps: int = 80,
+        mode: str = "train",
+        xrl_authorization: str = "",
+        sandbox_base_url: str = "https://xrl.alibaba-inc.com",
+        user_id: str = "0000",
+        experiment_id: str = "test",
+        auto_clear_seconds: int = 60 * 60,
+        run_region: str = "",
+        agent_timeout_sec: int = 60 * 40,
+        test_timeout_sec: int = 60 * 10,
+        max_execute_time: float = 60 * 50,
+        max_env_time: float = 60 * 50,
+        timeout: int = 300,
+        startup_timeout: int = 600,
+        debug: bool = False,
+        # Agent有关的参数都放这里, 直接遵从ROCK Agent的格式
+        agent_config: dict = None,
+        max_multi_session_num: int = 1,
+        # Terminal-bench specific parameters
+        dataset_name: Optional[str] = "data/swe_bench_verified_mini.jsonl",
+        train_idx_range: Tuple[int, int] = (0, int(1e4)),  # 训练集任务ID范围
+        val_idx_range: Tuple[int, int] = (0, int(1e4)),  # 验证集任务ID范围
+        pass_low_threshold: float = 0.0,
+        pass_high_threshold: float = 0.0,
+        id_key: str = "id",
+        question_key: str = "prompt",
+        sandbox_image_key: str = "sandbox_image",
+        task_name_key: str = "task_name",
+        run_region_key: str = "run_region",
+        start_script_key: str = "start_script",
+        tag_key: str = "tag",
+        test_files: List[str] = None,
+        seed: int = 0,
+        group_key: Optional[str] = None,
+        **kwargs,
+    ):
+        """
+        Initialize Terminal-bench native environment.
+        支持的tools: roll/pipeline/agentic/tools/iflow/iflow_config.py:279
+        """
+
+        # Basic environment parameters
+        self.exp_mode = exp_mode
+        self.group_id = group_id
+        self.num_env_groups = num_env_groups
+        self.max_steps = max_steps
+        self.mode = mode
+        self.xrl_authorization = xrl_authorization
+        self.sandbox_base_url = sandbox_base_url
+        self.user_id = user_id
+        self.experiment_id = experiment_id
+        self.auto_clear_seconds = auto_clear_seconds
+        self.run_region = run_region
+        self.startup_timeout = startup_timeout
+
+        self.agent_timeout_sec = agent_timeout_sec
+        self.test_timeout_sec = test_timeout_sec
+        self.max_env_time = max_env_time
+
+        if not isinstance(agent_config, dict):
+            self.agent_config = OmegaConf.to_container(agent_config, resolve=False)
+        else:
+            self.agent_config = agent_config
+        if "run_cmd" in self.agent_config:
+            self.agent_config["run_cmd"] = self.agent_config["run_cmd"].replace("<<PROMPT>>", "${prompt}")
+
+        self.debug = debug
+        self.test_files = test_files or []
+        self.max_multi_session_num = max_multi_session_num
+
+        # Terminal-bench specific parameters
+        self.dataset_name = dataset_name
+        self.train_idx_range = train_idx_range
+        self.val_idx_range = val_idx_range
+        self.pass_low_threshold = pass_low_threshold
+        self.pass_high_threshold = pass_high_threshold
+        self.max_execute_time = max_execute_time
+        self.timeout = timeout
+        self.seed = seed
+        self.group_key = group_key
+
+        # Data keys for terminal-bench
+        self.id_key = id_key
+        self.question_key = question_key
+        self.sandbox_image_key = sandbox_image_key
+        self.task_name_key = task_name_key
+        self.run_region_key = run_region_key
+        self.start_script_key = start_script_key
+        self.tag_key = tag_key
+        self.data_line = {}
+        self.task_id = -1
+        self.task_name = ""
+        self.prompt = ""
+        self.sandbox_image = ""
+        self.tag = ""
+        self.start_script = ""
+
+        self.time_start = 0
+        self.rollout_time = 0.0
+        self.traj_tool_execute_time = 0
+
+        # runtime related
+        self.current_step = 0
+        self.session_num = 0
+        self.current_session_step = 0
+        self.logger = get_logger()
+        self.sandbox_manager: Optional[SandboxManagerV2] = None
+        self.test_output = ""
+        self.failure_mode = ""  # 只要跟env交互过程中failure_mode不为空,交互就是失败的
+        self.stop_reason = ""  # terminated的原因
+        self.error_messages = []  # 记录交互过程中的error_messages
+        self.reward, self.terminated, self.truncated = 0, False, False
+        self.env_failed = False
+        self.env_timeout = False
+        self.env_reset_failed = False
+        self.agent_timeout = False
+        self.is_closed = False
+        self.sandbox_ip = ""
+        self.sandbox_id = ""
+
+        # 数据集读取
+        if self.mode == "train":
+            global_dataset_mode = "sample"
+        elif self.mode == "val":
+            global_dataset_mode = "traversal"
+        else:
+            global_dataset_mode = self.mode
+
+        self.dataset = GlobalDataset.options(
+            name=f"{self.mode}_{self.dataset_name}", get_if_exists=True, namespace=RAY_NAMESPACE
+        ).remote(dataset_name=self.dataset_name, mode=global_dataset_mode)
+
+        # 数据过滤
+        idx_range = self.val_idx_range if self.mode == "val" else self.train_idx_range
+        idx_list = self._parse_idx_range(idx_range)
+
+        ray.get(
+            self.dataset.filter.remote(
+                filter_name="filter_idx_range", function=lambda x: int(x[self.id_key]) in idx_list
+            )
+        )
+
+        self.dataset_manager = GlobalDatasetManager.options(
+            name=f"{self.mode}_dataset_manager", get_if_exists=True, namespace=RAY_NAMESPACE
+        ).remote()
+        ray.get(self.dataset_manager.register.remote(dataset_name=dataset_name, dataset_ref=self.dataset))
+
+
+    def _parse_idx_range(self, idx_range: Union[List[int], str]) -> List[int]:
+        """
+        Parse idx_range parameter into a list of integers.
+
+        Args:
+            idx_range: Can be either:
+                - A list of integers: [0, 1, 2, 3]
+                - A tuple of two integers (start, end): (0, 100)
+                - A string that can be evaluated as List[int]: 'list(range(0, 8))'
+                - ListConfig or similar iterable from Hydra/OmegaConf
+
+        Returns:
+            List of integers representing the valid indices.
+        """
+        if isinstance(idx_range, str):
+            # String format: evaluate it safely
+            try:
+                idx_list = eval(idx_range)
+                if not isinstance(idx_list, (list, tuple)):
+                    raise ValueError(f"Evaluated idx_range must be a list or tuple, got {type(idx_list)}")
+                return list(idx_list)
+            except Exception as e:
+                self.logger.error(f"Failed to evaluate idx_range string '{idx_range}': {e}")
+                raise ValueError(f"Invalid idx_range string format: {idx_range}") from e
+        else:
+            # Handle list, tuple, ListConfig, or any iterable sequence
+            try:
+                # Convert to list to handle ListConfig and similar objects from Hydra
+                idx_list = list(idx_range)
+
+                # Check if it's a range tuple (start, end) or a list of indices
+                if len(idx_list) == 2 and all(isinstance(x, (int, float)) for x in idx_list):
+                    # Assume it's a range tuple
+                    start, end = int(idx_list[0]), int(idx_list[1])
+                    return list(range(start, end + 1))
+                else:
+                    # It's a list of specific indices
+                    return [int(x) for x in idx_list]
+            except (TypeError, ValueError) as e:
+                self.logger.error(f"Failed to parse idx_range: {idx_range}, type: {type(idx_range)}")
+                raise TypeError(f"idx_range must be List[int], str, or iterable, got {type(idx_range)}") from e
+
+    def reset(self, seed=None) -> Tuple[List[Dict], Dict]:
+        """Reset the environment and start a new episode."""
+        super().reset(seed)
+        self.clean_record()
+
+        data_line: Optional[Dict] = ray.get(self.dataset.get_data_item.remote(seed=seed))
+        if data_line is None:
+            return None, {}
+
+        self.task_id = data_line[self.id_key]
+        self.data_line = data_line
+
+        self._reset_logger(seed)
+
+        # Extract terminal-bench specific fields
+        self.prompt = data_line[self.question_key]
+        self.sandbox_image = data_line[self.sandbox_image_key]
+        self.task_name = data_line[self.task_name_key]
+        self.run_region = data_line.get(self.run_region_key, "")
+        self.start_script = data_line.get(self.start_script_key, "")
+        self.tag = data_line.get(self.tag_key, "")
+
+        if "swebench" in self.sandbox_image:
+            self.agent_config["project_path"] = "/testbed"
+        else:
+            self.agent_config["project_path"] = "/app"
+
+        # Prepare phase
+        self.start_sandbox()
+
+        self.setup_sandbox_env()
+
+        # iflow-cli --prompt {instruction}
+        observation, tools, error_msg = self.reset_agent_status(prompt=self.prompt)
+
+        return observation, {
+            "tools": tools,
+            "error_msg": error_msg,
+            "failure_mode": self.failure_mode,
+            "task_name": self.task_name,
+        }
+
+    def step(self, action: str) -> Tuple[Union[List[Dict], str], SupportsFloat, bool, bool, dict[str, Any]]:
+        self.current_step += 1
+        self.current_session_step += 1
+        info = {}
+
+        self.logger.info(f"[ENV_STEP] START - GroupID: {self.group_id}, Step:{self.current_step}, Response:{action}")
+        if self.rollout_time > self.max_env_time:
+            action = EpisodeStopReason.ENV_TIMEOUT
+            self.env_timeout = True
+            self.logger.error(f"[ENV_STEP] Failed! - Environment timeout after {self.max_env_time / 60} minutes")
+
+        if self.exp_mode == "eval_gt":
+            self.logger.info(f"[EVAL_GT] START - Running ground truth solution for task: {self.task_name}")
+            observation, reward, terminated, truncated, info = self.sandbox_manager.run_ground_truth_solution(
+                self.agent_timeout_sec, self.task_id, self.task_name
+            )
+            if not info.get("success", "True"):
+                self.error_messages.append(observation)
+            action = EpisodeStopReason.EVAL_GT
+
+        if isinstance(action, EpisodeStopReason) and action in [
+            EpisodeStopReason.MAX_LENGTH,
+            EpisodeStopReason.ENV_TIMEOUT,
+            EpisodeStopReason.EVAL_GT,
+        ]:
+            # 控制类action，主动终止，终止时计算一次reward
+            observation, tools, error_msg, self.reward = self.check_terminated(
+                next_request_payload="", force_terminated=True
+            )
+            return observation, self.reward, True, True, {**info}
+
+        response_payload, info = self.sandbox_manager.format_response_payload(response=action)
+        request_response: RunSessionResponse = self.sandbox_manager.fetch_agent_request(
+            index=self.current_session_step, response_payload=response_payload
+        )
+        if request_response.exit_code != 0:
+            # 交互失败，当前SESSION_END, 再次尝试交互
+            self.env_reset_failed = True
+            self.failure_mode = FailureMode.MODEL_SERVICE_ANTI_CALL_LLM_FAILED
+            error_msg = f"[{self.failure_mode}]: {request_response.failure_reason}\t{request_response.output}"
+            self.error_messages.append(error_msg)
+            self.logger.error(error_msg)
+            next_request_payload = "SESSION_END"
+        else:
+            next_request_payload = request_response.output
+
+        next_request_payload = next_request_payload.strip().split("\n")[-1]
+
+        observation, tools, error_msg, self.reward = self.check_terminated(next_request_payload=next_request_payload)
+        if "SESSION_END" != next_request_payload:
+            observation, tools, error_msg = self.sandbox_manager.get_messages_and_tools(
+                request_payload=next_request_payload
+            )
+
+        if not observation:
+            self.failure_mode = FailureMode.MODEL_SERVICE_ANTI_CALL_LLM_FAILED
+            error_msg = f"[{self.failure_mode}]: {request_response.failure_reason}\t{request_response.output}"
+            self.error_messages.append(error_msg)
+            self.logger.error(error_msg)
+            self.terminated = True
+            self.truncated = True
+
+        action_is_valid = info.get("action_is_valid", False)
+        metrics = {
+            "env_timeout": self.env_timeout,
+            "env_reset_failed": self.env_reset_failed,
+            "action_is_valid": action_is_valid,
+            "success": self.reward > 0,
+            "raw_reward": self.reward,
+            "current_step": self.current_step,
+            "task_id": self.task_id,
+        }
+
+        metrics_agg_mode = {
+            "action_is_valid": "mean",
+            "success": "last",
+            "raw_reward": "last",
+        }
+        info_new = {
+            "metrics": metrics,
+            "metrics_agg_mode": metrics_agg_mode,
+            "failure_mode": self.failure_mode,
+            "error_messages": self.error_messages,
+            "stop_reason": self.stop_reason,
+            "test_output": self.test_output,
+        }
+        info.update(info_new)
+        self.logger.info(
+            f"[ENV_STEP] Success! - Step {self.current_step} finished, task: {self.task_name}, reward: {self.reward}, success: {self.reward > 0}"
+        )
+        return observation, self.reward, self.terminated, self.truncated, info
+
+    def check_terminated(self, next_request_payload: str, force_terminated=False):
+        # Initialize termination states for this step
+        self.terminated = False
+        self.truncated = False
+
+        # Check step limit termination first
+        step_limit_reached = self.current_step >= self.max_steps
+
+        # Check if episode should end (either by session end or step limit)
+        should_end_episode = ("SESSION_END" == next_request_payload) or step_limit_reached or force_terminated
+
+        observation = next_request_payload
+        tools = []
+        error_msg = ""
+        if should_end_episode:
+            self.session_num += 1
+
+            # Always calculate reward when ending a session/episode
+            self.reward, error_info, test_output = self.calculate_reward()
+
+            if step_limit_reached:
+                self.terminated = True
+                self.truncated = True
+                self.stop_reason = "Reached maximum steps"
+                observation = f"ERROR: Reached maximum steps {self.max_steps}"
+                self.logger.info(f"[MAX_STEPS] Reached maximum steps ({self.max_steps}), truncating episode")
+            elif force_terminated:
+                self.terminated = True
+                self.truncated = True
+                self.stop_reason = "Force terminated"
+                observation = f"self.stop_reason: {self.stop_reason}"
+                self.logger.info("[truncated] truncating episode")
+            elif "SESSION_END" == next_request_payload:
+                self.terminated = True
+                self.stop_reason = "Session ended naturally"
+
+            # Check if we should start a new session or terminate completely
+            if self.session_num < self.max_multi_session_num and not step_limit_reached and not force_terminated:
+                # Start new session with test output as prompt
+                prompt_with_test = f"{test_output}"
+                observation, tools, error_msg = self.reset_agent_status(prompt=prompt_with_test)
+                # Reset termination flags since we're starting a new session
+                self.terminated = False
+                self.truncated = False
+            else:
+                # Final termination - either reached max sessions or step limit
+                self.terminated = True
+                if step_limit_reached:
+                    self.truncated = True
+        if self.terminated:
+            self.close()
+        return observation, tools, error_msg, self.reward
+
+    def clean_record(self):
+        """Clean all episode-specific records."""
+        self.data_line = {}
+        self.task_id = -1
+        self.task_name = ""
+        self.prompt = ""
+        self.sandbox_image = ""
+        self.reward, self.terminated, self.truncated = 0, False, False
+        self.env_failed = False
+        self.env_timeout = False
+        self.env_reset_failed = False
+        self.agent_timeout = False
+        self.is_closed = False
+        self.current_step = 0
+        self.current_session_step = 0
+        self.error_messages.clear()
+        self.failure_mode = ""
+        self.test_output = ""
+        self.sandbox_ip = ""
+        self.sandbox_id = ""
+
+    def start_sandbox(self):
+        """Initialize ROCK service and start base image."""
+        self.logger.info(
+            f"[SANDBOX_INIT] START - Initializing sandbox with image: {self.sandbox_image}, task: {self.task_name}"
+        )
+        self.sandbox_manager = SandboxManagerV2(
+            sandbox_image=self.sandbox_image,
+            logger=self.logger,
+            # xrl相关的参数
+            xrl_authorization=self.xrl_authorization,
+            sandbox_base_url=self.sandbox_base_url,
+            user_id=self.user_id,
+            experiment_id=self.experiment_id,
+            startup_timeout=self.startup_timeout,
+            default_timeout=self.timeout,
+            # iflow相关的参数
+            agent_config=self.agent_config,
+            # others
+            run_region=self.run_region,
+            start_script=self.start_script,
+            dataset_tag=self.tag,
+            test_files=self.test_files,
+            task_name=self.task_name,
+            debug=self.debug,
+        )
+
+        if not self.sandbox_manager.is_environment_available:
+            self.env_reset_failed = True
+        else:
+            self.env_reset_failed = False
+            self.logger.info(
+                f"[ENV_RESET] Success! - TaskID: {self.task_id}, TaskName: {self.task_name}, image: {self.sandbox_image}, sandbox_ip: {self.sandbox_manager.sandbox_ip}, sandbox_id: {self.sandbox_manager.sandbox_id}"
+            )
+            self.sandbox_ip = self.sandbox_manager.sandbox_ip
+            self.sandbox_id = self.sandbox_manager.sandbox_id
+
+    def _reset_logger(self, seed):
+        """Reset logger for new episode."""
+        self.logger = get_logger()
+        self.logger.info(f"start reset, task_id: {self.task_id}, task_name: {self.task_name}")
+
+    def setup_sandbox_env(self):
+        """Setup terminal-bench specific environment if needed."""
+        # TODO: env setup相关的，不应该放sandbox_manager里
+        pass
+
+    def reset_agent_status(self, prompt):
+        """
+        交互失败返回 observation, tools, error_msg = [], [], ""
+        """
+        self.current_session_step = 0
+        observation, tools, error_msg = [], [], ""
+
+        start_agent_response = self.sandbox_manager.start_agent(prompt=prompt)
+        if start_agent_response.exit_code != 0:
+            self.env_reset_failed = True
+            self.failure_mode = FailureMode.AGENT_START_FAILED
+            error_msg = f"[{self.failure_mode}]: {start_agent_response.failure_reason}\t{start_agent_response.output}"
+            self.error_messages.append(error_msg)
+            self.logger.error(error_msg)
+            self.terminated = True
+            return observation, tools, error_msg
+
+        # self.sandbox_manager.anti_call_llm(), 拿到iflow-cli的初始请求，解出messages和tools
+        request_response: RunSessionResponse = self.sandbox_manager.fetch_agent_request(
+            index=self.current_session_step
+        )
+
+        request_payload = request_response.output
+        request_payload = request_payload.strip().split("\n")[-1]
+
+        if request_response.exit_code != 0 or not request_payload:
+            self.env_reset_failed = True
+            self.failure_mode = FailureMode.MODEL_SERVICE_ANTI_CALL_LLM_FAILED
+            error_msg = f"[{self.failure_mode}]: {request_response.failure_reason}\t{request_response.output}"
+            self.error_messages.append(error_msg)
+            self.logger.error(error_msg)
+            self.terminated = True
+            return observation, tools, error_msg
+
+        observation, tools, error_msg = self.sandbox_manager.get_messages_and_tools(request_payload=request_payload)
+
+        if error_msg or not observation:
+            self.env_reset_failed = True
+            self.failure_mode = FailureMode.MODEL_SERVICE_ANTI_CALL_LLM_FAILED
+            self.error_messages.append(error_msg)
+            self.terminated = True
+
+        return observation, tools, error_msg
+
+    def calculate_reward(self):
+        """Calculate reward for the current episode."""
+        self.logger.info(
+            f"[REWARD_CALC] START - Calculating reward for task_id: {self.task_id}, task_name: {self.task_name}"
+        )
+        # TODO: run_tests逻辑应该在env层面， SandboxManager应该做成跟sandbox交互的工具类
+        self.reward, error_info, self.test_output, test_command = self.sandbox_manager.run_tests(
+            self.test_files, self.test_timeout_sec, self.task_name
+        )
+        return self.reward, error_info, self.test_output
+
+    def close(self):
+        """Close the environment and release resources."""
+        if not self.debug:
+            self.sandbox_manager.stop_sandbox()
+
+    @property
+    def env_info(self) -> Dict:
+        """Get environment information."""
+        return {
+            "task_id": self.task_id,
+            "task_name": self.task_name,
+            "sandbox_image": self.sandbox_image,
+            "sandbox_ip": self.sandbox_manager.sandbox_ip if self.sandbox_manager else None,
+            "sandbox_id": self.sandbox_manager.sandbox_id if self.sandbox_manager else None,
+        }
+
+
+if __name__ == "__main__":
+    """Test Terminal-bench native environment"""
+    max_steps = 5
+    env = RockTBNativeEnv(
+        mode="train",
+        sandbox_base_url= "http://localhost:8080",
+        user_id="xxx",
+        experiment_id="test-for-rock",
+        dataset_name="data/swe_bench_verified_example.jsonl",
+        train_idx_range=(476, 476),
+        max_steps=5,
+        max_multi_session_num=1,
+        debug=False,
+        test_files=["/terminal-bench-datasets/datasets/swebench-verified"],
+        agent_config={
+            "agent_type": "default",
+            "run_cmd": "iflow -p <<PROMPT>> --yolo",
+            "runtime_env_config": {
+                "type": "node",
+                "npm_registry": "https://registry.npmmirror.com",
+                "custom_install_cmd": "wget --retry-connrefused --tries=10 --waitretry=2 -O ~/iflow-cli.tgz 'http://cloud.iflow.cn/iflow-cli/iflow-ai-iflow-cli-for-roll-0-4-4-v5.tgz' && npm i -g ~/iflow-cli.tgz",
+            },
+            "env": {
+                "IFLOW_apiKey": "test",
+                "IFLOW_baseUrl": "http://localhost:8080/v1",
+                "IFLOW_modelName": "ROME",
+                "IFLOW_searchApiKey": "88888888",
+                "IFLOW_selectedAuthType": "openai-compatible",
+                "IFLOW_disableAutoUpdate": "true",
+                "IFLOW_tokensLimit": "128000",
+                "IFLOW_shellTimeout": "360000",
+                "IFLOW_coreTools": "Edit,exit_plan_mode,glob,list_directory,multi_edit,plan,read plan,read_file,read_many_files,save_memory,Search,Shell,task,web_fetch,web_search,write_file,xml_escape",
+            },
+            "model_service_config": {"type": "local", "enabled": True},
+            "pre_init_cmds": [
+                {"command": 'wget -q https://xrl-sandbox-bucket.oss-cn-hangzhou.aliyuncs.com/uv-files/uv-x86_64-unknown-linux-gnu.tar.gz && tar -xzf uv-x86_64-unknown-linux-gnu.tar.gz --strip-components=1 -C /usr/local/bin && uv --version', "timeout_seconds": 30},
+            ],
+        },
+    )
+    obs, info = env.reset(seed=42)
+
+    print(f"\n[observation]\n{obs}")
+    print(f"\n[info]\n{info}")
+
+    test_actions = [
+        "Let me check the current directory.<tool_call><function=list_directory><parameter=path>/app</parameter></function></tool_call>",
+        "ok, thank you.",
+    ]
+    i = 0
+    for action in itertools.cycle(test_actions):
+        obs, reward, terminate, truncated, info = env.step(action)
+        print(f"\n[observation]-{i}\n{obs}")
+        print(f"\n[reward]-{i}\n{reward}")
+        print(f"\n[terminate]-{i}\n{terminate}")
+        print(f"\n[truncated]-{i}\n{truncated}")
+        print(f"\n[info]-{i}\n{info}")
+
+        i += 1
+        if (terminate or truncated) and i < max_steps:
+            break
diff --git a/roll/pipeline/agentic/env/sokoban/env.py b/roll/pipeline/agentic/env/sokoban/env.py
index c51552ae4..5e5fc19f0 100644
--- a/roll/pipeline/agentic/env/sokoban/env.py
+++ b/roll/pipeline/agentic/env/sokoban/env.py
@@ -115,7 +115,7 @@ def step(self, action: str):
                 "action_desc": action_desc
             }
             info.update(action_info)
-            return next_obs, reward, False, False, info
+            return next_obs, reward, terminated, False, info
 
         previous_pos = self.player_position
         _, reward, terminated, _ = GymSokobanEnv.step(self, action_info["action"])
diff --git a/roll/pipeline/agentic/env/sokoban/native_env.py b/roll/pipeline/agentic/env/sokoban/native_env.py
new file mode 100644
index 000000000..2538e6529
--- /dev/null
+++ b/roll/pipeline/agentic/env/sokoban/native_env.py
@@ -0,0 +1,284 @@
+from typing import Any, Dict, List, Tuple, SupportsFloat, Union
+
+from roll.pipeline.agentic.env.sokoban.env import SokobanEnv
+from roll.utils.constants import EpisodeStopReason
+from roll.utils.logging import get_logger
+
+
+class SokobanNativeEnv(SokobanEnv):
+    """
+    Sokoban environment for iflow native mode.
+
+    This environment provides Sokoban puzzle functionality using the iflow native
+    architecture. It's a simplified implementation that works with AgentNativeStepEnvManager
+    without requiring external services like ROCK or iflow.
+    """
+
+    def __init__(
+        self,
+        group_id: int = 0,
+        num_env_groups: int = 1,
+        max_steps: int = 10,
+        mode: str = "train",
+        debug: bool = False,
+        dim_room: Tuple[int, int] = (6, 6),
+        num_boxes: int = 1,
+        search_depth: int = 300,
+        format_penalty: float = -0.1,
+        action_pattern: str = "<answer>(.*?)</answer>",
+        system_template: str = None,
+        observation_suffix: str = None,
+        **kwargs
+    ):
+        """
+        Initialize Sokoban native environment.
+        """
+        # Store environment parameters
+        self.group_id = group_id
+        self.num_env_groups = num_env_groups
+        self.mode = mode
+        self.debug = debug
+
+        # Runtime state
+        self.current_step = 0
+        self.task_idx = 0
+        self.logger = get_logger()
+        self.reward = 0
+        self.terminated = False
+        self.truncated = False
+        self.env_reset_failed = False
+        self.env_timeout = False
+        self.failure_mode = ""
+        self.stop_reason = ""
+        self.error_messages = []
+        self.test_output = ""
+        self.is_closed = False
+
+        # Message history for conversation
+        self.message_history = []
+
+        self.system_template = system_template
+        if self.system_template is None:
+            self.system_template = "You're a helpful assistant. You are a good game player. You are aiming to get high reward in the game."
+
+        # Initialize parent SokobanEnv
+        super().__init__(
+            render_mode="text",
+            dim_room=dim_room,
+            max_steps=max_steps,
+            num_boxes=num_boxes,
+            search_depth=search_depth,
+            format_penalty=format_penalty,
+            action_pattern=action_pattern,
+            reset=False,
+            **kwargs
+        )
+        self.observation_suffix = observation_suffix
+        if self.observation_suffix is None:
+            action_lookup_str = "\nYour available actions are:\n" + ", ".join(
+                [f"{v}" for k, v in self.ACTION_LOOKUP.items()])
+            self.observation_suffix = (f"\n\n<system-reminder>\nIMPORTANT: Ensure that your response is the format of '<answer> [your answer] </answer>',  with no extra text, eg. <answer>Right</answer>."
+                                       f"{action_lookup_str}\n. </system-reminder>\n\n"
+                                       f"Decide the next action:\n")
+
+    def reset(self, seed=None) -> Tuple[List[Dict], Dict]:
+        """
+        Reset the environment and return initial observation.
+
+        Returns:
+            observation: List of messages for the agent
+            info: Dictionary containing tools, error_msg, and failure_mode
+        """
+        super().reset(seed)
+        self._clean_state()
+
+        # Get the text observation from parent
+        text_obs, env_info = super().reset(seed)
+
+        # Initialize message history
+        self.message_history = [
+            {
+                "role": "system",
+                "content": f"{self.system_template}\n\n{env_info.get('env_instruction', self.get_instructions())}"
+            },
+            {
+                "role": "user",
+                "content": f"Here is the current state:\n{text_obs}\n\n{self.observation_suffix}"
+            }
+        ]
+
+        # Return info with empty tools (Sokoban doesn't use tools)
+        info = {
+            "tools": [],
+            "error_msg": "",
+            "failure_mode": self.failure_mode
+        }
+
+        return self.message_history, info
+
+    def step(self, action: str) -> Tuple[Union[List[Dict], str], SupportsFloat, bool, bool, dict[str, Any]]:
+        """
+        Execute one step in the environment.
+
+        Args:
+            action: Action string from the agent
+
+        Returns:
+            observation: List of messages containing full conversation history
+            reward: Step reward
+            terminated: Whether episode ended
+            truncated: Whether episode was truncated
+            info: Additional information dictionary
+        """
+        self.current_step += 1
+        # Check for control actions
+        if isinstance(action, EpisodeStopReason):
+            if action in [EpisodeStopReason.MAX_LENGTH, EpisodeStopReason.ENV_TIMEOUT]:
+                self.terminated = True
+                self.truncated = True
+                self.stop_reason = action.name
+                observation = self.message_history  # Return full history
+                return observation, self.reward, True, True, {}
+
+        # Add assistant's response to message history
+        self.message_history.append({
+            "role": "assistant",
+            "content": action
+        })
+
+        # Execute the action using parent step method
+        text_obs, reward, terminated, truncated, info = super().step(action)
+
+        # Update state
+        self.reward = reward
+        self.terminated = terminated
+        self.truncated = truncated
+
+        # Add new user message with updated state to message history
+        user_content = f"Current state:\n{text_obs}\n\n{self.observation_suffix}"
+        if info.get("action_is_valid", False):
+            user_content = (f"\n\n<system-reminder>\n(IMPORTANT TIPS: the last action is not valid, your new response *must* strictly adhere to the format according system-reminder.)</system-reminder>\n\n"
+                           f"{user_content}")
+        user_message = {
+            "role": "user",
+            "content": user_content
+        }
+        self.message_history.append(user_message)
+
+        # Add metrics to info
+        metrics = info.get("metrics", {})
+        metrics.update({
+            "env_timeout": self.env_timeout,
+            "env_reset_failed": self.env_reset_failed,
+            "success": self.boxes_on_target == self.num_boxes,
+            "raw_reward": self.reward,
+            "task_id": self.task_idx
+        })
+
+        metrics_agg_mode = info.get("metrics_agg_mode", {})
+        info_new = {
+            "metrics": metrics,
+            "metrics_agg_mode": metrics_agg_mode,
+            "failure_mode": self.failure_mode,
+            "error_messages": self.error_messages,
+            "stop_reason": self.stop_reason,
+            "test_output": self.test_output
+        }
+        info.update(info_new)
+
+        return self.message_history, self.reward, self.terminated, self.truncated, info
+
+    def _clean_state(self):
+        """Clean up state for new episode."""
+        self.task_idx += 1
+        self.current_step = 0
+        self.reward = 0
+        self.terminated = False
+        self.truncated = False
+        self.env_reset_failed = False
+        self.env_timeout = False
+        self.failure_mode = ""
+        self.stop_reason = ""
+        self.error_messages.clear()
+        self.test_output = ""
+        self.is_closed = False
+        self.message_history = []  # Clear message history for new episode
+
+    def close(self):
+        """Close the environment."""
+        super().close()
+        self.is_closed = True
+
+    @property
+    def env_info(self) -> Dict:
+        """Return environment information."""
+        return {
+            "task_idx": self.task_idx,
+            "dim_room": self.dim_room,
+            "num_boxes": self.num_boxes,
+            "max_steps": self.max_steps,
+            "current_step": self.current_step,
+            "boxes_on_target": self.boxes_on_target,
+        }
+
+if __name__ == '__main__':
+
+    env = SokobanNativeEnv(
+        dim_room=(6, 6),
+        num_boxes=2,
+        max_steps=10,
+    )
+
+    print("=== SokobanNativeEnv Debug ===")
+
+    # Reset environment
+    obs, info = env.reset(seed=42)
+    print("\n[Initial Observation]")
+    print(f"Number of messages: {len(obs)}")
+    print(f"System message: {obs[0]['content']}")
+    print(f"User message: {obs[1]['content'][:200]}...")
+
+    # Test some actions
+    actions = [
+        "<answer>Up</answer>",
+        "<answer>Right</answer>",
+        "<answer>Down</answer>",
+        "<answer>Left</answer>",
+        "<answer>Up</answer>",
+    ]
+
+    for i, action in enumerate(actions):
+        print(f"\n=== Step {i+1} ===")
+        print(f"Action: {action}")
+
+        obs, reward, terminated, truncated, info = env.step(action)
+
+        print(f"Reward: {reward}")
+        print(f"Terminated: {terminated}")
+        print(f"Truncated: {truncated}")
+        print(f"Success: {info.get('metrics', {}).get('success', False)}")
+        print(f"Current step: {env.current_step}")
+        print(f"Boxes on target: {env.boxes_on_target}/{env.num_boxes}")
+
+        # Show last user message
+        if obs:
+            print(f"\nLatest observation:\n{obs[-1]['content']}")
+
+        if terminated or truncated:
+            print(f"\nEpisode ended! Reason: {info.get('stop_reason', 'Unknown')}")
+            break
+
+    # Test with invalid action
+    print("\n=== Testing Invalid Action ===")
+    obs, reward, terminated, truncated, info = env.step("invalid action")
+    print(f"Invalid action reward: {reward}")
+    print(f"Action valid: {info.get('metrics', {}).get('action_is_valid', False)}")
+
+    # Show final environment info
+    print("\n=== Final Environment Info ===")
+    env_info = env.env_info
+    for key, value in env_info.items():
+        print(f"{key}: {value}")
+
+    env.close()
+    print("\n=== Debug Complete ===")
diff --git a/roll/pipeline/agentic/env_manager/agent_native_env_manager.py b/roll/pipeline/agentic/env_manager/agent_native_env_manager.py
new file mode 100644
index 000000000..5aff115ab
--- /dev/null
+++ b/roll/pipeline/agentic/env_manager/agent_native_env_manager.py
@@ -0,0 +1,522 @@
+import copy
+import json
+import time
+from datetime import datetime
+from typing import List, Union, Dict, Optional
+
+import numpy as np
+import ray
+import torch
+from codetiming import Timer
+from tensordict import TensorDict
+
+from roll.pipeline.agentic.agentic_config import AgenticConfig, EnvManagerConfig
+from roll.pipeline.agentic.env_manager.base_env_manager import RolloutCache
+from roll.distributed.scheduler.protocol import DataProto
+from roll.pipeline.agentic.env_manager.token_mask_utils import convert_list_content_str
+from roll.pipeline.agentic.env_manager.traj_env_manager import TrajEnvManager
+from roll.utils.constants import GenerateStopReason, EpisodeStopReason
+from roll.utils.functionals import pad_to_length, aggregate_metrics
+from roll.utils.hash_utils import compute_object_hash
+
+
+class AgentNativeStepEnvManager(TrajEnvManager):
+    """
+    Used for native like format.
+    You can extend your format_messages as needed.
+    For swe/tb native env
+    # TODO: 增加业务指标，性能/error/timeout
+    """
+    log_stats: Dict
+    failure_mode: str
+    env_reset_failed: bool
+    stop_reason: EpisodeStopReason
+    tools: List[Dict]
+    traj_start_time: float
+
+    def run_rollout_loop(self, data: DataProto):
+        assert "seed" in data.meta_info
+        self.running = True
+        self.group_seed = data.meta_info['seed'] + self.env_config['group_seed']
+        with Timer(name="reset", logger=None) as reset_timer:
+            rollout_cache: RolloutCache = self.reset()
+        self.log_stats["reset_time"] = round(reset_timer.last, 4)
+        start_step = self.current_step
+        max_reset_retries = 0
+        while self.running and rollout_cache is not None:
+
+            if self.env_reset_failed:
+                max_reset_retries += 1
+                self.logger.error(f"[ROLLOUT_LOOP] Failed! - due to sandbox initialization failure...")
+                rollout: DataProto = self.create_placeholder_rollout(self.episode_id)
+                rollout.meta_info["drop_flag"] = True
+
+                ray.get(self.output_queue.put.remote(self.env_config['group_id'], self.episode_id, start_step, rollout, self.env_config['env_id']))
+                self.env.close()
+                if max_reset_retries > 3:
+                    backoff_time = min(3600, 10 * max_reset_retries)
+                    self.logger.warning(f"[ROLLOUT_LOOP] Avoidance mode - Backing off for {backoff_time}s (retry #{max_reset_retries})")
+                    time.sleep(backoff_time)
+                else:
+                    time.sleep(10)
+                with Timer(name="reset", logger=None) as reset_timer:
+                    rollout_cache = self.reset()
+                self.log_stats["reset_time"] = round(reset_timer.last, 4)
+                start_step = self.current_step
+                continue
+
+            max_reset_retries = 0
+            with Timer(name="generate", logger=None) as generate_timer:
+                lm_output: DataProto = self.make_decision(rollout_cache)
+                stop_reason = lm_output.meta_info.pop("stop_reason")
+                if stop_reason == GenerateStopReason.MAX_LENGTH:
+                    self.stop_reason = EpisodeStopReason.MAX_LENGTH
+                elif stop_reason == GenerateStopReason.ABORT:
+                    self.stop_reason = EpisodeStopReason.ABORT
+            self.log_stats["current_step"].append(self.current_step)
+            self.log_stats["generate_time"].append(round(generate_timer.last))
+
+            with Timer(name="step", logger=None) as step_timer:
+                if stop_reason in [GenerateStopReason.FINISH, GenerateStopReason.MAX_LENGTH]:
+                    rollout_cache: RolloutCache = self.step(lm_output)
+            self.log_stats["step_time"].append(round(step_timer.last, 4))
+
+            if self.running and rollout_cache.terminated:
+                rollout: DataProto = self.formulate_rollouts(rollout_cache)
+                traj_group_id = f"{self.rollout_cache.tag}_{self.rollout_cache.group_id}_{self.episode_id}_{self.group_seed}"
+                traj_id = f"{traj_group_id}_{self.rollout_cache.env_id}"
+                rollout.non_tensor_batch["traj_group_id"] = np.array([traj_group_id] * rollout.batch.batch_size[0], dtype=object)
+                rollout.non_tensor_batch["traj_id"] = np.array([traj_id] * rollout.batch.batch_size[0], dtype=object)
+                ray.get(self.output_queue.put.remote(self.env_config['group_id'], self.episode_id, start_step, rollout, self.env_config['env_id']))
+
+                rollout_cache = self.reset()
+                start_step = self.current_step
+
+        ray.get(self.output_queue.put.remote(self.env_config['group_id'], self.episode_id, start_step, None, self.env_config['env_id']))
+
+    def reset(self) -> Optional[RolloutCache]:
+        self.log_stats = {"generate_time": [], "step_time": [], "current_step": [], "reset_time": 0.0, "response_length": [], "tokens_per_second": []}
+        self.stop_reason = EpisodeStopReason.FINISH
+        self.rollout_cache = RolloutCache(env_id=self.env_config['env_id'],
+                                          group_id=self.env_config['group_id'],
+                                          tag=self.env_config['tag'])
+
+        self.episode_id = ray.get(self.output_queue.get_episode_id.remote(
+            self.env_config['group_id'],
+            self.env_config['env_id']
+        ))
+        if self.episode_id is None:
+            assert not self.running
+            return None
+
+        seed = self.group_seed + self.episode_id
+        self.traj_start_time = time.time()
+        observation, info = self.env.reset(seed=seed)
+        if observation is None:
+            return None
+
+        if self.env.env_reset_failed:
+            self.env_reset_failed = True
+            self.logger.error(f"[ENV_RESET] Failed! - Environment reset failed, observation: {json.dumps(observation, ensure_ascii=False)}, env_reset_failed: {self.env.env_reset_failed}")
+            self.failure_mode = info.get("failure_mode", "Sandbox Initialization Failed")
+            self.stop_reason = EpisodeStopReason.ENV_RESET_FAILED
+        else:
+            self.env_reset_failed = False
+
+        self.tools = info.get("tools", [])
+        self.rollout_cache.history.append({
+            "observation": copy.deepcopy(observation),
+            "messages": None,     # agent input messages
+            **info,
+        })
+        return self.rollout_cache
+
+    def step(self, llm_output: DataProto):
+        if llm_output.batch is not None:
+            response = self.tokenizer.batch_decode(llm_output.batch['responses'], skip_special_tokens=False)[0]
+        else:
+            response = self.stop_reason
+        observation, reward, terminated, truncated, info = self.env.step(action=response)
+
+        self.rollout_cache.step += 1
+
+        # terminated 完全由swe|tb env决定
+        self.rollout_cache.terminated = terminated
+        self.rollout_cache.truncated = truncated
+        if self.rollout_cache.step >= self.env_config.max_steps:
+            self.stop_reason = EpisodeStopReason.MAX_STEPS
+        self.rollout_cache.history[-1]['reward'] = reward
+        self.rollout_cache.history[-1]['llm_response'] = response
+        if info is not None:
+            self.rollout_cache.history[-1].update(info)
+
+        self.rollout_cache.history.append({
+            "observation": copy.deepcopy(observation),
+            "actions_left": self.env_config.max_steps - self.rollout_cache.step,
+            "messages": None
+        })
+        return self.rollout_cache
+
+    def make_decision(self, rollout_cache: RolloutCache):
+        lm_input = self.format_messages(rollout_cache)
+        input_ids = lm_input.batch["input_ids"]
+
+        if input_ids.shape[1] >= self.pipeline_config.sequence_length:
+            self.logger.warning(f"sequence_length = {self.pipeline_config.sequence_length} input_ids length = {input_ids.shape[1]},"
+                                f"maybe you should increase the response_length")
+            return DataProto(meta_info={"stop_reason": GenerateStopReason.MAX_LENGTH})
+
+        max_new_tokens = min(self.env_config["max_tokens_per_step"],
+                             self.worker_config.generating_args.max_new_tokens,
+                             self.pipeline_config.sequence_length-input_ids.shape[1])
+        generation_config = self.worker_config.generating_args.to_dict()
+        generation_config["max_new_tokens"] = min(max_new_tokens, self.pipeline_config.sequence_length)
+        lm_input.meta_info["src_rank"] = self.env_config["env_id"]
+
+        content = self.rollout_cache.history[-1]
+        input_messages = content['observation']
+
+        lm_output: DataProto = self.llm_proxy.generate(messages=input_messages,
+                                                       lm_input=lm_input,
+                                                       generation_config=generation_config)
+
+        if lm_output is None:
+            return DataProto(meta_info={"stop_reason": GenerateStopReason.ABORT})
+
+        response_ids = lm_output.batch['responses'][0]
+        response_ids = response_ids.tolist()
+
+        if "infer_logprobs" in lm_output.batch.keys():
+            infer_logprobs = lm_output.batch['infer_logprobs'][0][-len(response_ids):]
+            content["infer_logprobs"] = infer_logprobs.tolist()
+
+        content["response_ids"] = response_ids
+        content["messages"].append({"role": "assistant", "content": self.tokenizer.decode(response_ids, skip_special_tokens=True)})
+        lm_output.meta_info["stop_reason"] = GenerateStopReason.FINISH
+        return lm_output
+
+    def format_messages(self, rollout_cache: RolloutCache) -> DataProto:
+        current_cache = rollout_cache.history[-1]
+
+        messages: List[Dict] = current_cache["observation"]
+
+        prompt_ids = self.tokenizer.apply_chat_template(convert_list_content_str(messages, parse_tool_call_parameter_to_dict=self.pipeline_config.parse_tool_call_parameter_to_dict),
+                                                        tools=self.tools,
+                                                        tokenize=True, add_generation_prompt=True, enable_thinking=False,
+                                                        return_dict=False)
+        input_ids = torch.tensor(prompt_ids, dtype=torch.long).unsqueeze(0)
+        attention_mask = torch.tensor([1] * input_ids.shape[1], dtype=torch.long).unsqueeze(0)
+        # Huggingface Transformers prefer position_ids to be 0-based.
+        # Attn Mask: [1, 1, 1, ..., 1, 0, 0, ..., 0]
+        # cumsum: [1, 2, 3, ..., n, n+1, n+1, ..., n+1]
+        # cumsum - 1: [0, 1, 2, ..., n-1, n, n, ..., n]
+        position_ids = attention_mask.cumsum(dim=-1) - 1
+        lm_input = DataProto()
+        lm_input.batch = TensorDict({
+            "input_ids": input_ids,
+            "attention_mask": attention_mask,
+            "position_ids": position_ids,
+        }, batch_size=input_ids.shape[0])
+
+        current_cache["prompt_ids"] = prompt_ids
+        current_cache['state_hash'] = compute_object_hash(messages)
+        current_cache['messages'] = messages
+        return lm_input
+
+    def formulate_rollouts(self, rollout_cache: RolloutCache):
+        """
+        Construct step-wise training samples from the collected trajectory.
+        TODO: 相同前序合并优化
+              样本构造方法：
+                - 按messages构造response_id
+                - 按response_id构造，纯step_wise用
+        """
+        last_observation = []
+        if 'observation' in rollout_cache.history[-1]:
+            last_observation = rollout_cache.history[-1]['observation']
+            rollout_cache.history.pop(-1)
+
+        samples: List[DataProto] = []
+        step_rewards = [i['reward'] for i in self.rollout_cache.history]
+        episode_score = sum(step_rewards)
+
+        # Initialize lists for step length statistics
+        step_prompt_length_list = []
+        step_response_length_list = []
+
+        all_messages: List[List[Dict]] = [] # 可能包含多条轨迹，相同前序的为一条messages
+        messages = None
+        for step, history in enumerate(rollout_cache.history):
+            if "response_ids" not in history:
+                break
+
+            # Collect step length statistics
+            step_prompt_length_list.append(len(history["prompt_ids"]))
+            step_response_length_list.append(len(history["response_ids"]))
+
+            token_ids = history["prompt_ids"] + history["response_ids"]
+            response_masks = [0] * len(history["prompt_ids"]) + [1] * len(history["response_ids"])
+            input_ids =torch.tensor(token_ids, dtype=torch.long).unsqueeze(0)
+            attention_mask = torch.tensor([1] * len(token_ids), dtype=torch.long).unsqueeze(0)
+            response_mask = torch.tensor(response_masks, dtype=torch.bool).unsqueeze(0)
+            infer_logprobs = []
+            if "infer_logprobs" in history:
+                infer_logprobs = [0] * len(history["prompt_ids"]) + history["infer_logprobs"]
+
+            generate_time = self.log_stats["generate_time"][len(self.log_stats["response_length"])]
+            self.log_stats["response_length"].append(len(history["response_ids"]))
+            if generate_time > 0.01:
+                tokens_per_second = len(history["response_ids"]) / generate_time
+                self.log_stats["tokens_per_second"].append(tokens_per_second)
+            else:
+                self.log_stats["tokens_per_second"].append(0.0)
+
+            first_response_idx = response_masks.index(1)
+            prompt_masks = [1] * first_response_idx + [0] * (len(token_ids) - first_response_idx)
+            prompt_mask = torch.tensor(prompt_masks, dtype=torch.bool).unsqueeze(0)
+            score_tensor = torch.tensor([0] * len(token_ids), dtype=torch.float).unsqueeze(0)
+            score_tensor[0][-1] = history['reward']
+            # Huggingface Transformers prefer position_ids to be 0-based.
+            # Attn Mask: [1, 1, 1, ..., 1, 0, 0, ..., 0]
+            # cumsum: [1, 2, 3, ..., n, n+1, n+1, ..., n+1]
+            # cumsum - 1: [0, 1, 2, ..., n-1, n, n, ..., n]
+            position_ids = attention_mask.cumsum(dim=-1) - 1
+
+            input_ids = pad_to_length(input_ids, length=self.pipeline_config.sequence_length, pad_value=self.tokenizer.pad_token_id)
+            attention_mask = pad_to_length(attention_mask, length=self.pipeline_config.sequence_length, pad_value=0)
+            position_ids = pad_to_length(position_ids, length=self.pipeline_config.sequence_length, pad_value=0)
+            response_mask = pad_to_length(response_mask, length=self.pipeline_config.sequence_length, pad_value=0)
+            prompt_mask = pad_to_length(prompt_mask, length=self.pipeline_config.sequence_length, pad_value=0)
+            score_tensor = pad_to_length(score_tensor, length=self.pipeline_config.sequence_length, pad_value=0)
+            lm_input = DataProto(
+                batch=TensorDict(
+                    {
+                        "input_ids": input_ids,
+                        "attention_mask": attention_mask,
+                        "position_ids": position_ids,
+                        "response_mask": response_mask,
+                        "prompt_mask": prompt_mask,
+                        "scores": score_tensor,
+                    },
+                    batch_size=input_ids.shape[0]),
+                non_tensor_batch={
+                    "env_ids": np.array([self.rollout_cache.env_id], dtype=object),
+                    "group_ids": np.array([self.rollout_cache.group_id], dtype=object),
+                    "tags": np.array([self.rollout_cache.tag], dtype=object),
+                    "step_scores": np.array([history["reward"]], dtype=object), # step-level reward, return by env
+                    "episode_scores": np.array([episode_score], dtype=object),
+                    "state_hash": np.array([history['state_hash']], dtype=object),
+                    "step": np.array([step], dtype=object),
+                    "trajectory_data": np.array([None], dtype=object),
+                    "messages": np.array([None], dtype=object),
+                    "tools": np.array([None], dtype=object),
+                    "exp_name": np.array([self.pipeline_config.exp_name], dtype=object),
+                }
+            )
+            if len(infer_logprobs):
+                infer_logprobs = torch.tensor(infer_logprobs, dtype=torch.float).unsqueeze(0)
+                infer_logprobs = pad_to_length(infer_logprobs, length=self.pipeline_config.sequence_length, pad_value=0)
+                lm_input.batch["infer_logprobs"] = infer_logprobs[:, 1:]
+
+            samples.append(lm_input)
+            messages = history["messages"]
+
+        # TODO: 需要更细致的处理
+        #       可选的方式是，将content + tool_use dict 替换回response
+        all_messages.append(messages)
+        batch: DataProto = DataProto.concat(samples)
+
+        response_length = batch.batch["response_mask"].float().sum(-1).mean().item()
+        metrics_agg_mode = self.rollout_cache.history[-1].get('metrics_agg_mode', {})
+        history_metrics = [item.get("metrics", {}) for item in self.rollout_cache.history]
+        env_metric = aggregate_metrics(history_metrics=history_metrics, metrics_agg_mode=metrics_agg_mode)
+        env_metric["num_actions"] = rollout_cache.step
+        env_metric["env_timeout"] = getattr(self.env, "env_timeout", False)
+        timing_metric = {
+            "traj_time_env_total": round(float(time.time() - self.traj_start_time), 4),
+            "traj_time_reset": round(float(self.log_stats["reset_time"]), 4),
+            "traj_time_step": round(float(np.mean(self.log_stats["step_time"])), 4),
+            "traj_time_step_min": round(float(np.min(self.log_stats["step_time"])), 4),
+            "traj_time_step_max": round(float(np.max(self.log_stats["step_time"])), 4),
+            "traj_time_generate": round(float(np.mean(self.log_stats["generate_time"])), 4),
+            "traj_time_generate_min": round(float(np.min(self.log_stats["generate_time"])), 4),
+            "traj_time_generate_max": round(float(np.max(self.log_stats["generate_time"])), 4),
+            "traj_time_generate_sum": round(float(np.sum(self.log_stats["generate_time"])), 4),
+            "traj_time_response_length": round(float(np.mean(self.log_stats["response_length"])), 4),
+            "traj_time_response_length_min": round(float(np.min(self.log_stats["response_length"])), 4),
+            "traj_time_response_length_max": round(float(np.max(self.log_stats["response_length"])), 4),
+            "traj_time_tokens_per_second": round(float(np.mean(self.log_stats["tokens_per_second"])), 4),
+            "traj_time_tokens_per_second_min": round(float(np.min(self.log_stats["tokens_per_second"])), 4),
+            "traj_time_tokens_per_second_max": round(float(np.max(self.log_stats["tokens_per_second"])), 4),
+        }
+        length_metric = {
+            "response_length": float(response_length),
+            "step_prompt_length": round(float(np.mean(step_prompt_length_list)), 2),
+            "step_prompt_length_min": round(float(np.min(step_prompt_length_list)), 2),
+            "step_prompt_length_max": round(float(np.max(step_prompt_length_list)), 2),
+            "step_response_length": round(float(np.mean(step_response_length_list)), 2),
+            "step_response_length_min": round(float(np.min(step_response_length_list)), 2),
+            "step_response_length_max": round(float(np.max(step_response_length_list)), 2),
+        }
+
+        env_metric.update(timing_metric)
+        env_metric.update(length_metric)
+
+        env_metric = {f"env/{rollout_cache.tag}/{k}": v for k, v in env_metric.items()}
+        env_metric["env/response_length"] = response_length
+        batch.meta_info = {"metrics": env_metric}
+
+        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S_%f")
+        start_step = self.log_stats["current_step"][0]
+        end_step = self.log_stats["current_step"][-1]
+        last_step_info = rollout_cache.history[-1]
+        failure_mode = last_step_info.get("failure_mode", "")
+        traj_id = f"{rollout_cache.tag}_{start_step}_{end_step}_{rollout_cache.group_id}_{rollout_cache.env_id}_{self.episode_id}_{self.group_seed}_{timestamp}"
+        trajectory_data = {
+            "trajectory_id": traj_id,
+            "timestamp": timestamp,
+            "current_step": self.current_step,
+            "env_info":{
+                "env_id": rollout_cache.env_id,
+                "group_id": rollout_cache.group_id,
+                "tag": rollout_cache.tag,
+                "seed": self.group_seed,
+                "episode_id": self.episode_id,
+                "max_steps": self.env_config.max_steps,
+                "mode": self.mode,
+                "sequence_length": self.pipeline_config.sequence_length,
+                **self.env.env_info
+            },
+            "timing_info": {
+                "traj_save_time": datetime.now().isoformat(),
+                **timing_metric
+            },
+            "length_info": {
+                "trajectory_length": rollout_cache.step,
+                "num_actions": rollout_cache.step,
+                "terminated": rollout_cache.terminated,
+                "truncated": rollout_cache.truncated,
+                **length_metric
+            },
+            "reward_info": {
+                "episode_reward": episode_score,
+                "step_rewards": step_rewards,
+                "first_round_reward": step_rewards[0] if step_rewards else 0,
+                "final_reward": step_rewards[-1] if step_rewards else 0
+            },
+            "failure_info": {
+                "failure_mode": last_step_info.get("failure_mode", ""),
+                "stop_reason": self.stop_reason.name,
+                "error_messages": last_step_info.get("error_messages", []),
+                "test_output": last_step_info.get("test_output", ""),
+                "has_failure": bool(failure_mode and failure_mode not in ['', 'none']),
+                "failure_step": rollout_cache.step,
+            },
+            "metrics": env_metric,
+            "last_observation": last_observation
+        }
+
+        # stepwise 样本只存一份traj data
+        batch.non_tensor_batch["trajectory_data"][-1] = json.dumps(trajectory_data)
+        batch.non_tensor_batch["messages"][-1] = json.dumps(all_messages)
+        batch.non_tensor_batch["tools"][-1] = json.dumps(self.tools)
+
+        # 避免 trajectory_data dict 过大，导致写入/读取odps失败
+        colummns_config = [
+            ["trajectory_data", "string"],
+            ["messages", "string"],
+            ["tools", "string"],
+            ["exp_name", "string"],
+        ]
+        batch.meta_info["COLUMMNS_CONFIG"] = colummns_config
+        return batch
+
+    def create_placeholder_rollout(self, episode_id):
+        """
+                Create a minimal placeholder rollout with response_mask=1 to skip loss calculation.
+                """
+        self.logger.info(f"[PLACEHOLDER_ROLLOUT] failure_mode: {self.failure_mode}")
+
+        seq_len = length=self.pipeline_config.sequence_length
+        input_ids = torch.full((1, seq_len), self.tokenizer.pad_token_id, dtype=torch.long)
+        attention_mask = torch.zeros((1, seq_len), dtype=torch.long)
+        position_ids = torch.zeros((1, seq_len), dtype=torch.long)
+        response_mask = torch.zeros((1, seq_len), dtype=torch.bool)
+        prompt_mask = torch.zeros((1, seq_len), dtype=torch.bool)
+        score_tensor = torch.zeros((1, seq_len), dtype=torch.float)
+
+        lm_input = DataProto()
+        lm_input.batch = TensorDict({
+            "input_ids": input_ids,
+            "attention_mask": attention_mask,
+            "position_ids": position_ids,
+            "response_mask": response_mask,
+            "prompt_mask": prompt_mask,
+            "scores": score_tensor,
+        }, batch_size=1)
+
+
+        infer_logprobs = torch.zeros((1, seq_len - 1), dtype=torch.float)
+        lm_input.batch["infer_logprobs"] = infer_logprobs
+
+        lm_input.non_tensor_batch = {
+            "env_ids": np.array([self.env_config['env_id']], dtype=object),
+            "group_ids": np.array([self.env_config['group_id']], dtype=object),
+            "tags": np.array([self.env_config['tag']], dtype=object),
+            "step_scores": np.array([0], dtype=object),
+            "episode_scores": np.array([0], dtype=object),
+            "state_hash": np.array([''], dtype=object),
+            "step": np.array([0], dtype=object),
+            "trajectory_data": np.array([None], dtype=object),
+            "messages": np.array([None], dtype=object),
+            "tools": np.array([None], dtype=object),
+            "exp_name": np.array([self.pipeline_config.exp_name], dtype=object),
+        }
+
+        traj_group_id = f"{self.env_config['tag']}_{self.env_config['group_id']}_{episode_id}_{self.group_seed}"
+        traj_id = f"{traj_group_id}_{self.env_config['env_id']}"
+        lm_input.non_tensor_batch["traj_group_id"] = np.array([traj_group_id] * lm_input.batch.batch_size[0], dtype=object)
+        lm_input.non_tensor_batch["traj_id"] = np.array([traj_id] * lm_input.batch.batch_size[0], dtype=object)
+
+        colummns_config = [
+            ["trajectory_data", "string"],
+            ["messages", "string"],
+            ["tools", "string"],
+            ["exp_name", "string"],
+        ]
+        lm_input.meta_info["COLUMMNS_CONFIG"] = colummns_config
+        lm_input.meta_info["metrics"] = {}
+        return lm_input
+
+
+
+class GroupFilter:
+    def __init__(self, config: AgenticConfig, env_manager_config: EnvManagerConfig, mode: str):
+        self.config = config
+        self.env_manager_config = env_manager_config
+        self.mode = mode
+        self.global_filter_stats = {"total": 0, "filtered": 0}
+
+    def filter(self, group_id: int, episode_id: int, group: list[DataProto]):
+        self.global_filter_stats["total"] += 1
+        should_drop = False
+        for data in group:
+            if data.meta_info.get("drop_flag", False):
+                should_drop = True
+
+        if not should_drop:
+            return False
+
+        current_global_filter_ratio = (
+            self.global_filter_stats["filtered"] / self.global_filter_stats["total"]
+            if self.global_filter_stats["total"] > 0 else 0.0
+        )
+
+        if current_global_filter_ratio >= 0.5:
+            return False
+
+        if (self.global_filter_stats["filtered"] + 1) / self.global_filter_stats["total"] > 0.5:
+            return False
+
+        self.global_filter_stats["filtered"] += 1
+        return True
diff --git a/roll/pipeline/agentic/env_manager/step_concat_env_manager.py b/roll/pipeline/agentic/env_manager/step_concat_env_manager.py
index 9a32e7645..79aecdf37 100644
--- a/roll/pipeline/agentic/env_manager/step_concat_env_manager.py
+++ b/roll/pipeline/agentic/env_manager/step_concat_env_manager.py
@@ -33,10 +33,11 @@ def format_messages(self, rollout_cache: RolloutCache) -> DataProto:
         if self.agent_system_template is not None:
             messages.append({"role": "system", "content": self.agent_system_template})
         messages.append({"role": "user", "content": self.agent_template.format(**render_dict)})
-        prompt_ids = custom_apply_chat_template(messages=messages, tokenizer=self.tokenizer, add_generation_prompt=True)
+        prompt_ids = custom_apply_chat_template(messages=messages, tokenizer=self.tokenizer, add_generation_prompt=True, skip_mock_system_prompt=self.pipeline_config.skip_mock_system_prompt)
         input_ids = torch.tensor(prompt_ids, dtype=torch.long).unsqueeze(0)
         attention_mask = torch.tensor([1] * input_ids.shape[1], dtype=torch.long).unsqueeze(0)
-        position_ids = attention_mask.cumsum(dim=-1)
+        # Huggingface Transformers prefer position_ids to be 0-based.
+        position_ids = attention_mask.cumsum(dim=-1) - 1
         lm_input = DataProto()
         lm_input.batch = TensorDict({
             "input_ids": input_ids,
diff --git a/roll/pipeline/agentic/env_manager/step_env_manager.py b/roll/pipeline/agentic/env_manager/step_env_manager.py
index 4348605a3..15d4c230f 100644
--- a/roll/pipeline/agentic/env_manager/step_env_manager.py
+++ b/roll/pipeline/agentic/env_manager/step_env_manager.py
@@ -49,10 +49,10 @@ def format_messages(self, rollout_cache: RolloutCache) -> DataProto:
         if self.agent_system_template is not None:
             messages.append({"role": "system", "content": self.agent_system_template})
         messages.append({"role": "user", "content": self.agent_template.format(**render_dict)})
-        prompt_ids = custom_apply_chat_template(messages=messages, tokenizer=self.tokenizer, add_generation_prompt=True)
+        prompt_ids = custom_apply_chat_template(messages=messages, tokenizer=self.tokenizer, add_generation_prompt=True, skip_mock_system_prompt=self.pipeline_config.skip_mock_system_prompt)
         input_ids = torch.tensor(prompt_ids, dtype=torch.long).unsqueeze(0)
         attention_mask = torch.tensor([1] * input_ids.shape[1], dtype=torch.long).unsqueeze(0)
-        position_ids = attention_mask.cumsum(dim=-1)
+        position_ids = attention_mask.cumsum(dim=-1) - 1
         lm_input = DataProto()
         lm_input.batch = TensorDict({
             "input_ids": input_ids,
@@ -88,7 +88,11 @@ def formulate_rollouts(self, rollout_cache: RolloutCache):
             prompt_mask = torch.tensor(prompt_masks, dtype=torch.bool).unsqueeze(0)
             score_tensor = torch.tensor([0] * len(token_ids), dtype=torch.float).unsqueeze(0)
             score_tensor[0][-1] = history['reward']
-            position_ids = attention_mask.cumsum(dim=-1)
+            # Huggingface Transformers prefer position_ids to be 0-based.
+            # Attn Mask: [1, 1, 1, ..., 1, 0, 0, ..., 0]
+            # cumsum: [1, 2, 3, ..., n, n+1, n+1, ..., n+1]
+            # cumsum - 1: [0, 1, 2, ..., n-1, n, n, ..., n]
+            position_ids = attention_mask.cumsum(dim=-1) - 1
 
             input_ids = pad_to_length(input_ids, length=self.pipeline_config.sequence_length, pad_value=self.tokenizer.pad_token_id)
             attention_mask = pad_to_length(attention_mask, length=self.pipeline_config.sequence_length, pad_value=0)
diff --git a/roll/pipeline/agentic/env_manager/token_mask_utils.py b/roll/pipeline/agentic/env_manager/token_mask_utils.py
index c80de49b3..224b934ec 100644
--- a/roll/pipeline/agentic/env_manager/token_mask_utils.py
+++ b/roll/pipeline/agentic/env_manager/token_mask_utils.py
@@ -1,8 +1,11 @@
+import json
 from typing import List, Dict
 from functools import lru_cache
 from transformers import PreTrainedTokenizer
 
 from roll.datasets.collator import DataCollatorWithPaddingForMM
+from roll.utils.logging import get_logger
+logger = get_logger()
 
 
 @lru_cache(maxsize=10)
@@ -11,23 +14,27 @@ def compute_conversation_end_token_id(tokenizer: PreTrainedTokenizer) -> List[in
     find '<|im_end|>' token id
     """
     assistant_mock = [{"role": "user", "content": ""}]
-    assistant_token_ids_mock: List[int] = tokenizer.apply_chat_template(assistant_mock, tokenize=True)
+    assistant_token_ids_mock: List[int] = tokenizer.apply_chat_template(assistant_mock, tokenize=True, return_dict=False)
     for token_id in reversed(assistant_token_ids_mock):
         if token_id in tokenizer.all_special_ids:
             return [token_id]
     return []
 
-def custom_apply_chat_template(messages: List[Dict], tokenizer: PreTrainedTokenizer, add_generation_prompt=True, enable_thinking=False) -> List:
+def custom_apply_chat_template(messages: List[Dict], tokenizer: PreTrainedTokenizer, add_generation_prompt=True, enable_thinking=False, skip_mock_system_prompt=False) -> List:
     if len(messages) == 0:
         return []
     if messages[0]["role"] == "system":
-        token_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=add_generation_prompt, enable_thinking=enable_thinking)
+        token_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=add_generation_prompt, enable_thinking=enable_thinking, return_dict=False)
         return token_ids
     else:
-        system_mock = [{"role": "system", "content": ""}]
-        system_token_ids_mock = tokenizer.apply_chat_template(system_mock, tokenize=True)
-        token_ids = tokenizer.apply_chat_template(system_mock + messages, tokenize=True, add_generation_prompt=add_generation_prompt, enable_thinking=enable_thinking)
-        return token_ids[len(system_token_ids_mock):]
+        if skip_mock_system_prompt:
+            token_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=add_generation_prompt, enable_thinking=enable_thinking, return_dict=False)
+            return token_ids
+        else:
+            system_mock = [{"role": "system", "content": ""}]
+            system_token_ids_mock = tokenizer.apply_chat_template(system_mock, tokenize=True, return_dict=False)
+            token_ids = tokenizer.apply_chat_template(system_mock + messages, tokenize=True, add_generation_prompt=add_generation_prompt, enable_thinking=enable_thinking, return_dict=False)
+            return token_ids[len(system_token_ids_mock):]
 
 def custom_vl_apply_chat_template(messages: List[Dict], collator: DataCollatorWithPaddingForMM, add_generation_prompt=True) -> Dict:
     if len(messages) == 0:
@@ -40,7 +47,7 @@ def custom_vl_apply_chat_template(messages: List[Dict], collator: DataCollatorWi
             images.extend([content[i].pop("image_PIL") for i in range(len(content)) if content[i]["type"] == "image"])
 
     if messages[0]["role"] == "system":
-        messages_text = collator.processor.apply_chat_template(messages, add_generation_prompt=add_generation_prompt)
+        messages_text = collator.processor.apply_chat_template(messages, add_generation_prompt=add_generation_prompt, return_dict=False)
         features = [{
             collator.prompt_key: messages_text,
             collator.image_key: images,
@@ -51,8 +58,8 @@ def custom_vl_apply_chat_template(messages: List[Dict], collator: DataCollatorWi
         return inputs
     else:
         system_mock = [{"role": "system", "content": ""}]
-        system_token_ids_mock = collator.processor.apply_chat_template(system_mock, tokenize=True)
-        messages_text = collator.processor.apply_chat_template(system_mock + messages)
+        system_token_ids_mock = collator.processor.apply_chat_template(system_mock, tokenize=True, return_dict=False)
+        messages_text = collator.processor.apply_chat_template(system_mock + messages, return_dict=False)
         features = [{
             collator.prompt_key: messages_text,
             collator.image_key: images,
@@ -103,14 +110,14 @@ def messages_to_tokens_and_masks(messages: List[Dict], tokenizer: PreTrainedToke
     token_ids_list = []
     response_masks_list = []
     system_mock = {"role": "system", "content": ""}
-    system_token_ids_mock = tokenizer.apply_chat_template([system_mock], tokenize=True)
+    system_token_ids_mock = tokenizer.apply_chat_template([system_mock], tokenize=True, return_dict=False)
     for i, message in enumerate(messages):
         if message["role"].lower() == "system":
-            token_ids = tokenizer.apply_chat_template([message], tokenize=True)
+            token_ids = tokenizer.apply_chat_template([message], tokenize=True, return_dict=False)
             token_ids_list.append(token_ids)
             response_masks_list.append([0] * len(token_ids))
         if message["role"].lower() in ["user", "assistant"]:
-            token_ids = tokenizer.apply_chat_template([system_mock, message], tokenize=True,
+            token_ids = tokenizer.apply_chat_template([system_mock, message], tokenize=True, return_dict=False,
                                                       add_generation_prompt=add_generation_prompt and i == len(messages) - 1)
             token_ids = token_ids[len(system_token_ids_mock):]
             if message["role"].lower() == "user":
@@ -183,7 +190,7 @@ def token_ids_to_assistant_mask(messages: List[Dict], input_ids_list: List[List]
     return assistant_mask_list
 
 
-def split_by_token(input_ids: list, token: int) -> list[list]:
+def split_by_token(input_ids: list, token: int, messages: List[Dict], tokenizer: PreTrainedTokenizer) -> list[list]:
     """
     Split the input_ids list by the given token and return a list of lists.
     Each sub-list starts with that token.
@@ -220,4 +227,96 @@ def split_by_token(input_ids: list, token: int) -> list[list]:
     if current_segment:
         result.append(current_segment)
 
+    if len(result) == len(messages):
+        return result
+    input_ids_list = result[:]
+    result = []
+    # spliting by start token is vulnerable since the format of responses cannot be guaranteed
+    # input_ids_list has large length than messages when format error, which is caused by
+    # responses includeing more than one start token
+    # adjustment according to messages
+    segment_mismatch = True
+    ids_next_idx = 0  # index in input_ids_list for the next message
+    bos_token_id = input_ids_list[0][0]
+    for i, message in enumerate(messages):
+        segment_mismatch = len(input_ids_list) - ids_next_idx != len(messages) - i
+        if segment_mismatch:
+            # str or list of dict
+            content = (
+                "".join([item["text"] for item in message["content"] if item["type"] == "text"])
+                if not isinstance(message["content"], str)
+                else message["content"]
+            )
+            token_id_without_format = tokenizer.encode(content)
+            bos_num = token_id_without_format.count(bos_token_id) + 1  # generated + chat_format
+            current_segment = sum(input_ids_list[ids_next_idx : ids_next_idx + bos_num], [])
+            ids_next_idx += bos_num
+        else:
+            current_segment = input_ids_list[ids_next_idx]
+            ids_next_idx += 1
+        result.append(current_segment)
     return result
+
+
+
+
+def convert_list_content_str(messages: List[Dict], parse_tool_call_parameter_to_dict=False) -> List[Dict]:
+    """
+    Convert state0.json format to tokenizer-compatible format.
+
+    The state0.json may have content as either:
+    1. A string (already compatible)
+    2. A list of dictionaries with 'type' and 'text' keys
+
+    This function ensures all content is converted to strings by concatenating
+    text from list objects when needed.
+
+    Args:
+        messages: List of message dictionaries from iflow_state0.json
+        parse_tool_call_parameter_to_dict: Whether to convert tool call arguments to dict, https://github.com/QwenLM/Qwen3-Coder/issues/444
+
+    Returns:
+        List of message dictionaries with string content suitable for tokenizer
+    """
+    converted_messages = []
+
+    for message in messages:
+        converted_message = message.copy()
+
+        # Handle content field
+        content = message.get('content')
+        if isinstance(content, list):
+            # Concatenate all text elements from the list
+            text_parts = []
+            for item in content:
+                if isinstance(item, dict) and 'text' in item:
+                    text_parts.append(item['text'])
+                elif isinstance(item, str):
+                    text_parts.append(item)
+            converted_message['content'] = ''.join(text_parts)
+        elif isinstance(content, str):
+            # Already in correct format
+            converted_message['content'] = content
+        else:
+            # Handle other cases (convert to string)
+            converted_message['content'] = str(content)
+
+        if parse_tool_call_parameter_to_dict:
+            if message['role'] == 'assistant':
+                if "tool_calls" in message:
+                    tool_calls: List[Dict] = message['tool_calls']
+                    try:
+                        for tool_call in tool_calls:
+                            if "arguments" in tool_call["function"] and isinstance(tool_call['function']['arguments'], str):
+                                tool_call['function']["arguments"] = json.loads(tool_call['function']['arguments'])
+                    except Exception as e:
+                        # NOTE: check 兜底逻辑是否合理
+                        #       现在更倾向于把assistant部分的内容替换为 content=response_text
+                        #       not isinstance(tool_call['function']['arguments'], str)的情况在model_update的时候会出现，abort的request会被convert两次
+                        content = converted_message.get('content', '')
+                        tool_calls = message.pop("tool_calls")
+                        converted_message['content'] = f"{content}{tool_calls}"
+                        logger.error(f"Error parsing tool call arguments: {e}, src arguments: {json.dumps(tool_calls)}, parsing drawback to {converted_message['content']}")
+        converted_messages.append(converted_message)
+
+    return converted_messages
\ No newline at end of file
diff --git a/roll/pipeline/agentic/env_manager/traj_env_manager.py b/roll/pipeline/agentic/env_manager/traj_env_manager.py
index 88ab15d91..eef9330e6 100644
--- a/roll/pipeline/agentic/env_manager/traj_env_manager.py
+++ b/roll/pipeline/agentic/env_manager/traj_env_manager.py
@@ -18,7 +18,7 @@
 from roll.distributed.scheduler.rollout_scheduler import GroupQueueManager
 from roll.pipeline.agentic.env_manager.token_mask_utils import custom_apply_chat_template, compute_conversation_end_token_id
 from roll.pipeline.agentic.tools.tool_env_wrapper import tool_wrapper
-from roll.distributed.scheduler.generate_scheduler import RequestScheduler
+from roll.distributed.scheduler.router import RouterManager
 from roll.distributed.scheduler.protocol import DataProto
 from roll.pipeline.agentic.agentic_config import EnvManagerConfig, AgenticConfig
 from roll.utils.constants import GenerateStopReason
@@ -48,7 +48,7 @@ def __init__(self,
         self.tokenizer: PreTrainedTokenizer = tokenizer
         self.output_queue = output_queue
         self.mode = mode
-        self.generate_scheduler: RequestScheduler = generate_scheduler
+        self.generate_scheduler: RouterManager = generate_scheduler
 
         # EnvManager states
         self.rollout_cache: Optional[RolloutCache] = None
@@ -125,25 +125,27 @@ def run_rollout_loop(self, data: DataProto):
             if self.running and (rollout_cache.terminated or stop_reason == GenerateStopReason.MAX_LENGTH):
                 self.logger.debug(f"group_id: {self.env_config['group_id']} env_id: {self.env_config['env_id']} episode_id: {self.episode_id} start_step {start_step} gen_stats: {log_stats}")
                 log_stats = {"generate_time": [], "step_time": [], "current_step": []}
-
                 rollout: DataProto = self.formulate_rollouts(rollout_cache)
                 traj_group_id = f"{self.rollout_cache.tag}_{self.rollout_cache.group_id}_{self.episode_id}_{self.group_seed}"
                 traj_id = f"{traj_group_id}_{self.rollout_cache.env_id}"
                 rollout.non_tensor_batch["traj_group_id"] = np.array([traj_group_id] * rollout.batch.batch_size[0], dtype=object)
                 rollout.non_tensor_batch["traj_id"] = np.array([traj_id] * rollout.batch.batch_size[0], dtype=object)
-                ray.get(self.output_queue.put.remote(self.env_config['group_id'], self.episode_id, start_step, rollout))
+                ray.get(self.output_queue.put.remote(self.env_config['group_id'], self.episode_id, start_step, rollout, self.env_config['env_id']))
 
                 rollout_cache = self.reset()
                 start_step = self.current_step
 
-        ray.get(self.output_queue.put.remote(self.env_config['group_id'], self.episode_id, start_step, None))
+        ray.get(self.output_queue.put.remote(self.env_config['group_id'], self.episode_id, start_step, None, self.env_config['env_id']))
 
     def reset(self) -> RolloutCache:
         self.rollout_cache = RolloutCache(env_id=self.env_config['env_id'],
                                           group_id=self.env_config['group_id'],
                                           tag=self.env_config['tag'])
 
-        self.episode_id = ray.get(self.output_queue.get_episode_id.remote(self.env_config['group_id']))
+        self.episode_id = ray.get(self.output_queue.get_episode_id.remote(
+            self.env_config['group_id'],
+            self.env_config['env_id']
+        ))
         if self.episode_id is None:
             assert not self.running
             return None
@@ -190,11 +192,6 @@ def step(self, llm_output: DataProto):
         if suffix is not None:
             self.rollout_cache.history[-1]["suffix"] = suffix
 
-        if self.mode == "val" and self.pipeline_config.render_save_dir and hasattr(self.env, "render"):
-            frame = self.env.render(mode='rgb_array')
-            if isinstance(frame, np.ndarray):
-                self.rollout_cache.frames.append(frame)
-
         return self.rollout_cache
 
     def make_decision(self, rollout_cache: RolloutCache):
@@ -226,7 +223,7 @@ def make_decision(self, rollout_cache: RolloutCache):
         response_ids = response_ids.tolist()
         content = self.rollout_cache.history[-1]
 
-        if "infer_logprobs" in lm_output.batch:
+        if "infer_logprobs" in lm_output.batch.keys():
             infer_logprobs = lm_output.batch['infer_logprobs'][0][-len(response_ids):]
             content["infer_logprobs"] = infer_logprobs.tolist()
 
@@ -240,7 +237,7 @@ def format_messages(self, history: RolloutCache) -> DataProto:
 
         messages = []
         user_content = ""
-        if self.rollout_cache.step == 0:
+        if content["actions_left"] == self.env_config.max_steps:
             messages.append({"role": "system", "content": self.agent_system_template})
             if "env_instruction" in history.history[0]:
                 user_content =  f"{history.history[0]['env_instruction']}\n"
@@ -259,7 +256,7 @@ def format_messages(self, history: RolloutCache) -> DataProto:
             user_content += self.agent_template.format(**render_dict)
             messages.append({"role": "user", "content": user_content})
 
-        prompt_ids = custom_apply_chat_template(messages=messages, tokenizer=self.tokenizer, add_generation_prompt=True)
+        prompt_ids = custom_apply_chat_template(messages=messages, tokenizer=self.tokenizer, add_generation_prompt=True, skip_mock_system_prompt=self.pipeline_config.skip_mock_system_prompt)
         history_token_ids = []
         for items in self.rollout_cache.history[:-1]:
             history_token_ids.extend(items["prompt_ids"])
@@ -270,7 +267,11 @@ def format_messages(self, history: RolloutCache) -> DataProto:
 
         input_ids = torch.tensor(input_ids, dtype=torch.long).unsqueeze(0)
         attention_mask = torch.tensor([1] * input_ids.shape[1], dtype=torch.long).unsqueeze(0)
-        position_ids = attention_mask.cumsum(dim=-1)
+        # Huggingface Transformers prefer position_ids to be 0-based.
+        # Attn Mask: [1, 1, 1, ..., 1, 0, 0, ..., 0]
+        # cumsum: [1, 2, 3, ..., n, n+1, n+1, ..., n+1]
+        # cumsum - 1: [0, 1, 2, ..., n-1, n, n, ..., n]
+        position_ids = attention_mask.cumsum(dim=-1) - 1
         lm_input = DataProto()
         lm_input.batch = TensorDict({
             "input_ids": input_ids,
@@ -316,7 +317,11 @@ def formulate_rollouts(self, rollout_cache: RolloutCache):
         prompt_mask =torch.tensor(prompt_masks, dtype=torch.bool).unsqueeze(0)
         score_tensor = torch.tensor([0] * len(token_ids), dtype=torch.float).unsqueeze(0)
         score_tensor[0][-1] = episode_score
-        position_ids = attention_mask.cumsum(dim=-1)
+        # Huggingface Transformers prefer position_ids to be 0-based.
+        # Attn Mask: [1, 1, 1, ..., 1, 0, 0, ..., 0]
+        # cumsum: [1, 2, 3, ..., n, n+1, n+1, ..., n+1]
+        # cumsum - 1: [0, 1, 2, ..., n-1, n, n, ..., n]
+        position_ids = attention_mask.cumsum(dim=-1) - 1
 
         lm_input = DataProto()
         lm_input.batch = TensorDict(
@@ -354,7 +359,6 @@ def formulate_rollouts(self, rollout_cache: RolloutCache):
             "env_ids": np.array([self.rollout_cache.env_id], dtype=object),
             "group_ids": np.array([self.rollout_cache.group_id], dtype=object),
             "tags": np.array([self.rollout_cache.tag], dtype=object),
-            "frames": np.array([self.rollout_cache.frames], dtype=object),
             "step_scores": np.array([scores], dtype=object),
             "episode_scores": np.array([episode_score], dtype=object),
         })
diff --git a/roll/pipeline/agentic/env_manager/vl_traj_env_manager.py b/roll/pipeline/agentic/env_manager/vl_traj_env_manager.py
index 2a9a17fce..57e951601 100644
--- a/roll/pipeline/agentic/env_manager/vl_traj_env_manager.py
+++ b/roll/pipeline/agentic/env_manager/vl_traj_env_manager.py
@@ -1,25 +1,28 @@
-import base64
 from contextlib import nullcontext
+from collections import defaultdict
 from threading import Lock
 from typing import Dict, List, Optional, Tuple
 
 import PIL
 import gem
 import numpy as np
+import ray
 import torch
 from transformers import PreTrainedTokenizer, ProcessorMixin
+from codetiming import Timer
 
 from roll.datasets.collator import DataCollatorWithPaddingForMM
-from roll.distributed.scheduler.generate_scheduler import RequestScheduler
+from roll.distributed.scheduler.router import RouterManager
 from roll.distributed.scheduler.protocol import DataProto
 from roll.distributed.scheduler.rollout_scheduler import GroupQueueManager
+from roll.models.model_providers import default_tokenizer_provider
 from roll.pipeline.agentic.agentic_config import EnvManagerConfig, AgenticConfig
 from roll.pipeline.agentic.env_manager.base_env_manager import RolloutCache, BaseEnvManager
 from roll.pipeline.agentic.env_manager.token_mask_utils import split_by_token, \
     token_ids_to_assistant_mask
 from roll.pipeline.agentic.env_manager.traj_env_manager import TrajEnvManager
 from roll.pipeline.agentic.llm_proxy import BaseLLMProxy, create_llm_proxy
-from roll.utils.constants import GenerateStopReason
+from roll.utils.constants import EpisodeStopReason, GenerateStopReason, RAY_NAMESPACE
 from roll.utils.env_action_limiter import get_global_limiter
 from roll.utils.functionals import pad_to_length, aggregate_metrics
 from roll.utils.logging import get_logger
@@ -48,21 +51,23 @@ def __init__(self,
         self.tokenizer: PreTrainedTokenizer = tokenizer
         self.processor: ProcessorMixin = processor
         self.extra_data_provider = extra_data_provider
+        # TODO: allow to specify image_token and other processor settings
         self.collator = DataCollatorWithPaddingForMM(
-                    tokenizer=self.tokenizer,
-                    processor=self.processor,
-                    answer_key=None,
-                    extra_data_provider=self.extra_data_provider,
-                )
+            tokenizer=self.tokenizer,
+            processor=self.processor,
+            answer_key=None,
+            image_flag_key=None,
+            video_flag_key=None,
+            extra_data_provider=self.extra_data_provider,
+        )
         self.output_queue = output_queue
         self.mode = mode
-        self.generate_scheduler: RequestScheduler = generate_scheduler
+        self.generate_scheduler: RouterManager = generate_scheduler
 
         # EnvManager states
         self.rollout_cache: Optional[RolloutCache] = None
         self.group_seed = None
-        self.episode_id = 0
-        self.current_step = -1
+        self.episode_id = None
         self.running = False
         self.use_thread_lock = self.env_config.get("use_thread_lock", False) # 避免同时执行大量cpu操作, 可以通过env_config配置
         self.thread_lock = thread_lock if self.use_thread_lock else nullcontext()
@@ -71,10 +76,45 @@ def __init__(self,
         self.env_step_limiter = nullcontext()
         if self.max_env_step_concurrent > 0:
             env_tag = self.env_config.get("tag", "default")
-            self.env_step_limiter = get_global_limiter(tag=env_tag, max_concurrent_calls=self.max_env_step_concurrent)
+            self.env_step_limiter = get_global_limiter(tag=f"{env_tag}_{self.mode}", max_concurrent_calls=self.max_env_step_concurrent)
+
+        # Initialize reward scheduler and reward proxy BEFORE creating the environment
+        # This allows passing reward components through env_config to the environment constructor
+        self.reward_scheduler: Optional[RouterManager] = None
+        self.reward_proxy: Optional[BaseLLMProxy] = None
+        self.reward_tokenizer: Optional[PreTrainedTokenizer] = None
+
+        # Create environment kwargs from config (convert OmegaConf to dict to avoid type errors)
+        env_kwargs = dict(self.env_config['config'])
+
+        # Try to get reward scheduler from Ray named actor
+        if self.pipeline_config.reward:
+            self.reward_scheduler = ray.get_actor(
+                name=f"RewardScheduler-{pipeline_config.reward.name}",
+                namespace=RAY_NAMESPACE
+            )
+            # Get reward tokenizer
+            self.reward_tokenizer = default_tokenizer_provider(
+                model_args=pipeline_config.reward.model_args
+            )
+            # Create reward proxy (without env reference since env doesn't exist yet)
+            self.reward_proxy = create_llm_proxy(
+                generate_scheduler=self.reward_scheduler,
+                llm_proxy_config=pipeline_config.reward.llm_proxy,
+                tokenizer=self.reward_tokenizer,
+                env=None,
+            )
+            self.logger.info(f"Initialized reward proxy with scheduler: RewardScheduler-{pipeline_config.reward.name}")
+
+            # Inject reward components into env_kwargs (not OmegaConf config)
+            env_kwargs['current_env_id'] = self.env_config["env_id"]
+            env_kwargs['reward_tokenizer'] = self.reward_tokenizer
+            env_kwargs['reward_proxy'] = self.reward_proxy
+            if self.pipeline_config.reward.generating_args:
+                env_kwargs['reward_generating_args'] = self.pipeline_config.reward.generating_args.to_dict()
 
         with self.thread_lock, self.env_step_limiter:
-            self.env = gem.make(env_id=self.env_config["env_type"], **self.env_config['config'])
+            self.env = gem.make(env_id=self.env_config["env_type"], **env_kwargs)
 
         cfg_template = self.pipeline_config.custom_envs[self.env_config["tag"]]
         self.agent_system_template = cfg_template["agent_system_template"]
@@ -104,17 +144,116 @@ def __init__(self,
             self.logger.info(f"pre_step_template: {self.pre_step_template}")
             self.logger.info(f"next_step_template: {self.next_step_template}")
 
-        # TODO: add rewards_scheduler for local ray reward workers
+        # Create LLM proxy for policy generation
         self.llm_proxy: BaseLLMProxy = create_llm_proxy(
             generate_scheduler=self.generate_scheduler,
             llm_proxy_config=self.worker_config.llm_proxy,
             tokenizer=self.tokenizer,
             env=self.env
         )
+    
+    def run_rollout_loop(self, data: DataProto):
+        """
+        1. Each time run_rollout_loop is called,
+           it will continuously play episodes until it receives a command that data collection is complete.
+           The seed needs to be reset to ensure consistency across all groups.
+
+        Seed update logic:
+           group_seed = base_seed + group_id
+           episode_seed = group_seed + episode_id
+
+        trajectory_id: f"{group_id}_{episode_id}_{episode_seed}"
+        """
+        assert "seed" in data.meta_info
+        self.running = True
+        self.group_seed = data.meta_info['seed'] + self.env_config['group_seed']
+        rollout_cache: RolloutCache = self.reset()
+        start_step = self.current_step
+
+        log_stats = {"generate_time": [], "step_time": [], "current_step": []}
+        self.stop_reason = EpisodeStopReason.FINISH
+
+        while self.running and rollout_cache is not None:
+
+            with Timer(name="generate", logger=None) as generate_timer:
+                lm_output: DataProto = self.make_decision(rollout_cache)
+                generation_stop_reason = lm_output.meta_info.pop("stop_reason")
+                # Convert GenerateStopReason.MAX_LENGTH to EpisodeStopReason.MAX_LENGTH
+                # Similar to agent_native_env_manager.py:74-77
+                if generation_stop_reason == GenerateStopReason.MAX_LENGTH:
+                    self.stop_reason = EpisodeStopReason.MAX_LENGTH
+                elif generation_stop_reason == GenerateStopReason.ABORT:
+                    self.stop_reason = EpisodeStopReason.ABORT
+            log_stats["current_step"].append(self.current_step)
+            log_stats["generate_time"].append(generate_timer.last)
+
+            with Timer(name="step", logger=None) as step_timer:
+                if generation_stop_reason in [GenerateStopReason.FINISH, GenerateStopReason.MAX_LENGTH]:
+                    rollout_cache: RolloutCache = self.step(lm_output)
+            log_stats["step_time"].append(step_timer.last)
+
+            if self.running and (rollout_cache.terminated or generation_stop_reason == GenerateStopReason.MAX_LENGTH):
+                self.logger.debug(f"group_id: {self.env_config['group_id']} env_id: {self.env_config['env_id']} episode_id: {self.episode_id} start_step {start_step} gen_stats: {log_stats}")
+                log_stats = {"generate_time": [], "step_time": [], "current_step": []}
+
+                rollout: DataProto = self.formulate_rollouts(rollout_cache)
+                traj_group_id = f"{self.rollout_cache.tag}_{self.rollout_cache.group_id}_{self.episode_id}_{self.group_seed}"
+                traj_id = f"{traj_group_id}_{self.rollout_cache.env_id}"
+                rollout.non_tensor_batch["traj_group_id"] = np.array([traj_group_id] * rollout.batch.batch_size[0], dtype=object)
+                rollout.non_tensor_batch["traj_id"] = np.array([traj_id] * rollout.batch.batch_size[0], dtype=object)
+                ray.get(self.output_queue.put.remote(self.env_config['group_id'], self.episode_id, start_step, rollout, self.env_config['env_id']))
+
+                rollout_cache = self.reset()
+                start_step = self.current_step
+                self.stop_reason = EpisodeStopReason.FINISH
+
+        ray.get(self.output_queue.put.remote(self.env_config['group_id'], self.episode_id, start_step, None, self.env_config['env_id']))
+
+    def step(self, llm_output: DataProto):
+        # Similar to agent_native_env_manager.py:133-157
+        # If stop_reason is MAX_LENGTH, pass it to env; otherwise decode response
+        if llm_output.batch is not None:
+            response = self.tokenizer.batch_decode(llm_output.batch['responses'], skip_special_tokens=False)[0]
+        else:
+            # When MAX_LENGTH, batch may be None, pass stop_reason as action
+            response = self.stop_reason if self.stop_reason else ""
+
+        with self.thread_lock, self.env_step_limiter:
+            observation, reward, terminated, truncated, info = self.env.step(action=response)
+        suffix = info.pop("suffix", None)
+
+        self.rollout_cache.step += 1
+        self.rollout_cache.terminated = terminated
+        self.rollout_cache.truncated = truncated
+        if self.rollout_cache.step >= self.env_config.max_steps:
+            self.rollout_cache.terminated = True
+            if not terminated:
+                self.rollout_cache.truncated = True
+        self.rollout_cache.history[-1]['reward'] = reward
+        self.rollout_cache.history[-1]['llm_response'] = response
+        if info is not None:
+            self.rollout_cache.history[-1].update(info)
+
+        self.rollout_cache.history.append({
+            "observation": observation,
+            "actions_left": self.env_config.max_steps - self.rollout_cache.step,
+            "messages": None
+        })
+        if suffix is not None:
+            self.rollout_cache.history[-1]["suffix"] = suffix
+
+        return self.rollout_cache
 
 
     def make_decision(self, rollout_cache: RolloutCache):
         lm_input, messages = self.format_messages(rollout_cache)
+        # cache length of newly appended prompt to help to compute response_mask
+        rollout_cache.history[-1]["input_ids_length"] = lm_input.batch["input_ids"].shape[1]
+        rollout_cache.history[-1]["prompt_ids_length"] = rollout_cache.history[-1]["input_ids_length"] - (
+            (rollout_cache.history[-2]["input_ids_length"] + rollout_cache.history[-2]["response_ids_length"])
+            if len(rollout_cache.history) >= 2
+            else 0
+        )
 
         input_ids = lm_input.batch["input_ids"]
         if input_ids.shape[1] >= self.pipeline_config.sequence_length:
@@ -136,14 +275,19 @@ def make_decision(self, rollout_cache: RolloutCache):
         if lm_output is None:
             return DataProto(meta_info={"stop_reason": GenerateStopReason.ABORT})
         lm_output.meta_info["stop_reason"] = GenerateStopReason.FINISH
+        # cache length of response_ids to help to compute response_mask
+        # eos_token should be taken into account
+        rollout_cache.history[-1]["response_ids_length"] = len(lm_output.batch["responses"][0])
+        self.logger.debug(
+            f"env_id={self.env_config['env_id']}, global_step={self.current_step}, episode_id={self.episode_id}, turn_idx={rollout_cache.step}, "
+            f"input_ids_length={rollout_cache.history[-1]['input_ids_length']}, prompt_ids_length={rollout_cache.history[-1]['prompt_ids_length']}, "
+            f"response_ids_length={rollout_cache.history[-1]['response_ids_length']}"
+        )
         return lm_output
 
     def format_messages(self, history: RolloutCache) -> Tuple[DataProto, List[Dict]]:
-
-        messages = [
-            {"role": "system", "content": self.agent_system_template},
-        ]
-        images = []
+        messages = [{"role": "system", "content": self.agent_system_template}]
+        mm_data = None
 
         for idx, content in enumerate(history.history):
 
@@ -151,39 +295,113 @@ def format_messages(self, history: RolloutCache) -> Tuple[DataProto, List[Dict]]
                                         "sequences, following the format of (s, a, r, s, a, r...).")
 
             pre_step_content = self.pre_step_template.format(turn_idx=idx + 1)
-            if self.rollout_cache.step == 0:
-                pre_step_content = history.history[0]["env_instruction"] + pre_step_content
+            # cannot use `self.rollout_cache.step==0` which would add env_instruction only once for multi-turns
+            if content["actions_left"] == self.env_config.max_steps:
+                # add env_instruction in the first step
+                pre_step_content = history.history[0].get("env_instruction", "") + pre_step_content
             next_step_content = self.next_step_template.format(actions_left=content["actions_left"],
                                                                max_response_length=self.env_config["max_tokens_per_step"])
-            base64_image = base64.b64encode(content["observation"]).decode("utf-8")
-            user_content_list_dict = [
-                {
-                    "type": "text",
-                    "text": pre_step_content    # Reward:\n1.0\nTurn 1:\nState:
-                },
-                {
-                    "type": "image",
-                    "image": f"data:image/jpeg;base64,{base64_image}",
-                },
-                {
-                    "type": "text",
-                    "text": next_step_content     # You have 3 actions left. Always output: <answer> [your answer] </answer> with no extra text.Strictly follow this format. Max response length: 200 words (tokens).Decide the next action:
-                }
-            ]
+            obs = content["observation"]
+            obs_content = None
+            mm_dict = defaultdict(list)
+            # obs might be a str, a image (as ndarray), a dict with prompt/image/video as values,
+            if isinstance(obs, str):
+                obs_content = obs
+            elif isinstance(obs, np.ndarray):
+                obs_content = [{"type": "image"}]
+                mm_dict = {"image": [PIL.Image.fromarray(obs, mode="RGB")]}
+            else :
+                assert isinstance(obs, dict), f"observation type {type(obs)} is not supported"
+                obs_content = obs.get("prompt", "")
+                # str or list of dict, and the dict is item of chat format or user content
+                if isinstance(obs_content, list):
+                    if "role" in obs_content[0]:
+                        if obs_content[0].get("role", None) == "system":
+                            messages[0]["content"] = obs_content[0]["content"]
+                            obs_content = obs_content[1]["content"]
+                        else:
+                            obs_content = obs_content[0]["content"]
+                mm_dict = dict((k, v) for k, v in obs.items() if k not in ["prompt"])
+
+            # replace image placeholder included in env returned prompt
+            def replace_placeholder(text):
+                if "image" in mm_dict and getattr(self.env, "image_placeholder", None):
+                    text = text.replace(self.env.image_placeholder, self.collator.image_token)
+                if "video" in mm_dict and getattr(self.env, "video_placeholder", None):
+                    text = text.replace(self.env.video_placeholder, self.collator.video_token)
+                return text
+
+            if not isinstance(obs_content, str):
+                pre_step_content = [
+                    {
+                        "type": "text",
+                        "text": pre_step_content,  # Reward:\n1.0\nTurn 1:\nState:
+                    }
+                ]
+                next_step_content = [
+                    {
+                        "type": "text",
+                        "text": next_step_content,  # You have 3 actions left. Always output: <answer> [your answer] </answer> with no extra text.Strictly follow this format. Max response length: 200 words (tokens).Decide the next action:
+                    }
+                ]
+                for obs_item in obs_content:
+                    if obs_item["type"] == "text":
+                        obs_item["text"] = replace_placeholder(obs_item["text"])
+            else:
+                obs_content = replace_placeholder(obs_content)
+            user_content_list_dict = pre_step_content + obs_content + next_step_content
             messages.append({"role": "user", "content": user_content_list_dict})
-            images.append(PIL.Image.fromarray(content["observation"], mode='RGB'))
+            if mm_dict:
+                mm_data = defaultdict(list) if mm_data is None else mm_data
+                for k, v in mm_dict.items():
+                    mm_data[k].extend([v] if not isinstance(v, (list, tuple)) else v)
 
             if "llm_response" in content:
-                messages.append({"role": "assistant", "content": content["llm_response"]})
-
-        lm_input_texts = self.tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
-        features = [{
+                # eos token is included in response, only need to process once actually
+                llm_response = (
+                    content["llm_response"][: -len(self.tokenizer.eos_token)]
+                    if content["llm_response"].endswith(self.tokenizer.eos_token)
+                    else content["llm_response"]
+                )
+                messages.append({"role": "assistant", "content": llm_response})
+
+        if not messages[0]["content"]:
+            messages = messages[1:]
+        assert messages, f"empty messages with {history=}"
+        add_generation_prompt = False if messages[-1]["role"] == "assistant" else True
+        lm_input_texts = self.tokenizer.apply_chat_template(
+            messages, add_generation_prompt=add_generation_prompt, tokenize=False
+        )
+        feature = {
             self.collator.prompt_key: lm_input_texts,
-            self.collator.image_key: images,
-            self.collator.image_flag_key: True
-        }]
-        inputs = self.collator(features)
+        }
+        if mm_data:
+            if "image" in mm_data:
+                feature[self.collator.image_key] = mm_data["image"]
+            if "video" in mm_data:
+                feature[self.collator.video_key] = mm_data["video"]
+
+        self.logger.debug(
+            f"env_id={self.env_config['env_id']}, global_step={self.current_step}, episode_id={self.episode_id}, turn_idx={idx + 1}, {feature=}"
+        )
+        if not add_generation_prompt:  # the final multi-turn feature, no need for infer
+            self.collator.return_infer_inputs = False
+        inputs = self.collator([feature])
+        self.collator.return_infer_inputs = True
         lm_input: DataProto = DataProto.from_single_dict(inputs)
+        if not add_generation_prompt:
+            # NOTE: apply_chat_template would append suffix in response such as "<|im_end|>\n",
+            # while generated response often contains "<|im_end|>", and "\n" should not be
+            # treated as response
+            history.history[-1]["extra_suffix_length"] = lm_input.batch["input_ids"].shape[1] - (
+                history.history[-1]["input_ids_length"] + history.history[-1]["response_ids_length"]
+            )
+            self.logger.debug(
+                f"env_id={self.env_config['env_id']}, global_step={self.current_step}, episode_id={self.episode_id}, turn_idx={history.step}, "
+                f"final input_ids_shape={lm_input.batch['input_ids'].shape}, last turn input_ids_length={history.history[-1]['input_ids_length']}/"
+                f"prompt_ids_length={history.history[-1]['prompt_ids_length']}/response_ids_length={history.history[-1]['response_ids_length']}, "
+                f"extra_suffix_length={history.history[-1]['extra_suffix_length']}"
+            )
 
         return lm_input, messages
 
@@ -195,20 +413,34 @@ def formulate_rollouts(self, rollout_cache: RolloutCache):
         if 'observation' in rollout_cache.history[-1]:
             rollout_cache.history.pop(-1)
 
+        lm_input, messages = self.format_messages(rollout_cache)
+
+        # can be used to trigger trajectory reward computation
+        if callable(getattr(self.env, "normalize_reward", None)):
+            self.env.normalize_reward(messages, rollout_cache, self.tokenizer)
+
         scores = [i['reward'] for i in self.rollout_cache.history]
         episode_score = sum(scores)
 
-        lm_input, messages = self.format_messages(rollout_cache)
-
         input_ids = lm_input.batch["input_ids"]
         attention_mask = lm_input.batch["attention_mask"]
         position_ids = lm_input.batch["position_ids"]
 
         token_ids = input_ids[0].tolist()
-        token_ids_split = split_by_token(token_ids, token_ids[0])
-        response_masks_list = token_ids_to_assistant_mask(messages=messages, input_ids_list=token_ids_split, tokenizer=self.tokenizer)
+        # TODO: use length in cache to construct response_masks after conner case is fixed
+        # response_masks = []
+        # for item in rollout_cache.history:
+        #     response_masks.extend([0] * item["prompt_ids_length"] + [1] * item["response_ids_length"])
+        # response_masks.extend([0] * item["extra_suffix_length"])
+        token_ids_split = split_by_token(token_ids, token_ids[0], messages=messages, tokenizer=self.tokenizer)
+        response_masks_list = token_ids_to_assistant_mask(
+            messages=messages, input_ids_list=token_ids_split, tokenizer=self.tokenizer
+        )
         response_masks = [item for items in response_masks_list for item in items]
 
+        assert len(response_masks) == len(token_ids), (
+            f"response_masks length must be equal to token_ids length, {len(response_masks)=} != {len(token_ids)=}"
+        )
         response_mask = torch.tensor(response_masks, dtype=torch.bool).unsqueeze(0)
 
         first_response_idx = response_masks.index(1)
@@ -220,7 +452,11 @@ def formulate_rollouts(self, rollout_cache: RolloutCache):
 
         input_ids = input_ids[:, :last_response_idx+1]
         attention_mask = attention_mask[:, :last_response_idx+1]
-        position_ids = position_ids[:, :, :last_response_idx+1]
+        position_ids = (
+            position_ids[:, :, : last_response_idx + 1]
+            if position_ids.dim() == 3
+            else position_ids[:, : last_response_idx + 1]
+        )
 
         response_length = response_mask.sum(dim=-1).float().mean().item()
         input_ids = pad_to_length(input_ids, length=self.pipeline_config.sequence_length, pad_value=self.tokenizer.pad_token_id)
@@ -255,5 +491,8 @@ def formulate_rollouts(self, rollout_cache: RolloutCache):
         env_metric = {f"env/{rollout_cache.tag}/{k}": v for k, v in env_metric.items()}
         env_metric["env/response_length"] = response_length
         lm_input.meta_info = {"metrics": env_metric}
-        return lm_input
 
+        if callable(getattr(self.env, "add_extra_data", None)):
+            self.env.add_extra_data(lm_input, messages)
+
+        return lm_input
diff --git a/roll/pipeline/agentic/llm_proxy/__init__.py b/roll/pipeline/agentic/llm_proxy/__init__.py
index e925e3965..cc19922bb 100644
--- a/roll/pipeline/agentic/llm_proxy/__init__.py
+++ b/roll/pipeline/agentic/llm_proxy/__init__.py
@@ -1,18 +1,20 @@
+from typing import Optional
+
 from transformers import PreTrainedTokenizer
 
 import gem
 from roll.pipeline.agentic.llm_proxy.base_llm_proxy import BaseLLMProxy, LLM_PROXY_REGISTRY, register_llm_proxy
-from roll.distributed.scheduler.generate_scheduler import RequestScheduler
+from roll.distributed.scheduler.router import RouterManager
 from roll.pipeline.agentic.agentic_config import LLMProxyConfig
 from roll.pipeline.agentic.llm_proxy.random_proxy import RandomProxy
 from roll.pipeline.agentic.llm_proxy.openai_proxy import OpenAIProxy
 from roll.pipeline.agentic.llm_proxy.policy_proxy import PolicyProxy
 
 def create_llm_proxy(
-        generate_scheduler: RequestScheduler,
+        generate_scheduler: RouterManager,
         llm_proxy_config: LLMProxyConfig,
         tokenizer: PreTrainedTokenizer,
-        env: gem.Env) -> BaseLLMProxy:
+        env: Optional[gem.Env]) -> BaseLLMProxy:
     proxy_type = llm_proxy_config.proxy_type
     if proxy_type in LLM_PROXY_REGISTRY:
         cls = LLM_PROXY_REGISTRY[proxy_type]
diff --git a/roll/pipeline/agentic/llm_proxy/base_llm_proxy.py b/roll/pipeline/agentic/llm_proxy/base_llm_proxy.py
index 5cc9d74be..feca35596 100644
--- a/roll/pipeline/agentic/llm_proxy/base_llm_proxy.py
+++ b/roll/pipeline/agentic/llm_proxy/base_llm_proxy.py
@@ -4,7 +4,7 @@
 from transformers import PreTrainedTokenizer
 
 import gem
-from roll.distributed.scheduler.generate_scheduler import RequestScheduler
+from roll.distributed.scheduler.router import RouterManager
 from roll.distributed.scheduler.protocol import DataProto
 from roll.pipeline.agentic.agentic_config import LLMProxyConfig
 
@@ -14,7 +14,7 @@ class BaseLLMProxy(ABC):
     LLMProxy defines a unified interface for generating responses based on messages or lm_input DataProto.
     Subclasses will implement specific inference apis.
     """
-    def __init__(self, generate_scheduler: RequestScheduler, llm_proxy_config: LLMProxyConfig, tokenizer: PreTrainedTokenizer, env: gem.Env):
+    def __init__(self, generate_scheduler: RouterManager, llm_proxy_config: LLMProxyConfig, tokenizer: PreTrainedTokenizer, env: gem.Env):
         """
 
         """
diff --git a/roll/pipeline/agentic/llm_proxy/openai_proxy.py b/roll/pipeline/agentic/llm_proxy/openai_proxy.py
index 4e937ca0b..3c2147426 100644
--- a/roll/pipeline/agentic/llm_proxy/openai_proxy.py
+++ b/roll/pipeline/agentic/llm_proxy/openai_proxy.py
@@ -7,7 +7,7 @@
 from transformers import PreTrainedTokenizer
 
 from roll.pipeline.agentic.llm_proxy import BaseLLMProxy, register_llm_proxy
-from roll.distributed.scheduler.generate_scheduler import RequestScheduler
+from roll.distributed.scheduler.router import RouterManager
 from roll.distributed.scheduler.protocol import DataProto
 from roll.pipeline.agentic.agentic_config import LLMProxyConfig
 from roll.utils.logging import get_logger
@@ -24,7 +24,7 @@ class OpenAIProxy(BaseLLMProxy):
     """
 
     def __init__(self,
-                 generate_scheduler: RequestScheduler,
+                 generate_scheduler: RouterManager,
                  llm_proxy_config: LLMProxyConfig,
                  tokenizer: PreTrainedTokenizer,
                  env: gem.Env):
@@ -32,7 +32,7 @@ def __init__(self,
         Initializes the OpenAIProxy with the given configuration.
 
         Args:
-            generate_scheduler (RequestScheduler): Scheduler for managing requests.
+            generate_scheduler (RouterManager): Scheduler for managing requests.
             llm_proxy_config (LLMProxyConfig): Configuration specific to the LLM proxy (e.g., API key, base URL).
             tokenizer (PreTrainedTokenizer): Tokenizer for the model.
             env (gem.Env): sample_random_action (if applicable).
@@ -103,8 +103,10 @@ def generate(self,
                     # Pass extra_body only if it's not empty
                     extra_body=extra_body if extra_body else None
                 )
-
-                response_text = completion.choices[0].message.content
+                if completion.choices is None:
+                    response_text = "OpenAI API returned no choices."
+                else:
+                    response_text = completion.choices[0].message.content
                 responses = self.tokenizer([response_text], return_tensors="pt")
                 lm_input.batch["responses"] = responses["input_ids"]
                 lm_input.non_tensor_batch["response_text"] = np.array([response_text], dtype=object)
diff --git a/roll/pipeline/agentic/llm_proxy/policy_proxy.py b/roll/pipeline/agentic/llm_proxy/policy_proxy.py
index e1f4adf9b..cf6aec867 100644
--- a/roll/pipeline/agentic/llm_proxy/policy_proxy.py
+++ b/roll/pipeline/agentic/llm_proxy/policy_proxy.py
@@ -1,9 +1,15 @@
-from typing import List, Dict, Any
+from typing import List, Dict, Any, Optional
 
-import ray
+import torch
+from torch.nn.utils.rnn import pad_sequence
 
 from roll.pipeline.agentic.llm_proxy import BaseLLMProxy, register_llm_proxy
 from roll.distributed.scheduler.protocol import DataProto
+from roll.distributed.scheduler.router import RouterManager, RouterClient, is_report_data_finished
+from roll.utils.functionals import (
+    postprocess_generate,
+    concatenate_input_and_output,
+)
 
 
 @register_llm_proxy("policy")
@@ -11,6 +17,9 @@ class PolicyProxy(BaseLLMProxy):
     """
     A proxy for policy model that invokes the policy model's engine (e.g. vllm/sglang) to perform generation.
     """
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.router_client: RouterClient = RouterManager.create_client_sync(self.generate_scheduler)
 
     def generate(self,
                  messages: List[Dict[str, str]],
@@ -18,11 +27,37 @@ def generate(self,
                  generation_config: Dict[str, Any]) -> DataProto:
 
         lm_input.meta_info["generation_config"] = generation_config
-        lm_input.meta_info['response_callback_fn'] = self.generate_scheduler.report_response.remote
         lm_input.meta_info["pad_to_seq_len"] = False
-        lm_output: DataProto = ray.get(self.generate_scheduler.generate_one_request.remote(data=lm_input))
-
-        if lm_output is not None:
-            lm_output.meta_info.pop("generation_config", None)
-
+        src_rank = lm_input.meta_info.pop("src_rank")
+        response_data: Optional[DataProto] = self.router_client.generate_request_sync(req=lm_input, request_id=None, uid=src_rank)
+
+        if response_data is None or not is_report_data_finished(response_data):
+            return None
+
+        # postprocess_generate, input_ids, attention_mask, left pad
+        eos_token_id = response_data.meta_info["eos_token_id"]
+        pad_token_id = response_data.meta_info["pad_token_id"]
+        output_token_ids = response_data.meta_info["output_token_ids"]
+        output_tokens = [torch.tensor(token_ids) for token_ids in output_token_ids]
+
+        output_logprobs = response_data.meta_info.get("output_logprobs", None)
+
+        output_tensor = pad_sequence(output_tokens, batch_first=True, padding_value=pad_token_id)
+        output_tensor = concatenate_input_and_output(
+            input_ids=lm_input.batch["input_ids"], output_ids=output_tensor, num_return_sequences=len(output_tokens)
+        )
+        lm_output: DataProto = postprocess_generate(
+            prompts=lm_input,
+            output=output_tensor,
+            num_return_sequences=len(output_tokens),
+            sequence_length=output_tensor.shape[-1],
+            eos_token_id=eos_token_id,
+            pad_token_id=pad_token_id,
+            pad_to_seq_len=lm_input.meta_info.get("pad_to_seq_len", True),
+            output_logprobs=output_logprobs,
+        )
+        request_repeat = lm_input.repeat(repeat_times=len(output_tokens))
+        lm_output.non_tensor_batch = request_repeat.non_tensor_batch
+        lm_output.meta_info = request_repeat.meta_info
+        lm_output.meta_info.pop("generation_config", None)
         return lm_output
diff --git a/roll/pipeline/agentic/llm_proxy/proxy_utils.py b/roll/pipeline/agentic/llm_proxy/proxy_utils.py
new file mode 100644
index 000000000..3e2598f29
--- /dev/null
+++ b/roll/pipeline/agentic/llm_proxy/proxy_utils.py
@@ -0,0 +1,159 @@
+"""
+Utility functions for LLM proxy operations.
+"""
+
+from typing import List, Dict, Any, Optional, Union
+
+import torch
+from tensordict import TensorDict
+from transformers import PreTrainedTokenizer
+
+from roll.distributed.scheduler.protocol import DataProto
+from roll.pipeline.agentic.llm_proxy.base_llm_proxy import BaseLLMProxy
+from roll.utils.logging import get_logger
+
+logger = get_logger()
+
+
+def generate_by_proxy(
+    messages: List[Dict[str, Any]],
+    tokenizer: PreTrainedTokenizer,
+    proxy: BaseLLMProxy,
+    enable_thinking: bool = False,
+    generation_config: Optional[Dict[str, Any]] = None,
+    collator: Optional[Any] = None,
+    mm_data: Optional[Dict[str, Any]] = None,
+    src_rank: Optional[int] = None,
+) -> Optional[str]:
+    """
+    Generate text through proxy with support for multimodal inputs.
+
+    This function formats messages using chat template, creates a DataProto
+    with tokenized input (and optional multimodal data), calls proxy.generate(),
+    and returns the decoded text response.
+
+    For text-only generation, it uses tokenizer directly. For multimodal generation,
+    it uses collator to process images/videos along with text.
+
+    Args:
+        messages: List of message dictionaries for the prompt.
+                 For text: [{"role": "user", "content": "..."}]
+                 For multimodal: [{"role": "user", "content": [{"type": "text", "text": "..."},
+                                                                {"type": "image", "image": PIL.Image}]}]
+        tokenizer: Tokenizer for the inference model
+        proxy: LLM proxy for model inference
+        enable_thinking: Whether to enable thinking tags in chat template (text-only mode)
+        generation_config: Optional generation config to override defaults
+                          (temperature, max_new_tokens, etc.)
+        collator: Optional DataCollatorWithPaddingForMM for multimodal processing.
+                 If provided, multimodal mode is used.
+        mm_data: Optional multimodal data dict with "image" and/or "video" keys.
+                Only used when collator is provided.
+        src_rank: Optional source rank for request routing in scheduler.
+                 If not provided, defaults to 0.
+
+    Returns:
+        Decoded text response from the LLM, or None if the request fails
+
+    Examples:
+        Text-only generation:
+        >>> messages = [{"role": "user", "content": "Judge this response..."}]
+        >>> response_text = generate_by_proxy(
+        ...     messages=messages,
+        ...     tokenizer=tokenizer,
+        ...     proxy=proxy,
+        ...     enable_thinking=True,
+        ...     generation_config={"temperature": 0.2, "max_new_tokens": 2048}
+        ... )
+
+        Multimodal generation:
+        >>> messages = [{"role": "user", "content": "Describe this image"}]
+        >>> mm_data = {"image": [pil_image]}
+        >>> response_text = generate_by_proxy(
+        ...     messages=messages,
+        ...     tokenizer=tokenizer,
+        ...     proxy=proxy,
+        ...     collator=collator,
+        ...     mm_data=mm_data
+        ... )
+    """
+    # Multimodal mode: use collator to process features
+    if collator is not None:
+        # Get text from chat template without tokenization
+        lm_input_texts = tokenizer.apply_chat_template(
+            messages,
+            add_generation_prompt=True,
+            tokenize=False
+        )
+
+        # Build feature dict
+        feature = {
+            collator.prompt_key: lm_input_texts,
+        }
+
+        # Add multimodal data if provided
+        if mm_data:
+            if "image" in mm_data:
+                feature[collator.image_key] = mm_data["image"]
+            if "video" in mm_data:
+                feature[collator.video_key] = mm_data["video"]
+
+        # Process through collator
+        inputs = collator([feature])
+        lm_input: DataProto = DataProto.from_single_dict(inputs)
+
+    # Text-only mode: tokenize directly
+    else:
+        # Format messages using chat template with optional thinking tags
+        prompt_ids = tokenizer.apply_chat_template(
+            messages,
+            tokenize=True,
+            add_generation_prompt=True,
+            enable_thinking=enable_thinking,
+            return_dict=False
+        )
+
+        # Create DataProto with tokenized input
+        input_ids = torch.tensor(prompt_ids, dtype=torch.long).unsqueeze(0)
+        attention_mask = torch.tensor([1] * input_ids.shape[1], dtype=torch.long).unsqueeze(0)
+        position_ids = attention_mask.cumsum(dim=-1)
+
+        lm_input = DataProto()
+        lm_input.batch = TensorDict({
+            "input_ids": input_ids,
+            "attention_mask": attention_mask,
+            "position_ids": position_ids,
+        }, batch_size=input_ids.shape[0])
+
+    # Set generation config with defaults if not provided
+    if generation_config is None:
+        generation_config = {
+            "temperature": 0.2,  # Lower temperature for stable judgments
+            "max_new_tokens": 2048,
+            "top_p": 0.95,
+        }
+
+    # Set src_rank for request routing in scheduler
+    lm_input.meta_info["src_rank"] = src_rank if src_rank is not None else 0
+
+    # Call proxy.generate() for inference
+    lm_output: Optional[DataProto] = proxy.generate(
+        messages=messages,
+        lm_input=lm_input,
+        generation_config=generation_config
+    )
+
+    # Handle failure cases
+    if lm_output is None:
+        logger.warning("LLM generation failed (returned None)")
+        return None
+
+    # Extract response token IDs and decode to text
+    if "responses" not in lm_output.batch.keys():
+        logger.error("LLM output missing 'responses' key")
+        return None
+
+    response_ids = lm_output.batch['responses'][0]
+    response_text = tokenizer.decode(response_ids, skip_special_tokens=True)
+
+    return response_text
diff --git a/roll/pipeline/agentic/tools/action_parser.py b/roll/pipeline/agentic/tools/action_parser.py
new file mode 100644
index 000000000..71eb00c8d
--- /dev/null
+++ b/roll/pipeline/agentic/tools/action_parser.py
@@ -0,0 +1,180 @@
+import json
+import logging
+import re
+import time
+from abc import ABC, abstractmethod
+
+from roll.utils.logging import get_logger
+
+
+class ActionParser(ABC):
+    def __init__(self):
+        pass
+
+    @abstractmethod
+    def parse_action(self, response: str):
+        raise NotImplementedError
+
+
+class Qwen3CoderActionParser(ActionParser):
+    def __init__(
+        self,
+    ):
+        self.logger: logging.Logger = get_logger()
+
+    def parse_action(self, response: str):
+        """
+        Parse the model response to extract tool calls.
+        """
+
+        try:
+            actions = []
+            has_tool_format = False
+
+            if self._is_incomplete_tool_call(response):
+                self.logger.info("[ACTION_PARSE] Detected incomplete tool call")
+                return False, "Please continue."
+
+            if "<function" in response:
+                has_tool_format = True
+                function_pattern = r"<function\s*=\s*([^>]+)>(.*?)</function>"
+                function_matches = re.findall(function_pattern, response, flags=re.DOTALL)
+
+                if not function_matches:
+                    self.logger.info("[ACTION_PARSE] No complete <function=...></function> blocks found.")
+                else:
+                    for i, (function_name, function_body) in enumerate(function_matches):
+                        try:
+                            function_name = function_name.strip()
+
+                            param_pattern = r"<parameter\s*=\s*([^>]+)>(.*?)</parameter>"
+                            param_matches = re.findall(param_pattern, function_body, flags=re.DOTALL)
+
+                            def _coerce_param_value(v: str):
+                                v = v.strip()
+                                if not v:
+                                    return v
+
+                                # json bool/null
+                                if v in ("true", "false", "null"):
+                                    try:
+                                        return json.loads(v)
+                                    except Exception:
+                                        return v
+
+                                # int/float
+                                if re.fullmatch(r"-?\d+", v):
+                                    return int(v)
+                                if re.fullmatch(r"-?\d+\.\d+", v):
+                                    return float(v)
+
+                                # json container
+                                if (v[0] == "[" and v[-1] == "]") or (v[0] == "{" and v[-1] == "}"):
+                                    try:
+                                        return json.loads(v)
+                                    except Exception:
+                                        return v
+
+                                return v
+
+                            if not param_matches:
+                                self.logger.info(f"[ACTION_PARSE] No <parameter=> blocks found in function {function_name}.")
+                                params = {}
+                            else:
+                                params = {
+                                    key.strip(): _coerce_param_value(value)
+                                    for key, value in param_matches
+                                }
+
+                            cur = {
+                                "type": "function",
+                                "id": f"{function_name}_{int(time.time() * 1000)}_{i}",
+                                "function": {
+                                    "name": function_name,
+                                    "arguments": json.dumps(params, ensure_ascii=False),
+                                },
+                            }
+                            actions.append(cur)
+                            self.logger.debug(
+                                f"[ACTION_PARSE] Parsed function action {i + 1}: {function_name} with params: {list(params.keys())}"
+                            )
+
+                        except Exception as e:
+                            self.logger.warning(f"[ACTION_PARSE] Failed to parse function block {i + 1}: {e}")
+                            continue
+            elif "<tool_call>" in response:
+                has_tool_format = True
+                if "<tool_call>" in response and "</tool_call>" not in response:
+                    response = response + "</tool_call>"
+                tool_call_pattern = r"<tool_call>(.*?)</tool_call>"
+                tool_call_matches = re.findall(tool_call_pattern, response, re.DOTALL)
+
+                for i, tool_call_str in enumerate(tool_call_matches):
+                    try:
+                        tool_call_str = tool_call_str.strip()
+                        tool_call_json = json.loads(tool_call_str)
+                        function_name = tool_call_json.get("name", "")
+                        arguments = tool_call_json.get("arguments", {})
+                        cur = {
+                            "type": "function",
+                            "id": f"{function_name}_{int(time.time() * 1000)}_{i}",
+                            "function": {
+                                "name": function_name,
+                                "arguments": json.dumps(arguments, ensure_ascii=False),
+                            },
+                        }
+                        actions.append(cur)
+                        self.logger.debug(f"[ACTION_PARSE] Parsed tool_call action {i + 1}: {function_name}")
+                    except json.JSONDecodeError as e:
+                        self.logger.warning(f"[ACTION_PARSE] Failed to parse JSON in tool_call {i + 1}: {e}")
+                        continue
+                    except Exception as e:
+                        self.logger.warning(f"[ACTION_PARSE] Failed to parse tool_call action {i + 1}: {e}")
+                        continue
+
+            # 检查是否没有找到任何工具格式
+            if not has_tool_format:
+                return False, "action parse failed"
+
+            if actions:
+                self.logger.info(f"[ACTION_PARSE] Success! - Parsed {len(actions)} tool calls")
+                # 打印每个action的详细信息用于调试
+                for i, action in enumerate(actions):
+                    self.logger.debug(f"Action {i + 1}: ID={action['id']}, Name={action['function']['name']}")
+            else:
+                self.logger.info("[ACTION_PARSE] No tool calls found in response")
+
+            return True, actions
+
+        except Exception as e:
+            self.logger.error(f"[ACTION_PARSE] Failed! - Error parsing action: {e}")
+            return False, "工具调用格式错误"
+
+    def _is_incomplete_tool_call(self, response: str) -> bool:
+        """
+        Check if the response contains an incomplete tool call that should be continued.
+        """
+        if "<tool_call>" in response and "</tool_call>" not in response:
+            if not response.strip().endswith((">")):
+                return True
+
+        if "<function" in response:
+            incomplete_patterns = [
+                r"<parameter\s*=\s*[^>]*>\s*[^<]*$",
+                r"<function\s*=\s*[^>]*>\s*<parameter\s*=\s*[^>]*>\s*[^<]*</?\s*$",
+                r"<function\s*=\s*[^>]*>\s*<parameter\s*=\s*[^>]*>\s*.*</\s*$",
+            ]
+
+            for pattern in incomplete_patterns:
+                if re.search(pattern, response, re.DOTALL):
+                    return True
+
+        return False
+
+
+if __name__ == "__main__":
+    logger = get_logger()
+    tool = Qwen3CoderActionParser()
+    response = "Let me check the current directory.<tool_call><function=list_directory><parameter=path>.</parameter></function></tool_call>"
+
+    print(tool.parse_action(response=response))
diff --git a/roll/pipeline/agentic/utils.py b/roll/pipeline/agentic/utils.py
index 6cd46ba05..820327acf 100644
--- a/roll/pipeline/agentic/utils.py
+++ b/roll/pipeline/agentic/utils.py
@@ -23,6 +23,7 @@
     compute_gae_advantage_return,
     compute_clip_fraction,
     compute_reinforce_return,
+    compute_approx_kl,
 )
 
 logger = get_logger()
@@ -280,17 +281,31 @@ def dump_frames_as_gif(filename, frames, duration=0.2):
         pass
 
 
+def remove_nan_items(data: Dict[str, np.ndarray]):
+    if not data:
+        return {}
+
+    # 所有数组都假设 dtype=object，只有 None 需要过滤
+    arr = np.vstack([np.asarray(v, dtype=object) for v in data.values()])  # (num_keys, N)
+    mask = arr != None  # noqa: E711
+    valid_row_mask = mask.all(axis=0)
+    return {
+        k: np.asarray(v, dtype=object)[valid_row_mask]
+        for k, v in data.items()
+    }
+
+
 def dump_rollout_trajectories(path, global_step, data: DataProto):
     """
     Dumps rollout trajectories to persistent storage.
 
-    The data is written using a column-based configuration defined in COLUMNS_CONFIG.
+    The data is written using a column-based configuration defined in COLUMMNS_CONFIG.
     Each column is specified as a list [column_name, data_type], where:
     - column_name: string identifier for the column
     - data_type: data type specification ('bigint', 'string', 'double', etc.)
 
     Example configuration:
-    columns_config = [
+    colummns_config = [
         ['global_step', 'bigint'],
         ['id', 'string'],
         ['source', 'string'],
@@ -300,14 +315,15 @@ def dump_rollout_trajectories(path, global_step, data: DataProto):
     if not path:
         return
 
-    columns_config: Optional[List] = data.meta_info.get("COLUMNS_CONFIG", None)
+    columns_config: Optional[List] = data.meta_info.get("COLUMMNS_CONFIG", None)
     if columns_config is None:
         return
 
-    write_data = copy.deepcopy(data.non_tensor_batch)
-    [data.non_tensor_batch.pop(item[0]) for item in columns_config if item[0] in data.non_tensor_batch]
+    write_data = {item[0]: data.non_tensor_batch.pop(item[0]) for item in columns_config if item[0] in data.non_tensor_batch}
+
+    write_data = remove_nan_items(copy.deepcopy(write_data))
+    data_cnt = len(write_data[columns_config[0][0]])
 
-    data_cnt = len(data)
     write_data["global_step"] = [global_step] * data_cnt
     columns_config.append(["global_step", "bigint"])
 
@@ -316,6 +332,128 @@ def dump_rollout_trajectories(path, global_step, data: DataProto):
             p = multiprocessing.Process(target=func, args=(path, write_data, columns_config), daemon=False)
             p.start()
 
+
+def compute_segment_masked_mean(tensor: torch.Tensor, mask: torch.Tensor) -> torch.Tensor:
+    """
+    对每段连续的1分别计算 masked_mean，不连续的段不相乘。
+
+    Args:
+        tensor: [batch_size, seq_len] 要计算的值
+        mask: [batch_size, seq_len] mask，1表示有效位置，0表示无效位置
+
+    Returns:
+        [batch_size, seq_len] 结果，每段连续的1位置填充该段的 masked_mean
+    """
+    batch_size, seq_len = mask.shape
+    device = mask.device
+    result = torch.zeros_like(tensor)
+
+    # 对每个样本分别处理
+    for b in range(batch_size):
+        sample_mask = mask[b]  # [seq_len]
+        sample_tensor = tensor[b]  # [seq_len]
+
+        # 找到所有连续的1的段
+        # 使用 diff 找到边界：1->0 和 0->1 的位置
+        diff = torch.diff(sample_mask, prepend=torch.tensor([0], device=device))
+        # 找到段的开始位置（0->1）
+        segment_starts = torch.where(diff == 1)[0]
+        # 找到段的结束位置（1->0），diff[i]==-1 表示 mask[i-1]==1 且 mask[i]==0，所以段的结束位置是 i（不包括i）
+        segment_ends = torch.where(diff == -1)[0]
+
+        # 如果最后一个位置是1，需要添加结束位置
+        if sample_mask[-1] == 1:
+            segment_ends = torch.cat([segment_ends, torch.tensor([seq_len], device=device)])
+
+        # 确保 segment_starts 和 segment_ends 长度匹配
+        if len(segment_starts) != len(segment_ends):
+            # 如果长度不匹配，只处理能匹配的部分
+            min_len = min(len(segment_starts), len(segment_ends))
+            segment_starts = segment_starts[:min_len]
+            segment_ends = segment_ends[:min_len]
+
+        # 对每段分别计算 masked_mean
+        for start, end in zip(segment_starts, segment_ends):
+            # 获取这段的索引
+            segment_indices = torch.arange(start, end, device=device)
+            segment_mask = sample_mask[segment_indices]  # 这段的mask
+            segment_tensor = sample_tensor[segment_indices]  # 这段的值
+
+            if segment_mask.sum() > 0:
+                # 计算这段的 masked_mean（只考虑mask为1的位置）
+                segment_mean = (segment_tensor * segment_mask).sum() / (segment_mask.sum() + 1e-8)
+                # 将结果填充到这段内mask为1的位置
+                result[b, segment_indices] = segment_mean * segment_mask
+
+    return result
+
+
+def compute_agentic_reinforce_return(
+    token_level_rewards: torch.Tensor, gamma: torch.Tensor, lambd: torch.Tensor, mask: Optional[torch.Tensor] = None
+):
+    """
+    计算 REINFORCE 的 return，支持按 mask 分段 discount 衰减。
+    每段内所有位置获得相同的折扣累积值（从该段最后位置开始累积）。
+
+    Args:
+        token_level_rewards: [batch_size, seq_len] token 级别的奖励
+        gamma: discount factor
+        lambd: lambda 参数（当前未使用，保留以兼容接口）
+        mask: [batch_size, seq_len] mask，1表示有效位置，0表示无效位置。如果为None，则对所有位置计算
+
+    Returns:
+        advantages: [batch_size, seq_len] advantages
+        returns: [batch_size, seq_len] returns
+    """
+    with torch.no_grad():
+        batch_size, gen_len = token_level_rewards.shape
+        device = token_level_rewards.device
+        returns = torch.zeros_like(token_level_rewards, dtype=torch.float32)
+
+        # 如果没有提供 mask，则对所有位置计算（向后兼容）
+        if mask is None:
+            mask = torch.ones_like(token_level_rewards)
+
+        # 确保 gamma 是标量
+        gamma_val = gamma.item() if torch.is_tensor(gamma) else gamma
+
+        # 对每个样本分别处理
+        for b in range(batch_size):
+            sample_mask = mask[b]  # [seq_len]
+            sample_rewards = token_level_rewards[b]  # [seq_len]
+
+            # 找到所有连续的1的段
+            # 使用 diff 找到边界：1->0 和 0->1 的位置
+            diff = torch.diff(sample_mask.float(), prepend=torch.tensor([0.0], device=device))
+
+            # 找到段的开始位置（0->1，diff==1）
+            segment_starts = torch.where(diff == 1)[0]
+
+            # 找到段的结束位置（1->0，diff==-1）
+            segment_ends = torch.where(diff == -1)[0]
+
+            # 如果最后一个位置是1，需要添加结束位置
+            if len(sample_mask) > 0 and sample_mask[-1] == 1:
+                segment_ends = torch.cat([segment_ends, torch.tensor([gen_len], device=device)])
+
+            # 计算该段从最后位置开始的累积折扣奖励
+            cumulative_return = 0.0
+            # 对每段分别计算 discounted return
+            for start, end in zip(segment_starts.flip(-1), segment_ends.flip(-1)):
+                start_idx = start.item()
+                end_idx = end.item()
+                segment_len = end_idx - start_idx
+
+                cumulative_return = sample_rewards[end_idx - 1].item() + gamma_val * cumulative_return
+
+                # 该段内所有位置都设置为这个累积值
+                returns[b, start_idx:end_idx] = cumulative_return
+
+        advantages = returns
+
+    return advantages, returns
+
+
 @torch.no_grad()
 def agentic_compute_advantage(
     data: "DataProto",
@@ -326,6 +464,7 @@ def agentic_compute_advantage(
     whiten_advantages=False,
     whiten_rewards=False,
     response_mask=None,
+    pipeline_config=None,
 ):
     if response_mask is None:
         response_mask = data.batch["response_mask"][:, 1:]
@@ -334,25 +473,55 @@ def agentic_compute_advantage(
         whiten_advantages = False
         logger.info("Warning: domain final_response_mask.sum() == 0! All masked_whiten will be skipped.")
 
-    token_level_rewards = data.batch["token_level_rewards"].float()
-    if whiten_rewards:
-        token_level_rewards = masked_whiten(values=token_level_rewards, mask=response_mask)
-    token_level_rewards = token_level_rewards * response_mask
-    data.batch["token_level_rewards"] = token_level_rewards
-    if adv_estimator == "gae":
-        values = data.batch["values"].float()
-        data.batch["values"] = values * response_mask
-        advantages, returns = compute_gae_advantage_return(
-            token_level_rewards=token_level_rewards, values=values, gamma=gamma, lambd=lambd
-        )
-    elif adv_estimator in ["reinforce", "grpo", "gigpo", "step_reinforce"]:
-        advantages, returns = compute_reinforce_return(
-            token_level_rewards=token_level_rewards, gamma=gamma, lambd=lambd
+    # Check OPD config
+    is_pure_opd = getattr(pipeline_config, "is_pure_opd", False) if pipeline_config else False
+    use_opd = getattr(pipeline_config, "use_opd", False) if pipeline_config else False
+    opd_kl_coef = getattr(pipeline_config, "opd_kl_coef", 1.0) if pipeline_config else 1.0
+
+    # Compute KL divergence for OPD modes
+    kld = None
+    if is_pure_opd or use_opd:
+        kld = compute_approx_kl(
+            log_probs=data.batch["old_log_probs"] if getattr(pipeline_config, "enable_old_logprobs_recompute", False) else data.batch["infer_logprobs"],
+            log_probs_base=data.batch["ref_log_probs"],
+            action_mask=response_mask,
+            kl_penalty=getattr(pipeline_config, "kl_penalty", "kl"),
         )
-    elif adv_estimator in ["agentic_reinforce"]:
-        raise NotImplementedError
+
+    # For pure OPD mode, advantage is directly -kld
+    if is_pure_opd:
+        advantages = -kld
+        returns = advantages
+        data.batch["raw_advantages"] = advantages
     else:
-        raise NotImplementedError
+        token_level_rewards = data.batch["token_level_rewards"].float()
+        if whiten_rewards:
+            token_level_rewards = masked_whiten(values=token_level_rewards, mask=response_mask)
+        token_level_rewards = token_level_rewards * response_mask
+        data.batch["token_level_rewards"] = token_level_rewards
+        if adv_estimator == "gae":
+            values = data.batch["values"].float()
+            data.batch["values"] = values * response_mask
+            advantages, returns = compute_gae_advantage_return(
+                token_level_rewards=token_level_rewards, values=values, gamma=gamma, lambd=lambd
+            )
+        elif adv_estimator in ["reinforce", "grpo", "gigpo", "step_reinforce"]:
+            advantages, returns = compute_reinforce_return(
+                token_level_rewards=token_level_rewards, gamma=gamma, lambd=lambd
+            )
+        elif adv_estimator in ["agentic_reinforce"]:
+            advantages, returns = compute_agentic_reinforce_return(
+                token_level_rewards=token_level_rewards, gamma=gamma, lambd=lambd, mask=response_mask
+            )
+        else:
+            raise NotImplementedError
+
+        data.batch["raw_advantages"] = advantages
+
+        # Apply mixed OPD mode
+        if use_opd:
+            advantages = advantages - opd_kl_coef * kld
+
     if whiten_advantages:
         # TODO whiten过程中是否要考虑response的长度？
         advantages = masked_whiten(values=advantages, mask=response_mask)
diff --git a/roll/pipeline/base_pipeline.py b/roll/pipeline/base_pipeline.py
index ad12f91a1..5c4d67e78 100644
--- a/roll/pipeline/base_pipeline.py
+++ b/roll/pipeline/base_pipeline.py
@@ -3,9 +3,11 @@
 import shutil
 from collections import defaultdict
 from concurrent import futures
-from typing import List, Any, Dict
+from typing import Any, Dict, List
 
 import ray
+from ray.util.placement_group import PlacementGroup
+from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
 from transformers import set_seed
 
 from roll.distributed.executor.cluster import Cluster
@@ -18,7 +20,6 @@
 from roll.utils.tracking import create_tracker
 from roll.utils.worker_state import WorkerState
 
-
 logger = get_logger()
 
 
@@ -29,8 +30,9 @@ class BasePipeline:
     def __init__(self, pipeline_config):
         set_seed(seed=pipeline_config.seed)
         self.pipeline_config = pipeline_config
-        self.resource_manager = ResourceManager(num_nodes=self.pipeline_config.num_nodes,
-                                                num_gpus_per_node=self.pipeline_config.num_gpus_per_node)
+        self.resource_manager = ResourceManager(
+            num_nodes=self.pipeline_config.num_nodes, num_gpus_per_node=self.pipeline_config.num_gpus_per_node
+        )
         self.state = WorkerState()
         self.checkpoint_manager = CheckpointManager(checkpoint_config=self.pipeline_config.checkpoint_config)
         self.tracker = create_tracker(
@@ -60,7 +62,7 @@ def run(self):
 
     def set_model_update_pair(self, src_cluster, tgt_cluster, frequency=1):
         self.model_update_groups.append(
-            ModelUpdateGroup(src_cluster=src_cluster, tgt_cluster=tgt_cluster, frequency=frequency)
+            ModelUpdateGroup(src_cluster=src_cluster, tgt_cluster=tgt_cluster, frequency=frequency, pipeline_config=self.pipeline_config)
         )
 
     def set_checkpoint_clusters(self, *clusters):
@@ -70,9 +72,13 @@ def model_update(self, global_step):
         metrics = {}
         for model_update_group in self.model_update_groups:
             metrics.update(model_update_group.model_update(global_step))
+            model_update_group.tgt_cluster.process_weights_after_loading()
         return metrics
 
-    def do_checkpoint(self, global_step):
+    def do_checkpoint(self, global_step, is_last_step=None):
+        if is_last_step is None:
+            is_last_step = global_step == self.pipeline_config.max_steps - 1
+
         metrics = self.state.log_history[-1]
         metrics["system/step"] = global_step
         if global_step > 0 and (
@@ -80,7 +86,9 @@ def do_checkpoint(self, global_step):
         ):
             ckpt_metrics_refss = []
             for cluster in self.checkpoint_clusters:
-                ckpt_metrics_refss.append(cluster.do_checkpoint(global_step=global_step, blocking=False))
+                ckpt_metrics_refss.append(
+                    cluster.do_checkpoint(global_step=global_step, is_last_step=is_last_step, blocking=False)
+                )
 
             for ckpt_metrics_refs in ckpt_metrics_refss:
                 ckpt_metrics = DataProto.materialize_concat(data_refs=ckpt_metrics_refs)
@@ -147,13 +155,33 @@ def _cleanup_old_checkpoints(self):
                         logger.warning(f"Failed to delete checkpoint {ckpt_dir}: {e}")
 
     def download_models(self, *clusters: Cluster):
-        node2worker: Dict[str, Any] = {}
+        node2pg: Dict[str, PlacementGroup] = {}
         node2model_names: Dict[str, set[str]] = defaultdict(set)
         for cluster in clusters:
-            for worker, node_ip in cluster.worker2nodes.items():
-                node2worker[node_ip] = worker
-                if cluster.worker_config.model_args.model_name_or_path:
-                    node2model_names[node_ip].add(cluster.worker_config.model_args.model_name_or_path)
-                if self.pipeline_config.resume_from_checkpoint:
-                    node2model_names[node_ip].add(self.pipeline_config.resume_from_checkpoint)
-        ray.get([node2worker[node_ip].download_models.remote(model_name_or_paths=model_names) for node_ip, model_names in node2model_names.items()])
\ No newline at end of file
+            assert cluster.placement_groups is not None
+            for pg_list in cluster.placement_groups:
+                assert len(pg_list) > 0
+                worker_nodes = set()
+                for pg in pg_list:
+                    node_rank = pg["node_rank"]
+                    if node_rank not in worker_nodes:
+                        worker_nodes.add(node_rank)
+                        node2pg[node_rank] = pg["placement_group"]
+                        if cluster.worker_config.model_args.model_name_or_path:
+                            node2model_names[node_rank].add(cluster.worker_config.model_args.model_name_or_path)
+                        if self.pipeline_config.resume_from_checkpoint:
+                            node2model_names[node_rank].add(self.pipeline_config.resume_from_checkpoint)
+        ray.get(
+            [
+                download_models.options(
+                    scheduling_strategy=PlacementGroupSchedulingStrategy(placement_group=node2pg[node_rank])
+                ).remote(model_name_or_paths=model_names)
+                for node_rank, model_names in node2model_names.items()
+            ]
+        )
+
+@ray.remote
+def download_models(model_name_or_paths: set[str]):
+    with futures.ThreadPoolExecutor(max_workers=5) as thread_executor:
+        futures.wait([thread_executor.submit(download_model, model_name_or_path)
+                      for model_name_or_path in model_name_or_paths])
diff --git a/roll/pipeline/base_worker.py b/roll/pipeline/base_worker.py
index d5c84c120..ccc69ec09 100644
--- a/roll/pipeline/base_worker.py
+++ b/roll/pipeline/base_worker.py
@@ -1,7 +1,8 @@
+import inspect
 import os
 import threading
 import time
-from typing import Union, Optional, Dict
+from typing import Dict, Optional, Union, List
 
 import ray
 import torch
@@ -10,38 +11,30 @@
 
 from roll.configs.worker_config import WorkerConfig
 from roll.distributed.executor.worker import Worker
-from roll.distributed.scheduler.decorator import register, Dispatch
+from roll.distributed.scheduler.decorator import Dispatch, register
 from roll.distributed.scheduler.protocol import DataProto
 from roll.distributed.strategy.factory import create_strategy
 from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
-from roll.models.model_providers import default_actor_model_provider, default_value_model_provider, \
-    default_reward_model_provider, default_diffusion_module_provider
-from roll.utils.checkpoint_manager import download_model
-from roll.utils.context_managers import state_offload_manger
-from roll.utils.functionals import (
-    append_to_dict,
-    masked_mean,
-    compute_approx_kl,
-    postprocess_generate,
-    GenerateRequestType,
-    agg_loss,
+from roll.models.model_providers import (
+    default_actor_model_provider,
+    default_diffusion_module_provider,
+    default_reward_model_provider,
+    default_value_model_provider,
 )
+from roll.platforms import current_platform
+from roll.utils.checkpoint_manager import download_model
+from roll.utils.context_managers import state_offload_manger, log_gpu_memory_usage
+from roll.utils.dynamic_batching import make_mini_batch_iter_for_dynamic_batching
+from roll.utils.functionals import agg_loss, append_to_dict, compute_approx_kl, flatten_sum, masked_mean, postprocess_generate, reduce_metrics
 from roll.utils.offload_nccl import reload_process_groups
 from roll.utils.offload_states import OffloadStateType
-from roll.utils.dynamic_batching import make_mini_batch_iter_for_dynamic_batching
-from roll.platforms import current_platform
 
 
 class ActorWorker(Worker):
     def __init__(self, worker_config: WorkerConfig):
         super().__init__(worker_config=worker_config)
         self.tokenizer = None
-        self.strategy: Optional[Union[InferenceStrategy, TrainStrategy]] = None
-        self.response_call_back_fns = {}
-        self.response_callback_refs = []
-        self.server_metrics = {}
-        self.thread_server = None
-        self.offload_manager = None
+        self.strategy: TrainStrategy = None
         self._logprobs_cache = {}
 
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
@@ -63,12 +56,6 @@ def initialize(self, pipeline_config):
 
         self.strategy.offload_states()
 
-        # Platform must have been initialized when calling current_platform.reset_max_memory_allocated
-        # with arguments (inside state_offload_manager). We explicitly init platform here because
-        # current process is used as engine client when using vllm v1 engine, and
-        # there is no chance to init platform context.
-        current_platform.init()
-
     @register(dispatch_mode=Dispatch.DP_MP_DISPATCH_FIRST)
     def train_step(self, data: DataProto):
         """
@@ -88,17 +75,18 @@ def train_step(self, data: DataProto):
         ):
             data = data.to(current_platform.device_type)
             data = self.strategy.get_data_input(data)
+            per_device_train_batch_size = self.worker_config.training_args.per_device_train_batch_size
+            backward_batch_size = (
+                    per_device_train_batch_size * self.worker_config.training_args.gradient_accumulation_steps
+            )
             if self.worker_config.use_dynamic_batching_in_train:
+                # TODO: support `keep_mini_batch`, The number of mini_batch may be smaller than original size
                 dataloader = make_mini_batch_iter_for_dynamic_batching(
-                    data = data,
+                    data=data,
                     epochs=self.pipeline_config.ppo_epochs,
-                    ga_steps = self.worker_config.training_args.gradient_accumulation_steps
+                    ga_steps=self.worker_config.training_args.gradient_accumulation_steps,
                 )
             else:
-                per_device_train_batch_size = self.worker_config.training_args.per_device_train_batch_size
-                backward_batch_size = (
-                    per_device_train_batch_size * self.worker_config.training_args.gradient_accumulation_steps
-                )
                 dataloader = data.make_iterator(
                     mini_batch_size=backward_batch_size,
                     epochs=self.pipeline_config.ppo_epochs,
@@ -106,117 +94,33 @@ def train_step(self, data: DataProto):
                     dataloader_kwargs={"shuffle": True},
                 )
 
-            for batch_idx, data in enumerate(dataloader):
-                pg_metrics = self.strategy.train_step(batch=data, loss_func=self.loss_func)
+            for batch_idx, backward_batch in tqdm(enumerate(dataloader),
+                                                  desc=f"{self.worker_name} train global step {global_step}",
+                                                  total=data.batch.batch_size[0] * self.pipeline_config.ppo_epochs // backward_batch_size):
+                pg_metrics = self.strategy.train_step(batch=backward_batch, loss_func=self.loss_func)
+                if self.worker_config.use_dynamic_batching_in_train or self.worker_config.use_sequence_packing:
+                    pg_metrics = reduce_metrics(pg_metrics)
                 append_to_dict(metrics, pg_metrics)
 
             metrics["actor/lr"] = self.strategy.scheduler.get_last_lr()[0]
+            backward_steps = data.batch.batch_size[0] * self.pipeline_config.ppo_epochs // backward_batch_size
+            metrics["actor/backward_steps"] = backward_steps
+
+            # Divide @sum metrics by backward_steps to get average
+            for key in list(metrics.keys()):
+                if key.endswith("@sum"):
+                    if isinstance(metrics[key], list):
+                        total = flatten_sum(metrics[key])
+                        metrics[key] = total / backward_steps if backward_steps > 0 else total
+                    elif isinstance(metrics[key], (int, float)):
+                        metrics[key] = metrics[key] / backward_steps if backward_steps > 0 else metrics[key]
+
             data.to("cpu")
 
         self._logprobs_cache.clear()
         output = DataProto(meta_info={"metrics": metrics})
         return output
 
-    @register(dispatch_mode=Dispatch.DP_MP_COMPUTE)
-    @torch.no_grad()
-    def generate(self, data: DataProto):
-        """
-        batch = TensorDict(
-            {
-                'prompts': idx,
-                'responses': response,
-                'input_ids': seq,  # here input_ids become the whole sentences
-                'attention_mask': attention_mask,
-                'position_ids': position_ids,
-                'old_log_probs': log_probs,
-            },
-            batch_size=batch_size)
-        return DataProto(batch=batch)
-        """
-        if "generation_config" not in data.meta_info:
-            generation_config = self.worker_config.generating_args.to_dict()
-        else:
-            generation_config = data.meta_info["generation_config"]
-
-        generation_config["eos_token_id"] = [self.tokenizer.eos_token_id, self.tokenizer.pad_token_id]
-        generation_config["pad_token_id"] = self.tokenizer.pad_token_id
-
-        global_step = data.meta_info.get("global_step", 0)
-        is_offload_states = data.meta_info.get("is_offload_states", True)
-        self.logger.info(f"{self.worker_name} generate global step {global_step}")
-
-        metrics = {}
-        with state_offload_manger(
-            strategy=self.strategy,
-            metrics=metrics,
-            metric_infix=f"{self.cluster_name}/generate",
-            is_offload_states=is_offload_states,
-        ):
-            data = data.to(current_platform.device_type)
-            data.meta_info["micro_batch_size"] = self.worker_config.infer_batch_size
-
-            output = self.strategy.generate(batch=data, generation_config=generation_config)
-            output = postprocess_generate(
-                prompts=data,
-                output=output,
-                num_return_sequences=generation_config["num_return_sequences"],
-                sequence_length=self.pipeline_config.sequence_length,
-                eos_token_id=self.tokenizer.eos_token_id,
-                pad_token_id=self.tokenizer.pad_token_id,
-            )
-            data.to("cpu")
-            output = output.to("cpu")
-
-        output.meta_info = {"metrics": metrics}
-        return output
-
-    @register(dispatch_mode=Dispatch.ONE_TO_ALL_ONE)
-    @torch.no_grad()
-    def start_server(self, data: DataProto):
-        """
-        解决dp generate的长尾问题，async+ load balance
-        """
-        if self.thread_server is not None:
-            return
-
-        global_step = data.meta_info.get("global_step", 0)
-        is_offload_states = data.meta_info.get("is_offload_states", True)
-
-        self.logger.info(f"{self.worker_name} generate server global step {global_step}")
-        self.response_call_back_fns = {}
-
-        self.response_callback_refs = []
-        self.server_metrics = {}
-        self.offload_manager = state_offload_manger(
-            strategy=self.strategy,
-            metrics=self.server_metrics,
-            metric_infix=f"{self.cluster_name}/generate",
-            is_offload_states=is_offload_states,
-            load_kwargs={"include": [OffloadStateType.model_params]},
-        )
-        self.offload_manager.__enter__()
-        self.thread_server = threading.Thread(
-            target=self.strategy.start_server, kwargs=dict(data=data, request_complete_callback=self.request_complete)
-        )
-        self.thread_server.start()
-        while not self.strategy.running:
-            time.sleep(0.1)
-
-    @register(dispatch_mode=Dispatch.ONE_TO_ALL_ONE)
-    def stop_server(self, data: DataProto = None):
-        if self.thread_server == None:
-            return
-
-        self.strategy.add_request(command=GenerateRequestType.STOP, data=None)
-        self.thread_server.join()
-        self.thread_server = None
-        self.response_call_back_fns.clear()
-        self.offload_manager.__exit__(None, None, None)
-        ray.get(self.response_callback_refs)
-        self.response_callback_refs.clear()
-
-        return DataProto(meta_info={"metrics": self.server_metrics})
-
     @register(dispatch_mode=Dispatch.DP_MP_DISPATCH_FIRST)
     def compute_log_probs(self, data: DataProto):
         """
@@ -235,6 +139,7 @@ def compute_log_probs(self, data: DataProto):
             data = self.strategy.get_data_input(data)
             data = data.to(current_platform.device_type)
             data.meta_info["micro_batch_size"] = self.worker_config.infer_batch_size
+
             with torch.no_grad():
                 results: Dict[str, torch.Tensor] = self.strategy.forward_step(
                     batch=data, forward_func=self.forward_func_log_probs
@@ -257,7 +162,7 @@ def forward_func_log_probs(self, data: DataProto, output_tensor: torch.Tensor):
             logits=output_tensor, input_ids=data.batch["input_ids"], attention_mask=data.batch["response_mask"]
         )
         entropy = self.strategy.op_compute_entropy(logits=output_tensor, attention_mask=data.batch["response_mask"])
-        return log_probs, {"log_probs": log_probs.clone().detach(), "entropy": entropy.clone().detach()}
+        return torch.tensor(0., device=output_tensor.device), {"log_probs": log_probs.clone().detach(), "entropy": entropy.clone().detach()}
 
     def get_old_log_probs_with_cache(self, data: DataProto, log_probs: torch.Tensor) -> torch.Tensor:
         """
@@ -310,6 +215,9 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         ref_log_probs = data.batch["ref_log_probs"]
         advantages = data.batch["advantages"]
 
+        batch_num_tokens = data.meta_info['batch_num_tokens']
+        global_valid_samples = data.meta_info['global_valid_samples']
+
         log_probs = self.strategy.op_compute_log_probs(
             logits=output_tensor, input_ids=data.batch["input_ids"], attention_mask=data.batch["response_mask"]
         )
@@ -317,8 +225,16 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
 
         ratio = (log_probs - old_log_probs).exp()
 
-        pg_clip_low = self.pipeline_config.pg_clip_low if self.pipeline_config.use_pg_clip_range else self.pipeline_config.pg_clip
-        pg_clip_high = self.pipeline_config.pg_clip_high if self.pipeline_config.use_pg_clip_range else self.pipeline_config.pg_clip
+        pg_clip_low = (
+            self.pipeline_config.pg_clip_low
+            if self.pipeline_config.use_pg_clip_range
+            else self.pipeline_config.pg_clip
+        )
+        pg_clip_high = (
+            self.pipeline_config.pg_clip_high
+            if self.pipeline_config.use_pg_clip_range
+            else self.pipeline_config.pg_clip
+        )
         surr1 = ratio * advantages
         surr2 = ratio.clamp(1 - pg_clip_low, 1 + pg_clip_high) * advantages
         pg_loss = -torch.min(surr1, surr2)
@@ -326,11 +242,16 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
             dual_clip_loss = -torch.max(-pg_loss, (1 + self.pipeline_config.pg_clip * 2) * advantages)
             pg_loss = torch.where(advantages < 0, dual_clip_loss, pg_loss)
 
-        pg_loss = agg_loss(loss_mat=pg_loss, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode)
+        pg_loss = agg_loss(loss_mat=pg_loss, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                           batch_num_tokens=batch_num_tokens['response_mask'],
+                           global_valid_samples=global_valid_samples['response_mask'])
 
-        kl_loss = compute_approx_kl(log_probs=log_probs, log_probs_base=ref_log_probs, action_mask=response_mask,
-                                    kl_penalty="k3")
-        kl_loss = agg_loss(loss_mat=kl_loss, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode)
+        kl_loss = compute_approx_kl(
+            log_probs=log_probs, log_probs_base=ref_log_probs, action_mask=response_mask, kl_penalty="k3"
+        )
+        kl_loss = agg_loss(loss_mat=kl_loss, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                           batch_num_tokens=batch_num_tokens['response_mask'],
+                           global_valid_samples=global_valid_samples['response_mask'])
 
         approxkl = compute_approx_kl(
             log_probs=log_probs, log_probs_base=old_log_probs, action_mask=response_mask, kl_penalty="mse"
@@ -347,11 +268,15 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         else:
             total_loss = pg_loss
         if self.pipeline_config.entropy_loss_coef > 0:
-            entropy = self.strategy.op_compute_entropy(logits=output_tensor, attention_mask=data.batch["response_mask"])
+            entropy = self.strategy.op_compute_entropy(
+                logits=output_tensor, attention_mask=data.batch["response_mask"]
+            )
             entropy_loss = agg_loss(
                 loss_mat=entropy,
                 loss_mask=response_mask,
                 loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                batch_num_tokens=batch_num_tokens['response_mask'],
+                global_valid_samples=global_valid_samples['response_mask'],
             )
             total_loss = total_loss - entropy_loss * self.pipeline_config.entropy_loss_coef
 
@@ -362,21 +287,38 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
             "actor/ratio_mean": masked_mean(ratio, response_mask, dim=-1).mean().detach().item(),
             "actor/ratio_max": torch.max(ratio * response_mask).detach().item(),
             "actor/ratio_min": torch.min(ratio * response_mask + (1 - response_mask) * 1e10).detach().item(),
-            "actor/clipfrac": agg_loss(loss_mat=torch.lt(surr2, surr1).float(), loss_mask=response_mask,
-                                       loss_agg_mode=self.pipeline_config.loss_agg_mode).detach().item(),
+            "actor/clipfrac": agg_loss(
+                loss_mat=torch.lt(surr2, surr1).float(),
+                loss_mask=response_mask,
+                loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                batch_num_tokens=batch_num_tokens['response_mask'],
+                global_valid_samples=global_valid_samples['response_mask'],
+            )
+            .detach()
+            .item(),
             "actor/pg_loss": pg_loss.detach().item(),
             "actor/kl_loss": kl_loss.detach().item(),
             "actor/total_loss": total_loss.detach().item(),
-            "actor/approxkl": agg_loss(loss_mat=approxkl, loss_mask=response_mask,
-                                       loss_agg_mode=self.pipeline_config.loss_agg_mode).detach().item(),
-            "actor/policykl": agg_loss(loss_mat=policykl, loss_mask=response_mask,
-                                       loss_agg_mode=self.pipeline_config.loss_agg_mode).detach().item(),
+            "actor/approxkl": agg_loss(
+                loss_mat=approxkl, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                batch_num_tokens=batch_num_tokens['response_mask'],
+                global_valid_samples=global_valid_samples['response_mask'],
+            )
+            .detach()
+            .item(),
+            "actor/policykl": agg_loss(
+                loss_mat=policykl, loss_mask=response_mask, loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                batch_num_tokens=batch_num_tokens['response_mask'],
+                global_valid_samples=global_valid_samples['response_mask'],
+            )
+            .detach()
+            .item(),
         }
 
         return total_loss, pg_metrics
 
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
-    def do_checkpoint(self, global_step):
+    def do_checkpoint(self, global_step, is_last_step=None):
         if self.worker_config.offload_nccl:
             reload_process_groups()
         with Timer("do_checkpoint") as total_timer:
@@ -386,7 +328,10 @@ def do_checkpoint(self, global_step):
             save_dir = os.path.join(self.pipeline_config.output_dir, self.worker_name, ckpt_id)
             self.logger.info(f"save checkpoint-{global_step} to {save_dir}")
 
-            exec_metrics: Dict = self.strategy.save_checkpoint(save_dir, global_step, ckpt_id)
+            # could be passed for other strategy with kwargs
+            exec_metrics: Dict = self.strategy.save_checkpoint(
+                save_dir, global_step, ckpt_id, is_last_step=is_last_step
+            )
 
         metrics = {
             f"time/{self.cluster_name}/do_checkpoint/total": total_timer.last,
@@ -396,46 +341,201 @@ def do_checkpoint(self, global_step):
         output = DataProto(meta_info={"metrics": metrics})
         return output
 
-    @register(dispatch_mode=Dispatch.ONE_TO_ALL, clear_cache=False)
-    def add_request(self, command, data: DataProto):
+
+class InferWorker(Worker):
+    def __init__(self, worker_config: WorkerConfig):
+        super().__init__(worker_config=worker_config)
+        self.tokenizer = None
+        self.strategy = None
+
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL)
+    async def initialize(self, pipeline_config):
+        super().initialize(pipeline_config)
+
+        self.strategy = create_strategy(worker=self)
+
+        await self.strategy.initialize(model_provider=default_actor_model_provider)
+        self.tokenizer = getattr(self.strategy, "tokenizer")
+        self.logger.info(f"{self.worker_name} initialized")
+
+        await self.strategy.offload_states()
+
+        # Platform must have been initialized when calling current_platform.reset_max_memory_allocated
+        # with arguments (inside state_offload_manager). We explicitly init platform here because
+        # current process is used as engine client when using vllm v1 engine, and
+        # there is no chance to init platform context.
+        current_platform.init()
+
+    def get_url(self):
+        return self.strategy.get_url()
+
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL)
+    async def load_states(self, *args, **kwargs):
+        await self.strategy.load_states(*args, **kwargs)
+
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL)
+    async def offload_states(self, *args, **kwargs):
+        await self.strategy.offload_states(*args, **kwargs)
+
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL)
+    async def load_states_partial(self, target_dp_ranks: List[int]):
+        """Load states for workers whose dp_rank is in target_dp_ranks."""
+
+        # Log entry memory (only for TP rank 0 to reduce log spam)
+        if self.rank_info.tp_rank == 0:
+            log_gpu_memory_usage(
+                head=f"Worker {self.rank} (DP {self.rank_info.dp_rank}) load_states_partial_entry",
+                logger=self.logger,
+                rank=None
+            )
+
+        assert getattr(self, "strategy", None) is not None, "worker has no strategy to load"
+        if self.rank_info.dp_rank in target_dp_ranks:
+            # AST: AST_PRECONDITION(is_model_in_gpu is False) - verify strategy offloaded before load
+            is_loaded = self.strategy.is_model_in_gpu()
+
+            assert is_loaded is False, (
+                    f"Pre-condition: strategy must be offloaded before load_states_partial, "
+                    f"got Worker {self.rank} (DP {self.rank_info.dp_rank}) is_model_in_gpu={is_loaded}"
+                )
+
+            await self.strategy.load_states()
+            self.logger.info(f"Worker {self.rank} (DP {self.rank_info.dp_rank}) loaded states")
+        else:
+            self.logger.debug(f"Worker {self.rank} (DP {self.rank_info.dp_rank}) skipped load")
+
+
+        # Log exit memory (only for TP rank 0 to reduce log spam)
+        if self.rank_info.tp_rank == 0:
+            log_gpu_memory_usage(
+                head=f"Worker {self.rank} (DP {self.rank_info.dp_rank}) load_states_partial_exit",
+                logger=self.logger,
+                rank=None
+            )
+
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL)
+    async def offload_states_partial(self, target_dp_ranks: List[int]):
+        """Offload states for workers whose dp_rank is in target_dp_ranks."""
+
+        # Log entry memory (only for TP rank 0 to reduce log spam)
+        if self.rank_info.tp_rank == 0:
+            log_gpu_memory_usage(
+                head=f"Worker {self.rank} (DP {self.rank_info.dp_rank}) offload_states_partial_entry",
+                logger=self.logger,
+                rank=None
+            )
+
+        assert getattr(self, "strategy", None) is not None, "worker has no strategy to offload"
+        if self.rank_info.dp_rank in target_dp_ranks:
+            # AST: AST_PRECONDITION(is_model_in_gpu is True) - verify strategy loaded before offload
+            is_loaded = self.strategy.is_model_in_gpu
+
+            assert is_loaded is True, (
+                    f"Pre-condition: strategy must be loaded before offload_states_partial, "
+                    f"got Worker {self.rank} (DP {self.rank_info.dp_rank}) is_model_in_gpu={is_loaded}"
+                )
+
+            await self.strategy.offload_states()
+            self.logger.info(f"Worker {self.rank} (DP {self.rank_info.dp_rank}) offloaded states")
+        else:
+            self.logger.debug(f"Worker {self.rank} (DP {self.rank_info.dp_rank}) skipped offload")
+
+
+        # Log exit memory and verify offload success (only for TP rank 0 to reduce log spam)
+        if self.rank_info.tp_rank == 0:
+            log_gpu_memory_usage(
+                head=f"Worker {self.rank} (DP {self.rank_info.dp_rank}) offload_states_partial_exit",
+                logger=self.logger,
+                rank=None
+            )
+
+            # Verify offloaded workers have near-zero GPU memory usage
+            if self.rank_info.dp_rank in target_dp_ranks:
+                import torch
+                gpu_memory_gb = torch.cuda.memory_allocated() / 1024**3
+                if gpu_memory_gb > 1.0:
+                    raise RuntimeError(
+                        f"GPU memory not properly offloaded for Worker {self.rank} (DP {self.rank_info.dp_rank}): "
+                        f"{gpu_memory_gb:.2f} GB still allocated (expected < 1 GB after offload)"
+                    )
+
+
+    async def broadcast_parameter(self, *args, **kwargs):
+        await self.strategy.broadcast_parameter(*args, **kwargs)
+
+    async def setup_collective_group(self, *args, **kwargs):
+        await self.strategy.setup_collective_group(*args, **kwargs)
+
+    async def start_model_update(self, *args, **kwargs):
+        raise NotImplementedError
+
+    async def update_parameter_in_bucket(self, *args, **kwargs):
+        await self.strategy.update_parameter_in_bucket(*args, **kwargs)
+
+    async def add_lora(self, *args, **kwargs):
+        await self.strategy.add_lora(*args, **kwargs)
+
+    @register(dispatch_mode=Dispatch.DP_MP_COMPUTE)
+    async def generate(self, data: DataProto):
         """
-        data req meta_info里需要包含:
-            request_id: str
-            response_callback_fn: callable
-        generation_config, 按request设置
+        batch = TensorDict(
+            {
+                'prompts': idx,
+                'responses': response,
+                'input_ids': seq,  # here input_ids become the whole sentences
+                'attention_mask': attention_mask,
+                'position_ids': position_ids,
+                'old_log_probs': log_probs,
+            },
+            batch_size=batch_size)
+        return DataProto(batch=batch)
         """
-        def alive_check():
-            if self.thread_server is not None:
-                if not self.thread_server.is_alive():
-                    raise Exception("thread server has stopped unexpectedly. check stderr for more info.")
-        if command == GenerateRequestType.ALIVE_CHECK:
-            alive_check()
-            output = DataProto(meta_info={"request_counts": len(self.response_call_back_fns)})
-            return output
-        elif command == GenerateRequestType.ADD:
-            alive_check()
-            assert "response_callback_fn" in data.meta_info, "response_callback_fn is not in data.meta_info"
-            is_num_return_sequences_expand = data.meta_info.get("is_num_return_sequences_expand", False)
-            if "generation_config" not in data.meta_info:
-                generation_config = self.worker_config.generating_args.to_dict()
-                if is_num_return_sequences_expand:
-                    self.worker_config.generating_args.num_return_sequences = 1
-                    generation_config["num_return_sequences"] = 1
-                    self.logger.info(f"is_num_return_sequences_expand is True, set num_return_sequences to 1.")
-            else:
-                generation_config = data.meta_info["generation_config"]
-            generation_config["eos_token_id"] = [self.tokenizer.eos_token_id, self.tokenizer.pad_token_id]
-            generation_config["pad_token_id"] = self.tokenizer.pad_token_id
-            data.meta_info["generation_config"] = generation_config
-            self.response_call_back_fns[data.meta_info["request_id"]] = data.meta_info.pop("response_callback_fn")
-        self.strategy.add_request(command=command, data=data)
-        return DataProto(meta_info={"request_counts": len(self.response_call_back_fns)})
+        if "generation_config" not in data.meta_info:
+            generation_config = self.worker_config.generating_args.to_dict()
+        else:
+            generation_config = data.meta_info["generation_config"]
 
-    def request_complete(self, data: DataProto):
-        data.meta_info["eos_token_id"] = self.tokenizer.eos_token_id
-        data.meta_info["pad_token_id"] = self.tokenizer.pad_token_id
-        response_call_back_fn = self.response_call_back_fns.pop(data.meta_info["request_id"])
-        self.response_callback_refs.append(response_call_back_fn(data))
+        generation_config["eos_token_id"] = [self.tokenizer.eos_token_id, self.tokenizer.pad_token_id]
+        generation_config["pad_token_id"] = self.tokenizer.pad_token_id
+
+        global_step = data.meta_info.get("global_step", 0)
+        self.logger.info(f"{self.worker_name} generate global step {global_step}")
+
+        data = data.to(current_platform.device_type)
+        data.meta_info["micro_batch_size"] = self.worker_config.infer_batch_size
+
+        output = await self.strategy.generate(batch=data, generation_config=generation_config)
+        output = postprocess_generate(
+            prompts=data,
+            output=output,
+            num_return_sequences=generation_config["num_return_sequences"],
+            sequence_length=self.pipeline_config.sequence_length,
+            eos_token_id=self.tokenizer.eos_token_id,
+            pad_token_id=self.tokenizer.pad_token_id,
+        )
+        data.to("cpu")
+        output = output.to("cpu")
+        return output
+
+    async def generate_request(self, payload: Dict) -> Dict:
+        """
+        payload: {
+            input_ids": list[int],
+            Optinal(multi_modal_data): dict[prompt_token_ids: list[int], multi_modal_data: dict[iamge, ...]],
+            rid: str,
+            sampling_params: dict,
+            Optional(**strategy_specific_fields), # e.g. return_logprob for sglang
+        }
+        """
+        return await self.strategy.generate_request(payload=payload)
+
+    async def abort_requests(self, request_ids):
+        await self.strategy.abort_requests(request_ids)
+    
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL)
+    async def process_weights_after_loading(self):
+        if getattr(self, "strategy", None) is not None:
+            await self.strategy.process_weights_after_loading()
 
 
 class CriticWorker(Worker):
@@ -578,13 +678,15 @@ def forward_func_values(self, data: DataProto, output_tensor: torch.Tensor):
         return values, {"values": values.clone().detach()}
 
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
-    def do_checkpoint(self, global_step):
+    def do_checkpoint(self, global_step, is_last_step=None):
         with Timer("do_checkpoint") as total_timer:
             ckpt_id = f"checkpoint-{global_step}"
             save_dir = os.path.join(self.pipeline_config.output_dir, self.worker_name, ckpt_id, self.cluster_name)
             critic_save_dir = os.path.join(self.pipeline_config.output_dir, self.worker_name, ckpt_id)
             self.logger.info(f"save checkpoint-{global_step} to {save_dir}")
-            exec_metrics: Dict = self.strategy.save_checkpoint(save_dir, global_step, ckpt_id, local_state_path=critic_save_dir)
+            exec_metrics: Dict = self.strategy.save_checkpoint(
+                save_dir, global_step, ckpt_id, local_state_path=critic_save_dir, is_last_step=is_last_step
+            )
 
         metrics = {
             f"time/{self.cluster_name}/do_checkpoint/total": total_timer.last,
diff --git a/roll/pipeline/diffusion/reward_fl/reward_fl_pipeline.py b/roll/pipeline/diffusion/reward_fl/reward_fl_pipeline.py
index fc8150dde..6f3d15fd3 100644
--- a/roll/pipeline/diffusion/reward_fl/reward_fl_pipeline.py
+++ b/roll/pipeline/diffusion/reward_fl/reward_fl_pipeline.py
@@ -84,7 +84,8 @@ def run(self):
                 with Timer(name="step_total", logger=None) as step_total_timer:
                     batch_dict: Dict
                     batch: DataProto = DataProto.from_single_dict(batch_dict)
-                    batch.meta_info = {"global_step": global_step, "is_offload_states": False, "is_offload_optimizer_states_in_train_step": False}
+                    batch.meta_info = {"global_step": global_step, "is_offload_states": False,
+                                       "is_offload_optimizer_states_in_train_step": False, "loss_mask_keys": []}
 
                     with Timer(name="actor_train", logger=None) as actor_train_timer:
                         actor_train_refs = self.actor_train.train_step(batch, blocking=False)
diff --git a/roll/pipeline/distill/distill_config.py b/roll/pipeline/distill/distill_config.py
index 6bebd3bae..e72f0c2cb 100644
--- a/roll/pipeline/distill/distill_config.py
+++ b/roll/pipeline/distill/distill_config.py
@@ -136,8 +136,6 @@ def __post_init__(self):
 
         self.target_vocab_size = None
 
-        self.validate_worker_config()
-
     def to_dict(self):
         return dataclasses.asdict(self)
 
diff --git a/roll/pipeline/distill/distill_pipeline.py b/roll/pipeline/distill/distill_pipeline.py
index 63ed4e129..3860ea3be 100644
--- a/roll/pipeline/distill/distill_pipeline.py
+++ b/roll/pipeline/distill/distill_pipeline.py
@@ -24,7 +24,7 @@
 from roll.utils.metrics.metrics_manager import MetricsManager
 from roll.utils.constants import IGNORE_INDEX
 from roll.pipeline.distill.logits_transfer_group import LogitsTransferGroup
-
+from roll.utils.functionals import batch_balance
 
 logger = get_logger()
 
@@ -233,10 +233,11 @@ def __init__(self, pipeline_config: DistillConfig):
         self.logits_transfer_group = LogitsTransferGroup(self.teacher, self.student,
                                                          backend=self.pipeline_config.logits_transfer_backend,)
 
-        self.dataloader = get_dataloader(dataset,
-                                         self.pipeline_config.student.training_args.per_device_train_batch_size *\
+        self.batch_size = self.pipeline_config.student.training_args.per_device_train_batch_size *\
                                          self.pipeline_config.student.training_args.gradient_accumulation_steps *\
-                                         self.student.get_rank_info(0).dp_size,
+                                         self.student.dp_size
+        self.dataloader = get_dataloader(dataset,
+                                         self.batch_size,
                                          data_collator,
                                          num_proc=self.pipeline_config.student.training_args.dataloader_num_workers)
 
@@ -283,7 +284,12 @@ def run(self):
                     metrics_mgr.add_metric("time/val", val_timer.last)
 
                 batch: DataProto = DataProto.from_single_dict(batch_dict)
-                batch.meta_info = {"global_step": global_step, "is_offload_states": False, "is_offload_optimizer_states_in_train_step": False}
+                batch.meta_info = {"global_step": global_step, "is_offload_states": self.pipeline_config.is_offload_states, "is_offload_optimizer_states_in_train_step": self.pipeline_config.is_offload_optimizer_states_in_train_step,
+                                   'loss_mask_keys': ['labels_for_loss']}
+                # Reorder data for DP rank load balancing
+                batch_balance_metrics = batch_balance(batch, dp_size=self.student.dp_size, minibatch_size=self.batch_size)
+                metrics_mgr.add_metrics(batch_balance_metrics)
+
                 batch_offset = self.logits_transfer_group.apply_offset_by_dp(batch)
                 with Timer(name="step_train", logger=None) as step_train_timer:
                     with Timer(name="teacher_forward", logger=None) as teacher_timer:
@@ -330,7 +336,7 @@ def run(self):
     @torch.no_grad()
     def val(self):
         val_loss_list = []
-        for batch_dict in self.val_dataloader:
+        for batch_dict in tqdm(self.val_dataloader, desc="Validating", leave=False):
             batch: DataProto = DataProto.from_single_dict(batch_dict)
             batch.meta_info = {"is_offload_optimizer_states_in_train_step": False}
             val_metrics_refs = self.student.val_step(batch, blocking=False)
diff --git a/roll/pipeline/distill/distill_vlm_pipeline.py b/roll/pipeline/distill/distill_vlm_pipeline.py
index 1798b6a7d..330ae8658 100644
--- a/roll/pipeline/distill/distill_vlm_pipeline.py
+++ b/roll/pipeline/distill/distill_vlm_pipeline.py
@@ -262,7 +262,8 @@ def run(self):
                 metrics_mgr.clear_metrics()
 
                 batch: DataProto = DataProto.from_single_dict(batch_dict)
-                batch.meta_info = {"global_step": global_step, "is_offload_states": False, "is_offload_optimizer_states_in_train_step": False}
+                batch.meta_info = {"global_step": global_step, "is_offload_states": self.pipeline_config.is_offload_states,
+                                   "is_offload_optimizer_states_in_train_step": self.pipeline_config.is_offload_optimizer_states_in_train_step, "loss_mask_keys": ["labels_for_loss"]}
                 batch_offset = self.logits_transfer_group.apply_offset_by_dp(batch)
                 with Timer(name="step_train", logger=None) as step_train_timer:
                     with Timer(name="teacher_forward", logger=None) as teacher_timer:
diff --git a/roll/pipeline/distill/distill_worker.py b/roll/pipeline/distill/distill_worker.py
index f6875ac0d..4cba33fe3 100644
--- a/roll/pipeline/distill/distill_worker.py
+++ b/roll/pipeline/distill/distill_worker.py
@@ -43,10 +43,6 @@ def __init__(self, worker_config: WorkerConfig):
         self.teacher_log_probs = None
         self.teacher_topk_indices = None
         self.teacher_inf_mask = None
-        self.teacher_probs_iterator = None
-        self.teacher_log_probs_iterator = None
-        self.teacher_topk_indices_iterator = None
-        self.teacher_inf_mask_iterator = None
 
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
     def initialize(self, pipeline_config):
@@ -76,20 +72,6 @@ def train_step(self, data: DataProto):
         is_offload_states = data.meta_info.get("is_offload_states", True)
         metrics = {}
         micro_batch_size = self.worker_config.training_args.per_device_train_batch_size
-
-        # Retrieve the teacher logits
-        if self.rank_info.is_pipeline_last_stage:
-            self.teacher_probs = self.probs_cache.pop_full_logits()
-            self.teacher_probs_iterator = iter(self.teacher_probs.split(micro_batch_size, dim=0))
-            self.teacher_log_probs = self.log_probs_cache.pop_full_logits()
-            self.teacher_log_probs_iterator = iter(self.teacher_log_probs.split(micro_batch_size, dim=0))
-        # Retrieve the teacher_topk_indices
-        if self.rank_info.is_pipeline_last_stage:
-            self.teacher_topk_indices = self.topk_indices_cache.pop_full_logits()
-            if self.pipeline_config.logits_topk != 0:
-                self.teacher_topk_indices_iterator = iter(self.teacher_topk_indices.split(micro_batch_size, dim=0))
-            self.teacher_inf_mask = self.inf_mask_cache.pop_full_logits()
-            self.teacher_inf_mask_iterator = iter(self.teacher_inf_mask.split(micro_batch_size, dim=0))
         self.logger.info(f"is_offload_states: {is_offload_states}")
         with state_offload_manger(
                 strategy=self.strategy,
@@ -100,20 +82,20 @@ def train_step(self, data: DataProto):
         ):
             data = data.to(current_platform.device_type)
             data = self.strategy.get_data_input(data)
+            if self.rank_info.is_pipeline_last_stage:
+                # Retrieve the teacher logits
+                data.batch['teacher_probs'] = self.probs_cache.pop_full_logits()
+                data.batch['teacher_log_probs'] = self.log_probs_cache.pop_full_logits()
+                # Retrieve the teacher_topk_indices
+                if self.pipeline_config.logits_topk != 0:
+                    data.batch['teacher_topk_indices'] = self.topk_indices_cache.pop_full_logits()
+                data.batch['teacher_inf_mask'] = self.inf_mask_cache.pop_full_logits()
             if "labels" in data.batch.keys():
                 # rename key: labels -> labels_for_loss
                 data.batch.rename_key_("labels", "labels_for_loss")
             self.logger.info(f"global_step: {data.meta_info.get('global_step',0)}")
-            per_device_train_batch_size = self.worker_config.training_args.per_device_train_batch_size
-            backward_batch_size = (
-                    per_device_train_batch_size * self.worker_config.training_args.gradient_accumulation_steps
-            )
 
-            loss_func = self.loss_func
-            if self.worker_config.use_sequence_packing:
-                from roll.utils.sequence_packing import SequencePackingDistillLossWrapper
-                loss_func = SequencePackingDistillLossWrapper(self.strategy, loss_func)
-            student_metrics = self.strategy.train_step(batch=data, loss_func=loss_func)
+            student_metrics = self.strategy.train_step(batch=data, loss_func=self.loss_func)
             append_to_dict(metrics, student_metrics)
 
             data.to("cpu")
@@ -126,44 +108,38 @@ def train_step(self, data: DataProto):
     def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         """
         Loss function interface definition:
-            data: DataProto, passed through unchanged from train_step  
+            data: DataProto, passed through unchanged from train_step
             output_tensor: torch.Tensor, the tensor returned by model.forward()
         """
+        batch_num_tokens = data.meta_info['batch_num_tokens']['labels_for_loss']
 
         student_logits = output_tensor
         labels = data.batch['labels_for_loss']
 
         # language loss
-        gpt_loss, _ = self.strategy.op_compute_language_loss_from_logits(student_logits, labels)
+        gpt_loss, _ = self.strategy.op_compute_language_loss_from_logits(student_logits, labels, reduction='sum')
+        gpt_loss = gpt_loss / batch_num_tokens
 
         # distill loss
-        if self.teacher_probs_iterator is not None:
-            teacher_probs = next(self.teacher_probs_iterator)
-        else:
-            teacher_probs = None
-        if self.teacher_log_probs_iterator is not None:
-            teacher_log_probs = next(self.teacher_log_probs_iterator)
-        else:
-            teacher_log_probs = None
-        if self.teacher_topk_indices_iterator is not None:
-            teacher_topk_indices = next(self.teacher_topk_indices_iterator)
+        teacher_probs = data.batch['teacher_probs']
+        teacher_log_probs = data.batch['teacher_log_probs']
+        if 'teacher_topk_indices' in data.batch:
+            teacher_topk_indices = data.batch['teacher_topk_indices']
         else:
             teacher_topk_indices = None
-        if self.teacher_inf_mask_iterator is not None:
-            teacher_inf_mask = next(self.teacher_inf_mask_iterator)
-        else:
-            teacher_inf_mask = None
+        teacher_inf_mask = data.batch['teacher_inf_mask']
 
         distill_loss, _ = self.strategy.op_compute_various_divergence(self.kl_loss_func, student_logits, teacher_probs,
                                                                 teacher_log_probs, teacher_topk_indices, teacher_inf_mask
-                                                                , labels, attention_mask=None,)
+                                                                , labels, attention_mask=None, reduction='sum')
+        distill_loss = distill_loss / batch_num_tokens
 
         loss = ((1 - self.pipeline_config.distill_loss_weight) * gpt_loss
                 + self.pipeline_config.distill_loss_weight * distill_loss)
         student_metrics = {
-            "train/loss": loss.detach().item(),
-            "train/train_distill_loss": distill_loss.detach().item(),
-            "train/train_student_loss": gpt_loss.detach().item(),
+            "train/loss@sum": loss.detach().item(),
+            "train/train_distill_loss@sum": distill_loss.detach().item(),
+            "train/train_student_loss@sum": gpt_loss.detach().item(),
         }
         return loss, student_metrics
 
@@ -180,20 +156,22 @@ def val_step(self, data: DataProto):
         return output
     
     def loss_func_for_eval(self, data: DataProto, output_tensor: torch.Tensor):
+        batch_num_tokens = data.meta_info['batch_num_tokens']['labels_for_loss']
         labels = data.batch['labels_for_loss']
-        gpt_loss, _ = self.strategy.op_compute_language_loss_from_logits(output_tensor, labels)
+        gpt_loss, _ = self.strategy.op_compute_language_loss_from_logits(output_tensor, labels, reduction='sum')
+        gpt_loss = gpt_loss / batch_num_tokens
         student_metrics = {
-            "student/val_loss": gpt_loss.detach().item(),
+            "student/val_loss@sum": gpt_loss.detach().item(),
         }
         return gpt_loss, student_metrics
     
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
-    def do_checkpoint(self, global_step):
+    def do_checkpoint(self, global_step, is_last_step=False):
         with Timer("do_checkpoint") as total_timer:
             ckpt_id = f"checkpoint-{global_step}"
             save_dir = os.path.join(self.pipeline_config.output_dir, self.worker_name, ckpt_id, self.cluster_name)
             self.logger.info(f"save checkpoint-{global_step} to {save_dir}")
-            exec_metrics: Dict = self.strategy.save_checkpoint(save_dir, global_step, ckpt_id)
+            exec_metrics: Dict = self.strategy.save_checkpoint(save_dir, global_step, ckpt_id, is_last_step=is_last_step)
 
         metrics = {
             f"time/{self.cluster_name}/do_checkpoint/total": total_timer.last,
@@ -256,19 +234,22 @@ def broadcast_logits(self, tensor_name_for_transfer, tp=False, cp=False):
         logits_cache = getattr(self, cache_name)
         rank_info = self.rank_info
         self.logger.info(
-            f"[Student][broadcast_logits] rank={dist.get_rank()}, pp={rank_info.pp_rank}, dp={rank_info.dp_rank}, tp={rank_info.tp_rank}, "
+            f"[Student][broadcast_logits] rank={dist.get_rank()}, pp={rank_info.pp_rank}, dp={rank_info.dp_rank},"
+            f" tp={rank_info.tp_rank}, cp={rank_info.cp_rank} "
             f"is_pipeline_last_stage={rank_info.is_pipeline_last_stage}, tp_size={rank_info.tp_size}"
         )
-        if rank_info.is_pipeline_last_stage and rank_info.tp_size > 1:
+        if rank_info.is_pipeline_last_stage and (rank_info.tp_size > 1 or rank_info.cp_size > 1):
             assert self.strategy.strategy_name == "megatron_train", \
-                f"Error in DistillWorker broadcast_logits: {self.strategy.strategy_name} with tp_size == {rank_info.tp_size}"
+                f"Error in DistillWorker broadcast_logits: {self.strategy.strategy_name}, which must be megatron_train"
             from megatron.core import mpu
-            if tp:
+            if tp and rank_info.tp_size > 1:
                 group = mpu.get_tensor_model_parallel_group()
                 rank = rank_info.tp_rank
-            else:
+            elif cp and rank_info.cp_size > 1:
                 group = mpu.get_context_parallel_group()
                 rank = rank_info.cp_rank
+            else:
+                return
             self.logger.info(
                 f"[Student][broadcast_logits] calling logits_cache.broadcast_from_dynamic_holder(), tp={tp}, cp={cp}, group={group}, rank={rank}"
             )
@@ -497,8 +478,8 @@ def forward_func(self, data: DataProto, output_tensor: torch.Tensor, non_loss_da
     def forward(self, data: DataProto):
         data = self.strategy.get_data_input(data)
         if "labels" in data.batch.keys():
-            keep_keys = [k for k in data.batch.keys() if k != "labels"]
-            data = data.select(batch_keys=keep_keys, deepcopy=False)
+            # rename key: labels -> labels_for_loss
+            data.batch.rename_key_("labels", "labels_for_loss")
         is_offload_states = data.meta_info.get("is_offload_states", False)
         metrics = {}
         with state_offload_manger(
@@ -510,20 +491,12 @@ def forward(self, data: DataProto):
         ):
             data = data.to(current_platform.device_type)
             data.meta_info["micro_batch_size"] = self.pipeline_config.teacher.training_args.per_device_train_batch_size
-            assert self.pipeline_config.teacher.training_args.per_device_train_batch_size <= \
-                   self.pipeline_config.student.training_args.per_device_train_batch_size, \
-                "Teacher's per_device_train_batch_size must be less than or equal to student's."
-
+            assert data.meta_info["micro_batch_size"] <= data.batch.batch_size[0]
             data.meta_info["output_on_all_tp_cp_ranks"] = True
             self.logger.info(f"global_step: {data.meta_info.get('global_step', 0)}")
 
-            forward_func = self.forward_func
-            if self.worker_config.use_sequence_packing:
-                from roll.utils.sequence_packing import SequencePackingDistillForwardWrapper
-                forward_func = SequencePackingDistillForwardWrapper(self.strategy, forward_func)
-
             with torch.no_grad():
-                forward_output = self.strategy.forward_step(batch=data, forward_func=forward_func)
+                forward_output = self.strategy.forward_step(batch=data, forward_func=self.forward_func)
             self.topk_probs = None
             self.topk_log_probs = None
             self.topk_indices = None
diff --git a/roll/pipeline/dpo/actor_worker.py b/roll/pipeline/dpo/actor_worker.py
index b97641d4e..e9a8d89e2 100644
--- a/roll/pipeline/dpo/actor_worker.py
+++ b/roll/pipeline/dpo/actor_worker.py
@@ -1,6 +1,4 @@
-import numpy as np
 import torch
-from tqdm import tqdm
 from typing import Dict
 
 from roll.distributed.scheduler.decorator import Dispatch, register
@@ -9,7 +7,6 @@
 from roll.platforms import current_platform
 from roll.utils.context_managers import state_offload_manger
 from roll.utils.functionals import append_to_dict
-from roll.utils.offload_states import OffloadStateType
 
 
 def get_logps(
@@ -78,24 +75,9 @@ def train_step(self, data: DataProto):
         ):
             data = data.to(current_platform.device_type)
             data = self.strategy.get_data_input(data)
-            per_device_train_batch_size = self.worker_config.training_args.per_device_train_batch_size
-            backward_batch_size = (
-                per_device_train_batch_size * self.worker_config.training_args.gradient_accumulation_steps
-            )
-
-            dataloader = data.make_iterator(
-                mini_batch_size=backward_batch_size,
-                epochs=1,
-                dataloader_kwargs={"shuffle": False},
-            )
-
-            for batch_idx, data in tqdm(
-                enumerate(dataloader),
-                desc=f"{self.worker_name} train global step {global_step}",
-                total=data.batch.batch_size[0] // backward_batch_size,
-            ):
-                pg_metrics = self.strategy.train_step(batch=data, loss_func=self.loss_func)
-                append_to_dict(metrics, pg_metrics)
+
+            pg_metrics = self.strategy.train_step(batch=data, loss_func=self.loss_func)
+            append_to_dict(metrics, pg_metrics)
 
             metrics["actor/lr"] = self.strategy.scheduler.get_last_lr()[0]
             data.to("cpu")
diff --git a/roll/pipeline/dpo/dpo_config.py b/roll/pipeline/dpo/dpo_config.py
index cdc38afba..9fef4e53a 100644
--- a/roll/pipeline/dpo/dpo_config.py
+++ b/roll/pipeline/dpo/dpo_config.py
@@ -13,14 +13,6 @@ class DPOConfig(BaseConfig):
     # global
     global_template: str = field(default=None, metadata={"help": "The template of the global."})
 
-    train_batch_size: int = field(
-        default=16,
-        metadata={"help": "batch_size for one train step"},
-    )
-    val_batch_size: int = field(
-        default=32,
-        metadata={"help": "batch_size for validate step"},
-    )
     max_grad_norm: float = field(default=1.0, metadata={"help": "Maximum norm"})
 
     # role related
@@ -75,7 +67,17 @@ def __post_init__(self):
         self.actor_train.name = "actor_train"
         self.reference.name = "reference"
 
-        self.validate_worker_config()
+        assert self.actor_train.use_sequence_packing == False and self.reference.use_sequence_packing == False,\
+        "dpo pipeline doesn't support use sequence packing now"
+
+        self.actor_train.apply_loss_scale = False
+        self.reference.apply_loss_scale = False
+
+        # DPO uses paired samples (chosen + rejected), so we double the batch size
+        # to maintain the same effective sample count as single-sample training
+        self.actor_train.infer_batch_size *= 2
+        self.actor_train.training_args.per_device_train_batch_size *= 2
+        self.reference.infer_batch_size *= 2
 
     def set_max_steps(self, max_steps: int):
         self.max_steps = max_steps
diff --git a/roll/pipeline/dpo/dpo_pipeline.py b/roll/pipeline/dpo/dpo_pipeline.py
index b5450c7f0..6aeebfaf6 100644
--- a/roll/pipeline/dpo/dpo_pipeline.py
+++ b/roll/pipeline/dpo/dpo_pipeline.py
@@ -1,6 +1,7 @@
 import copy
 import json
 import os
+import time
 from typing import Any, Dict, List
 
 import datasets
@@ -65,9 +66,9 @@ def encode_function(data_i):
             chosen_conversation = build_conversation(inst, chosen)  # prompt + chosen
             rejected_conversation = build_conversation(inst, rejected)  # prompt + rejected
 
-            prompt_text = chat_template_func(prompt_conversation)
-            chosen_text = chat_template_func(chosen_conversation)
-            rejected_text = chat_template_func(rejected_conversation)
+            prompt_text = chat_template_func(prompt_conversation, add_generation_prompt=False)
+            chosen_text = chat_template_func(chosen_conversation, add_generation_prompt=False)
+            rejected_text = chat_template_func(rejected_conversation, add_generation_prompt=False)
 
             prompt_texts.append(prompt_text)
             chosen_texts.append(chosen_text)
@@ -117,14 +118,6 @@ def __init__(self, pipeline_config: DPOConfig):
             tokenizer=self.tokenizer,
             max_length=self.pipeline_config.sequence_length,
         )
-        self.dataloader = DataLoader(
-            dataset=self.dataset,
-            batch_size=self.pipeline_config.train_batch_size,  # actual batch size is 2*batch_size, as there are chosen and rejected
-            shuffle=True,
-            drop_last=True,
-            num_workers=self.pipeline_config.actor_train.data_args.preprocessing_num_workers,
-            collate_fn=data_collator,
-        )
 
         self.val_dataset = None
         if self.pipeline_config.validation.data_args:
@@ -136,14 +129,6 @@ def __init__(self, pipeline_config: DPOConfig):
                 encode_function,
                 num_proc=self.pipeline_config.actor_train.data_args.preprocessing_num_workers,
             )
-            self.val_dataloader = DataLoader(
-                dataset=self.val_dataset,
-                batch_size=self.pipeline_config.val_batch_size,
-                shuffle=True,
-                drop_last=True,
-                num_workers=self.pipeline_config.actor_train.data_args.preprocessing_num_workers,
-                collate_fn=data_collator,
-            )
 
         assert self.pipeline_config.max_steps > 0, "max_steps must be greater than 0"
         self.pipeline_config.set_max_steps(max_steps=self.pipeline_config.max_steps)
@@ -161,16 +146,53 @@ def __init__(self, pipeline_config: DPOConfig):
             worker_config=self.pipeline_config.reference,
         )
 
-        if self.val_dataset:
-            val_pipeline_config = copy.deepcopy(self.pipeline_config)
-            val_pipeline_config.is_use_additional_prompts = False
-
         refs: List[ray.ObjectRef] = []
         refs.extend(self.reference.initialize(pipeline_config=self.pipeline_config, blocking=False))
 
         refs: List[ray.ObjectRef] = []
         refs.extend(self.actor_train.initialize(pipeline_config=self.pipeline_config, blocking=False))
 
+        dp_size = self.actor_train.dp_size
+        ga_steps = self.pipeline_config.actor_train.training_args.gradient_accumulation_steps
+        # Divide by 2 because batch_size was doubled in __post_init__
+        per_device_train_batch_size = self.pipeline_config.actor_train.training_args.per_device_train_batch_size // 2
+        self.global_train_batch_size = dp_size * ga_steps * per_device_train_batch_size
+
+        self.dataloader = DataLoader(
+            dataset=self.dataset,
+            batch_size=self.global_train_batch_size,
+            shuffle=True,
+            drop_last=True,
+            num_workers=self.pipeline_config.actor_train.data_args.preprocessing_num_workers,
+            collate_fn=data_collator,
+        )
+
+        # Assert reference inference capacity is sufficient
+        reference_infer_global_batch_size = (self.pipeline_config.reference.infer_batch_size//2) * self.reference.dp_size
+        assert reference_infer_global_batch_size <= self.global_train_batch_size, (
+            f"reference_infer_global_batch_size ({reference_infer_global_batch_size}) must be <= global train batch size ({self.global_train_batch_size})"
+        )
+
+        if self.val_dataset:
+            val_pipeline_config = copy.deepcopy(self.pipeline_config)
+            val_pipeline_config.is_use_additional_prompts = False
+
+            # Divide by 2 because infer_batch_size was doubled in __post_init__
+            infer_batch_size = self.pipeline_config.actor_train.infer_batch_size // 2
+            self.global_val_batch_size = dp_size * ga_steps * infer_batch_size
+            self.val_dataloader = DataLoader(
+                dataset=self.val_dataset,
+                batch_size=self.global_val_batch_size,
+                shuffle=True,
+                drop_last=True,
+                num_workers=self.pipeline_config.actor_train.data_args.preprocessing_num_workers,
+                collate_fn=data_collator,
+            )
+
+            assert reference_infer_global_batch_size <= self.global_val_batch_size, (
+                f"reference_infer_global_batch_size ({reference_infer_global_batch_size}) must be <= global val batch size ({self.global_val_batch_size})"
+            )
+
         self.set_checkpoint_clusters(self.actor_train)
 
     @torch.no_grad()
@@ -197,7 +219,8 @@ def run(self):
                 with Timer(name="step_total", logger=None) as step_total_timer:
                     batch_dict: Dict
                     batch: DataProto = DataProto.from_single_dict(batch_dict)
-                    batch.meta_info = {"global_step": global_step, "is_offload_states": False, "is_offload_optimizer_states_in_train_step": False}
+                    batch.meta_info = {"global_step": global_step, "is_offload_states": self.pipeline_config.is_offload_states,
+                                       "is_offload_optimizer_states_in_train_step": self.pipeline_config.is_offload_optimizer_states_in_train_step, 'loss_mask_keys': []}
 
                     with Timer(name="cal_ref_log_probs", logger=None) as cal_ref_log_probs_timer:
                         ref_log_probs = self.reference.compute_log_probs(batch, blocking=True)
@@ -246,6 +269,8 @@ def val(self):
         for batch_dict in tqdm(self.val_dataloader):
             batch_dict: Dict
             batch: DataProto = DataProto.from_single_dict(batch_dict)
+            batch.meta_info = {"is_offload_states": self.pipeline_config.is_offload_states,
+                               'loss_mask_keys': []}
 
             with Timer(name="cal_ref_log_probs", logger=None) as cal_ref_log_probs_timer:
                 ref_log_probs = self.reference.compute_log_probs(batch, blocking=True)
diff --git a/roll/pipeline/rlvr/actor_pg_worker.py b/roll/pipeline/rlvr/actor_pg_worker.py
index 477438595..0fa7bd093 100644
--- a/roll/pipeline/rlvr/actor_pg_worker.py
+++ b/roll/pipeline/rlvr/actor_pg_worker.py
@@ -4,6 +4,7 @@
 from roll.distributed.scheduler.protocol import DataProto
 from roll.utils.functionals import masked_mean, agg_loss, compute_approx_kl
 from roll.pipeline.rlvr.actor_worker import ActorWorker
+from roll.utils.train_infer_corrections import compute_train_infer_correction
 
 class ActorPGWorker(ActorWorker):
 
@@ -15,7 +16,7 @@ def __init__(self, *args, **kwargs):
         self._topr_sample_logged = False
         self._cispo_config_logged = False
         self._kimi15_config_logged = False
-        
+
     def _get_or_cache_config(self, key, default_value):
         """获取或缓存配置值"""
         if key not in self._pg_config_cache:
@@ -35,16 +36,41 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         ref_log_probs = data.batch["ref_log_probs"]
         advantages = data.batch["advantages"]
 
+        batch_num_tokens = data.meta_info['batch_num_tokens']
+        global_valid_samples = data.meta_info['global_valid_samples']
+        if 'final_response_mask' not in batch_num_tokens:
+            batch_num_tokens['final_response_mask'] = batch_num_tokens['response_mask']
+            global_valid_samples['final_response_mask'] = global_valid_samples['response_mask']
+
         log_probs = self.strategy.op_compute_log_probs(
             logits=output_tensor, input_ids=data.batch["input_ids"], attention_mask=data.batch["response_mask"]
         )
         old_log_probs = self.get_old_log_probs_with_cache(data, log_probs)
 
+        infer_log_probs = data.batch.get("infer_logprobs", old_log_probs)
+        infer_log_probs = infer_log_probs if len(infer_log_probs) > 0 else old_log_probs
+        train_infer_metric = {}
+        if not self.pipeline_config.enable_old_logprobs_recompute:
+            train_infer_is_weight, filter_mask, train_infer_metric = compute_train_infer_correction(
+                cfg=self.pipeline_config.train_infer_correction,
+                response_mask=response_mask,
+                old_log_probs=old_log_probs,
+                infer_log_probs=infer_log_probs,
+                global_valid_samples=global_valid_samples['response_mask'],
+                global_valid_tokens=batch_num_tokens['response_mask'],
+            )
+
+            # Apply filter mask to both response_mask and final_response_mask
+            response_mask = response_mask.long() * filter_mask.long()
+            final_response_mask = final_response_mask.long() * filter_mask.long()
+        else:
+            train_infer_is_weight = data.batch['train_infer_is_weight']
+
         valid_samples = torch.any(final_response_mask > 0, dim=1).float()
         sample_weights = self.compute_sample_weights(data, response_mask)
 
         ratio = (log_probs - old_log_probs).exp()
-        
+
         # 预先计算并缓存一些通用指标
         self._cached_metrics = {
             "ratio": ratio,
@@ -57,15 +83,15 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         }
 
         pg_variant = self._get_or_cache_config('pg_variant', 'vanilla')
-        
+
         if not self._pg_variant_logged:
             self.logger.info(f"Policy Gradient Used: {pg_variant}")
             self._pg_variant_logged = True
-        
+
         if pg_variant == 'vanilla': # Basic Policy Gradient
             pg_loss = self._compute_vanilla_pg_loss(ratio, log_probs, advantages)
         elif pg_variant == 'ppo': # Proximal Policy Optimization
-            pg_loss = self._compute_ppo_loss(ratio, advantages)
+            pg_loss = self._compute_ppo_loss(ratio, advantages, final_response_mask, batch_num_tokens, global_valid_samples)
         elif pg_variant == 'tis': # Truncated Importance Sampling
             pg_loss = self._compute_tis_loss(ratio, log_probs, old_log_probs, advantages, data)
         elif pg_variant == 'topr': # Tapered off-policy REINFORCE
@@ -77,17 +103,26 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         else:
             raise ValueError(f"Unsupported pg_variant: {pg_variant}")
 
+        if self.pipeline_config.train_infer_correction.is_weight.enabled:
+            pg_loss = pg_loss * train_infer_is_weight
+
         weighted_pg_loss = agg_loss(loss_mat=pg_loss, loss_mask=final_response_mask,
-                                    loss_agg_mode=self.pipeline_config.loss_agg_mode, weights=sample_weights)
+                                    loss_agg_mode=self.pipeline_config.loss_agg_mode, weights=sample_weights,
+                                    batch_num_tokens=batch_num_tokens['final_response_mask'],
+                                    global_valid_samples=global_valid_samples['final_response_mask'],)
         original_pg_loss = agg_loss(loss_mat=pg_loss, loss_mask=final_response_mask,
-                                    loss_agg_mode=self.pipeline_config.loss_agg_mode)
+                                    loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                                    batch_num_tokens=batch_num_tokens['final_response_mask'],
+                                    global_valid_samples=global_valid_samples['final_response_mask'],)
 
         kl_loss = compute_approx_kl(
             log_probs=log_probs, log_probs_base=ref_log_probs, action_mask=final_response_mask, kl_penalty="k3"
         )
         kl_loss = agg_loss(loss_mat=kl_loss,
                            loss_mask=final_response_mask,
-                           loss_agg_mode=self.pipeline_config.loss_agg_mode)
+                           loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                           batch_num_tokens=batch_num_tokens['final_response_mask'],
+                           global_valid_samples=global_valid_samples['final_response_mask'],)
 
         approxkl = compute_approx_kl(
             log_probs=log_probs, log_probs_base=old_log_probs, action_mask=response_mask, kl_penalty="mse"
@@ -101,6 +136,8 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
             loss_mat=entropy,
             loss_mask=data.batch["response_mask"][:, 1:],
             loss_agg_mode=self.pipeline_config.loss_agg_mode,
+            batch_num_tokens=batch_num_tokens['response_mask'],
+            global_valid_samples=global_valid_samples['response_mask'],
         )
 
         # 缓存损失相关指标
@@ -126,17 +163,18 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         self._cached_metrics["total_loss"] = total_loss
 
         # 使用缓存的指标
-        pg_metrics = self._get_pg_metrics(data)
-
+        pg_metrics = self._get_pg_metrics(data, batch_num_tokens=batch_num_tokens, global_valid_samples=global_valid_samples,)
+        pg_metrics.update(train_infer_metric)
         return total_loss, pg_metrics
 
-    def _compute_ppo_loss(self, ratio: torch.Tensor, advantages: torch.Tensor):
+    def _compute_ppo_loss(self, ratio: torch.Tensor, advantages: torch.Tensor, final_response_mask: torch.Tensor,
+                          batch_num_tokens: dict, global_valid_samples: dict):
         """
         计算PPO损失
         """
         pg_clip = self.pipeline_config.pg_clip
         pg_clip_low = self.pipeline_config.pg_clip_low if self.pipeline_config.use_pg_clip_range else self.pipeline_config.pg_clip
-        pg_clip_high = self.pipeline_config.pg_clip_high if self.pipeline_config.use_pg_clip_range else self.pipeline_config.pg_clip  
+        pg_clip_high = self.pipeline_config.pg_clip_high if self.pipeline_config.use_pg_clip_range else self.pipeline_config.pg_clip
         surr1 = ratio * advantages
         surr2 = ratio.clamp(1 - pg_clip_low, 1 + pg_clip_high) * advantages
         loss = -torch.min(surr1, surr2)
@@ -144,16 +182,25 @@ def _compute_ppo_loss(self, ratio: torch.Tensor, advantages: torch.Tensor):
             dual_clip_loss = -torch.max(-loss, (1 + pg_clip * 2) * advantages)
             loss = torch.where(advantages < 0, dual_clip_loss, loss)
 
-        
+
         # 缓存PPO相关指标
         clipped_low = (ratio < 1 - pg_clip_low).float()
         clipped_high = (ratio > 1 + pg_clip_high).float()
         clipped = (clipped_low + clipped_high).float()
-        
+
         self._cached_metrics.update({
-            "ppo_ratio_high_clipfrac": clipped_high.mean().detach().item(),
-            "ppo_ratio_low_clipfrac": clipped_low.mean().detach().item(),
-            "ppo_ratio_clipfrac": clipped.mean().detach().item(),
+            "ppo_ratio_high_clipfrac": agg_loss(loss_mat=clipped_high,
+                           loss_mask=final_response_mask,
+                           loss_agg_mode='token-mean',
+                           batch_num_tokens=batch_num_tokens['final_response_mask'],).detach().item(),
+            "ppo_ratio_low_clipfrac": agg_loss(loss_mat=clipped_low,
+                           loss_mask=final_response_mask,
+                           loss_agg_mode='token-mean',
+                           batch_num_tokens=batch_num_tokens['final_response_mask'],).detach().item(),
+            "ppo_ratio_clipfrac": agg_loss(loss_mat=clipped,
+                           loss_mask=final_response_mask,
+                           loss_agg_mode='token-mean',
+                           batch_num_tokens=batch_num_tokens['final_response_mask'],).detach().item(),
         })
 
         return loss
@@ -161,15 +208,15 @@ def _compute_ppo_loss(self, ratio: torch.Tensor, advantages: torch.Tensor):
     def _compute_vanilla_pg_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, advantages: torch.Tensor):
         """
         计算原始Policy Gradient损失
-        
+
         Args:
             ratio: 重要性采样比率 π(a|s) / π_old(a|s)
             advantages: 优势函数值
-            
+
         Returns:
             pg_loss: Policy Gradient损失
         """
-        
+
         return -log_probs * advantages
 
     def _compute_tis_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, old_log_probs: torch.Tensor, advantages: torch.Tensor, data: DataProto):
@@ -181,17 +228,17 @@ def _compute_tis_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, old_lo
         # 缓存TIS配置
         tis_lower_bound = self._get_or_cache_config('tis_lower_bound', 0.0)
         tis_upper_bound = self._get_or_cache_config('tis_upper_bound', 1.0)
-        
+
         # 截断重要性采样比率
         clipped_ratio = torch.clamp(ratio, min=tis_lower_bound, max=tis_upper_bound)
 
         TIS_loss = -clipped_ratio.detach() * advantages * log_probs
-        
+
         # 缓存TIS相关指标
         lower_clipped = (ratio < tis_lower_bound).float()
         upper_clipped = (ratio > tis_upper_bound).float()
         total_clipped = (lower_clipped + upper_clipped).float()
-        
+
         self._cached_metrics.update({
             "tis_lower_bound": tis_lower_bound,
             "tis_upper_bound": tis_upper_bound,
@@ -200,38 +247,38 @@ def _compute_tis_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, old_lo
             "tis_total_clipfrac": total_clipped.mean().detach().item(),
             "tis_clipped_ratio": clipped_ratio.detach(),
         })
-        
+
         return TIS_loss
 
-    def _compute_topr_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, old_log_probs: torch.Tensor, 
+    def _compute_topr_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, old_log_probs: torch.Tensor,
                            advantages: torch.Tensor, data: DataProto):
         """
         计算TOPR (Tapered off-policy REINFORCE) 损失. https://arxiv.org/abs/2503.14286
-        
+
         根据论文公式(8):
         ∇J_TOPR(π) = Σ_{τ∈T^+} μ(τ)R(τ)∇log π(τ) + Σ_{τ∈T^-} μ(τ)[π(τ)/μ(τ)]_0^1 R(τ)∇log π(τ)
-        
+
         - 正样本(T^+): SFT更新, 直接对log π(τ)求导, 不使用importance sampling
         - 负样本(T^-): TIS更新, 使用clipped importance sampling ratio [0,1]
-        
+
         Args:
             ratio: 重要性采样比率 π(a|s) / π_old(a|s) [batch_size, seq_len]
             log_probs: 当前策略的log概率 [batch_size, seq_len]
             old_log_probs: 旧策略的log概率 [batch_size, seq_len]
-            advantages: 优势函数值 [batch_size, seq_len]  
+            advantages: 优势函数值 [batch_size, seq_len]
             data: 数据，包含奖励/分数信息
-            
+
         Returns:
             topr_loss: TOPR损失 [batch_size, seq_len]
         """
         # 缓存TOPR配置
         positive_weight = self._get_or_cache_config('topr_positive_weight', 1.0)
         negative_weight = self._get_or_cache_config('topr_negative_weight', 1.0)
-        
+
         scores = data.batch['scores']
         positive_mask = (scores > 0).float()
         negative_mask = (scores <= 0).float()
-        
+
         if not self._topr_sample_logged:
             total_samples = len(scores)
             positive_count = positive_mask.sum().item()
@@ -240,18 +287,18 @@ def _compute_topr_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, old_l
             self.logger.info(f"TOPR奖励统计 - 平均: {scores.mean().item():.4f}, 标准差: {scores.std().item():.4f}, 最大: {scores.max().item():.4f}, 最小: {scores.min().item():.4f}")
             self.logger.info(f"TOPR权重配置 - 正样本权重: {positive_weight}, 负样本权重: {negative_weight}")
             self._topr_sample_logged = True
-        
+
         # 计算损失组件
         positive_token_mask = positive_mask.unsqueeze(-1)
         negative_token_mask = negative_mask.unsqueeze(-1)
-        
+
         positive_loss = - advantages * log_probs * positive_token_mask
-        
+
         # 负样本: TIS更新，使用clipped importance sampling ratio
         # 梯度是: -[π(τ)/μ(τ)]_0^1 * R(τ) * ∇log π(τ)
         clipped_ratio = torch.clamp(ratio, min=0.0, max=1.0).detach()
         negative_loss = - clipped_ratio * advantages * log_probs * negative_token_mask
-        
+
         weighted_positive_loss = positive_weight * positive_loss
         weighted_negative_loss = negative_weight * negative_loss
 
@@ -264,6 +311,10 @@ def _compute_topr_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, old_l
         negative_upper_clipped = ((ratio > 1.0) & (negative_token_mask > 0)).float()
         negative_total_clipped = negative_lower_clipped + negative_upper_clipped
         self._cached_metrics.update({
+            "topr_positive_loss": positive_loss,
+            "topr_negative_loss": negative_loss,
+            "topr_weighted_positive_loss": weighted_positive_loss,
+            "topr_weighted_negative_loss": weighted_negative_loss,
             "topr_positive_weight": positive_weight,
             "topr_negative_weight": negative_weight,
             "topr_positive_samples": positive_mask.sum().detach().item(),
@@ -276,24 +327,24 @@ def _compute_topr_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, old_l
             "topr_scores_mean": scores.mean().detach().item(),
             "topr_scores_std": scores.std().detach().item(),
         })
-        
+
         return topr_loss
 
     def _compute_cispo_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, advantages: torch.Tensor):
         """
         计算CISPO (Clipped Importance Sampling Policy Optimization) 损失
-        
+
         根据论文: https://arxiv.org/abs/2503.14286
         CISPO使用截断的重要性采样权重, 同时使用stop-gradient操作来稳定训练
-        
+
         公式: J_CISPO(θ) = E[sg(r̂_t(θ)) * Â_t * log π_θ(a_t|s_t)]
         其中: r̂_t(θ) = clip(r_t(θ), 1-ε_low^IS, 1+ε_high^IS)
-        
+
         Args:
             ratio: 重要性采样比率 π(a|s) / π_old(a|s) [batch_size, seq_len]
             log_probs: 当前策略的log概率 [batch_size, seq_len]
             advantages: 优势函数值 [batch_size, seq_len]
-            
+
         Returns:
             cispo_loss: CISPO损失 [batch_size, seq_len]
         """
@@ -301,38 +352,38 @@ def _compute_cispo_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, adva
         epsilon_low = self._get_or_cache_config('cispo_epsilon_low', 0.1)
         epsilon_high = self._get_or_cache_config('cispo_epsilon_high', 0.1)
         use_unified_mask = self._get_or_cache_config('cispo_use_unified_mask', False)
-        
+
         clip_lower = 1.0 - epsilon_low
         clip_upper = 1.0 + epsilon_high
-        
+
         if not self._cispo_config_logged:
             self.logger.info(f"CISPO配置 - epsilon_low: {epsilon_low}, epsilon_high: {epsilon_high}")
             self.logger.info(f"CISPO截断范围: [{clip_lower:.3f}, {clip_upper:.3f}]")
             self.logger.info(f"CISPO使用统一mask: {use_unified_mask}")
             self._cispo_config_logged = True
-        
+
         clipped_ratio = torch.clamp(ratio, min=clip_lower, max=clip_upper)
-        
+
         # 缓存CISPO相关指标
         lower_clipped = (ratio < clip_lower).float()
         upper_clipped = (ratio > clip_upper).float()
         total_clipped = (lower_clipped + upper_clipped).float()
-             
+
         if use_unified_mask:
             # 使用统一mask公式 (论文公式7). 实际上应该和PPO一致了
             # M_t = 0 if (A_t > 0 and r_t > 1+ε_high) or (A_t < 0 and r_t < 1-ε_low), else 1
             positive_advantages = advantages > 0
             negative_advantages = advantages < 0
-            
+
             mask_positive = positive_advantages & (ratio > clip_upper)
             mask_negative = negative_advantages & (ratio < clip_lower)
-            token_mask = ~(mask_positive | mask_negative)         
-            
+            token_mask = ~(mask_positive | mask_negative)
+
             cispo_loss = -clipped_ratio.detach() * advantages * log_probs * token_mask.float()
         else:
             cispo_loss = -clipped_ratio.detach() * advantages * log_probs
 
-        
+
         cispo_metrics = {
             "cispo_epsilon_low": epsilon_low,
             "cispo_epsilon_high": epsilon_high,
@@ -350,27 +401,27 @@ def _compute_cispo_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, adva
                 "cispo_masked_negative_tokens": mask_negative.float().mean().detach().item(),
                 "cispo_kept_tokens": token_mask.float().mean().detach().item(),
             })
-        
+
         self._cached_metrics.update(cispo_metrics)
         return cispo_loss
 
     def _compute_kimi15_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, old_log_probs: torch.Tensor, advantages: torch.Tensor):
         """
         计算Kimi15损失 https://arxiv.org/pdf/2501.12599
-        
+
         根据论文公式(3):
         1/k Σ (∇_θ log π_θ(y_j, z_j|x)(r(x, y_j, y*) - r̄) - τ/2 ∇_θ (log π_θ(y_j, z_j|x)/π_θ_i(y_j, z_j|x))^2)
-        
+
         这相当于最小化损失函数的负值:
         L = -[(r - r̄) * log π_θ - τ/2 * (log π_θ/π_θ_i)^2]
         """
         # 缓存Kimi15配置
         tau = self._get_or_cache_config('kimi15_tau', 0.1)
-        
+
         if not self._kimi15_config_logged:
             self.logger.info(f"Kimi15配置 - tau (正则化参数): {tau}")
             self._kimi15_config_logged = True
-        
+
         # 计算并缓存指标
         log_ratio = torch.log(ratio + 1e-8)
         policy_grad_magnitude = (advantages * log_ratio).abs().mean().item()
@@ -387,10 +438,10 @@ def _compute_kimi15_loss(self, ratio: torch.Tensor, log_probs: torch.Tensor, old
             "kimi15_kl_reg_magnitude": kl_reg_magnitude,
             "kimi15_reg_ratio": kl_reg_magnitude / (policy_grad_magnitude + 1e-8),
         })
-        
+
         return kimi15_loss
 
-    def _get_pg_metrics(self, data: DataProto):
+    def _get_pg_metrics(self, data: DataProto, batch_num_tokens: dict, global_valid_samples: dict,):
         """
         获取Policy Gradient相关的指标，使用缓存的值避免重复计算
         """
@@ -398,66 +449,85 @@ def _get_pg_metrics(self, data: DataProto):
         cached = self._cached_metrics
         ratio = cached["ratio"]
         response_mask = cached["response_mask"]
-        
+
         # 构建基础指标
         base_metrics = {
-            "actor/ratio_mean": masked_mean(ratio, response_mask, dim=-1).mean().detach().item(),
-            "actor/ratio_max": torch.max(ratio * response_mask).detach().item(),
-            "actor/ratio_min": torch.min(ratio * response_mask + (1 - response_mask) * 1e10).detach().item(),
-            "actor/pg_loss": cached["original_pg_loss"].detach().item(),
-            "actor/weighted_pg_loss": cached["weighted_pg_loss"].detach().item(),
-            "actor/kl_loss": cached["kl_loss"].detach().item(),
-            "actor/total_loss": cached["total_loss"].detach().item(),
-            "actor/approxkl": agg_loss(loss_mat=cached["approxkl"], loss_mask=response_mask,
-                                       loss_agg_mode=self.pipeline_config.loss_agg_mode).detach().item(),
-            "actor/policykl": agg_loss(loss_mat=cached["policykl"], loss_mask=response_mask,
-                                       loss_agg_mode=self.pipeline_config.loss_agg_mode).detach().item(),
-            "actor/valid_samples": cached["valid_samples"].sum().detach().item(),
-            "actor/total_samples": float(cached["valid_samples"].size(0)),
+            "actor/ratio_mean@sum": agg_loss(loss_mat=ratio,
+                           loss_mask=response_mask,
+                           loss_agg_mode='seq-mean-token-mean',
+                           global_valid_samples=global_valid_samples['final_response_mask'],).detach().item(),
+            "actor/ratio_max@max": torch.max(ratio * response_mask).detach().item(),
+            "actor/ratio_min@min": torch.min(ratio * response_mask + (1 - response_mask) * 1e10).detach().item(),
+            "actor/pg_loss@sum": cached["original_pg_loss"].detach().item(),
+            "actor/weighted_pg_loss@sum": cached["weighted_pg_loss"].detach().item(),
+            "actor/kl_loss@sum": cached["kl_loss"].detach().item(),
+            "actor/total_loss@sum": cached["total_loss"].detach().item(),
+            "actor/approxkl@sum": agg_loss(loss_mat=cached["approxkl"], loss_mask=response_mask,
+                                       loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                                       batch_num_tokens=batch_num_tokens['response_mask'],
+                                       global_valid_samples=global_valid_samples['response_mask'],).detach().item(),
+            "actor/policykl@sum": agg_loss(loss_mat=cached["policykl"], loss_mask=response_mask,
+                                       loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                                       batch_num_tokens=batch_num_tokens['response_mask'],
+                                       global_valid_samples=global_valid_samples['response_mask'],).detach().item(),
+            "actor/valid_samples@sum": cached["valid_samples"].sum().detach().item(),
+            "actor/total_samples@sum": float(cached["valid_samples"].size(0)),
             "actor/valid_sample_ratio": (cached["valid_samples"].sum() / cached["valid_samples"].size(0)).detach().item(),
             "actor/sample_weights_mean": cached["sample_weights"].mean().detach().item(),
             "actor/sample_weights_min": cached["sample_weights"].min().detach().item(),
             "actor/sample_weights_max": cached["sample_weights"].max().detach().item(),
         }
-        
+
         # 根据PG变体添加特定指标
         pg_variant = cached["pg_variant"]
-        
+
         if pg_variant == 'ppo':
             ppo_metrics = {
-                "actor/ppo_ratio_high_clipfrac": cached["ppo_ratio_high_clipfrac"],
-                "actor/ppo_ratio_low_clipfrac": cached["ppo_ratio_low_clipfrac"],
-                "actor/ppo_ratio_clipfrac": cached["ppo_ratio_clipfrac"],
+                "actor/ppo_ratio_high_clipfrac@sum": cached["ppo_ratio_high_clipfrac"],
+                "actor/ppo_ratio_low_clipfrac@sum": cached["ppo_ratio_low_clipfrac"],
+                "actor/ppo_ratio_clipfrac@sum": cached["ppo_ratio_clipfrac"],
             }
             base_metrics.update(ppo_metrics)
-            
+
         elif pg_variant == 'tis':
             tis_metrics = {
                 "actor/tis_lower_clipfrac": cached["tis_lower_clipfrac"],
                 "actor/tis_upper_clipfrac": cached["tis_upper_clipfrac"],
                 "actor/tis_total_clipfrac": cached["tis_total_clipfrac"],
-                "actor/tis_clipped_ratio_mean": masked_mean(cached["tis_clipped_ratio"], response_mask, dim=-1).mean().item(),
+                "actor/tis_clipped_ratio_mean@sum": agg_loss(loss_mat=cached["tis_clipped_ratio"], loss_mask=response_mask,
+                                       loss_agg_mode='seq-mean-token-mean',
+                                       global_valid_samples=global_valid_samples['response_mask'],).detach().item(),
                 "actor/tis_lower_bound": cached["tis_lower_bound"],
                 "actor/tis_upper_bound": cached["tis_upper_bound"],
             }
             base_metrics.update(tis_metrics)
-            
+
         elif pg_variant == 'topr':
             # 计算TOPR损失组件的聚合指标
             topr_loss_metrics = {
                 "actor/topr_positive_loss": agg_loss(loss_mat=cached["topr_positive_loss"], loss_mask=response_mask,
-                                                   loss_agg_mode=self.pipeline_config.loss_agg_mode).item(),
+                                                     loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                                                     batch_num_tokens=batch_num_tokens['response_mask'],
+                                                     global_valid_samples=global_valid_samples['response_mask'],).item(),
                 "actor/topr_negative_loss": agg_loss(loss_mat=cached["topr_negative_loss"], loss_mask=response_mask,
-                                                   loss_agg_mode=self.pipeline_config.loss_agg_mode).item(),
-                "actor/topr_weighted_positive_loss": agg_loss(loss_mat=cached["topr_weighted_positive_loss"], loss_mask=response_mask,
-                                                            loss_agg_mode=self.pipeline_config.loss_agg_mode).item(),
-                "actor/topr_weighted_negative_loss": agg_loss(loss_mat=cached["topr_weighted_negative_loss"], loss_mask=response_mask,
-                                                            loss_agg_mode=self.pipeline_config.loss_agg_mode).item(),
+                                                     loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                                                     batch_num_tokens=batch_num_tokens['response_mask'],
+                                                     global_valid_samples=global_valid_samples['response_mask'],).item(),
+                "actor/topr_weighted_positive_loss": agg_loss(loss_mat=cached["topr_weighted_positive_loss"],
+                                                              loss_mask=response_mask,
+                                                              loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                                                              batch_num_tokens=batch_num_tokens['response_mask'],
+                                                              global_valid_samples=global_valid_samples['response_mask'],).item(),
+                "actor/topr_weighted_negative_loss": agg_loss(loss_mat=cached["topr_weighted_negative_loss"],
+                                                              loss_mask=response_mask,
+                                                              loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                                                              batch_num_tokens=batch_num_tokens['response_mask'],
+                                                              global_valid_samples=global_valid_samples['response_mask'],).item()
             }
-            
+
             topr_metrics = {
-                "actor/topr_positive_samples": cached["topr_positive_samples"],
-                "actor/topr_negative_samples": cached["topr_negative_samples"],
+                "actor/topr_positive_samples@sum": cached["topr_positive_samples"],
+                "actor/topr_negative_samples@sum": cached["topr_negative_samples"],
                 "actor/topr_positive_ratio": cached["topr_positive_ratio"],
                 "actor/topr_negative_ratio": cached["topr_negative_ratio"],
                 "actor/topr_negative_lower_clipfrac": cached["topr_negative_lower_clipfrac"],
@@ -470,22 +540,22 @@ def _get_pg_metrics(self, data: DataProto):
                 **topr_loss_metrics,
             }
             base_metrics.update(topr_metrics)
-            
+
         elif pg_variant == 'cispo':
             cispo_metrics = {
-                f"actor/cispo_{key}": value for key, value in cached.items() 
+                f"actor/cispo_{key}": value for key, value in cached.items()
                 if key.startswith("cispo_") and key != "cispo_clipped_ratio"
             }
-            
+
             # 特殊处理需要计算的指标
             cispo_metrics["actor/cispo_clipped_ratio_mean"] = masked_mean(cached["cispo_clipped_ratio"], response_mask, dim=-1).mean().item()
             base_metrics.update(cispo_metrics)
-            
+
         elif pg_variant == 'kimi15':
             kimi15_metrics = {
-                f"actor/kimi15_{key}": value for key, value in cached.items() 
+                f"actor/kimi15_{key}": value for key, value in cached.items()
                 if key.startswith("kimi15_")
             }
             base_metrics.update(kimi15_metrics)
-        
+
         return base_metrics
\ No newline at end of file
diff --git a/roll/pipeline/rlvr/actor_worker.py b/roll/pipeline/rlvr/actor_worker.py
index 19d0c66de..eb713a359 100644
--- a/roll/pipeline/rlvr/actor_worker.py
+++ b/roll/pipeline/rlvr/actor_worker.py
@@ -4,7 +4,7 @@
 from roll.distributed.scheduler.protocol import DataProto
 from roll.pipeline.base_worker import ActorWorker as BaseActorWorker
 from roll.utils.functionals import masked_mean, agg_loss, compute_approx_kl
-
+from roll.utils.train_infer_corrections import compute_train_infer_correction
 
 class ActorWorker(BaseActorWorker):
 
@@ -19,6 +19,12 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         ref_log_probs = data.batch["ref_log_probs"]
         advantages = data.batch["advantages"]
 
+        batch_num_tokens = data.meta_info['batch_num_tokens']
+        global_valid_samples = data.meta_info['global_valid_samples']
+        if 'final_response_mask' not in batch_num_tokens:
+            batch_num_tokens['final_response_mask'] = batch_num_tokens['response_mask']
+            global_valid_samples['final_response_mask'] = global_valid_samples['response_mask']
+
         log_probs = self.strategy.op_compute_log_probs(
             logits=output_tensor, input_ids=data.batch["input_ids"], attention_mask=data.batch["response_mask"]
         )
@@ -26,25 +32,34 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         infer_log_probs = data.batch.get("infer_logprobs", old_log_probs)
         infer_log_probs = infer_log_probs if len(infer_log_probs) > 0 else old_log_probs
 
-        loss_scale =None
-        if self.worker_config.use_dynamic_batching_in_train and self.pipeline_config.loss_agg_mode == "seq-mean-token-sum":
-            micro_batch_indices = data.meta_info["micro_batch_indices"]
-            mini_batch_size = micro_batch_indices[-1][-1] - micro_batch_indices[0][0]
-            num_micro_batch = len(micro_batch_indices)
-            micro_batch_size = data.batch.batch_size[0]
-            loss_scale = num_micro_batch * micro_batch_size / mini_batch_size
+        train_infer_metric = {}
+        if not self.pipeline_config.enable_old_logprobs_recompute:
+            train_infer_is_weight, filter_mask, train_infer_metric = compute_train_infer_correction(
+                cfg=self.pipeline_config.train_infer_correction,
+                response_mask=response_mask,
+                old_log_probs=old_log_probs,
+                infer_log_probs=infer_log_probs,
+                global_valid_samples=global_valid_samples['response_mask'],
+                global_valid_tokens=batch_num_tokens['response_mask'],
+            )
+
+            # Apply filter mask to both response_mask and final_response_mask
+            response_mask = response_mask.long() * filter_mask.long()
+            final_response_mask = final_response_mask.long() * filter_mask.long()
+        else:
+            train_infer_is_weight = data.batch['train_infer_is_weight']
 
         valid_samples = torch.any(final_response_mask > 0, dim=1).float()
         sample_weights = self.compute_sample_weights(data, response_mask)
 
-
         kl_loss = compute_approx_kl(
             log_probs=log_probs, log_probs_base=ref_log_probs, action_mask=final_response_mask, kl_penalty="k3"
         )
         kl_loss = agg_loss(loss_mat=kl_loss,
                         loss_mask=final_response_mask,
                         loss_agg_mode=self.pipeline_config.loss_agg_mode,
-                        loss_scale=loss_scale)
+                        batch_num_tokens=batch_num_tokens['final_response_mask'],
+                        global_valid_samples=global_valid_samples['final_response_mask'],)
 
         approxkl = compute_approx_kl(
             log_probs=log_probs, log_probs_base=old_log_probs, action_mask=response_mask, kl_penalty="mse"
@@ -53,40 +68,12 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
             log_probs=log_probs, log_probs_base=old_log_probs, action_mask=response_mask, kl_penalty="kl"
         )
 
-        train_infer_ratio = (old_log_probs - infer_log_probs).exp()
-        train_infer_diff = old_log_probs.exp() - infer_log_probs.exp()
-        train_infer_ratio_seq = masked_mean(old_log_probs - infer_log_probs, response_mask, dim=-1).exp().unsqueeze(-1).expand_as(train_infer_ratio)
-        train_infer_diff_seq = masked_mean(old_log_probs.exp() - infer_log_probs.exp(), response_mask, dim=-1).unsqueeze(-1).expand_as(train_infer_diff)
-
-        train_infer_ratio_mask_mean = 1.0
-        train_infer_diff_mask_mean = 1.0
-        train_infer_ratio_seq_mask_mean = 1.0
-        train_infer_diff_seq_mask_mean = 1.0
-
-        if self.pipeline_config.train_infer_ratio_mask:
-            train_infer_ratio_mask = (train_infer_ratio <= self.pipeline_config.train_infer_ratio_threshold_high).float() * (train_infer_ratio >= self.pipeline_config.train_infer_ratio_threshold_low).float()
-            train_infer_ratio_mask_mean = masked_mean(train_infer_ratio_mask, final_response_mask, dim=-1).mean().detach().item()
-            final_response_mask = final_response_mask * train_infer_ratio_mask
-        if self.pipeline_config.train_infer_diff_mask:
-            train_infer_diff_mask = (train_infer_diff <= self.pipeline_config.train_infer_diff_threshold_high).float() * (train_infer_diff >= self.pipeline_config.train_infer_diff_threshold_low).float()
-            train_infer_diff_mask_mean = masked_mean(train_infer_diff_mask, final_response_mask, dim=-1).mean().detach().item()
-            final_response_mask = final_response_mask * train_infer_diff_mask
-
-        if self.pipeline_config.train_infer_ratio_seq_mask:
-            train_infer_ratio_seq_mask = (train_infer_ratio_seq <= self.pipeline_config.train_infer_ratio_seq_threshold_high).float() * (train_infer_ratio_seq >= self.pipeline_config.train_infer_ratio_seq_threshold_low).float()
-            train_infer_ratio_seq_mask_mean = masked_mean(train_infer_ratio_seq_mask, final_response_mask, dim=-1).mean().detach().item()
-            final_response_mask = final_response_mask * train_infer_ratio_seq_mask
-        if self.pipeline_config.train_infer_diff_seq_mask:
-            train_infer_diff_seq_mask = (train_infer_diff_seq <= self.pipeline_config.train_infer_diff_seq_threshold_high).float() * (train_infer_diff_seq >= self.pipeline_config.train_infer_diff_seq_threshold_low).float()
-            train_infer_diff_seq_mask_mean = masked_mean(train_infer_diff_seq_mask, final_response_mask, dim=-1).mean().detach().item()
-            final_response_mask = final_response_mask * train_infer_diff_seq_mask
-
         if self.pipeline_config.importance_sampling == "token":
             ratio = (log_probs - old_log_probs).exp()
         elif self.pipeline_config.importance_sampling == "seq":
             log_ratio = log_probs - old_log_probs
             masked_log_ratio = masked_mean(log_ratio, final_response_mask, dim=-1)
-            ratio = masked_log_ratio.exp().unsqueeze(-1).expand_as(log_ratio)        
+            ratio = masked_log_ratio.exp().unsqueeze(-1).expand_as(log_ratio)
 
         pg_clip_low = self.pipeline_config.pg_clip_low if self.pipeline_config.use_pg_clip_range else self.pipeline_config.pg_clip
         pg_clip_high = self.pipeline_config.pg_clip_high if self.pipeline_config.use_pg_clip_range else self.pipeline_config.pg_clip
@@ -99,16 +86,18 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
             dual_clip_loss = -torch.max(-loss, (1 + self.pipeline_config.pg_clip * 2) * advantages)
             loss = torch.where(advantages < 0, dual_clip_loss, loss)
 
-        if self.pipeline_config.use_rollout_importance_sampling_ratio:
-            rollout_importance_sampling_clip = (train_infer_ratio > self.pipeline_config.rollout_importance_sampling_ratio_upper_bound).float()
-            loss = train_infer_ratio.clamp(0, self.pipeline_config.rollout_importance_sampling_ratio_upper_bound) * loss
+        if self.pipeline_config.train_infer_correction.is_weight.enabled:
+            loss = loss * train_infer_is_weight
 
         weighted_pg_loss = agg_loss(loss_mat=loss, loss_mask=final_response_mask,
                                     loss_agg_mode=self.pipeline_config.loss_agg_mode,
-                                    weights=sample_weights, loss_scale=loss_scale)
+                                    weights=sample_weights,
+                                    batch_num_tokens=batch_num_tokens['final_response_mask'],
+                                    global_valid_samples=global_valid_samples['final_response_mask'],)
         original_pg_loss = agg_loss(loss_mat=loss, loss_mask=final_response_mask,
                                     loss_agg_mode=self.pipeline_config.loss_agg_mode,
-                                    loss_scale=loss_scale)
+                                    batch_num_tokens=batch_num_tokens['final_response_mask'],
+                                    global_valid_samples=global_valid_samples['final_response_mask'],)
 
         clipped_low = (ratio < 1 - pg_clip_low).float()
         clipped_high = (ratio > 1 + pg_clip_high).float()
@@ -127,70 +116,52 @@ def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
                 loss_mat=entropy,
                 loss_mask=data.batch["response_mask"][:, 1:],
                 loss_agg_mode=self.pipeline_config.loss_agg_mode,
-                loss_scale=loss_scale
+                batch_num_tokens=batch_num_tokens['response_mask'],
+                global_valid_samples=global_valid_samples['response_mask'],
             )
             total_loss = total_loss - entropy_loss * self.pipeline_config.entropy_loss_coef
 
-        metrics = {}
-        if self.pipeline_config.postive_loss_coef > 0:
-            response_positive_mask = (data.batch['scores'] > 0).unsqueeze(-1).expand_as(final_response_mask)
-            # TODO: 是否应该乘上adv？
-            postive_loss = agg_loss(loss_mat=-log_probs * advantages, loss_mask=final_response_mask * response_positive_mask,
-                                loss_agg_mode=self.pipeline_config.loss_agg_mode, weights=torch.ones_like(sample_weights),
-                                loss_scale=loss_scale)
-            total_loss = total_loss + postive_loss * self.pipeline_config.postive_loss_coef
-            metrics['actor/postive_loss'] = postive_loss.detach().item()
-            
-        if self.pipeline_config.use_topr_neg_loss_coef > 0:
-            response_negative_mask = (data.batch['scores'] <= 0).unsqueeze(-1).expand_as(final_response_mask)
-            clipped_ratio = torch.clamp((log_probs.detach() - old_log_probs).exp(), 0 , 1)
-            topr_neg_loss = agg_loss(loss_mat=-clipped_ratio * log_probs * advantages, loss_mask=final_response_mask * response_negative_mask,
-                                loss_agg_mode=self.pipeline_config.loss_agg_mode, weights=torch.ones_like(sample_weights),
-                                loss_scale=loss_scale)
-            total_loss = total_loss + topr_neg_loss * self.pipeline_config.use_topr_neg_loss_coef
-            metrics['actor/topr_neg_loss'] = topr_neg_loss.detach().item()
-
-        train_infer_prob_metric = {
-            "actor/train_infer_ratio_mean": masked_mean(train_infer_ratio, response_mask, dim=-1).mean().detach().item(),
-            "actor/train_infer_diff_mean": masked_mean(train_infer_diff, response_mask, dim=-1).mean().detach().item(),
-            "actor/train_infer_ratio_mask_mean": train_infer_ratio_mask_mean,
-            "actor/train_infer_diff_mask_mean": train_infer_diff_mask_mean,
-            "actor/train_infer_ratio_seq_mask_mean": train_infer_ratio_seq_mask_mean,
-            "actor/train_infer_diff_seq_mask_mean": train_infer_diff_seq_mask_mean,
-        }
-
         loss_metric = {
-            "actor/ppo_ratio_high_clipfrac": clipped_high.mean().detach().item(),
-            "actor/ppo_ratio_low_clipfrac": clipped_low.mean().detach().item(),
-            "actor/ppo_ratio_clipfrac": clipped.mean().detach().item(),
-            "actor/ratio_mean": masked_mean(ratio, response_mask, dim=-1).mean().detach().item(),
-            "actor/ratio_max": torch.max(ratio * response_mask).detach().item(),
-            "actor/ratio_min": torch.min(ratio * response_mask + (1 - response_mask) * 1e10).detach().item(),
-            "actor/clipfrac": agg_loss(loss_mat=torch.lt(surr2, surr1).float(), loss_mask=response_mask,
-                                loss_agg_mode=self.pipeline_config.loss_agg_mode, loss_scale=loss_scale).detach().item(),
-        } 
-
-        if self.pipeline_config.use_rollout_importance_sampling_ratio:
-            loss_metric["actor/rollout_importance_sampling_clip"] = rollout_importance_sampling_clip.mean().detach().item()
+            "actor/ppo_ratio_high_clipfrac@sum": agg_loss(loss_mat=clipped_high, loss_mask=final_response_mask,
+                                loss_agg_mode='token-mean',
+                                 batch_num_tokens=batch_num_tokens['final_response_mask']).detach().item(),
+            "actor/ppo_ratio_low_clipfrac@sum": agg_loss(loss_mat=clipped_low, loss_mask=final_response_mask,
+                                loss_agg_mode='token-mean',
+                                 batch_num_tokens=batch_num_tokens['final_response_mask']).detach().item(),
+            "actor/ppo_ratio_clipfrac@sum": agg_loss(loss_mat=clipped, loss_mask=final_response_mask,
+                                loss_agg_mode='token-mean',
+                                 batch_num_tokens=batch_num_tokens['final_response_mask']).detach().item(),
+            "actor/ratio_mean@sum": agg_loss(loss_mat=ratio, loss_mask=response_mask,
+                                loss_agg_mode='seq-mean-token-mean',
+                                 global_valid_samples=global_valid_samples['response_mask']).detach().item(),
+            "actor/ratio_max@max": torch.max(ratio * response_mask).detach().item(),
+            "actor/ratio_min@min": torch.min(ratio * response_mask + (1 - response_mask) * 1e10).detach().item(),
+            "actor/clipfrac@sum": agg_loss(loss_mat=torch.lt(surr2, surr1).float(), loss_mask=response_mask,
+                                loss_agg_mode=self.pipeline_config.loss_agg_mode, batch_num_tokens=batch_num_tokens['final_response_mask'],
+                                       global_valid_samples=global_valid_samples['response_mask']).detach().item(),
+        }
 
         pg_metrics = {
-            "actor/pg_loss": original_pg_loss.detach().item(),
-            "actor/weighted_pg_loss": weighted_pg_loss.detach().item(),
-            "actor/kl_loss": kl_loss.detach().item(),
-            "actor/total_loss": total_loss.detach().item(),
-            "actor/approxkl": agg_loss(loss_mat=approxkl, loss_mask=response_mask,
-                                       loss_agg_mode=self.pipeline_config.loss_agg_mode).detach().item(),
-            "actor/policykl": agg_loss(loss_mat=policykl, loss_mask=response_mask,
-                                       loss_agg_mode=self.pipeline_config.loss_agg_mode).detach().item(),
-            "actor/valid_samples": valid_samples.sum().detach().item(),
-            "actor/total_samples": float(valid_samples.size(0)),
-            "actor/valid_sample_ratio": (valid_samples.sum() / valid_samples.size(0)).detach().item(),
-            "actor/sample_weights_mean": sample_weights.mean().detach().item(),
-            "actor/sample_weights_min": sample_weights.min().detach().item(),
-            "actor/sample_weights_max": sample_weights.max().detach().item(),
-            **metrics,
+            "actor/pg_loss@sum": original_pg_loss.detach().item(),
+            "actor/weighted_pg_loss@sum": weighted_pg_loss.detach().item(),
+            "actor/kl_loss@sum": kl_loss.detach().item(),
+            "actor/total_loss@sum": total_loss.detach().item(),
+            "actor/approxkl@sum": agg_loss(loss_mat=approxkl, loss_mask=response_mask,
+                                       loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                                       batch_num_tokens=batch_num_tokens['response_mask'],
+                                        global_valid_samples=global_valid_samples['response_mask'],).detach().item(),
+            "actor/policykl@sum": agg_loss(loss_mat=policykl, loss_mask=response_mask,
+                                       loss_agg_mode=self.pipeline_config.loss_agg_mode,
+                                       batch_num_tokens=batch_num_tokens['response_mask'],
+                                        global_valid_samples=global_valid_samples['response_mask'],).detach().item(),
+            "actor/valid_samples@sum": valid_samples.sum().detach().item(),
+            "actor/total_samples@sum": float(valid_samples.size(0)),
+            "actor/valid_sample_ratio@sum": (valid_samples.sum() / global_valid_samples['response_mask']).detach().item(),
+            "actor/sample_weights_mean@mean": sample_weights.mean().detach().item(),
+            "actor/sample_weights_min@min": sample_weights.min().detach().item(),
+            "actor/sample_weights_max@max": sample_weights.max().detach().item(),
             **loss_metric,
-            **train_infer_prob_metric
+            **train_infer_metric,
         }
 
         return total_loss, pg_metrics
diff --git a/roll/pipeline/rlvr/rewards/__init__.py b/roll/pipeline/rlvr/rewards/__init__.py
index 9d939d88f..26b9beebd 100644
--- a/roll/pipeline/rlvr/rewards/__init__.py
+++ b/roll/pipeline/rlvr/rewards/__init__.py
@@ -3,5 +3,4 @@
 from roll.pipeline.rlvr.rewards.general_val_rule_reward_worker import GeneralValRuleRewardWorker
 from roll.pipeline.rlvr.rewards.ifeval_rule_reward_worker import GeneralRuleRewardWorker
 from roll.pipeline.rlvr.rewards.llm_judge_reward_worker import LLMJudgeRewardWorker
-from roll.pipeline.rlvr.rewards.math_rule_reward_worker import MathRuleRewardWorker
-
+from roll.pipeline.rlvr.rewards.math_rule_reward_worker import MathRuleRewardWorker
\ No newline at end of file
diff --git a/roll/pipeline/rlvr/rewards/crossthinkqa_rule_reward_worker.py b/roll/pipeline/rlvr/rewards/crossthinkqa_rule_reward_worker.py
index fd1cfcad5..163793d85 100644
--- a/roll/pipeline/rlvr/rewards/crossthinkqa_rule_reward_worker.py
+++ b/roll/pipeline/rlvr/rewards/crossthinkqa_rule_reward_worker.py
@@ -12,8 +12,6 @@
 from roll.distributed.executor.worker import Worker
 from roll.distributed.scheduler.decorator import Dispatch, register
 from roll.distributed.scheduler.protocol import DataProto
-from roll.distributed.strategy.factory import create_strategy
-from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
 
 from roll.models.model_providers import default_reward_model_provider, default_tokenizer_provider
 
@@ -154,7 +152,6 @@ def __init__(self, worker_config: WorkerConfig):
         self.rank_info.dp_rank = self.rank_info.rank
         self.rank_info.dp_size = self.rank_info.world_size
         self.tokenizer = default_tokenizer_provider(model_args=self.worker_config.model_args)
-        self.strategy: Optional[Union[InferenceStrategy, TrainStrategy]] = None
 
         self.repetition_penalty_reward_fn = get_repetition_penalty_reward(ngram_size=3, max_penalty=-0.5)
         self.response_length_reward_fn = get_response_length_reward(min_len=100, max_len=400)
diff --git a/roll/pipeline/rlvr/rewards/detection_reward_worker.py b/roll/pipeline/rlvr/rewards/detection_reward_worker.py
index f57da70f9..57940333d 100644
--- a/roll/pipeline/rlvr/rewards/detection_reward_worker.py
+++ b/roll/pipeline/rlvr/rewards/detection_reward_worker.py
@@ -30,7 +30,7 @@
 from roll.distributed.scheduler.decorator import Dispatch, register
 from roll.distributed.scheduler.protocol import DataProto
 from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
-from roll.models.model_providers import default_tokenizer_provider
+from roll.models.model_providers import default_processor_provider
 from roll.utils.logging import get_logger
 
 
@@ -1172,6 +1172,7 @@ def extract_answer_content(text):
 
 
 def normalize_bbox_by_real_size(pred_bboxes, input_width, input_height, normalize_size=1000.0):
+    # refer to https://github.com/QwenLM/Qwen2.5-VL/issues/721 for qwen2.5-vl bbox
     if pred_bboxes is None:
         return None
 
@@ -1624,10 +1625,12 @@ def __init__(self, worker_config: WorkerConfig):
         self.worker_config = worker_config
         self.rank_info.dp_rank = self.rank_info.rank
         self.rank_info.dp_size = self.rank_info.world_size
-        self.tokenizer = default_tokenizer_provider(model_args=self.worker_config.model_args)
+        self.processor = default_processor_provider(model_args=self.worker_config.model_args)
+        self.tokenizer = self.processor.tokenizer
         self.strategy: Optional[Union[InferenceStrategy, TrainStrategy]] = None
 
-        self.patch_size = 14  # hard-code to qwen2.5-vl temporarily
+        # qwen2.5-vl use 14, while qwen2-vl/qwen3-vl/qwen3-omni use 16
+        self.patch_size = self.processor.image_processor.patch_size
 
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
     def initialize(self, pipeline_config):
@@ -1658,6 +1661,14 @@ def compute_rewards(self, data: DataProto):
                 ]
             verifier_parm["image_grid_thw"] = image_grid_thw
             verifier = DetectionVerifier(**verifier_parm)
+            # qwen2.5-vl uses absolute coordinates, while qwen2-vl/qwen3-vl/qwen3-omni
+            # uses relative coordinates which were scaled to [0,1000], refer to
+            # https://github.com/QwenLM/Qwen3-VL/issues/721
+            # https://github.com/QwenLM/Qwen3-VL/issues/1937
+            # and the ground truth in One-RL-to-See-Them-All/Orsta-Data-47k is also scaled
+            # hacky to set det_verifier_normalized to different value temporarily
+            if not self.processor.__class__.__name__.startswith("Qwen2_5"):
+                verifier.det_verifier_normalized = False
             # Initialize default result
             result = {
                 "rewards": {
@@ -1669,6 +1680,9 @@ def compute_rewards(self, data: DataProto):
             }
             format_score = verifier.verify_format(response)
             accuracy_score_gathered = verifier.verify_accuracy(response, ground_truth)
+            self.logger.debug(
+                f"{json.dumps(dict(verifier_parm=verifier_parm, response=response, ground_truth=ground_truth, accuracy_score_gathered=accuracy_score_gathered))}"
+            )
             if isinstance(accuracy_score_gathered, dict):
                 accuracy_score = accuracy_score_gathered['final_score']
 
diff --git a/roll/pipeline/rlvr/rewards/general_val_rule_reward_worker.py b/roll/pipeline/rlvr/rewards/general_val_rule_reward_worker.py
index e56fa619b..11d3ccea0 100644
--- a/roll/pipeline/rlvr/rewards/general_val_rule_reward_worker.py
+++ b/roll/pipeline/rlvr/rewards/general_val_rule_reward_worker.py
@@ -12,8 +12,6 @@
 from roll.distributed.executor.worker import Worker
 from roll.distributed.scheduler.decorator import Dispatch, register
 from roll.distributed.scheduler.protocol import DataProto
-from roll.distributed.strategy.factory import create_strategy
-from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
 
 from roll.models.model_providers import default_reward_model_provider, default_tokenizer_provider
 
@@ -109,7 +107,6 @@ def __init__(self, worker_config: WorkerConfig):
         self.rank_info.dp_rank = self.rank_info.rank
         self.rank_info.dp_size = self.rank_info.world_size
         self.tokenizer = default_tokenizer_provider(model_args=self.worker_config.model_args)
-        self.strategy: Optional[Union[InferenceStrategy, TrainStrategy]] = None
 
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
     def initialize(self, pipeline_config):
diff --git a/roll/pipeline/rlvr/rewards/ifeval_rule_reward_worker.py b/roll/pipeline/rlvr/rewards/ifeval_rule_reward_worker.py
index 07dc29202..bcc2ab85e 100644
--- a/roll/pipeline/rlvr/rewards/ifeval_rule_reward_worker.py
+++ b/roll/pipeline/rlvr/rewards/ifeval_rule_reward_worker.py
@@ -20,8 +20,6 @@
 from roll.distributed.executor.worker import Worker
 from roll.distributed.scheduler.decorator import Dispatch, register
 from roll.distributed.scheduler.protocol import DataProto
-from roll.distributed.strategy.factory import create_strategy
-from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
 import string
 from difflib import SequenceMatcher
 import nltk
@@ -564,7 +562,6 @@ def __init__(self, worker_config: WorkerConfig):
         self.rank_info.dp_rank = self.rank_info.rank
         self.rank_info.dp_size = self.rank_info.world_size
         self.tokenizer = default_tokenizer_provider(model_args=self.worker_config.model_args)
-        self.strategy: Optional[Union[InferenceStrategy, TrainStrategy]] = None
         self.repetition_penalty_reward_fn = get_repetition_penalty_reward(ngram_size=3, max_penalty=-0.5)
         # nltk.download('wordnet')
         # nltk.download('omw-1.4')
diff --git a/roll/pipeline/rlvr/rewards/llm_judge_reward_worker.py b/roll/pipeline/rlvr/rewards/llm_judge_reward_worker.py
index 955aa9419..8dd9b5806 100644
--- a/roll/pipeline/rlvr/rewards/llm_judge_reward_worker.py
+++ b/roll/pipeline/rlvr/rewards/llm_judge_reward_worker.py
@@ -1,4 +1,5 @@
 from typing import Optional, Union, Dict, List, Any
+import asyncio
 import json
 import re
 import torch
@@ -7,6 +8,8 @@
 import traceback
 import numpy as np
 from functools import partial
+import uuid
+import ray
 import tensordict
 from tensordict import TensorDict
 from roll.configs.worker_config import WorkerConfig
@@ -17,15 +20,22 @@
 from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
 from roll.models.model_providers import default_tokenizer_provider, default_reward_model_provider
 from roll.platforms import current_platform
+from roll.utils.constants import RAY_NAMESPACE
 from roll.utils.logging import get_logger
 from roll.utils.context_managers import state_offload_manger
 from roll.utils.prompt import *
 from roll.datasets.chat_template import get_chat_template
+from roll.distributed.scheduler.router import RouterManager
 
 
 class LLMJudgeRewardWorker(Worker):
     """
     Reward Worker that uses LLM-as-judge to compute rewards.
+
+    Supports three judge_model_type modes:
+      - "api": calls an external OpenAI-compatible API
+      - "inference": runs a local model via InferenceStrategy (GPU)
+      - "cluster": delegates to a shared reward model cluster via Ray RequestScheduler (CPU-only)
     """
 
     def __init__(self, worker_config: WorkerConfig):
@@ -35,9 +45,9 @@ def __init__(self, worker_config: WorkerConfig):
         self.tokenizer = None
         self.strategy: Optional[Union[InferenceStrategy, TrainStrategy]] = None
 
-        # LLM judge相关配置
+        # LLM judge config
         self.judge_prompt = self.worker_config.judge_prompt if hasattr(self.worker_config, "judge_prompt") else None
-        self.judge_prompt = prompt_maps[self.judge_prompt]
+        self.judge_prompt = prompt_maps.get(self.judge_prompt, None)
         self.judge_model_type = (
             self.worker_config.judge_model_type if hasattr(self.worker_config, "judge_model_type") else "api"
         )
@@ -47,23 +57,54 @@ def __init__(self, worker_config: WorkerConfig):
         self.judge_api_url = self.worker_config.judge_api_url if hasattr(self.worker_config, "judge_api_url") else None
         self.judge_api_key = self.worker_config.judge_api_key if hasattr(self.worker_config, "judge_api_key") else None
 
+        # Cluster mode state (populated in _initialize_cluster_mode)
+        self.reward_tokenizer = None
+        self.chat_template_func = None
+        self.reward_scheduler = None
+
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
     def initialize(self, pipeline_config):
         super().initialize(pipeline_config)
         self.actor_tokenizer = default_tokenizer_provider(pipeline_config.actor_train.model_args)
         if self.judge_model_type == "api":
-            self.tokenizer = default_tokenizer_provider(model_args=self.worker_config.model_args)
-            print(f"{self.worker_name} initialized with API model")
-
+            self._initialize_api_mode()
         elif self.judge_model_type == "inference":
-            self.strategy = create_strategy(worker=self)
-            self.strategy.initialize(model_provider=default_reward_model_provider)
-            self.tokenizer = self.strategy.tokenizer
-            print(f"{self.worker_name} initialized with inference model")
-            self.strategy.offload_states()
-            current_platform.init()
+            self._initialize_inference_mode()
+        elif self.judge_model_type == "cluster":
+            self._initialize_cluster_mode(pipeline_config)
         else:
-            raise ValueError(f"Unsupported model type: {self.judge_model_type}")
+            raise ValueError(f"Unsupported judge_model_type: {self.judge_model_type}")
+
+    def _initialize_api_mode(self):
+        self.tokenizer = default_tokenizer_provider(model_args=self.worker_config.model_args)
+        print(f"{self.worker_name} initialized with API model")
+
+    def _initialize_inference_mode(self):
+        async_strategy = self.worker_config.strategy_args.strategy_name in ["vllm", "sglang"]
+        if self.worker_config.strategy_args.strategy_name == "sglang":  # not weight sync, need backup weights
+            self.worker_config.strategy_args.strategy_config["enable_weights_cpu_backup"] = True
+        if self.worker_config.strategy_args.strategy_name == "vllm":
+            self.worker_config.strategy_args.strategy_config["sleep_level"] = 1
+        self.strategy = create_strategy(worker=self, sync_wrapper=async_strategy)
+        self.strategy.initialize(model_provider=default_reward_model_provider)
+        self.tokenizer = self.strategy.tokenizer
+        print(f"{self.worker_name} initialized with inference model")
+        self.strategy.offload_states()
+        current_platform.init()
+
+    def _initialize_cluster_mode(self, pipeline_config):
+        if pipeline_config.reward_model is None:
+            raise ValueError(
+                "judge_model_type='cluster' requires pipeline_config.reward_model to be configured"
+            )
+        self.reward_tokenizer = default_tokenizer_provider(pipeline_config.reward_model.model_args)
+        template_name = pipeline_config.reward_model.data_args.template
+        self.chat_template_func = get_chat_template(template_name, self.reward_tokenizer)
+
+        scheduler_name = f"RewardModelScheduler-{pipeline_config.reward_model.name}"
+        reward_scheduler = ray.get_actor(scheduler_name, namespace=RAY_NAMESPACE)
+        self.reward_scheduler = RouterManager.create_client_sync(reward_scheduler)
+        self.logger.info(f"{self.worker_name} initialized, connected to scheduler: {scheduler_name}")
 
     def _call_api_model(self, messages: Dict, retry_times=3) -> str:
         from openai import OpenAI
@@ -130,52 +171,42 @@ def _run_local_inference(self, messages: Dict) -> str:
         self.logger.info(f"judge model inference output: {str(output)}")
         return output.strip()
 
-    def _extract_score(self, response: str) -> float:
-        try:
-            match = re.search("Score: ([0-9.]+)", response)
-            if match:
-                score = float(match.group(1))
-                normalized_score = score / 10
-                return normalized_score
-            else:
-                self.logger.warning(f"Could not extract score from response: {response}")
-                return 0.5
-        except Exception as e:
-            self.logger.error(f"Error extracting score: {e}")
-            return 0.5
-
-    def _extract_score_v2(self, response: str) -> float:
-        response = response.lower()
-        try:
-            if "yes" in response:
-                return 1
-            elif "no" in response:
-                return 0
-            else:
-                self.logger.warning(f"Could not extract score from response: {response}")
-                return 0
-        except Exception as e:
-            self.logger.error(f"Error extracting score: {e}")
-            return 0
+    def _parse_score(self, response: str) -> float:
+        """Parse score from judge response. Supports 'Score: X' format and yes/no."""
+        response_lower = response.lower().strip()
+
+        # Try "Score: X" format first
+        match = re.search(r"Score:\s*([0-9.]+)", response, re.IGNORECASE)
+        if match:
+            score = float(match.group(1))
+            # Normalize to [0, 1] if score > 1
+            if score > 1.0:
+                score = score / 10.0
+            return min(max(score, 0.0), 1.0)
+
+        # Try yes/no format
+        if "yes" in response_lower:
+            return 1.0
+        if "no" in response_lower:
+            return 0.0
+
+        self.logger.warning(f"Could not parse score from judge response: {response[:200]}")
+        return 0.0
 
     def _format_judge_prompt(self, prompt: str, response: str, reference: str = None) -> str:
         if "user\n" in prompt:
             prompt = prompt.split("user\n")[-1].strip()
         if not self.judge_prompt:
-            formatted_prompt = f"""
-            You are an expert judge evaluating the quality of a response to a given prompt.
-            
-            Prompt: {prompt}
-            
-            Response: {response}
-            
-            Reference: {reference}
-            
-            Please evaluate the response on a scale from 0 to 10.
-            Consider factors such as correctness, completeness, clarity, and relevance to the prompt.
-            Your evaluation should be a single number between 0 and 10.
-            Note output your score in the following format: Score: your score.
-            """
+            formatted_prompt = (
+                f"You are an expert judge evaluating the quality of a response to a given prompt.\n\n"
+                f"Prompt: {prompt}\n\n"
+                f"Response: {response}\n\n"
+                f"Reference: {reference}\n\n"
+                f"Please evaluate the response on a scale from 0 to 10.\n"
+                f"Consider factors such as correctness, completeness, clarity, and relevance to the prompt.\n"
+                f"Your evaluation should be a single number between 0 and 10.\n"
+                f"Note output your score in the following format: Score: your score."
+            )
         else:
             formatted_prompt = self.judge_prompt.format(question=prompt, response=response, reference=reference)
         messages = [{"role": "user", "content": formatted_prompt}]
@@ -191,7 +222,7 @@ def _get_llm_judgment(self, prompt_id: str, prompt: str, response: str, referenc
         else:
             raise ValueError(f"Unsupported model type: {self.judge_model_type}")
 
-        score = self._extract_score_v2(llm_response)
+        score = self._parse_score(llm_response)
         info = {
             "prompt_id": prompt_id,
             "score": score,
@@ -203,6 +234,100 @@ def _get_llm_judgment(self, prompt_id: str, prompt: str, response: str, referenc
         }
         return score, info
 
+    def _tokenize_single(self, messages: List[Dict]) -> DataProto:
+        """Tokenize a single judge prompt into a DataProto for RequestScheduler (cluster mode)."""
+        text = self.chat_template_func(messages)
+        tokenized = self.reward_tokenizer(text, return_tensors="pt")
+        input_ids = tokenized["input_ids"]
+        attention_mask = tokenized["attention_mask"]
+        position_ids = torch.arange(input_ids.shape[1]).unsqueeze(0)
+
+        data = DataProto(
+            batch=TensorDict(
+                {
+                    "input_ids": input_ids,
+                    "attention_mask": attention_mask,
+                    "position_ids": position_ids,
+                },
+                batch_size=input_ids.shape[0],
+            )
+        )
+        return data
+
+    def _compute_rewards_cluster(self, data: DataProto, metrics: Dict) -> DataProto:
+        """Compute rewards via the shared reward model cluster (concurrent async requests)."""
+        prompts_text = self.actor_tokenizer.batch_decode(data.batch["prompts"], skip_special_tokens=True)
+        responses_text = self.actor_tokenizer.batch_decode(data.batch["responses"], skip_special_tokens=True)
+
+        ground_truths = data.non_tensor_batch.get("ground_truth", [None] * len(prompts_text))
+        prompt_ids = data.non_tensor_batch.get("id", [str(i) for i in range(len(prompts_text))])
+
+        # Prepare generation config for judge model
+        generation_config = self.worker_config.generating_args.to_dict()
+
+        # Format judge prompts, tokenize, and send concurrent async requests
+        async def generate_all():
+            tasks = []
+            for i, (prompt, response, reference) in enumerate(zip(prompts_text, responses_text, ground_truths)):
+                messages = self._format_judge_prompt(prompt, response, reference)
+                single_data = self._tokenize_single(messages)
+                single_data.meta_info = {
+                    "src_rank": self.rank_info.rank,
+                    "pad_to_seq_len": False,
+                    "generation_config": generation_config,
+                }
+                request_id = f"reward_{self.rank_info.rank}_{uuid.uuid4().hex[:8]}_{i}"
+
+                # Use RouterClient's async method for concurrent processing
+                task = self.reward_scheduler.generate_request(
+                    req=single_data, request_id=request_id, uid=self.rank_info.rank
+                )
+                tasks.append(task)
+
+            # Gather all results concurrently
+            return await asyncio.gather(*tasks)
+
+        # Run async tasks in sync context
+        results = asyncio.run(generate_all())
+
+        # Parse scores from judge responses
+        scores = []
+        for i, result in enumerate(results):
+            if result is None:
+                self.logger.warning(f"Sample {prompt_ids[i]}: judge request returned None, scoring 0.0")
+                scores.append(0.0)
+                continue
+
+            judge_text = self.reward_tokenizer.batch_decode(result.meta_info["output_token_ids"], skip_special_tokens=True)[0]
+            score = self._parse_score(judge_text)
+            scores.append(score)
+
+            self.logger.info(
+                json.dumps(
+                    {
+                        "prompt_id": prompt_ids[i],
+                        "score": score,
+                        "judge_response": judge_text[:500],
+                    },
+                    ensure_ascii=False,
+                )
+            )
+
+        # Return reward DataProto
+        scores_tensor = torch.tensor(scores, dtype=torch.float16)
+        token_level_rewards = torch.zeros_like(data.batch["responses"], dtype=torch.float16)
+
+        output = DataProto.from_dict(
+            tensors={
+                "token_level_rewards": token_level_rewards,
+                "response_level_rewards": scores_tensor,
+                "scores": scores_tensor,
+            }
+        )
+        output.meta_info = {"metrics": metrics}
+        self.logger.info(f"Computed rewards for {len(scores)} samples via reward model cluster")
+        return output
+
     @register(dispatch_mode=Dispatch.DP_MP_COMPUTE, clear_cache=False)
     def compute_rewards(self, data: DataProto):
         global_step = data.meta_info.get("global_step", 0)
@@ -217,6 +342,8 @@ def compute_rewards(self, data: DataProto):
                 is_offload_states=is_offload_states,
             ):
                 return self._compute_rewards_impl(data, metrics)
+        elif self.judge_model_type == "cluster":
+            return self._compute_rewards_cluster(data, metrics)
         else:
             return self._compute_rewards_impl(data, metrics)
 
diff --git a/roll/pipeline/rlvr/rewards/math_rule_reward_worker.py b/roll/pipeline/rlvr/rewards/math_rule_reward_worker.py
index 7a7b8df19..e9b1380fa 100644
--- a/roll/pipeline/rlvr/rewards/math_rule_reward_worker.py
+++ b/roll/pipeline/rlvr/rewards/math_rule_reward_worker.py
@@ -20,10 +20,7 @@
 from roll.distributed.executor.worker import Worker
 from roll.distributed.scheduler.decorator import Dispatch, register
 from roll.distributed.scheduler.protocol import DataProto
-from roll.distributed.strategy.factory import create_strategy
-from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
 from roll.models.model_providers import default_reward_model_provider, default_tokenizer_provider
-from roll.utils.context_managers import state_offload_manger
 
 class timeout:
     def __init__(self, seconds=1, error_message="Timeout"):
@@ -39,7 +36,41 @@ def __enter__(self):
 
     def __exit__(self, type, value, traceback):
         signal.alarm(0)
-        
+
+def check_and_extract_within_boxed(response, boxed_start="\\boxed{", boxed_start_list=["\\boxed\{", "\\boxed{"]):
+    if len(boxed_start_list) > 0:
+        for boxed_start in boxed_start_list:
+            last_boxed_index = response.rfind(boxed_start)
+            if last_boxed_index == -1:
+                continue
+            else:
+                boxed_content_start_index = last_boxed_index + len(boxed_start)
+                break
+        if last_boxed_index == -1:
+            return False, ""
+    else:
+        last_boxed_index = response.rfind(boxed_start)    
+        if last_boxed_index == -1:
+            return False, ""
+        boxed_content_start_index = last_boxed_index + len(boxed_start)
+    cur_index = boxed_content_start_index
+    left_curly_brace_cnt = 0
+    left_double_curly_quote = False
+    while cur_index < len(response):
+        if response[cur_index:].startswith("\""):
+            left_double_curly_quote = not left_double_curly_quote
+        elif left_double_curly_quote == False and response[cur_index:].startswith("{"):
+            left_curly_brace_cnt += 1
+        elif left_double_curly_quote == False and response[cur_index:].startswith("}"):
+            if left_curly_brace_cnt == 0:
+                return True, response[boxed_content_start_index:cur_index]
+            else:
+                left_curly_brace_cnt -= 1
+                if left_curly_brace_cnt < 0:
+                    return False, response[boxed_content_start_index:]
+        cur_index += 1
+    return False, response[boxed_content_start_index:]
+
 def _extract_after_last_end_think(response: str, prompt: str, start_think: str='<think>', end_think: str='</think>') -> str:
     """
     提取字符串中最后一个 "</think>" 标签之后的所有文本。
@@ -123,7 +154,11 @@ def _hf_verify_math_sample(response, answer, result, prompt):
            => 默认值: False (不抛出异常，返回空列表)
            => 建议：保持默认值，确保程序的健壮性，不会因单个样本出错而中断。
         """
-        parsed_answers = parse(cleaned_response, fallback_mode="no_fallback")
+        is_success, extracted_answer = check_and_extract_within_boxed(cleaned_response)
+        if not is_success:
+            parsed_answers = parse(cleaned_response, fallback_mode="no_fallback")
+        else:
+            parsed_answers = parse(f"${extracted_answer}$", fallback_mode="no_fallback")
         
         # 如果解析结果为空，则认为提取失败
         if not parsed_answers:
@@ -215,7 +250,6 @@ def __init__(self, worker_config: WorkerConfig):
         self.rank_info.dp_rank = self.rank_info.rank
         self.rank_info.dp_size = self.rank_info.world_size
         self.tokenizer = default_tokenizer_provider(model_args=self.worker_config.model_args)
-        self.strategy: Optional[Union[InferenceStrategy, TrainStrategy]] = None
         self.repetition_penalty_reward_fn = get_repetition_penalty_reward(ngram_size=3, max_penalty=-0.1)
         self.format_pattern = getattr(self.worker_config, "format_pattern", None)
 
diff --git a/roll/pipeline/rlvr/rewards/multiple_choice_boxed_rule_reward_worker.py b/roll/pipeline/rlvr/rewards/multiple_choice_boxed_rule_reward_worker.py
index 93367ed75..929268191 100644
--- a/roll/pipeline/rlvr/rewards/multiple_choice_boxed_rule_reward_worker.py
+++ b/roll/pipeline/rlvr/rewards/multiple_choice_boxed_rule_reward_worker.py
@@ -12,8 +12,6 @@
 from roll.distributed.executor.worker import Worker
 from roll.distributed.scheduler.decorator import Dispatch, register
 from roll.distributed.scheduler.protocol import DataProto
-from roll.distributed.strategy.factory import create_strategy
-from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
 
 from roll.models.model_providers import default_reward_model_provider, default_tokenizer_provider
 
@@ -88,7 +86,6 @@ def __init__(self, worker_config: WorkerConfig):
         self.rank_info.dp_rank = self.rank_info.rank
         self.rank_info.dp_size = self.rank_info.world_size
         self.tokenizer = default_tokenizer_provider(model_args=self.worker_config.model_args)
-        self.strategy: Optional[Union[InferenceStrategy, TrainStrategy]] = None
 
     @register(dispatch_mode=Dispatch.ONE_TO_ALL)
     def initialize(self, pipeline_config):
@@ -149,7 +146,7 @@ def compute_rewards(self, data: DataProto):
 
         token_level_rewards = torch.zeros_like(data.batch["responses"], dtype=torch.float16)
         scores = torch.tensor(scores, dtype=torch.float16)
-        response_level_rewards = torch.zeros_like(scores, dtype=torch.float16)
+        response_level_rewards = scores
         # 5) 将这些张量打包进同一个字典
         # TODO: 不同的reward worker的output是否需要统一output，或者有没有自适应的办法，避免在新增监控量时每个worker都需要修改
         output_tensors = {
diff --git a/roll/pipeline/rlvr/rlvr_config.py b/roll/pipeline/rlvr/rlvr_config.py
index ba51d62ef..e00f6e4e4 100644
--- a/roll/pipeline/rlvr/rlvr_config.py
+++ b/roll/pipeline/rlvr/rlvr_config.py
@@ -2,7 +2,7 @@
 from dataclasses import dataclass, field
 from typing import Any, Dict, List, Literal, Optional
 
-from roll.configs.base_config import PPOConfig
+from roll.configs.base_config import PPOConfig, RouterArguments
 from roll.configs.worker_config import WorkerConfig
 from roll.utils.logging import get_logger
 
@@ -74,7 +74,8 @@ class RewardConfig(WorkerConfig):
         default_factory=RewardFilterConfig,
         metadata={"help": "Arguments passed to reward response filtering"},
     )
-
+    
+    reward_manager_config: List[Dict[str, Any]] = field(default_factory=list, metadata={"help": "The reward system plugin config."})
 
 
 @dataclass
@@ -92,23 +93,6 @@ class RLVRConfig(PPOConfig):
         metadata={"help": "The number of return sequences in one group, used in generation_args."}
     )
 
-    generate_opt_level: int = field(
-        default=1,
-        metadata={
-            "help": "generate optimizing level: 0 use base batch generate interface, 1 use scheduler process requests"
-        },
-    )
-    is_num_return_sequences_expand: bool = field(
-        default=False,
-        metadata={"help": "whether replicate `num_return_sequences` times in prompts or not."}
-    )
-    is_use_additional_prompts: bool = field(
-        default=False,
-        metadata={"help": "Whether to use additional prompts or not."}
-    )
-    max_additional_running_prompts: int = field(
-        default=16, metadata={"help": "The additional number of running prompts, beyond batch_size."}
-    )
     save_logging_board_dir: str = field(
         default=None, metadata={"help": "saving directory of logging board_metrics"}
     )
@@ -122,6 +106,10 @@ class RLVRConfig(PPOConfig):
         default_factory=dict,
         metadata={"help": "Configuration for the multi domain rewards."}
     )
+    reward_model: Optional[WorkerConfig] = field(
+        default=None,
+        metadata={"help": "Configuration for the shared reward model cluster (InferWorker + vLLM)."}
+    )
 
     # PPO related
     difficulty_loss_weight: bool = field(default=False, metadata={"help": "Use difficulty_loss_weight"})
@@ -149,22 +137,6 @@ class RLVRConfig(PPOConfig):
     importance_sampling: Literal["token", "seq"] = (
         field(default="token", metadata={"help": "policy importance sampling"})
     )
-    use_rollout_importance_sampling_ratio: bool = field(default=False, metadata={"help": "apply train/infer ratio as token-level loss weight"})
-    rollout_importance_sampling_ratio_upper_bound: float = field(default=1.2)
-
-    train_infer_ratio_mask: bool = field(default=False, metadata={"help": "apply train/infer ratio as token-level response mask"})
-    train_infer_ratio_threshold_low: float = field(default=0.8)
-    train_infer_ratio_threshold_high: float = field(default=1.2)
-    train_infer_diff_mask: bool = field(default=False, metadata={"help": "apply train-infer diff as token-level response mask"})
-    train_infer_diff_threshold_low: float = field(default=-0.2)
-    train_infer_diff_threshold_high: float = field(default=0.2)
-
-    train_infer_ratio_seq_mask: bool = field(default=False, metadata={"help": "apply train/infer ratio as sequence-level response mask"})
-    train_infer_ratio_seq_threshold_low: float = field(default=0.8)
-    train_infer_ratio_seq_threshold_high: float = field(default=1.2)
-    train_infer_diff_seq_mask: bool = field(default=False, metadata={"help": "apply train-infer diff as sequence-level response mask"})
-    train_infer_diff_seq_threshold_low: float = field(default=-0.2)
-    train_infer_diff_seq_threshold_high: float = field(default=0.2)
 
     val_greedy: bool = field(default=False, metadata={"help": "Use greedy for validation"})
     val_n_sample: int = field(default=1, metadata={"help": "Number of samples for validation"})
@@ -179,6 +151,11 @@ class RLVRConfig(PPOConfig):
     error_max_len_threshold: int = field(default=9999999999)
 
     def __post_init__(self):
+        # Handle OPD mapping FIRST before any access to actor_train/actor_infer/reference
+        # This ensures student_train/student_infer/teacher are mapped correctly
+        self._handle_opd_mapping()
+
+        # Now safe to access actor_infer (may have been mapped from student_infer)
         self.actor_infer.generating_args.num_return_sequences = self.num_return_sequences_in_group
         super().__post_init__()
 
@@ -186,11 +163,17 @@ def __post_init__(self):
         if self.actor_train.worker_cls is None:
             self.actor_train.worker_cls = "roll.pipeline.rlvr.actor_worker.ActorWorker"
         if self.actor_infer.worker_cls is None:
-            self.actor_infer.worker_cls = "roll.pipeline.rlvr.actor_worker.ActorWorker"
+            self.actor_infer.worker_cls = "roll.pipeline.base_worker.InferWorker"
         if self.reference.worker_cls is None:
             self.reference.worker_cls = "roll.pipeline.rlvr.actor_worker.ActorWorker"
         if self.critic.worker_cls is None:
             self.critic.worker_cls = "roll.pipeline.base_worker.CriticWorker"
+        if self.reward_model is not None and self.reward_model.worker_cls is None:
+            self.reward_model.worker_cls = "roll.pipeline.base_worker.InferWorker"
+
+        if self.router_args is None:
+            self.router_args = RouterArguments(router_name="PromptAffinityRouter", router_config=dict())
+            self.router_args.max_running_requests = self.max_running_requests
 
         logger.info(f"actor_train.worker_cls: {self.actor_train.worker_cls}")
 
@@ -252,7 +235,8 @@ def __post_init__(self):
             else:
                 self.num_nodes = (max_gpu_num + self.num_gpus_per_node - 1) // self.num_gpus_per_node
 
-        self.validate_worker_config()
+        # Apply OPD configuration at the end (handles student_train/student_infer/teacher mapping)
+        self._apply_opd_config()
 
     def to_dict(self):
         return dataclasses.asdict(self)
diff --git a/roll/pipeline/rlvr/rlvr_math_vlm_pipeline.py b/roll/pipeline/rlvr/rlvr_math_vlm_pipeline.py
deleted file mode 100644
index 0bc2fc664..000000000
--- a/roll/pipeline/rlvr/rlvr_math_vlm_pipeline.py
+++ /dev/null
@@ -1,694 +0,0 @@
-import json
-import os
-import uuid
-from typing import Any, Dict, List, Optional
-
-import ray
-import torch
-import datasets
-import PIL.Image as Image
-from transformers import ProcessorMixin, AutoConfig
-from transformers.image_utils import load_images
-from transformers.models.qwen2_vl.image_processing_qwen2_vl import smart_resize
-from datasets import load_dataset, load_from_disk
-from codetiming import Timer
-from ray.util.timer import _Timer
-from torch.utils.data import DataLoader
-from tqdm import tqdm
-import numpy as np
-
-from roll.datasets.collator import DataCollatorWithPaddingForMM
-from roll.distributed.executor.cluster import Cluster
-from roll.distributed.scheduler.generate_scheduler import GenerateScheduler
-from roll.distributed.scheduler.protocol import DataProto
-from roll.models.model_providers import default_processor_provider
-from roll.pipeline.base_pipeline import BasePipeline
-from roll.pipeline.rlvr.rlvr_config import RLVRConfig
-from roll.utils.checkpoint_manager import download_model
-from roll.utils.constants import GENERATE_SCHEDULER_NAME, RAY_NAMESPACE
-from roll.utils.functionals import (
-    apply_kl_penalty,
-    compute_advantage,
-    reduce_metrics,
-    masked_mean,
-    RunningMoments,
-    compute_clip_fraction,
-    group_reward_norm,
-    expand_to_token_level,
-)
-from roll.utils.kl_controller import get_kl_controller
-from roll.utils.logging import get_logger
-
-from .rlvr_vlm_pipeline import format_prompt, process_images, get_extra_data_provider
-
-logger = get_logger()
-
-
-def is_lora_training(pipeline_config: RLVRConfig) -> bool:
-    if pipeline_config.actor_train.model_args.lora_target is None:
-        return False
-    assert pipeline_config.actor_train.strategy_args.strategy_name == "deepspeed_train", (
-        "LoRA only supports deepspeed_train"
-    )
-    return True
-
-
-def encode_function(data_i, processor, prompt_key, answer_key, image_key):
-    image_flag = [True] * len(data_i[prompt_key])
-    image_list = []
-    for idx, image in enumerate(data_i[image_key]):
-        if image is None:
-            image_flag[idx] = False
-        try:
-            image_out = load_images(image if isinstance(image, (list, tuple)) else [image], timeout=None)
-        except Exception as e:
-            image_out = [Image.new("RGB", (224, 224), (255, 255, 255))]
-            logger.error(f"Failed to get image due to {e}")
-        # since infer-image use pil image as input while train-engine use
-        # processed data, process image here to make them use same image
-        image_out = process_images(image_out, processor)
-        image_list.append(image_out)
-    text_list = []
-    for idx, instruct in enumerate(data_i[prompt_key]):
-        # provide prompt_image_token if image_token in prompt
-        text = format_prompt(instruct, processor, use_image=image_flag[idx], prompt_image_token=None)
-        text_list.append(text)
-    encodings = {
-        # for area seperated validation, no need currently
-        "tag": [""] * len(data_i[prompt_key]),
-        "prompt": text_list,
-        # no need to extract currently, answer can be by math_verify.parse
-        "ground_truth": [solution for solution in data_i[answer_key]],
-        "image": image_list,
-        "image_flag": image_flag,
-    }
-    return encodings
-
-
-FILEEXT2TYPE = {
-    "arrow": "arrow",
-    "csv": "csv",
-    "json": "json",
-    "jsonl": "json",
-    "parquet": "parquet",
-    "txt": "text",
-}
-
-
-def get_dataset(data_args, encode_function, processor, features=None, get_eval=False):
-    cache_path = getattr(data_args, "cache_path", None)
-    if cache_path:
-        cache_path = os.path.join(cache_path, "val" if get_eval else "train")
-    if cache_path and os.path.exists(cache_path):
-        dataset = load_from_disk(cache_path)
-        return dataset
-    data_path = None
-    data_name = data_args.file_name
-    data_files = []
-    dataset_dir = getattr(data_args, "dataset_dir", ".")
-    local_path: str = os.path.join(dataset_dir, data_name)
-    if os.path.isdir(local_path):
-        for file_name in os.listdir(local_path):
-            data_files.append(os.path.join(local_path, file_name))
-            if data_path is None:
-                data_path = FILEEXT2TYPE.get(file_name.split(".")[-1], None)
-            elif data_path != FILEEXT2TYPE.get(file_name.split(".")[-1], None):
-                raise ValueError("File types should be identical.")
-    elif os.path.isfile(local_path):  # is file
-        data_files.append(local_path)
-        data_path = FILEEXT2TYPE.get(local_path.split(".")[-1], None)
-    else:
-        raise ValueError("File not found.")
-    dataset = load_dataset(path=data_path, data_files=data_files)["train"]
-    remove_columns = list(dataset.features.keys() - features.keys())
-    # TODO: add fileds into config dataclass, actually these config attrs cannot
-    # be used temporarily and equal to hard-code
-    prompt_key = getattr(data_args, "prompt") if getattr(data_args, "prompt", None) else "problem"
-    answer_key = getattr(data_args, "response") if getattr(data_args, "response", None) else "solution"
-    image_key = getattr(data_args, "image") if getattr(data_args, "image", None) else "image"
-    print(f"Begin : {dataset}")
-    dataset = dataset.map(
-        lambda data: encode_function(data, processor, prompt_key, answer_key, image_key),
-        batched=True,
-        batch_size=100,
-        num_proc=32,
-        features=features,
-        remove_columns=remove_columns,
-        desc="Encoding dataset",
-    )
-    print(f"Encoding: {dataset}")
-    if cache_path:
-        dataset.save_to_disk(cache_path)
-    return dataset
-
-
-def get_dataloader(dataset, batch_size, data_collator):
-    dataloader = DataLoader(
-        dataset=dataset,
-        batch_size=batch_size,
-        shuffle=True,
-        drop_last=True,
-        num_workers=4,  # larger shm for bigger num_workers
-        collate_fn=data_collator,
-    )
-    return dataloader
-
-
-class RLVRMathVLMPipeline(BasePipeline):
-    """This pipeline is deprecated and use `RLVRPipeline` instead"""
-
-    def __init__(self, pipeline_config: RLVRConfig):
-        logger.warning(f"`{self.__class__.__name__}` is deprecated, and use `RLVRPipeline` instead")
-        super().__init__(pipeline_config)
-        self.pipeline_config = pipeline_config
-        self.is_lora = is_lora_training(self.pipeline_config)
-
-        self.processor = default_processor_provider(self.pipeline_config.actor_train.model_args)
-        # set max_pixels to avoid image token num is larger than prompt length
-        self.processor.image_processor.max_pixels, self.processor.image_processor.min_pixels = (
-            getattr(self.pipeline_config.actor_train.model_args, "max_pixels", 768 * 768),
-            getattr(self.pipeline_config.actor_train.model_args, "min_pixels", 56 * 56),
-        )
-        self.tokenizer = self.processor.tokenizer
-        self.tokenizer.padding_side = "left"
-        # regularized data filed
-        features = datasets.Features(
-            {
-                # only support single image temporarily since sglang usage
-                # "image": datasets.Image(decode=True),
-                "image": datasets.Sequence(feature=datasets.Image(decode=True)),
-                "prompt": datasets.Value("string"),
-                "ground_truth": datasets.Value("string"),
-                # for text and multi-modal mixed data usage, indicating valid image
-                "image_flag": datasets.Value("bool"),
-                # for area seperated validation, dummy currently
-                "tag": datasets.Value("string"),
-            }
-        )
-        dataset = get_dataset(
-            self.pipeline_config.actor_train.data_args, encode_function, self.processor, features, get_eval=False
-        )
-        val_dataset = None
-        if self.pipeline_config.validation and self.pipeline_config.validation.data_args:
-            val_dataset = get_dataset(
-                self.pipeline_config.validation.data_args, encode_function, self.processor, features, get_eval=True
-            )
-
-        data_collator = DataCollatorWithPaddingForMM(
-            tokenizer=self.tokenizer,
-            processor=self.processor,
-            extra_data_provider=get_extra_data_provider(
-                self.pipeline_config.actor_train.model_args.model_name_or_path, processor=self.processor
-            ),
-            max_length=self.pipeline_config.prompt_length,
-            padding="max_length",
-        )
-        self.dataloader = get_dataloader(dataset, self.pipeline_config.rollout_batch_size, data_collator)
-        self.val_dataloader = None
-        if val_dataset:
-            self.val_dataloader = get_dataloader(val_dataset, len(val_dataset), data_collator)
-        max_steps = len(self.dataloader) * self.pipeline_config.actor_train.training_args.num_train_epochs
-        self.pipeline_config.set_max_steps(max_steps=max_steps)
-
-        self.actor_train: Any = Cluster(
-            name=self.pipeline_config.actor_train.name,
-            worker_cls=self.pipeline_config.actor_train.worker_cls,
-            resource_manager=self.resource_manager,
-            worker_config=self.pipeline_config.actor_train,
-        )
-        self.actor_infer: Any = Cluster(
-            name=self.pipeline_config.actor_infer.name,
-            worker_cls=self.pipeline_config.actor_infer.worker_cls,
-            resource_manager=self.resource_manager,
-            worker_config=self.pipeline_config.actor_infer,
-        )
-        # use unwrapped model as reference for lora training
-        if not self.is_lora and self.pipeline_config.enable_reference:
-            self.reference: Any = Cluster(
-                name=self.pipeline_config.reference.name,
-                worker_cls=self.pipeline_config.reference.worker_cls,
-                resource_manager=self.resource_manager,
-                worker_config=self.pipeline_config.reference,
-            )
-        self.rewards: Dict[str, Any] = {
-            key: Cluster(
-                name=f"reward-{key}",
-                worker_cls=worker_config.worker_cls,
-                resource_manager=self.resource_manager,
-                worker_config=worker_config,
-            )
-            for key, worker_config in self.pipeline_config.rewards.items()
-        }
-        self.reward: Any = self.rewards[list(self.rewards.keys())[0]]
-        if self.pipeline_config.adv_estimator == "gae":
-            self.critic: Any = Cluster(
-                name=self.pipeline_config.critic.name,
-                worker_cls=self.pipeline_config.critic.worker_cls,
-                resource_manager=self.resource_manager,
-                worker_config=self.pipeline_config.critic,
-            )
-
-        self.generate_scheduler = GenerateScheduler.options(
-            name=f"{GENERATE_SCHEDULER_NAME}_{self.actor_infer.cluster_name}",
-            get_if_exists=True,
-            namespace=RAY_NAMESPACE,
-        ).remote()
-
-        self.kl_ctrl = get_kl_controller(
-            init_kl_coef=self.pipeline_config.init_kl_coef,
-            target_kl=self.pipeline_config.target_kl,
-            kl_horizon=self.pipeline_config.kl_horizon,
-        )
-
-        refs = []
-        refs.extend(self.actor_infer.initialize(pipeline_config=self.pipeline_config, blocking=False))
-        ray.get(refs)
-
-        refs = []
-        if not self.is_lora and self.pipeline_config.enable_reference:
-            refs.extend(self.reference.initialize(pipeline_config=self.pipeline_config, blocking=False))
-        refs.extend(self.reward.initialize(pipeline_config=self.pipeline_config, blocking=False))
-        ray.get(refs)
-
-        refs: List[ray.ObjectRef] = []
-        refs.extend(self.actor_train.initialize(pipeline_config=self.pipeline_config, blocking=False))
-        if self.pipeline_config.adv_estimator == "gae":
-            refs.extend(self.critic.initialize(pipeline_config=self.pipeline_config, blocking=False))
-        ray.get(refs)
-
-        self.set_model_update_pair(
-            src_cluster=self.actor_train,
-            tgt_cluster=self.actor_infer,
-            frequency=self.pipeline_config.actor_train.model_update_frequency,
-        )
-
-        if self.pipeline_config.adv_estimator == "gae":
-            self.set_checkpoint_clusters(self.actor_train, self.critic)
-        else:
-            self.set_checkpoint_clusters(self.actor_train)
-
-        self.running = RunningMoments()
-
-    @torch.no_grad()
-    def run(self):
-        global_step = 0
-
-        # throughput for tokens per second
-        tps_timer = _Timer(window_size=5)
-        actor_infer_timer = _Timer(window_size=5)
-        actor_infer_response_timer = _Timer(window_size=5)
-        actor_train_timer = _Timer(window_size=5)
-
-        for epoch in range(int(self.pipeline_config.actor_train.training_args.num_train_epochs)):
-            logger.info(f"epoch {epoch} start...")
-            for batch_dict in tqdm(self.dataloader):
-                if global_step <= self.state.step:
-                    global_step += 1
-                    continue
-
-                logger.info(f"pipeline step {global_step} start...")
-
-                metrics = {}
-                with tps_timer:
-                    if self.pipeline_config.adv_estimator == "gae":
-                        self.critic.offload_states(blocking=True)
-                    self.actor_train.offload_states(blocking=True)
-                    model_update_metrics: Dict = self.model_update(global_step)
-                    metrics.update(model_update_metrics)
-
-                    if self.val_dataloader and global_step % self.pipeline_config.eval_steps == 0:
-                        metrics.update(self.val())
-
-                    batch_dict: Dict
-                    batch: DataProto = DataProto.from_single_dict(batch_dict)
-                    batch.meta_info = {
-                        "global_step": global_step,
-                        # mark here to make megatron get_data_input broadcast with non_batch_tensor
-                        "_broadcast_non_tensor_batch": True,
-                    }
-
-                    with actor_infer_timer, actor_infer_response_timer:
-                        # donot support hf/deepspeed infer generate which use
-                        # multi_modal_inputs tensors
-                        gen_batch = batch.pop(
-                            batch_keys=["input_ids", "attention_mask", "position_ids"],
-                            non_tensor_batch_keys=(
-                                ["multi_modal_data"] if "multi_modal_data" in batch.non_tensor_batch else []
-                            ),
-                        )
-                        gen_batch.meta_info = {"global_step": global_step}
-                        gen_batch.meta_info["response_callback_fn"] = self.generate_scheduler.report_response.remote
-                        generate_output: DataProto = ray.get(
-                            self.generate_scheduler.generate.remote(
-                                data=gen_batch,
-                                actor_cluster=self.actor_infer,
-                                pipeline_config=self.pipeline_config,
-                            ),
-                            timeout=self.pipeline_config.rpc_timeout,
-                        )
-                        metrics.update(reduce_metrics(generate_output.meta_info.pop("metrics", {})))
-
-                    # generate_output is repeated by num_return_sequences, thus
-                    # reset batch.batch before union to make batch size same,
-                    batch.batch = generate_output.batch
-                    batch = batch.union(generate_output)
-
-                    # repeat num_return_sequences for fields not in gen_batch
-                    # which has been repeated in generate_scheduler
-                    for key, value in batch.non_tensor_batch.items():
-                        batch.non_tensor_batch[key] = np.repeat(
-                            value, self.actor_infer.worker_config.generating_args.num_return_sequences
-                        )
-                    batch.non_tensor_batch['sample_uuid'] = np.array([str(uuid.uuid4()) for _ in range(batch.batch.shape[0])], dtype=object)
-
-                    with Timer(name="cal_ref_log_probs_reward", logger=None) as cal_timer:
-                        if self.pipeline_config.enable_reference:
-                            if self.is_lora:
-                                batch.meta_info["disable_adapter"] = True
-                                batch.meta_info["is_offload_states"] = False
-                                ref_log_probs_refs: List[ray.ObjectRef] = self.actor_train.compute_log_probs(
-                                    batch, blocking=False
-                                )
-                            else:
-                                ref_log_probs_refs: List[ray.ObjectRef] = self.reference.compute_log_probs(
-                                    batch, blocking=False
-                                )
-                            ref_log_probs = DataProto.materialize_concat(data_refs=ref_log_probs_refs)
-                            metrics.update(reduce_metrics(ref_log_probs.meta_info.pop("metrics", {})))
-                            ref_log_probs.rename(old_keys="log_probs", new_keys="ref_log_probs")
-                            batch = batch.union(ref_log_probs)
-                        rewards_refs: List[ray.ObjectRef] = self.reward.compute_rewards(batch, blocking=False)
-                        rewards = DataProto.materialize_concat(data_refs=rewards_refs)
-                        metrics.update(reduce_metrics(rewards.meta_info.pop("metrics", {})))
-                        batch = batch.union(rewards)
-                    metrics["time/ref_log_probs_values_reward"] = cal_timer.last
-
-                    with Timer(name="cal_old_log_probs_values", logger=None) as cal_old_logpb_timer:
-                        if self.is_lora:
-                            batch.meta_info["disable_adapter"] = False
-                        batch.meta_info["is_offload_states"] = False
-                        if self.pipeline_config.adv_estimator == "gae":
-                            values_refs: List[ray.ObjectRef] = self.critic.compute_values(batch, blocking=False)
-
-                        if self.pipeline_config.enable_old_logprobs_recompute:
-                            old_log_probs_refs: List[ray.ObjectRef] = self.actor_train.compute_log_probs(
-                                batch, blocking=False
-                            )
-                            old_log_probs = DataProto.materialize_concat(data_refs=old_log_probs_refs)
-                            batch.batch["old_log_probs"] = old_log_probs.batch["log_probs"]
-                            metrics.update(reduce_metrics(old_log_probs.meta_info.pop("metrics", {})))
-                        else:
-                            # Use zeros when optimization is enabled
-                            batch.batch["old_log_probs"] = torch.zeros_like(batch.batch["attention_mask"][:, 1:])
-
-                        if self.pipeline_config.adv_estimator == "gae":
-                            values = DataProto.materialize_concat(data_refs=values_refs)
-                            batch = batch.union(values)
-                            metrics.update(reduce_metrics(values.meta_info.pop("metrics", {})))
-
-                        # Mock ref_log_probs using old_log_probs if reference is disabled
-                        if not self.pipeline_config.enable_reference:
-                            batch.batch["ref_log_probs"] = batch.batch["old_log_probs"].clone()
-
-                    metrics["time/old_log_probs"] = cal_old_logpb_timer.last
-
-                    with Timer(name="adv", logger=None) as timer:
-                        if self.pipeline_config.use_reward_scaling:
-                            self.running.update(batch.batch["response_level_rewards"])
-                            reward_scaling_factor = (
-                                self.running.std + torch.finfo(batch.batch["response_level_rewards"].dtype).eps
-                            )
-                            if self.pipeline_config.use_reward_norm:
-                                batch.batch["response_level_rewards"] = (
-                                    batch.batch["response_level_rewards"] - self.running.mean
-                                ) / reward_scaling_factor
-                            else:
-                                batch.batch["response_level_rewards"] /= (
-                                    reward_scaling_factor  # do not -= mean since advantage will be normalized again
-                                )
-
-                        if self.pipeline_config.reward_clip:
-                            reward_clip_frac = compute_clip_fraction(
-                                values=batch.batch["response_level_rewards"],
-                                clip_max=self.pipeline_config.reward_clip,
-                                clip_min=-self.pipeline_config.reward_clip,
-                            )
-                            metrics["critic/reward_clip_frac"] = reward_clip_frac
-                            batch.batch["response_level_rewards"] = torch.clamp(
-                                batch.batch["response_level_rewards"],
-                                min=-self.pipeline_config.reward_clip,
-                                max=self.pipeline_config.reward_clip,
-                            )
-
-                        if self.pipeline_config.adv_estimator == "grpo":
-                            batch = group_reward_norm(
-                                batch,
-                                n_sample=self.pipeline_config.actor_infer.generating_args.num_return_sequences,
-                                div_std=True,
-                            )
-
-                        if not self.pipeline_config.use_kl_loss:  # not grpo's kl loss
-                            batch, kl_metrics = apply_kl_penalty(
-                                data=batch, kl_ctrl=self.kl_ctrl, kl_penalty=self.pipeline_config.kl_penalty
-                            )
-                        else:
-                            token_level_rewards = expand_to_token_level(data=batch)
-                            batch.batch["token_level_rewards"] = token_level_rewards
-                            kl_metrics = {}
-
-                        if self.pipeline_config.reward_clip:
-                            reward_clip_frac = compute_clip_fraction(
-                                values=batch.batch["token_level_rewards"],
-                                clip_max=self.pipeline_config.reward_clip,
-                                clip_min=-self.pipeline_config.reward_clip,
-                            )
-                            metrics["critic/token_reward_clip_frac"] = reward_clip_frac
-                            batch.batch["token_level_rewards"] = torch.clamp(
-                                batch.batch["token_level_rewards"],
-                                min=-self.pipeline_config.reward_clip,
-                                max=self.pipeline_config.reward_clip,
-                            )
-
-                        batch = compute_advantage(
-                            data=batch,
-                            gamma=self.pipeline_config.gamma,
-                            lambd=self.pipeline_config.lambd,
-                            adv_estimator=self.pipeline_config.adv_estimator,
-                            advantage_clip=self.pipeline_config.advantage_clip,
-                            whiten_advantages=self.pipeline_config.whiten_advantages,
-                            whiten_rewards=self.pipeline_config.whiten_rewards,
-                        )
-                        metrics.update(reduce_metrics(batch.meta_info.pop("metrics", {})))
-
-                    metrics.update(kl_metrics)
-                    metrics["time/adv"] = timer.last
-
-                    if self.pipeline_config.adv_estimator == "gae":
-                        critic_train_metrics_refs: List[ray.ObjectRef] = self.critic.train_step(batch, blocking=False)
-
-                    with actor_train_timer:
-                        # implement critic warmup
-                        if not hasattr(self, "critic") or self.pipeline_config.critic_warmup <= global_step:
-                            # update actor
-                            actor_train_metrics_refs = self.actor_train.train_step(batch, blocking=False)
-                            actor_train_metrics: DataProto = DataProto.materialize_concat(
-                                data_refs=actor_train_metrics_refs
-                            )
-                            metrics.update(reduce_metrics(actor_train_metrics.meta_info.pop("metrics", {})))
-
-                    if self.pipeline_config.adv_estimator == "gae":
-                        critic_train_metrics = DataProto.materialize_concat(data_refs=critic_train_metrics_refs)
-                        metrics.update(reduce_metrics(critic_train_metrics.meta_info.pop("metrics", {})))
-
-                    tps_timer.push_units_processed(n=torch.sum(batch.batch["attention_mask"]).detach().item())
-                    actor_infer_timer.push_units_processed(n=torch.sum(batch.batch["attention_mask"]).detach().item())
-                    actor_infer_response_timer.push_units_processed(
-                        n=torch.sum(batch.batch["response_mask"]).detach().item()
-                    )
-                    actor_train_timer.push_units_processed(n=torch.sum(batch.batch["attention_mask"]).detach().item())
-
-                data_metrics = compute_data_metrics(batch=batch)
-                metrics.update(data_metrics)
-                metrics["system/tps"] = tps_timer.mean_throughput
-                metrics["system/actor_infer/tps"] = actor_infer_timer.mean_throughput
-                metrics["system/actor_infer/response/tps"] = actor_infer_response_timer.mean_throughput
-                metrics["system/actor_train/tps"] = actor_train_timer.mean_throughput
-                metrics["system/tps_gpu"] = tps_timer.mean_throughput / self.resource_manager.num_gpus
-                metrics["system/actor_infer/tps_gpu"] = actor_infer_timer.mean_throughput / self.actor_infer.world_size
-                metrics["system/actor_infer//response/tps_gpu"] = (
-                    actor_infer_response_timer.mean_throughput / self.actor_infer.world_size
-                )
-                metrics["system/actor_train/tps_gpu"] = actor_train_timer.mean_throughput / self.actor_train.world_size
-                metrics["system/actor_infer/tps_dp"] = actor_infer_timer.mean_throughput / self.actor_infer.dp_size
-                metrics["system/actor_infer/response/tps_dp"] = (
-                    actor_infer_response_timer.mean_throughput / self.actor_infer.dp_size
-                )
-                metrics["system/actor_train/tps_dp"] = actor_train_timer.mean_throughput / self.actor_train.dp_size
-                metrics["system/samples"] = (global_step + 1) * batch.batch.shape[0]
-
-                # do ckpt
-                self.state.step = global_step
-                self.state.log_history.append(metrics)
-
-                self.do_checkpoint(global_step=global_step)
-
-                self.tracker.log(values=metrics, step=global_step)
-
-                if global_step % self.pipeline_config.logging_steps == 0:
-                    if int(os.environ.get("RAY_PROFILING", "0")):
-                        timeline_dir = os.path.join(self.pipeline_config.profiler_output_dir, "timeline")
-                        os.makedirs(timeline_dir, exist_ok=True)
-                        ray.timeline(
-                            filename=os.path.join(timeline_dir, f"timeline-step-{global_step}.json"),
-                        )
-
-                    prompt_ids = generate_output.batch["prompts"]
-                    response_ids = generate_output.batch["responses"]
-
-                    generate_res = []
-                    # skip_special_tokens=True would output without image token, maybe do not skip
-                    prompts = self.tokenizer.batch_decode(prompt_ids, skip_special_tokens=True)
-                    responses = self.tokenizer.batch_decode(response_ids, skip_special_tokens=True)
-                    for prompt, prompt_id, response, response_id in zip(
-                        prompts,
-                        prompt_ids,
-                        responses,
-                        response_ids,
-                    ):
-                        generate_res.append(
-                            {
-                                "prompt": prompt,
-                                # "prompt_id": prompt_id.tolist(),
-                                "response": response,
-                                # "response_id": response_id.tolist(),
-                            }
-                        )
-                    logger.info(json.dumps(generate_res[:10], ensure_ascii=False))
-                    logger.info(json.dumps(metrics, ensure_ascii=False))
-
-                logger.info(f"pipeline step {global_step} finished")
-                global_step += 1
-
-                if global_step >= self.pipeline_config.max_steps:
-                    logger.info(f"pipeline step {global_step} finished, reached max steps: {self.pipeline_config.max_steps}")
-                    return
-
-            logger.info(f"epoch {epoch} finished")
-        logger.info("pipeline complete!")
-
-    @torch.no_grad()
-    def val(self):
-        # throughput for tokens per second
-        tps_timer = _Timer(window_size=5)
-        metrics = {}
-        epoch_batch = []
-        for batch_dict in tqdm(self.val_dataloader):
-            with tps_timer:
-                batch_dict: Dict
-                batch: DataProto = DataProto.from_single_dict(batch_dict)
-                gen_batch = batch.pop(
-                    batch_keys=["input_ids", "attention_mask", "position_ids"],
-                    non_tensor_batch_keys=["multi_modal_data"] if "multi_modal_data" in batch.non_tensor_batch else [],
-                )
-                gen_batch.meta_info["is_offload_states"] = False
-                gen_batch.meta_info["response_callback_fn"] = self.generate_scheduler.report_response.remote
-                generate_output: DataProto = ray.get(
-                    self.generate_scheduler.generate.remote(
-                        data=gen_batch,
-                        actor_cluster=self.actor_infer,
-                        pipeline_config=self.pipeline_config,
-                    ),
-                    timeout=self.pipeline_config.rpc_timeout,
-                )
-                batch.batch = generate_output.batch
-                batch = batch.union(generate_output)
-
-                for key, value in batch.non_tensor_batch.items():
-                    batch.non_tensor_batch[key] = np.repeat(
-                        value, self.actor_infer.worker_config.generating_args.num_return_sequences
-                    )
-
-                with Timer(name="cal_reward", logger=None) as cal_timer:
-                    rewards = ray.get(self.reward.workers[0].compute_rewards.remote(batch))
-                    batch = batch.union(rewards)
-                logger.info(
-                    json.dumps(
-                        {"val_correct/mean": (batch.batch["scores"] == 1).detach().float().mean().item()},
-                        ensure_ascii=False,
-                    )
-                )
-                epoch_batch.append(batch)
-
-        if len(epoch_batch) == 0:
-            logger.info(f"len(self.val_dataloader): {len(self.val_dataloader)}, skip val...")
-            return {}
-
-        epoch_batch = DataProto.concat(epoch_batch)
-        logger.info(f"total eval information: {epoch_batch}")
-        logger.info(f"total eval information --- scores mean: {epoch_batch.batch['scores'].mean().item()} "
-                    f"scores: {epoch_batch.batch['scores'].tolist()}")
-        metrics[ f"val_correct/mean"] =  (epoch_batch.batch["scores"] == 1).detach().float().mean().item()
-        return metrics
-
-
-def compute_data_metrics(batch):
-    sequence_score = batch.batch["scores"]
-    sequence_reward = batch.batch["token_level_rewards"].sum(-1)
-    sequence_reward_mean = batch.batch["token_level_rewards"].mean(-1)
-
-    max_response_length = batch.batch["responses"].shape[-1]
-    advantages = batch.batch["advantages"]
-    prompt_mask = batch.batch["prompt_mask"].bool()
-    response_mask = batch.batch["response_mask"][:, 1:].bool()
-    raw_advantages = batch.batch["raw_advantages"]
-    prompt_length = prompt_mask.sum(-1).float()  # (batch_size,)
-    response_length = response_mask.sum(-1).float()  # (batch_size,)
-    returns = batch.batch["returns"]
-
-    metrics = {
-        # correct
-        "critic/correct/mean": (sequence_score == 1).detach().float().mean().item(),
-        # score
-        "critic/score/mean": torch.mean(sequence_score).detach().item(),
-        "critic/score/max": torch.max(sequence_score).detach().item(),
-        "critic/score/min": torch.min(sequence_score).detach().item(),
-        # reward
-        "critic/rewards/mean": torch.mean(sequence_reward).detach().item(),
-        "critic/rewards/max": torch.max(sequence_reward).detach().item(),
-        "critic/rewards/min": torch.min(sequence_reward).detach().item(),
-        "critic/rewards_mean/mean": torch.mean(sequence_reward_mean).detach().item(),
-        "critic/rewards_mean/max": torch.max(sequence_reward_mean).detach().item(),
-        "critic/rewards_mean/min": torch.min(sequence_reward_mean).detach().item(),
-        # adv
-        "critic/advantages/mean": masked_mean(advantages, response_mask).detach().item(),
-        "critic/advantages/max": torch.max(advantages[response_mask]).detach().item(),
-        "critic/advantages/min": torch.min(advantages[response_mask]).detach().item(),
-        # raw_adv
-        "critic/raw_advantages/mean": masked_mean(raw_advantages, response_mask).detach().item(),
-        "critic/raw_advantages/max": torch.max(raw_advantages[response_mask]).detach().item(),
-        "critic/raw_advantages/min": torch.min(raw_advantages[response_mask]).detach().item(),
-        # returns
-        "critic/returns/mean": masked_mean(returns, response_mask).detach().item(),
-        "critic/returns/max": torch.max(returns[response_mask]).detach().item(),
-        "critic/returns/min": torch.min(returns[response_mask]).detach().item(),
-        # response length
-        "tokens/response_length/mean": torch.mean(response_length).detach().item(),
-        "tokens/response_length/max": torch.max(response_length).detach().item(),
-        "tokens/response_length/min": torch.min(response_length).detach().item(),
-        # prompt length
-        "tokens/prompt_length/mean": torch.mean(prompt_length).detach().item(),
-        "tokens/prompt_length/max": torch.max(prompt_length).detach().item(),
-        "tokens/prompt_length/min": torch.min(prompt_length).detach().item(),
-    }
-
-    if "values" in batch.batch.keys():
-        values = batch.batch["values"]
-        # values
-        metrics.update(
-            {
-                "critic/values/mean": masked_mean(values, response_mask).detach().item(),
-                "critic/values/max": torch.max(values[response_mask]).detach().item(),
-                "critic/values/min": torch.min(values[response_mask]).detach().item(),
-            }
-        )
-    return metrics
diff --git a/roll/pipeline/rlvr/rlvr_pipeline.py b/roll/pipeline/rlvr/rlvr_pipeline.py
index b590077d6..5a133e9ad 100644
--- a/roll/pipeline/rlvr/rlvr_pipeline.py
+++ b/roll/pipeline/rlvr/rlvr_pipeline.py
@@ -1,6 +1,5 @@
 import copy
 import json
-import math
 import os
 import time
 import uuid
@@ -19,14 +18,18 @@
 from roll.configs import GeneratingArguments
 from roll.datasets.chat_template import get_chat_template
 from roll.datasets.collator import DataCollatorWithPaddingForPaddedKeys
+from roll.datasets.dataset import get_dataset
 from roll.distributed.executor.cluster import Cluster
-from roll.distributed.scheduler.async_generate_scheduler import AsyncDynamicSamplingScheduler
+from roll.configs.base_config import RouterArguments
 from roll.distributed.scheduler.generate_scheduler import DynamicSamplingScheduler
+from roll.distributed.scheduler.router import RouterManager
 from roll.distributed.scheduler.protocol import DataProto
 from roll.models.model_providers import default_tokenizer_provider
 from roll.pipeline.base_pipeline import BasePipeline
+from roll.utils.constants import RAY_NAMESPACE
 from roll.pipeline.rlvr.rlvr_config import RLVRConfig
 from roll.pipeline.rlvr.utils import dump_rollout_to_specific_path
+from roll.utils.dynamic_batching import dynamic_batching_shard
 from roll.utils.functionals import (
     RunningMoments,
     agg_loss,
@@ -35,27 +38,25 @@
     get_sample_level_mask,
     reduce_metrics,
     reward_postprocess,
+    batch_balance
 )
+from roll.utils.train_infer_corrections import apply_train_infer_correction_to_batch
 from roll.utils.kl_controller import get_kl_controller
 from roll.utils.logging import get_logger
 from roll.utils.metrics.metrics_manager import MetricsManager
-from roll.utils.dynamic_batching import dynamic_batching_shard
+from roll.utils.offload_states import OffloadStateType
 
 
 logger = get_logger()
 
 
 def is_lora_training(pipeline_config: RLVRConfig) -> bool:
-    if pipeline_config.actor_train.model_args.lora_target is None:
-        return False
-    assert pipeline_config.actor_train.strategy_args.strategy_name == "deepspeed_train", (
-        "LoRA only supports deepspeed_train"
-    )
-    return True
+    return pipeline_config.actor_train.model_args.lora_target is not None
 
 
 def preprocess_dataset(dataset, prompt_len, encode_function, data_args):
-    logger.info(f"Begin : {dataset}")
+    # 处理数据
+    print(f"Begin : {dataset}")
     dataset = dataset.map(
         encode_function,
         batched=True,
@@ -69,12 +70,12 @@ def preprocess_dataset(dataset, prompt_len, encode_function, data_args):
         num_proc=data_args.preprocessing_num_workers,
         desc="Filtering dataset",
     )
-    logger.info(f"Filtering prompt len: {dataset}")
-    logger.info(f"Encoding: {dataset}")
+    print(f"Filtering prompt len: {dataset}")
+    print(f"Encoding: {dataset}")
     return dataset
 
 
-def get_encode_function(template_name, data_args, tokenizer):
+def get_encode_function(template_name, tokenizer, data_args):
     chat_template_func = get_chat_template(template_name, tokenizer)
 
     def encode_function(data_i):
@@ -92,36 +93,13 @@ def encode_function(data_i):
 
     return encode_function
 
+
 def update_dataset_domain(tag_2_domain: Dict[str, set[str]], row):
     if "domain" in row and row["domain"] is not None:
         return row
     row["domain"] = tag_2_domain.get(row["tag"], "math_rule")
     return row
 
-def query_filter_fn(data_list: List[DataProto], config: RLVRConfig) -> bool:
-    """
-    各domain的过滤规则可以自定义
-    """
-    response_level_rewards = [data.batch["response_level_rewards"] for data in data_list]
-    if len(response_level_rewards) == 1:
-        return True
-    rewards = torch.cat(response_level_rewards, dim=0)
-
-    domain = data_list[0].non_tensor_batch["domain"][0]
-    query_filter_config = config.rewards[domain].query_filter_config
-
-    if query_filter_config.type == "no_filter":
-        return True
-    elif query_filter_config.type == "mean_filter":
-        threshold_up = query_filter_config.filter_args.get("threshold_up", math.inf)
-        threshold_down = query_filter_config.filter_args.get("threshold_down", -1)
-        if torch.mean(rewards) <= threshold_down or torch.mean(rewards) >= threshold_up:
-            return False
-    elif query_filter_config.type == "std_filter":
-        std_threshold = query_filter_config.filter_args.get("std_threshold", -1)
-        if torch.std(rewards) <= std_threshold:
-            return False
-    return True
 
 
 class RLVRPipeline(BasePipeline):
@@ -129,10 +107,7 @@ class RLVRPipeline(BasePipeline):
     def __init__(self, pipeline_config: RLVRConfig):
         super().__init__(pipeline_config)
         self.pipeline_config = pipeline_config
-        self.is_lora = is_lora_training(self.pipeline_config)
-        scheduler_cls = (
-            AsyncDynamicSamplingScheduler if self.pipeline_config.async_pipeline else DynamicSamplingScheduler
-        )
+        self.use_ref_model = self.pipeline_config.enable_reference and (not is_lora_training(self.pipeline_config))
         self.tokenizer = default_tokenizer_provider(model_args=self.pipeline_config.actor_train.model_args)
 
         dataset_paths = []
@@ -140,12 +115,11 @@ def __init__(self, pipeline_config: RLVRConfig):
             dataset_paths.extend(self.pipeline_config.actor_train.data_args.file_name)
 
         print(f"load_dataset_paths: {chr(10)} {chr(10).join(dataset_paths)}")
-        dataset = datasets.load_dataset("json", data_files=dataset_paths)["train"]
+        dataset = get_dataset(self.pipeline_config.actor_train.data_args)
 
         self.val_dataset = None
         if self.pipeline_config.validation and self.pipeline_config.validation.data_args:
-            val_dataset_paths = self.pipeline_config.validation.data_args.file_name
-            self.val_dataset = datasets.load_dataset("json", data_files=val_dataset_paths)["train"]
+            self.val_dataset = get_dataset(self.pipeline_config.validation.data_args)
 
         # 加上format，然后转ids的func
         template_name = (
@@ -153,7 +127,7 @@ def __init__(self, pipeline_config: RLVRConfig):
             if self.pipeline_config.global_template
             else self.pipeline_config.actor_train.data_args.template
         )
-        encode_function = get_encode_function(template_name, self.pipeline_config.actor_train.data_args, self.tokenizer)
+        encode_function = get_encode_function(template_name, self.tokenizer, self.pipeline_config.actor_train.data_args)
 
         dataset = preprocess_dataset(
             dataset,
@@ -182,7 +156,7 @@ def __init__(self, pipeline_config: RLVRConfig):
                 self.val_dataset,
                 self.pipeline_config.prompt_length,
                 encode_function,
-                data_args=self.pipeline_config.validation.data_args,
+                data_args=self.pipeline_config.actor_train.data_args,
             )
             self.val_dataset = self.val_dataset.map(
                 partial(update_dataset_domain, self.pipeline_config.tag_2_domain),
@@ -218,7 +192,7 @@ def __init__(self, pipeline_config: RLVRConfig):
         )
         download_clusters = [self.actor_train, self.actor_infer]
         # use unwrapped model as reference for lora training
-        if not self.is_lora and self.pipeline_config.enable_reference:
+        if self.use_ref_model:
             self.reference: Any = Cluster(
                 name=self.pipeline_config.reference.name,
                 worker_cls=self.pipeline_config.reference.worker_cls,
@@ -244,8 +218,45 @@ def __init__(self, pipeline_config: RLVRConfig):
             for key, worker_config in self.pipeline_config.rewards.items()
         }
         download_clusters.extend(self.rewards.values())
+
+        # Create reward model cluster (shared InferWorker + vLLM for LLM-as-judge)
+        self.reward_model_cluster = None
+        self.reward_model_scheduler = None
+        if (
+            self.pipeline_config.reward_model is not None
+            and self.pipeline_config.reward_model.device_mapping
+            and len(self.pipeline_config.reward_model.device_mapping) > 0
+        ):
+            self.reward_model_cluster = Cluster(
+                name=self.pipeline_config.reward_model.name,
+                worker_cls=self.pipeline_config.reward_model.worker_cls,
+                resource_manager=self.resource_manager,
+                worker_config=self.pipeline_config.reward_model,
+            )
+            download_clusters.append(self.reward_model_cluster)
+
         self.download_models(*download_clusters)
 
+        # Create RouterManager for reward model cluster (Ray named actor)
+        if self.reward_model_cluster:
+            self.reward_model_scheduler = ray.remote(RouterManager).options(
+                name=f"RewardModelScheduler-{self.pipeline_config.reward_model.name}",
+                get_if_exists=True,
+                namespace=RAY_NAMESPACE,
+                scheduling_strategy=NodeAffinitySchedulingStrategy(
+                    node_id=ray.get_runtime_context().get_node_id(),
+                    soft=False,
+                ),
+            ).remote(
+                actor_cluster=self.reward_model_cluster,
+                router_args=RouterArguments(router_name="PromptAffinityRouter"),
+                num_gpus_per_node=self.pipeline_config.num_gpus_per_node,
+            )
+            ray.get(self.reward_model_scheduler.initialize.remote())
+            logger.info(
+                f"Created reward model scheduler: RewardModelScheduler-{self.pipeline_config.reward_model.name}"
+            )
+
         domain_ratios = self.pipeline_config.actor_train.data_args.domain_interleave_probs
         self.generate_schedulers: Dict[str, DynamicSamplingScheduler] = {}
         self.domain_batch_size = {}
@@ -257,24 +268,19 @@ def __init__(self, pipeline_config: RLVRConfig):
             else:
                 domain_batch_size = int(domain_ratios[domain] * self.pipeline_config.rollout_batch_size)
             accumulated += domain_batch_size
-            generate_scheduler = scheduler_cls.options(
+            generate_scheduler = ray.remote(DynamicSamplingScheduler).options(
                 scheduling_strategy=NodeAffinitySchedulingStrategy(
                     node_id=ray.get_runtime_context().get_node_id(),
                     soft=False,
                 )
-            ).remote(pipeline_config=self.pipeline_config)
-            ray.get(
-                generate_scheduler.set_scheduler.remote(
-                    actor_cluster=self.actor_infer,
-                    reward_clusters={domain: self.rewards[domain]},
-                    dataset=self.domain_datasets[domain],
-                    collect_fn_cls=DataCollatorWithPaddingForPaddedKeys,
-                    collect_fn_kwargs=dict(max_length=self.pipeline_config.prompt_length, padding="max_length"),
-                    response_filter_fn=lambda data_item, config: True,
-                    query_filter_fn=query_filter_fn,
-                    response_callback_fn=generate_scheduler.report_response.remote,
-                    state=self.state.kv.get(f"scheduler_state_{domain}", None),
-                )
+            ).remote(
+                pipeline_config=self.pipeline_config,
+                actor_cluster=self.actor_infer,
+                reward_clusters={domain: self.rewards[domain]},
+                dataset=self.domain_datasets[domain],
+                collect_fn_cls=DataCollatorWithPaddingForPaddedKeys,
+                collect_fn_kwargs=dict(max_length=self.pipeline_config.prompt_length, padding="max_length"),
+                state=self.state.kv.get(f"scheduler_state_{domain}", None),
             )
             self.generate_schedulers[domain] = generate_scheduler
             self.domain_batch_size[domain] = domain_batch_size
@@ -287,32 +293,28 @@ def __init__(self, pipeline_config: RLVRConfig):
         if self.val_dataset:
             val_pipeline_config = copy.deepcopy(self.pipeline_config)
             val_pipeline_config.is_use_additional_prompts = False
-            self.val_generate_scheduler = scheduler_cls.options(
+            self.val_generate_scheduler = ray.remote(DynamicSamplingScheduler).options(
                 scheduling_strategy=NodeAffinitySchedulingStrategy(
                     node_id=ray.get_runtime_context().get_node_id(),
                     soft=False,
                 )
-            ).remote(pipeline_config=val_pipeline_config)
-        if self.val_dataset:
-            ray.get(
-                self.val_generate_scheduler.set_scheduler.remote(
-                    actor_cluster=self.actor_infer,
-                    reward_clusters=self.rewards,
-                    dataset=self.val_dataset,
-                    collect_fn_cls=DataCollatorWithPaddingForPaddedKeys,
-                    collect_fn_kwargs=dict(max_length=self.pipeline_config.prompt_length, padding="max_length"),
-                    response_filter_fn=lambda data_item, config: True,
-                    query_filter_fn=lambda data_list, config: True,
-                    response_callback_fn=self.val_generate_scheduler.report_response.remote,
-                    is_val=True,
-                )
+            ).remote(
+                pipeline_config=val_pipeline_config,
+                actor_cluster=self.actor_infer,
+                reward_clusters=self.rewards,
+                dataset=self.val_dataset,
+                collect_fn_cls=DataCollatorWithPaddingForPaddedKeys,
+                collect_fn_kwargs=dict(max_length=self.pipeline_config.prompt_length, padding="max_length"),
+                is_val=True,
             )
 
         refs = []
         refs.extend(self.actor_infer.initialize(pipeline_config=self.pipeline_config, blocking=False))
+        if self.reward_model_cluster:
+            refs.extend(self.reward_model_cluster.initialize(pipeline_config=self.pipeline_config, blocking=False))
         ray.get(refs)
 
-        if not self.is_lora and self.pipeline_config.enable_reference:
+        if self.use_ref_model:
             refs.extend(self.reference.initialize(pipeline_config=self.pipeline_config, blocking=True))
 
         refs = []
@@ -326,6 +328,10 @@ def __init__(self, pipeline_config: RLVRConfig):
             refs.extend(self.critic.initialize(pipeline_config=self.pipeline_config, blocking=False))
         ray.get(refs)
 
+        ray.get([scheduler.initialize.remote() for scheduler in self.generate_schedulers.values()])
+        if self.val_dataset:
+            ray.get(self.val_generate_scheduler.initialize.remote())
+
         self.set_model_update_pair(
             src_cluster=self.actor_train,
             tgt_cluster=self.actor_infer,
@@ -433,24 +439,24 @@ def run(self):
         actor_infer_timer = _Timer(window_size=5)
         actor_infer_response_timer = _Timer(window_size=5)
         actor_train_timer = _Timer(window_size=5)
-        
+
         metrics_mgr.timers["tps"] = tps_timer
         metrics_mgr.timers["actor_infer"] = actor_infer_timer
         metrics_mgr.timers["actor_infer_response"] = actor_infer_response_timer
         metrics_mgr.timers["actor_train"] = actor_train_timer
 
         pre_step_total_time = 0
-        if self.pipeline_config.async_pipeline and self.pipeline_config.generate_opt_level == 1:
+        if self.pipeline_config.async_pipeline:
             for reward_cluster in self.rewards.values():
                 reward_cluster.load_states()
+            if self.reward_model_cluster:
+                self.reward_model_cluster.load_states()
 
-        first_step = True
         for global_step in range(self.pipeline_config.max_steps):
             if global_step <= self.state.step:
                 global_step += 1
                 continue
             logger.info(f"pipeline step {global_step} start...")
-            should_eval = self.val_dataset and global_step % self.pipeline_config.eval_steps == 0
 
             metrics_mgr.clear_metrics()
             with tps_timer, Timer(name="step_total", logger=None) as step_total_timer:
@@ -458,7 +464,10 @@ def run(self):
                 logger.info(f"pre_step_total_time: {pre_step_total_time}")
                 metrics_mgr.add_metric("time/step_total", pre_step_total_time)
                 batch: DataProto = DataProto(
-                    meta_info={"global_step": global_step, "collect_unfinished": self.pipeline_config.async_pipeline}
+                    meta_info={
+                        "global_step": global_step,
+                        "collect_unfinished": self.pipeline_config.async_pipeline,
+                        }
                 )
 
                 # 先model update，resume时不需要保存infer cluster的状态
@@ -467,12 +476,9 @@ def run(self):
                 self.actor_train.offload_states(blocking=True)
 
                 with Timer(name="step_stop_server", logger=None) as step_stop_server_timer:
-                    if self.pipeline_config.async_pipeline and not first_step and self.pipeline_config.generate_opt_level == 1:
-                        scheduler_refs = []
-                        for scheduler in self.generate_schedulers.values():
-                            scheduler_refs.append(scheduler.pause_sampling.remote(data=batch))
-                        ray.get(scheduler_refs, timeout=self.pipeline_config.rpc_timeout)
-                        self.actor_infer.stop_server()
+                    if self.pipeline_config.async_pipeline:
+                        ray.get([scheduler.pause_sampling.remote() for scheduler in self.generate_schedulers.values()])
+                        self.actor_infer.offload_states(include=OffloadStateType.other_params)
                 metrics_mgr.add_metric("time/step_stop_server", step_stop_server_timer.last)
 
                 with Timer(name="step_model_update", logger=None) as step_model_update_timer:
@@ -481,9 +487,16 @@ def run(self):
                     batch.meta_info["generation_config"] = self.get_generation_config()
                 metrics_mgr.add_metric("time/step_model_update", step_model_update_timer.last)
 
-                if should_eval and not self.pipeline_config.async_pipeline:
+                self.actor_infer.load_states(blocking=True)
+                if not self.pipeline_config.async_pipeline:
+                    for reward_cluster in self.rewards.values():
+                        reward_cluster.load_states()
+                    if self.reward_model_cluster:
+                        self.reward_model_cluster.load_states()
+
+                if self.val_dataset and global_step % self.pipeline_config.eval_steps == 0:
                     with Timer(name="val_step", logger=None) as val_step_timer:
-                        val_metrics = self.val()
+                        val_metrics = self.val(global_step=global_step)
                     metrics_mgr.add_metrics(val_metrics)
                     metrics_mgr.add_metric("time/val_step", val_step_timer.last)
 
@@ -494,33 +507,10 @@ def run(self):
                     Timer(name="step_generate", logger=None) as step_generate_timer,
                 ):
                     domain_batches = {}
-                    if self.pipeline_config.generate_opt_level == 1:
-                        self.actor_infer.start_server(data=DataProto(meta_info=batch.meta_info))
-                        batch.meta_info["is_offload_states"] = False
-                    if self.pipeline_config.async_pipeline:
-                        if should_eval:
-                            # 为Validation创建独立的DataProto
-                            val_batch = DataProto()
-                            val_batch.meta_info = {
-                                "global_step": global_step,
-                                "generation_config": self.pipeline_config.validation.generating_args.to_dict()
-                            }
-                            self.val_generate_scheduler.start_sampling.remote(data=val_batch, batch_size=len(self.val_dataset))
-
-                        scheduler_refs = []
-                        for domain, scheduler in self.generate_schedulers.items():
-                            scheduler_refs.append(
-                                scheduler.start_sampling.remote(data=batch, batch_size=self.domain_batch_size[domain])
-                            )
-                        ray.get(scheduler_refs, timeout=self.pipeline_config.rpc_timeout)
-                    else:
-                        for reward_cluster in self.rewards.values():
-                            reward_cluster.load_states()
-
                     scheduler_refs = {}
                     for domain, scheduler in self.generate_schedulers.items():
                         scheduler_refs[domain] = scheduler.get_batch.remote(
-                            data=batch, batch_size=self.domain_batch_size[domain]
+                            data=batch, global_step=global_step, batch_size=self.domain_batch_size[domain]
                         )
                     for domain, scheduler_ref in scheduler_refs.items():
                         domain_batch: DataProto = ray.get(scheduler_ref, timeout=self.pipeline_config.rpc_timeout)
@@ -532,37 +522,44 @@ def run(self):
                     dump_rollout_to_specific_path(self.pipeline_config.rollout_dump_dir, global_step, generate_output, self.tokenizer)
                     generate_output.meta_info.pop("is_offload_states", None)
 
-                    if not self.pipeline_config.async_pipeline and self.pipeline_config.generate_opt_level == 1:
+                    if not self.pipeline_config.async_pipeline:
+                        ray.get([scheduler.pause_sampling.remote() for scheduler in self.generate_schedulers.values()])
+                        self.actor_infer.offload_states()
                         for reward_cluster in self.rewards.values():
                             reward_cluster.offload_states()
-                        gen_metrics = self.actor_infer.stop_server()
-                        metrics_mgr.add_domain_metrics(
-                            domain, reduce_metrics(gen_metrics.meta_info.pop("metrics", {}))
-                        )
+                        if self.reward_model_cluster:
+                            self.reward_model_cluster.offload_states()
                 metrics_mgr.add_metric("time/step_generate", step_generate_timer.last)
 
                 batch = generate_output
                 batch.meta_info["global_step"] = global_step
                 batch.meta_info["_broadcast_non_tensor_batch"] = True
+                batch.meta_info["loss_mask_keys"] = ['response_mask', 'final_response_mask']
                 batch.non_tensor_batch['sample_uuid'] = np.array([str(uuid.uuid4()) for _ in range(batch.batch.shape[0])], dtype=object)
-
+                batch.batch["prompt_id"] = torch.arange(batch.batch.batch_size[0], device=batch.batch.device)
 
                 with Timer(name="cal_ref_log_probs", logger=None) as cal_ref_log_probs_timer:
                     if self.pipeline_config.enable_reference:
-                        if self.is_lora:
+                        worker_config = self.pipeline_config.reference if self.use_ref_model else self.pipeline_config.actor_train
+                        worker = self.reference if self.use_ref_model else self.actor_train
+                        if worker_config.use_dynamic_batching_in_infer:
+                            batch, dynamic_batching_metrics = dynamic_batching_shard(
+                                batch,
+                                worker.dp_size,
+                                worker_config.max_tokens_per_microbatch_in_infer,
+                                worker_config.sequence_length_round_in_infer,
+                                worker_config.strategy_args.strategy_config.get("pipeline_model_parallel_size", 1),
+                                worker_config.strategy_args.strategy_config.get("virtual_pipeline_model_parallel_size", None),
+                                "reference/compute_log_probs",
+                            ) 
+                            metrics_mgr.add_metrics(dynamic_batching_metrics)
+                        if not self.use_ref_model:
                             batch.meta_info["disable_adapter"] = True
                             batch.meta_info["is_offload_states"] = False
+                            batch_balance(batch, dp_size=self.actor_train.dp_size, minibatch_size=len(batch))
                             ref_log_probs = self.actor_train.compute_log_probs(batch, blocking=True)
                         else:
-                            if self.pipeline_config.reference.use_dynamic_batching_in_infer:
-                                batch, dynamic_batching_metrics = dynamic_batching_shard(
-                                    batch,
-                                    self.reference.dp_size,
-                                    self.pipeline_config.reference.max_tokens_per_microbatch_in_infer,
-                                    self.pipeline_config.reference.sequence_length_round_in_infer,
-                                    "reference/compute_log_probs",
-                                )
-                                metrics_mgr.add_metrics(dynamic_batching_metrics)
+                            batch_balance(batch, dp_size=self.reference.dp_size, minibatch_size=len(batch))
                             ref_log_probs = self.reference.compute_log_probs(batch, blocking=True)
                         metrics_mgr.add_reduced_metrics(ref_log_probs.meta_info.pop("metrics", {}))
                         ref_log_probs.rename(old_keys="log_probs", new_keys="ref_log_probs")
@@ -570,19 +567,22 @@ def run(self):
                 metrics_mgr.add_metric("time/ref_log_probs_values", cal_ref_log_probs_timer.last)
 
                 with Timer(name="cal_old_log_probs_values", logger=None) as cal_old_logpb_timer:
-                    if self.is_lora:
+                    if self.pipeline_config.enable_reference and not self.use_ref_model:
                         batch.meta_info["disable_adapter"] = False
                     batch.meta_info["is_offload_states"] = False
                     if self.pipeline_config.adv_estimator == "gae":
                         values_refs: List[ray.ObjectRef] = self.critic.compute_values(batch, blocking=False)
 
                     if self.pipeline_config.enable_old_logprobs_recompute:
+                        batch_balance(batch, dp_size=self.actor_train.dp_size, minibatch_size=len(batch))
                         if self.pipeline_config.actor_train.use_dynamic_batching_in_infer:
                             batch, dynamic_batching_metrics = dynamic_batching_shard(
                                 batch,
                                 self.actor_train.dp_size,
                                 self.pipeline_config.actor_train.max_tokens_per_microbatch_in_infer,
                                 self.pipeline_config.actor_train.sequence_length_round_in_infer,
+                                self.pipeline_config.actor_train.strategy_args.strategy_config.get("pipeline_model_parallel_size", 1),
+                                self.pipeline_config.actor_train.strategy_args.strategy_config.get("virtual_pipeline_model_parallel_size", None),
                                 "actor_train/compute_log_probs",
                             )
                             metrics_mgr.add_metrics(dynamic_batching_metrics)
@@ -622,7 +622,7 @@ def run(self):
                 metrics_mgr.add_metric("time/old_log_probs", cal_old_logpb_timer.last)
 
                 # 要按domain group by处理reward
-                batch.batch["prompt_id"] = torch.arange(batch.batch.batch_size[0], device=batch.batch.device)
+                batch.reorder(indices=torch.argsort(batch.batch["prompt_id"]))
                 batch_grouped: Dict[str, DataProto] = batch.group_by("domain")
                 batch_list = []
                 for domain, domain_batch in batch_grouped.items():
@@ -660,6 +660,7 @@ def run(self):
                             whiten_advantages=self.pipeline_config.whiten_advantages,
                             whiten_rewards=self.pipeline_config.whiten_rewards,
                             response_mask=final_response_mask,
+                            pipeline_config=self.pipeline_config,
                         )
                         domain_metrics = reduce_metrics(domain_batch.meta_info.pop("metrics", {}))
                         metrics_mgr.add_domain_metrics(domain, domain_metrics)
@@ -698,6 +699,12 @@ def run(self):
                 batch_grouped: Dict[str, DataProto] = batch.group_by("domain")
                 metrics_mgr.add_domain_all_metrics(global_step, batch_grouped)
 
+                if self.pipeline_config.enable_old_logprobs_recompute:
+                    batch, corr_metrics = apply_train_infer_correction_to_batch(self.pipeline_config, batch,
+                                                                                update_mask_keys=batch.meta_info[
+                                                                                    'loss_mask_keys'])
+                    metrics_mgr.add_metrics(corr_metrics)
+
                 with Timer(name="step_train", logger=None) as step_train_timer:
                     if self.pipeline_config.adv_estimator == "gae":
                         critic_train_metrics_refs: List[ray.ObjectRef] = self.critic.train_step(batch, blocking=False)
@@ -705,6 +712,12 @@ def run(self):
                     with actor_train_timer:
                         # implement critic warmup
                         if self.pipeline_config.critic_warmup <= global_step:
+                            # Reorder data for DP rank load balancing
+                            batch_balance_metrics = batch_balance(batch, dp_size=self.actor_train.dp_size,
+                                minibatch_size=self.pipeline_config.actor_train.training_args.per_device_train_batch_size
+                                * self.pipeline_config.actor_train.training_args.gradient_accumulation_steps
+                                * self.actor_train.dp_size, logging_prefix="global_seqlen/actor_train")
+                            metrics_mgr.add_metrics(batch_balance_metrics)
                             # update actor
                             if self.pipeline_config.actor_train.use_dynamic_batching_in_train:
                                 batch, dynamic_batching_metrics = dynamic_batching_shard(
@@ -712,6 +725,8 @@ def run(self):
                                     self.actor_train.dp_size,
                                     self.pipeline_config.actor_train.max_tokens_per_microbatch_in_train,
                                     self.pipeline_config.actor_train.sequence_length_round_in_train,
+                                    self.pipeline_config.actor_train.strategy_args.strategy_config.get("pipeline_model_parallel_size", 1),
+                                    self.pipeline_config.actor_train.strategy_args.strategy_config.get("virtual_pipeline_model_parallel_size", None),
                                     "actor_train/train_step",
                                 )
                                 metrics_mgr.add_metrics(dynamic_batching_metrics)
@@ -737,16 +752,6 @@ def run(self):
                 for domain, scheduler in self.generate_schedulers.items():
                     self.state.kv[f"scheduler_state_{domain}"] = ray.get(scheduler.get_scheduler_state.remote())
 
-                if (
-                    self.pipeline_config.async_pipeline
-                    and self.val_dataset
-                    and global_step % self.pipeline_config.eval_steps == 0
-                ):
-                    with Timer(name="val_step", logger=None) as val_step_timer:
-                        val_metrics = self.val()
-                        metrics_mgr.add_metrics(val_metrics)
-                    metrics_mgr.add_metric("time/val_step", val_step_timer.last)
-
                 metrics = metrics_mgr.get_metrics()
                 # do ckpt
                 self.state.step = global_step
@@ -774,32 +779,31 @@ def run(self):
 
                 logger.info(f"pipeline step {global_step} finished")
                 global_step += 1
-                first_step = False
             pre_step_total_time = step_total_timer.last
-        
+
+        ray.get([scheduler.shutdown.remote() for scheduler in self.generate_schedulers.values()])
+        if self.val_dataset:
+            ray.get(self.val_generate_scheduler.shutdown.remote())
 
         logger.info("pipeline complete!")
 
     @torch.no_grad()
-    def val(self):
+    def val(self, global_step):
         val_metrics_mgr = MetricsManager()
         batch = DataProto()
 
         with Timer(name="step_generate", logger=None) as step_generate_timer:
-            batch.meta_info["is_offload_states"] = False
-            batch.meta_info["generation_config"] = self.pipeline_config.validation.generating_args.to_dict()
-            if not self.pipeline_config.async_pipeline:
-                self.actor_infer.start_server(data=DataProto(meta_info=batch.meta_info))
-                for reward_cluster in self.rewards.values():
-                    reward_cluster.load_states()
+            batch.meta_info = {
+                "is_offload_states": False,
+                "generation_config": self.pipeline_config.validation.generating_args.to_dict(),
+                "global_step": global_step,
+            }
+
             generate_output: DataProto = ray.get(
-                self.val_generate_scheduler.get_batch.remote(data=batch, batch_size=len(self.val_dataset)),
+                self.val_generate_scheduler.get_batch.remote(data=batch, global_step=global_step, batch_size=len(self.val_dataset)),
                 timeout=self.pipeline_config.rpc_timeout,
             )
-            if not self.pipeline_config.async_pipeline and self.pipeline_config.generate_opt_level == 1:
-                self.actor_infer.stop_server()
-                for reward_cluster in self.rewards.values():
-                    reward_cluster.offload_states()
+
             generate_output.meta_info.pop("is_offload_states", None)
             val_metrics_mgr.add_metric("time/step_generate", step_generate_timer.last)
 
diff --git a/roll/pipeline/rlvr/rlvr_rollout_pipeline.py b/roll/pipeline/rlvr/rlvr_rollout_pipeline.py
index 64a28c491..e55b14d24 100644
--- a/roll/pipeline/rlvr/rlvr_rollout_pipeline.py
+++ b/roll/pipeline/rlvr/rlvr_rollout_pipeline.py
@@ -40,7 +40,6 @@ def __init__(self, pipeline_config: RLVRConfig):
                 "rollout pipeline should strategy sleep_level 1, set sleep_level: 1."
             )
 
-        scheduler_cls = DynamicSamplingScheduler
         self.tokenizer = default_tokenizer_provider(model_args=self.pipeline_config.actor_infer.model_args)
 
         self.val_dataset = None
@@ -54,7 +53,7 @@ def __init__(self, pipeline_config: RLVRConfig):
             if self.pipeline_config.global_template
             else self.pipeline_config.actor_train.data_args.template
         )
-        encode_function = get_encode_function(template_name, self.pipeline_config.actor_train.data_args, self.tokenizer)
+        encode_function = get_encode_function(template_name, self.tokenizer, self.pipeline_config.actor_train.data_args)
         self.val_dataset = preprocess_dataset(
             self.val_dataset,
             self.pipeline_config.prompt_length,
@@ -92,24 +91,19 @@ def __init__(self, pipeline_config: RLVRConfig):
 
         val_pipeline_config = copy.deepcopy(self.pipeline_config)
         val_pipeline_config.is_use_additional_prompts = False
-        self.val_generate_scheduler = scheduler_cls.options(
+        self.val_generate_scheduler = ray.remote(DynamicSamplingScheduler).options(
             scheduling_strategy=NodeAffinitySchedulingStrategy(
                 node_id=ray.get_runtime_context().get_node_id(),
                 soft=False,
             )
-        ).remote(pipeline_config=val_pipeline_config)
-        ray.get(
-            self.val_generate_scheduler.set_scheduler.remote(
-                actor_cluster=self.actor_infer,
-                reward_clusters=self.rewards,
-                dataset=self.val_dataset,
-                collect_fn_cls=DataCollatorWithPaddingForPaddedKeys,
-                collect_fn_kwargs=dict(max_length=self.pipeline_config.prompt_length, padding="max_length"),
-                response_filter_fn=lambda data_item, config: True,
-                query_filter_fn=lambda data_list, config: True,
-                response_callback_fn=self.val_generate_scheduler.report_response.remote,
-                is_val=True,
-            )
+        ).remote(
+            pipeline_config=val_pipeline_config,
+            actor_cluster=self.actor_infer,
+            reward_clusters=self.rewards,
+            dataset=self.val_dataset,
+            collect_fn_cls=DataCollatorWithPaddingForPaddedKeys,
+            collect_fn_kwargs=dict(max_length=self.pipeline_config.prompt_length, padding="max_length"),
+            is_val=True,
         )
 
         refs = []
@@ -121,6 +115,8 @@ def __init__(self, pipeline_config: RLVRConfig):
             refs.extend(cluster.initialize(pipeline_config=self.pipeline_config, blocking=False))
         ray.get(refs)
 
+        ray.get(self.val_generate_scheduler.initialize.remote())
+
     @torch.no_grad()
     def run(self):
         global_step = 0
@@ -131,14 +127,13 @@ def run(self):
         with Timer(name="step_generate", logger=None) as step_generate_timer:
             batch.meta_info["is_offload_states"] = False
             batch.meta_info["generation_config"] = self.pipeline_config.validation.generating_args.to_dict()
-            self.actor_infer.start_server(data=DataProto(meta_info=batch.meta_info))
+            self.actor_infer.load_states()
             for reward_cluster in self.rewards.values():
                 reward_cluster.load_states()
             generate_output: DataProto = ray.get(
-                self.val_generate_scheduler.get_batch.remote(data=batch, batch_size=len(self.val_dataset)),
+                self.val_generate_scheduler.get_batch.remote(data=batch, global_step=global_step, batch_size=len(self.val_dataset)),
                 timeout=self.pipeline_config.rpc_timeout,
             )
-            self.actor_infer.stop_server()
             for reward_cluster in self.rewards.values():
                 reward_cluster.offload_states()
             generate_output.meta_info.pop("is_offload_states", None)
@@ -169,4 +164,6 @@ def run(self):
 
         logger.info(f"pipeline step {global_step} finished")
 
+        ray.get(self.val_generate_scheduler.shutdown.remote())
+
         logger.info("pipeline complete!")
diff --git a/roll/pipeline/rlvr/rlvr_vlm_pipeline.py b/roll/pipeline/rlvr/rlvr_vlm_pipeline.py
index e0e0407ab..dc7af456c 100644
--- a/roll/pipeline/rlvr/rlvr_vlm_pipeline.py
+++ b/roll/pipeline/rlvr/rlvr_vlm_pipeline.py
@@ -12,22 +12,24 @@
 import ray
 import torch
 from codetiming import Timer
-from datasets import load_dataset, load_from_disk
+from datasets import load_from_disk
 from ray.util.scheduling_strategies import NodeAffinitySchedulingStrategy
 from ray.util.timer import _Timer
 from transformers import AutoConfig, ProcessorMixin
 from transformers.image_utils import load_images
 from transformers.models.qwen2_vl.image_processing_qwen2_vl import smart_resize
 
+from roll.configs import GeneratingArguments
 from roll.datasets.collator import DataCollatorWithPaddingForMM
 from roll.datasets.dataset import get_dataset
 from roll.distributed.executor.cluster import Cluster
 from roll.distributed.scheduler.generate_scheduler import DynamicSamplingScheduler
 from roll.distributed.scheduler.protocol import DataProto
-from roll.models.model_providers import default_processor_provider
+from roll.models.model_providers import default_processor_provider, get_extra_data_provider
 from roll.pipeline.base_pipeline import BasePipeline
 from roll.pipeline.rlvr.rlvr_config import RLVRConfig
-from roll.pipeline.rlvr.rlvr_pipeline import query_filter_fn, update_dataset_domain
+from roll.pipeline.rlvr.rlvr_pipeline import update_dataset_domain
+from roll.pipeline.rlvr.utils import dump_rollout_to_specific_path
 from roll.utils.checkpoint_manager import download_model
 from roll.utils.functionals import (
     RunningMoments,
@@ -41,7 +43,8 @@
 from roll.utils.kl_controller import get_kl_controller
 from roll.utils.logging import get_logger
 from roll.utils.metrics.metrics_manager import MetricsManager
-from roll.utils.packages import is_transformers_version_greater_than
+from roll.utils.offload_states import OffloadStateType
+from roll.utils.train_infer_corrections import apply_train_infer_correction_to_batch
 
 
 logger = get_logger()
@@ -118,10 +121,10 @@ def encode_function(
     image_flag = [True] * len(prompt_getter(data))
     image_list = []
     for idx, image in enumerate(image_getter(data)):
-        if image is None:
+        if not image:
             image_flag[idx] = False
         try:
-            if isinstance(image, bytes): # bytes data
+            if isinstance(image, bytes):  # bytes data
                 # TODO: support multiple images
                 image_out = Image.open(BytesIO(image))
             else:
@@ -153,6 +156,8 @@ def encode_function(
         "prompt": text_list,
         "ground_truth": ground_truth_getter(data),
         "reward_model": data["reward_model"],
+        # for text and multi-modal mixed data usage, indicating valid image
+        "image_flag": image_flag,
     }
     return encodings
 
@@ -174,6 +179,8 @@ def get_vlm_dataset(data_args, encode_function, processor, get_eval=False):
             "prompt": datasets.Value(dtype="string"),
             "ground_truth": datasets.Value(dtype="string"),
             "reward_model": dataset.features["reward_model"],
+            # for text and multi-modal mixed data usage, indicating valid image
+            "image_flag": datasets.Value("bool"),
         }
     )
     remove_columns = list(dataset.features.keys() - features.keys())
@@ -200,63 +207,6 @@ def get_vlm_dataset(data_args, encode_function, processor, get_eval=False):
     return dataset
 
 
-def get_extra_data_provider(model_name_or_path: str, processor=None):
-    model_name_or_path = download_model(model_name_or_path)
-    config = AutoConfig.from_pretrained(model_name_or_path, trust_remote_code=True)
-    if "qwen2" in config.model_type:
-        import types
-
-        from transformers import BatchFeature  # help define a object to accesss attr
-
-        dummy_self = BatchFeature(
-            {
-                "config": BatchFeature(
-                    {
-                        "vision_config": BatchFeature({"spatial_merge_size": processor.image_processor.merge_size}),
-                        "image_token_id": processor.tokenizer.convert_tokens_to_ids("<|image_pad|>"),
-                        "video_token_id": processor.tokenizer.convert_tokens_to_ids("<|video_pad|>"),
-                        "vision_start_token_id": processor.tokenizer.convert_tokens_to_ids("<|vision_start|>"),
-                    }
-                )
-            }
-        )
-        if is_transformers_version_greater_than("4.52.0"):
-            from transformers.models.qwen2_vl import Qwen2VLModel
-
-            get_rope_index = types.MethodType(Qwen2VLModel.get_rope_index, dummy_self)
-        else:
-            from transformers.models.qwen2_vl import Qwen2VLForConditionalGeneration
-
-            get_rope_index = types.MethodType(Qwen2VLForConditionalGeneration.get_rope_index, dummy_self)
-
-        def extra_data_provider(
-            input_ids: torch.LongTensor,
-            image_grid_thw: Optional[torch.LongTensor] = None,
-            video_grid_thw: Optional[torch.LongTensor] = None,
-            attention_mask: Optional[torch.Tensor] = None,
-        ):
-            rope_index = get_rope_index(input_ids, image_grid_thw, video_grid_thw, attention_mask)[0]
-            # (3, bsz, seqlen) -> (bsz, 3, seqlen) to put it into DataProto,
-            # transpose it batck to (3, bsz, seqlen) before forward for model
-            rope_index = rope_index.transpose(0, 1)
-            return {"position_ids": rope_index}
-
-        return extra_data_provider
-
-    def default_extra_data_provider(
-        input_ids: torch.LongTensor,
-        attention_mask: Optional[torch.Tensor] = None,
-    ):
-        bsz, seqlen = input_ids.shape
-        position_ids = torch.arange(seqlen, dtype=torch.long, device=input_ids.device)
-        position_ids = position_ids.unsqueeze(0).expand(bsz, -1)
-        if attention_mask is not None:
-            position_ids = position_ids.masked_fill(attention_mask == 0, 0)
-        return {"position_ids": position_ids}
-
-    return default_extra_data_provider
-
-
 class RLVRVLMPipeline(BasePipeline):
     def __init__(self, pipeline_config: RLVRConfig):
         super().__init__(pipeline_config)
@@ -366,37 +316,31 @@ def __init__(self, pipeline_config: RLVRConfig):
             else:
                 domain_batch_size = int(domain_ratios[domain] * self.pipeline_config.rollout_batch_size)
             accumulated += domain_batch_size
-            generate_scheduler = DynamicSamplingScheduler.options(
+            generate_scheduler = ray.remote(DynamicSamplingScheduler).options(
                 scheduling_strategy=NodeAffinitySchedulingStrategy(
                     node_id=ray.get_runtime_context().get_node_id(), soft=False
                 )
-            ).remote(pipeline_config=self.pipeline_config)
-            ray.get(
-                generate_scheduler.set_scheduler.remote(
-                    actor_cluster=self.actor_infer,
-                    reward_clusters={domain: self.rewards[domain]},
-                    dataset=self.domain_datasets[domain],
-                    collect_fn_cls=DataCollatorWithPaddingForMM,
-                    collect_fn_kwargs=dict(
-                        # tokenizer passed by DynamicSamplingScheduler.set_scheduler
-                        # tokenizer=self.tokenizer,
-                        extra_unpadded_keys=["domain", "reward_model"],
-                        extra_data_provider=get_extra_data_provider(
-                            self.pipeline_config.actor_train.model_args.model_name_or_path, processor=self.processor
-                        ),
-                        prompt_key="prompt",
-                        answer_key="ground_truth",
-                        image_key="images",
-                        image_flag_key=None,
-                        max_length=self.pipeline_config.prompt_length,
-                        padding="max_length",
+            ).remote(
+                pipeline_config=self.pipeline_config,
+                actor_cluster=self.actor_infer,
+                reward_clusters={domain: self.rewards[domain]},
+                dataset=self.domain_datasets[domain],
+                collect_fn_cls=DataCollatorWithPaddingForMM,
+                collect_fn_kwargs=dict(
+                    # tokenizer passed by DynamicSamplingScheduler.set_scheduler
+                    # tokenizer=self.tokenizer,
+                    extra_unpadded_keys=["domain", "reward_model"],
+                    extra_data_provider=get_extra_data_provider(
+                        self.pipeline_config.actor_train.model_args.model_name_or_path, processor=self.processor
                     ),
-                    response_filter_fn=lambda data_item, config: True,
-                    query_filter_fn=query_filter_fn,
-                    response_callback_fn=generate_scheduler.report_response.remote,
-                    state=self.state.kv.get(f"scheduler_state_{domain}", None),
-                    is_vlm=True,
-                )
+                    prompt_key="prompt",
+                    answer_key="ground_truth",
+                    image_key="images",
+                    image_flag_key="image_flag",
+                    max_length=self.pipeline_config.prompt_length,
+                    padding="max_length",
+                ),
+                state=self.state.kv.get(f"scheduler_state_{domain}", None),
             )
             self.generate_schedulers[domain] = generate_scheduler
             self.domain_batch_size[domain] = domain_batch_size
@@ -409,38 +353,32 @@ def __init__(self, pipeline_config: RLVRConfig):
         if self.val_dataset:
             val_pipeline_config = copy.deepcopy(self.pipeline_config)
             val_pipeline_config.is_use_additional_prompts = False
-            self.val_generate_scheduler = DynamicSamplingScheduler.options(
+            self.val_generate_scheduler = ray.remote(DynamicSamplingScheduler).options(
                 scheduling_strategy=NodeAffinitySchedulingStrategy(
                     node_id=ray.get_runtime_context().get_node_id(), soft=False
                 )
-            ).remote(pipeline_config=val_pipeline_config)
-        if self.val_dataset:
-            ray.get(
-                self.val_generate_scheduler.set_scheduler.remote(
-                    actor_cluster=self.actor_infer,
-                    reward_clusters=self.rewards,
-                    dataset=self.val_dataset,
-                    collect_fn_cls=DataCollatorWithPaddingForMM,
-                    collect_fn_kwargs=dict(
-                        # tokenizer passed by DynamicSamplingScheduler.set_scheduler
-                        # tokenizer=self.tokenizer,
-                        # val metrics are grouped by tag rather than domain
-                        extra_unpadded_keys=["domain", "reward_model", "tag"],
-                        extra_data_provider=get_extra_data_provider(
-                            self.pipeline_config.actor_train.model_args.model_name_or_path, processor=self.processor
-                        ),
-                        prompt_key="prompt",
-                        answer_key="ground_truth",
-                        image_key="images",
-                        image_flag_key=None,
-                        max_length=self.pipeline_config.prompt_length,
-                        padding="max_length",
+            ).remote(
+                pipeline_config=val_pipeline_config,
+                actor_cluster=self.actor_infer,
+                reward_clusters=self.rewards,
+                dataset=self.val_dataset,
+                collect_fn_cls=DataCollatorWithPaddingForMM,
+                collect_fn_kwargs=dict(
+                    # tokenizer passed by DynamicSamplingScheduler.set_scheduler
+                    # tokenizer=self.tokenizer,
+                    # val metrics are grouped by tag rather than domain
+                    extra_unpadded_keys=["domain", "reward_model", "tag"],
+                    extra_data_provider=get_extra_data_provider(
+                        self.pipeline_config.actor_train.model_args.model_name_or_path, processor=self.processor
                     ),
-                    response_filter_fn=lambda data_item, config: True,
-                    query_filter_fn=lambda data_list, config: True,
-                    response_callback_fn=self.val_generate_scheduler.report_response.remote,
-                    is_vlm=True,
-                )
+                    prompt_key="prompt",
+                    answer_key="ground_truth",
+                    image_key="images",
+                    image_flag_key="image_flag",
+                    max_length=self.pipeline_config.prompt_length,
+                    padding="max_length",
+                ),
+                is_val=True,
             )
 
         refs = []
@@ -460,6 +398,10 @@ def __init__(self, pipeline_config: RLVRConfig):
             refs.extend(self.critic.initialize(pipeline_config=self.pipeline_config, blocking=False))
         ray.get(refs)
 
+        ray.get([scheduler.initialize.remote() for scheduler in self.generate_schedulers.values()])
+        if self.val_dataset:
+            ray.get(self.val_generate_scheduler.initialize.remote())
+
         self.set_model_update_pair(
             src_cluster=self.actor_train,
             tgt_cluster=self.actor_infer,
@@ -475,6 +417,15 @@ def __init__(self, pipeline_config: RLVRConfig):
         for domain in self.rewards.keys():
             self.running[domain] = RunningMoments()
 
+    def get_generation_config(self, generating_args: Optional[GeneratingArguments] = None):
+        generating_args = (
+            generating_args if generating_args is not None else self.actor_infer.worker_config.generating_args
+        )
+        generation_config = generating_args.to_dict()
+        if self.pipeline_config.async_pipeline:
+            generation_config["logprobs"] = 1
+        return generation_config
+
     @torch.no_grad()
     def run(self):
         metrics_mgr = MetricsManager()
@@ -489,6 +440,11 @@ def run(self):
         metrics_mgr.timers["actor_infer_response"] = actor_infer_response_timer
         metrics_mgr.timers["actor_train"] = actor_train_timer
 
+        pre_step_total_time = 0
+        if self.pipeline_config.async_pipeline:
+            for reward_cluster in self.rewards.values():
+                reward_cluster.load_states()
+
         for global_step in range(self.pipeline_config.max_steps):
             if global_step <= self.state.step:
                 global_step += 1
@@ -498,48 +454,54 @@ def run(self):
 
             metrics_mgr.clear_metrics()
             with tps_timer, Timer(name="step_total", logger=None) as step_total_timer:
+                logger.info(f"pre_step_total_time: {pre_step_total_time}")
+                metrics_mgr.add_metric("time/step_total", pre_step_total_time)
+                batch: DataProto = DataProto(
+                    meta_info={
+                        "global_step": global_step,
+                        "collect_unfinished": self.pipeline_config.async_pipeline,
+                        "max_steps": self.pipeline_config.max_steps,
+                        "is_training": True,
+                    }
+                )
 
                 if self.pipeline_config.adv_estimator == "gae":
                     self.critic.offload_states(blocking=True)
                 self.actor_train.offload_states(blocking=True)
 
+                with Timer(name="step_stop_server", logger=None) as step_stop_server_timer:
+                    if self.pipeline_config.async_pipeline:
+                        ray.get([scheduler.pause_sampling.remote() for scheduler in self.generate_schedulers.values()])
+                        self.actor_infer.offload_states(include=OffloadStateType.other_params)
+                metrics_mgr.add_metric("time/step_stop_server", step_stop_server_timer.last)
+
                 with Timer(name="step_model_update", logger=None) as step_model_update_timer:
                     model_update_metrics: Dict = self.model_update(global_step)
                     metrics_mgr.add_metrics(model_update_metrics)
-                    metrics_mgr.add_metric("time/step_model_update", step_model_update_timer.last)
+                    batch.meta_info["generation_config"] = self.get_generation_config()
+                metrics_mgr.add_metric("time/step_model_update", step_model_update_timer.last)
+
+                self.actor_infer.load_states(blocking=True)
+
+                if not self.pipeline_config.async_pipeline:
+                    for reward_cluster in self.rewards.values():
+                        reward_cluster.load_states()
 
                 if self.val_dataset and global_step % self.pipeline_config.eval_steps == 0:
                     with Timer(name="val_step", logger=None) as val_step_timer:
-                        val_metrics = self.val()
-                        metrics_mgr.add_metrics(val_metrics)
-                        metrics_mgr.add_metric("time/val_step", val_step_timer.last)
-
-                batch: DataProto = DataProto()
-                batch.meta_info = {"global_step": global_step}
+                        val_metrics = self.val(global_step=global_step)
+                    metrics_mgr.add_metrics(val_metrics)
+                    metrics_mgr.add_metric("time/val_step", val_step_timer.last)
 
                 # 要按domain group by生成对应的batch
                 with actor_infer_timer, actor_infer_response_timer, Timer(
                     name="step_generate", logger=None
                 ) as step_generate_timer:
                     domain_batches = {}
-                    batch.meta_info["generation_config"] = self.actor_infer.worker_config.generating_args.to_dict()
-                    self.actor_infer.start_server(data=DataProto(meta_info=batch.meta_info))
-                    for reward_cluster in self.rewards.values():
-                        reward_cluster.load_states()
-
-                    batch.meta_info["is_offload_states"] = False
-                    # meta mainly for dynamic reward threshold, such as global_step/max_steps
-                    batch.meta_info.update(
-                        {
-                            "global_step": self.global_step,
-                            "max_steps": self.pipeline_config.max_steps,
-                            "is_training": True,
-                        }
-                    )
                     scheduler_refs = {}
                     for domain, scheduler in self.generate_schedulers.items():
                         scheduler_refs[domain] = scheduler.get_batch.remote(
-                            data=batch, batch_size=self.domain_batch_size[domain]
+                            data=batch, global_step=global_step, batch_size=self.domain_batch_size[domain]
                         )
                     for domain, scheduler_ref in scheduler_refs.items():
                         domain_batch: DataProto = ray.get(scheduler_ref, timeout=self.pipeline_config.rpc_timeout)
@@ -548,17 +510,22 @@ def run(self):
                         )
                         domain_batches[domain] = domain_batch
                     generate_output = DataProto.concat([domain_batch for domain_batch in domain_batches.values()])
+                    dump_rollout_to_specific_path(
+                        self.pipeline_config.rollout_dump_dir, global_step, generate_output, self.tokenizer
+                    )
                     generate_output.meta_info.pop("is_offload_states", None)
 
-                    for reward_cluster in self.rewards.values():
-                        reward_cluster.offload_states()
-                    gen_metrics = self.actor_infer.stop_server()
-                    metrics_mgr.add_metrics(reduce_metrics(gen_metrics.meta_info.pop("metrics", {})))
+                    if not self.pipeline_config.async_pipeline:
+                        ray.get([scheduler.pause_sampling.remote() for scheduler in self.generate_schedulers.values()])
+                        for reward_cluster in self.rewards.values():
+                            reward_cluster.offload_states()
+                        self.actor_infer.offload_states()
                 metrics_mgr.add_metric("time/step_generate", step_generate_timer.last)
 
                 batch = generate_output
                 # mark here to make megatron get_data_input broadcast with non_batch_tensor
-                batch.meta_info["_broadcast_non_tensor_batch"]= True
+                batch.meta_info["_broadcast_non_tensor_batch"] = True
+                batch.meta_info["loss_mask_keys"] = ["response_mask", "final_response_mask"]
 
                 batch.non_tensor_batch['sample_uuid'] = np.array([str(uuid.uuid4()) for _ in range(batch.batch.shape[0])], dtype=object)
                 with Timer(name="cal_ref_log_probs", logger=None) as cal_ref_log_probs_timer:
@@ -639,6 +606,7 @@ def run(self):
                             whiten_advantages=self.pipeline_config.whiten_advantages,
                             whiten_rewards=self.pipeline_config.whiten_rewards,
                             response_mask=final_response_mask,
+                            pipeline_config=self.pipeline_config,
                         )
                         domain_metrics = reduce_metrics(domain_batch.meta_info.pop("metrics", {}))
                         metrics_mgr.add_domain_metrics(domain, domain_metrics)
@@ -646,6 +614,22 @@ def run(self):
                     metrics_mgr.add_domain_metrics(domain, {"time/compute_advantage": compute_advantage_timer.last})
 
                 batch = DataProto.concat(batch_list)
+
+                if batch.batch["final_response_mask"].sum() == 0:
+                    logger.info("Warning: final_response_mask.sum() == 0! Current step will be skipped.")
+                    metrics_mgr.add_metric("mask/final_mask_sum_eq_0", 1)
+                    metrics = metrics_mgr.get_metrics()
+                    # do ckpt
+                    self.state.step = global_step
+                    self.state.log_history.append(metrics)
+                    for domain, scheduler in self.generate_schedulers.items():
+                        self.state.kv[f"scheduler_state_{domain}"] = ray.get(scheduler.get_scheduler_state.remote())
+                    self.do_checkpoint(global_step=global_step)
+                    self.tracker.log(values=metrics, step=global_step)
+                    continue
+                else:
+                    metrics_mgr.add_metric("mask/final_mask_sum_eq_0", 0)
+
                 batch.reorder(indices=torch.argsort(batch.batch["prompt_id"]))
                 batch.pop("prompt_id")
 
@@ -659,6 +643,10 @@ def run(self):
                 batch_grouped: Dict[str, DataProto] = batch.group_by("domain")
                 metrics_mgr.add_domain_all_metrics(global_step, batch_grouped)
 
+                if self.pipeline_config.enable_old_logprobs_recompute:
+                    batch, corr_metrics = apply_train_infer_correction_to_batch(self.pipeline_config, batch)
+                    metrics_mgr.add_metrics(corr_metrics)
+
                 with Timer(name="step_train", logger=None) as step_train_timer:
                     if self.pipeline_config.adv_estimator == "gae":
                         critic_train_metrics_refs: List[ray.ObjectRef] = self.critic.train_step(batch, blocking=False)
@@ -677,7 +665,7 @@ def run(self):
                         critic_train_metrics = DataProto.materialize_concat(data_refs=critic_train_metrics_refs)
                         metrics_mgr.add_reduced_metrics(critic_train_metrics.meta_info.pop("metrics", {}))
 
-                    metrics_mgr.add_metric("time/step_train", step_train_timer.last)
+                metrics_mgr.add_metric("time/step_train", step_train_timer.last)
 
                 tps_timer.push_units_processed(n=torch.sum(batch.batch["attention_mask"]).detach().item())
                 actor_infer_timer.push_units_processed(n=torch.sum(batch.batch["attention_mask"]).detach().item())
@@ -715,10 +703,16 @@ def run(self):
 
                 logger.info(f"pipeline step {global_step} finished")
                 global_step += 1
+            pre_step_total_time = step_total_timer.last
+
+        ray.get([scheduler.shutdown.remote() for scheduler in self.generate_schedulers.values()])
+        if self.val_dataset:
+            ray.get(self.val_generate_scheduler.shutdown.remote())
+
         logger.info("pipeline complete!")
 
     @torch.no_grad()
-    def val(self):
+    def val(self, global_step):
         val_metrics_mgr = MetricsManager()
         batch = DataProto()
 
@@ -728,18 +722,11 @@ def val(self):
             batch.meta_info.update(
                 {"global_step": self.global_step, "max_steps": self.pipeline_config.max_steps, "is_training": False}
             )
-
-            self.actor_infer.start_server(data=DataProto(meta_info=batch.meta_info))
-            for reward_cluster in self.rewards.values():
-                reward_cluster.load_states()
             generate_output: DataProto = ray.get(
-                self.val_generate_scheduler.get_batch.remote(data=batch, batch_size=len(self.val_dataset)),
+                self.val_generate_scheduler.get_batch.remote(data=batch, global_step=global_step, batch_size=len(self.val_dataset)),
                 timeout=self.pipeline_config.rpc_timeout,
             )
-            self.actor_infer.stop_server()
             generate_output.meta_info.pop("is_offload_states", None)
-            for reward_cluster in self.rewards.values():
-                reward_cluster.offload_states()
             val_metrics_mgr.add_metric("time/step_generate", step_generate_timer.last)
 
         batch = generate_output
@@ -752,7 +739,7 @@ def val(self):
         grouped_batch = epoch_batch.group_by("tag")
         for group_key, group_batch in grouped_batch.items():
             score_mean = group_batch.batch["scores"].mean().item()
-            print(f"{group_key}:  {score_mean}")
+            logger.info(f"val_score/{group_key}:  {score_mean}")
             val_metrics_mgr.add_domain_metrics(
                 "val_score", {f"{group_key}/mean": group_batch.batch["scores"].detach().float().mean().item()}
             )
diff --git a/roll/pipeline/rlvr/utils.py b/roll/pipeline/rlvr/utils.py
index 7173a1118..11e60b567 100644
--- a/roll/pipeline/rlvr/utils.py
+++ b/roll/pipeline/rlvr/utils.py
@@ -3,18 +3,20 @@
 import time
 import numpy
 import copy
+import requests
+
+import torch
+
 from codetiming import Timer
 import multiprocessing
 
-
 from roll.distributed.scheduler.protocol import DataProto
-
 from roll.utils.logging import get_logger
 
 
 logger = get_logger()
 
-COLUMNS_CONFIG = [
+COLUMMNS_CONFIG = [
         ['global_step','bigint'],
         ['id','string'],
         ['source','string'],
diff --git a/roll/pipeline/sft/sft_config.py b/roll/pipeline/sft/sft_config.py
index bf60f429e..d23fab07e 100644
--- a/roll/pipeline/sft/sft_config.py
+++ b/roll/pipeline/sft/sft_config.py
@@ -59,7 +59,5 @@ def __post_init__(self):
 
         self.sft_train.name = "sft_train"
 
-        self.validate_worker_config()
-
     def set_max_steps(self, max_steps: int):
         self.sft_train.training_args.max_steps = max_steps
diff --git a/roll/pipeline/sft/sft_pipeline.py b/roll/pipeline/sft/sft_pipeline.py
index 8bdc0b365..97bd7b6a3 100644
--- a/roll/pipeline/sft/sft_pipeline.py
+++ b/roll/pipeline/sft/sft_pipeline.py
@@ -4,9 +4,9 @@
 import numpy as np
 import ray
 import torch
+from tqdm import tqdm
 from codetiming import Timer
 from torch.utils.data import DataLoader
-from tqdm import tqdm
 
 from roll.datasets.chat_template import get_chat_template
 from roll.datasets.collator import DataCollatorForSFT
@@ -18,7 +18,7 @@
 from roll.utils.constants import IGNORE_INDEX
 from roll.utils.logging import get_logger
 from roll.utils.metrics.metrics_manager import MetricsManager
-
+from roll.utils.functionals import batch_balance, reduce_metrics
 
 logger = get_logger()
 
@@ -38,7 +38,7 @@ def preprocess_dataset(dataset, prompt_len, encode_func, num_proc):
 
 def get_encode_function(template_name, tokenizer, prompt_key, query_key, response_key, system_key=None):
     chat_template_func = get_chat_template(template_name, tokenizer)
-    
+
     def build_conversation(system_prompt, prompt, query, response):
         conversation = []
         if system_prompt:
@@ -98,26 +98,26 @@ def __init__(self, pipeline_config: SFTConfig):
                 dataset_paths.append(train_file_name)
         logger.info(f"load_dataset_paths: {chr(10)} {chr(10).join(dataset_paths)}")
         self.dataset = datasets.load_dataset("json", data_files=dataset_paths)["train"]
-        
+
         self.val_dataset = None
         if self.pipeline_config.validation and self.pipeline_config.validation.data_args:
             val_dataset_paths = self.pipeline_config.validation.data_args.file_name
             self.val_dataset = datasets.load_dataset("json", data_files=val_dataset_paths)["train"]
-        
+
         template_name = (
             self.pipeline_config.global_template
             if self.pipeline_config.global_template
             else self.pipeline_config.sft_train.data_args.template
         )
-        encode_function = get_encode_function(template_name, self.tokenizer, 
-                                              self.pipeline_config.prompt_key, 
-                                              self.pipeline_config.query_key, 
-                                              self.pipeline_config.response_key, 
+        encode_function = get_encode_function(template_name, self.tokenizer,
+                                              self.pipeline_config.prompt_key,
+                                              self.pipeline_config.query_key,
+                                              self.pipeline_config.response_key,
                                               self.pipeline_config.system_key)
         self.dataset = preprocess_dataset(
-            self.dataset, 
-            self.pipeline_config.sequence_length, 
-            encode_function, 
+            self.dataset,
+            self.pipeline_config.sequence_length,
+            encode_function,
             num_proc=self.pipeline_config.sft_train.data_args.preprocessing_num_workers)
 
         data_collator = DataCollatorForSFT(
@@ -144,16 +144,16 @@ def __init__(self, pipeline_config: SFTConfig):
         dp_size = self.sft_train.dp_size
         ga_steps = self.pipeline_config.sft_train.training_args.gradient_accumulation_steps
         per_device_bs = self.pipeline_config.sft_train.training_args.per_device_train_batch_size
-        global_train_batch_size = dp_size * ga_steps * per_device_bs
+        self.global_train_batch_size = dp_size * ga_steps * per_device_bs
         logger.info(f"data parallel size = {dp_size},\n"
                     f"gradient accumulation steps = {ga_steps},\n"
                     f"per device train batch size = {per_device_bs},\n"
-                    f"global train batch size = {global_train_batch_size}")
+                    f"global train batch size = {self.global_train_batch_size}")
 
         self.dataloader = DataLoader(
             dataset=self.dataset,
-            batch_size=global_train_batch_size,
-            shuffle=True,  # Enable shuffle for better training
+            batch_size=self.global_train_batch_size,
+            shuffle=False,
             drop_last=True,
             num_workers=self.pipeline_config.sft_train.training_args.dataloader_num_workers,
             collate_fn=data_collator,
@@ -161,12 +161,12 @@ def __init__(self, pipeline_config: SFTConfig):
 
         if self.val_dataset:
             self.val_dataset = preprocess_dataset(
-                self.val_dataset, 
-                self.pipeline_config.sequence_length, 
-                encode_function, 
+                self.val_dataset,
+                self.pipeline_config.sequence_length,
+                encode_function,
                 num_proc=self.pipeline_config.sft_train.data_args.preprocessing_num_workers)
             
-            global_val_batch_size = dp_size * ga_steps * self.pipeline_config.sft_train.infer_batch_size
+            global_val_batch_size = dp_size * self.pipeline_config.sft_train.infer_batch_size
             self.val_dataloader = DataLoader(
                 dataset=self.val_dataset,
                 batch_size=global_val_batch_size,
@@ -207,7 +207,13 @@ def run(self):
 
                 with Timer(name="step_train", logger=None) as step_train_timer:
                     batch: DataProto = DataProto.from_single_dict(batch_dict)
-                    batch.meta_info = {"global_step": global_step, "is_offload_optimizer_states_in_train_step": False}
+                    batch.meta_info = {"global_step": global_step, "is_offload_states": False,
+                                       "is_offload_optimizer_states_in_train_step": False,
+                                       "loss_mask_keys": ["labels"]}
+                    # Reorder data for DP rank load balancing
+                    batch_balance_metrics = batch_balance(batch, dp_size=self.sft_train.dp_size,
+                                                          minibatch_size=self.global_train_batch_size)
+                    metrics_mgr.add_metrics(batch_balance_metrics)
                     train_metrics_refs = self.sft_train.train_step(batch, blocking=False)
                     train_metrics = DataProto.materialize_concat(data_refs=train_metrics_refs)
                     train_metrics = train_metrics.meta_info.pop("metrics", {})
@@ -221,7 +227,7 @@ def run(self):
                 # Update tqdm progress bar
                 loss = metrics.get("sft_train/loss", 0)
                 pbar.set_postfix({"loss": f"{loss:.4f}", "step": f"{global_step}/{total_steps}"})
-                
+
                 self.state.step = global_step
                 self.state.log_history.append(metrics)
                 self.do_checkpoint(global_step=global_step)
@@ -240,11 +246,12 @@ def run(self):
     @torch.no_grad()
     def val(self):
         val_loss_list = []
-        for batch_dict in self.val_dataloader:
+        pbar = tqdm(self.val_dataloader, desc="Validating", leave=False)
+        for batch_dict in pbar:
             batch: DataProto = DataProto.from_single_dict(batch_dict)
-            batch.meta_info = {"is_offload_optimizer_states_in_train_step": False}
+            batch.meta_info = {"is_offload_optimizer_states_in_train_step": False, 'loss_mask_keys': ['labels']}
             val_metrics_refs = self.sft_train.val_step(batch, blocking=False)
             val_metrics = DataProto.materialize_concat(data_refs=val_metrics_refs)
-            val_metrics = val_metrics.meta_info.pop("metrics", {})
-            val_loss_list.append(val_metrics[f"sft_train/loss"])
-        return {"sft_train/val_loss": np.concatenate(val_loss_list)}
+            val_metrics = reduce_metrics(val_metrics.meta_info.pop("metrics", {}))
+            val_loss_list.append(val_metrics[f"sft_train/loss@sum"])
+        return {"sft_train/val_loss": val_loss_list}
diff --git a/roll/pipeline/sft/sft_worker.py b/roll/pipeline/sft/sft_worker.py
index aedc73ae7..d76866b96 100644
--- a/roll/pipeline/sft/sft_worker.py
+++ b/roll/pipeline/sft/sft_worker.py
@@ -10,6 +10,7 @@
 from roll.distributed.scheduler.protocol import DataProto
 from roll.distributed.strategy.factory import create_strategy
 from roll.distributed.strategy.strategy import InferenceStrategy, TrainStrategy
+from roll.utils.functionals import reduce_metrics
 from roll.models.model_providers import default_actor_model_provider
 from roll.platforms import current_platform
 
@@ -32,12 +33,8 @@ def train_step(self, data: DataProto):
         data = data.to(current_platform.device_type)
         data = self.strategy.get_data_input(data)
 
-        loss_func = self.loss_func
-        if self.worker_config.use_sequence_packing:
-            from roll.utils.sequence_packing import SequencePackingSFTLossWrapper
-            loss_func = SequencePackingSFTLossWrapper(self.strategy, loss_func)
+        metrics = self.strategy.train_step(batch=data, loss_func=self.loss_func)
 
-        metrics = self.strategy.train_step(batch=data, loss_func=loss_func)
         output = DataProto(meta_info={"metrics": metrics}).to("cpu")
         return output
 
@@ -47,16 +44,19 @@ def val_step(self, data: DataProto):
         data.meta_info["micro_batch_size"] = self.worker_config.infer_batch_size
         data = self.strategy.get_data_input(data)
         metrics = self.strategy.forward_step(batch=data, forward_func=self.loss_func)
+        if metrics is None:
+            metrics = {}
+        metrics = reduce_metrics(metrics)
         output = DataProto(meta_info={"metrics": metrics}).to("cpu")
         return output
 
     @register(Dispatch.ONE_TO_ALL)
-    def do_checkpoint(self, global_step):
+    def do_checkpoint(self, global_step, is_last_step=False):
         with Timer("do_checkpoint") as total_timer:
             ckpt_id = f"checkpoint-{global_step}"
             save_dir = os.path.join(self.pipeline_config.output_dir, self.worker_name, ckpt_id, self.cluster_name)
             self.logger.info(f"save checkpoint-{global_step} to {save_dir}")
-            exec_metrics: Dict = self.strategy.save_checkpoint(save_dir, global_step, ckpt_id)
+            exec_metrics: Dict = self.strategy.save_checkpoint(save_dir, global_step, ckpt_id, is_last_step=is_last_step)
 
         metrics = {
             f"time/{self.cluster_name}/do_checkpoint/total": total_timer.last,
@@ -68,6 +68,6 @@ def do_checkpoint(self, global_step):
 
     def loss_func(self, data: DataProto, output_tensor: torch.Tensor):
         labels = data.batch["labels"]
-        loss = self.strategy.op_compute_language_loss(output_tensor, labels)
-        metrics = {f"{self.worker_config.name}/loss": loss.detach().float().unsqueeze(0)}
-        return loss, metrics
\ No newline at end of file
+        batch_num_tokens = data.meta_info['batch_num_tokens']['labels']
+        loss, metrics = self.strategy.op_compute_language_loss(output_tensor, labels, batch_num_tokens)
+        return loss, metrics
diff --git a/roll/platforms/cpu.py b/roll/platforms/cpu.py
index 3149938d3..caa69f762 100644
--- a/roll/platforms/cpu.py
+++ b/roll/platforms/cpu.py
@@ -28,6 +28,7 @@ def get_custom_env_vars(cls) -> dict:
             # queuing of rpc.
             # So we set a small timeout for PullObjectsAndGetFromPlasmaStore to avoid holding store_client lock
             # too long.
+            **Platform.get_common_envs(),
             "RAY_get_check_signal_interval_milliseconds": "1",
             "VLLM_ALLOW_INSECURE_SERIALIZATION": "1",
             "RAY_CGRAPH_get_timeout": '600',
diff --git a/roll/platforms/cuda.py b/roll/platforms/cuda.py
index 5b46ba925..3c646f89e 100644
--- a/roll/platforms/cuda.py
+++ b/roll/platforms/cuda.py
@@ -1,6 +1,7 @@
 from .platform import Platform
 from ..utils.logging import get_logger
 
+import os
 import torch
 
 logger = get_logger()
@@ -30,14 +31,17 @@ def set_allocator_settings(cls, env: str) -> None:
     @classmethod
     def get_custom_env_vars(cls) -> dict:
         env_vars = {
+            **Platform.get_common_envs(),
             # "RAY_DEBUG": "legacy"
             "RAY_get_check_signal_interval_milliseconds": "1",
             "RAY_CGRAPH_get_timeout": '600',
             "VLLM_ALLOW_INSECURE_SERIALIZATION": "1",
+            "JE_ARROW_MALLOC_CONF": "background_thread:false", # https://github.com/apache/arrow/issues/44342
             "TORCHINDUCTOR_COMPILE_THREADS": "2",
             "PYTORCH_CUDA_ALLOC_CONF": "expandable_segments:True",
-            "NCCL_CUMEM_ENABLE": "0",  # https://github.com/NVIDIA/nccl/issues/1234
+            "NCCL_CUMEM_ENABLE": os.getenv("NCCL_CUMEM_ENABLE", "0"),  # https://github.com/NVIDIA/nccl/issues/1234
             "NCCL_NVLS_ENABLE": "0",
+            "NVTE_BWD_LAYERNORM_SM_MARGIN": os.getenv('NVTE_BWD_LAYERNORM_SM_MARGIN', "0"),
         }
         return env_vars
 
@@ -46,7 +50,8 @@ def get_vllm_worker_class(cls):
         try:
             from vllm import envs
 
-            if envs.VLLM_USE_V1:
+            # VLLM_USE_V1 is deprecated in vllm>=0.11.1
+            if not hasattr(envs, "VLLM_USE_V1") or envs.VLLM_USE_V1:
                 from vllm.v1.worker.gpu_worker import Worker
 
                 logger.info("Successfully imported vLLM V1 Worker.")
diff --git a/roll/platforms/npu.py b/roll/platforms/npu.py
index c3d0b6a94..296750de4 100644
--- a/roll/platforms/npu.py
+++ b/roll/platforms/npu.py
@@ -1,3 +1,7 @@
+from importlib import import_module
+
+import torch
+
 from .platform import Platform
 from ..utils.logging import get_logger
 
@@ -28,6 +32,7 @@ def set_allocator_settings(cls, env: str) -> None:
     @classmethod
     def get_custom_env_vars(cls) -> dict:
         env_vars = {
+            **Platform.get_common_envs(),
             # This is a following temporiary fix for starvation of plasma lock at
             # https://github.com/ray-project/ray/pull/16408#issuecomment-861056024.
             # When the system is overloaded (rpc queueing) and can not pull Object from remote in a short period
@@ -45,19 +50,32 @@ def get_custom_env_vars(cls) -> dict:
 
     @classmethod
     def get_vllm_worker_class(cls):
+        def import_worker(candidate_modules):
+            errors = []
+            for module_name in candidate_modules:
+                try:
+                    module = import_module(module_name)
+                    worker = getattr(module, "NPUWorker")
+                except (ImportError, AttributeError) as e:
+                    errors.append(f"{module_name}: {e}")
+                    continue
+                logger.info("Successfully imported vLLM NPU Worker from %s.", module_name)
+                return worker
+            raise ImportError("; ".join(errors))
+
         try:
             from vllm import envs
 
-            if envs.VLLM_USE_V1:
-                from vllm_ascend.worker.worker_v1 import NPUWorker as Worker
-
-                logger.info("Successfully imported vLLM V1 Worker.")
-                return Worker
+            # VLLM_USE_V1 is deprecated in vllm>=0.11.1
+            if not hasattr(envs, "VLLM_USE_V1") or envs.VLLM_USE_V1:
+                return import_worker(
+                    [
+                        "vllm_ascend.worker.worker_v1",
+                        "vllm_ascend.worker.worker",
+                    ]
+                )
             else:
-                from vllm_ascend.worker.worker import NPUWorker as Worker
-
-                logger.info("Successfully imported vLLM V0 Worker.")
-                return Worker
+                return import_worker(["vllm_ascend.worker.worker"])
         except ImportError as e:
             logger.error("Failed to import vLLM Worker. Make sure vLLM is installed correctly: %s", e)
             raise RuntimeError("vLLM is not installed or not properly configured.") from e
@@ -68,9 +86,17 @@ def get_vllm_run_time_env_vars(cls, gpu_rank: str) -> dict:
             "VLLM_ALLOW_INSECURE_SERIALIZATION": "1",
             "ASCEND_RT_VISIBLE_DEVICES": f"{gpu_rank}",
             "RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES": "1",
+            # vLLM-Ascend's memory pool is incompatible with expandable
+            # segments, even if the broader NPU test job enables them.
+            "PYTORCH_NPU_ALLOC_CONF": "",
         }
         return env_vars
     
     @classmethod
     def apply_ulysses_patch(cls) -> None:
         return
+
+    @classmethod
+    def device_memory_used(cls) -> int:
+        free, total = torch.npu.mem_get_info()
+        return total - free
diff --git a/roll/platforms/platform.py b/roll/platforms/platform.py
index d9050dd31..9f9d4b105 100644
--- a/roll/platforms/platform.py
+++ b/roll/platforms/platform.py
@@ -110,6 +110,12 @@ def set_allocator_settings(cls, env: str) -> None:
         """Configure memory allocator settings based on the device type."""
         raise NotImplementedError
 
+    @classmethod
+    def get_common_envs(cls) -> dict:
+        return {
+            "TORCH_EXTENSIONS_DIR": ""
+        }
+
     @classmethod
     def get_custom_env_vars(cls) -> dict:
         """
diff --git a/roll/platforms/rocm.py b/roll/platforms/rocm.py
index c55b59a84..8b4d6f9cf 100644
--- a/roll/platforms/rocm.py
+++ b/roll/platforms/rocm.py
@@ -14,6 +14,7 @@ class RocmPlatform(Platform):
     device_control_env_var: str = "HIP_VISIBLE_DEVICES"
     ray_experimental_noset: str = "RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES"
     communication_backend: str = "nccl"
+    Event: type = torch.cuda.Event
 
     @classmethod
     def is_rocm(cls) -> bool:
@@ -30,22 +31,20 @@ def set_allocator_settings(cls, env: str) -> None:
     @classmethod
     def get_custom_env_vars(cls) -> dict:
         env_vars = {
+            **Platform.get_common_envs(),
             "RAY_get_check_signal_interval_milliseconds": "1",
             "RAY_CGRAPH_get_timeout": '600',
             "VLLM_ALLOW_INSECURE_SERIALIZATION": "1",
             # These VLLM related enviroment variables are related to backend. maybe used afterwards.
             # "VLLM_USE_TRITON_FLASH_ATTN":"0",
-            # "VLLM_ROCM_USE_AITER":"1",
-            # "VLLM_ROCM_USE_AITER_MOE":"1",
+            "VLLM_ROCM_USE_AITER":"1",
+            "VLLM_ROCM_USE_AITER_MOE":"1",
             # "VLLM_ROCM_USE_AITER_ASMMOE":"1",
-            # "VLLM_ROCM_USE_AITER_PAGED_ATTN":"1",
+            "VLLM_ROCM_USE_AITER_PAGED_ATTN":"1",
             # "RAY_DEBUG": "legacy",
-            "VLLM_USE_V1": "1",
+            "VLLM_USE_V1": "0",
             "TORCHINDUCTOR_COMPILE_THREADS": "2",
             "PYTORCH_HIP_ALLOC_CONF": "expandable_segments:True",
-            "SAFETENSORS_FAST_GPU":"1",
-            "VLLM_ROCM_USE_AITER_MHA":"0",
-            "VLLM_ALLOW_LONG_MAX_MODEL_LEN":"1",
             # "NCCL_DEBUG_SUBSYS":"INIT,COLL",
             # "NCCL_DEBUG":"INFO",
             # "NCCL_DEBUG_FILE":"rccl.%h.%p.log",
@@ -77,7 +76,8 @@ def get_vllm_worker_class(cls):
         try:
             from vllm import envs
 
-            if envs.VLLM_USE_V1:
+            # VLLM_USE_V1 is deprecated in vllm>=0.11.1
+            if not hasattr(envs, "VLLM_USE_V1") or envs.VLLM_USE_V1:
                 from vllm.v1.worker.gpu_worker import Worker
 
                 logger.info("Successfully imported vLLM V1 Worker.")
diff --git a/roll/platforms/unknown.py b/roll/platforms/unknown.py
index 43db59ed5..fec3cc6dd 100644
--- a/roll/platforms/unknown.py
+++ b/roll/platforms/unknown.py
@@ -26,6 +26,7 @@ def set_allocator_settings(cls, env: str) -> None:
     @classmethod
     def get_custom_env_vars(cls) -> dict:
         env_vars = {
+            **Platform.get_common_envs(),
             # This is a following temporiary fix for starvation of plasma lock at
             # https://github.com/ray-project/ray/pull/16408#issuecomment-861056024.
             # When the system is overloaded (rpc queueing) and can not pull Object from remote in a short period
@@ -47,7 +48,8 @@ def get_vllm_worker_class(cls):
         try:
             from vllm import envs
 
-            if envs.VLLM_USE_V1:
+            # VLLM_USE_V1 is deprecated in vllm>=0.11.1
+            if not hasattr(envs, "VLLM_USE_V1") or envs.VLLM_USE_V1:
                 from vllm.v1.worker.gpu_worker import Worker
 
                 logger.info("Successfully imported vLLM V1 Worker.")
@@ -66,6 +68,7 @@ def get_vllm_run_time_env_vars(cls, gpu_rank:str) -> dict:
         env_vars = {
             "PYTORCH_CUDA_ALLOC_CONF" : "",
             "VLLM_ALLOW_INSECURE_SERIALIZATION":"1",
+            "CUDA_VISIBLE_DEVICES": f"{gpu_rank}",
         }
         return env_vars
     
diff --git a/roll/third_party/deepspeed/model_update.py b/roll/third_party/deepspeed/model_update.py
new file mode 100644
index 000000000..b6452902c
--- /dev/null
+++ b/roll/third_party/deepspeed/model_update.py
@@ -0,0 +1,205 @@
+import ray
+import torch.distributed as dist
+from deepspeed.runtime.zero import GatheredParameters
+from peft import get_peft_model_state_dict
+
+from roll.configs.base_config import PPOConfig
+from roll.configs.worker_config import is_actor_infer_overlapping_with_any_cluster
+from roll.utils.collective import collective
+from roll.utils.logging import get_logger
+from roll.utils.network_utils import collect_free_port, get_node_ip
+from roll.utils.send_recv_utils import serialize_named_weights
+
+
+logger = get_logger()
+
+
+def _get_ds_param_size(param):
+    if hasattr(param, "ds_numel"):
+        ds_numel = param.ds_numel
+    else:
+        ds_numel = param.numel()
+    return ds_numel * param.element_size()
+
+
+def _gather_weights(is_zero3, named_params):
+    if not is_zero3:
+        return [(n, p.data) for n, p in named_params]
+    with GatheredParameters([p for _, p in named_params]):
+        return [(n, p.data) for n, p in named_params]
+
+
+def gather_deepspeed_weights(model, ds_config, buffer_size):
+    is_zero3 = ds_config.is_zero3()
+    named_params = [(name, param) for name, param in model.named_parameters()]
+
+    waiting_params, waiting_params_size = [], 0
+    for name, param in named_params:
+        if waiting_params and waiting_params_size + _get_ds_param_size(param) > buffer_size:
+            yield _gather_weights(is_zero3, waiting_params)
+            waiting_params, waiting_params_size = [], 0
+        waiting_params_size += _get_ds_param_size(param)
+        waiting_params.append((name, param))
+
+    if waiting_params:
+        yield _gather_weights(is_zero3, waiting_params)
+
+
+class DeepSpeedWeightUpdater:
+    def __init__(self, pipeline_config: PPOConfig, infer_cluster, worker_config, model_update_name: str, model, ds_config, is_lora):
+        self.pipeline_config = pipeline_config
+        self.worker_config = worker_config
+        self.model_update_name = model_update_name
+        self.model = model
+        self.ds_config = ds_config
+        self.model_update_infer_workers = infer_cluster.workers
+        self._model_update_buffer_size = pipeline_config.model_update_buffer_size_mb * 1024 * 1024  # Convert MB to bytes
+        self.is_lora = is_lora
+        self.infer_worker_config = infer_cluster.worker_config
+        self.infer_cluster = infer_cluster
+        self.is_colocated = is_actor_infer_overlapping_with_any_cluster(infer_cluster.worker_config, actor_train=worker_config)
+
+        # Colocated mode attributes
+        self._infer_parallel_cpu_group = None
+        self._co_infer_worker = None
+        self._buffer_num = None
+        self._broadcast_workers = None
+
+        # Separated mode attributes
+        self.model_update_group_name = None
+        self._model_update_locker = None
+
+        if self.is_colocated:
+            self._setup_colocated_model_update()
+        else:
+            self._setup_separated_model_update()
+
+    def model_update(self):
+        if self.is_colocated:
+            return self._colocated_model_update()
+        return self._separated_model_update()
+
+    def _setup_colocated_model_update(self):
+        logger.info(f"RANK {dist.get_rank()} Setup colocated model update")
+        infer_worker_devices_num = self.infer_worker_config.num_gpus_per_worker
+        train_world_size = dist.get_world_size()
+
+        device_start_diff = min(self.worker_config.device_mapping) - min(self.infer_worker_config.device_mapping)
+        device_end_diff = max(self.worker_config.device_mapping) - max(self.infer_worker_config.device_mapping)
+
+        assert device_start_diff % infer_worker_devices_num == 0
+        assert device_end_diff % infer_worker_devices_num == 0
+
+        for start_rank in range(0, train_world_size, infer_worker_devices_num):
+            end_rank = start_rank + infer_worker_devices_num
+            assert end_rank <= train_world_size
+            group_ranks = list(range(start_rank, end_rank))
+            new_group = dist.new_group(ranks=group_ranks, backend="gloo")
+            if dist.get_rank() in group_ranks:
+                self._infer_parallel_cpu_group = new_group
+        infer_worker_idx = dist.get_rank() + device_start_diff // infer_worker_devices_num
+        self._co_infer_worker = None
+        if 0 <= infer_worker_idx < len(self.model_update_infer_workers):
+            self._co_infer_worker = self.model_update_infer_workers[infer_worker_idx]
+
+        # rank0 broadcast to mismatch workers
+        if dist.get_rank() == 0 and (device_start_diff > 0 or device_end_diff < 0):
+            self._broadcast_workers = []
+            if device_start_diff > 0:
+                self._broadcast_workers.extend(self.model_update_infer_workers[: device_start_diff // infer_worker_devices_num])
+            if device_end_diff < 0:
+                self._broadcast_workers.extend(self.model_update_infer_workers[device_end_diff // infer_worker_devices_num :])
+            self._setup_broadcast_group()
+
+    def _setup_separated_model_update(self):
+        if dist.get_rank() != 0:
+            return
+
+        self._broadcast_workers = self.model_update_infer_workers
+        self._setup_broadcast_group()
+
+    def _setup_broadcast_group(self):
+        if not self._broadcast_workers:
+            return
+        self.model_update_group_name = f"{self.model_update_name}_deepspeed"
+        num_gpus_per_infer_worker = self.infer_worker_config.num_gpus_per_worker
+        infer_device_num = num_gpus_per_infer_worker * len(self._broadcast_workers)
+        master_address, master_port = get_node_ip(), collect_free_port()
+
+        refs = [
+            infer_worker.setup_collective_group.remote(
+                master_address=master_address,
+                master_port=master_port,
+                group_name=self.model_update_group_name,
+                rank_offset=i * num_gpus_per_infer_worker + 1,
+                world_size=infer_device_num + 1,
+            )
+            for i, infer_worker in enumerate(self._broadcast_workers)
+        ]
+        collective.init_collective_group(
+            infer_device_num + 1,
+            0,
+            group_name=self.model_update_group_name,
+            master_addr=master_address,
+            master_port=master_port,
+        )
+        ray.get(refs)
+
+        logger.info(f"Init weights update group {self.model_update_group_name}")
+
+    def _colocated_model_update(self):
+        refs = []
+        for named_weights in gather_deepspeed_weights(
+            self.model, self.ds_config, buffer_size=self._model_update_buffer_size
+        ):
+            serialized_tensors = serialize_named_weights(
+                named_weights, infer_strategy=self.infer_worker_config.strategy_args.strategy_name
+            )
+            infer_parallel_size = dist.get_world_size(self._infer_parallel_cpu_group)
+            co_infer_rank = dist.get_rank(self._infer_parallel_cpu_group)
+            infer_parallel_tensors = [serialized_tensors]  # tensors for each infer parallel rank
+            if infer_parallel_size > 1:
+                infer_parallel_tensors = [None] * infer_parallel_size if co_infer_rank == 0 else None
+                dist.gather_object(
+                    serialized_tensors, infer_parallel_tensors, group_dst=0, group=self._infer_parallel_cpu_group
+                )
+            if refs:
+                ray.get(refs)
+                refs = []
+            if co_infer_rank == 0 and self._co_infer_worker is not None:
+                refs.append(self._co_infer_worker.update_parameter_in_bucket.remote(infer_parallel_tensors))
+            if self._broadcast_workers:
+                refs.extend(self._broadcast_to_infer_workers(named_weights))
+        if refs:
+            ray.get(refs)
+        return {}
+
+    def _broadcast_to_infer_workers(self, named_weights) -> list[ray.ObjectRef]:
+        if not self._broadcast_workers:
+            return []
+        refs = [
+            worker.broadcast_parameter.remote(
+                group_name=self.model_update_group_name,
+                names=[n for n, _ in named_weights],
+                dtypes=[w.dtype for _, w in named_weights],
+                shapes=[w.shape for _, w in named_weights],
+            )
+            for worker in self._broadcast_workers
+        ]
+        handles = []
+        for _, weight in named_weights:
+            handles.append(
+                collective.broadcast(tensor=weight, src_rank=0, group_name=self.model_update_group_name, async_op=True)
+            )
+        for handle in handles:
+            handle.wait()
+        return refs
+
+    def _separated_model_update(self):
+        logger.info(f"start broadcast model update {self.model_update_group_name}")
+        for named_weights in gather_deepspeed_weights(
+            self.model, self.ds_config, buffer_size=self._model_update_buffer_size
+        ):
+            refs = self._broadcast_to_infer_workers(named_weights)
+            ray.get(refs)
+        return {}
diff --git a/roll/third_party/vllm/vllm_0_10_0/v1/__init__.py b/roll/third_party/fsdp2/__init__.py
similarity index 100%
rename from roll/third_party/vllm/vllm_0_10_0/v1/__init__.py
rename to roll/third_party/fsdp2/__init__.py
diff --git a/roll/third_party/fsdp2/model_update.py b/roll/third_party/fsdp2/model_update.py
new file mode 100644
index 000000000..c53bef122
--- /dev/null
+++ b/roll/third_party/fsdp2/model_update.py
@@ -0,0 +1,334 @@
+import os
+from dataclasses import asdict
+
+import ray
+import torch
+import torch.distributed as dist
+from torch.distributed.tensor import DTensor
+
+from roll.configs.base_config import PPOConfig
+from roll.configs.worker_config import is_actor_infer_overlapping_with_any_cluster
+from roll.platforms import current_platform
+from roll.utils.collective import collective
+from roll.utils.logging import get_logger
+from roll.utils.network_utils import collect_free_port, get_node_ip
+from roll.utils.send_recv_utils import serialize_named_weights
+
+logger = get_logger()
+
+
+def gather_fsdp2_weights(model, buffer_size, is_lora=False):
+    """
+    Gather FSDP2 weights for model update.
+    For FSDP2, we need to get the full tensor from the sharded parameters.
+    """
+    if is_lora:
+        from peft.utils import get_peft_model_state_dict
+
+        lora_state_dict = get_peft_model_state_dict(model)
+        named_params = [(name, param) for name, param in lora_state_dict.items()]
+    else:
+        named_params = [(name, param) for name, param in model.named_parameters()]
+
+    waiting_params, waiting_params_size = [], 0
+    for name, param in named_params:
+        full_tensor_size = param.numel() * param.element_size()
+        if waiting_params and waiting_params_size + full_tensor_size > buffer_size:
+            yield [(n, p.data if not isinstance(p.data, DTensor) else p.data.full_tensor()) for n, p in waiting_params]
+            waiting_params, waiting_params_size = [], 0
+
+        waiting_params_size += full_tensor_size
+        waiting_params.append((name, param))
+
+    if waiting_params:
+        yield [(n, p.data if not isinstance(p.data, DTensor) else p.data.full_tensor()) for n, p in waiting_params]
+
+
+class FSDP2WeightUpdater:
+    def __init__(
+        self, pipeline_config: PPOConfig, infer_cluster, worker_config, model_update_name: str, model, is_lora
+    ):
+        self.pipeline_config = pipeline_config
+        self.worker_config = worker_config
+        self.model_update_name = model_update_name
+        self.model = model
+        self.model_update_infer_workers = infer_cluster.workers
+        self._model_update_buffer_size = (
+            pipeline_config.model_update_buffer_size_mb * 1024 * 1024
+        )  # Convert MB to bytes
+        self.is_lora = is_lora
+        self.infer_worker_config = infer_cluster.worker_config
+        self.infer_cluster = infer_cluster
+        self.is_colocated = is_actor_infer_overlapping_with_any_cluster(
+            infer_cluster.worker_config, actor_train=worker_config
+        )
+
+        # Colocated mode attributes
+        self._infer_parallel_cpu_group = None
+        self._co_infer_worker = None
+        self._buffer_num = None
+        self._broadcast_workers = None
+
+        # Separated mode attributes
+        self.model_update_group_name = None
+        self._model_update_locker = None
+
+        if self.is_colocated:
+            self._setup_colocated_model_update()
+        else:
+            self._setup_separated_model_update()
+
+    def model_update(self):
+        if self.is_colocated:
+            return self._colocated_model_update()
+        return self._separated_model_update()
+
+    def _setup_colocated_model_update(self):
+        logger.info(f"RANK {dist.get_rank()} Setup colocated model update")
+        infer_worker_devices_num = self.infer_worker_config.num_gpus_per_worker
+        train_world_size = dist.get_world_size()
+
+        device_start_diff = min(self.worker_config.device_mapping) - min(self.infer_worker_config.device_mapping)
+        device_end_diff = max(self.worker_config.device_mapping) - max(self.infer_worker_config.device_mapping)
+
+        assert device_start_diff % infer_worker_devices_num == 0
+        assert device_end_diff % infer_worker_devices_num == 0
+
+        for start_rank in range(0, train_world_size, infer_worker_devices_num):
+            end_rank = start_rank + infer_worker_devices_num
+            assert end_rank <= train_world_size
+            group_ranks = list(range(start_rank, end_rank))
+            new_group = dist.new_group(ranks=group_ranks, backend="gloo")
+            if dist.get_rank() in group_ranks:
+                self._infer_parallel_cpu_group = new_group
+        infer_worker_idx = (dist.get_rank() // infer_worker_devices_num) + (
+            device_start_diff // infer_worker_devices_num
+        )
+        self._co_infer_worker = None
+        self._co_infer_worker_rank = None
+        if 0 <= infer_worker_idx < len(self.model_update_infer_workers):
+            self._co_infer_worker = self.model_update_infer_workers[infer_worker_idx]
+            self._co_infer_worker_rank = infer_worker_idx
+
+        # rank0 broadcast to mismatch workers
+        if dist.get_rank() == 0 and (device_start_diff > 0 or device_end_diff < 0):
+            self._broadcast_workers = []
+            if device_start_diff > 0:
+                self._broadcast_workers.extend(
+                    self.model_update_infer_workers[: device_start_diff // infer_worker_devices_num]
+                )
+            if device_end_diff < 0:
+                self._broadcast_workers.extend(
+                    self.model_update_infer_workers[device_end_diff // infer_worker_devices_num :]
+                )
+            self._setup_broadcast_group()
+
+    def _get_local_visible_gpu_rank(self) -> int:
+        """Return the first visible GPU rank from CUDA_VISIBLE_DEVICES.
+
+        In colocated mode (CUDA IPC), the serialized CUDA tensor must be rebuilt
+        on the exact same physical GPU as the sender rank used. We use the
+        physical GPU id (gpu_rank) to align TP-ranks between train and vLLM.
+        """
+        cuda_visible = os.environ.get("CUDA_VISIBLE_DEVICES", "")
+        if not cuda_visible:
+            return 0
+        return int(cuda_visible.split(",")[0].strip())
+
+    def _get_local_global_gpu_id(self) -> int:
+        """Return global GPU id for current train rank based on device_mapping.
+
+        device_mapping uses global ids: global_id = node_rank * gpu_per_node + gpu_rank.
+        This is the only stable identifier to align tensors across nodes.
+        """
+        return int(self.worker_config.device_mapping[dist.get_rank()])
+
+    def _get_co_infer_gpu_rank_order(self) -> list[int] | None:
+        """Get per-TP-rank GPU order as seen by the colocated infer worker."""
+        if self._co_infer_worker is None:
+            return None
+        cached = getattr(self, "_co_infer_gpu_rank_order", None)
+        if cached is not None:
+            return cached
+        devices_info = ray.get(self._co_infer_worker.get_devices_info.remote())
+        order = [int(d["gpu_rank"]) for d in devices_info]
+        setattr(self, "_co_infer_gpu_rank_order", order)
+        return order
+
+    def _get_co_infer_global_gpu_id_order(self) -> list[int] | None:
+        """Get per-TP-rank global GPU id order for the colocated infer worker.
+
+        vLLM indexes `serialized_named_tensors` by its internal worker rank, which
+        follows `resource_placement_groups` order, which in turn follows the
+        infer worker's device_mapping slice order.
+        """
+        if self._co_infer_worker_rank is None:
+            return None
+        num = self.infer_worker_config.num_gpus_per_worker
+        start = int(self._co_infer_worker_rank) * num
+        end = start + num
+        return [int(x) for x in self.infer_worker_config.device_mapping[start:end]]
+
+    def _setup_separated_model_update(self):
+        if dist.get_rank() != 0:
+            return
+
+        self._broadcast_workers = self.model_update_infer_workers
+        self._setup_broadcast_group()
+
+    def _setup_broadcast_group(self):
+        if not self._broadcast_workers:
+            return
+        self.model_update_group_name = f"{self.model_update_name}_fsdp2"
+        num_gpus_per_infer_worker = self.infer_worker_config.num_gpus_per_worker
+        infer_device_num = num_gpus_per_infer_worker * len(self._broadcast_workers)
+        master_address, master_port = get_node_ip(), collect_free_port()
+
+        refs = [
+            infer_worker.setup_collective_group.remote(
+                master_address=master_address,
+                master_port=master_port,
+                group_name=self.model_update_group_name,
+                rank_offset=i * num_gpus_per_infer_worker + 1,
+                world_size=infer_device_num + 1,
+            )
+            for i, infer_worker in enumerate(self._broadcast_workers)
+        ]
+        collective.init_collective_group(
+            infer_device_num + 1,
+            0,
+            group_name=self.model_update_group_name,
+            master_addr=master_address,
+            master_port=master_port,
+        )
+        ray.get(refs)
+
+        logger.info(f"Init weights update group {self.model_update_group_name}")
+
+    def _colocated_model_update(self):
+        refs = []
+        infer_parallel_size = dist.get_world_size(self._infer_parallel_cpu_group)
+        co_infer_rank = dist.get_rank(self._infer_parallel_cpu_group)
+        for named_weights in gather_fsdp2_weights(
+            self.model, buffer_size=self._model_update_buffer_size, is_lora=self.is_lora
+        ):
+            if self._co_infer_worker is not None:
+                serialized_tensors = serialize_named_weights(
+                    named_weights, infer_strategy=self.infer_worker_config.strategy_args.strategy_name
+                )
+                send_global_gpu_id = self._get_local_global_gpu_id()
+                send_obj = {"global_gpu_id": send_global_gpu_id, "payload": serialized_tensors}
+                infer_parallel_tensors = [serialized_tensors]  # tensors for each infer parallel rank
+                if infer_parallel_size > 1:
+                    infer_parallel_tensors = [None] * infer_parallel_size if co_infer_rank == 0 else None
+                    global_dst_rank = dist.get_global_rank(self._infer_parallel_cpu_group, 0)
+                    dist.gather_object(
+                        serialized_tensors, infer_parallel_tensors, group_dst=global_dst_rank, group=self._infer_parallel_cpu_group
+                    )
+            if refs:
+                ray.get(refs)
+                refs = []
+            if co_infer_rank == 0 and self._co_infer_worker is not None:
+                # Align gathered per-train-rank payloads with vLLM TP-rank GPU order.
+                if infer_parallel_size > 1:
+                    assert isinstance(infer_parallel_tensors, list)
+                    infer_global_gpu_id_order = self._get_co_infer_global_gpu_id_order()
+                    if infer_global_gpu_id_order is not None and len(infer_global_gpu_id_order) == infer_parallel_size:
+                        global_id_to_idx = {gid: i for i, gid in enumerate(infer_global_gpu_id_order)}
+                        reordered = [None] * infer_parallel_size
+                        extras = []
+                        for item in infer_parallel_tensors:
+                            if not isinstance(item, dict) or "global_gpu_id" not in item or "payload" not in item:
+                                # Backward compatibility: old format was the raw payload.
+                                extras.append(item)
+                                continue
+                            idx = global_id_to_idx.get(int(item["global_gpu_id"]))
+                            if idx is None:
+                                extras.append(item)
+                                continue
+                            reordered[idx] = item["payload"]
+                        # Fill holes with any extras to avoid hard crash; vLLM side will still
+                        # error if GPU mismatch, but this gives best-effort compatibility.
+                        for i in range(infer_parallel_size):
+                            if reordered[i] is None and extras:
+                                extra = extras.pop(0)
+                                reordered[i] = (
+                                    extra["payload"] if isinstance(extra, dict) and "payload" in extra else extra
+                                )
+                        if any(x is None for x in reordered):
+                            missing = [i for i, x in enumerate(reordered) if x is None]
+                            raise RuntimeError(
+                                "FSDP2 colocated model update failed to align TP-ranks to GPUs. "
+                                f"Missing indices={missing}, infer_global_gpu_id_order={infer_global_gpu_id_order}, "
+                                f"gathered={infer_parallel_tensors}"
+                            )
+                        infer_parallel_tensors = reordered
+                    else:
+                        infer_parallel_tensors = [
+                            (x["payload"] if isinstance(x, dict) and "payload" in x else x)
+                            for x in infer_parallel_tensors
+                        ]
+                else:
+                    infer_parallel_tensors = [serialized_tensors]
+                refs.append(
+                    self._co_infer_worker.update_parameter_in_bucket.remote(
+                        infer_parallel_tensors, is_lora=self.is_lora
+                    )
+                )
+            if self._broadcast_workers:
+                refs.extend(self._broadcast_to_infer_workers(named_weights))
+        if refs:
+            ray.get(refs)
+        self._add_lora_to_infer_workers()
+        torch.cuda.empty_cache()
+        return {}
+
+    def _broadcast_to_infer_workers(self, named_weights) -> list[ray.ObjectRef]:
+        if not self._broadcast_workers:
+            return []
+        refs = [
+            worker.broadcast_parameter.remote(
+                group_name=self.model_update_group_name,
+                names=[n for n, _ in named_weights],
+                dtypes=[w.dtype for _, w in named_weights],
+                shapes=[w.shape for _, w in named_weights],
+                is_lora=self.is_lora,
+            )
+            for worker in self._broadcast_workers
+        ]
+        handles = []
+        # Keep references to tensors moved to device to prevent premature deallocation
+        device_tensors = []
+
+        for _, weight in named_weights:
+            # Ensure weight is on the correct device (e.g. NPU) if using HCCL/NCCL
+            if weight.device.type == "cpu" and current_platform.device_type != "cpu":
+                weight_device = weight.to(current_platform.device_type)
+                device_tensors.append(weight_device)
+                weight = weight_device
+
+            handles.append(
+                collective.broadcast(tensor=weight, src_rank=0, group_name=self.model_update_group_name, async_op=True)
+            )
+        for handle in handles:
+            handle.wait()
+        return refs
+
+    def _separated_model_update(self):
+        logger.info(f"start broadcast model update {self.model_update_group_name}")
+        for named_weights in gather_fsdp2_weights(
+            self.model, buffer_size=self._model_update_buffer_size, is_lora=self.is_lora
+        ):
+            refs = self._broadcast_to_infer_workers(named_weights)
+            ray.get(refs)
+        self._add_lora_to_infer_workers()
+        torch.cuda.empty_cache()
+        return {}
+
+    def _add_lora_to_infer_workers(self):
+        if dist.get_rank() != 0 or not self.is_lora:
+            return
+        peft_config = self.model.peft_config.get("default", None)
+        ray.get(
+            [worker.add_lora.remote(peft_config=asdict(peft_config)) for worker in self.model_update_infer_workers]
+        )
diff --git a/roll/third_party/fsdp2/qwen3_moe_patch.py b/roll/third_party/fsdp2/qwen3_moe_patch.py
new file mode 100644
index 000000000..5686a8495
--- /dev/null
+++ b/roll/third_party/fsdp2/qwen3_moe_patch.py
@@ -0,0 +1,36 @@
+import torch
+import torch.nn.functional as F
+
+
+# force each expert to participate in computation graph so FSDP could gather all expert outputs
+def qwen3_moe_forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+    batch_size, sequence_length, hidden_dim = hidden_states.shape
+    hidden_states = hidden_states.view(-1, hidden_dim)
+    router_logits = self.gate(hidden_states)
+
+    routing_weights = F.softmax(router_logits, dim=1, dtype=torch.float)
+    routing_weights, selected_experts = torch.topk(routing_weights, self.top_k, dim=-1)
+    if self.norm_topk_prob:
+        routing_weights /= routing_weights.sum(dim=-1, keepdim=True)
+    routing_weights = routing_weights.to(hidden_states.dtype)
+
+    final_hidden_states = torch.zeros(
+        (batch_size * sequence_length, hidden_dim), dtype=hidden_states.dtype, device=hidden_states.device
+    )
+
+    expert_mask = torch.nn.functional.one_hot(selected_experts, num_classes=self.num_experts).permute(2, 1, 0)
+
+    for expert_idx in range(self.num_experts):
+        expert_layer = self.experts[expert_idx]
+        idx, top_x = torch.where(expert_mask[expert_idx])
+
+        if top_x.numel() > 0:
+            current_state = hidden_states[None, top_x].reshape(-1, hidden_dim)
+            current_hidden_states = expert_layer(current_state) * routing_weights[top_x, idx, None]
+            final_hidden_states.index_add_(0, top_x, current_hidden_states.to(hidden_states.dtype))
+        else:
+            dummy_output = expert_layer(hidden_states[:1]) * 0.0
+            final_hidden_states[:1] = final_hidden_states[:1] + dummy_output
+
+    final_hidden_states = final_hidden_states.reshape(batch_size, sequence_length, hidden_dim)
+    return final_hidden_states, router_logits
diff --git a/roll/third_party/fsdp2/tiled_mlp.py b/roll/third_party/fsdp2/tiled_mlp.py
new file mode 100644
index 000000000..361688dd0
--- /dev/null
+++ b/roll/third_party/fsdp2/tiled_mlp.py
@@ -0,0 +1,239 @@
+# Copyright 2024 Bytedance Ltd. and/or its affiliates
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+FSDP2-compatible TiledMLP implementation for memory-efficient MLP computation.
+
+This module provides a tiled MLP implementation that reduces peak memory usage
+by processing the MLP forward/backward pass in chunks (tiles). This is particularly
+useful for large models with FSDP2 training.
+
+Reference: https://github.com/volcengine/verl/blob/main/verl/models/transformers/tiled_mlp.py#L1-L237
+"""
+
+import threading
+from typing import Optional
+
+import torch
+import torch.nn as nn
+
+
+class GradientAccumulator:
+    """Gradient accumulator for TiledMLP (FSDP compatible).
+
+    This class manages gradient accumulation across multiple shards during
+    the backward pass of TiledMLP. It ensures correct gradient computation
+    when processing input in chunks.
+    """
+
+    def __init__(self, params: list[torch.nn.Parameter], total_shards: int, dtype: torch.dtype = None):
+        self.params = params
+        self.total_shards = total_shards
+        self.grad_accumulation_dtype = dtype or torch.float32
+        self.accumulated_grads = {}
+        self.hooks = []
+        self.lock = threading.Lock()
+
+        for param in self.params:
+            if param.grad is not None:
+                self.accumulated_grads[param] = param.grad.to(self.grad_accumulation_dtype)
+                param.grad = None
+            else:
+                self.accumulated_grads[param] = torch.zeros_like(param, dtype=self.grad_accumulation_dtype)
+
+    def install_hooks(self, is_last_shard: bool):
+        """Install gradient hooks for the current shard."""
+        self._remove_hooks()
+
+        def create_hook(param):
+            def hook(grad):
+                with self.lock:
+                    grad_to_accum_dtype = grad.to(self.grad_accumulation_dtype)
+                    self.accumulated_grads[param] += grad_to_accum_dtype
+
+                    if is_last_shard:
+                        param.grad = None  # Critical: prevent double accumulation
+                        final_grad = self.accumulated_grads[param].to(param.dtype)
+                        return final_grad
+                    return None
+
+            return hook
+
+        for param in self.params:
+            if param.requires_grad:
+                hook = param.register_hook(create_hook(param))
+                self.hooks.append(hook)
+
+    def _remove_hooks(self):
+        """Remove all registered hooks."""
+        for hook in self.hooks:
+            hook.remove()
+        self.hooks.clear()
+
+    def cleanup(self):
+        """Cleanup hooks and resources."""
+        self._remove_hooks()
+
+
+class TiledMLP(torch.autograd.Function):
+    """TiledMLP implementation for memory-efficient MLP computation.
+
+    This autograd function processes MLP forward/backward in tiles (chunks)
+    to reduce peak memory usage. Compatible with FSDP2.
+    """
+
+    @staticmethod
+    def forward(ctx, fn, module, x, shards, compute_params):
+        ctx.fn = fn
+        ctx.module = module
+        ctx.shards = shards
+        ctx.compute_params = [p for p in compute_params if p.requires_grad]
+        ctx.save_for_backward(x)
+
+        # Split on dim=-2 (seqlen dimension) following Liger Kernel style
+        x_shards = list(torch.chunk(x, chunks=shards, dim=-2))
+        with torch.no_grad():
+            output_shards = [fn(module, x_shard) for x_shard in x_shards]
+        output_unsharded = torch.cat(output_shards, dim=-2)
+        return output_unsharded
+
+    @staticmethod
+    def backward(ctx, *grads):
+        fn = ctx.fn
+        (x,) = ctx.saved_tensors
+        module = ctx.module
+        shards = ctx.shards
+        compute_params = ctx.compute_params
+
+        x_requires_grad = x.requires_grad
+        x = x.detach()
+        x.requires_grad_(x_requires_grad)
+
+        # Flatten to [bs*seqlen, hidden_size]
+        hidden_size = x.shape[-1]
+        x_shape_orig = x.shape
+        x = x.view(-1, hidden_size)
+        incoming_grad = grads[0].view(-1, hidden_size)
+
+        # Pre-allocate input gradient
+        x_grad = torch.zeros_like(x)
+
+        # Split on dim=0
+        x_shards = list(torch.chunk(x, chunks=shards, dim=0))
+
+        grad_accumulator = GradientAccumulator(compute_params, shards, dtype=x.dtype)
+
+        for i, x_shard in enumerate(x_shards):
+            x_shard.requires_grad_(x_requires_grad)
+
+            shard_step = x_shards[i].shape[0]
+            shard_offset = i * x_shards[0].shape[0]
+
+            # narrow(0, ...) creates a contiguous view that can receive gradients
+            x_shard.grad = x_grad.narrow(0, shard_offset, shard_step)
+            incoming_grad_shard = incoming_grad.narrow(0, shard_offset, shard_step)
+
+            is_last_shard = i + 1 == shards
+            grad_accumulator.install_hooks(is_last_shard)
+
+            with torch.enable_grad():
+                output = fn(module, x_shard)
+            torch.autograd.backward(output, incoming_grad_shard)
+
+        grad_accumulator.cleanup()
+        del grad_accumulator
+
+        # Restore original shape
+        x_grad = x_grad.view(x_shape_orig) if x_requires_grad else None
+        return (None, None, x_grad, None, None)
+
+
+def _mlp_forward_fn(module, x):
+    """Forward function for LlamaMLP / Qwen2MLP / Qwen3MLP style."""
+    return module.down_proj(module.act_fn(module.gate_proj(x)) * module.up_proj(x))
+
+
+# ============================================================================
+# Monkey Patch Functions
+# ============================================================================
+
+# Model type to MLP class mapping
+_MODEL_TYPE_TO_MLP_CLASS = {
+    "llama": ("transformers.models.llama.modeling_llama", "LlamaMLP"),
+    "qwen2": ("transformers.models.qwen2.modeling_qwen2", "Qwen2MLP"),
+    "qwen2_5": ("transformers.models.qwen2.modeling_qwen2", "Qwen2MLP"),  # Qwen2.5 uses Qwen2 MLP
+    "qwen3": ("transformers.models.qwen3.modeling_qwen3", "Qwen3MLP"),
+    "qwen3_moe": ("transformers.models.qwen3_moe.modeling_qwen3_moe", "Qwen3MoeMLP"),
+}
+
+
+def apply_tiled_mlp_monkey_patch(
+    num_shards: int = 4,
+    model_type: Optional[str] = None,
+):
+    """Apply TiledMLP monkey patch based on model_type.
+
+    This function MUST be called BEFORE model instantiation to take effect.
+    It patches the MLP classes in transformers library to use TiledMLP for
+    memory-efficient computation during training.
+
+    Args:
+        num_shards: Number of shards to split the input into. Higher values
+                   reduce peak memory but may slightly impact performance.
+        model_type: The model type string (e.g., "llama", "qwen2", "qwen3").
+                   If None, patches all supported model types.
+
+    Returns:
+        List of patched class names.
+    """
+    if model_type is None:
+        types_to_patch = list(_MODEL_TYPE_TO_MLP_CLASS.keys())
+    elif model_type in _MODEL_TYPE_TO_MLP_CLASS:
+        types_to_patch = [model_type]
+    else:
+        raise ValueError(
+            f"TiledMLP does not support model_type='{model_type}'. "
+            f"Supported types: {list(_MODEL_TYPE_TO_MLP_CLASS.keys())}. "
+            f"For SwiGLU-style MLPs, you can add support by extending _MODEL_TYPE_TO_MLP_CLASS "
+            f"in verl/models/transformers/tiled_mlp.py"
+        )
+
+    patched_classes = []
+
+    for mtype in types_to_patch:
+        module_path, class_name = _MODEL_TYPE_TO_MLP_CLASS[mtype]
+        try:
+            import importlib
+
+            module = importlib.import_module(module_path)
+            mlp_class = getattr(module, class_name)
+            _patch_mlp_class(mlp_class, _mlp_forward_fn, num_shards)
+            if class_name not in patched_classes:
+                patched_classes.append(class_name)
+        except (ImportError, AttributeError) as e:
+            print(f"Warning: Could not patch {mtype} MLP: {e}")
+
+    if patched_classes:
+        print(f"TiledMLP monkey patch applied to: {', '.join(patched_classes)} (shards={num_shards})")
+
+    return patched_classes
+
+
+def _patch_mlp_class(mlp_class: type[nn.Module], forward_fn, num_shards: int):
+    """Patch a single MLP class to use TiledMLP."""
+
+    def tiled_forward(self, x):
+        compute_params = [p for p in self.parameters() if p.requires_grad]
+        return TiledMLP.apply(forward_fn, self, x, num_shards, compute_params)
+
+    mlp_class.forward = tiled_forward
diff --git a/roll/third_party/megatron/model_update.py b/roll/third_party/megatron/model_update.py
new file mode 100644
index 000000000..8903b8c63
--- /dev/null
+++ b/roll/third_party/megatron/model_update.py
@@ -0,0 +1,484 @@
+import time
+from dataclasses import asdict
+from typing import Optional
+
+import ray
+import torch
+import torch.distributed as dist
+from megatron.core import mpu
+from transformers.utils import is_peft_available
+
+from mcore_adapter.models.converter.model_converter import ModelConverter
+from mcore_adapter.models.model_factory import McaGPTModel
+from roll.configs.base_config import PPOConfig
+from roll.configs.worker_config import WorkerConfig, is_actor_infer_overlapping_with_any_cluster
+from roll.distributed.executor.cluster import Cluster
+from roll.distributed.scheduler.driver_utils import Locker
+from roll.platforms import current_platform
+from roll.utils.collective import collective
+from roll.utils.constants import RAY_NAMESPACE
+from roll.utils.logging import get_logger
+from roll.utils.network_utils import collect_free_port, get_node_ip
+from roll.utils.send_recv_utils import serialize_named_weights
+
+
+if is_peft_available():
+    from peft import PeftModel, get_peft_model_state_dict
+
+logger = get_logger()
+
+
+def gather_and_convert_weights(
+    weights_info: list[tuple[str, torch.Tensor]],
+    model_converter: ModelConverter,
+    tp_group: Optional[dist.ProcessGroup] = None,
+    ep_group: Optional[dist.ProcessGroup] = None,
+    **kwargs,
+) -> dict[str, torch.Tensor]:
+    """
+    weights_info: list of tuples, each tuple is (mcore_name, weight)
+    """
+    if model_converter.mca_config.hf_model_type in ["qwen3_vl_moe", "qwen3_5_moe"] and ep_group is not None:
+        # qwen3_vl_moe and qwen3_5_moe has fused moe weights, so we need to gather weights in ep_group before convert
+        handles, gathered_named_weights = [], []
+        group_size = dist.get_world_size(ep_group)
+        for mcore_name, weight in weights_info:
+            if group_size == 1:
+                gathered_named_weights.append((mcore_name, [weight]))
+                handles.append(None)
+                continue
+            gathered_weights = [torch.empty_like(weight) for _ in range(group_size)]
+            gathered_named_weights.append((mcore_name, gathered_weights))
+            handles.append(dist.all_gather(gathered_weights, weight, group=ep_group, async_op=True))
+
+        def extract_suffix_number(s):
+            import re
+
+            match = re.search(r"\d+$", s)
+            return match.group() if match else None
+
+        hf_named_weights = []
+        for handle, (mcore_name, weights) in zip(handles, gathered_named_weights):
+            if handle is not None:
+                handle.wait()
+            local_moe_index = extract_suffix_number(mcore_name)
+            for ep_rank, weight in enumerate(weights):
+                global_moe_index = model_converter.dist_converter.num_layers_for_expert * ep_rank + int(
+                    local_moe_index
+                )
+                name = mcore_name[: -len(local_moe_index)] + str(global_moe_index)
+                converted_weights = (
+                    model_converter.convert_to_hf(
+                        {name: [weight]}, layer_index_preprocessed=True, moe_index_preprocessed=True, **kwargs
+                    )
+                    or {}
+                )
+                hf_named_weights.extend([(name, weight) for name, weight in converted_weights.items()])
+
+        return hf_named_weights
+
+    handles, gathered_named_weights = [], []
+    group_size = 1 if tp_group is None else dist.get_world_size(tp_group)
+    for mcore_name, weight in weights_info:
+        if group_size == 1:
+            gathered_named_weights.append((mcore_name, [weight]))
+            handles.append(None)
+            continue
+        gathered_weights = [torch.empty_like(weight) for _ in range(group_size)]
+        gathered_named_weights.append((mcore_name, gathered_weights))
+        handles.append(dist.all_gather(gathered_weights, weight, group=tp_group, async_op=True))
+
+    hf_named_weights = []
+    for handle, (mcore_name, weights) in zip(handles, gathered_named_weights):
+        if handle is not None:
+            handle.wait()
+        converted_weights = (
+            model_converter.convert_to_hf({mcore_name: weights}, layer_index_preprocessed=True, **kwargs) or {}
+        )
+        hf_named_weights.extend([(name, weight) for name, weight in converted_weights.items()])
+
+    if ep_group is None or dist.get_world_size(ep_group) == 1:
+        return hf_named_weights
+
+    names = [name for name, _ in hf_named_weights]
+    # TODO: use cpu but not communicate
+    ep_group_size = dist.get_world_size(ep_group)
+    all_names = [None for _ in range(dist.get_world_size(ep_group))]
+    dist.all_gather_object(all_names, names, group=ep_group)
+    handles = []
+    all_named_weights = []
+    for i, (name, weight) in enumerate(hf_named_weights):
+        gathered_weights = [torch.empty_like(weight) for _ in range(ep_group_size)]
+        handles.append(dist.all_gather(gathered_weights, weight.contiguous(), group=ep_group, async_op=True))
+        for rank, gathered_weight in enumerate(gathered_weights):
+            ep_name = all_names[rank][i]
+            all_named_weights.append((ep_name, gathered_weight))
+
+    for handle in handles:
+        handle.wait()
+    return all_named_weights
+
+
+def _gather_hf_weights(
+    model_converter: ModelConverter,
+    named_weights: list[tuple[str, torch.Tensor]],
+    buffer_size: Optional[int] = None,
+    **kwargs,
+):
+    mca_config = model_converter.mca_config
+    other_weights_with_info = []
+    expert_weights_with_info = []
+    for mcore_name, weight in named_weights:
+        if model_converter.dist_converter.is_expert_parallel_weight(mcore_name):
+            expert_weights_with_info.append((mcore_name, weight))
+        else:
+            other_weights_with_info.append((mcore_name, weight))
+
+    def _process_and_yield_weights(weights_info, group=None, ep_group=None):
+        # TODO: skip tp dup weights gather
+        waiting_weights, waiting_weights_size = [], 0
+        group_size = 1 if group is None else dist.get_world_size(group)
+        group_size *= 1 if ep_group is None else dist.get_world_size(ep_group)
+        for mcore_name, weight in weights_info:
+            weight_size = weight.numel() * weight.element_size() * group_size
+            if buffer_size is not None and waiting_weights_size + weight_size > buffer_size:
+                yield gather_and_convert_weights(waiting_weights, model_converter, group, ep_group)
+                waiting_weights, waiting_weights_size = [], 0
+            waiting_weights.append((mcore_name, weight))
+            waiting_weights_size += weight_size
+
+        if waiting_weights:
+            yield gather_and_convert_weights(waiting_weights, model_converter, group, ep_group, **kwargs)
+
+    ep_group = None
+    if mca_config.expert_model_parallel_size is not None and mca_config.expert_model_parallel_size > 1:
+        ep_group = mpu.get_expert_model_parallel_group()
+
+    yield from _process_and_yield_weights(expert_weights_with_info, mpu.get_expert_tensor_parallel_group(), ep_group)
+    yield from _process_and_yield_weights(other_weights_with_info, mpu.get_tensor_model_parallel_group())
+
+
+def _iter_vp_stage_named_weights(models: list[McaGPTModel], model_converter: ModelConverter):
+    for vp_stage, model in enumerate(models):
+        if is_peft_available() and isinstance(model, PeftModel):
+            mcore_state_dict = get_peft_model_state_dict(model, model.state_dict_for_save_checkpoint())
+        else:
+            mcore_state_dict = model.state_dict_for_save_checkpoint()
+        for mcore_name, weight in sorted(mcore_state_dict.items()):
+            if mcore_name.endswith("_extra_state"):
+                continue
+            mcore_name = model_converter.dist_converter.preprocess_layer_index(mcore_name, vp_stage=vp_stage)
+            yield mcore_name, weight
+
+
+def gather_pp_stage_hf_weights(models: list[McaGPTModel], buffer_size, **kwargs):
+    # gather tp&ep weights, not including pipeline parallel
+    if not mpu.model_parallel_is_initialized():
+        raise RuntimeError("Model parallelism must be initialized before save as hf inflight.")
+
+    model_config = models[0].config
+    model_converter = ModelConverter(model_config, to_hf=True, efficient_mode=True)
+    yield from _gather_hf_weights(
+        model_converter, list(_iter_vp_stage_named_weights(models, model_converter)), buffer_size, **kwargs
+    )
+
+
+def gather_weights_meta_cross_pp(models: list[McaGPTModel]):
+    if not mpu.model_parallel_is_initialized():
+        raise RuntimeError("Model parallelism must be initialized before save as hf inflight.")
+    model_config = models[0].config
+    if model_config.pipeline_model_parallel_size <= 1:
+        return None
+    pp_rank = mpu.get_pipeline_model_parallel_rank()
+    model_converter = ModelConverter(model_config, to_hf=True, efficient_mode=True)
+    named_weights_meta = []
+    for mcore_name, weight in _iter_vp_stage_named_weights(models, model_converter):
+        weight_size = weight.numel() * weight.element_size()
+        if model_converter.dist_converter.is_expert_parallel_weight(mcore_name):
+            weight_size *= model_config.expert_model_parallel_size * model_config.expert_tensor_parallel_size
+        else:
+            weight_size *= model_config.tensor_model_parallel_size
+        named_weights_meta.append(
+            {
+                "name": mcore_name,
+                "shape": weight.shape,
+                "dtype": weight.dtype,
+                "pp_stage": pp_rank,
+                "size": weight_size,
+            }
+        )
+    all_named_weights_meta = [None for _ in range(model_config.pipeline_model_parallel_size)]
+    dist.all_gather_object(all_named_weights_meta, named_weights_meta, group=mpu.get_pipeline_model_parallel_group())
+    all_named_weights_meta = sorted(
+        [meta for metas in all_named_weights_meta for meta in metas], key=lambda x: x["name"]
+    )
+    expert_weights_meta = []
+    other_weights_meta = []
+    for meta in all_named_weights_meta:
+        if model_converter.dist_converter.is_expert_parallel_weight(meta["name"]):
+            expert_weights_meta.append(meta)
+        else:
+            other_weights_meta.append(meta)
+    return expert_weights_meta + other_weights_meta
+
+
+def gather_all_hf_weights(models: list[McaGPTModel], buffer_size: int, weights_meta: Optional[list[dict]]):
+    # weights_meta: list of dict, each dict is {"name": str, "shape": list, "dtype": str, "pp_stage": int, "size": int}
+    if not mpu.model_parallel_is_initialized():
+        raise RuntimeError("Model parallelism must be initialized before save as hf inflight.")
+
+    kwargs = {}
+    if is_peft_available() and isinstance(models[0], PeftModel):
+        lora_rank = next(iter(models[0].peft_config.values())).r
+        kwargs = {"lora_rank": lora_rank}
+
+    pp_size = models[0].config.pipeline_model_parallel_size
+    if pp_size <= 1:
+        yield from gather_pp_stage_hf_weights(models, buffer_size, **kwargs)
+        return
+
+    pp_rank = mpu.get_pipeline_model_parallel_rank()
+    model_converter = ModelConverter(
+        models[0].config, pipeline_model_parallel_rank=pp_rank, to_hf=True, efficient_mode=True
+    )
+    cur_stage_state_dict = {
+        mcore_name: weight for mcore_name, weight in _iter_vp_stage_named_weights(models, model_converter)
+    }
+
+    def _gather_batch_params(named_weights_with_stage: list[tuple[str, torch.Tensor, int]]):
+        # named_weights_with_stage: list of tuples, each tuple is (mcore_name, weight, pp_stage)
+        named_weights, handles = [], []
+        for mcore_name, weight, pp_stage in named_weights_with_stage:
+            named_weights.append((mcore_name, weight))
+            handles.append(
+                dist.broadcast(
+                    weight, group=mpu.get_pipeline_model_parallel_group(), async_op=True, group_src=pp_stage
+                )
+            )
+        for handle in handles:
+            handle.wait()
+        yield from _gather_hf_weights(model_converter, named_weights, **kwargs)
+
+    waiting_weights, waiting_weights_size = [], 0
+    for weight_meta in weights_meta:
+        weight_size = weight_meta["size"]
+        if waiting_weights_size + weight_size > buffer_size and waiting_weights:
+            yield from _gather_batch_params(waiting_weights)
+            waiting_weights, waiting_weights_size = [], 0
+        if weight_meta["pp_stage"] == pp_rank:
+            weight = cur_stage_state_dict[weight_meta["name"]]
+        else:
+            weight = torch.empty(weight_meta["shape"], dtype=weight_meta["dtype"], device=current_platform.device_type)
+        waiting_weights.append((weight_meta["name"], weight, weight_meta["pp_stage"]))
+        waiting_weights_size += weight_size
+    if waiting_weights:
+        yield from _gather_batch_params(waiting_weights)
+
+
+class MegatronWeightUpdater:
+    def __init__(
+        self,
+        pipeline_config: PPOConfig,
+        worker_config: WorkerConfig,
+        model_update_name: str,
+        models_unwrapped,
+        infer_cluster: Cluster,
+    ):
+        self.pipeline_config = pipeline_config
+        self.worker_config = worker_config
+        self.model_update_name = model_update_name
+        self.models_unwrapped = models_unwrapped
+        self.model_update_infer_workers = infer_cluster.workers
+        self._model_update_buffer_size = (
+            pipeline_config.model_update_buffer_size_mb * 1024 * 1024
+        )  # Convert MB to bytes
+        self.infer_worker_config = infer_cluster.worker_config
+        self.infer_cluster = infer_cluster
+        self.is_colocated = is_actor_infer_overlapping_with_any_cluster(
+            infer_cluster.worker_config, actor_train=worker_config
+        )
+        self._broadcast_workers = None
+
+        # Colocated mode attributes
+        self._infer_parallel_cpu_group = None
+        self._co_infer_worker = None
+        self._buffer_num = None
+
+        # Separated mode attributes
+        self.model_update_group_name = None
+        self._model_update_locker = None
+        self._weights_meta = None
+
+        if self.is_colocated:
+            self._setup_colocated_model_update()
+        else:
+            self._setup_separated_model_update()
+
+    def model_update(self):
+        if self.is_colocated:
+            return self._colocated_model_update()
+        return self._separated_model_update()
+
+    def _setup_colocated_model_update(self):
+        logger.info(f"RANK {dist.get_rank()} Setup colocated model update")
+        infer_worker_devices_num = self.infer_worker_config.num_gpus_per_worker
+        train_world_size = dist.get_world_size()
+
+        device_start_diff = min(self.worker_config.device_mapping) - min(self.infer_worker_config.device_mapping)
+        device_end_diff = max(self.worker_config.device_mapping) - max(self.infer_worker_config.device_mapping)
+
+        assert device_start_diff % infer_worker_devices_num == 0
+        assert device_end_diff % infer_worker_devices_num == 0
+
+        for start_rank in range(0, train_world_size, infer_worker_devices_num):
+            end_rank = start_rank + infer_worker_devices_num
+            assert end_rank <= train_world_size
+            group_ranks = list(range(start_rank, end_rank))
+            new_group = dist.new_group(ranks=group_ranks, backend="gloo")
+            if dist.get_rank() in group_ranks:
+                self._infer_parallel_cpu_group = new_group
+        infer_worker_idx = (dist.get_rank() + device_start_diff) // infer_worker_devices_num
+        self._co_infer_worker = None
+        if 0 <= infer_worker_idx < len(self.model_update_infer_workers):
+            self._co_infer_worker = self.model_update_infer_workers[infer_worker_idx]
+
+        # rank0 broadcast to mismatch workers
+        if dist.get_rank() == 0 and (device_start_diff > 0 or device_end_diff < 0):
+            self._broadcast_workers = []
+            if device_start_diff > 0:
+                self._broadcast_workers.extend(
+                    self.model_update_infer_workers[: device_start_diff // infer_worker_devices_num]
+                )
+            if device_end_diff < 0:
+                self._broadcast_workers.extend(
+                    self.model_update_infer_workers[device_end_diff // infer_worker_devices_num :]
+                )
+            self._setup_broadcast_group()
+
+        self._weights_meta = gather_weights_meta_cross_pp(self.models_unwrapped)
+
+    def _setup_separated_model_update(self):
+        self._model_update_locker = Locker.options(
+            name="model_update_locker", get_if_exists=True, namespace=RAY_NAMESPACE
+        ).remote()
+        if not (
+            mpu.get_data_parallel_rank(with_context_parallel=True) == 0 and mpu.get_tensor_model_parallel_rank() == 0
+        ):
+            return
+
+        self._broadcast_workers = self.model_update_infer_workers
+        self._setup_broadcast_group()
+
+    def _setup_broadcast_group(self):
+        if not self._broadcast_workers:
+            return
+
+        ep_rank = 0
+        if (
+            self.models_unwrapped[0].config.num_moe_experts is not None
+            and self.models_unwrapped[0].config.num_moe_experts > 1
+        ):
+            ep_rank = mpu.get_expert_model_parallel_rank()
+        model_update_group_name = f"{self.model_update_name}_pp{mpu.get_pipeline_model_parallel_rank()}_ep{ep_rank}"
+        self.model_update_group_name = model_update_group_name
+
+        num_gpus_per_infer_worker = self.infer_worker_config.num_gpus_per_worker
+        infer_device_num = num_gpus_per_infer_worker * len(self._broadcast_workers)
+        master_address, master_port = get_node_ip(), collect_free_port()
+
+        refs = [
+            infer_worker.setup_collective_group.remote(
+                master_address=master_address,
+                master_port=master_port,
+                group_name=self.model_update_group_name,
+                rank_offset=i * num_gpus_per_infer_worker + 1,
+                world_size=infer_device_num + 1,
+            )
+            for i, infer_worker in enumerate(self._broadcast_workers)
+        ]
+        collective.init_collective_group(
+            infer_device_num + 1,
+            0,
+            group_name=self.model_update_group_name,
+            master_addr=master_address,
+            master_port=master_port,
+        )
+        ray.get(refs)
+
+        logger.info(f"Init weights update group {model_update_group_name}")
+
+    def _broadcast_to_infer_workers(self, hf_named_weights) -> list[ray.ObjectRef]:
+        if not self._broadcast_workers:
+            return []
+        refs = [
+            worker.broadcast_parameter.remote(
+                group_name=self.model_update_group_name,
+                names=[n for n, _ in hf_named_weights],
+                dtypes=[w.dtype for _, w in hf_named_weights],
+                shapes=[w.shape for _, w in hf_named_weights],
+                is_lora=self.worker_config.model_args.lora_target is not None,
+            )
+            for worker in self._broadcast_workers
+        ]
+        handles = []
+        for _, weight in hf_named_weights:
+            handles.append(
+                collective.broadcast(tensor=weight, src_rank=0, group_name=self.model_update_group_name, async_op=True)
+            )
+        for handle in handles:
+            handle.wait()
+        return refs
+
+    def _colocated_model_update(self):
+        refs = []
+        infer_parallel_size = dist.get_world_size(self._infer_parallel_cpu_group)
+        co_infer_rank = dist.get_rank(self._infer_parallel_cpu_group)
+        if is_lora := (self.worker_config.model_args.lora_target is not None):
+            peft_config = self.models_unwrapped[0].peft_config.get("default", None)
+        for hf_named_weights in gather_all_hf_weights(
+            self.models_unwrapped, buffer_size=self._model_update_buffer_size, weights_meta=self._weights_meta
+        ):
+            if self._co_infer_worker is not None:
+                serialized_tensors = serialize_named_weights(
+                    hf_named_weights, infer_strategy=self.infer_worker_config.strategy_args.strategy_name
+                )
+                infer_parallel_tensors = [None] * infer_parallel_size if co_infer_rank == 0 else None
+                dist.gather_object(
+                    serialized_tensors, infer_parallel_tensors, group_dst=0, group=self._infer_parallel_cpu_group
+                )
+
+            if refs:
+                ray.get(refs)
+                refs = []
+            if co_infer_rank == 0 and self._co_infer_worker is not None:
+                refs.append(
+                    self._co_infer_worker.update_parameter_in_bucket.remote(infer_parallel_tensors, is_lora=is_lora)
+                )
+            dist.barrier()
+            if self._broadcast_workers:
+                refs.extend(self._broadcast_to_infer_workers(hf_named_weights))
+
+        if refs:
+            ray.get(refs)
+            refs = []
+
+        if is_lora and co_infer_rank == 0 and self._co_infer_worker is not None:
+            refs.append(self._co_infer_worker.add_lora.remote(peft_config=asdict(peft_config)))
+        return {}
+
+    def _separated_model_update(self):
+        if not mpu.get_expert_data_parallel_rank() == 0:
+            return {}
+
+        logger.info(f"start broadcast model update {self.model_update_name}")
+        for hf_named_weights in gather_pp_stage_hf_weights(
+            self.models_unwrapped, buffer_size=self._model_update_buffer_size
+        ):
+            if not self._broadcast_workers:
+                continue
+            while not ray.get(self._model_update_locker.acquire.remote()):
+                time.sleep(0.1)
+            refs = self._broadcast_to_infer_workers(hf_named_weights)
+            ray.get(refs)
+            ray.get(self._model_update_locker.release.remote())
+        return {}
diff --git a/roll/third_party/megatron/optimizer.py b/roll/third_party/megatron/optimizer.py
index 87d6b8af7..888dc7a87 100644
--- a/roll/third_party/megatron/optimizer.py
+++ b/roll/third_party/megatron/optimizer.py
@@ -1,4 +1,5 @@
 import itertools
+import inspect
 import logging
 from typing import Callable, Dict, List, Optional, Tuple
 
@@ -67,6 +68,10 @@ def get_megatron_optimizer(
 
     optimizers = []
     model_chunk_offset = 0
+    kwargs = {}
+    if "config_overrides" in inspect.signature(_get_param_groups_and_buffers).parameters:
+        # config_overrides is required in mcore-core>=0.16
+        kwargs = {"config_overrides": None}
     for dense_model_chunks, overlap_param_gather_with_optimizer_step in zip(
         all_dense_model_chunks, overlap_param_gather_with_optimizer_step_flags
     ):
@@ -74,11 +79,9 @@ def get_megatron_optimizer(
             dense_model_chunks,
             model_chunk_offset=model_chunk_offset,
             config=config,
-            no_weight_decay_cond=no_weight_decay_cond,
-            scale_lr_cond=scale_lr_cond,
-            lr_mult=lr_mult,
             filter_fn=lambda g: not g['is_expert_parallel'],
             buffer_name='buffers',
+            **kwargs,
         )
         for model_chunk in dense_model_chunks:
             model_chunk.overlap_param_gather_with_optimizer_step = (
@@ -110,11 +113,9 @@ def get_megatron_optimizer(
         model_chunks,
         model_chunk_offset=0,
         config=config,
-        no_weight_decay_cond=no_weight_decay_cond,
-        scale_lr_cond=scale_lr_cond,
-        lr_mult=lr_mult,
         filter_fn=lambda g: g['is_expert_parallel'],
         buffer_name='expert_parallel_buffers',
+        **kwargs,
     )
     if len(moe_param_groups) > 0:
         model_parallel_rank = torch.distributed.get_rank(
diff --git a/roll/third_party/megatron/tensor_parallel.py b/roll/third_party/megatron/tensor_parallel.py
index 80bddeb13..69648296e 100644
--- a/roll/third_party/megatron/tensor_parallel.py
+++ b/roll/third_party/megatron/tensor_parallel.py
@@ -6,7 +6,6 @@
 class _VocabParallelEntropy(torch.autograd.Function):
     @staticmethod
     def forward(ctx, vocab_parallel_logits: torch.Tensor) -> torch.Tensor:
-        vocab_parallel_logits = vocab_parallel_logits.float()
         @torch.compile(dynamic=True)
         def mul_reduce(a, b):
             return (a * b).sum(dim=-1, keepdim=True)
diff --git a/roll/third_party/sglang/__init__.py b/roll/third_party/sglang/__init__.py
index e3d796903..4ddf780fa 100644
--- a/roll/third_party/sglang/__init__.py
+++ b/roll/third_party/sglang/__init__.py
@@ -16,5 +16,8 @@
 elif sgl.__version__ == '0.5.4.post2':
     from roll.third_party.sglang import v054_patch
     patch = v054_patch
+elif sgl.__version__ == '0.5.5.post3' or sgl.__version__ == '0.5.6.post2':
+    from roll.third_party.sglang import v054_patch
+    patch = v054_patch
 else:
      raise NotImplementedError(f"Scale aligner version sglang:{sgl.__version__} is not supported.")
\ No newline at end of file
diff --git a/roll/third_party/sglang/async_engine.py b/roll/third_party/sglang/async_engine.py
deleted file mode 100644
index d1aa52b45..000000000
--- a/roll/third_party/sglang/async_engine.py
+++ /dev/null
@@ -1,205 +0,0 @@
-import asyncio
-import contextlib
-import dataclasses
-import enum
-import traceback
-
-from roll.utils.logging import get_logger
-
-
-logger = get_logger()
-
-
-class SglangInputType(enum.Enum):
-    ADD = enum.auto()
-    ABORT = enum.auto()
-
-
-# 用于存放所有abort_rid_set
-abort_rid_set = set()
-abort_lock = asyncio.Lock()
-stop_flag = False
-
-
-async def producer(thread_queue, asyncio_queue):
-    PRODUCER_PUT_TIMEOUT = 15 * 60
-    global stop_flag
-    stop_flag = False
-    while True:
-        if not thread_queue.empty():
-            data = thread_queue.get()
-            # 收到结束标记
-            if data is None:
-                stop_flag = True
-                logger.info("[sglang async engine] receive stop signal, stoping")
-                break
-            command, command_data = data
-            if command == SglangInputType.ABORT:
-                async with abort_lock:
-                    rid = command_data
-                    abort_rid_set.add(rid)
-            else:
-                await asyncio.wait_for(asyncio_queue.put(data), timeout=PRODUCER_PUT_TIMEOUT)
-        else:
-            await asyncio.sleep(0.1)
-
-async def consumer(asyncio_queue, consumer_id, llm, request_complete_callback):
-    from sglang.srt.managers.io_struct import GenerateReqInput
-
-    from roll.distributed.scheduler.protocol import DataProto
-
-    def process_sglang_output(chunks, meta_info):
-        output_data = DataProto(meta_info=meta_info)
-        if chunks is None or chunks[0] is None:
-            # report a abort request
-            output_data.meta_info["finish_reasons"] = [None]  # not finished
-            request_complete_callback(data=output_data)
-            return
-
-        output_token_ids = [chunk.get("output_ids", []) for chunk in chunks]
-        output_logprobs = [chunk["meta_info"].get("output_token_logprobs", None) for chunk in chunks]
-        has_logprobs = any(logprobs is not None for logprobs in output_logprobs)
-        if has_logprobs:
-            lens = [min(len(ids), len(logprobs)) for ids, logprobs in zip(output_token_ids, output_logprobs)]
-            output_token_ids = [ids[:l] for ids, l in zip(output_token_ids, lens)]
-            output_logprobs = [logprobs[:l] for logprobs, l in zip(output_logprobs, lens)]
-            output_logprobs = [[prob_info[0] for prob_info in logprobs] for logprobs in output_logprobs]
-            output_data.meta_info["output_logprobs"] = output_logprobs
-            assert all([len(ids) == len(logprobs) for ids, logprobs in zip(output_token_ids, output_logprobs)]), (
-                "output_token_ids and output_logprobs length not match"
-            )
-        output_data.meta_info["output_token_ids"] = output_token_ids
-        output_data.meta_info["finish_reasons"] = [chunk["meta_info"].get("finish_reason") for chunk in chunks]
-        request_complete_callback(data=output_data)
-        logger.debug(f"worker_id:{consumer_id} request_id: {meta_info['request_id']} finish!")
-
-    try:
-        while True:
-            pack_data = await asyncio_queue.get()
-            asyncio_queue.task_done()
-            if pack_data is None:
-                break
-
-            command, data = pack_data
-
-            rid, input_ids, sampling_params, meta_info = data
-            collect_unfinished = meta_info.get("collect_unfinished", False)
-            rid_str = rid[0]
-
-            final_chunks: list[dict] = [None for _ in range(sampling_params['n'])]
-            logger.debug(f"worker_id:{consumer_id} request_id: {rid} starting!")
-
-            if sampling_params['n'] > 1:
-                rid = [rid]
-                assert not collect_unfinished, "collect_unfinished is not supported in parallel sampling"
-
-            obj_init_kw = {}  # return logprobs may be in GenerateReqInput not SamplingParams
-            for field in dataclasses.fields(GenerateReqInput):
-                if field.name in sampling_params:
-                    obj_init_kw[field.name] = sampling_params.pop(field.name)
-            from sglang import __version__ as version
-            if version >= '0.4.6.post4':
-                sampling_params['stream_interval'] = 50
-            obj = GenerateReqInput(
-                input_ids=input_ids,
-                sampling_params=sampling_params,
-                stream=True,
-                **obj_init_kw,
-            )
-
-            need_abort = stop_flag
-            async with abort_lock:
-                if rid_str in abort_rid_set:
-                    need_abort = True
-                    logger.debug(f"request_id: {rid_str} do not running!")
-            if need_abort:
-                if collect_unfinished:
-                    process_sglang_output(None, meta_info)
-                continue
-
-            generator = llm.tokenizer_manager.generate_request(obj, None)
-            generate_success = True
-            next_task = asyncio.create_task(generator.__anext__())
-            while True:
-                is_timeout = False
-                try:
-                    chunk = await asyncio.wait_for(asyncio.shield(next_task), timeout=10)
-                    next_task = asyncio.create_task(generator.__anext__())
-                except asyncio.TimeoutError:
-                    is_timeout = True
-                except StopAsyncIteration:
-                    break
-                if not is_timeout:
-                    chunk_index = chunk.get("index", 0)
-                    final_chunks[chunk_index] = chunk
-
-                need_abort = stop_flag
-                async with abort_lock:
-                    if rid_str in abort_rid_set:
-                        need_abort = True
-
-                if need_abort:
-                    logger.debug(f"request_id: {rid_str} aborting!")
-                    if obj.is_single:
-                        llm.tokenizer_manager.abort_request(obj.rid)
-                    else:
-                        for rid in obj.rid:
-                            llm.tokenizer_manager.abort_request(rid)
-                    logger.debug(f"request_id: {rid_str} abort success!")
-                    generate_success = False
-                    next_task.cancel()
-                    with contextlib.suppress(asyncio.CancelledError):
-                        await next_task
-                    break
-
-            if generate_success or collect_unfinished:
-                process_sglang_output(final_chunks, meta_info)
-    except Exception as e:
-        logger.info(traceback.format_exc())
-
-async def predict_in_asyncio(model, request_complete_callback, thread_queue, max_running_requests=128):
-    PRODUCER_BUFFER_SIZE = 128
-
-    logger.info("[sglang asyncio] env setup...")
-    async with abort_lock:
-        abort_rid_set.clear()
-    asyncio_queue = asyncio.Queue(maxsize=PRODUCER_BUFFER_SIZE)
-    producer_task = asyncio.create_task(producer(thread_queue, asyncio_queue))
-    consumers = [
-        asyncio.create_task(consumer(asyncio_queue, i, model, request_complete_callback))
-        for i in range(max_running_requests)
-    ]
-    logger.info("[sglang asyncio] env setup (done)")
-
-    await producer_task
-    logger.info("[sglang asyncio] killing consumers ...")
-    for _ in range(len(consumers)):
-        await asyncio_queue.put(None)
-
-    await asyncio_queue.join()
-    logger.info("[sglang asyncio] finish signal has set")
-
-    try:
-        await asyncio.wait_for(asyncio.gather(*consumers), timeout=60)
-    except asyncio.TimeoutError:
-        logger.info("Timeout: Not all tasks completed within the time limit")
-    # for safety, all requests should already be aborted
-    for rid in model.tokenizer_manager.rid_to_state:
-        model.tokenizer_manager.abort_request(rid)
-    logger.info("killing workers done, AsyncSglangEngine stop success")
-
-def start_async_sglang(loop, model, request_complete_callback, thread_queue, max_running_requests=128):
-    try:
-        loop.run_until_complete(
-            predict_in_asyncio(
-                model, request_complete_callback, thread_queue=thread_queue, max_running_requests=max_running_requests
-            )
-        )
-    except Exception as e:
-        logger.info(f"async_sglang thread raise Exception!\n{traceback.format_exc()}")
-
-def add_request(thread_queue, data):
-    thread_queue.put((SglangInputType.ADD, data))
-
-def abort_request(thread_queue, rid):
-    thread_queue.put((SglangInputType.ABORT, rid))
diff --git a/roll/third_party/sglang/fp8.py b/roll/third_party/sglang/fp8.py
new file mode 100644
index 000000000..6c99adfc8
--- /dev/null
+++ b/roll/third_party/sglang/fp8.py
@@ -0,0 +1,304 @@
+from typing import Any, Dict, List
+from functools import partial
+import weakref
+
+import torch
+from torch.nn import Module
+from torch.nn.parameter import Parameter
+
+from sglang.srt.layers.quantization.fp8 import (
+    Fp8Config,
+    _is_fp8_fnuz,
+    _is_cpu,
+    _is_hip,
+    _use_hip_int4,
+    _use_aiter,
+)
+from sglang.srt.layers.parameter import (
+    BlockQuantScaleParameter,
+    ModelWeightParameter,
+)
+from sglang.srt.layers.moe import get_moe_runner_backend
+from sglang.srt.layers.moe.ep_moe.layer import DeepEPMoE
+
+from roll.utils.fp8 import per_block_fp8_quant
+from roll.utils.logging import get_logger
+
+logger = get_logger()
+
+def from_config(cls, config: Dict[str, Any]) -> Fp8Config:
+    quant_method = cls.get_from_keys_or(config, ["quant_method"], "")
+    is_checkpoint_fp8_serialized = "fp8" in quant_method
+    activation_scheme = cls.get_from_keys(config, ["activation_scheme"])
+    ignored_layers = cls.get_from_keys_or(config, ["ignored_layers"], None)
+    weight_block_size = cls.get_from_keys_or(config, ["weight_block_size"], None)
+    skip_process_weights_after_loading = not is_checkpoint_fp8_serialized
+    config = cls(
+        is_checkpoint_fp8_serialized=True,
+        activation_scheme=activation_scheme,
+        ignored_layers=ignored_layers,
+        weight_block_size=weight_block_size,
+    )
+    config.skip_process_weights_after_loading = skip_process_weights_after_loading
+    return config
+
+def monkey_patch_fp8_config():
+    Fp8Config.from_config = classmethod(from_config)
+
+def per_block_fp8_quant_ue8m0(
+    weight: torch.Tensor,
+    weight_block_size: List[int],
+):
+    from sglang.srt.layers.quantization.fp8_utils import (
+        quant_weight_ue8m0,
+        transform_scale_ue8m0,
+    )
+    assert weight_block_size == [128, 128]
+
+    out_w, out_s = quant_weight_ue8m0(
+        weight_dequant=weight,
+        weight_block_size=weight_block_size,
+    )
+
+    out_s = transform_scale_ue8m0(out_s, mn=out_w.shape[-2])
+
+    return out_w, out_s
+
+def monkey_patch_fp8_linear_method():
+    def f_weight_loader(
+        layer: weakref.ReferenceType,
+        original_weight_loader,
+        param: torch.Tensor,
+        loaded_weight: torch.Tensor,
+        *args,
+        **kwargs
+    ) -> None:
+        layer = layer()
+        assert param is layer.weight
+        target_device = layer.weight.device
+        with target_device:
+            loaded_weight = loaded_weight.to(target_device)
+            weight = ModelWeightParameter(
+                                data=layer.weight.data if layer.weight_block_size else layer.weight.data.t(),
+                                input_dim=1,
+                                output_dim=0,
+                                weight_loader=original_weight_loader,
+                            )
+            if loaded_weight.dtype == torch.float8_e4m3fn:
+                original_weight_loader(weight, loaded_weight, *args, **kwargs)
+            else:
+                if layer.format_ue8m0:
+                    qweight, scale = per_block_fp8_quant_ue8m0(loaded_weight, layer.weight_block_size)
+                else:
+                    qweight, scale = per_block_fp8_quant(loaded_weight, layer.weight_block_size)
+                weight_scale_inv = BlockQuantScaleParameter(
+                                            data=layer.weight_scale_inv.data,
+                                            input_dim=1,
+                                            output_dim=0,
+                                            weight_loader=original_weight_loader,
+                                        )
+                weight_scale_inv.format_ue8m0 = True
+                original_weight_loader(weight, qweight, *args, **kwargs)
+                original_weight_loader(weight_scale_inv, scale, *args, **kwargs)
+
+    def f_weight_scale_loader(
+        layer: weakref.ReferenceType,
+        original_weight_loader,
+        param: torch.Tensor,
+        loaded_weight: torch.Tensor,
+        *args,
+        **kwargs
+    ) -> None:
+        layer = layer()
+        assert param is layer.weight_scale_inv
+        target_device = layer.weight_scale_inv.device
+        with target_device:
+            weight_scale_inv = BlockQuantScaleParameter(
+                                        data=layer.weight_scale_inv.data,
+                                        input_dim=1,
+                                        output_dim=0,
+                                        weight_loader=original_weight_loader,
+                                    )
+            original_weight_loader(weight_scale_inv, loaded_weight, *args, **kwargs)
+
+    from sglang.srt.layers.quantization.fp8 import Fp8LinearMethod
+    original_create_weights = Fp8LinearMethod.create_weights
+    original_process_weights_after_loading = Fp8LinearMethod.process_weights_after_loading
+
+    def f_create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: List[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        original_create_weights(self, layer, input_size_per_partition, output_partition_sizes, input_size, output_size, params_dtype, **extra_weight_attrs)
+        assert self.quant_config.is_checkpoint_fp8_serialized
+        assert self.block_quant, "only suuport block-wise quantization"
+        assert self.quant_config.weight_block_size
+        assert self.quant_config.activation_scheme == "dynamic"
+        assert not _is_fp8_fnuz
+        assert not _is_cpu
+        assert layer.input_scale is None
+
+        if self.quant_config.skip_process_weights_after_loading:
+            try:
+                from sglang.srt.layers.quantization.fp8_utils import (
+                    requant_weight_ue8m0_inplace,
+                    deepgemm_w8a8_block_fp8_linear_with_fallback,
+                )
+                from sglang.srt.model_loader.utils import should_deepgemm_weight_requant_ue8m0
+                # For fp8 linear weights run with deepgemm, the weights and scales need be requantized to ue8m0
+                if (
+                    should_deepgemm_weight_requant_ue8m0(self.quant_config.weight_block_size)
+                    and self.w8a8_block_fp8_linear is deepgemm_w8a8_block_fp8_linear_with_fallback
+                ):
+                    requant_weight_ue8m0_inplace(layer.weight, layer.weight_scale_inv, self.quant_config.weight_block_size)
+                    layer.format_ue8m0 = True
+                else:
+                    layer.format_ue8m0 = False
+            except:
+                layer.format_ue8m0 = False
+
+        layer.weight_block_size = self.quant_config.weight_block_size
+
+        weight_loader = layer.weight.weight_loader
+        weight_loader = partial(f_weight_loader, weakref.ref(layer), weight_loader)
+        layer.weight = Parameter(layer.weight.data, requires_grad=False)
+        layer.weight.weight_loader = weight_loader
+
+        weight_scale_inv_loader = layer.weight_scale_inv.weight_loader
+        weight_scale_inv_loader = partial(f_weight_scale_loader, weakref.ref(layer), weight_scale_inv_loader)
+        weight_scale_inv = layer.weight_scale_inv
+        layer.weight_scale_inv = Parameter(weight_scale_inv.data, requires_grad=False)
+        layer.weight_scale_inv.format_ue8m0 = self.quant_config.skip_process_weights_after_loading and layer.format_ue8m0
+        layer.weight_scale_inv.weight_loader = weight_scale_inv_loader
+
+    def f_process_weights_after_loading(self, layer: Module) -> None:
+        if not self.quant_config.skip_process_weights_after_loading:
+            original_process_weights_after_loading(self, layer)
+
+    Fp8LinearMethod.create_weights = f_create_weights
+    Fp8LinearMethod.process_weights_after_loading = f_process_weights_after_loading
+
+def monkey_patch_fp8_moe_method():
+    def f_w13_weight_loader(
+        layer: weakref.ReferenceType,
+        original_weight_loader,
+        param: torch.Tensor,
+        loaded_weight: torch.Tensor,
+        *args,
+        **kwargs
+    ) -> None:
+        layer = layer()
+        assert param is layer.w13_weight
+        target_device = layer.w13_weight.device
+        with target_device:
+            loaded_weight = loaded_weight.to(target_device)
+            if loaded_weight.dtype == torch.float8_e4m3fn:
+                original_weight_loader(layer.w13_weight, loaded_weight, *args, **kwargs)
+            else:
+                if layer.format_ue8m0:
+                    qweight, scale = per_block_fp8_quant_ue8m0(loaded_weight, layer.weight_block_size)
+                else:
+                    qweight, scale = per_block_fp8_quant(loaded_weight, layer.weight_block_size)
+                original_weight_loader(layer.w13_weight, qweight, *args, **kwargs)
+                original_weight_loader(layer.w13_weight_scale_inv, scale, *args, **kwargs)
+
+    def f_w2_weight_loader(
+        layer: weakref.ReferenceType,
+        original_weight_loader,
+        param: torch.Tensor,
+        loaded_weight: torch.Tensor,
+        *args,
+        **kwargs
+    ) -> None:
+        layer = layer()
+        assert param is layer.w2_weight
+        target_device = layer.w2_weight.device
+        with target_device:
+            loaded_weight = loaded_weight.to(target_device)
+            if loaded_weight.dtype == torch.float8_e4m3fn:
+                original_weight_loader(layer.w2_weight, loaded_weight, *args, **kwargs)
+            else:
+                if layer.format_ue8m0:
+                    qweight, scale = per_block_fp8_quant_ue8m0(loaded_weight, layer.weight_block_size)
+                else:
+                    qweight, scale = per_block_fp8_quant(loaded_weight, layer.weight_block_size)
+                original_weight_loader(layer.w2_weight, qweight, *args, **kwargs)
+                original_weight_loader(layer.w2_weight_scale_inv, scale, *args, **kwargs)
+
+    from sglang.srt.layers.quantization.fp8 import Fp8MoEMethod
+    original_create_weights = Fp8MoEMethod.create_weights
+    original_process_weights_after_loading = Fp8MoEMethod.process_weights_after_loading
+
+    def f_create_weights(
+        self,
+        layer: Module,
+        num_experts: int,
+        hidden_size: int,
+        intermediate_size_per_partition: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        original_create_weights(self, layer, num_experts, hidden_size, intermediate_size_per_partition, params_dtype, **extra_weight_attrs)
+        assert self.quant_config.is_checkpoint_fp8_serialized
+        assert self.block_quant, "only suuport block-wise quantization"
+        assert self.quant_config.weight_block_size
+        assert self.quant_config.activation_scheme == "dynamic"
+        assert not _is_fp8_fnuz
+        assert not _is_cpu
+        assert not (_is_hip and _use_hip_int4)
+        assert not _use_aiter
+
+        if self.quant_config.skip_process_weights_after_loading:
+            try:
+                from sglang.srt.layers.quantization.fp8_utils import (
+                    requant_weight_ue8m0_inplace,
+                )
+                from sglang.srt.model_loader.utils import should_deepgemm_weight_requant_ue8m0
+                # For fp8 moe run with deepgemm, the expert weights and scales need be requantized to ue8m0
+                if (
+                    should_deepgemm_weight_requant_ue8m0(self.quant_config.weight_block_size)
+                    and get_moe_runner_backend().is_deep_gemm()
+                ):
+                    assert isinstance(
+                        layer, DeepEPMoE
+                    ), "DeepGemm MoE is only supported with DeepEPMoE"
+                    requant_weight_ue8m0_inplace(layer.w13_weight, layer.w13_weight_scale_inv, layer.weight_block_size)
+                    requant_weight_ue8m0_inplace(layer.w2_weight, layer.w2_weight_scale_inv, layer.weight_block_size)
+                    layer.format_ue8m0 = True
+                else:
+                    layer.format_ue8m0 = False
+            except:
+                layer.format_ue8m0 = False
+
+        # store essential config in layer for custom weight loader
+        layer.weight_block_size = self.quant_config.weight_block_size
+
+        w13_weight_loader = layer.w13_weight.weight_loader
+        w13_weight_loader = partial(f_w13_weight_loader, weakref.ref(layer), w13_weight_loader)
+        layer.w13_weight.weight_loader = w13_weight_loader
+
+        w2_weight_loader = layer.w2_weight.weight_loader
+        w2_weight_loader = partial(f_w2_weight_loader , weakref.ref(layer), w2_weight_loader)
+        layer.w2_weight.weight_loader = w2_weight_loader
+
+        # do not need patch weight loader of scale
+        assert type(layer.w13_weight_scale_inv) == Parameter
+        assert type(layer.w2_weight_scale_inv) == Parameter
+
+    def f_process_weights_after_loading(self, layer: Module) -> None:
+        if not self.quant_config.skip_process_weights_after_loading:
+            original_process_weights_after_loading(self, layer)
+
+    Fp8MoEMethod.create_weights = f_create_weights
+    Fp8MoEMethod.process_weights_after_loading = f_process_weights_after_loading
+
+def monkey_patch_fp8():
+    monkey_patch_fp8_config()
+    monkey_patch_fp8_linear_method()
+    monkey_patch_fp8_moe_method()
diff --git a/roll/third_party/sglang/io_struct.py b/roll/third_party/sglang/io_struct.py
deleted file mode 100644
index faa6d156b..000000000
--- a/roll/third_party/sglang/io_struct.py
+++ /dev/null
@@ -1,62 +0,0 @@
-from dataclasses import dataclass
-
-@dataclass
-class SetupCollectiveGroupReqInput:
-    comm_plan: dict
-    backend: int
-    rank_in_cluster: int
-
-
-@dataclass
-class SetupCollectiveGroupReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class BroadcastBucketReqInput:
-    src_pp_rank: str
-    meta_infos: dict
-    bucket_size: int
-
-
-@dataclass
-class BroadcastBucketReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class BroadcastParameterReqInput:
-    src_pp_rank: str
-    dtype: int
-    shape: dict
-    parameter_name: str
-
-
-@dataclass
-class BroadcastParameterReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class UpdateParameterReqInput:
-    parameter_name: str
-    weight: int
-    ranks_in_worker: dict
-
-
-@dataclass
-class UpdateParameterReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class UpdateParameterInBucketReqInput:
-    meta_infos: str
-    buffer: int
-    ranks_in_worker: dict
-
-
-@dataclass
-class UpdateParameterInBucketReqOutput:
-    success: bool
-    message: str
\ No newline at end of file
diff --git a/roll/third_party/sglang/v0410post2_patch/__init__.py b/roll/third_party/sglang/v0410post2_patch/__init__.py
index fa4bec152..32de7e606 100644
--- a/roll/third_party/sglang/v0410post2_patch/__init__.py
+++ b/roll/third_party/sglang/v0410post2_patch/__init__.py
@@ -1,2 +1 @@
 from . import engine
-from . import scheduler
\ No newline at end of file
diff --git a/roll/third_party/sglang/v0410post2_patch/engine.py b/roll/third_party/sglang/v0410post2_patch/engine.py
index cdc241676..c82ad395f 100644
--- a/roll/third_party/sglang/v0410post2_patch/engine.py
+++ b/roll/third_party/sglang/v0410post2_patch/engine.py
@@ -1,101 +1,35 @@
-import asyncio
-from sglang.srt.entrypoints.engine import Engine
+import os
+import multiprocessing as mp
 
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
+import sglang.srt.entrypoints.engine as engine_module
+from sglang.srt.server_args import ServerArgs
+from sglang.srt.utils import (
+    set_prometheus_multiproc_dir,
+    set_ulimit,
 )
 
-import sglang.srt.entrypoints.engine as engine_module
 
+# Remove signal handler. singla.signal in python can only run in MainThread which fails when using Ray Async Actor.
+def _set_envs_and_config(server_args: ServerArgs):
+    # Set global environments
+    os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
+    os.environ["NCCL_CUMEM_ENABLE"] = str(int(server_args.enable_symm_mem))
+    if not server_args.enable_symm_mem:
+        os.environ["NCCL_NVLS_ENABLE"] = str(int(server_args.enable_nccl_nvls))
+    os.environ["TORCH_NCCL_AVOID_RECORD_STREAMS"] = "1"
+    os.environ["CUDA_DEVICE_MAX_CONNECTIONS"] = "4"
+    os.environ["CUDA_MODULE_LOADING"] = "AUTO"
 
-class EngineSA(Engine):
+    # Set prometheus env vars
+    if server_args.enable_metrics:
+        set_prometheus_multiproc_dir()
+
+    # Set ulimit
+    set_ulimit()
+
+    # Set mp start method
+    mp.set_start_method("spawn", force=True)
 
-    def setup_collective_group(
-        self,
-        comm_plan: str,
-        backend: str,
-        rank_in_cluster: int,
-    ):
-        obj = SetupCollectiveGroupReqInput(
-            comm_plan=comm_plan,
-            backend=backend,
-            rank_in_cluster=rank_in_cluster,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.setup_collective_group(obj, None)
-        )
-    
-    def broadcast_bucket(
-        self,
-        src_pp_rank: int, 
-        meta_infos: dict, 
-        bucket_size: int,
-    ):
-        obj = BroadcastBucketReqInput(
-            src_pp_rank=src_pp_rank,
-            meta_infos=meta_infos,
-            bucket_size=bucket_size,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.broadcast_bucket(obj, None)
-        )
-    
-    def broadcast_parameter(
-        self,
-        src_pp_rank, 
-        dtype, 
-        shape, 
-        parameter_name
-    ):
-        obj = BroadcastParameterReqInput(
-            src_pp_rank=src_pp_rank,
-            dtype=dtype,
-            shape=shape,
-            parameter_name=parameter_name,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.broadcast_parameter(obj, None)
-        )
-    
-    def update_parameter(
-        self,
-        parameter_name, 
-        weight, 
-        ranks_in_worker
-    ):
-        obj = UpdateParameterReqInput(
-            parameter_name=parameter_name,
-            weight=weight,
-            ranks_in_worker=ranks_in_worker,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.update_parameter(obj, None)
-        )
-    
-    def update_parameter_in_bucket(
-        self,
-        meta_infos, 
-        buffer, 
-        ranks_in_worker
-    ):
-        """Initialize parameter update group."""
-        obj = UpdateParameterInBucketReqInput(
-            meta_infos=meta_infos,
-            buffer=buffer,
-            ranks_in_worker=ranks_in_worker,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.update_parameter_in_bucket(obj, None)
-        )
 
 class _roll_launch_subprocesses(object):
     def __init__(self, _launch_subprocesses):
@@ -103,11 +37,8 @@ def __init__(self, _launch_subprocesses):
     
     def __call__(self, *args, **kwargs):
         import sys
-        from roll.third_party.sglang.v0410post2_patch.tokenizer_manager import TokenizerManagerSA
-        from roll.third_party.sglang.v0410post2_patch.scheduler import run_scheduler_process
-        
-        sys.modules['sglang.srt.entrypoints.engine'].__dict__['TokenizerManager'] = TokenizerManagerSA
-        sys.modules['sglang.srt.entrypoints.engine'].__dict__['run_scheduler_process'] = run_scheduler_process
+
+        sys.modules['sglang.srt.entrypoints.engine'].__dict__['_set_envs_and_config'] = _set_envs_and_config
         return self._launch_subprocesses(*args, **kwargs)
 
 
diff --git a/roll/third_party/sglang/v0410post2_patch/io_struct.py b/roll/third_party/sglang/v0410post2_patch/io_struct.py
deleted file mode 100644
index faa6d156b..000000000
--- a/roll/third_party/sglang/v0410post2_patch/io_struct.py
+++ /dev/null
@@ -1,62 +0,0 @@
-from dataclasses import dataclass
-
-@dataclass
-class SetupCollectiveGroupReqInput:
-    comm_plan: dict
-    backend: int
-    rank_in_cluster: int
-
-
-@dataclass
-class SetupCollectiveGroupReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class BroadcastBucketReqInput:
-    src_pp_rank: str
-    meta_infos: dict
-    bucket_size: int
-
-
-@dataclass
-class BroadcastBucketReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class BroadcastParameterReqInput:
-    src_pp_rank: str
-    dtype: int
-    shape: dict
-    parameter_name: str
-
-
-@dataclass
-class BroadcastParameterReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class UpdateParameterReqInput:
-    parameter_name: str
-    weight: int
-    ranks_in_worker: dict
-
-
-@dataclass
-class UpdateParameterReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class UpdateParameterInBucketReqInput:
-    meta_infos: str
-    buffer: int
-    ranks_in_worker: dict
-
-
-@dataclass
-class UpdateParameterInBucketReqOutput:
-    success: bool
-    message: str
\ No newline at end of file
diff --git a/roll/third_party/sglang/v0410post2_patch/model_runner.py b/roll/third_party/sglang/v0410post2_patch/model_runner.py
deleted file mode 100644
index 3625684b6..000000000
--- a/roll/third_party/sglang/v0410post2_patch/model_runner.py
+++ /dev/null
@@ -1,195 +0,0 @@
-import logging
-from dataclasses import dataclass
-import torch
-import torch.distributed as dist
-import datetime
-
-from roll.platforms import current_platform
-
-
-from sglang.srt.model_executor.model_runner import ModelRunner, UNBALANCED_MODEL_LOADING_TIMEOUT_S
-from sglang.srt.configs.device_config import DeviceConfig
-from sglang.srt.configs.load_config import LoadConfig
-from sglang.srt.configs.update_config import adjust_config_with_unaligned_cpu_tp
-from sglang.srt.distributed import get_tp_group
-from sglang.srt.layers.quantization import monkey_patch_isinstance_for_vllm_base_layer
-from sglang.srt.distributed.parallel_state import monkey_patch_vllm_parallel_state
-from sglang.srt.model_loader import get_model
-from sglang.srt.utils import (
-    get_available_gpu_memory,
-    monkey_patch_vllm_gguf_config,
-    set_cuda_arch,
-)
-
-from roll.utils.collective import collective
-from roll.utils.functionals import get_dist_info_from_comm_plan
-from roll.platforms import current_platform
-
-logger = logging.getLogger(__name__)
-
-
-class ModelRunnerSA(ModelRunner):
-    def load_model(self):
-        before_avail_memory = get_available_gpu_memory(self.device, self.gpu_id)
-        logger.info(
-            f"Load weight begin. avail mem={get_available_gpu_memory(self.device, self.gpu_id):.2f} GB"
-        )
-
-        # This can reduce thread conflicts and speed up weight loading.
-        if self.device != "cpu":
-            torch.set_num_threads(1)
-        if self.device == "cuda":
-            if current_platform.get_device_capability()[0] < 8:
-                logger.info(
-                    "Compute capability below sm80. Use float16 due to lack of bfloat16 support."
-                )
-                self.model_config.dtype = torch.float16
-                if current_platform.get_device_capability()[1] < 5:
-                    raise RuntimeError("SGLang only supports sm75 and above.")
-
-        set_cuda_arch()
-
-        # Prepare the model config
-        self.load_config = LoadConfig(
-            load_format=self.server_args.load_format,
-            download_dir=self.server_args.download_dir,
-            model_loader_extra_config=self.server_args.model_loader_extra_config,
-        )
-        if self.device == "cpu":
-            self.model_config = adjust_config_with_unaligned_cpu_tp(
-                self.model_config, self.load_config, self.tp_size
-            )
-        if self.server_args.load_format == "gguf":
-            monkey_patch_vllm_gguf_config()
-
-        # Load the model
-        # Remove monkey_patch when linear.py quant remove dependencies with vllm
-        monkey_patch_vllm_parallel_state()
-        monkey_patch_isinstance_for_vllm_base_layer()
-
-        self.model = get_model(
-            model_config=self.model_config,
-            load_config=self.load_config,
-            device_config=DeviceConfig(self.device),
-        )
-        monkey_patch_vllm_parallel_state(reverse=True)
-        monkey_patch_isinstance_for_vllm_base_layer(reverse=True)
-
-        if self.server_args.kv_cache_dtype == "fp8_e4m3":
-            if self.server_args.quantization_param_path is not None:
-                if callable(getattr(self.model, "load_kv_cache_scales", None)):
-                    self.model.load_kv_cache_scales(
-                        self.server_args.quantization_param_path
-                    )
-                    logger.info(
-                        "Loaded KV cache scaling factors from %s",
-                        self.server_args.quantization_param_path,
-                    )
-                else:
-                    raise RuntimeError(
-                        "Using FP8 KV cache and scaling factors provided but "
-                        "model %s does not support loading scaling factors.",
-                        self.model.__class__,
-                    )
-            else:
-                logger.warning(
-                    "Using FP8 KV cache but no scaling factors "
-                    "provided. Defaulting to scaling factors of 1.0. "
-                    "This may lead to less accurate results!"
-                )
-
-        # Parse other args
-        self.sliding_window_size = None
-        if hasattr(self.model, "get_attention_sliding_window_size"):
-            self.sliding_window_size = self.model.get_attention_sliding_window_size()
-        elif self.model_config.attention_chunk_size is not None:
-            self.sliding_window_size = self.model_config.attention_chunk_size
-            logger.info(
-                f"Setting sliding_window_size to be attention_chunk_size: {self.sliding_window_size}"
-            )
-
-        self.dtype = self.model_config.dtype
-
-        after_avail_memory = get_available_gpu_memory(self.device, self.gpu_id)
-        self.weight_load_mem_usage = before_avail_memory - after_avail_memory
-        logger.info(
-            f"Load weight end. "
-            f"type={type(self.model).__name__}, "
-            f"dtype={self.dtype}, "
-            f"avail mem={after_avail_memory:.2f} GB, "
-            f"mem usage={self.weight_load_mem_usage:.2f} GB."
-        )
-
-        # Handle the case where some ranks do not finish loading.
-        try:
-            dist.monitored_barrier(
-                group=get_tp_group().cpu_group,
-                timeout=datetime.timedelta(seconds=UNBALANCED_MODEL_LOADING_TIMEOUT_S),
-                wait_all_ranks=True,
-            )
-        except RuntimeError:
-            raise ValueError(
-                f"TP rank {self.tp_rank} could finish the model loading, but there are other ranks that didn't finish loading. It is likely due to unexpected failures (e.g., OOM) or a slow node."
-            ) from None
- 
-    def setup_collective_group(self, comm_plan, backend, rank_in_cluster):
-        self.model_update_comm_plan = getattr(self, "model_update_comm_plan", {})
-        rank, comm_plan_args = get_dist_info_from_comm_plan(comm_plan, rank_in_cluster=rank_in_cluster,
-                                                            rank_in_worker=dist.get_rank())
-        if rank is None:
-            logger.info(f"no comm_plan found for rank {rank_in_cluster}/{dist.get_rank()}")
-            return True, "Succeeded to setup_collective_group."
-        
-        group_name = comm_plan_args["group_name"]
-        master_addr = comm_plan_args["master_addr"]
-        master_port = comm_plan_args["master_port"]
-        world_size = len(comm_plan_args["tgt_devices"]) + 1
-        src_pp_rank = comm_plan_args["src_pp_rank"]
-        collective.init_collective_group(world_size, rank, backend=backend, group_name=group_name,
-                                         master_addr=master_addr, master_port=master_port)
-        # A small all_reduce for warmup.
-        collective.allreduce(torch.zeros(1).cuda(), group_name=group_name)
-        self.model_update_comm_plan[src_pp_rank] = dict(rank=rank,
-                                                        world_size=world_size,
-                                                        src_pp_rank=src_pp_rank,
-                                                        group_name=group_name,
-                                                        comm_plan=comm_plan,
-                                                        comm_plan_args=comm_plan_args)
-        logger.info(f"warmup setup_collective_group: {group_name} rank: {rank} world_size: {world_size}")
-        return True, "Succeeded to setup_collective_group."
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        if src_pp_rank not in self.model_update_comm_plan:
-            return True, "Succeeded to broadcast_bucket."
-
-        comm_plan = self.model_update_comm_plan[src_pp_rank]
-        buffer = torch.empty(bucket_size, dtype=torch.int8, device=current_platform.device_type)
-        collective.broadcast(tensor=buffer, src_rank=0, group_name=comm_plan["group_name"])
-        self.update_parameter_in_bucket(meta_infos, buffer, [dist.get_rank()])
-        return True, "Succeeded to broadcast_bucket."
-
-    def broadcast_parameter(self, src_pp_rank, dtype, shape, parameter_name):
-        if src_pp_rank not in self.model_update_comm_plan:
-            return True, "Succeeded to broadcast_parameter."
-        comm_plan = self.model_update_comm_plan[src_pp_rank]
-        weight = torch.empty(shape, dtype=dtype, device=current_platform.device_type)
-        collective.broadcast(tensor=weight, src_rank=0, group_name=comm_plan["group_name"])
-        self.update_parameter(parameter_name, weight, [dist.get_rank()])
-        return True, "Succeeded to broadcast_parameter."
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker):
-        if dist.get_rank() not in ranks_in_worker:
-            return True, "Succeeded to update_parameter."
-        self.model.load_weights([(parameter_name, weight)])
-        del weight
-        return True, "Succeeded to update_parameter."
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        if dist.get_rank() not in ranks_in_worker:
-            return True, "Succeeded to update_parameter_in_bucket."
-        from mcore_adapter.models.converter.convert_utils import RecvBucketManager
-        self.recv_manager = getattr(self, "recv_manager", RecvBucketManager())
-        named_params = self.recv_manager.process_bucket(meta_infos, buffer)
-        del buffer
-        self.model.load_weights([(name, weight) for name, weight in named_params.items()])
-        return True, "Succeeded to update_parameter_in_bucket."
\ No newline at end of file
diff --git a/roll/third_party/sglang/v0410post2_patch/scheduler.py b/roll/third_party/sglang/v0410post2_patch/scheduler.py
deleted file mode 100644
index ab13d80f2..000000000
--- a/roll/third_party/sglang/v0410post2_patch/scheduler.py
+++ /dev/null
@@ -1,96 +0,0 @@
-import torch
-from roll.platforms import current_platform
-from sglang.srt.managers.io_struct import (
-    ReleaseMemoryOccupationReqInput,
-    ReleaseMemoryOccupationReqOutput,
-    ResumeMemoryOccupationReqOutput,
-    ResumeMemoryOccupationReqInput,
-)
-from sglang.srt.constants import GPU_MEMORY_TYPE_KV_CACHE
-
-from sglang.srt.managers.scheduler import Scheduler
-from sglang.srt.managers.scheduler_update_weights_mixin import _import_static_state, _export_static_state
-
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-    SetupCollectiveGroupReqOutput,
-    BroadcastBucketReqOutput,
-    BroadcastParameterReqOutput,
-    UpdateParameterInBucketReqOutput,
-    UpdateParameterReqOutput,
-)
-
-class SchedulerSA(Scheduler):
-    def __init__(self, *args, **kwargs):
-        import sys
-        from roll.third_party.sglang.v0410post2_patch.tp_worker import TpModelWorkerClientSA, TpModelWorkerSA
-        sys.modules['sglang.srt.managers.scheduler'].__dict__['TpModelWorkerClient'] = TpModelWorkerClientSA
-        sys.modules['sglang.srt.managers.scheduler'].__dict__['TpModelWorker'] = TpModelWorkerSA
-        super().__init__(*args, **kwargs)
-        func_map_patch = [(SetupCollectiveGroupReqInput, self.setup_collective_group),
-                          (BroadcastBucketReqInput, self.broadcast_bucket),
-                          (BroadcastParameterReqInput, self.broadcast_parameter),
-                          (UpdateParameterInBucketReqInput, self.update_parameter_in_bucket),
-                          (UpdateParameterReqInput, self.update_parameter)]
-        self._request_dispatcher._mapping += func_map_patch
-
-    def setup_collective_group(self, recv_req: SetupCollectiveGroupReqInput):
-        success, message = self.tp_worker.setup_collective_group(recv_req)
-        return SetupCollectiveGroupReqOutput(success, message)
-
-    def release_memory_occupation(self, recv_req: ReleaseMemoryOccupationReqInput):
-        self.stashed_model_static_state = _export_static_state(
-            self.tp_worker.worker.model_runner.model
-        )
-        self.tp_worker.worker.model_runner.model.to('cpu')
-        self.memory_saver_adapter.pause(GPU_MEMORY_TYPE_KV_CACHE)
-        self.flush_cache()
-        return ReleaseMemoryOccupationReqOutput()
-    
-    def resume_memory_occupation(self, recv_req: ResumeMemoryOccupationReqInput):
-        self.tp_worker.worker.model_runner.model.to(current_platform.current_device())
-        self.memory_saver_adapter.resume(GPU_MEMORY_TYPE_KV_CACHE)
-
-        # gc.collect()
-        # current_platform.empty_cache()
-        # self.tp_worker.worker.model_runner.model.to(current_platform.current_device())
-        _import_static_state(
-            self.tp_worker.worker.model_runner.model, self.stashed_model_static_state
-        )
-        del self.stashed_model_static_state
-
-        self.tp_worker.worker.model_runner.init_cublas()
-        self.tp_worker.worker.model_runner.init_attention_backend()
-        from sglang.srt.model_executor.cuda_graph_runner import set_global_graph_memory_pool
-        set_global_graph_memory_pool(None)
-        self.tp_worker.worker.model_runner.init_cuda_graphs()
-
-        return ResumeMemoryOccupationReqOutput()
-
-    def broadcast_bucket(self, recv_req: BroadcastBucketReqInput):
-        success, message = self.tp_worker.broadcast_bucket(recv_req)
-        return BroadcastBucketReqOutput(success, message)
-
-    def broadcast_parameter(self, recv_req: BroadcastParameterReqInput):
-        success, message = self.tp_worker.broadcast_parameter(recv_req)
-        return BroadcastParameterReqOutput(success, message)
-
-    def update_parameter(self, recv_req: UpdateParameterReqInput):
-        success, message = self.tp_worker.update_parameter(recv_req)
-        return UpdateParameterReqOutput(success, message)
-
-    def update_parameter_in_bucket(self, recv_req: UpdateParameterInBucketReqInput):
-        success, message = self.tp_worker.update_parameter_in_bucket(recv_req)
-        return UpdateParameterInBucketReqOutput(success, message)
-
-
-def run_scheduler_process(*args, **kwargs):
-    import sys
-    sys.modules['sglang.srt.managers.scheduler'].__dict__['Scheduler'] = SchedulerSA
-    from sglang.srt.managers.scheduler import run_scheduler_process
-    return run_scheduler_process(*args, **kwargs)
\ No newline at end of file
diff --git a/roll/third_party/sglang/v0410post2_patch/tokenizer_manager.py b/roll/third_party/sglang/v0410post2_patch/tokenizer_manager.py
deleted file mode 100644
index c751b1535..000000000
--- a/roll/third_party/sglang/v0410post2_patch/tokenizer_manager.py
+++ /dev/null
@@ -1,126 +0,0 @@
-import os
-from typing import Optional, Tuple
-import fastapi
-
-from sglang.srt.server_args import PortArgs, ServerArgs
-from sglang.srt.managers.tokenizer_manager import TokenizerManager, _Communicator
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-    SetupCollectiveGroupReqOutput,
-    BroadcastBucketReqOutput,
-    BroadcastParameterReqOutput,
-    UpdateParameterInBucketReqOutput,
-    UpdateParameterReqOutput,
-)
-
-class TokenizerManagerSA(TokenizerManager):
-    def __init__(
-        self,
-        server_args: ServerArgs,
-        port_args: PortArgs,
-    ):
-        super().__init__(server_args=server_args, port_args=port_args)
-
-        self.setup_collective_group_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.broadcast_bucket_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.broadcast_parameter_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.update_parameter_in_bucket_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.update_parameter_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-
-        communicator_patch = [(
-                    SetupCollectiveGroupReqOutput,
-                    self.setup_collective_group_communicator.handle_recv,
-                ),
-                (
-                    BroadcastBucketReqOutput,
-                    self.broadcast_bucket_communicator.handle_recv,
-                ),
-                (
-                    BroadcastParameterReqOutput,
-                    self.broadcast_parameter_communicator.handle_recv,
-                ),
-                (
-                    UpdateParameterInBucketReqOutput,
-                    self.update_parameter_in_bucket_communicator.handle_recv,
-                ),
-                (
-                    UpdateParameterReqOutput,
-                    self.update_parameter_communicator.handle_recv,
-                )]
-        
-        self._result_dispatcher._mapping += communicator_patch
-    
-    async def setup_collective_group(
-        self,
-        obj: SetupCollectiveGroupReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        assert (
-            self.server_args.dp_size == 1
-        ), "dp_size must be 1 for init parameter update group"
-        result = (await self.setup_collective_group_communicator(obj))[0]
-        return result.success, result.message
-
-    async def broadcast_bucket(
-        self,
-        obj: BroadcastBucketReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        assert (
-            self.server_args.dp_size == 1
-        ), "dp_size must be 1 for init parameter update group"
-        result = (await self.broadcast_bucket_communicator(obj))[0]
-        return result.success, result.message
-
-    async def broadcast_parameter(
-        self,
-        obj: BroadcastParameterReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        assert (
-            self.server_args.dp_size == 1
-        ), "dp_size must be 1 for init parameter update group"
-        result = (await self.broadcast_parameter_communicator(obj))[0]
-        return result.success, result.message
-
-    async def update_parameter(
-        self,
-        obj: UpdateParameterReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        assert (
-            self.server_args.dp_size == 1
-        ), "dp_size must be 1 for init parameter update group"
-        result = (await self.update_parameter_communicator(obj))[0]
-        return result.success, result.message
-
-    async def update_parameter_in_bucket(
-        self,
-        obj: UpdateParameterInBucketReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        assert (
-            self.server_args.dp_size == 1
-        ), "dp_size must be 1 for init parameter update group"
-        result = (await self.update_parameter_in_bucket_communicator(obj))[0]
-        return result.success, result.message
\ No newline at end of file
diff --git a/roll/third_party/sglang/v0410post2_patch/tp_worker.py b/roll/third_party/sglang/v0410post2_patch/tp_worker.py
deleted file mode 100644
index 509d6e0df..000000000
--- a/roll/third_party/sglang/v0410post2_patch/tp_worker.py
+++ /dev/null
@@ -1,86 +0,0 @@
-from sglang.srt.managers.tp_worker import TpModelWorker
-from sglang.srt.managers.tp_worker_overlap_thread import TpModelWorkerClient
-
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-)
-
-class TpModelWorkerSA(TpModelWorker):
-    def __init__(self, *args, **kwargs):
-        import sys
-        from roll.third_party.sglang.v0410post2_patch.model_runner import ModelRunnerSA
-        sys.modules['sglang.srt.managers.tp_worker'].__dict__['ModelRunner'] = ModelRunnerSA
-        super().__init__(*args, **kwargs)
-
-    def setup_collective_group(self, recv_req: SetupCollectiveGroupReqInput):
-        success, message = self.model_runner.setup_collective_group(
-            recv_req.comm_plan,
-            recv_req.backend,
-            recv_req.rank_in_cluster,
-        )
-        return success, message
-
-    def broadcast_bucket(self, recv_req: BroadcastBucketReqInput):
-        success, message = self.model_runner.broadcast_bucket(
-            recv_req.src_pp_rank,
-            recv_req.meta_infos,
-            recv_req.bucket_size,
-        )
-        return success, message
-
-    def broadcast_parameter(self, recv_req: BroadcastParameterReqInput):
-        success, message = self.model_runner.broadcast_parameter(
-            recv_req.src_pp_rank,
-            recv_req.dtype,
-            recv_req.shape,
-            recv_req.parameter_name,
-        )
-        return success, message
-
-    def update_parameter(self, recv_req: UpdateParameterReqInput):
-        success, message = self.model_runner.update_parameter(
-            recv_req.parameter_name,
-            recv_req.weight,
-            recv_req.ranks_in_worker,
-        )
-        return success, message
-
-    def update_parameter_in_bucket(self, recv_req: UpdateParameterInBucketReqInput):
-        success, message = self.model_runner.update_parameter_in_bucket(
-            recv_req.meta_infos,
-            recv_req.buffer,
-            recv_req.ranks_in_worker,
-        )
-        return success, message
-
-
-class TpModelWorkerClientSA(TpModelWorkerClient):
-    def __init__(self, *args, **kwargs):
-        import sys
-        sys.modules['sglang.srt.managers.tp_worker_overlap_thread'].__dict__['TpModelWorker'] = TpModelWorkerSA
-        super().__init__(*args, **kwargs)
-
-    def setup_collective_group(self, recv_req: SetupCollectiveGroupReqInput):
-        success, message = self.worker.setup_collective_group(recv_req)
-        return success, message
-
-    def broadcast_bucket(self, recv_req: BroadcastBucketReqInput):
-        success, message = self.worker.broadcast_bucket(recv_req)
-        return success, message
-
-    def broadcast_parameter(self, recv_req: BroadcastParameterReqInput):
-        success, message = self.worker.broadcast_parameter(recv_req)
-        return success, message
-
-    def update_parameter(self, recv_req: UpdateParameterReqInput):
-        success, message = self.worker.update_parameter(recv_req)
-        return success, message
-
-    def update_parameter_in_bucket(self, recv_req: UpdateParameterInBucketReqInput):
-        success, message = self.worker.update_parameter_in_bucket(recv_req)
-        return success, message
\ No newline at end of file
diff --git a/roll/third_party/sglang/v046post4_patch/__init__.py b/roll/third_party/sglang/v046post4_patch/__init__.py
index fa4bec152..32de7e606 100644
--- a/roll/third_party/sglang/v046post4_patch/__init__.py
+++ b/roll/third_party/sglang/v046post4_patch/__init__.py
@@ -1,2 +1 @@
 from . import engine
-from . import scheduler
\ No newline at end of file
diff --git a/roll/third_party/sglang/v046post4_patch/async_engine.py b/roll/third_party/sglang/v046post4_patch/async_engine.py
deleted file mode 100644
index 096b069e9..000000000
--- a/roll/third_party/sglang/v046post4_patch/async_engine.py
+++ /dev/null
@@ -1,169 +0,0 @@
-import asyncio
-import traceback
-import asyncio
-import enum
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-
-class SglangInputType(enum.Enum):
-    ADD = enum.auto()
-    ABORT = enum.auto()
-
-def list_endswith(lst, suffix):
-    # 检查 lst 是否以 suffix 结尾
-    return lst[-len(suffix):] == suffix if len(suffix) <= len(lst) else False
-
-def trim_overlap_tokens(existing_tokens, new_chunk_tokens):
-    """
-    copy trim_overlap in int list
-    """
-    max_overlap = 0
-    max_possible = min(len(existing_tokens), len(new_chunk_tokens))
-    for i in range(max_possible, 0, -1):
-        if list_endswith(existing_tokens, new_chunk_tokens[:i]):
-            max_overlap = i
-            break
-    return new_chunk_tokens[max_overlap:]
-
-
-# 用于存放所有abort_rid_set
-abort_rid_set = set()
-abort_lock = asyncio.Lock()
-
-
-async def producer(thread_queue, asyncio_queue):
-    PRODUCER_PUT_TIMEOUT = 15 * 60
-    while True:
-        if not thread_queue.empty():
-            data = thread_queue.get()
-            # 收到结束标记
-            if data is None:
-                logger.info("[sglang async engine] receive stop signal, stoping")
-                break
-            command, command_data = data
-            if command == SglangInputType.ABORT:
-                async with abort_lock:
-                    rid = command_data
-                    abort_rid_set.add(rid)
-            else:
-                await asyncio.wait_for(asyncio_queue.put(data), timeout=PRODUCER_PUT_TIMEOUT)
-        else:
-            await asyncio.sleep(0.1) 
-
-async def consumer(asyncio_queue, consumer_id, llm, request_complete_callback):
-    from sglang.srt.managers.io_struct import GenerateReqInput
-    from roll.distributed.scheduler.protocol import DataProto
-
-    def process_sglang_output(token_ids, meta_info):
-        # 线上正式使用
-        output_data = DataProto(meta_info=meta_info)
-        output_data.meta_info["output_token_ids"] = token_ids
-        request_complete_callback(data=output_data)
-
-        # 本地调试使用
-        # request_complete_callback(meta_info['request_id'], token_ids)
-        logger.debug(f"worker_id:{consumer_id} request_id: {meta_info['request_id']} finish!")
-
-    try:
-        while True:
-            pack_data = await asyncio_queue.get()
-            asyncio_queue.task_done()
-            if pack_data is None:
-                break
-
-            command, data = pack_data
-
-            rid, input_ids, sampling_params, meta_info = data
-            rid_str = rid[0]
-            async with abort_lock:
-                if rid_str in abort_rid_set:
-                    logger.debug(f"request_id: {rid_str} do not running!")
-                    abort_rid_set.remove(rid_str)
-                    continue
-
-            final_tokens = [[] for _ in range(sampling_params['n'])]
-            logger.debug(f"worker_id:{consumer_id} request_id: {rid} starting!")
-
-            parallel_sample_num = 1
-            if sampling_params['n'] > 1:
-                rid = [rid]
-                parallel_sample_num = sampling_params['n']
-            
-            obj = GenerateReqInput(
-                # text=prompt,
-                input_ids=input_ids,
-                rid=rid,
-                sampling_params=sampling_params,
-                stream=True,
-            )
-            generator = llm.tokenizer_manager.generate_request(obj, None)
-
-            # generator = await llm.async_generate(prompt, sampling_params, rid=rid, stream=True)
-            generate_success = True
-            async for chunk in generator:
-                # chunk_text = chunk["text"]
-                async with abort_lock:
-                    if rid_str in abort_rid_set:
-                        cur_abort_rid = chunk['meta_info']['id']
-    
-                        logger.debug(f"request_id: {rid_str}-{cur_abort_rid} aborting!")
-                        llm.tokenizer_manager.abort_request(cur_abort_rid)
-                        logger.debug(f"request_id: {rid_str}-{cur_abort_rid} abort success!")
-                        parallel_sample_num -= 1
-
-                        if parallel_sample_num == 0:
-                            abort_rid_set.remove(rid_str)
-                            generate_success = False
-                            break
-
-                chunk_tokens = chunk["output_ids"]
-                chunk_index = chunk.get("index", 0)
-                # logger.info(chunk["meta_info"])
-                cleaned_chunk = trim_overlap_tokens(final_tokens[chunk_index], chunk_tokens)
-                final_tokens[chunk_index] += cleaned_chunk
-            # logger.info(f"consumer_id:{consumer_id} consumer finish: {final_text}")
-            if generate_success:
-                process_sglang_output(final_tokens, meta_info)
-            # request_complete_callback(rid, final_tokens)
-    except Exception as e:
-        logger.info(traceback.format_exc())
-
-async def predict_in_asyncio(model, request_complete_callback, thread_queue):
-    PARALLELISM_WORKER_CNT = 128
-    PRODUCER_BUFFER_SIZE = 40
-
-    logger.info("[sglang asyncio] env setup...")
-    async with abort_lock:
-        abort_rid_set.clear()
-    asyncio_queue = asyncio.Queue(maxsize=PRODUCER_BUFFER_SIZE)
-    producer_task = asyncio.create_task(producer(thread_queue, asyncio_queue))
-    consumers = [asyncio.create_task(consumer(asyncio_queue, i, model, request_complete_callback)) for i in range(PARALLELISM_WORKER_CNT)]
-    logger.info("[sglang asyncio] env setup (done)")
-
-    await producer_task
-    logger.info("[sglang asyncio] killing consumers ...")
-    for _ in range(len(consumers)):
-        await asyncio_queue.put(None)
-    # await asyncio_queue.join()
-    logger.info("[sglang asyncio] finish signal has set")
-    try:
-        await asyncio.wait_for(asyncio.gather(*consumers), timeout=30)
-    except asyncio.TimeoutError:
-        logger.info("Timeout: Not all tasks completed within the time limit")
-    # model.tokenizer_manager.asyncio_tasks.clear()
-    # model.tokenizer_manager.no_create_loop = False
-    logger.info("killing workers done, AsyncSglangEngine stop success")
-
-def start_async_sglang(loop, model, request_complete_callback, thread_queue):
-    try:
-        loop.run_until_complete(predict_in_asyncio(model, request_complete_callback, thread_queue=thread_queue))    
-    except Exception as e:
-        logger.info(f"async_sglang thread raise Exception!\n{traceback.format_exc()}")
-
-def add_request(thread_queue, data):
-    thread_queue.put((SglangInputType.ADD, data))
-    
-def abort_request(thread_queue, rid):
-    thread_queue.put((SglangInputType.ABORT, rid))
diff --git a/roll/third_party/sglang/v046post4_patch/engine.py b/roll/third_party/sglang/v046post4_patch/engine.py
index 64c40b123..cf0a47f21 100644
--- a/roll/third_party/sglang/v046post4_patch/engine.py
+++ b/roll/third_party/sglang/v046post4_patch/engine.py
@@ -1,101 +1,53 @@
-import asyncio
-from sglang.srt.entrypoints.engine import Engine
+import os
+import multiprocessing as mp
 
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
+import sglang.srt.entrypoints.engine as engine_module
+from sglang.srt.server_args import ServerArgs
+from sglang.srt.utils import (
+    maybe_set_triton_cache_manager,
+    set_prometheus_multiproc_dir,
+    set_ulimit,
 )
 
-import sglang.srt.entrypoints.engine as engine_module
 
+# Remove signal handler. singla.signal in python can only run in MainThread which fails when using Ray Async Actor.
+def _set_envs_and_config(server_args: ServerArgs):
+    # Set global environments
+    os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
+    os.environ["NCCL_CUMEM_ENABLE"] = "0"
+    os.environ["NCCL_NVLS_ENABLE"] = str(int(server_args.enable_nccl_nvls))
+    os.environ["TORCH_NCCL_AVOID_RECORD_STREAMS"] = "1"
+    os.environ["CUDA_DEVICE_MAX_CONNECTIONS"] = "4"
+    os.environ["CUDA_MODULE_LOADING"] = "AUTO"
 
-class EngineSA(Engine):
+    # Set prometheus env vars
+    if server_args.enable_metrics:
+        set_prometheus_multiproc_dir()
 
-    def setup_collective_group(
-        self,
-        comm_plan: str,
-        backend: str,
-        rank_in_cluster: int,
-    ):
-        obj = SetupCollectiveGroupReqInput(
-            comm_plan=comm_plan,
-            backend=backend,
-            rank_in_cluster=rank_in_cluster,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.setup_collective_group(obj, None)
-        )
-    
-    def broadcast_bucket(
-        self,
-        src_pp_rank: int, 
-        meta_infos: dict, 
-        bucket_size: int,
-    ):
-        obj = BroadcastBucketReqInput(
-            src_pp_rank=src_pp_rank,
-            meta_infos=meta_infos,
-            bucket_size=bucket_size,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.broadcast_bucket(obj, None)
-        )
-    
-    def broadcast_parameter(
-        self,
-        src_pp_rank, 
-        dtype, 
-        shape, 
-        parameter_name
-    ):
-        obj = BroadcastParameterReqInput(
-            src_pp_rank=src_pp_rank,
-            dtype=dtype,
-            shape=shape,
-            parameter_name=parameter_name,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.broadcast_parameter(obj, None)
-        )
-    
-    def update_parameter(
-        self,
-        parameter_name, 
-        weight, 
-        ranks_in_worker
-    ):
-        obj = UpdateParameterReqInput(
-            parameter_name=parameter_name,
-            weight=weight,
-            ranks_in_worker=ranks_in_worker,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.update_parameter(obj, None)
-        )
-    
-    def update_parameter_in_bucket(
-        self,
-        meta_infos, 
-        buffer, 
-        ranks_in_worker
-    ):
-        """Initialize parameter update group."""
-        obj = UpdateParameterInBucketReqInput(
-            meta_infos=meta_infos,
-            buffer=buffer,
-            ranks_in_worker=ranks_in_worker,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.update_parameter_in_bucket(obj, None)
-        )
+    # Set ulimit
+    set_ulimit()
+
+    # Fix triton bugs
+    if server_args.tp_size * server_args.dp_size > 1:
+        # FIXME: remove this after https://github.com/triton-lang/triton/pull/4295 is used as a dependency.
+        maybe_set_triton_cache_manager()
+
+    # Set mp start method
+    mp.set_start_method("spawn", force=True)
+
+def run_scheduler_process(*args, **kwargs):
+    from roll.third_party.sglang import fp8
+    fp8.monkey_patch_fp8()
+
+    from sglang.srt.managers.scheduler import run_scheduler_process
+    return run_scheduler_process(*args, **kwargs)
+
+def run_data_parallel_controller_process(*args, **kwargs):
+    import sys
+    sys.modules['sglang.srt.managers.data_parallel_controller'].__dict__['run_scheduler_process'] = run_scheduler_process
+
+    from sglang.srt.managers.data_parallel_controller import run_data_parallel_controller_process
+    return run_data_parallel_controller_process(*args, **kwargs)
 
 class _roll_launch_subprocesses(object):
     def __init__(self, _launch_subprocesses):
@@ -103,11 +55,10 @@ def __init__(self, _launch_subprocesses):
     
     def __call__(self, *args, **kwargs):
         import sys
-        from roll.third_party.sglang.v046post4_patch.tokenizer_manager import TokenizerManagerSA
-        from roll.third_party.sglang.v046post4_patch.scheduler import run_scheduler_process
-        
-        sys.modules['sglang.srt.entrypoints.engine'].__dict__['TokenizerManager'] = TokenizerManagerSA
+
+        sys.modules['sglang.srt.entrypoints.engine'].__dict__['_set_envs_and_config'] = _set_envs_and_config
         sys.modules['sglang.srt.entrypoints.engine'].__dict__['run_scheduler_process'] = run_scheduler_process
+        sys.modules['sglang.srt.entrypoints.engine'].__dict__['run_data_parallel_controller_process'] = run_data_parallel_controller_process
         return self._launch_subprocesses(*args, **kwargs)
 
 
diff --git a/roll/third_party/sglang/v046post4_patch/io_struct.py b/roll/third_party/sglang/v046post4_patch/io_struct.py
deleted file mode 100644
index faa6d156b..000000000
--- a/roll/third_party/sglang/v046post4_patch/io_struct.py
+++ /dev/null
@@ -1,62 +0,0 @@
-from dataclasses import dataclass
-
-@dataclass
-class SetupCollectiveGroupReqInput:
-    comm_plan: dict
-    backend: int
-    rank_in_cluster: int
-
-
-@dataclass
-class SetupCollectiveGroupReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class BroadcastBucketReqInput:
-    src_pp_rank: str
-    meta_infos: dict
-    bucket_size: int
-
-
-@dataclass
-class BroadcastBucketReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class BroadcastParameterReqInput:
-    src_pp_rank: str
-    dtype: int
-    shape: dict
-    parameter_name: str
-
-
-@dataclass
-class BroadcastParameterReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class UpdateParameterReqInput:
-    parameter_name: str
-    weight: int
-    ranks_in_worker: dict
-
-
-@dataclass
-class UpdateParameterReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class UpdateParameterInBucketReqInput:
-    meta_infos: str
-    buffer: int
-    ranks_in_worker: dict
-
-
-@dataclass
-class UpdateParameterInBucketReqOutput:
-    success: bool
-    message: str
\ No newline at end of file
diff --git a/roll/third_party/sglang/v046post4_patch/model_runner.py b/roll/third_party/sglang/v046post4_patch/model_runner.py
deleted file mode 100644
index 400f0e584..000000000
--- a/roll/third_party/sglang/v046post4_patch/model_runner.py
+++ /dev/null
@@ -1,190 +0,0 @@
-import logging
-from dataclasses import dataclass
-import torch
-import torch.distributed as dist
-import datetime
-
-from roll.platforms import current_platform
-
-from sglang.srt.model_executor.model_runner import ModelRunner, UNBALANCED_MODEL_LOADING_TIMEOUT_S
-from sglang.srt.configs.device_config import DeviceConfig
-from sglang.srt.configs.load_config import LoadConfig
-from sglang.srt.distributed import get_tp_group
-from sglang.srt.layers.quantization import monkey_patch_isinstance_for_vllm_base_layer
-from sglang.srt.distributed.parallel_state import monkey_patch_vllm_parallel_state
-from sglang.srt.model_loader import get_model
-from sglang.srt.utils import (
-    get_available_gpu_memory,
-    monkey_patch_vllm_gguf_config,
-    set_cuda_arch,
-)
-
-from roll.utils.collective import collective
-from roll.utils.functionals import get_dist_info_from_comm_plan
-from roll.platforms import current_platform
-
-logger = logging.getLogger(__name__)
-
-
-class ModelRunnerSA(ModelRunner):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-
-    def load_model(self):
-        before_avail_memory = get_available_gpu_memory(self.device, self.gpu_id)
-        logger.info(
-            f"Load weight begin. avail mem={get_available_gpu_memory(self.device, self.gpu_id):.2f} GB"
-        )
-
-        # This can reduce thread conflicts and speed up weight loading.
-        if self.device != "cpu":
-            torch.set_num_threads(1)
-        if self.device == current_platform.device_type:
-            if current_platform.get_device_capability()[0] < 8:
-                if self.should_log:
-                    logger.info(
-                        "Compute capability below sm80. Use float16 due to lack of bfloat16 support."
-                    )
-                self.server_args.dtype = "float16"
-                self.model_config.dtype = torch.float16
-                if current_platform.get_device_capability()[1] < 5:
-                    raise RuntimeError("SGLang only supports sm75 and above.")
-
-        set_cuda_arch()
-
-        # Prepare the model config
-        self.load_config = LoadConfig(
-            load_format=self.server_args.load_format,
-            download_dir=self.server_args.download_dir,
-        )
-        if self.server_args.load_format == "gguf":
-            monkey_patch_vllm_gguf_config()
-
-        # Load the model
-        # Remove monkey_patch when linear.py quant remove dependencies with vllm
-        monkey_patch_vllm_parallel_state()
-        monkey_patch_isinstance_for_vllm_base_layer()
-
-        self.model = get_model(
-            model_config=self.model_config,
-            load_config=self.load_config,
-            device_config=DeviceConfig(self.device),
-        )
-        monkey_patch_vllm_parallel_state(reverse=True)
-        monkey_patch_isinstance_for_vllm_base_layer(reverse=True)
-
-        if self.server_args.kv_cache_dtype == "fp8_e4m3":
-            if self.server_args.quantization_param_path is not None:
-                if callable(getattr(self.model, "load_kv_cache_scales", None)):
-                    self.model.load_kv_cache_scales(
-                        self.server_args.quantization_param_path
-                    )
-                    if self.should_log:
-                        logger.info(
-                            "Loaded KV cache scaling factors from %s",
-                            self.server_args.quantization_param_path,
-                        )
-                else:
-                    raise RuntimeError(
-                        "Using FP8 KV cache and scaling factors provided but "
-                        "model %s does not support loading scaling factors.",
-                        self.model.__class__,
-                    )
-            else:
-                logger.warning(
-                    "Using FP8 KV cache but no scaling factors "
-                    "provided. Defaulting to scaling factors of 1.0. "
-                    "This may lead to less accurate results!"
-                )
-
-        # Parse other args
-        self.sliding_window_size = (
-            self.model.get_attention_sliding_window_size()
-            if hasattr(self.model, "get_attention_sliding_window_size")
-            else None
-        )
-        self.dtype = self.model_config.dtype
-
-        after_avail_memory = get_available_gpu_memory(self.device, self.gpu_id)
-        logger.info(
-            f"Load weight end. "
-            f"type={type(self.model).__name__}, "
-            f"dtype={self.dtype}, "
-            f"avail mem={after_avail_memory:.2f} GB, "
-            f"mem usage={(before_avail_memory - after_avail_memory):.2f} GB."
-        )
-
-        # Handle the case where some ranks do not finish loading.
-        try:
-            dist.monitored_barrier(
-                group=get_tp_group().cpu_group,
-                timeout=datetime.timedelta(seconds=UNBALANCED_MODEL_LOADING_TIMEOUT_S),
-                wait_all_ranks=True,
-            )
-        except RuntimeError:
-            raise ValueError(
-                f"TP rank {self.tp_rank} could finish the model loading, but there are other ranks that didn't finish loading. It is likely due to unexpected failures (e.g., OOM) or a slow node."
-            ) from None
-        
-    def setup_collective_group(self, comm_plan, backend, rank_in_cluster):
-        self.model_update_comm_plan = getattr(self, "model_update_comm_plan", {})
-        rank, comm_plan_args = get_dist_info_from_comm_plan(comm_plan, rank_in_cluster=rank_in_cluster,
-                                                            rank_in_worker=dist.get_rank())
-        if rank is None:
-            logger.info(f"no comm_plan found for rank {rank_in_cluster}/{dist.get_rank()}")
-            return True, "Succeeded to setup_collective_group."
-        
-        group_name = comm_plan_args["group_name"]
-        master_addr = comm_plan_args["master_addr"]
-        master_port = comm_plan_args["master_port"]
-        world_size = len(comm_plan_args["tgt_devices"]) + 1
-        src_pp_rank = comm_plan_args["src_pp_rank"]
-        collective.init_collective_group(world_size, rank, backend=backend, group_name=group_name,
-                                         master_addr=master_addr, master_port=master_port)
-        # A small all_reduce for warmup.
-        collective.allreduce(torch.zeros(1).to(current_platform.device_type), group_name=group_name)
-        self.model_update_comm_plan[src_pp_rank] = dict(rank=rank,
-                                                        world_size=world_size,
-                                                        src_pp_rank=src_pp_rank,
-                                                        group_name=group_name,
-                                                        comm_plan=comm_plan,
-                                                        comm_plan_args=comm_plan_args)
-        logger.info(f"warmup setup_collective_group: {group_name} rank: {rank} world_size: {world_size}")
-        return True, "Succeeded to setup_collective_group."
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        if src_pp_rank not in self.model_update_comm_plan:
-            return True, "Succeeded to broadcast_bucket."
-
-        comm_plan = self.model_update_comm_plan[src_pp_rank]
-        buffer = torch.empty(bucket_size, dtype=torch.int8, device=current_platform.device_type)
-        collective.broadcast(tensor=buffer, src_rank=0, group_name=comm_plan["group_name"])
-        self.update_parameter_in_bucket(meta_infos, buffer, [dist.get_rank()])
-        return True, "Succeeded to broadcast_bucket."
-
-    def broadcast_parameter(self, src_pp_rank, dtype, shape, parameter_name):
-        if src_pp_rank not in self.model_update_comm_plan:
-            return True, "Succeeded to broadcast_parameter."
-        comm_plan = self.model_update_comm_plan[src_pp_rank]
-        weight = torch.empty(shape, dtype=dtype, device=current_platform.device_type)
-        collective.broadcast(tensor=weight, src_rank=0, group_name=comm_plan["group_name"])
-        self.update_parameter(parameter_name, weight, [dist.get_rank()])
-        return True, "Succeeded to broadcast_parameter."
-
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker):
-        if dist.get_rank() not in ranks_in_worker:
-            return True, "Succeeded to update_parameter."
-        self.model.load_weights([(parameter_name, weight)])
-        del weight
-        return True, "Succeeded to update_parameter."
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        if dist.get_rank() not in ranks_in_worker:
-            return True, "Succeeded to update_parameter_in_bucket."
-        from mcore_adapter.models.converter.convert_utils import RecvBucketManager
-        self.recv_manager = getattr(self, "recv_manager", RecvBucketManager())
-        named_params = self.recv_manager.process_bucket(meta_infos, buffer)
-        del buffer
-        self.model.load_weights([(name, weight) for name, weight in named_params.items()])
-        return True, "Succeeded to update_parameter_in_bucket."
\ No newline at end of file
diff --git a/roll/third_party/sglang/v046post4_patch/scheduler.py b/roll/third_party/sglang/v046post4_patch/scheduler.py
deleted file mode 100644
index 2a23937a8..000000000
--- a/roll/third_party/sglang/v046post4_patch/scheduler.py
+++ /dev/null
@@ -1,98 +0,0 @@
-import torch
-import logging
-import torch
-from roll.platforms import current_platform
-from sglang.srt.managers.io_struct import (
-    ReleaseMemoryOccupationReqInput,
-    ReleaseMemoryOccupationReqOutput,
-    ResumeMemoryOccupationReqOutput,
-    ResumeMemoryOccupationReqInput,
-)
-
-from sglang.srt.managers.scheduler import Scheduler, _import_static_state, _export_static_state
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-    SetupCollectiveGroupReqOutput,
-    BroadcastBucketReqOutput,
-    BroadcastParameterReqOutput,
-    UpdateParameterInBucketReqOutput,
-    UpdateParameterReqOutput,
-)
-
-logger = logging.getLogger(__name__)
-
-
-class SchedulerSA(Scheduler):
-    def __init__(self, *args, **kwargs):
-        import sys
-        from roll.third_party.sglang.v046post4_patch.tp_worker import TpModelWorkerClientSA, TpModelWorkerSA
-        sys.modules['sglang.srt.managers.scheduler'].__dict__['TpModelWorkerClient'] = TpModelWorkerClientSA
-        sys.modules['sglang.srt.managers.scheduler'].__dict__['TpModelWorker'] = TpModelWorkerSA
-        super().__init__(*args, **kwargs)
-        func_map_patch = [(SetupCollectiveGroupReqInput, self.setup_collective_group),
-                          (BroadcastBucketReqInput, self.broadcast_bucket),
-                          (BroadcastParameterReqInput, self.broadcast_parameter),
-                          (UpdateParameterInBucketReqInput, self.update_parameter_in_bucket),
-                          (UpdateParameterReqInput, self.update_parameter)]
-        self._request_dispatcher._mapping += func_map_patch
-
-    def setup_collective_group(self, recv_req: SetupCollectiveGroupReqInput):
-        success, message = self.tp_worker.setup_collective_group(recv_req)
-        return SetupCollectiveGroupReqOutput(success, message)
-
-    def release_memory_occupation(self, recv_req: ReleaseMemoryOccupationReqInput):
-        self.stashed_model_static_state = _export_static_state(
-            self.tp_worker.worker.model_runner.model
-        )
-        self.tp_worker.worker.model_runner.model.to('cpu')
-        self.memory_saver_adapter.pause()
-        self.flush_cache()
-        return ReleaseMemoryOccupationReqOutput()
-    
-    def resume_memory_occupation(self, recv_req: ResumeMemoryOccupationReqInput):
-        self.tp_worker.worker.model_runner.model.to(current_platform.current_device())
-        self.memory_saver_adapter.resume()
-
-        # gc.collect()
-        # torch.cuda.empty_cache()
-        # self.tp_worker.worker.model_runner.model.to(current_platform.current_device())
-        _import_static_state(
-            self.tp_worker.worker.model_runner.model, self.stashed_model_static_state
-        )
-        del self.stashed_model_static_state
-
-        self.tp_worker.worker.model_runner.init_cublas()
-        self.tp_worker.worker.model_runner.init_attention_backend()
-        from sglang.srt.model_executor.cuda_graph_runner import set_global_graph_memory_pool
-        set_global_graph_memory_pool(None)
-        self.tp_worker.worker.model_runner.init_cuda_graphs()
-
-        return ResumeMemoryOccupationReqOutput()
-
-    def broadcast_bucket(self, recv_req: BroadcastBucketReqInput):
-        success, message = self.tp_worker.broadcast_bucket(recv_req)
-        return BroadcastBucketReqOutput(success, message)
-
-    def broadcast_parameter(self, recv_req: BroadcastParameterReqInput):
-        success, message = self.tp_worker.broadcast_parameter(recv_req)
-        return BroadcastParameterReqOutput(success, message)
-
-    def update_parameter(self, recv_req: UpdateParameterReqInput):
-        success, message = self.tp_worker.update_parameter(recv_req)
-        return UpdateParameterReqOutput(success, message)
-
-    def update_parameter_in_bucket(self, recv_req: UpdateParameterInBucketReqInput):
-        success, message = self.tp_worker.update_parameter_in_bucket(recv_req)
-        return UpdateParameterInBucketReqOutput(success, message)
-
-
-def run_scheduler_process(*args, **kwargs):
-    import sys
-    sys.modules['sglang.srt.managers.scheduler'].__dict__['Scheduler'] = SchedulerSA
-    from sglang.srt.managers.scheduler import run_scheduler_process
-    return run_scheduler_process(*args, **kwargs)
\ No newline at end of file
diff --git a/roll/third_party/sglang/v046post4_patch/tokenizer_manager.py b/roll/third_party/sglang/v046post4_patch/tokenizer_manager.py
deleted file mode 100644
index c751b1535..000000000
--- a/roll/third_party/sglang/v046post4_patch/tokenizer_manager.py
+++ /dev/null
@@ -1,126 +0,0 @@
-import os
-from typing import Optional, Tuple
-import fastapi
-
-from sglang.srt.server_args import PortArgs, ServerArgs
-from sglang.srt.managers.tokenizer_manager import TokenizerManager, _Communicator
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-    SetupCollectiveGroupReqOutput,
-    BroadcastBucketReqOutput,
-    BroadcastParameterReqOutput,
-    UpdateParameterInBucketReqOutput,
-    UpdateParameterReqOutput,
-)
-
-class TokenizerManagerSA(TokenizerManager):
-    def __init__(
-        self,
-        server_args: ServerArgs,
-        port_args: PortArgs,
-    ):
-        super().__init__(server_args=server_args, port_args=port_args)
-
-        self.setup_collective_group_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.broadcast_bucket_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.broadcast_parameter_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.update_parameter_in_bucket_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.update_parameter_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-
-        communicator_patch = [(
-                    SetupCollectiveGroupReqOutput,
-                    self.setup_collective_group_communicator.handle_recv,
-                ),
-                (
-                    BroadcastBucketReqOutput,
-                    self.broadcast_bucket_communicator.handle_recv,
-                ),
-                (
-                    BroadcastParameterReqOutput,
-                    self.broadcast_parameter_communicator.handle_recv,
-                ),
-                (
-                    UpdateParameterInBucketReqOutput,
-                    self.update_parameter_in_bucket_communicator.handle_recv,
-                ),
-                (
-                    UpdateParameterReqOutput,
-                    self.update_parameter_communicator.handle_recv,
-                )]
-        
-        self._result_dispatcher._mapping += communicator_patch
-    
-    async def setup_collective_group(
-        self,
-        obj: SetupCollectiveGroupReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        assert (
-            self.server_args.dp_size == 1
-        ), "dp_size must be 1 for init parameter update group"
-        result = (await self.setup_collective_group_communicator(obj))[0]
-        return result.success, result.message
-
-    async def broadcast_bucket(
-        self,
-        obj: BroadcastBucketReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        assert (
-            self.server_args.dp_size == 1
-        ), "dp_size must be 1 for init parameter update group"
-        result = (await self.broadcast_bucket_communicator(obj))[0]
-        return result.success, result.message
-
-    async def broadcast_parameter(
-        self,
-        obj: BroadcastParameterReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        assert (
-            self.server_args.dp_size == 1
-        ), "dp_size must be 1 for init parameter update group"
-        result = (await self.broadcast_parameter_communicator(obj))[0]
-        return result.success, result.message
-
-    async def update_parameter(
-        self,
-        obj: UpdateParameterReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        assert (
-            self.server_args.dp_size == 1
-        ), "dp_size must be 1 for init parameter update group"
-        result = (await self.update_parameter_communicator(obj))[0]
-        return result.success, result.message
-
-    async def update_parameter_in_bucket(
-        self,
-        obj: UpdateParameterInBucketReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        assert (
-            self.server_args.dp_size == 1
-        ), "dp_size must be 1 for init parameter update group"
-        result = (await self.update_parameter_in_bucket_communicator(obj))[0]
-        return result.success, result.message
\ No newline at end of file
diff --git a/roll/third_party/sglang/v046post4_patch/tp_worker.py b/roll/third_party/sglang/v046post4_patch/tp_worker.py
deleted file mode 100644
index cf37cd5a0..000000000
--- a/roll/third_party/sglang/v046post4_patch/tp_worker.py
+++ /dev/null
@@ -1,86 +0,0 @@
-from sglang.srt.managers.tp_worker import TpModelWorker
-from sglang.srt.managers.tp_worker_overlap_thread import TpModelWorkerClient
-
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-)
-
-class TpModelWorkerSA(TpModelWorker):
-    def __init__(self, *args, **kwargs):
-        import sys
-        from roll.third_party.sglang.v046post4_patch.model_runner import ModelRunnerSA
-        sys.modules['sglang.srt.managers.tp_worker'].__dict__['ModelRunner'] = ModelRunnerSA
-        super().__init__(*args, **kwargs)
-
-    def setup_collective_group(self, recv_req: SetupCollectiveGroupReqInput):
-        success, message = self.model_runner.setup_collective_group(
-            recv_req.comm_plan,
-            recv_req.backend,
-            recv_req.rank_in_cluster,
-        )
-        return success, message
-
-    def broadcast_bucket(self, recv_req: BroadcastBucketReqInput):
-        success, message = self.model_runner.broadcast_bucket(
-            recv_req.src_pp_rank,
-            recv_req.meta_infos,
-            recv_req.bucket_size,
-        )
-        return success, message
-
-    def broadcast_parameter(self, recv_req: BroadcastParameterReqInput):
-        success, message = self.model_runner.broadcast_parameter(
-            recv_req.src_pp_rank,
-            recv_req.dtype,
-            recv_req.shape,
-            recv_req.parameter_name,
-        )
-        return success, message
-
-    def update_parameter(self, recv_req: UpdateParameterReqInput):
-        success, message = self.model_runner.update_parameter(
-            recv_req.parameter_name,
-            recv_req.weight,
-            recv_req.ranks_in_worker,
-        )
-        return success, message
-
-    def update_parameter_in_bucket(self, recv_req: UpdateParameterInBucketReqInput):
-        success, message = self.model_runner.update_parameter_in_bucket(
-            recv_req.meta_infos,
-            recv_req.buffer,
-            recv_req.ranks_in_worker,
-        )
-        return success, message
-
-
-class TpModelWorkerClientSA(TpModelWorkerClient):
-    def __init__(self, *args, **kwargs):
-        import sys
-        sys.modules['sglang.srt.managers.tp_worker_overlap_thread'].__dict__['TpModelWorker'] = TpModelWorkerSA
-        super().__init__(*args, **kwargs)
-
-    def setup_collective_group(self, recv_req: SetupCollectiveGroupReqInput):
-        success, message = self.worker.setup_collective_group(recv_req)
-        return success, message
-
-    def broadcast_bucket(self, recv_req: BroadcastBucketReqInput):
-        success, message = self.worker.broadcast_bucket(recv_req)
-        return success, message
-
-    def broadcast_parameter(self, recv_req: BroadcastParameterReqInput):
-        success, message = self.worker.broadcast_parameter(recv_req)
-        return success, message
-
-    def update_parameter(self, recv_req: UpdateParameterReqInput):
-        success, message = self.worker.update_parameter(recv_req)
-        return success, message
-
-    def update_parameter_in_bucket(self, recv_req: UpdateParameterInBucketReqInput):
-        success, message = self.worker.update_parameter_in_bucket(recv_req)
-        return success, message
\ No newline at end of file
diff --git a/roll/third_party/sglang/v052_patch/__init__.py b/roll/third_party/sglang/v052_patch/__init__.py
index fa4bec152..32de7e606 100644
--- a/roll/third_party/sglang/v052_patch/__init__.py
+++ b/roll/third_party/sglang/v052_patch/__init__.py
@@ -1,2 +1 @@
 from . import engine
-from . import scheduler
\ No newline at end of file
diff --git a/roll/third_party/sglang/v052_patch/engine.py b/roll/third_party/sglang/v052_patch/engine.py
index 12fe03aa1..48b2098ea 100644
--- a/roll/third_party/sglang/v052_patch/engine.py
+++ b/roll/third_party/sglang/v052_patch/engine.py
@@ -1,111 +1,66 @@
-import asyncio
-from sglang.srt.entrypoints.engine import Engine
+import os
+import time
+import random
+import multiprocessing as mp
 
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-)
 import sglang.srt.entrypoints.engine as engine_module
+from sglang.srt.server_args import ServerArgs
+from sglang.srt.utils import (
+    set_prometheus_multiproc_dir,
+    set_ulimit,
+)
 
 
-class EngineSA(Engine):
+# Remove signal handler. singla.signal in python can only run in MainThread which fails when using Ray Async Actor.
+def _set_envs_and_config(server_args: ServerArgs):
+    # Set global environments
+    os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
+    os.environ["NCCL_CUMEM_ENABLE"] = str(int(server_args.enable_symm_mem))
+    if not server_args.enable_symm_mem:
+        os.environ["NCCL_NVLS_ENABLE"] = str(int(server_args.enable_nccl_nvls))
+    os.environ["CUDA_DEVICE_MAX_CONNECTIONS"] = "4"
+    os.environ["CUDA_MODULE_LOADING"] = "AUTO"
+    # flashinfer uses this environment variable for various kernels from MoE to quant kernels
+    if os.environ.get("TRTLLM_ENABLE_PDL", "1") != "0":
+        os.environ["TRTLLM_ENABLE_PDL"] = "1"
+
+    # Can also be passed as argument
+    os.environ["SGLANG_RUN_ID"] = (
+        f"sglang-run-{time.time()}-{random.randint(0, 100000000)}"
+    )
+
+    # Set prometheus env vars
+    if server_args.enable_metrics:
+        set_prometheus_multiproc_dir()
+
+    # Set ulimit
+    set_ulimit()
+
+    # Set mp start method
+    mp.set_start_method("spawn", force=True)
+
+def run_scheduler_process(*args, **kwargs):
+    from roll.third_party.sglang import fp8
+    fp8.monkey_patch_fp8()
+
+    from sglang.srt.managers.scheduler import run_scheduler_process
+    return run_scheduler_process(*args, **kwargs)
+
+def run_data_parallel_controller_process(*args, **kwargs):
+    import sys
+    sys.modules['sglang.srt.managers.data_parallel_controller'].__dict__['run_scheduler_process'] = run_scheduler_process
+
+    from sglang.srt.managers.data_parallel_controller import run_data_parallel_controller_process
+    return run_data_parallel_controller_process(*args, **kwargs)
 
-    def setup_collective_group(
-        self,
-        comm_plan: str,
-        backend: str,
-        rank_in_cluster: int,
-    ):
-        obj = SetupCollectiveGroupReqInput(
-            comm_plan=comm_plan,
-            backend=backend,
-            rank_in_cluster=rank_in_cluster,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.setup_collective_group(obj, None)
-        )
-    
-    def broadcast_bucket(
-        self,
-        src_pp_rank: int, 
-        meta_infos: dict, 
-        bucket_size: int,
-    ):
-        obj = BroadcastBucketReqInput(
-            src_pp_rank=src_pp_rank,
-            meta_infos=meta_infos,
-            bucket_size=bucket_size,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.broadcast_bucket(obj, None)
-        )
-    
-    def broadcast_parameter(
-        self,
-        src_pp_rank, 
-        dtype, 
-        shape, 
-        parameter_name
-    ):
-        obj = BroadcastParameterReqInput(
-            src_pp_rank=src_pp_rank,
-            dtype=dtype,
-            shape=shape,
-            parameter_name=parameter_name,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.broadcast_parameter(obj, None)
-        )
-    
-    def update_parameter(
-        self,
-        parameter_name, 
-        weight, 
-        ranks_in_worker
-    ):
-        obj = UpdateParameterReqInput(
-            parameter_name=parameter_name,
-            weight=weight,
-            ranks_in_worker=ranks_in_worker,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.update_parameter(obj, None)
-        )
-    
-    def update_parameter_in_bucket(
-        self,
-        meta_infos, 
-        buffer, 
-        ranks_in_worker
-    ):
-        """Initialize parameter update group."""
-        obj = UpdateParameterInBucketReqInput(
-            meta_infos=meta_infos,
-            buffer=buffer,
-            ranks_in_worker=ranks_in_worker,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.update_parameter_in_bucket(obj, None)
-        )
-    
 class _roll_launch_subprocesses(object):
     def __init__(self, _launch_subprocesses):
         self._launch_subprocesses = _launch_subprocesses
     
     def __call__(self, *args, **kwargs):
         import sys
-        from roll.third_party.sglang.v052_patch.tokenizer_manager import TokenizerManagerSA
-        from roll.third_party.sglang.v052_patch.scheduler import run_scheduler_process, run_data_parallel_controller_process
-        
-        sys.modules['sglang.srt.entrypoints.engine'].__dict__['TokenizerManager'] = TokenizerManagerSA
+
+        sys.modules['sglang.srt.entrypoints.engine'].__dict__['_set_envs_and_config'] = _set_envs_and_config
         sys.modules['sglang.srt.entrypoints.engine'].__dict__['run_scheduler_process'] = run_scheduler_process
         sys.modules['sglang.srt.entrypoints.engine'].__dict__['run_data_parallel_controller_process'] = run_data_parallel_controller_process
         return self._launch_subprocesses(*args, **kwargs)
diff --git a/roll/third_party/sglang/v052_patch/io_struct.py b/roll/third_party/sglang/v052_patch/io_struct.py
deleted file mode 100644
index faa6d156b..000000000
--- a/roll/third_party/sglang/v052_patch/io_struct.py
+++ /dev/null
@@ -1,62 +0,0 @@
-from dataclasses import dataclass
-
-@dataclass
-class SetupCollectiveGroupReqInput:
-    comm_plan: dict
-    backend: int
-    rank_in_cluster: int
-
-
-@dataclass
-class SetupCollectiveGroupReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class BroadcastBucketReqInput:
-    src_pp_rank: str
-    meta_infos: dict
-    bucket_size: int
-
-
-@dataclass
-class BroadcastBucketReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class BroadcastParameterReqInput:
-    src_pp_rank: str
-    dtype: int
-    shape: dict
-    parameter_name: str
-
-
-@dataclass
-class BroadcastParameterReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class UpdateParameterReqInput:
-    parameter_name: str
-    weight: int
-    ranks_in_worker: dict
-
-
-@dataclass
-class UpdateParameterReqOutput:
-    success: bool
-    message: str
-
-@dataclass
-class UpdateParameterInBucketReqInput:
-    meta_infos: str
-    buffer: int
-    ranks_in_worker: dict
-
-
-@dataclass
-class UpdateParameterInBucketReqOutput:
-    success: bool
-    message: str
\ No newline at end of file
diff --git a/roll/third_party/sglang/v052_patch/model_runner.py b/roll/third_party/sglang/v052_patch/model_runner.py
deleted file mode 100644
index ce1832d8d..000000000
--- a/roll/third_party/sglang/v052_patch/model_runner.py
+++ /dev/null
@@ -1,200 +0,0 @@
-import logging
-from dataclasses import dataclass
-import torch
-import torch.distributed as dist
-import datetime
-
-from roll.platforms import current_platform
-
-
-from sglang.srt.model_executor.model_runner import ModelRunner, UNBALANCED_MODEL_LOADING_TIMEOUT_S
-from sglang.srt.configs.device_config import DeviceConfig
-from sglang.srt.configs.load_config import LoadConfig
-from sglang.srt.configs.update_config import adjust_config_with_unaligned_cpu_tp
-from sglang.srt.distributed import get_tp_group
-from sglang.srt.layers.quantization import monkey_patch_isinstance_for_vllm_base_layer
-from sglang.srt.distributed.parallel_state import monkey_patch_vllm_parallel_state
-from sglang.srt.model_loader import get_model
-from sglang.srt.offloader import get_offloader
-
-from sglang.srt.utils import (
-    get_available_gpu_memory,
-    monkey_patch_vllm_gguf_config,
-    set_cuda_arch,
-)
-
-from roll.utils.collective import collective
-from roll.utils.functionals import get_dist_info_from_comm_plan
-from roll.platforms import current_platform
-
-logger = logging.getLogger(__name__)
-
-
-class ModelRunnerSA(ModelRunner):
-    def load_model(self):
-        before_avail_memory = get_available_gpu_memory(self.device, self.gpu_id)
-        logger.info(
-            f"Load weight begin. avail mem={get_available_gpu_memory(self.device, self.gpu_id):.2f} GB"
-        )
-
-        # This can reduce thread conflicts and speed up weight loading.
-        if self.device != "cpu":
-            torch.set_num_threads(1)
-        if self.device == current_platform.device_type:
-            if current_platform.get_device_capability()[0] < 8:
-                logger.info(
-                    "Compute capability below sm80. Use float16 due to lack of bfloat16 support."
-                )
-                self.server_args.dtype = "float16"
-                self.model_config.dtype = torch.float16
-                if current_platform.get_device_capability()[1] < 5:
-                    raise RuntimeError("SGLang only supports sm75 and above.")
-
-        set_cuda_arch()
-
-        # Prepare the model config
-        self.load_config = LoadConfig(
-            load_format=self.server_args.load_format,
-            download_dir=self.server_args.download_dir,
-            model_loader_extra_config=self.server_args.model_loader_extra_config,
-        )
-        if self.device == "cpu":
-            self.model_config = adjust_config_with_unaligned_cpu_tp(
-                self.model_config, self.load_config, self.tp_size
-            )
-        if self.server_args.load_format == "gguf":
-            monkey_patch_vllm_gguf_config()
-
-        # Load the model
-        # Remove monkey_patch when linear.py quant remove dependencies with vllm
-        monkey_patch_vllm_parallel_state()
-        monkey_patch_isinstance_for_vllm_base_layer()
-
-        self.model = get_model(
-            model_config=self.model_config,
-            load_config=self.load_config,
-            device_config=DeviceConfig(self.device),
-        )
-        monkey_patch_vllm_parallel_state(reverse=True)
-        monkey_patch_isinstance_for_vllm_base_layer(reverse=True)
-
-        get_offloader().post_init()
-
-        if self.server_args.kv_cache_dtype == "fp8_e4m3":
-            if self.server_args.quantization_param_path is not None:
-                if callable(getattr(self.model, "load_kv_cache_scales", None)):
-                    self.model.load_kv_cache_scales(
-                        self.server_args.quantization_param_path
-                    )
-                    logger.info(
-                        "Loaded KV cache scaling factors from %s",
-                        self.server_args.quantization_param_path,
-                    )
-                else:
-                    raise RuntimeError(
-                        "Using FP8 KV cache and scaling factors provided but "
-                        "model %s does not support loading scaling factors.",
-                        self.model.__class__,
-                    )
-            else:
-                logger.warning(
-                    "Using FP8 KV cache but no scaling factors "
-                    "provided. Defaulting to scaling factors of 1.0. "
-                    "This may lead to less accurate results!"
-                )
-
-        # Parse other args
-        self.sliding_window_size = None
-        if hasattr(self.model, "get_attention_sliding_window_size"):
-            self.sliding_window_size = self.model.get_attention_sliding_window_size()
-        elif self.model_config.attention_chunk_size is not None:
-            self.sliding_window_size = self.model_config.attention_chunk_size
-            logger.info(
-                f"Setting sliding_window_size to be attention_chunk_size: {self.sliding_window_size}"
-            )
-
-        self.dtype = self.model_config.dtype
-
-        after_avail_memory = get_available_gpu_memory(self.device, self.gpu_id)
-        self.weight_load_mem_usage = before_avail_memory - after_avail_memory
-        logger.info(
-            f"Load weight end. "
-            f"type={type(self.model).__name__}, "
-            f"dtype={self.dtype}, "
-            f"avail mem={after_avail_memory:.2f} GB, "
-            f"mem usage={self.weight_load_mem_usage:.2f} GB."
-        )
-
-        # Handle the case where some ranks do not finish loading.
-        try:
-            dist.monitored_barrier(
-                group=get_tp_group().cpu_group,
-                timeout=datetime.timedelta(seconds=UNBALANCED_MODEL_LOADING_TIMEOUT_S),
-                wait_all_ranks=True,
-            )
-        except RuntimeError:
-            raise ValueError(
-                f"TP rank {self.tp_rank} could finish the model loading, but there are other ranks that didn't finish loading. It is likely due to unexpected failures (e.g., OOM) or a slow node."
-            ) from None
- 
-    def setup_collective_group(self, comm_plan, backend, rank_in_cluster):
-        self.model_update_comm_plan = getattr(self, "model_update_comm_plan", {})
-        rank, comm_plan_args = get_dist_info_from_comm_plan(comm_plan, rank_in_cluster=rank_in_cluster,
-                                                            rank_in_worker=dist.get_rank())
-        if rank is None:
-            logger.info(f"no comm_plan found for rank {rank_in_cluster}/{dist.get_rank()}")
-            return True, "Succeeded to setup_collective_group."
-        
-        group_name = comm_plan_args["group_name"]
-        master_addr = comm_plan_args["master_addr"]
-        master_port = comm_plan_args["master_port"]
-        world_size = len(comm_plan_args["tgt_devices"]) + 1
-        src_pp_rank = comm_plan_args["src_pp_rank"]
-        collective.init_collective_group(world_size, rank, backend=backend, group_name=group_name,
-                                         master_addr=master_addr, master_port=master_port)
-        # A small all_reduce for warmup.
-        collective.allreduce(torch.zeros(1).to(current_platform.device_type), group_name=group_name)
-        self.model_update_comm_plan[src_pp_rank] = dict(rank=rank,
-                                                        world_size=world_size,
-                                                        src_pp_rank=src_pp_rank,
-                                                        group_name=group_name,
-                                                        comm_plan=comm_plan,
-                                                        comm_plan_args=comm_plan_args)
-        logger.info(f"warmup setup_collective_group: {group_name} rank: {rank} world_size: {world_size}")
-        return True, "Succeeded to setup_collective_group."
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        if src_pp_rank not in self.model_update_comm_plan:
-            return True, "Succeeded to broadcast_bucket."
-
-        comm_plan = self.model_update_comm_plan[src_pp_rank]
-        buffer = torch.empty(bucket_size, dtype=torch.int8, device=current_platform.device_type)
-        collective.broadcast(tensor=buffer, src_rank=0, group_name=comm_plan["group_name"])
-        self.update_parameter_in_bucket(meta_infos, buffer, [dist.get_rank()])
-        return True, "Succeeded to broadcast_bucket."
-
-    def broadcast_parameter(self, src_pp_rank, dtype, shape, parameter_name):
-        if src_pp_rank not in self.model_update_comm_plan:
-            return True, "Succeeded to broadcast_parameter."
-        comm_plan = self.model_update_comm_plan[src_pp_rank]
-        weight = torch.empty(shape, dtype=dtype, device=current_platform.device_type)
-        collective.broadcast(tensor=weight, src_rank=0, group_name=comm_plan["group_name"])
-        self.update_parameter(parameter_name, weight, [dist.get_rank()])
-        return True, "Succeeded to broadcast_parameter."
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker):
-        if dist.get_rank() not in ranks_in_worker:
-            return True, "Succeeded to update_parameter."
-        self.model.load_weights([(parameter_name, weight)])
-        del weight
-        return True, "Succeeded to update_parameter."
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        if dist.get_rank() not in ranks_in_worker:
-            return True, "Succeeded to update_parameter_in_bucket."
-        from mcore_adapter.models.converter.convert_utils import RecvBucketManager
-        self.recv_manager = getattr(self, "recv_manager", RecvBucketManager())
-        named_params = self.recv_manager.process_bucket(meta_infos, buffer)
-        del buffer
-        self.model.load_weights([(name, weight) for name, weight in named_params.items()])
-        return True, "Succeeded to update_parameter_in_bucket."
\ No newline at end of file
diff --git a/roll/third_party/sglang/v052_patch/scheduler.py b/roll/third_party/sglang/v052_patch/scheduler.py
deleted file mode 100644
index 48405d4df..000000000
--- a/roll/third_party/sglang/v052_patch/scheduler.py
+++ /dev/null
@@ -1,108 +0,0 @@
-import torch
-from roll.platforms import current_platform
-
-
-from sglang.srt.managers.io_struct import (
-    ReleaseMemoryOccupationReqInput,
-    ReleaseMemoryOccupationReqOutput,
-	ResumeMemoryOccupationReqOutput,
-    ResumeMemoryOccupationReqInput,
-)
-from sglang.srt.constants import GPU_MEMORY_TYPE_KV_CACHE
-from sglang.srt.managers.scheduler import Scheduler
-
-from sglang.srt.managers.scheduler_update_weights_mixin import _import_static_state, _export_static_state
-
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-    SetupCollectiveGroupReqOutput,
-    BroadcastBucketReqOutput,
-    BroadcastParameterReqOutput,
-    UpdateParameterInBucketReqOutput,
-    UpdateParameterReqOutput,
-)
-
-class SchedulerSA(Scheduler):
-    def __init__(self, *args, **kwargs):
-        import sys
-        from roll.third_party.sglang.v052_patch.tp_worker import TpModelWorkerClientSA, TpModelWorkerSA
-        sys.modules['sglang.srt.managers.scheduler'].__dict__['TpModelWorkerClient'] = TpModelWorkerClientSA
-        sys.modules['sglang.srt.managers.scheduler'].__dict__['TpModelWorker'] = TpModelWorkerSA
-        super().__init__(*args, **kwargs)
-        func_map_patch = [(SetupCollectiveGroupReqInput, self.setup_collective_group),
-                          (BroadcastBucketReqInput, self.broadcast_bucket),
-                          (BroadcastParameterReqInput, self.broadcast_parameter),
-                          (UpdateParameterInBucketReqInput, self.update_parameter_in_bucket),
-                          (UpdateParameterReqInput, self.update_parameter)]
-        self._request_dispatcher._mapping += func_map_patch
-
-    def setup_collective_group(self, recv_req: SetupCollectiveGroupReqInput):
-        success, message = self.tp_worker.setup_collective_group(recv_req)
-        return SetupCollectiveGroupReqOutput(success, message)
-
-    def release_memory_occupation(self, recv_req: ReleaseMemoryOccupationReqInput):
-        self.stashed_model_static_state = _export_static_state(
-            self.tp_worker.worker.model_runner.model
-        )
-        self.tp_worker.worker.model_runner.model.to('cpu')
-        self.memory_saver_adapter.pause(GPU_MEMORY_TYPE_KV_CACHE)
-        self.flush_cache()
-        return ReleaseMemoryOccupationReqOutput()
-    
-    def resume_memory_occupation(self, recv_req: ResumeMemoryOccupationReqInput):
-        self.tp_worker.worker.model_runner.model.to(current_platform.current_device())
-        self.memory_saver_adapter.resume(GPU_MEMORY_TYPE_KV_CACHE)
-
-        # gc.collect()
-        # torch.cuda.empty_cache()
-        # self.tp_worker.worker.model_runner.model.to(current_platform.current_device())
-        _import_static_state(
-            self.tp_worker.worker.model_runner.model, self.stashed_model_static_state
-        )
-        del self.stashed_model_static_state
-
-        self.tp_worker.worker.model_runner.init_cublas()
-        self.tp_worker.worker.model_runner.init_attention_backend()
-        from sglang.srt.model_executor.cuda_graph_runner import set_global_graph_memory_pool
-        set_global_graph_memory_pool(None)
-        self.tp_worker.worker.model_runner.init_device_graphs()
-
-        return ResumeMemoryOccupationReqOutput()
-
-    def broadcast_bucket(self, recv_req: BroadcastBucketReqInput):
-        success, message = self.tp_worker.broadcast_bucket(recv_req)
-        return BroadcastBucketReqOutput(success, message)
-
-    def broadcast_parameter(self, recv_req: BroadcastParameterReqInput):
-        success, message = self.tp_worker.broadcast_parameter(recv_req)
-        return BroadcastParameterReqOutput(success, message)
-
-    def update_parameter(self, recv_req: UpdateParameterReqInput):
-        success, message = self.tp_worker.update_parameter(recv_req)
-        return UpdateParameterReqOutput(success, message)
-
-    def update_parameter_in_bucket(self, recv_req: UpdateParameterInBucketReqInput):
-        success, message = self.tp_worker.update_parameter_in_bucket(recv_req)
-        return UpdateParameterInBucketReqOutput(success, message)
-
-
-def run_scheduler_process(*args, **kwargs):
-    import sys
-    sys.modules['sglang.srt.managers.scheduler'].__dict__['Scheduler'] = SchedulerSA
-    from sglang.srt.managers.scheduler import run_scheduler_process
-    return run_scheduler_process(*args, **kwargs)
-
-
-def run_data_parallel_controller_process(*args, **kwargs):
-    import sys
-    sys.modules['sglang.srt.managers.data_parallel_controller'].__dict__['run_scheduler_process'] = run_scheduler_process
-    from sglang.srt.managers.data_parallel_controller import (
-        run_data_parallel_controller_process,
-    )
-    return run_data_parallel_controller_process(*args, **kwargs)
-
diff --git a/roll/third_party/sglang/v052_patch/tokenizer_manager.py b/roll/third_party/sglang/v052_patch/tokenizer_manager.py
deleted file mode 100644
index fd84c0f3c..000000000
--- a/roll/third_party/sglang/v052_patch/tokenizer_manager.py
+++ /dev/null
@@ -1,112 +0,0 @@
-import os
-from typing import Optional, Tuple
-import fastapi
-
-from sglang.srt.server_args import PortArgs, ServerArgs
-from sglang.srt.managers.tokenizer_manager import TokenizerManager
-from sglang.srt.managers.tokenizer_communicator_mixin import _Communicator
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-    SetupCollectiveGroupReqOutput,
-    BroadcastBucketReqOutput,
-    BroadcastParameterReqOutput,
-    UpdateParameterInBucketReqOutput,
-    UpdateParameterReqOutput,
-)
-
-class TokenizerManagerSA(TokenizerManager):
-    def __init__(
-        self,
-        server_args: ServerArgs,
-        port_args: PortArgs,
-    ):
-        super().__init__(server_args=server_args, port_args=port_args)
-
-        self.setup_collective_group_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.broadcast_bucket_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.broadcast_parameter_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.update_parameter_in_bucket_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.update_parameter_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-
-        communicator_patch = [(
-                    SetupCollectiveGroupReqOutput,
-                    self.setup_collective_group_communicator.handle_recv,
-                ),
-                (
-                    BroadcastBucketReqOutput,
-                    self.broadcast_bucket_communicator.handle_recv,
-                ),
-                (
-                    BroadcastParameterReqOutput,
-                    self.broadcast_parameter_communicator.handle_recv,
-                ),
-                (
-                    UpdateParameterInBucketReqOutput,
-                    self.update_parameter_in_bucket_communicator.handle_recv,
-                ),
-                (
-                    UpdateParameterReqOutput,
-                    self.update_parameter_communicator.handle_recv,
-                )]
-        
-        self._result_dispatcher._mapping += communicator_patch
-    
-    async def setup_collective_group(
-        self,
-        obj: SetupCollectiveGroupReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        result = (await self.setup_collective_group_communicator(obj))[0]
-        return result.success, result.message
-
-    async def broadcast_bucket(
-        self,
-        obj: BroadcastBucketReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        result = (await self.broadcast_bucket_communicator(obj))[0]
-        return result.success, result.message
-
-    async def broadcast_parameter(
-        self,
-        obj: BroadcastParameterReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        result = (await self.broadcast_parameter_communicator(obj))[0]
-        return result.success, result.message
-
-    async def update_parameter(
-        self,
-        obj: UpdateParameterReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        result = (await self.update_parameter_communicator(obj))[0]
-        return result.success, result.message
-
-    async def update_parameter_in_bucket(
-        self,
-        obj: UpdateParameterInBucketReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        result = (await self.update_parameter_in_bucket_communicator(obj))[0]
-        return result.success, result.message
\ No newline at end of file
diff --git a/roll/third_party/sglang/v052_patch/tp_worker.py b/roll/third_party/sglang/v052_patch/tp_worker.py
deleted file mode 100644
index 3840aa5db..000000000
--- a/roll/third_party/sglang/v052_patch/tp_worker.py
+++ /dev/null
@@ -1,85 +0,0 @@
-from sglang.srt.managers.tp_worker import TpModelWorker
-from sglang.srt.managers.tp_worker_overlap_thread import TpModelWorkerClient
-
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-)
-
-class TpModelWorkerSA(TpModelWorker):
-    def __init__(self, *args, **kwargs):
-        import sys
-        from roll.third_party.sglang.v052_patch.model_runner import ModelRunnerSA
-        sys.modules['sglang.srt.managers.tp_worker'].__dict__['ModelRunner'] = ModelRunnerSA
-        super().__init__(*args, **kwargs)
-
-    def setup_collective_group(self, recv_req: SetupCollectiveGroupReqInput):
-        success, message = self.model_runner.setup_collective_group(
-            recv_req.comm_plan,
-            recv_req.backend,
-            recv_req.rank_in_cluster,
-        )
-        return success, message
-
-    def broadcast_bucket(self, recv_req: BroadcastBucketReqInput):
-        success, message = self.model_runner.broadcast_bucket(
-            recv_req.src_pp_rank,
-            recv_req.meta_infos,
-            recv_req.bucket_size,
-        )
-        return success, message
-
-    def broadcast_parameter(self, recv_req: BroadcastParameterReqInput):
-        success, message = self.model_runner.broadcast_parameter(
-            recv_req.src_pp_rank,
-            recv_req.dtype,
-            recv_req.shape,
-            recv_req.parameter_name,
-        )
-        return success, message
-
-    def update_parameter(self, recv_req: UpdateParameterReqInput):
-        success, message = self.model_runner.update_parameter(
-            recv_req.parameter_name,
-            recv_req.weight,
-            recv_req.ranks_in_worker,
-        )
-        return success, message
-
-    def update_parameter_in_bucket(self, recv_req: UpdateParameterInBucketReqInput):
-        success, message = self.model_runner.update_parameter_in_bucket(
-            recv_req.meta_infos,
-            recv_req.buffer,
-            recv_req.ranks_in_worker,
-        )
-        return success, message
-
-class TpModelWorkerClientSA(TpModelWorkerClient):
-    def __init__(self, *args, **kwargs):
-        import sys
-        sys.modules['sglang.srt.managers.tp_worker_overlap_thread'].__dict__['TpModelWorker'] = TpModelWorkerSA
-        super().__init__(*args, **kwargs)
-
-    def setup_collective_group(self, recv_req: SetupCollectiveGroupReqInput):
-        success, message = self.worker.setup_collective_group(recv_req)
-        return success, message
-
-    def broadcast_bucket(self, recv_req: BroadcastBucketReqInput):
-        success, message = self.worker.broadcast_bucket(recv_req)
-        return success, message
-
-    def broadcast_parameter(self, recv_req: BroadcastParameterReqInput):
-        success, message = self.worker.broadcast_parameter(recv_req)
-        return success, message
-
-    def update_parameter(self, recv_req: UpdateParameterReqInput):
-        success, message = self.worker.update_parameter(recv_req)
-        return success, message
-
-    def update_parameter_in_bucket(self, recv_req: UpdateParameterInBucketReqInput):
-        success, message = self.worker.update_parameter_in_bucket(recv_req)
-        return success, message
\ No newline at end of file
diff --git a/roll/third_party/sglang/v054_patch/__init__.py b/roll/third_party/sglang/v054_patch/__init__.py
index fa4bec152..32de7e606 100644
--- a/roll/third_party/sglang/v054_patch/__init__.py
+++ b/roll/third_party/sglang/v054_patch/__init__.py
@@ -1,2 +1 @@
 from . import engine
-from . import scheduler
\ No newline at end of file
diff --git a/roll/third_party/sglang/v054_patch/engine.py b/roll/third_party/sglang/v054_patch/engine.py
index df7f7ba56..b2beb1d31 100644
--- a/roll/third_party/sglang/v054_patch/engine.py
+++ b/roll/third_party/sglang/v054_patch/engine.py
@@ -1,115 +1,76 @@
-import asyncio
-from sglang.srt.entrypoints.engine import Engine
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-)
+import os
+import time
+import random
+import multiprocessing as mp
+
 import sglang.srt.entrypoints.engine as engine_module
+from sglang.srt.server_args import ServerArgs
+from sglang.srt.utils import (
+    set_prometheus_multiproc_dir,
+    set_ulimit,
+)
+
+
+# Remove signal handler. singla.signal in python can only run in MainThread which fails when using Ray Async Actor.
+def _set_envs_and_config(server_args: ServerArgs):
+    # Set global environments
+    os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
+    os.environ["NCCL_CUMEM_ENABLE"] = str(int(server_args.enable_symm_mem))
+    if not server_args.enable_symm_mem:
+        os.environ["NCCL_NVLS_ENABLE"] = str(int(server_args.enable_nccl_nvls))
+    os.environ["CUDA_DEVICE_MAX_CONNECTIONS"] = "4"
+    os.environ["CUDA_MODULE_LOADING"] = "AUTO"
+    # flashinfer uses this environment variable for various kernels from MoE to quant kernels
+    if os.environ.get("TRTLLM_ENABLE_PDL", "1") != "0":
+        os.environ["TRTLLM_ENABLE_PDL"] = "1"
+
+    if os.environ.get("CUTE_DSL_LOG_LEVEL") is None:
+        # Default to warning level, to avoid too many logs
+        os.environ["CUTE_DSL_LOG_LEVEL"] = "30"
+    if os.environ.get("CUTE_DSL_LOG_TO_CONSOLE") is None:
+        # Need to set log to console, otherwise the log level won't take effect
+        os.environ["CUTE_DSL_LOG_TO_CONSOLE"] = "1"
+
+    # Can also be passed as argument
+    os.environ["SGLANG_RUN_ID"] = (
+        f"sglang-run-{time.time()}-{random.randint(0, 100000000)}"
+    )
 
+    # Set prometheus env vars
+    if server_args.enable_metrics:
+        set_prometheus_multiproc_dir()
+
+    # Set ulimit
+    set_ulimit()
+
+    # Set mp start method
+    mp.set_start_method("spawn", force=True)
+
+def run_scheduler_process(*args, **kwargs):
+    from roll.third_party.sglang import fp8
+    fp8.monkey_patch_fp8()
+
+    from sglang.srt.managers.scheduler import run_scheduler_process
+    return run_scheduler_process(*args, **kwargs)
+
+def run_data_parallel_controller_process(*args, **kwargs):
+    import sys
+    sys.modules['sglang.srt.managers.data_parallel_controller'].__dict__['run_scheduler_process'] = run_scheduler_process
+
+    from sglang.srt.managers.data_parallel_controller import run_data_parallel_controller_process
+    return run_data_parallel_controller_process(*args, **kwargs)
 
-class EngineSA(Engine):
-
-    def setup_collective_group(
-        self,
-        comm_plan: str,
-        backend: str,
-        rank_in_cluster: int,
-    ):
-        obj = SetupCollectiveGroupReqInput(
-            comm_plan=comm_plan,
-            backend=backend,
-            rank_in_cluster=rank_in_cluster,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.setup_collective_group(obj, None)
-        )
-    
-    def broadcast_bucket(
-        self,
-        src_pp_rank: int, 
-        meta_infos: dict, 
-        bucket_size: int,
-    ):
-        obj = BroadcastBucketReqInput(
-            src_pp_rank=src_pp_rank,
-            meta_infos=meta_infos,
-            bucket_size=bucket_size,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.broadcast_bucket(obj, None)
-        )
-    
-    def broadcast_parameter(
-        self,
-        src_pp_rank, 
-        dtype, 
-        shape, 
-        parameter_name
-    ):
-        obj = BroadcastParameterReqInput(
-            src_pp_rank=src_pp_rank,
-            dtype=dtype,
-            shape=shape,
-            parameter_name=parameter_name,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.broadcast_parameter(obj, None)
-        )
-    
-    def update_parameter(
-        self,
-        parameter_name, 
-        weight, 
-        ranks_in_worker
-    ):
-        obj = UpdateParameterReqInput(
-            parameter_name=parameter_name,
-            weight=weight,
-            ranks_in_worker=ranks_in_worker,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.update_parameter(obj, None)
-        )
-    
-    def update_parameter_in_bucket(
-        self,
-        meta_infos, 
-        buffer, 
-        ranks_in_worker
-    ):
-        """Initialize parameter update group."""
-        obj = UpdateParameterInBucketReqInput(
-            meta_infos=meta_infos,
-            buffer=buffer,
-            ranks_in_worker=ranks_in_worker,
-        )
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(
-            self.tokenizer_manager.update_parameter_in_bucket(obj, None)
-        )
-    
 class _roll_launch_subprocesses(object):
     def __init__(self, _launch_subprocesses):
         self._launch_subprocesses = _launch_subprocesses
-    
+
     def __call__(self, *args, **kwargs):
         import sys
-        from roll.third_party.sglang.v054_patch.tokenizer_manager import TokenizerManagerSA
-        from roll.third_party.sglang.v054_patch.scheduler import run_scheduler_process, run_data_parallel_controller_process
-        
-        sys.modules['sglang.srt.entrypoints.engine'].__dict__['TokenizerManager'] = TokenizerManagerSA
+        sys.modules['sglang.srt.entrypoints.engine'].__dict__['_set_envs_and_config'] = _set_envs_and_config
         sys.modules['sglang.srt.entrypoints.engine'].__dict__['run_scheduler_process'] = run_scheduler_process
         sys.modules['sglang.srt.entrypoints.engine'].__dict__['run_data_parallel_controller_process'] = run_data_parallel_controller_process
         return self._launch_subprocesses(*args, **kwargs)
 
 
 
-engine_module._launch_subprocesses = _roll_launch_subprocesses(engine_module._launch_subprocesses)
\ No newline at end of file
+engine_module._launch_subprocesses = _roll_launch_subprocesses(engine_module._launch_subprocesses)
diff --git a/roll/third_party/sglang/v054_patch/model_runner.py b/roll/third_party/sglang/v054_patch/model_runner.py
deleted file mode 100644
index 12529a4c1..000000000
--- a/roll/third_party/sglang/v054_patch/model_runner.py
+++ /dev/null
@@ -1,246 +0,0 @@
-import logging
-import torch
-import torch.distributed as dist
-import datetime
-import socket
-import threading
-
-from roll.platforms import current_platform
-
-
-from sglang.srt.model_executor.model_runner import ModelRunner, UNBALANCED_MODEL_LOADING_TIMEOUT_S
-from sglang.srt.configs.device_config import DeviceConfig
-from sglang.srt.configs.load_config import LoadConfig, LoadFormat
-
-from sglang.srt.configs.update_config import adjust_config_with_unaligned_cpu_tp
-from sglang.srt.distributed import get_tp_group
-from sglang.srt.distributed.parallel_state import monkey_patch_vllm_parallel_state
-from sglang.srt.model_loader import get_model
-from sglang.srt.model_loader.remote_instance_weight_loader_utils import (
-    trigger_init_weights_send_group_for_remote_instance_request,
-)
-from sglang.srt.debug_utils.tensor_dump_forward_hook import (
-    register_forward_hook_for_model,
-)
-from sglang.srt.utils.offloader import get_offloader
-
-from sglang.srt.utils import (
-    get_available_gpu_memory,
-    set_cuda_arch,
-)
-
-from roll.utils.collective import collective
-from roll.utils.functionals import get_dist_info_from_comm_plan
-from roll.platforms import current_platform
-
-logger = logging.getLogger(__name__)
-
-
-class ModelRunnerSA(ModelRunner):
-    def load_model(self):
-        before_avail_memory = get_available_gpu_memory(self.device, self.gpu_id)
-        logger.info(
-            f"Load weight begin. avail mem={get_available_gpu_memory(self.device, self.gpu_id):.2f} GB"
-        )
-
-        # This can reduce thread conflicts and speed up weight loading.
-        if self.device != "cpu":
-            torch.set_num_threads(1)
-        if self.device == "cuda":
-            if torch.cuda.get_device_capability()[0] < 8:
-                logger.info(
-                    "Compute capability below sm80. Use float16 due to lack of bfloat16 support."
-                )
-                self.server_args.dtype = "float16"
-                self.model_config.dtype = torch.float16
-                if torch.cuda.get_device_capability()[1] < 5:
-                    raise RuntimeError("SGLang only supports sm75 and above.")
-
-        set_cuda_arch()
-
-        # Prepare the model config
-        from sglang.srt.configs.modelopt_config import ModelOptConfig
-
-        modelopt_config = ModelOptConfig(
-            quant=self.server_args.modelopt_quant,
-            checkpoint_restore_path=self.server_args.modelopt_checkpoint_restore_path,
-            checkpoint_save_path=self.server_args.modelopt_checkpoint_save_path,
-            export_path=self.server_args.modelopt_export_path,
-            quantize_and_serve=self.server_args.quantize_and_serve,
-        )
-
-        self.load_config = LoadConfig(
-            load_format=self.server_args.load_format,
-            download_dir=self.server_args.download_dir,
-            model_loader_extra_config=self.server_args.model_loader_extra_config,
-            tp_rank=self.tp_rank,
-            remote_instance_weight_loader_seed_instance_ip=self.server_args.remote_instance_weight_loader_seed_instance_ip,
-            remote_instance_weight_loader_seed_instance_service_port=self.server_args.remote_instance_weight_loader_seed_instance_service_port,
-            remote_instance_weight_loader_send_weights_group_ports=self.server_args.remote_instance_weight_loader_send_weights_group_ports,
-            modelopt_config=modelopt_config,
-        )
-        if self.device == "cpu":
-            self.model_config = adjust_config_with_unaligned_cpu_tp(
-                self.model_config, self.load_config, self.tp_size
-            )
-
-        if self.server_args.load_format == LoadFormat.REMOTE_INSTANCE:
-            if self.tp_rank == 0:
-                instance_ip = socket.gethostbyname(socket.gethostname())
-                t = threading.Thread(
-                    target=trigger_init_weights_send_group_for_remote_instance_request,
-                    args=(
-                        self.server_args.remote_instance_weight_loader_seed_instance_ip,
-                        self.server_args.remote_instance_weight_loader_seed_instance_service_port,
-                        self.server_args.remote_instance_weight_loader_send_weights_group_ports,
-                        instance_ip,
-                    ),
-                )
-                t.start()
-
-        # Load the model
-        # Remove monkey_patch when linear.py quant remove dependencies with vllm
-        monkey_patch_vllm_parallel_state()
-
-        self.model = get_model(
-            model_config=self.model_config,
-            load_config=self.load_config,
-            device_config=DeviceConfig(self.device, self.gpu_id),
-        )
-        monkey_patch_vllm_parallel_state(reverse=True)
-
-        get_offloader().post_init()
-
-        if self.server_args.kv_cache_dtype == "fp8_e4m3":
-            if self.server_args.quantization_param_path is not None:
-                if callable(getattr(self.model, "load_kv_cache_scales", None)):
-                    self.model.load_kv_cache_scales(
-                        self.server_args.quantization_param_path
-                    )
-                    logger.info(
-                        "Loaded KV cache scaling factors from %s",
-                        self.server_args.quantization_param_path,
-                    )
-                else:
-                    raise RuntimeError(
-                        "Using FP8 KV cache and scaling factors provided but "
-                        "model %s does not support loading scaling factors.",
-                        self.model.__class__,
-                    )
-            else:
-                logger.warning(
-                    "Using FP8 KV cache but no scaling factors "
-                    "provided. Defaulting to scaling factors of 1.0. "
-                    "This may lead to less accurate results!"
-                )
-
-        # Parse other args
-        self.sliding_window_size = None
-        if hasattr(self.model, "get_attention_sliding_window_size"):
-            self.sliding_window_size = self.model.get_attention_sliding_window_size()
-        elif self.model_config.attention_chunk_size is not None:
-            self.sliding_window_size = self.model_config.attention_chunk_size
-            logger.info(
-                f"Setting sliding_window_size to be attention_chunk_size: {self.sliding_window_size}"
-            )
-
-        self.dtype = self.model_config.dtype
-
-        after_avail_memory = get_available_gpu_memory(self.device, self.gpu_id)
-        self.weight_load_mem_usage = before_avail_memory - after_avail_memory
-        logger.info(
-            f"Load weight end. "
-            f"type={type(self.model).__name__}, "
-            f"dtype={self.dtype}, "
-            f"avail mem={after_avail_memory:.2f} GB, "
-            f"mem usage={self.weight_load_mem_usage:.2f} GB."
-        )
-        if self.server_args.debug_tensor_dump_output_folder is not None:
-            register_forward_hook_for_model(
-                self.model,
-                self.server_args.debug_tensor_dump_output_folder,
-                self.server_args.debug_tensor_dump_layers,
-                self.tp_size,
-                self.tp_rank,
-                self.pp_rank,
-            )
-
-        if self.server_args.elastic_ep_backend == "mooncake":
-            # Mooncake does not support `monitored_barrier`
-            dist.barrier(group=get_tp_group().cpu_group)
-        else:
-            # Handle the case where some ranks do not finish loading.
-            try:
-                dist.monitored_barrier(
-                    group=get_tp_group().cpu_group,
-                    timeout=datetime.timedelta(
-                        seconds=UNBALANCED_MODEL_LOADING_TIMEOUT_S
-                    ),
-                    wait_all_ranks=True,
-                )
-            except RuntimeError:
-                raise ValueError(
-                    f"TP rank {self.tp_rank} could finish the model loading, but there are other ranks that didn't finish loading. It is likely due to unexpected failures (e.g., OOM) or a slow node."
-                ) from None
-
-    def setup_collective_group(self, comm_plan, backend, rank_in_cluster):
-        self.model_update_comm_plan = getattr(self, "model_update_comm_plan", {})
-        rank, comm_plan_args = get_dist_info_from_comm_plan(comm_plan, rank_in_cluster=rank_in_cluster,
-                                                            rank_in_worker=dist.get_rank())
-        if rank is None:
-            logger.info(f"no comm_plan found for rank {rank_in_cluster}/{dist.get_rank()}")
-            return True, "Succeeded to setup_collective_group."
-        
-        group_name = comm_plan_args["group_name"]
-        master_addr = comm_plan_args["master_addr"]
-        master_port = comm_plan_args["master_port"]
-        world_size = len(comm_plan_args["tgt_devices"]) + 1
-        src_pp_rank = comm_plan_args["src_pp_rank"]
-        collective.init_collective_group(world_size, rank, backend=backend, group_name=group_name,
-                                         master_addr=master_addr, master_port=master_port)
-        # A small all_reduce for warmup.
-        collective.allreduce(torch.zeros(1).to(current_platform.device_type), group_name=group_name)
-        self.model_update_comm_plan[src_pp_rank] = dict(rank=rank,
-                                                        world_size=world_size,
-                                                        src_pp_rank=src_pp_rank,
-                                                        group_name=group_name,
-                                                        comm_plan=comm_plan,
-                                                        comm_plan_args=comm_plan_args)
-        logger.info(f"warmup setup_collective_group: {group_name} rank: {rank} world_size: {world_size}")
-        return True, "Succeeded to setup_collective_group."
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        if src_pp_rank not in self.model_update_comm_plan:
-            return True, "Succeeded to broadcast_bucket."
-
-        comm_plan = self.model_update_comm_plan[src_pp_rank]
-        buffer = torch.empty(bucket_size, dtype=torch.int8, device=current_platform.device_type)
-        collective.broadcast(tensor=buffer, src_rank=0, group_name=comm_plan["group_name"])
-        self.update_parameter_in_bucket(meta_infos, buffer, [dist.get_rank()])
-        return True, "Succeeded to broadcast_bucket."
-
-    def broadcast_parameter(self, src_pp_rank, dtype, shape, parameter_name):
-        if src_pp_rank not in self.model_update_comm_plan:
-            return True, "Succeeded to broadcast_parameter."
-        comm_plan = self.model_update_comm_plan[src_pp_rank]
-        weight = torch.empty(shape, dtype=dtype, device=current_platform.device_type)
-        collective.broadcast(tensor=weight, src_rank=0, group_name=comm_plan["group_name"])
-        self.update_parameter(parameter_name, weight, [dist.get_rank()])
-        return True, "Succeeded to broadcast_parameter."
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker):
-        if dist.get_rank() not in ranks_in_worker:
-            return True, "Succeeded to update_parameter."
-        self.model.load_weights([(parameter_name, weight)])
-        del weight
-        return True, "Succeeded to update_parameter."
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        if dist.get_rank() not in ranks_in_worker:
-            return True, "Succeeded to update_parameter_in_bucket."
-        from mcore_adapter.models.converter.convert_utils import RecvBucketManager
-        self.recv_manager = getattr(self, "recv_manager", RecvBucketManager())
-        named_params = self.recv_manager.process_bucket(meta_infos, buffer)
-        del buffer
-        self.model.load_weights([(name, weight) for name, weight in named_params.items()])
-        return True, "Succeeded to update_parameter_in_bucket."
\ No newline at end of file
diff --git a/roll/third_party/sglang/v054_patch/scheduler.py b/roll/third_party/sglang/v054_patch/scheduler.py
deleted file mode 100644
index ed87999ad..000000000
--- a/roll/third_party/sglang/v054_patch/scheduler.py
+++ /dev/null
@@ -1,105 +0,0 @@
-import torch
-from roll.platforms import current_platform
-
-
-from sglang.srt.managers.io_struct import (
-    ReleaseMemoryOccupationReqInput,
-    ReleaseMemoryOccupationReqOutput,
-	ResumeMemoryOccupationReqOutput,
-    ResumeMemoryOccupationReqInput,
-)
-from sglang.srt.constants import GPU_MEMORY_TYPE_KV_CACHE
-from sglang.srt.managers.scheduler import Scheduler
-
-from sglang.srt.managers.scheduler_update_weights_mixin import _import_static_state, _export_static_state
-
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-    SetupCollectiveGroupReqOutput,
-    BroadcastBucketReqOutput,
-    BroadcastParameterReqOutput,
-    UpdateParameterInBucketReqOutput,
-    UpdateParameterReqOutput,
-)
-
-class SchedulerSA(Scheduler):
-    def __init__(self, *args, **kwargs):
-        import sys
-        from roll.third_party.sglang.v054_patch.tp_worker import TpModelWorkerSA
-        sys.modules['sglang.srt.managers.tp_worker'].__dict__['TpModelWorker'] = TpModelWorkerSA
-        super().__init__(*args, **kwargs)
-        func_map_patch = [(SetupCollectiveGroupReqInput, self.setup_collective_group),
-                          (BroadcastBucketReqInput, self.broadcast_bucket),
-                          (BroadcastParameterReqInput, self.broadcast_parameter),
-                          (UpdateParameterInBucketReqInput, self.update_parameter_in_bucket),
-                          (UpdateParameterReqInput, self.update_parameter)]
-        self._request_dispatcher._mapping += func_map_patch
-
-    def setup_collective_group(self, recv_req: SetupCollectiveGroupReqInput):
-        success, message = self.tp_worker.setup_collective_group(recv_req)
-        return SetupCollectiveGroupReqOutput(success, message)
-
-    def release_memory_occupation(self, recv_req: ReleaseMemoryOccupationReqInput):
-        self.stashed_model_static_state = _export_static_state(
-            self.tp_worker.model_runner.model
-        )
-        self.tp_worker.model_runner.model.to('cpu')
-        self.memory_saver_adapter.pause(GPU_MEMORY_TYPE_KV_CACHE)
-        self.flush_cache()
-        return ReleaseMemoryOccupationReqOutput()
-    
-    def resume_memory_occupation(self, recv_req: ResumeMemoryOccupationReqInput):
-        self.tp_worker.model_runner.model.to(current_platform.current_device())
-        self.memory_saver_adapter.resume(GPU_MEMORY_TYPE_KV_CACHE)
-
-        # gc.collect()
-        # torch.cuda.empty_cache()
-        # self.tp_worker.model_runner.model.to(current_platform.current_device())
-        _import_static_state(
-            self.tp_worker.model_runner.model, self.stashed_model_static_state
-        )
-        del self.stashed_model_static_state
-
-        self.tp_worker.model_runner.init_cublas()
-        self.tp_worker.model_runner.init_attention_backend()
-        from sglang.srt.model_executor.cuda_graph_runner import set_global_graph_memory_pool
-        set_global_graph_memory_pool(None)
-        self.tp_worker.model_runner.init_device_graphs()
-
-        return ResumeMemoryOccupationReqOutput()
-
-    def broadcast_bucket(self, recv_req: BroadcastBucketReqInput):
-        success, message = self.tp_worker.broadcast_bucket(recv_req)
-        return BroadcastBucketReqOutput(success, message)
-
-    def broadcast_parameter(self, recv_req: BroadcastParameterReqInput):
-        success, message = self.tp_worker.broadcast_parameter(recv_req)
-        return BroadcastParameterReqOutput(success, message)
-
-    def update_parameter(self, recv_req: UpdateParameterReqInput):
-        success, message = self.tp_worker.update_parameter(recv_req)
-        return UpdateParameterReqOutput(success, message)
-
-    def update_parameter_in_bucket(self, recv_req: UpdateParameterInBucketReqInput):
-        success, message = self.tp_worker.update_parameter_in_bucket(recv_req)
-        return UpdateParameterInBucketReqOutput(success, message)
-
-
-def run_scheduler_process(*args, **kwargs):
-    import sys
-    sys.modules['sglang.srt.managers.scheduler'].__dict__['Scheduler'] = SchedulerSA
-    from sglang.srt.managers.scheduler import run_scheduler_process
-    return run_scheduler_process(*args, **kwargs)
-
-def run_data_parallel_controller_process(*args, **kwargs):
-    import sys
-    sys.modules['sglang.srt.managers.data_parallel_controller'].__dict__['run_scheduler_process'] = run_scheduler_process
-    from sglang.srt.managers.data_parallel_controller import (
-        run_data_parallel_controller_process,
-    )
-    return run_data_parallel_controller_process(*args, **kwargs)
diff --git a/roll/third_party/sglang/v054_patch/tokenizer_manager.py b/roll/third_party/sglang/v054_patch/tokenizer_manager.py
deleted file mode 100644
index fd84c0f3c..000000000
--- a/roll/third_party/sglang/v054_patch/tokenizer_manager.py
+++ /dev/null
@@ -1,112 +0,0 @@
-import os
-from typing import Optional, Tuple
-import fastapi
-
-from sglang.srt.server_args import PortArgs, ServerArgs
-from sglang.srt.managers.tokenizer_manager import TokenizerManager
-from sglang.srt.managers.tokenizer_communicator_mixin import _Communicator
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-    SetupCollectiveGroupReqOutput,
-    BroadcastBucketReqOutput,
-    BroadcastParameterReqOutput,
-    UpdateParameterInBucketReqOutput,
-    UpdateParameterReqOutput,
-)
-
-class TokenizerManagerSA(TokenizerManager):
-    def __init__(
-        self,
-        server_args: ServerArgs,
-        port_args: PortArgs,
-    ):
-        super().__init__(server_args=server_args, port_args=port_args)
-
-        self.setup_collective_group_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.broadcast_bucket_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.broadcast_parameter_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.update_parameter_in_bucket_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-        self.update_parameter_communicator = _Communicator(
-            self.send_to_scheduler, server_args.dp_size
-        )
-
-        communicator_patch = [(
-                    SetupCollectiveGroupReqOutput,
-                    self.setup_collective_group_communicator.handle_recv,
-                ),
-                (
-                    BroadcastBucketReqOutput,
-                    self.broadcast_bucket_communicator.handle_recv,
-                ),
-                (
-                    BroadcastParameterReqOutput,
-                    self.broadcast_parameter_communicator.handle_recv,
-                ),
-                (
-                    UpdateParameterInBucketReqOutput,
-                    self.update_parameter_in_bucket_communicator.handle_recv,
-                ),
-                (
-                    UpdateParameterReqOutput,
-                    self.update_parameter_communicator.handle_recv,
-                )]
-        
-        self._result_dispatcher._mapping += communicator_patch
-    
-    async def setup_collective_group(
-        self,
-        obj: SetupCollectiveGroupReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        result = (await self.setup_collective_group_communicator(obj))[0]
-        return result.success, result.message
-
-    async def broadcast_bucket(
-        self,
-        obj: BroadcastBucketReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        result = (await self.broadcast_bucket_communicator(obj))[0]
-        return result.success, result.message
-
-    async def broadcast_parameter(
-        self,
-        obj: BroadcastParameterReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        result = (await self.broadcast_parameter_communicator(obj))[0]
-        return result.success, result.message
-
-    async def update_parameter(
-        self,
-        obj: UpdateParameterReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        result = (await self.update_parameter_communicator(obj))[0]
-        return result.success, result.message
-
-    async def update_parameter_in_bucket(
-        self,
-        obj: UpdateParameterInBucketReqInput,
-        request: Optional[fastapi.Request] = None,
-    ) -> Tuple[bool, str]:
-        self.auto_create_handle_loop()
-        result = (await self.update_parameter_in_bucket_communicator(obj))[0]
-        return result.success, result.message
\ No newline at end of file
diff --git a/roll/third_party/sglang/v054_patch/tp_worker.py b/roll/third_party/sglang/v054_patch/tp_worker.py
deleted file mode 100644
index eee8a8075..000000000
--- a/roll/third_party/sglang/v054_patch/tp_worker.py
+++ /dev/null
@@ -1,58 +0,0 @@
-from sglang.srt.managers.tp_worker import TpModelWorker
-
-
-from roll.third_party.sglang.io_struct import (
-    SetupCollectiveGroupReqInput,
-    BroadcastBucketReqInput,
-    BroadcastParameterReqInput,
-    UpdateParameterInBucketReqInput,
-    UpdateParameterReqInput,
-)
-
-class TpModelWorkerSA(TpModelWorker):
-    def __init__(self, *args, **kwargs):
-        import sys
-        from roll.third_party.sglang.v054_patch.model_runner import ModelRunnerSA
-        sys.modules['sglang.srt.managers.tp_worker'].__dict__['ModelRunner'] = ModelRunnerSA
-        super().__init__(*args, **kwargs)
-
-    def setup_collective_group(self, recv_req: SetupCollectiveGroupReqInput):
-        success, message = self.model_runner.setup_collective_group(
-            recv_req.comm_plan,
-            recv_req.backend,
-            recv_req.rank_in_cluster,
-        )
-        return success, message
-
-    def broadcast_bucket(self, recv_req: BroadcastBucketReqInput):
-        success, message = self.model_runner.broadcast_bucket(
-            recv_req.src_pp_rank,
-            recv_req.meta_infos,
-            recv_req.bucket_size,
-        )
-        return success, message
-
-    def broadcast_parameter(self, recv_req: BroadcastParameterReqInput):
-        success, message = self.model_runner.broadcast_parameter(
-            recv_req.src_pp_rank,
-            recv_req.dtype,
-            recv_req.shape,
-            recv_req.parameter_name,
-        )
-        return success, message
-
-    def update_parameter(self, recv_req: UpdateParameterReqInput):
-        success, message = self.model_runner.update_parameter(
-            recv_req.parameter_name,
-            recv_req.weight,
-            recv_req.ranks_in_worker,
-        )
-        return success, message
-
-    def update_parameter_in_bucket(self, recv_req: UpdateParameterInBucketReqInput):
-        success, message = self.model_runner.update_parameter_in_bucket(
-            recv_req.meta_infos,
-            recv_req.buffer,
-            recv_req.ranks_in_worker,
-        )
-        return success, message
\ No newline at end of file
diff --git a/roll/third_party/vllm/__init__.py b/roll/third_party/vllm/__init__.py
index 3f6c19a28..b0db074a6 100644
--- a/roll/third_party/vllm/__init__.py
+++ b/roll/third_party/vllm/__init__.py
@@ -1,30 +1,149 @@
+import os
+import pathlib
+from typing import Dict, List
+
+import torch
 import vllm
 from packaging.version import Version
+from vllm import envs
+from vllm.engine.arg_utils import AsyncEngineArgs
+from vllm.envs import get_default_cache_root
+from vllm.usage.usage_lib import UsageContext
 
+from roll.platforms import current_platform
+import roll.third_party.vllm.fp8 as fp8
+from roll.utils.import_utils import safe_import_class
 from roll.utils.logging import get_logger
 
+
 logger = get_logger()
+vllm_version = Version(vllm.__version__)
 
-LLM = None
-AsyncLLM = None
-
-if Version("0.8.4") == Version(vllm.__version__):
-    from roll.third_party.vllm.vllm_0_8_4.llm import Llm084
-    from roll.third_party.vllm.vllm_0_8_4.v1.async_llm import AsyncLLM084
-    LLM = Llm084
-    AsyncLLM = AsyncLLM084
-elif Version("0.10.0") <= Version(vllm.__version__) < Version("0.10.2"):
-    from roll.third_party.vllm.vllm_0_10_0.llm import Llm0100
-    from roll.third_party.vllm.vllm_0_10_0.v1.async_llm import AsyncLLM0100
-    LLM = Llm0100
-    AsyncLLM = AsyncLLM0100
-elif Version("0.10.2") == Version(vllm.__version__):
-    from roll.third_party.vllm.vllm_0_10_2.llm import Llm0102
-    LLM = Llm0102
-elif Version("0.11.1rc2.dev0+gc3a722fcb.d20251021") == Version(vllm.__version__) or Version("0.11.0") == Version(vllm.__version__):
-    from roll.third_party.vllm.vllm_0_11_0.llm import Llm0110
-    LLM = Llm0110
+if Version("0.8.4") == vllm_version:
+    import roll.third_party.vllm.vllm_0_8_4 # apply patch
+    ray_executor_class_v0 = safe_import_class("roll.third_party.vllm.vllm_0_8_4.ray_distributed_executor.CustomRayDistributedExecutor")
+    ray_executor_class_v1 = safe_import_class("roll.third_party.vllm.vllm_0_8_4.v1.ray_distributed_executor.CustomRayDistributedExecutor")
+elif Version("0.10.2") == vllm_version:
+    ray_executor_class_v0 = safe_import_class("roll.third_party.vllm.vllm_0_10_2.ray_distributed_executor.CustomRayDistributedExecutor")
+    ray_executor_class_v1 = safe_import_class("roll.third_party.vllm.vllm_0_10_2.v1.ray_distributed_executor.CustomRayDistributedExecutor")
+elif Version("0.11.0") == vllm_version or Version("0.11.1rc1") == vllm_version or Version("0.11.1rc2.dev0+gc3a722fcb.d20251021") == vllm_version:
+    ray_executor_class_v0 = safe_import_class("roll.third_party.vllm.vllm_0_11_0.ray_distributed_executor.CustomRayDistributedExecutor")
+    ray_executor_class_v1 = safe_import_class("roll.third_party.vllm.vllm_0_11_0.v1.ray_distributed_executor.CustomRayDistributedExecutor")
+elif Version("0.12.0") == vllm_version:
+    ray_executor_class_v0 = None  # V0 deprecated
+    ray_executor_class_v1 = safe_import_class("roll.third_party.vllm.vllm_0_12_0.ray_distributed_executor.CustomRayDistributedExecutor")
+elif Version("0.13.0") <= vllm_version < Version("0.15.0"):
+    ray_executor_class_v0 = None  # V0 deprecated
+    ray_executor_class_v1 = safe_import_class("roll.third_party.vllm.ray_distributed_executor.CustomRayDistributedExecutor")
+elif Version("0.15.0") <= vllm_version:
+    if Version("0.16").release <= vllm_version.release:
+        import roll.third_party.vllm.patch_transformers # apply patch
+    ray_executor_class_v0 = None  # V0 deprecated
+    ray_executor_class_v1 = safe_import_class("roll.third_party.vllm.ray_distributed_executor.CustomRayDistributedExecutor")
 else:
-    raise NotImplementedError(f"roll vllm version {vllm.__version__} is not supported.")
+    ray_executor_class_v0 = None
+    ray_executor_class_v1 = None
+    logger.warning(f"ROLL is not tested on vllm version {vllm.__version__}, something strange may happen!!!")
+
+logger.info(f"Using vllm version {vllm.__version__}")
+
+
+async def create_async_llm(resource_placement_groups: List[Dict], **kwargs):
+    # vLLM-Ascend can leave the paged KV cache in a bad state after sleep/wake,
+    # leading to null key cache pointers in ScatterPaKvCache.
+    kwargs.setdefault("enable_sleep_mode", not current_platform.is_npu())
+
+    if "worker_extension_cls" not in kwargs:
+        # VLLM_USE_V1 is deprecated in vllm>=0.11.1
+        if not hasattr(envs, "VLLM_USE_V1") or envs.VLLM_USE_V1:
+            kwargs["worker_extension_cls"] = "roll.third_party.vllm.worker.WorkerV1"
+        else:
+            kwargs["worker_extension_cls"] = "roll.third_party.vllm.worker.WorkerBase"
+
+    # https://github.com/vllm-project/vllm/pull/14189/files
+    # TODO do not override other options in PYTORCH_CUDA_ALLOC_CONF
+    os.environ["PYTORCH_CUDA_ALLOC_CONF"] = ""
+    # torch.cuda may already init, explicitly disable expandable_segments
+    # here (only matters when VLLM_USE_RAY_SPMD_WORKER=0)
+    current_platform.memory._set_allocator_settings("expandable_segments:False")
+
+    os.environ["VLLM_CACHE_ROOT"] = os.path.join(get_default_cache_root(), "vllm", os.environ.get("WORKER_NAME", ""))
+
+    os.environ["FLASHINFER_WORKSPACE_BASE"] = os.path.join(
+        pathlib.Path.home().as_posix(), ".cache", os.environ.get("WORKER_NAME", "")
+    )
+
+    # Default fork method is not compatible with Roll.
+    os.environ["VLLM_WORKER_MULTIPROC_METHOD"] = "spawn"
+
+    if Version(torch.__version__) >= Version("2.8.0"):
+        os.environ["VLLM_USE_FLASHINFER_SAMPLER"] = "0"
+        # os.environ["VLLM_ATTENTION_BACKEND"] = "FLASH_ATTN" # for 280 rollout pipeline 乱码
+
+    engine_args = AsyncEngineArgs(**kwargs)
+    # VLLM_USE_V1 may be modified inside create_engine_config
+    vllm_config = engine_args.create_engine_config(UsageContext.ENGINE_CONTEXT)
+
+    fp8.update_quant_config(vllm_config)
+
+    # change parallel_config.placement_group for CustomRayDistributedExecutor
+    parallel_config = vllm_config.parallel_config
+    assert len(resource_placement_groups) == parallel_config.world_size
+    parallel_config.placement_group = resource_placement_groups
+
+    if not hasattr(envs, "VLLM_USE_V1") or envs.VLLM_USE_V1:
+        from vllm.v1.executor.abstract import Executor
+
+        from roll.third_party.vllm.async_llm import CustomAsyncLLM
+
+        executor_class = Executor.get_class(vllm_config)
+        if parallel_config.distributed_executor_backend == "ray":
+            assert ray_executor_class_v1 is not None, (
+                f"ROLL does not support using ray distributed executor with vllm version {vllm.__version__}"
+            )
+            executor_class = ray_executor_class_v1
+
+        logger.info(f"Using executor_class: {executor_class}")
+        logger.info(f"Using {parallel_config.worker_cls=} {parallel_config.worker_extension_cls=}")
+        async_llm = CustomAsyncLLM(
+            vllm_config=vllm_config,
+            executor_class=executor_class,
+            start_engine_loop=True,
+            log_requests=engine_args.enable_log_requests
+            if hasattr(engine_args, "enable_log_requests")
+            else not engine_args.disable_log_requests,
+            log_stats=not engine_args.disable_log_stats,
+            usage_context=UsageContext.ENGINE_CONTEXT,
+        )
+    else:
+        from vllm.v1.engine.async_llm import AsyncLLM
+
+        from roll.third_party.vllm.async_llm_engine import CustomAsyncLLMEngine
+
+        assert not issubclass(CustomAsyncLLMEngine, AsyncLLM)
+
+        executor_class = CustomAsyncLLMEngine._get_executor_cls(vllm_config)
+        if parallel_config.distributed_executor_backend == "ray":
+            assert ray_executor_class_v0 is not None, (
+                f"ROLL does not support using ray distributed executor with vllm version {vllm.__version__}"
+            )
+            executor_class = ray_executor_class_v0
+
+        logger.info(f"Using executor_class: {executor_class}")
+        logger.info(f"Using worker cls: {parallel_config.worker_cls}")
+        async_llm = CustomAsyncLLMEngine(
+            vllm_config=vllm_config,
+            executor_class=executor_class,
+            start_engine_loop=True,
+            log_requests=not engine_args.disable_log_requests,
+            log_stats=not engine_args.disable_log_stats,
+            usage_context=UsageContext.ENGINE_CONTEXT,
+            stat_loggers=None,
+        )
+
+    await async_llm.custom_init_worker()
+
+    return async_llm
+
 
-__all__ = ["LLM", "AsyncLLM"]
+__all__ = ["create_async_llm"]
diff --git a/roll/third_party/vllm/async_llm.py b/roll/third_party/vllm/async_llm.py
new file mode 100644
index 000000000..950a06ef5
--- /dev/null
+++ b/roll/third_party/vllm/async_llm.py
@@ -0,0 +1,28 @@
+from vllm.v1.engine.async_llm import AsyncLLM
+
+
+class CustomAsyncLLM(AsyncLLM):
+    async def custom_init_worker(self):
+        await self.engine_core.collective_rpc_async(method="custom_init_worker")
+
+    async def load_states(self):
+        await self.engine_core.collective_rpc_async(method="load_states")
+
+    async def offload_states(self, level):
+        await self.reset_prefix_cache()
+        await self.engine_core.collective_rpc_async(method="offload_states", args=(level,))
+
+    async def setup_collective_group(self, *args, **kwargs):
+        await self.engine_core.collective_rpc_async(method="setup_collective_group", args=args, kwargs=kwargs)
+
+    async def broadcast_parameter(self, *args, **kwargs):
+        await self.engine_core.collective_rpc_async(method="broadcast_parameter", args=args, kwargs=kwargs)
+
+    async def update_parameter_in_bucket(self, serialized_named_tensors, is_lora=False):
+        await self.engine_core.collective_rpc_async(method="update_parameter_in_bucket", args=(serialized_named_tensors, is_lora))
+
+    async def add_lora(self, *args, **kwargs):
+        await self.engine_core.collective_rpc_async(method="custom_add_lora", args=args, kwargs=kwargs)
+
+    async def process_weights_after_loading(self):
+        await self.engine_core.collective_rpc_async(method="process_weights_after_loading")
diff --git a/roll/third_party/vllm/async_llm_engine.py b/roll/third_party/vllm/async_llm_engine.py
new file mode 100644
index 000000000..121486bf0
--- /dev/null
+++ b/roll/third_party/vllm/async_llm_engine.py
@@ -0,0 +1,27 @@
+from vllm.engine.async_llm_engine import AsyncLLMEngine
+
+class CustomAsyncLLMEngine(AsyncLLMEngine):
+    async def custom_init_worker(self):
+        self.engine.model_executor.collective_rpc(method="custom_init_worker")
+
+    async def load_states(self):
+        self.engine.model_executor.collective_rpc(method="load_states")
+
+    async def offload_states(self, level):
+        await self.reset_prefix_cache()
+        self.engine.model_executor.collective_rpc(method="offload_states", args=(level,))
+
+    async def setup_collective_group(self, *args, **kwargs):
+        self.engine.model_executor.collective_rpc(method="setup_collective_group", args=args, kwargs=kwargs)
+
+    async def broadcast_parameter(self, *args, **kwargs):
+        self.engine.model_executor.collective_rpc(method="broadcast_parameter", args=args, kwargs=kwargs)
+
+    async def update_parameter_in_bucket(self, *args, **kwargs):
+        self.engine.model_executor.collective_rpc(method="update_parameter_in_bucket", args=args, kwargs=kwargs)
+
+    async def add_lora(self, *args, **kwargs):
+        self.engine.model_executor.collective_rpc(method="custom_add_lora", args=args, kwargs=kwargs)
+
+    async def process_weights_after_loading(self):
+        self.engine.model_executor.collective_rpc(method="process_weights_after_loading")
diff --git a/roll/third_party/vllm/fp8.py b/roll/third_party/vllm/fp8.py
index 5e576d251..762c743a5 100644
--- a/roll/third_party/vllm/fp8.py
+++ b/roll/third_party/vllm/fp8.py
@@ -1,4 +1,4 @@
-from typing import List, Optional
+from typing import List
 from functools import partial
 import weakref
 
@@ -16,68 +16,11 @@
 from vllm._custom_ops import scaled_fp8_quant as per_tensor_fp8_quant
 from vllm.model_executor.layers.quantization.utils.w8a8_utils import requantize_with_max_scale
 
+from roll.utils.fp8 import per_block_fp8_quant
 from roll.utils.logging import get_logger
 
 logger = get_logger()
 
-# Block quant operator
-#
-# Borrow from transformers
-#   https://huggingface.co/docs/transformers/en/quantization/finegrained_fp8
-#   https://github.com/huggingface/transformers/blob/v4.55.0/src/transformers/quantizers/quantizer_finegrained_fp8.py#L83
-#
-# May use op from torchao:
-#   https://github.com/pytorch/ao/pull/1668
-#   https://github.com/volcengine/verl/pull/3084
-def per_block_fp8_quant(param_value: torch.Tensor, weight_block_size: List[int]):
-    """
-    Quantizes weights to FP8 format using Block-wise quantization
-    """
-    # Get FP8 min/max values
-    fp8_min = torch.finfo(torch.float8_e4m3fn).min
-    fp8_max = torch.finfo(torch.float8_e4m3fn).max
-
-    block_size_m, block_size_n = weight_block_size
-
-    rows, cols = param_value.shape[-2:]
-
-    if rows % block_size_m != 0 or cols % block_size_n != 0:
-        raise ValueError(
-            f"Matrix dimensions ({rows}, {cols}) must be divisible by block sizes ({block_size_m}, {block_size_n})"
-        )
-    param_value_orig_shape = param_value.shape
-
-    param_value = param_value.reshape(
-        -1, rows // block_size_m, block_size_m, cols // block_size_n, block_size_n
-    ).permute(0, 1, 3, 2, 4)
-
-    # Calculate scaling factor for each block
-    max_abs = torch.amax(torch.abs(param_value), dim=(-1, -2))
-    scale = fp8_max / max_abs
-    scale_orig_shape = scale.shape
-    scale = scale.unsqueeze(-1).unsqueeze(-1)
-
-    # Quantize the weights
-    quantized_param = torch.clamp(param_value * scale, min=fp8_min, max=fp8_max).to(torch.float8_e4m3fn)
-
-    quantized_param = quantized_param.permute(0, 1, 3, 2, 4)
-    # Reshape back to matrix shape
-    quantized_param = quantized_param.reshape(param_value_orig_shape)
-
-    # Construct the final, correct shape for the scales
-    num_row_blocks = rows // block_size_m
-    num_col_blocks = cols // block_size_n
-    # This preserves original batch dimensions, if any
-    final_scale_shape = (*param_value_orig_shape[:-2], num_row_blocks, num_col_blocks)
-    # Reshape directly to the correct shape and take the reciprocal
-    scale = scale.reshape(final_scale_shape).reciprocal()
-
-    # TODO: DeepGemm scales need to be transposed and aligned (said in vLLM fp8.py)?
-
-    # TODO: On B200, DeepGemm only support E8M0 scale
-
-    return quantized_param, scale
-
 def update_quant_config(vllm_config):
     # Use hf_overrides arguments of LLM with weight_block_size
     # to enable block quantization.
@@ -208,9 +151,12 @@ def _fp8_moe_w13_weight_loader(layer: weakref.ReferenceType, original_weight_loa
     target_device = layer.w13_weight.device
     with target_device:
         loaded_weight = loaded_weight.to(target_device)
-        qweight, scale = per_block_fp8_quant(loaded_weight, layer.weight_block_size)
-        original_weight_loader(layer.w13_weight, qweight, *args, **kwargs)
-        original_weight_loader(layer.w13_weight_scale_inv, scale, *args, **kwargs)
+        if loaded_weight.dtype == torch.float8_e4m3fn:
+            original_weight_loader(layer.w13_weight, loaded_weight, *args, **kwargs)
+        else:
+            qweight, scale = per_block_fp8_quant(loaded_weight, layer.weight_block_size)
+            original_weight_loader(layer.w13_weight, qweight, *args, **kwargs)
+            original_weight_loader(layer.w13_weight_scale_inv, scale, *args, **kwargs)
 
 def _fp8_moe_w2_weight_loader(layer: weakref.ReferenceType, original_weight_loader, param: torch.Tensor, loaded_weight: torch.Tensor, *args, **kwargs) -> None:
     layer = layer()
@@ -218,9 +164,12 @@ def _fp8_moe_w2_weight_loader(layer: weakref.ReferenceType, original_weight_load
     target_device = layer.w2_weight.device
     with target_device:
         loaded_weight = loaded_weight.to(target_device)
-        qweight, scale = per_block_fp8_quant(loaded_weight, layer.weight_block_size)
-        original_weight_loader(layer.w2_weight, qweight, *args, **kwargs)
-        original_weight_loader(layer.w2_weight_scale_inv, scale, *args, **kwargs)
+        if loaded_weight.dtype == torch.float8_e4m3fn:
+            original_weight_loader(layer.w2_weight, loaded_weight, *args, **kwargs)
+        else:
+            qweight, scale = per_block_fp8_quant(loaded_weight, layer.weight_block_size)
+            original_weight_loader(layer.w2_weight, qweight, *args, **kwargs)
+            original_weight_loader(layer.w2_weight_scale_inv, scale, *args, **kwargs)
 
 def _fp8_moe_create_weights(self, layer: Module, num_experts: int, hidden_size: int,
                    intermediate_size_per_partition: int,
@@ -249,12 +198,12 @@ def _fp8_moe_create_weights(self, layer: Module, num_experts: int, hidden_size:
     w13_weight_loader = layer.w13_weight.weight_loader
     w13_weight_loader = partial(_fp8_moe_w13_weight_loader, weakref.ref(layer), w13_weight_loader)
     layer.w13_weight.weight_loader = w13_weight_loader
-    set_weight_attrs(layer.w13_weight, {"roll_skip_patch_moe": True})
+    set_weight_attrs(layer.w13_weight, {"roll_skip_patch_moe": True}) # TODO: remove once vllm 0.8.4 is deprecated
 
     w2_weight_loader = layer.w2_weight.weight_loader
     w2_weight_loader = partial(_fp8_moe_w2_weight_loader, weakref.ref(layer), w2_weight_loader)
     layer.w2_weight.weight_loader = w2_weight_loader
-    set_weight_attrs(layer.w2_weight, {"roll_skip_patch_moe": True})
+    set_weight_attrs(layer.w2_weight, {"roll_skip_patch_moe": True}) # TODO: remove once vllm 0.8.4 is deprecated
 
     # do not need patch weight loader of scale
     assert type(layer.w13_weight_scale_inv) == Parameter
diff --git a/roll/third_party/vllm/patch_transformers.py b/roll/third_party/vllm/patch_transformers.py
new file mode 100644
index 000000000..140b31b34
--- /dev/null
+++ b/roll/third_party/vllm/patch_transformers.py
@@ -0,0 +1,172 @@
+from roll.utils.logging import get_logger
+
+logger = get_logger()
+
+from vllm.transformers_utils.configs.qwen3_5 import Qwen3_5TextConfig
+from vllm.transformers_utils.configs.qwen3_5_moe import Qwen3_5MoeTextConfig
+from transformers.configuration_utils import PretrainedConfig, layer_type_validation
+
+def Qwen3_5TextConfig_init(
+    self,
+    vocab_size=248320,
+    hidden_size=4096,
+    intermediate_size=12288,
+    num_hidden_layers=32,
+    num_attention_heads=16,
+    num_key_value_heads=4,
+    hidden_act="silu",
+    max_position_embeddings=32768,
+    initializer_range=0.02,
+    rms_norm_eps=1e-6,
+    use_cache=True,
+    tie_word_embeddings=False,
+    rope_parameters=None,
+    attention_bias=False,
+    attention_dropout=0.0,
+    head_dim=256,
+    linear_conv_kernel_dim=4,
+    linear_key_head_dim=128,
+    linear_value_head_dim=128,
+    linear_num_key_heads=16,
+    linear_num_value_heads=32,
+    layer_types=None,
+    pad_token_id=None,
+    bos_token_id=None,
+    eos_token_id=None,
+    **kwargs,
+):
+    kwargs["ignore_keys_at_rope_validation"] = {
+        "mrope_section",
+        "mrope_interleaved",
+    }
+    self.vocab_size = vocab_size
+    self.max_position_embeddings = max_position_embeddings
+    self.hidden_size = hidden_size
+    self.intermediate_size = intermediate_size
+    self.num_hidden_layers = num_hidden_layers
+    self.num_attention_heads = num_attention_heads
+    self.num_key_value_heads = num_key_value_heads
+    self.hidden_act = hidden_act
+    self.initializer_range = initializer_range
+    self.rms_norm_eps = rms_norm_eps
+    self.use_cache = use_cache
+    self.attention_bias = attention_bias
+    self.attention_dropout = attention_dropout
+    self.head_dim = head_dim
+    self.rope_parameters = rope_parameters
+    kwargs.setdefault("partial_rotary_factor", 0.25)
+
+    self.layer_types = layer_types
+    if self.layer_types is None:
+        interval_pattern = kwargs.get("full_attention_interval", 4)
+        self.layer_types = [
+            "linear_attention"
+            if bool((i + 1) % interval_pattern)
+            else "full_attention"
+            for i in range(self.num_hidden_layers)
+        ]
+    layer_type_validation(self.layer_types, self.num_hidden_layers)
+
+    # linear attention part
+    self.linear_conv_kernel_dim = linear_conv_kernel_dim
+    self.linear_key_head_dim = linear_key_head_dim
+    self.linear_value_head_dim = linear_value_head_dim
+    self.linear_num_key_heads = linear_num_key_heads
+    self.linear_num_value_heads = linear_num_value_heads
+    super(Qwen3_5TextConfig, self).__init__(**kwargs)
+    # Set these AFTER super().__init__() because transformers v4's
+    # PretrainedConfig.__init__ has these as explicit params with different
+    # defaults (e.g. tie_word_embeddings=True) that would overwrite our values.
+    self.pad_token_id = pad_token_id
+    self.bos_token_id = bos_token_id
+    self.eos_token_id = eos_token_id
+    self.tie_word_embeddings = tie_word_embeddings
+
+def Qwen3_5MoeTextConfig_init(
+    self,
+    vocab_size=248320,
+    hidden_size=2048,
+    num_hidden_layers=40,
+    num_attention_heads=16,
+    num_key_value_heads=2,
+    hidden_act="silu",
+    max_position_embeddings=32768,
+    initializer_range=0.02,
+    rms_norm_eps=1e-6,
+    use_cache=True,
+    tie_word_embeddings=False,
+    rope_parameters=None,
+    attention_bias=False,
+    attention_dropout=0.0,
+    head_dim=256,
+    linear_conv_kernel_dim=4,
+    linear_key_head_dim=128,
+    linear_value_head_dim=128,
+    linear_num_key_heads=16,
+    linear_num_value_heads=32,
+    moe_intermediate_size=512,
+    shared_expert_intermediate_size=512,
+    num_experts_per_tok=8,
+    num_experts=256,
+    output_router_logits=False,
+    router_aux_loss_coef=0.001,
+    layer_types=None,
+    pad_token_id=None,
+    bos_token_id=None,
+    eos_token_id=None,
+    **kwargs,
+):
+    kwargs["ignore_keys_at_rope_validation"] = {
+        "mrope_section",
+        "mrope_interleaved",
+    }
+    self.vocab_size = vocab_size
+    self.max_position_embeddings = max_position_embeddings
+    self.hidden_size = hidden_size
+    self.num_hidden_layers = num_hidden_layers
+    self.num_attention_heads = num_attention_heads
+    self.num_key_value_heads = num_key_value_heads
+    self.hidden_act = hidden_act
+    self.initializer_range = initializer_range
+    self.rms_norm_eps = rms_norm_eps
+    self.use_cache = use_cache
+    self.attention_bias = attention_bias
+    self.attention_dropout = attention_dropout
+    self.head_dim = head_dim
+    self.rope_parameters = rope_parameters
+    kwargs.setdefault("partial_rotary_factor", 0.25)
+
+    self.layer_types = layer_types
+    if self.layer_types is None:
+        interval_pattern = kwargs.get("full_attention_interval", 4)
+        self.layer_types = [
+            "linear_attention"
+            if bool((i + 1) % interval_pattern)
+            else "full_attention"
+            for i in range(self.num_hidden_layers)
+        ]
+    layer_type_validation(self.layer_types, self.num_hidden_layers)
+
+    # linear attention part
+    self.linear_conv_kernel_dim = linear_conv_kernel_dim
+    self.linear_key_head_dim = linear_key_head_dim
+    self.linear_value_head_dim = linear_value_head_dim
+    self.linear_num_key_heads = linear_num_key_heads
+    self.linear_num_value_heads = linear_num_value_heads
+    self.moe_intermediate_size = moe_intermediate_size
+    self.shared_expert_intermediate_size = shared_expert_intermediate_size
+    self.num_experts_per_tok = num_experts_per_tok
+    self.num_experts = num_experts
+    self.output_router_logits = output_router_logits
+    self.router_aux_loss_coef = router_aux_loss_coef
+    super(Qwen3_5MoeTextConfig, self).__init__(**kwargs)
+    # Set these AFTER super().__init__() because transformers v4's
+    # PretrainedConfig.__init__ has these as explicit params with different
+    # defaults (e.g. tie_word_embeddings=True) that would overwrite our values.
+    self.pad_token_id = pad_token_id
+    self.bos_token_id = bos_token_id
+    self.eos_token_id = eos_token_id
+    self.tie_word_embeddings = tie_word_embeddings
+
+Qwen3_5TextConfig.__init__ = Qwen3_5TextConfig_init
+Qwen3_5MoeTextConfig.__init__ = Qwen3_5MoeTextConfig_init
diff --git a/roll/third_party/vllm/ray_distributed_executor.py b/roll/third_party/vllm/ray_distributed_executor.py
new file mode 100644
index 000000000..7c951ae84
--- /dev/null
+++ b/roll/third_party/vllm/ray_distributed_executor.py
@@ -0,0 +1,226 @@
+import os
+from collections import defaultdict
+from typing import TYPE_CHECKING
+
+import ray
+from ray.runtime_env import RuntimeEnv
+from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
+
+from vllm.v1.executor.ray_executor import RayDistributedExecutor, RayWorkerMetaData
+from vllm.v1.executor.ray_utils import RayWorkerWrapper
+from vllm.platforms import current_platform
+from vllm.ray.ray_env import get_env_vars_to_copy
+from vllm.utils.network_utils import get_distributed_init_method, get_ip, get_open_port
+from vllm.v1.core.sched.output import SchedulerOutput
+
+from roll.platforms import current_platform as roll_current_platform
+from roll.utils.logging import get_logger
+
+
+logger = get_logger()
+
+
+def initialize_ray_cluster(ray_address: str | None = None):
+    if ray.is_initialized():
+        return
+    ray.init(address=ray_address)
+
+
+def _ray_remote_resource_options() -> dict:
+    if roll_current_platform.ray_device_key == "GPU":
+        return {"num_gpus": 0.01}
+    if roll_current_platform.ray_device_key == "NPU":
+        return {"num_gpus": 0, "resources": {roll_current_platform.ray_device_key: 0.01}}
+    raise RuntimeError(f"Unsupported vLLM Ray device resource: {roll_current_platform.ray_device_key}")
+
+
+class CustomRayDistributedExecutor(RayDistributedExecutor):
+    def _init_executor(self) -> None:
+        self.forward_dag: ray.dag.CompiledDAG | None = None
+
+        # For TPU or XPU, avoid compiling NVIDIA's NCCL
+        if current_platform.is_tpu() or current_platform.is_xpu():
+            os.environ["VLLM_USE_RAY_COMPILED_DAG_CHANNEL_TYPE"] = "shm"
+
+        placement_group = self.parallel_config.placement_group
+        assert self.uses_ray
+        assert len(placement_group) > 0
+        initialize_ray_cluster(placement_group[0]["ray_address"])
+        assert ray.is_initialized()
+
+        # Disable Ray usage stats collection.
+        ray_usage = os.environ.get("RAY_USAGE_STATS_ENABLED", "0")
+        if ray_usage != "1":
+            os.environ["RAY_USAGE_STATS_ENABLED"] = "0"
+
+        # Create the parallel GPU workers.
+        self._init_workers_ray(placement_group)
+
+        # KV connector setup
+        self.has_connector = self.vllm_config.kv_transfer_config is not None
+
+        self.uses_sampler = self.vllm_config.model_config.runner_type != "pooling" and (
+            self.vllm_config.ec_transfer_config is None
+            or not self.vllm_config.ec_transfer_config.is_ec_producer
+        )
+
+        self.scheduler_output: SchedulerOutput | None = None
+
+    def _init_workers_ray(self, placement_group: "PlacementGroup", **ray_remote_kwargs):
+        assert len(placement_group) == self.parallel_config.world_size
+
+        # The driver dummy worker does not actually use any resources.
+        # It holds the resource for the driver worker.
+        self.driver_dummy_worker: RayWorkerWrapper | None = None
+        # The remaining workers are the actual ray actors.
+        self.workers: list[RayWorkerWrapper] = []
+
+        # Used in ray compiled DAG: indexed first by PP rank,
+        # and then TP rank. In other words, the inner list is
+        # the TP group of workers for a PP rank.
+        self.pp_tp_workers: list[list[RayWorkerWrapper]] = []
+
+        if self.parallel_config.ray_workers_use_nsight:
+            ray_remote_kwargs = self._configure_ray_workers_use_nsight(
+                ray_remote_kwargs
+            )
+
+        worker_metadata: list[RayWorkerMetaData] = []
+        driver_ip = get_ip()
+        for rank in range(self.parallel_config.world_size):
+            pg = placement_group[rank]["placement_group"]
+            gpu_rank = placement_group[rank]["gpu_rank"]
+            env_vars = {}
+            env_vars.update(roll_current_platform.get_custom_env_vars())
+            env_vars.update(roll_current_platform.get_vllm_run_time_env_vars(gpu_rank))
+            runtime_env = RuntimeEnv(env_vars=env_vars)
+            # NV+AMD GPUs, and Intel XPUs
+            worker = ray.remote(
+                num_cpus=0,
+                **_ray_remote_resource_options(),
+                runtime_env=runtime_env,
+                scheduling_strategy=PlacementGroupSchedulingStrategy(
+                    placement_group=pg,
+                ),
+                **ray_remote_kwargs,
+            )(RayWorkerWrapper).remote(vllm_config=self.vllm_config, rpc_rank=rank)
+            worker_metadata.append(RayWorkerMetaData(worker=worker, created_rank=rank))
+
+        worker_ips = ray.get(
+            [
+                each.worker.get_node_ip.remote()  # type: ignore[attr-defined]
+                for each in worker_metadata
+            ]
+        )
+
+        for each, ip in zip(worker_metadata, worker_ips):
+            each.ip = ip
+
+        logger.debug("workers: %s", worker_metadata)
+        logger.debug("driver_dummy_worker: %s", self.driver_dummy_worker)
+
+        # No need to sort, just use the given resource order of the placement group
+        for i, item in enumerate(worker_metadata):
+            item.adjusted_rank = i
+        self.workers = [item.worker for item in worker_metadata]
+        rerank_mapping = {
+            item.created_rank: item.adjusted_rank for item in worker_metadata
+        }
+        self.collective_rpc("adjust_rank", args=(rerank_mapping,))
+
+        # Get the set of GPU IDs used on each node.
+        worker_node_and_gpu_ids = []
+        for worker in [self.driver_dummy_worker] + self.workers:
+            if worker is None:
+                # driver_dummy_worker can be None when using ray spmd worker.
+                continue
+            worker_node_and_gpu_ids.append(
+                ray.get(worker.get_node_and_gpu_ids.remote())
+            )  # type: ignore[attr-defined]
+
+        node_workers = defaultdict(list)  # node id -> list of worker ranks
+        node_gpus = defaultdict(list)  # node id -> list of gpu ids
+
+        for i, (node_id, gpu_ids) in enumerate(worker_node_and_gpu_ids):
+            node_workers[node_id].append(i)
+            # `gpu_ids` can be a list of strings or integers.
+            # convert them to integers for consistency.
+            # NOTE: gpu_ids can be larger than 9 (e.g. 16 GPUs),
+            # string sorting is not sufficient.
+            # see https://github.com/vllm-project/vllm/issues/5590
+            gpu_ids = [int(x) for x in gpu_ids]
+            node_gpus[node_id].extend(gpu_ids)
+        for node_id, gpu_ids in node_gpus.items():
+            node_gpus[node_id] = sorted(gpu_ids)
+
+        all_ips = set(worker_ips + [driver_ip])
+        n_ips = len(all_ips)
+        n_nodes = len(node_workers)
+
+        if n_nodes != n_ips:
+            raise RuntimeError(
+                f"Every node should have a unique IP address. Got {n_nodes}"
+                f" nodes with node ids {list(node_workers.keys())} and "
+                f"{n_ips} unique IP addresses {all_ips}. Please check your"
+                " network configuration. If you set `VLLM_HOST_IP`"
+                " environment variable, make sure it is unique for"
+                " each node."
+            )
+
+        # Set environment variables for the driver and workers.
+        # remove device_control_env_var(CUDA_VISIBLE_DEVICES), for we only allocate one gpu for each worker
+        all_args_to_update_environment_variables = [{}] * len(worker_node_and_gpu_ids)
+
+        # Environment variables to copy from driver to workers
+        env_vars_to_copy = get_env_vars_to_copy(
+            exclude_vars=self.WORKER_SPECIFIC_ENV_VARS,
+            additional_vars=set(current_platform.additional_env_vars).union(
+                getattr(self, "ADDITIONAL_ENV_VARS", set())
+            ),
+            destination="workers",
+        )
+
+        # Copy existing env vars to each worker's args
+        for args in all_args_to_update_environment_variables:
+            # TODO: refactor platform-specific env vars
+            for name in env_vars_to_copy:
+                if name in os.environ:
+                    args[name] = os.environ[name]
+
+        self._env_vars_for_all_workers = all_args_to_update_environment_variables
+
+        self.collective_rpc(
+            "update_environment_variables", args=(self._get_env_vars_to_be_updated(),)
+        )
+
+        distributed_init_method = get_distributed_init_method(
+            driver_ip, get_open_port()
+        )
+
+        # Initialize the actual workers inside worker wrapper.
+        all_kwargs = []
+        for rank, (node_id, _) in enumerate(worker_node_and_gpu_ids):
+            local_rank = 0
+            kwargs = dict(
+                vllm_config=self.vllm_config,
+                local_rank=local_rank,
+                rank=rank,
+                distributed_init_method=distributed_init_method,
+                is_driver_worker=(not self.parallel_config)
+                or (rank % self.parallel_config.tensor_parallel_size == 0),
+            )
+            all_kwargs.append(kwargs)
+        self.collective_rpc("init_worker", args=(all_kwargs,))
+
+        self.collective_rpc("init_device")
+        self.collective_rpc("load_model")
+
+        for pp_rank in range(self.parallel_config.pipeline_parallel_size):
+            self.pp_tp_workers.append([])
+            for tp_rank in range(self.parallel_config.tensor_parallel_size):
+                # PP=2, TP=4
+                # pp_tp_workers = [[0, 1, 2, 3], [4, 5, 6, 7]]
+                rank = (pp_rank * self.parallel_config.tensor_parallel_size) + tp_rank
+                assert len(self.pp_tp_workers[pp_rank]) == tp_rank
+                assert pp_rank < len(self.pp_tp_workers)
+                self.pp_tp_workers[pp_rank].append(self.workers[rank])
diff --git a/roll/third_party/vllm/vllm_0_10_0/llm.py b/roll/third_party/vllm/vllm_0_10_0/llm.py
deleted file mode 100644
index 56aa1cfdf..000000000
--- a/roll/third_party/vllm/vllm_0_10_0/llm.py
+++ /dev/null
@@ -1,233 +0,0 @@
-import os
-import queue
-import time
-from typing import Any, Dict, Iterable, List, Optional, Union
-
-import cloudpickle
-import torch
-from vllm import LLM, EngineArgs, SamplingParams, envs
-from vllm.config import (CompilationConfig, ModelDType, TokenizerMode,
-                         is_init_field)
-from vllm.model_executor.layers.quantization import QuantizationMethods
-from vllm.engine.arg_utils import HfOverrides, PoolerConfig, TaskOption
-from vllm.lora.request import LoRARequest
-from vllm.usage.usage_lib import UsageContext
-from vllm.utils import Counter
-from vllm.envs import get_default_cache_root
-
-from roll.third_party.vllm.vllm_0_10_0.llm_engine import LLMEngine0100
-from roll.utils.send_recv_utils import SendBucketManager
-from roll.platforms import current_platform
-
-class Llm0100(LLM):
-
-    def __init__(
-        self,
-        resource_placement_groups: List[Dict],
-        model: str,
-        tokenizer: Optional[str] = None,
-        tokenizer_mode: TokenizerMode = "auto",
-        skip_tokenizer_init: bool = False,
-        trust_remote_code: bool = False,
-        allowed_local_media_path: str = "",
-        tensor_parallel_size: int = 1,
-        dtype: ModelDType = "auto",
-        quantization: Optional[QuantizationMethods] = None,
-        revision: Optional[str] = None,
-        tokenizer_revision: Optional[str] = None,
-        seed: Optional[int] = None,
-        gpu_memory_utilization: float = 0.9,
-        swap_space: float = 4,
-        cpu_offload_gb: float = 0,
-        enforce_eager: bool = False,
-        max_seq_len_to_capture: int = 8192,
-        disable_custom_all_reduce: bool = False,
-        disable_async_output_proc: bool = False,
-        hf_token: Optional[Union[bool, str]] = None,
-        hf_overrides: Optional[HfOverrides] = None,
-        mm_processor_kwargs: Optional[dict[str, Any]] = None,
-        # After positional args are removed, move this right below `model`
-        task: TaskOption = "auto",
-        override_pooler_config: Optional[PoolerConfig] = None,
-        compilation_config: Optional[Union[int, dict[str, Any], CompilationConfig]] = None,
-        **kwargs,
-    ) -> None:
-        # setup envs for vllm
-        # https://github.com/vllm-project/vllm/pull/14189/files
-        # TODO do not override other options in PYTORCH_CUDA_ALLOC_CONF
-        os.environ["PYTORCH_CUDA_ALLOC_CONF"] = ""
-        # torch.cuda may already init, explicitly disable expandable_segments
-        # here (only matters when VLLM_USE_RAY_SPMD_WORKER=0)
-        current_platform.set_allocator_settings("expandable_segments:False")
-
-        os.environ["VLLM_CACHE_ROOT"] = os.path.join(
-            get_default_cache_root(), "vllm", os.environ.get("WORKER_NAME", ""))
-
-        if "disable_log_stats" not in kwargs:
-            kwargs["disable_log_stats"] = True
-
-        if "worker_cls" in kwargs:
-            worker_cls = kwargs["worker_cls"]
-            # if the worker_cls is not qualified string name,
-            # we serialize it using cloudpickle to avoid pickling issues
-            if isinstance(worker_cls, type):
-                kwargs["worker_cls"] = cloudpickle.dumps(worker_cls)
-
-        if hf_overrides is None:
-            hf_overrides = {}
-
-        if compilation_config is not None:
-            if isinstance(compilation_config, int):
-                compilation_config_instance = CompilationConfig(
-                    level=compilation_config)
-            elif isinstance(compilation_config, dict):
-                predicate = lambda x: is_init_field(CompilationConfig, x[0])
-                compilation_config_instance = CompilationConfig(
-                    **dict(filter(predicate, compilation_config.items())))
-            else:
-                compilation_config_instance = compilation_config
-        else:
-            compilation_config_instance = CompilationConfig()
-
-        kwargs["enable_sleep_mode"] = True
-        engine_args = EngineArgs(
-            model=model,
-            task=task,
-            tokenizer=tokenizer,
-            tokenizer_mode=tokenizer_mode,
-            skip_tokenizer_init=skip_tokenizer_init,
-            trust_remote_code=trust_remote_code,
-            allowed_local_media_path=allowed_local_media_path,
-            tensor_parallel_size=tensor_parallel_size,
-            dtype=dtype,
-            quantization=quantization,
-            revision=revision,
-            tokenizer_revision=tokenizer_revision,
-            seed=seed,
-            gpu_memory_utilization=gpu_memory_utilization,
-            swap_space=swap_space,
-            cpu_offload_gb=cpu_offload_gb,
-            enforce_eager=enforce_eager,
-            max_seq_len_to_capture=max_seq_len_to_capture,
-            disable_custom_all_reduce=disable_custom_all_reduce,
-            disable_async_output_proc=disable_async_output_proc,
-            hf_token=hf_token,
-            hf_overrides=hf_overrides,
-            mm_processor_kwargs=mm_processor_kwargs,
-            override_pooler_config=override_pooler_config,
-            compilation_config=compilation_config_instance,
-            **kwargs,
-        )
-        engine_args.resource_placement_groups = resource_placement_groups
-
-        # Create the Engine (autoselects V0 vs V1)
-        self.llm_engine = LLMEngine0100.from_engine_args(
-            engine_args=engine_args, usage_context=UsageContext.LLM_CLASS)
-        self.engine_class = type(self.llm_engine)
-
-        self.request_counter = Counter()
-        self.default_sampling_params: Union[dict[str, Any], None] = None
-
-    def load_states(self):
-        self.collective_rpc(method="load_states")
-
-    def offload_states(self, level=1):
-        self.reset_prefix_cache()
-        self.collective_rpc(method="offload_states", args=(level,))
-
-    def fetch_output(self):
-        # simulating non blocking semantic when using v1 engine
-        if envs.VLLM_USE_V1:
-            try:
-                request_outputs = self.llm_engine.step_nowait()
-            except queue.Empty:
-                request_outputs = []
-        else:
-            request_outputs = self.llm_engine.step()
-
-        return request_outputs
-
-    def get_num_waiting(self):
-        stats = self.llm_engine._get_stats(scheduler_outputs=None)
-        return stats.num_waiting_sys
-
-    def add_requests(
-        self,
-        prompt_token_ids: List[List[int]],
-        request_ids: List[int] | None,
-        sampling_params: SamplingParams,
-        multi_modal_data: List[int] | None,
-        lora_requests: List[LoRARequest] | None,
-    ):
-        assert len(prompt_token_ids) == len(request_ids)
-        if multi_modal_data:
-            assert len(multi_modal_data) == len(request_ids)
-        for i, (token_ids, request_id)in enumerate(zip(prompt_token_ids, request_ids)):
-            if request_id is None:
-                request_id = next(self.request_counter)
-            lora_request = lora_requests[i] if lora_requests is not None else None
-            if multi_modal_data:
-                # in v1, input_preprocessor is in engine.processor
-                processor = getattr(self.llm_engine, "processor", None)
-                input_preprocessor = processor.input_preprocessor if processor else self.llm_engine.input_preprocessor
-                preprocessed_inputs = input_preprocessor.preprocess(
-                    prompt={"prompt_token_ids": token_ids, "multi_modal_data": multi_modal_data[i]},
-                    lora_request=lora_request,
-                )
-                # in v1, engine does not use a input_processor
-                processed_inputs = (
-                    self.llm_engine.input_processor(preprocessed_inputs)
-                    if hasattr(self.llm_engine, "input_processor")
-                    else preprocessed_inputs
-                )
-            else:
-                processed_inputs = {
-                    "type": "token",
-                    "prompt_token_ids": token_ids
-                }
-            self.llm_engine._add_processed_request(
-                request_id=request_id,
-                processed_inputs=processed_inputs,
-                params=sampling_params,
-                arrival_time=time.time(),
-                lora_request=lora_request,
-            )
-
-    def abort_request(self, request_id: Union[str, Iterable[str]]) -> None:
-        self.llm_engine.abort_request(request_id)
-
-    def clear_unfinished_requests(self):
-        self._run_engine(use_tqdm=True)
-
-    # 参数同步接口
-    def setup_collective_group(self, *args, **kwargs):
-        self.collective_rpc(method="setup_collective_group", args=args, kwargs=kwargs)
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        if envs.VLLM_USE_V1:
-            SendBucketManager.meta_to_dict(meta_infos)
-        self.collective_rpc(method="broadcast_bucket", args=(src_pp_rank, meta_infos, bucket_size))
-
-    def broadcast_parameter(self, *args, **kwargs):
-        self.collective_rpc(method="broadcast_parameter", args=args, kwargs=kwargs)
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker, is_lora):
-        if envs.VLLM_USE_V1:
-            weight_dict = {
-                "dtype": weight.dtype,
-                "weight": weight.cpu().tolist()
-            }
-        self.collective_rpc(method="update_parameter", args=(parameter_name, weight_dict, ranks_in_worker, is_lora))
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        if envs.VLLM_USE_V1:
-            SendBucketManager.meta_to_dict(meta_infos)
-            # vllm 084 does not support serialization of torch.Tensor(GPU), must use custom
-            # numpy array encoder or use pickle.
-            # Can not convert to numpy array here, because of bug in encoder/decoder of vllm 084.
-            # Newer version of vllm support efficient serilization of torch.Tensor.
-            buffer = buffer.cpu().tolist()
-        self.collective_rpc(method="update_parameter_in_bucket", args=(meta_infos, buffer, ranks_in_worker))
-
-    def add_lora(self, *args, **kwargs):
-        self.collective_rpc(method="add_lora", args=args, kwargs=kwargs)
diff --git a/roll/third_party/vllm/vllm_0_10_0/llm_engine.py b/roll/third_party/vllm/vllm_0_10_0/llm_engine.py
deleted file mode 100644
index 92505ecf2..000000000
--- a/roll/third_party/vllm/vllm_0_10_0/llm_engine.py
+++ /dev/null
@@ -1,89 +0,0 @@
-from typing import Dict, Optional, Type
-
-from vllm import LLMEngine, EngineArgs, envs
-from vllm.config import VllmConfig
-from vllm.usage.usage_lib import UsageContext
-from vllm.engine.metrics_types import StatLoggerBase
-
-import roll.third_party.vllm.fp8 as fp8
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-
-class LLMEngine0100(LLMEngine):
-
-    @classmethod
-    def from_vllm_config(
-        cls,
-        vllm_config: VllmConfig,
-        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
-        stat_loggers: Optional[Dict[str, StatLoggerBase]] = None,
-        disable_log_stats: bool = False,
-    ) -> "LLMEngine":
-        parallel_config = vllm_config.parallel_config
-
-        executor_class = cls._get_executor_cls(vllm_config)
-        if parallel_config.distributed_executor_backend == "ray":
-            from roll.third_party.vllm.vllm_0_10_0.ray_distributed_executor import (
-                CustomRayDistributedExecutor as V0CustomRayDistributedExecutor)
-            executor_class = V0CustomRayDistributedExecutor
-
-        logger.info(f"Using executor_class: {executor_class}")
-        logger.info(f"Using worker cls: {parallel_config.worker_cls}")
-        return cls(
-            vllm_config=vllm_config,
-            executor_class=executor_class,
-            log_stats=(not disable_log_stats),
-            usage_context=usage_context,
-            stat_loggers=stat_loggers,
-        )
-
-    @classmethod
-    def from_engine_args(
-        cls,
-        engine_args: EngineArgs,
-        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
-        stat_loggers: Optional[Dict[str, StatLoggerBase]] = None,
-    ) -> "LLMEngine":
-        # Create the engine configs.
-        vllm_config = engine_args.create_engine_config(usage_context)
-        parallel_config = vllm_config.parallel_config
-
-        resource_placement_groups = getattr(engine_args, "resource_placement_groups")
-        assert len(resource_placement_groups) == parallel_config.world_size
-        parallel_config.placement_group = resource_placement_groups
-
-        # change worker cls to custom
-        cls.update_worker_cls_config(vllm_config)
-
-        fp8.update_quant_config(vllm_config)
-
-        engine_cls = cls
-        if envs.VLLM_USE_V1:
-            from roll.third_party.vllm.vllm_0_10_0.v1.llm_engine import (
-                LLMEngine0100 as V1LLMEngine0100)
-            engine_cls = V1LLMEngine0100
-
-        return engine_cls.from_vllm_config(
-            vllm_config=vllm_config,
-            usage_context=usage_context,
-            stat_loggers=stat_loggers,
-            disable_log_stats=engine_args.disable_log_stats,
-        )
-
-    @classmethod
-    def update_worker_cls_config(cls, vllm_config: VllmConfig) -> None:
-        parallel_config = vllm_config.parallel_config
-        scheduler_config = vllm_config.scheduler_config
-
-        assert parallel_config.worker_cls != "auto"
-        if scheduler_config.is_multi_step:
-            pass
-        elif vllm_config.speculative_config:
-            pass
-        else:
-            if envs.VLLM_USE_V1:
-                parallel_config.worker_cls = "roll.third_party.vllm.vllm_0_10_0.v1.worker.Worker0100"
-            else:
-                parallel_config.worker_cls = "roll.third_party.vllm.vllm_0_10_0.worker.Worker0100"
diff --git a/roll/third_party/vllm/vllm_0_10_0/ray_distributed_executor.py b/roll/third_party/vllm/vllm_0_10_0/ray_distributed_executor.py
deleted file mode 100644
index 3c4cc1f8d..000000000
--- a/roll/third_party/vllm/vllm_0_10_0/ray_distributed_executor.py
+++ /dev/null
@@ -1,265 +0,0 @@
-import asyncio
-import os
-from typing import Optional, List
-
-import cloudpickle
-import msgspec
-
-import ray
-from ray.runtime_env import RuntimeEnv
-from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
-from vllm import envs
-from vllm.executor.msgspec_utils import encode_hook
-from vllm.executor.ray_distributed_executor import RayDistributedExecutor, RayWorkerMetaData
-from vllm.executor.ray_utils import RayWorkerWrapper
-from vllm.model_executor.layers.sampler import SamplerOutput
-from vllm.platforms import current_platform
-from vllm.ray.ray_env import get_env_vars_to_copy
-from vllm.utils import make_async, get_ip, get_distributed_init_method, get_open_port
-
-from roll.utils.logging import get_logger
-from roll.platforms import current_platform as roll_current_platform
-
-logger = get_logger()
-
-def initialize_ray_cluster(ray_address: Optional[str] = None):
-    if ray.is_initialized():
-        return
-    ray.init(address=ray_address)
-
-class CustomRayDistributedExecutor(RayDistributedExecutor):
-
-    def _init_executor(self) -> None:
-        self.forward_dag: Optional[ray.dag.CompiledDAG] = None
-        if envs.VLLM_USE_V1:
-            # V1 uses SPMD worker and compiled DAG
-            os.environ["VLLM_USE_RAY_SPMD_WORKER"] = "1"
-            os.environ["VLLM_USE_RAY_COMPILED_DAG"] = "1"
-            assert not current_platform.is_tpu()
-
-        # If the env var is set, it uses the Ray's compiled DAG API
-        # which optimizes the control plane overhead.
-        # Run vLLM with VLLM_USE_RAY_COMPILED_DAG=1 to enable it.
-        # Currently, this requires USE_RAY_SPMD_WORKER=True.
-        self.use_ray_compiled_dag = envs.VLLM_USE_RAY_COMPILED_DAG
-        # If the env var is set, then we do not distinguish between the
-        # "driver worker" vs other workers. Also, the rank 0 worker will
-        # be executed in a remote Ray worker. Currently this requires
-        # USE_RAY_COMPILED_DAG=True.
-        self.use_ray_spmd_worker = envs.VLLM_USE_RAY_SPMD_WORKER
-        if self.use_ray_compiled_dag:
-            assert self.use_ray_spmd_worker, (
-                "VLLM_USE_RAY_COMPILED_DAG=1 requires "
-                "VLLM_USE_RAY_SPMD_WORKER=1")
-        if self.use_ray_spmd_worker:
-            assert self.use_ray_compiled_dag, (
-                "VLLM_USE_RAY_SPMD_WORKER=1 requires "
-                "VLLM_USE_RAY_COMPILED_DAG=1")
-
-        placement_group = self.parallel_config.placement_group
-        assert self.uses_ray
-        assert len(placement_group) > 0
-        initialize_ray_cluster(placement_group[0]['ray_address'])
-        assert ray.is_initialized()
-
-        # Disable Ray usage stats collection.
-        ray_usage = os.environ.get("RAY_USAGE_STATS_ENABLED", "0")
-        if ray_usage != "1":
-            os.environ["RAY_USAGE_STATS_ENABLED"] = "0"
-
-        # Create the parallel GPU workers.
-        self._init_workers_ray(placement_group)
-
-        self.input_encoder = msgspec.msgpack.Encoder(enc_hook=encode_hook)
-        self.output_decoder = msgspec.msgpack.Decoder(
-            Optional[List[SamplerOutput]])
-        self.use_v1 = envs.VLLM_USE_V1
-
-        self.pp_locks: Optional[List[asyncio.Lock]] = None
-        if not self.use_ray_compiled_dag:
-            self.driver_exec_method = make_async(
-                self.driver_worker.execute_method)
-
-    def _init_workers_ray(self, placement_group: "PlacementGroup",
-                          **ray_remote_kwargs):
-        assert len(placement_group) == self.parallel_config.world_size
-    
-        # The driver dummy worker does not actually use any resources.
-        # It holds the resource for the driver worker.
-        self.driver_dummy_worker: Optional[RayWorkerWrapper] = None
-        # The remaining workers are the actual ray actors.
-        self.workers: List[RayWorkerWrapper] = []
-
-        # Used in ray compiled DAG: indexed first by PP rank,
-        # and then TP rank. In other words, the inner list is
-        # the TP group of workers for a PP rank.
-        self.pp_tp_workers: List[List[RayWorkerWrapper]] = []
-
-        if self.parallel_config.ray_workers_use_nsight:
-            ray_remote_kwargs = self._configure_ray_workers_use_nsight(
-                ray_remote_kwargs)
-
-        logger.info("use_ray_spmd_worker: %s", self.use_ray_spmd_worker)
-
-        # Create the workers.
-        worker_metadata: List[RayWorkerMetaData] = []
-        driver_ip = get_ip()
-        for rank in range(self.parallel_config.world_size):
-            pg = placement_group[rank]['placement_group']
-            gpu_rank = placement_group[rank]['gpu_rank']
-            env_vars = {}
-            env_vars.update(roll_current_platform.get_custom_env_vars())
-            env_vars.update(roll_current_platform.get_vllm_run_time_env_vars(gpu_rank))
-            runtime_env = RuntimeEnv(env_vars=env_vars)
-            assert current_platform.ray_device_key == "GPU"
-            # NV+AMD GPUs, and Intel XPUs
-            worker = ray.remote(
-                num_cpus=0,
-                num_gpus=0.01,
-                runtime_env=runtime_env,
-                scheduling_strategy=PlacementGroupSchedulingStrategy(placement_group=pg, ),
-                **ray_remote_kwargs,
-            )(RayWorkerWrapper).remote(vllm_config=self.vllm_config,
-                                       rpc_rank=rank)
-            worker_metadata.append(
-                RayWorkerMetaData(worker=worker, created_rank=rank))
-
-        worker_ips = ray.get([
-            each.worker.get_node_ip.remote()  # type: ignore[attr-defined]
-            for each in worker_metadata
-        ])
-
-        for each, ip in zip(worker_metadata, worker_ips):
-            each.ip = ip
-
-        if not self.use_ray_spmd_worker:
-            for i, each in enumerate(worker_metadata):
-                # find and remove the dummy worker from the list
-                worker = each.worker
-                worker_ip = each.ip
-                if self.driver_dummy_worker is None and worker_ip == driver_ip:
-                    # If the worker is on the same node as the driver, we use it
-                    # as the resource holder for the driver process.
-                    self.driver_dummy_worker = worker
-                    self.driver_worker = RayWorkerWrapper(
-                        vllm_config=self.vllm_config, rpc_rank=0)
-                    worker_metadata.pop(i)
-                    break
-
-        logger.debug("workers: %s", worker_metadata)
-        logger.debug("driver_dummy_worker: %s", self.driver_dummy_worker)
-        if not self.use_ray_spmd_worker and self.driver_dummy_worker is None:
-            raise ValueError(
-                "Ray does not allocate any GPUs on the driver node."
-                f"Driver IP: {driver_ip}, worker IPs: {worker_ips}."
-                "Consider adjusting the Ray placement group or running "
-                "the driver on a GPU node.")
-
-        # 不需要sorted，按placement_group给定的资源顺序即可
-        start_rank = 0 if self.use_ray_spmd_worker else 1
-        for i, item in enumerate(worker_metadata):
-            item.adjusted_rank = i + start_rank
-        self.workers = [item.worker for item in worker_metadata]
-        rerank_mapping = {
-            item.created_rank: item.adjusted_rank
-            for item in worker_metadata
-        }
-        self._run_workers("adjust_rank", rerank_mapping)
-
-        # Get the set of GPU IDs used on each node.
-        worker_node_and_gpu_ids = []
-        for worker in [self.driver_dummy_worker] + self.workers:
-            if worker is None:
-                # driver_dummy_worker can be None when using ray spmd worker.
-                continue
-            worker_node_and_gpu_ids.append(
-                ray.get(worker.get_node_and_gpu_ids.remote()) \
-            ) # type: ignore
-
-        # Set environment variables for the driver and workers.
-        # 移除了device_control_env_var(CUDA_VISIBLE_DEVICES)设置，原因是我们只为每个worker分配了一个可见gpu
-        all_args_to_update_environment_variables = [{} for (node_id, _) in worker_node_and_gpu_ids]
-        # Environment variables to copy from driver to workers
-        env_vars_to_copy = get_env_vars_to_copy(
-            exclude_vars=self.WORKER_SPECIFIC_ENV_VARS,
-            additional_vars=set(current_platform.additional_env_vars).union(
-                self.ADDITIONAL_ENV_VARS),
-            destination="workers")
-
-        # Copy existing env vars to each worker's args
-        for args in all_args_to_update_environment_variables:
-            for name in env_vars_to_copy:
-                if name in os.environ:
-                    args[name] = os.environ[name]
-
-        self._env_vars_for_all_workers = (
-            all_args_to_update_environment_variables)
-
-        self._run_workers("update_environment_variables",
-                          self._get_env_vars_to_be_updated())
-
-        distributed_init_method = get_distributed_init_method(
-            driver_ip, get_open_port())
-
-        # Initialize the actual workers inside worker wrapper.
-        all_kwargs = []
-        for rank, (node_id, _) in enumerate(worker_node_and_gpu_ids):
-            local_rank = 0
-            kwargs = dict(
-                vllm_config=self.vllm_config,
-                local_rank=local_rank,
-                rank=rank,
-                distributed_init_method=distributed_init_method,
-                is_driver_worker=(not self.parallel_config)
-                or (rank % self.parallel_config.tensor_parallel_size == 0),
-            )
-            all_kwargs.append(kwargs)
-        self._run_workers("init_worker", all_kwargs)
-
-        self._run_workers("init_device")
-        self._run_workers("load_model",
-                          max_concurrent_workers=self.parallel_config.
-                          max_parallel_loading_workers)
-
-        if self.use_ray_spmd_worker:
-            for pp_rank in range(self.parallel_config.pipeline_parallel_size):
-                self.pp_tp_workers.append([])
-                for tp_rank in range(
-                        self.parallel_config.tensor_parallel_size):
-                    # PP=2, TP=4
-                    # pp_tp_workers = [[0, 1, 2, 3], [4, 5, 6, 7]]
-                    rank = (pp_rank * self.parallel_config.tensor_parallel_size
-                            ) + tp_rank
-                    assert len(self.pp_tp_workers[pp_rank]) == tp_rank
-                    assert pp_rank < len(self.pp_tp_workers)
-                    self.pp_tp_workers[pp_rank].append(self.workers[rank])
-
-        # This is the list of workers that are rank 0 of each TP group EXCEPT
-        # global rank 0. These are the workers that will broadcast to the
-        # rest of the workers.
-        self.tp_driver_workers: List[RayWorkerWrapper] = []
-        # This is the list of workers that are not drivers and not the first
-        # worker in a TP group. These are the workers that will be
-        # broadcasted to.
-        self.non_driver_workers: List[RayWorkerWrapper] = []
-
-        # Enforce rank order for correct rank to return final output.
-        for index, worker in enumerate(self.workers):
-            # The driver worker is rank 0 and not in self.workers.
-            rank = index + 1
-            if rank % self.parallel_config.tensor_parallel_size == 0:
-                self.tp_driver_workers.append(worker)
-            else:
-                self.non_driver_workers.append(worker)
-
-    def shutdown(self) -> None:
-        logger.info(
-            "Shutting down Ray distributed executor. If you see error log "
-            "from logging.cc regarding SIGTERM received, please ignore because "
-            "this is the expected termination process in Ray.")
-        if hasattr(self, "forward_dag") and self.forward_dag is not None:
-            self.forward_dag.teardown()
-            import ray
-            for worker in self.workers:
-                ray.kill(worker)
-            self.forward_dag = None
diff --git a/roll/third_party/vllm/vllm_0_10_0/v1/async_llm.py b/roll/third_party/vllm/vllm_0_10_0/v1/async_llm.py
deleted file mode 100644
index 67a4025e8..000000000
--- a/roll/third_party/vllm/vllm_0_10_0/v1/async_llm.py
+++ /dev/null
@@ -1,98 +0,0 @@
-import os
-import asyncio
-from typing import (Tuple, List, Dict, Optional, Union, Any,
-                    Callable, Dict, List, Optional)
-
-from vllm import envs
-from vllm.v1.engine.async_llm import AsyncLLM
-from vllm.engine.arg_utils import AsyncEngineArgs
-from vllm.entrypoints.llm import _R
-from vllm.usage.usage_lib import UsageContext
-from vllm.v1.executor.abstract import Executor
-
-from roll.utils.logging import get_logger
-from roll.utils.send_recv_utils import SendBucketManager
-
-logger = get_logger()
-
-class AsyncLLM0100(AsyncLLM):
-
-    def __init__(self, resource_placement_groups, **kwargs):
-        assert envs.VLLM_USE_V1
-
-        engine_args = AsyncEngineArgs(
-            **kwargs,
-        )
-        engine_args.enable_sleep_mode = True
-        vllm_config = engine_args.create_engine_config(UsageContext.ENGINE_CONTEXT)
-
-        parallel_config = vllm_config.parallel_config
-        assert len(resource_placement_groups) == parallel_config.world_size
-        parallel_config.placement_group = resource_placement_groups
-
-        assert not vllm_config.scheduler_config.is_multi_step
-        assert not vllm_config.speculative_config
-        parallel_config.worker_cls = "roll.third_party.vllm.vllm_0_10_0.v1.worker.Worker0100"
-
-        executor_class = Executor.get_class(vllm_config)
-        if parallel_config.distributed_executor_backend == "ray":
-            from roll.third_party.vllm.vllm_0_10_0.v1.ray_distributed_executor import (
-                CustomRayDistributedExecutor as V1CustomeRayDistributedExecutor)
-            executor_class = V1CustomeRayDistributedExecutor
-
-        # https://github.com/vllm-project/vllm/pull/14189/files
-        # TODO do not override other options in PYTORCH_CUDA_ALLOC_CONF
-        os.environ["PYTORCH_CUDA_ALLOC_CONF"] = ""
-
-        # Default fork method is not compatible with ScaleAligner.
-        os.environ['VLLM_WORKER_MULTIPROC_METHOD'] = 'spawn'
-
-        logger.info(f"Using AsyncLLM")
-        logger.info(f"Using executor_class: {executor_class}")
-        logger.info(f"Using worker cls: {parallel_config.worker_cls}")
-        return super().__init__(
-            vllm_config=vllm_config,
-            executor_class=executor_class,
-            start_engine_loop=True,
-            log_requests=True,
-            log_stats=True,
-            usage_context=UsageContext.ENGINE_CONTEXT,
-        )
-
-    def collective_rpc(self,
-                       method: Union[str, Callable[..., _R]],
-                       timeout: Optional[float] = None,
-                       args: Tuple = (),
-                       kwargs: Optional[Dict[str, Any]] = None) -> List[_R]:
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(self.engine_core.collective_rpc_async(method, timeout, args, kwargs))
-
-    def load_states(self):
-        self.collective_rpc(method="load_states")
-
-    def offload_states(self, level=1):
-        self.reset_prefix_cache()
-        self.collective_rpc(method="offload_states", args=(level,))
-
-    # 参数同步接口
-    def setup_collective_group(self, *args, **kwargs):
-        self.collective_rpc(method="setup_collective_group", args=args, kwargs=kwargs)
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        if envs.VLLM_USE_V1:
-            SendBucketManager.meta_to_dict(meta_infos)
-        self.collective_rpc(method="broadcast_bucket", args=(src_pp_rank, meta_infos, bucket_size))
-
-    def broadcast_parameter(self, *args, **kwargs):
-        self.collective_rpc(method="broadcast_parameter", args=args, kwargs=kwargs)
-
-    def update_parameter(self, *args, **kwargs):
-        self.collective_rpc(method="update_parameter", args=args, kwargs=kwargs)
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        if envs.VLLM_USE_V1:
-            SendBucketManager.meta_to_dict(meta_infos)
-        self.collective_rpc(method="update_parameter_in_bucket", args=(meta_infos, buffer, ranks_in_worker))
-
-    def add_lora(self, *args, **kwargs):
-        self.collective_rpc(method="add_lora", args=args, kwargs=kwargs)
diff --git a/roll/third_party/vllm/vllm_0_10_0/v1/llm_engine.py b/roll/third_party/vllm/vllm_0_10_0/v1/llm_engine.py
deleted file mode 100644
index cb36342f5..000000000
--- a/roll/third_party/vllm/vllm_0_10_0/v1/llm_engine.py
+++ /dev/null
@@ -1,241 +0,0 @@
-import os
-from collections.abc import Mapping, Sequence
-from copy import copy
-from typing import Optional, Union
-
-from vllm import envs
-from vllm.config import VllmConfig
-from vllm.usage.usage_lib import UsageContext
-from vllm.engine.metrics_types import StatLoggerBase
-from vllm.v1.engine.processor import Processor
-from vllm.config import VllmConfig
-from vllm.inputs import ProcessorInputs
-from vllm.inputs.parse import split_enc_dec_inputs
-from vllm.outputs import RequestOutput
-from vllm.lora.request import LoRARequest
-from vllm.multimodal import MultiModalKwargs
-from vllm.multimodal.inputs import PlaceholderRange
-from vllm.multimodal.utils import merge_and_sort_multimodal_metadata
-from vllm.pooling_params import PoolingParams
-from vllm.sampling_params import SamplingParams
-from vllm.v1.engine import EngineCoreRequest
-from vllm.v1.engine import EngineCoreOutputs
-from vllm.v1.engine.core_client import SyncMPClient
-from vllm.v1.executor.abstract import Executor
-from vllm.v1.engine.llm_engine import LLMEngine
-from vllm.v1.engine.parallel_sampling import ParentRequest
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-def custom_process_inputs(
-    self,
-    request_id: str,
-    prompt: ProcessorInputs,
-    params: Union[SamplingParams, PoolingParams],
-    arrival_time: Optional[float] = None,
-    lora_request: Optional[LoRARequest] = None,
-    trace_headers: Optional[Mapping[str, str]] = None,
-    priority: int = 0,
-) -> EngineCoreRequest:
-
-    self._validate_lora(lora_request)
-    self._validate_params(params,lora_request)
-    if priority != 0:
-        raise ValueError("V1 does not support priority yet.")
-    if trace_headers is not None:
-        raise ValueError("V1 does not support tracing yet.")
-
-    assert arrival_time is not None
-
-    processed_inputs: ProcessorInputs = prompt
-    eos_token_id = self.input_preprocessor.get_eos_token_id(lora_request)
-
-    self._validate_model_inputs(processed_inputs, lora_request)
-
-    encoder_inputs, decoder_inputs = split_enc_dec_inputs(processed_inputs)
-
-    if encoder_inputs is not None:
-        raise NotImplementedError
-
-    assert isinstance(params, SamplingParams)
-    sampling_params = params.clone()
-    # If unset max tokens, then generate up to the max_model_len.
-    if sampling_params.max_tokens is None:
-        sampling_params.max_tokens = (
-            self.model_config.max_model_len -
-            len(decoder_inputs["prompt_token_ids"]))
-    sampling_params.update_from_generation_config(
-        self.generation_config_fields, eos_token_id)
-    sampling_params.update_from_tokenizer(
-        self.tokenizer.get_lora_tokenizer(lora_request))
-    pooling_params = None
-
-    # Multimodal related.
-    sorted_mm_inputs: Optional[Sequence[Optional[MultiModalKwargs]]] = None
-    sorted_mm_positions: Optional[list[PlaceholderRange]] = None
-    sorted_mm_hashes: Optional[list[str]] = None
-    if decoder_inputs["type"] == "multimodal":
-        decoder_mm_inputs = decoder_inputs["mm_kwargs"]
-
-        # Merge and flatten multimodal placeholders, hashes and inputs
-        # from dictionaries to lists, and sort them by each item's position
-        # in the input sequence.
-        (
-            sorted_item_modalities,
-            sorted_mm_positions,
-            sorted_mm_hashes,
-        ) = merge_and_sort_multimodal_metadata(
-            decoder_inputs["mm_placeholders"],
-            decoder_inputs["mm_hashes"] if self.use_hash else None,
-        )
-
-        # The output of merged multi-modal processor (`decoder_mm_inputs`)
-        # is a single MultiModalKwargs for all items from all modalities.
-        # This code flattens kwargs for individual items in a list and
-        # sorts them by each item's position in the input sequence if there
-        # are multiple modalities.
-        unique_modalities = set(sorted_item_modalities)
-        if len(unique_modalities) > 1:
-            orig_sorted_mm_inputs = []
-            used_indices = {modality: 0 for modality in unique_modalities}
-
-            for modality in sorted_item_modalities:
-                items = decoder_mm_inputs.get_items(modality)
-                item = items[used_indices[modality]]
-
-                orig_sorted_mm_inputs.append(
-                    MultiModalKwargs.from_items([item]))
-                used_indices[modality] += 1
-        else:
-            orig_sorted_mm_inputs = [
-                MultiModalKwargs.from_items([item]) for item in
-                decoder_mm_inputs.get_items(sorted_item_modalities[0])
-            ]
-
-        if sorted_mm_hashes is not None:
-            sorted_mm_inputs = self.mm_input_cache_client.get_and_update_p0(
-                orig_sorted_mm_inputs, sorted_mm_hashes)
-        else:
-            sorted_mm_inputs = orig_sorted_mm_inputs
-
-    return decoder_inputs.get("prompt"),EngineCoreRequest(
-        request_id=request_id,
-        prompt_token_ids=decoder_inputs["prompt_token_ids"],
-        mm_inputs=sorted_mm_inputs,
-        mm_hashes=sorted_mm_hashes,
-        mm_placeholders=sorted_mm_positions,
-        sampling_params=sampling_params,
-        pooling_params=pooling_params,
-        eos_token_id=eos_token_id,
-        arrival_time=arrival_time,
-        lora_request=lora_request,
-        cache_salt=None,
-        data_parallel_rank=None,
-    )
-
-Processor.custom_process_inputs = custom_process_inputs
-
-def get_output_nowait(self) -> EngineCoreOutputs:
-    """
-    Only get an item if one is immediately available. Otherwise
-    raise the queue.Empty exception.
-    """
-    return self.outputs_queue.get_nowait()
-
-# Function 'step' of vllm v1 and v0 engine has different semantic.
-# Function vllm.v1.engine.LLMEngine.step is blocking but that of v0 is not.
-# This will cause deadlock when calling roll.third_party.vllm.vllm_0_8_4.Llm084.fetch_output
-# inside VllmStrategy if set generate_opt_level to 1.
-SyncMPClient.get_output_nowait = get_output_nowait
-
-class LLMEngine0100(LLMEngine):
-
-    @classmethod
-    def from_vllm_config(
-        cls,
-        vllm_config: VllmConfig,
-        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
-        stat_loggers: Optional[dict[str, StatLoggerBase]] = None,
-        disable_log_stats: bool = False,
-    ) -> "LLMEngine":
-        if stat_loggers is not None:
-            raise NotImplementedError(
-                "Passing StatLoggers to V1 is not yet supported. "
-                "Set VLLM_USE_V1=0 and file and issue on Github.")
-
-        parallel_config = vllm_config.parallel_config
-
-        executor_class = Executor.get_class(vllm_config)
-        if parallel_config.distributed_executor_backend == "ray":
-            from roll.third_party.vllm.vllm_0_10_0.v1.ray_distributed_executor import (
-                CustomRayDistributedExecutor as V1CustomeRayDistributedExecutor)
-            executor_class = V1CustomeRayDistributedExecutor
-
-        # Default fork method is not compatible with ScaleAligner.
-        os.environ['VLLM_WORKER_MULTIPROC_METHOD'] = 'spawn'
-
-        logger.info(f"Using executor_class: {executor_class}")
-        logger.info(f"Using worker cls: {parallel_config.worker_cls}")
-        return cls(vllm_config=vllm_config,
-                   executor_class=executor_class,
-                   log_stats=(not disable_log_stats),
-                   usage_context=usage_context,
-                   stat_loggers=stat_loggers,
-                   multiprocess_mode=envs.VLLM_ENABLE_V1_MULTIPROCESSING)
-
-    def _add_processed_request(
-        self,
-        request_id: str,
-        processed_inputs: ProcessorInputs,
-        params: Union[SamplingParams, PoolingParams],
-        arrival_time: float,
-        lora_request: Optional[LoRARequest],
-        trace_headers: Optional[Mapping[str, str]] = None,
-        priority: int = 0,
-    ) -> None:
-        prompt_str, request = self.processor.custom_process_inputs(request_id, processed_inputs, params,
-                                                arrival_time, lora_request,
-                                                trace_headers,
-                                                priority)
-
-        n = params.n if isinstance(params, SamplingParams) else 1
-
-        if n == 1:
-            # Make a new RequestState and queue.
-            self.output_processor.add_request(request, prompt_str, None, 0)
-            # Add the request to EngineCore.
-            self.engine_core.add_request(request)
-            return
-
-        # Fan out child requests (for n>1).
-        parent_req = ParentRequest(request_id, params)
-        for idx in range(n):
-            request_id, params = parent_req.get_child_info(idx)
-            child_request = request if idx == n - 1 else copy(request)
-            child_request.request_id = request_id
-            child_request.sampling_params = params
-
-            # Make a new RequestState and queue.
-            self.output_processor.add_request(child_request,prompt_str, parent_req, idx)
-            # Add the request to EngineCore.
-            self.engine_core.add_request(child_request)
-
-    def step_nowait(self) -> list[RequestOutput]:
-
-        if self.should_execute_dummy_batch:
-            self.should_execute_dummy_batch = False
-            self.engine_core.execute_dummy_batch()
-            return []
-
-        # 1) Get EngineCoreOutput from the EngineCore.
-        outputs = self.engine_core.get_output_nowait()
-
-        # 2) Process EngineCoreOutputs.
-        processed_outputs = self.output_processor.process_outputs(
-            outputs.outputs)
-
-        # 3) Abort any reqs that finished due to stop strings.
-        self.engine_core.abort_requests(processed_outputs.reqs_to_abort)
-
-        return processed_outputs.request_outputs
diff --git a/roll/third_party/vllm/vllm_0_10_0/v1/ray_distributed_executor.py b/roll/third_party/vllm/vllm_0_10_0/v1/ray_distributed_executor.py
deleted file mode 100644
index 9897230c3..000000000
--- a/roll/third_party/vllm/vllm_0_10_0/v1/ray_distributed_executor.py
+++ /dev/null
@@ -1,9 +0,0 @@
-from vllm.v1.executor.ray_distributed_executor import RayDistributedExecutor
-
-from roll.third_party.vllm.vllm_0_10_0.ray_distributed_executor import ( 
-    CustomRayDistributedExecutor as CustomRayDistributedExecutorV0)
-
-# Force RayDistributedExecutor to come before CustomRayDistributedExecutorV0
-# to ensure correct method resolution order (MRO) and override behavior.
-class CustomRayDistributedExecutor(RayDistributedExecutor, CustomRayDistributedExecutorV0):
-    pass
diff --git a/roll/third_party/vllm/vllm_0_10_0/v1/worker.py b/roll/third_party/vllm/vllm_0_10_0/v1/worker.py
deleted file mode 100644
index f65f07430..000000000
--- a/roll/third_party/vllm/vllm_0_10_0/v1/worker.py
+++ /dev/null
@@ -1,51 +0,0 @@
-import gc
-import time
-from collections import OrderedDict
-from typing import Optional
-
-import torch
-from vllm.device_allocator.cumem import CuMemAllocator
-from vllm.v1.worker.gpu_worker import Worker
-
-from roll.third_party.vllm.vllm_utils import TensorLoRARequest, patch_vllm_lora_manager
-from roll.third_party.vllm.worker_helper import WorkerHelper
-from roll.utils.logging import get_logger
-from roll.utils.send_recv_utils import RecvBucketManager
-from roll.platforms import current_platform
-
-logger = get_logger()
-
-
-class Worker0100(WorkerHelper, Worker):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.lora_params = OrderedDict()
-        patch_vllm_lora_manager()
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker, is_lora):
-        weight_dict = weight
-        weight = torch.tensor(weight_dict["weight"], dtype=weight_dict["dtype"]).to(current_platform.device_type)
-        super().update_parameter(parameter_name, weight, ranks_in_worker, is_lora)
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        RecvBucketManager.dict_to_meta(meta_infos)
-        super().broadcast_bucket(src_pp_rank, meta_infos, bucket_size)
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        RecvBucketManager.dict_to_meta(meta_infos)
-        buffer = torch.tensor(buffer, dtype=torch.int8, device=current_platform.device_type)
-        super().update_parameter_in_bucket(meta_infos, buffer, ranks_in_worker)
-
-    def add_lora(self, peft_config) -> bool:
-        lora_int_id = int(time.time_ns() % 0x7FFFFFFF)
-        lora_request = TensorLoRARequest(
-            lora_name=f"{lora_int_id}",
-            lora_int_id=lora_int_id,
-            lora_path="dummy_lora_path",
-            peft_config=peft_config,
-            lora_tensors=self.lora_params,
-        )
-        del self.lora_params
-        self.lora_params = OrderedDict()
-        super().reload_model()
-        return self.model_runner.add_lora(lora_request)
diff --git a/roll/third_party/vllm/vllm_0_10_0/worker.py b/roll/third_party/vllm/vllm_0_10_0/worker.py
deleted file mode 100644
index 41217a532..000000000
--- a/roll/third_party/vllm/vllm_0_10_0/worker.py
+++ /dev/null
@@ -1,15 +0,0 @@
-import gc
-from typing import Optional
-
-import torch
-from vllm.worker.worker import Worker
-
-from roll.third_party.vllm.worker_helper import WorkerHelper
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-
-class Worker0100(WorkerHelper, Worker):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
diff --git a/roll/third_party/vllm/vllm_0_10_2/llm.py b/roll/third_party/vllm/vllm_0_10_2/llm.py
deleted file mode 100644
index fe38a85ad..000000000
--- a/roll/third_party/vllm/vllm_0_10_2/llm.py
+++ /dev/null
@@ -1,285 +0,0 @@
-import os
-import queue
-import time
-from typing import Any, Dict, Iterable, List, Optional, Union
-
-import cloudpickle
-import torch
-from vllm import LLM, EngineArgs, SamplingParams, envs
-from vllm.config import (CompilationConfig, ModelDType, TokenizerMode,
-                         is_init_field)
-from vllm.model_executor.layers.quantization import QuantizationMethods
-from vllm.engine.arg_utils import (ConvertOption, EngineArgs, HfOverrides,
-                                   PoolerConfig, RunnerOption)
-from vllm.v1.sample.logits_processor import LogitsProcessor
-from vllm.entrypoints.utils import (_validate_truncation_size,
-                                    log_non_default_args)
-from vllm.lora.request import LoRARequest
-from vllm.usage.usage_lib import UsageContext
-from vllm.utils import Counter
-from vllm.plugins.io_processors import get_io_processor
-from vllm.envs import get_default_cache_root
-
-from roll.third_party.vllm.vllm_0_10_2.llm_engine import LLMEngine0102
-from roll.utils.send_recv_utils import SendBucketManager
-from roll.utils.logging import get_logger
-from roll.platforms import current_platform
-
-logger = get_logger()
-
-class Llm0102(LLM):
-
-    def __init__(
-        self,
-        resource_placement_groups: List[Dict],
-        model: str,
-        *,
-        runner: RunnerOption = "auto",
-        convert: ConvertOption = "auto",
-        tokenizer: Optional[str] = None,
-        tokenizer_mode: TokenizerMode = "auto",
-        skip_tokenizer_init: bool = False,
-        trust_remote_code: bool = False,
-        allowed_local_media_path: str = "",
-        tensor_parallel_size: int = 1,
-        dtype: ModelDType = "auto",
-        quantization: Optional[QuantizationMethods] = None,
-        revision: Optional[str] = None,
-        tokenizer_revision: Optional[str] = None,
-        seed: Optional[int] = None,
-        gpu_memory_utilization: float = 0.9,
-        swap_space: float = 4,
-        cpu_offload_gb: float = 0,
-        enforce_eager: bool = False,
-        max_seq_len_to_capture: int = 8192,
-        disable_custom_all_reduce: bool = False,
-        disable_async_output_proc: bool = False,
-        hf_token: Optional[Union[bool, str]] = None,
-        hf_overrides: Optional[HfOverrides] = None,
-        mm_processor_kwargs: Optional[dict[str, Any]] = None,
-        override_pooler_config: Optional[PoolerConfig] = None,
-        kv_cache_memory_bytes: Optional[int] = None,
-        compilation_config: Optional[Union[int, dict[str, Any],
-                                           CompilationConfig]] = None,
-        logits_processors: Optional[list[Union[str,
-                                               type[LogitsProcessor]]]] = None,
-        **kwargs: Any,
-    ) -> None:
-        """LLM constructor."""
-        # setup envs for vllm
-        # https://github.com/vllm-project/vllm/pull/14189/files
-        # TODO do not override other options in PYTORCH_CUDA_ALLOC_CONF
-        os.environ["PYTORCH_CUDA_ALLOC_CONF"] = ""
-        # torch.cuda may already init, explicitly disable expandable_segments
-        # here (only matters when VLLM_USE_RAY_SPMD_WORKER=0)
-        current_platform.set_allocator_settings("expandable_segments:False")
-
-        os.environ["VLLM_CACHE_ROOT"] = os.path.join(
-            get_default_cache_root(), "vllm", os.environ.get("WORKER_NAME", ""))
-
-        if "disable_log_stats" not in kwargs:
-            kwargs["disable_log_stats"] = True
-
-        if "worker_cls" in kwargs:
-            worker_cls = kwargs["worker_cls"]
-            # if the worker_cls is not qualified string name,
-            # we serialize it using cloudpickle to avoid pickling issues
-            if isinstance(worker_cls, type):
-                kwargs["worker_cls"] = cloudpickle.dumps(worker_cls)
-
-        if "kv_transfer_config" in kwargs and isinstance(
-                kwargs["kv_transfer_config"], dict):
-            from vllm.config.kv_transfer import KVTransferConfig
-            raw_config_dict = kwargs["kv_transfer_config"]
-            try:
-                kwargs["kv_transfer_config"] = KVTransferConfig(
-                    **raw_config_dict)
-            except ValidationError as e:
-                logger.error(
-                    "Failed to convert 'kv_transfer_config' dict to "
-                    "KVTransferConfig object. Dict: %s. Error: %s",
-                    raw_config_dict, e)
-                # Consider re-raising a more specific vLLM error or ValueError
-                # to provide better context to the user.
-                raise ValueError(
-                    f"Invalid 'kv_transfer_config' provided: {e}") from e
-
-        if hf_overrides is None:
-            hf_overrides = {}
-
-        if compilation_config is not None:
-            if isinstance(compilation_config, int):
-                compilation_config_instance = CompilationConfig(
-                    level=compilation_config)
-            elif isinstance(compilation_config, dict):
-                predicate = lambda x: is_init_field(CompilationConfig, x[0])
-                compilation_config_instance = CompilationConfig(
-                    **dict(filter(predicate, compilation_config.items())))
-            else:
-                compilation_config_instance = compilation_config
-        else:
-            compilation_config_instance = CompilationConfig()
-
-        kwargs["enable_sleep_mode"] = True
-        engine_args = EngineArgs(
-            model=model,
-            runner=runner,
-            convert=convert,
-            tokenizer=tokenizer,
-            tokenizer_mode=tokenizer_mode,
-            skip_tokenizer_init=skip_tokenizer_init,
-            trust_remote_code=trust_remote_code,
-            allowed_local_media_path=allowed_local_media_path,
-            tensor_parallel_size=tensor_parallel_size,
-            dtype=dtype,
-            quantization=quantization,
-            revision=revision,
-            tokenizer_revision=tokenizer_revision,
-            seed=seed,
-            gpu_memory_utilization=gpu_memory_utilization,
-            kv_cache_memory_bytes=kv_cache_memory_bytes,
-            swap_space=swap_space,
-            cpu_offload_gb=cpu_offload_gb,
-            enforce_eager=enforce_eager,
-            max_seq_len_to_capture=max_seq_len_to_capture,
-            disable_custom_all_reduce=disable_custom_all_reduce,
-            disable_async_output_proc=disable_async_output_proc,
-            hf_token=hf_token,
-            hf_overrides=hf_overrides,
-            mm_processor_kwargs=mm_processor_kwargs,
-            override_pooler_config=override_pooler_config,
-            compilation_config=compilation_config_instance,
-            logits_processors=logits_processors,
-            **kwargs,
-        )
-        engine_args.resource_placement_groups = resource_placement_groups
-
-        log_non_default_args(engine_args)
-
-        # Create the Engine (autoselects V0 vs V1)
-        self.llm_engine = LLMEngine0102.from_engine_args(
-            engine_args=engine_args, usage_context=UsageContext.LLM_CLASS)
-        self.engine_class = type(self.llm_engine)
-
-        self.request_counter = Counter()
-        self.default_sampling_params: Union[dict[str, Any], None] = None
-
-        if envs.VLLM_USE_V1:
-            supported_tasks = self.llm_engine \
-                .get_supported_tasks()  # type: ignore
-        else:
-            supported_tasks = self.llm_engine.model_config.supported_tasks
-
-        logger.info("Supported_tasks: %s", supported_tasks)
-
-        self.supported_tasks = supported_tasks
-
-        # Load the Input/Output processor plugin if any
-        io_processor_plugin = self.llm_engine.model_config.io_processor_plugin
-        self.io_processor = get_io_processor(self.llm_engine.vllm_config,
-                                             io_processor_plugin)
-
-
-    def load_states(self):
-        self.collective_rpc(method="load_states")
-
-    def offload_states(self, level=1):
-        self.reset_prefix_cache()
-        self.collective_rpc(method="offload_states", args=(level,))
-
-    def fetch_output(self):
-        # simulating non blocking semantic when using v1 engine
-        if envs.VLLM_USE_V1:
-            try:
-                request_outputs = self.llm_engine.step_nowait()
-            except queue.Empty:
-                request_outputs = []
-        else:
-            request_outputs = self.llm_engine.step()
-
-        return request_outputs
-
-    def get_num_waiting(self):
-        stats = self.llm_engine._get_stats(scheduler_outputs=None)
-        return stats.num_waiting_sys
-
-    def add_requests(
-        self,
-        prompt_token_ids: List[List[int]],
-        request_ids: List[int] | None,
-        sampling_params: SamplingParams,
-        multi_modal_data: List[int] | None,
-        lora_requests: List[LoRARequest] | None,
-    ):
-        assert len(prompt_token_ids) == len(request_ids)
-        if multi_modal_data:
-            assert len(multi_modal_data) == len(request_ids)
-        for i, (token_ids, request_id)in enumerate(zip(prompt_token_ids, request_ids)):
-            if request_id is None:
-                request_id = next(self.request_counter)
-            lora_request = lora_requests[i] if lora_requests is not None else None
-            if multi_modal_data:
-                # in v1, input_preprocessor is in engine.processor
-                processor = getattr(self.llm_engine, "processor", None)
-                input_preprocessor = processor.input_preprocessor if processor else self.llm_engine.input_preprocessor
-                preprocessed_inputs = input_preprocessor.preprocess(
-                    prompt={"prompt_token_ids": token_ids, "multi_modal_data": multi_modal_data[i]},
-                    lora_request=lora_request,
-                )
-                # in v1, engine does not use a input_processor
-                processed_inputs = (
-                    self.llm_engine.input_processor(preprocessed_inputs)
-                    if hasattr(self.llm_engine, "input_processor")
-                    else preprocessed_inputs
-                )
-            else:
-                processed_inputs = {
-                    "type": "token",
-                    "prompt_token_ids": token_ids
-                }
-            self.llm_engine._add_processed_request(
-                request_id=request_id,
-                processed_inputs=processed_inputs,
-                params=sampling_params,
-                arrival_time=time.time(),
-                lora_request=lora_request,
-            )
-
-    def abort_request(self, request_id: Union[str, Iterable[str]]) -> None:
-        self.llm_engine.abort_request(request_id)
-
-    def clear_unfinished_requests(self):
-        self._run_engine(use_tqdm=True)
-
-    # 参数同步接口
-    def setup_collective_group(self, *args, **kwargs):
-        self.collective_rpc(method="setup_collective_group", args=args, kwargs=kwargs)
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        if envs.VLLM_USE_V1:
-            SendBucketManager.meta_to_dict(meta_infos)
-        self.collective_rpc(method="broadcast_bucket", args=(src_pp_rank, meta_infos, bucket_size))
-
-    def broadcast_parameter(self, *args, **kwargs):
-        self.collective_rpc(method="broadcast_parameter", args=args, kwargs=kwargs)
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker, is_lora):
-        if envs.VLLM_USE_V1:
-            weight_dict = {
-                "dtype": weight.dtype,
-                "weight": weight.cpu().tolist()
-            }
-        self.collective_rpc(method="update_parameter", args=(parameter_name, weight_dict, ranks_in_worker, is_lora))
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        if envs.VLLM_USE_V1:
-            SendBucketManager.meta_to_dict(meta_infos)
-            # vllm 084 does not support serialization of torch.Tensor(GPU), must use custom
-            # numpy array encoder or use pickle.
-            # Can not convert to numpy array here, because of bug in encoder/decoder of vllm 084.
-            # Newer version of vllm support efficient serilization of torch.Tensor.
-            buffer = buffer.cpu().tolist()
-        self.collective_rpc(method="update_parameter_in_bucket", args=(meta_infos, buffer, ranks_in_worker))
-
-    def add_lora(self, *args, **kwargs):
-        self.collective_rpc(method="add_lora", args=args, kwargs=kwargs)
diff --git a/roll/third_party/vllm/vllm_0_10_2/llm_engine.py b/roll/third_party/vllm/vllm_0_10_2/llm_engine.py
deleted file mode 100644
index 52e6f1e0a..000000000
--- a/roll/third_party/vllm/vllm_0_10_2/llm_engine.py
+++ /dev/null
@@ -1,87 +0,0 @@
-from typing import Dict, Optional, Type
-
-from vllm import LLMEngine, EngineArgs, envs
-from vllm.config import VllmConfig
-from vllm.usage.usage_lib import UsageContext
-from vllm.engine.metrics_types import StatLoggerBase
-
-import roll.third_party.vllm.fp8 as fp8
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-
-class LLMEngine0102(LLMEngine):
-
-    @classmethod
-    def from_vllm_config(
-        cls,
-        vllm_config: VllmConfig,
-        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
-        stat_loggers: Optional[Dict[str, StatLoggerBase]] = None,
-        disable_log_stats: bool = False,
-    ) -> "LLMEngine":
-        parallel_config = vllm_config.parallel_config
-
-        executor_class = cls._get_executor_cls(vllm_config)
-        if parallel_config.distributed_executor_backend == "ray":
-            from roll.third_party.vllm.vllm_0_10_0.ray_distributed_executor import (
-                CustomRayDistributedExecutor as V0CustomRayDistributedExecutor)
-            executor_class = V0CustomRayDistributedExecutor
-
-        logger.info(f"Using executor_class: {executor_class}")
-        logger.info(f"Using worker cls: {parallel_config.worker_cls}")
-        return cls(
-            vllm_config=vllm_config,
-            executor_class=executor_class,
-            log_stats=(not disable_log_stats),
-            usage_context=usage_context,
-            stat_loggers=stat_loggers,
-        )
-
-    @classmethod
-    def from_engine_args(
-        cls,
-        engine_args: EngineArgs,
-        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
-        stat_loggers: Optional[Dict[str, StatLoggerBase]] = None,
-    ) -> "LLMEngine":
-        """Creates an LLM engine from the engine arguments."""
-        # Create the engine configs.
-        vllm_config = engine_args.create_engine_config(usage_context)
-        parallel_config = vllm_config.parallel_config
-
-        resource_placement_groups = getattr(engine_args, "resource_placement_groups")
-        assert len(resource_placement_groups) == parallel_config.world_size
-        parallel_config.placement_group = resource_placement_groups
-
-        # change worker cls to custom
-        cls.update_worker_cls_config(vllm_config)
-
-        fp8.update_quant_config(vllm_config)
-
-        engine_cls = cls
-        if envs.VLLM_USE_V1:
-            from roll.third_party.vllm.vllm_0_10_2.v1.llm_engine import (
-                LLMEngine0102 as V1LLMEngine0102)
-            engine_cls = V1LLMEngine0102
-
-        return engine_cls.from_vllm_config(
-            vllm_config=vllm_config,
-            usage_context=usage_context,
-            stat_loggers=stat_loggers,
-            disable_log_stats=engine_args.disable_log_stats,
-        )
-
-    @classmethod
-    def update_worker_cls_config(cls, vllm_config: VllmConfig) -> None:
-        parallel_config = vllm_config.parallel_config
-
-        assert parallel_config.worker_cls != "auto"
-        if vllm_config.speculative_config:
-            pass
-        else:
-            if envs.VLLM_USE_V1:
-                parallel_config.worker_cls = "roll.third_party.vllm.vllm_0_10_2.v1.worker.Worker0102"
-            else:
-                parallel_config.worker_cls = "roll.third_party.vllm.vllm_0_10_2.worker.Worker0102"
diff --git a/roll/third_party/vllm/vllm_0_10_2/ray_distributed_executor.py b/roll/third_party/vllm/vllm_0_10_2/ray_distributed_executor.py
index 0b6131969..ec00fbb29 100644
--- a/roll/third_party/vllm/vllm_0_10_2/ray_distributed_executor.py
+++ b/roll/third_party/vllm/vllm_0_10_2/ray_distributed_executor.py
@@ -110,6 +110,7 @@ def _init_workers_ray(self, placement_group: "PlacementGroup",
             env_vars = {}
             env_vars.update(roll_current_platform.get_custom_env_vars())
             env_vars.update(roll_current_platform.get_vllm_run_time_env_vars(gpu_rank))
+            env_vars["FLASHINFER_WORKSPACE_BASE"] = f"{os.environ['FLASHINFER_WORKSPACE_BASE']}_{rank}"
             runtime_env = RuntimeEnv(env_vars=env_vars)
             assert current_platform.ray_device_key == "GPU"
             # NV+AMD GPUs, and Intel XPUs
diff --git a/roll/third_party/vllm/vllm_0_10_2/v1/llm_engine.py b/roll/third_party/vllm/vllm_0_10_2/v1/llm_engine.py
deleted file mode 100644
index 8b72e6522..000000000
--- a/roll/third_party/vllm/vllm_0_10_2/v1/llm_engine.py
+++ /dev/null
@@ -1,235 +0,0 @@
-import os
-import time
-from collections.abc import Mapping, Sequence
-from copy import copy
-from typing import Any, Optional, Union
-
-from vllm import envs
-from vllm.config import VllmConfig
-from vllm.usage.usage_lib import UsageContext
-from vllm.v1.metrics.loggers import (PrometheusStatLogger, StatLoggerBase,
-                                     StatLoggerFactory)
-from vllm.v1.engine.processor import Processor
-from vllm.config import VllmConfig
-from vllm.inputs import ProcessorInputs, PromptType, SingletonInputs
-from vllm.multimodal.inputs import MultiModalFeatureSpec, MultiModalUUIDDict
-from vllm.inputs.parse import split_enc_dec_inputs
-from vllm.outputs import PoolingRequestOutput, RequestOutput
-from vllm.lora.request import LoRARequest
-from vllm.multimodal import MultiModalKwargs
-from vllm.multimodal.inputs import PlaceholderRange
-from vllm.pooling_params import PoolingParams
-from vllm.sampling_params import SamplingParams
-from vllm.v1.engine import EngineCoreRequest
-from vllm.v1.engine import EngineCoreOutputs
-from vllm.v1.engine.core_client import SyncMPClient
-from vllm.v1.executor.abstract import Executor
-from vllm.v1.engine.llm_engine import LLMEngine
-from vllm.v1.engine.parallel_sampling import ParentRequest
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-def custom_process_inputs(
-    self,
-    request_id: str,
-    prompt: ProcessorInputs,
-    params: Union[SamplingParams, PoolingParams],
-    arrival_time: Optional[float] = None,
-    lora_request: Optional[LoRARequest] = None,
-    trace_headers: Optional[Mapping[str, str]] = None,
-    priority: int = 0,
-    data_parallel_rank: Optional[int] = None,
-) -> tuple[Optional[str], EngineCoreRequest]:
-
-    # TODO(woosuk): Support pooling models.
-    self._validate_lora(lora_request)
-    self._validate_params(params, lora_request)
-
-    data_parallel_size = self.vllm_config.parallel_config.data_parallel_size
-    if data_parallel_rank is not None and not (0 <= data_parallel_rank <
-                                               data_parallel_size):
-        raise ValueError(f"data_parallel_rank {data_parallel_rank} "
-                         f"is out of range [0, {data_parallel_size}).")
-
-    assert arrival_time is not None
-
-    processed_inputs: ProcessorInputs = prompt
-    eos_token_id = self.input_preprocessor.get_eos_token_id(lora_request)
-
-    self._validate_model_inputs(processed_inputs, lora_request)
-
-    encoder_inputs, decoder_inputs = split_enc_dec_inputs(processed_inputs)
-
-    sampling_params = None
-    pooling_params = None
-    if isinstance(params, SamplingParams):
-        # TODO: can we avoid cloning here in multiproc case?
-        sampling_params = params.clone()
-        # If unset max tokens, then generate up to the max_model_len.
-        if sampling_params.max_tokens is None:
-            sampling_params.max_tokens = (
-                self.model_config.max_model_len -
-                len(decoder_inputs["prompt_token_ids"]))
-        sampling_params.update_from_generation_config(
-            self.generation_config_fields, eos_token_id)
-        if self.tokenizer is not None:
-            sampling_params.update_from_tokenizer(
-                self.tokenizer.get_lora_tokenizer(lora_request))
-    else:
-        pooling_params = params.clone()
-
-    # Multimodal related.
-    mm_features: Optional[list[MultiModalFeatureSpec]] = None
-
-    if decoder_inputs["type"] == "multimodal":
-        decoder_mm_inputs = decoder_inputs["mm_kwargs"]
-        decoder_mm_positions = decoder_inputs["mm_placeholders"]
-        decoder_mm_hashes = decoder_inputs["mm_hashes"]
-
-        # Merge and flatten multimodal placeholders, hashes and inputs
-        # from dictionaries to lists, and sort them by each item's position
-        # in the input sequence.
-        sorted_mm_idxs = argsort_mm_positions(decoder_mm_positions)
-
-        mm_features = []
-        for modality, idx in sorted_mm_idxs:
-            mm_features.append(
-                MultiModalFeatureSpec(
-                    data=decoder_mm_inputs[modality][idx],
-                    modality=modality,
-                    identifier=decoder_mm_hashes[modality][idx],
-                    mm_position=decoder_mm_positions[modality][idx]))
-
-    return decoder_inputs.get("prompt"), EngineCoreRequest(
-        request_id=request_id,
-        prompt_token_ids=decoder_inputs["prompt_token_ids"],
-        mm_features=mm_features,
-        sampling_params=sampling_params,
-        pooling_params=pooling_params,
-        eos_token_id=eos_token_id,
-        arrival_time=arrival_time,
-        lora_request=lora_request,
-        cache_salt=decoder_inputs.get("cache_salt"),
-        priority=priority,
-        data_parallel_rank=data_parallel_rank,
-        trace_headers=trace_headers,
-    )
-
-Processor.custom_process_inputs = custom_process_inputs
-
-def get_output_nowait(self) -> EngineCoreOutputs:
-    """
-    Only get an item if one is immediately available. Otherwise
-    raise the queue.Empty exception.
-    """
-    # If an exception arises in process_outputs_socket task,
-    # it is forwarded to the outputs_queue so we can raise it
-    # from this (run_output_handler) task to shut down the server.
-    outputs = self.outputs_queue.get_nowait()
-    if isinstance(outputs, Exception):
-        raise self._format_exception(outputs) from None
-    if outputs.wave_complete is not None:
-        self.engines_running = False
-    return outputs
-
-# Function 'step' of vllm v1 and v0 engine has different semantic.
-# Function vllm.v1.engine.LLMEngine.step is blocking but that of v0 is not.
-# This will cause deadlock when calling roll.third_party.vllm.vllm_0_8_4.Llm084.fetch_output
-# inside VllmStrategy if set generate_opt_level to 1.
-SyncMPClient.get_output_nowait = get_output_nowait
-
-class LLMEngine0102(LLMEngine):
-
-    @classmethod
-    def from_vllm_config(
-        cls,
-        vllm_config: VllmConfig,
-        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
-        stat_loggers: Optional[list[StatLoggerFactory]] = None,
-        disable_log_stats: bool = False,
-    ) -> "LLMEngine":
-        parallel_config = vllm_config.parallel_config
-
-        executor_class = Executor.get_class(vllm_config)
-        if parallel_config.distributed_executor_backend == "ray":
-            from roll.third_party.vllm.vllm_0_10_0.v1.ray_distributed_executor import (
-                CustomRayDistributedExecutor as V1CustomeRayDistributedExecutor)
-            executor_class = V1CustomeRayDistributedExecutor
-
-        # Default fork method is not compatible with ScaleAligner.
-        os.environ['VLLM_WORKER_MULTIPROC_METHOD'] = 'spawn'
-
-        logger.info(f"Using executor_class: {executor_class}")
-        logger.info(f"Using worker cls: {parallel_config.worker_cls}")
-        return cls(vllm_config=vllm_config,
-                   executor_class=executor_class,
-                   log_stats=(not disable_log_stats),
-                   usage_context=usage_context,
-                   stat_loggers=stat_loggers,
-                   multiprocess_mode=envs.VLLM_ENABLE_V1_MULTIPROCESSING)
-
-    def _add_processed_request(
-        self,
-        request_id: str,
-        processed_inputs: ProcessorInputs,
-        params: Union[SamplingParams, PoolingParams],
-        arrival_time: float,
-        lora_request: Optional[LoRARequest],
-        trace_headers: Optional[Mapping[str, str]] = None,
-        priority: int = 0,
-    ) -> None:
-        prompt_str, request = self.processor.custom_process_inputs(request_id, processed_inputs, params,
-                                                arrival_time, lora_request,
-                                                trace_headers,
-                                                priority)
-
-        n = params.n if isinstance(params, SamplingParams) else 1
-
-        if n == 1:
-            # Make a new RequestState and queue.
-            self.output_processor.add_request(request, prompt_str, None, 0)
-            # Add the request to EngineCore.
-            self.engine_core.add_request(request)
-            return
-
-        # Fan out child requests (for n>1).
-        parent_req = ParentRequest(request_id, params)
-        for idx in range(n):
-            request_id, params = parent_req.get_child_info(idx)
-            child_request = request if idx == n - 1 else copy(request)
-            child_request.request_id = request_id
-            child_request.sampling_params = params
-
-            # Make a new RequestState and queue.
-            self.output_processor.add_request(child_request,prompt_str, parent_req, idx)
-            # Add the request to EngineCore.
-            self.engine_core.add_request(child_request)
-
-    def step_nowait(self) -> Union[list[RequestOutput], list[PoolingRequestOutput]]:
-
-        if self.should_execute_dummy_batch:
-            self.should_execute_dummy_batch = False
-            self.engine_core.execute_dummy_batch()
-            return []
-
-        # 1) Get EngineCoreOutput from the EngineCore.
-        outputs = self.engine_core.get_output_nowait()
-
-        # 2) Process EngineCoreOutputs.
-        iteration_stats = IterationStats() if self.log_stats else None
-        processed_outputs = self.output_processor.process_outputs(
-            outputs.outputs,
-            engine_core_timestamp=outputs.timestamp,
-            iteration_stats=iteration_stats)
-
-        # 3) Abort any reqs that finished due to stop strings.
-        self.engine_core.abort_requests(processed_outputs.reqs_to_abort)
-
-        # 4) Record stats
-        if self.stat_logger is not None:
-            assert outputs.scheduler_stats is not None
-            self.stat_logger.record(scheduler_stats=outputs.scheduler_stats,
-                                    iteration_stats=iteration_stats)
-
-        return processed_outputs.request_outputs
diff --git a/roll/third_party/vllm/vllm_0_10_2/v1/ray_distributed_executor.py b/roll/third_party/vllm/vllm_0_10_2/v1/ray_distributed_executor.py
index 9897230c3..60da6dd0c 100644
--- a/roll/third_party/vllm/vllm_0_10_2/v1/ray_distributed_executor.py
+++ b/roll/third_party/vllm/vllm_0_10_2/v1/ray_distributed_executor.py
@@ -1,6 +1,6 @@
 from vllm.v1.executor.ray_distributed_executor import RayDistributedExecutor
 
-from roll.third_party.vllm.vllm_0_10_0.ray_distributed_executor import ( 
+from roll.third_party.vllm.vllm_0_10_2.ray_distributed_executor import (
     CustomRayDistributedExecutor as CustomRayDistributedExecutorV0)
 
 # Force RayDistributedExecutor to come before CustomRayDistributedExecutorV0
diff --git a/roll/third_party/vllm/vllm_0_10_2/v1/worker.py b/roll/third_party/vllm/vllm_0_10_2/v1/worker.py
deleted file mode 100644
index 3b7a467cc..000000000
--- a/roll/third_party/vllm/vllm_0_10_2/v1/worker.py
+++ /dev/null
@@ -1,52 +0,0 @@
-import gc
-import time
-from collections import OrderedDict
-from typing import Optional
-
-import torch
-from vllm.device_allocator.cumem import CuMemAllocator
-from vllm.v1.worker.gpu_worker import Worker
-
-from roll.third_party.vllm.vllm_utils import TensorLoRARequest, patch_vllm_lora_manager
-from roll.third_party.vllm.worker_helper import WorkerHelper
-from roll.utils.logging import get_logger
-from roll.utils.send_recv_utils import RecvBucketManager
-from roll.platforms import current_platform
-
-
-logger = get_logger()
-
-
-class Worker0102(WorkerHelper, Worker):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.lora_params = OrderedDict()
-        patch_vllm_lora_manager()
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker, is_lora):
-        weight_dict = weight
-        weight = torch.tensor(weight_dict["weight"], dtype=weight_dict["dtype"]).to(current_platform.device_type)
-        super().update_parameter(parameter_name, weight, ranks_in_worker, is_lora)
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        RecvBucketManager.dict_to_meta(meta_infos)
-        super().broadcast_bucket(src_pp_rank, meta_infos, bucket_size)
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        RecvBucketManager.dict_to_meta(meta_infos)
-        buffer = torch.tensor(buffer, dtype=torch.int8, device=current_platform.device_type)
-        super().update_parameter_in_bucket(meta_infos, buffer, ranks_in_worker)
-
-    def add_lora(self, peft_config) -> bool:
-        lora_int_id = int(time.time_ns() % 0x7FFFFFFF)
-        lora_request = TensorLoRARequest(
-            lora_name=f"{lora_int_id}",
-            lora_int_id=lora_int_id,
-            lora_path="dummy_lora_path",
-            peft_config=peft_config,
-            lora_tensors=self.lora_params,
-        )
-        del self.lora_params
-        self.lora_params = OrderedDict()
-        super().reload_model()
-        return self.model_runner.add_lora(lora_request)
diff --git a/roll/third_party/vllm/vllm_0_10_2/worker.py b/roll/third_party/vllm/vllm_0_10_2/worker.py
deleted file mode 100644
index aa4e52155..000000000
--- a/roll/third_party/vllm/vllm_0_10_2/worker.py
+++ /dev/null
@@ -1,15 +0,0 @@
-import gc
-from typing import Optional
-
-import torch
-from vllm.worker.worker import Worker
-
-from roll.third_party.vllm.worker_helper import WorkerHelper
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-
-class Worker0102(WorkerHelper, Worker):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
diff --git a/roll/third_party/vllm/vllm_0_11_0/llm.py b/roll/third_party/vllm/vllm_0_11_0/llm.py
deleted file mode 100644
index e9a117880..000000000
--- a/roll/third_party/vllm/vllm_0_11_0/llm.py
+++ /dev/null
@@ -1,307 +0,0 @@
-import os
-import queue
-import time
-from typing import Any, Dict, Iterable, List, Optional, Union
-
-import cloudpickle
-import torch
-from pydantic import ValidationError
-from vllm import LLM, EngineArgs, SamplingParams, envs
-from vllm.config import (
-    CompilationConfig,
-    StructuredOutputsConfig,
-    is_init_field,
-)
-
-try:
-    # 0.11.1rc2.dev0+gc3a722fcb.d20251021 has import diff
-    from vllm.config.model import ModelDType, TokenizerMode
-except ImportError:
-    from vllm.config import ModelDType, TokenizerMode
-
-from vllm.model_executor.layers.quantization import QuantizationMethods
-from vllm.engine.arg_utils import (ConvertOption, EngineArgs, HfOverrides,
-                                   PoolerConfig, RunnerOption)
-from vllm.v1.sample.logits_processor import LogitsProcessor
-from vllm.entrypoints.utils import (log_non_default_args)
-from vllm.lora.request import LoRARequest
-from vllm.usage.usage_lib import UsageContext
-from vllm.utils import Counter
-from vllm.plugins.io_processors import get_io_processor
-from vllm.envs import get_default_cache_root
-
-from roll.third_party.vllm.vllm_0_11_0.llm_engine import LLMEngine0110
-from roll.utils.send_recv_utils import SendBucketManager
-from roll.utils.logging import get_logger
-from roll.platforms import current_platform
-
-logger = get_logger()
-
-class Llm0110(LLM):
-
-    def __init__(
-        self,
-        resource_placement_groups: List[Dict],
-        model: str,
-        *,
-        runner: RunnerOption = "auto",
-        convert: ConvertOption = "auto",
-        tokenizer: Optional[str] = None,
-        tokenizer_mode: TokenizerMode = "auto",
-        skip_tokenizer_init: bool = False,
-        trust_remote_code: bool = False,
-        allowed_local_media_path: str = "",
-        allowed_media_domains: Optional[list[str]] = None,
-        tensor_parallel_size: int = 1,
-        dtype: ModelDType = "auto",
-        quantization: Optional[QuantizationMethods] = None,
-        revision: Optional[str] = None,
-        tokenizer_revision: Optional[str] = None,
-        seed: Optional[int] = None,
-        gpu_memory_utilization: float = 0.9,
-        swap_space: float = 4,
-        cpu_offload_gb: float = 0,
-        enforce_eager: bool = False,
-        disable_custom_all_reduce: bool = False,
-        hf_token: Optional[Union[bool, str]] = None,
-        hf_overrides: Optional[HfOverrides] = None,
-        mm_processor_kwargs: Optional[dict[str, Any]] = None,
-        pooler_config: Optional[PoolerConfig] = None,
-        override_pooler_config: Optional[PoolerConfig] = None,
-        structured_outputs_config: Optional[Union[dict[
-            str, Any], StructuredOutputsConfig]] = None,
-        kv_cache_memory_bytes: Optional[int] = None,
-        compilation_config: Optional[Union[int, dict[str, Any],
-                                           CompilationConfig]] = None,
-        logits_processors: Optional[list[Union[str,
-                                               type[LogitsProcessor]]]] = None,
-        **kwargs: Any,
-    ) -> None:
-        """LLM constructor."""
-        # setup envs for vllm
-        # https://github.com/vllm-project/vllm/pull/14189/files
-        # TODO do not override other options in PYTORCH_CUDA_ALLOC_CONF
-        os.environ["PYTORCH_CUDA_ALLOC_CONF"] = ""
-        # torch.cuda may already init, explicitly disable expandable_segments
-        # here (only matters when VLLM_USE_RAY_SPMD_WORKER=0)
-        current_platform.set_allocator_settings("expandable_segments:False")
-
-        os.environ["VLLM_CACHE_ROOT"] = os.path.join(
-            get_default_cache_root(), "vllm", os.environ.get("WORKER_NAME", ""))
-
-        if "disable_log_stats" not in kwargs:
-            kwargs["disable_log_stats"] = True
-
-        if "worker_cls" in kwargs:
-            worker_cls = kwargs["worker_cls"]
-            # if the worker_cls is not qualified string name,
-            # we serialize it using cloudpickle to avoid pickling issues
-            if isinstance(worker_cls, type):
-                kwargs["worker_cls"] = cloudpickle.dumps(worker_cls)
-
-        if "kv_transfer_config" in kwargs and isinstance(
-                kwargs["kv_transfer_config"], dict):
-            from vllm.config.kv_transfer import KVTransferConfig
-            raw_config_dict = kwargs["kv_transfer_config"]
-            try:
-                kwargs["kv_transfer_config"] = KVTransferConfig(
-                    **raw_config_dict)
-            except ValidationError as e:
-                logger.error(
-                    "Failed to convert 'kv_transfer_config' dict to "
-                    "KVTransferConfig object. Dict: %s. Error: %s",
-                    raw_config_dict, e)
-                # Consider re-raising a more specific vLLM error or ValueError
-                # to provide better context to the user.
-                raise ValueError(
-                    f"Invalid 'kv_transfer_config' provided: {e}") from e
-
-        if hf_overrides is None:
-            hf_overrides = {}
-
-        if compilation_config is not None:
-            if isinstance(compilation_config, int):
-                compilation_config_instance = CompilationConfig(
-                    level=compilation_config)
-            elif isinstance(compilation_config, dict):
-                predicate = lambda x: is_init_field(CompilationConfig, x[0])
-                compilation_config_instance = CompilationConfig(
-                    **dict(filter(predicate, compilation_config.items())))
-            else:
-                compilation_config_instance = compilation_config
-        else:
-            compilation_config_instance = CompilationConfig()
-
-        if structured_outputs_config is not None:
-            if isinstance(structured_outputs_config, dict):
-                structured_outputs_instance = StructuredOutputsConfig(
-                    **{
-                        k: v
-                        for k, v in structured_outputs_config.items()
-                        if is_init_field(StructuredOutputsConfig, k)
-                    })
-            else:
-                structured_outputs_instance = structured_outputs_config
-        else:
-            structured_outputs_instance = StructuredOutputsConfig()
-
-        kwargs["enable_sleep_mode"] = True
-        engine_args = EngineArgs(
-            model=model,
-            runner=runner,
-            convert=convert,
-            tokenizer=tokenizer,
-            tokenizer_mode=tokenizer_mode,
-            skip_tokenizer_init=skip_tokenizer_init,
-            trust_remote_code=trust_remote_code,
-            allowed_local_media_path=allowed_local_media_path,
-            allowed_media_domains=allowed_media_domains,
-            tensor_parallel_size=tensor_parallel_size,
-            dtype=dtype,
-            quantization=quantization,
-            revision=revision,
-            tokenizer_revision=tokenizer_revision,
-            seed=seed,
-            gpu_memory_utilization=gpu_memory_utilization,
-            kv_cache_memory_bytes=kv_cache_memory_bytes,
-            swap_space=swap_space,
-            cpu_offload_gb=cpu_offload_gb,
-            enforce_eager=enforce_eager,
-            disable_custom_all_reduce=disable_custom_all_reduce,
-            hf_token=hf_token,
-            hf_overrides=hf_overrides,
-            mm_processor_kwargs=mm_processor_kwargs,
-            pooler_config=pooler_config,
-            override_pooler_config=override_pooler_config,
-            structured_outputs_config=structured_outputs_instance,
-            compilation_config=compilation_config_instance,
-            logits_processors=logits_processors,
-            **kwargs,
-        )
-        engine_args.resource_placement_groups = resource_placement_groups
-
-        log_non_default_args(engine_args)
-
-        # Create the Engine (autoselects V0 vs V1)
-        self.llm_engine = LLMEngine0110.from_engine_args(
-            engine_args=engine_args, usage_context=UsageContext.LLM_CLASS)
-        self.engine_class = type(self.llm_engine)
-
-        self.request_counter = Counter()
-        self.default_sampling_params: Union[dict[str, Any], None] = None
-
-        supported_tasks = self.llm_engine.get_supported_tasks()  # type: ignore
-
-        logger.info("Supported_tasks: %s", supported_tasks)
-
-        self.supported_tasks = supported_tasks
-
-        # Load the Input/Output processor plugin if any
-        self.model_config = self.llm_engine.model_config
-        io_processor_plugin = self.llm_engine.model_config.io_processor_plugin
-        self.io_processor = get_io_processor(self.llm_engine.vllm_config,
-                                             io_processor_plugin)
-
-    def load_states(self):
-        self.collective_rpc(method="load_states")
-
-    def offload_states(self, level=1):
-        self.reset_prefix_cache()
-        self.collective_rpc(method="offload_states", args=(level,))
-
-    def fetch_output(self):
-        # simulating non blocking semantic when using v1 engine
-        if envs.VLLM_USE_V1:
-            try:
-                request_outputs = self.llm_engine.step_nowait()
-            except queue.Empty:
-                request_outputs = []
-        else:
-            request_outputs = self.llm_engine.step()
-
-        return request_outputs
-
-    def get_num_waiting(self):
-        stats = self.llm_engine._get_stats(scheduler_outputs=None)
-        return stats.num_waiting_sys
-
-    def add_requests(
-        self,
-        prompt_token_ids: List[List[int]],
-        request_ids: List[int] | None,
-        sampling_params: SamplingParams,
-        multi_modal_data: List[int] | None,
-        lora_requests: List[LoRARequest] | None,
-    ):
-        assert len(prompt_token_ids) == len(request_ids)
-        if multi_modal_data:
-            assert len(multi_modal_data) == len(request_ids)
-        for i, (token_ids, request_id)in enumerate(zip(prompt_token_ids, request_ids)):
-            if request_id is None:
-                request_id = next(self.request_counter)
-            lora_request = lora_requests[i] if lora_requests is not None else None
-            if multi_modal_data:
-                # in v1, input_preprocessor is in engine.processor
-                processor = getattr(self.llm_engine, "processor", None)
-                input_preprocessor = processor.input_preprocessor if processor else self.llm_engine.input_preprocessor
-                preprocessed_inputs = input_preprocessor.preprocess(
-                    prompt={"prompt_token_ids": token_ids, "multi_modal_data": multi_modal_data[i]},
-                    lora_request=lora_request,
-                )
-                # in v1, engine does not use a input_processor
-                processed_inputs = (
-                    self.llm_engine.input_processor(preprocessed_inputs)
-                    if hasattr(self.llm_engine, "input_processor")
-                    else preprocessed_inputs
-                )
-            else:
-                processed_inputs = {
-                    "type": "token",
-                    "prompt_token_ids": token_ids
-                }
-            self.llm_engine._add_processed_request(
-                request_id=request_id,
-                processed_inputs=processed_inputs,
-                params=sampling_params,
-                arrival_time=time.time(),
-                lora_request=lora_request,
-            )
-
-    def abort_request(self, request_id: Union[str, Iterable[str]]) -> None:
-        self.llm_engine.abort_request(request_id)
-
-    def clear_unfinished_requests(self):
-        self._run_engine(use_tqdm=True)
-
-    # 参数同步接口
-    def setup_collective_group(self, *args, **kwargs):
-        self.collective_rpc(method="setup_collective_group", args=args, kwargs=kwargs)
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        if envs.VLLM_USE_V1:
-            SendBucketManager.meta_to_dict(meta_infos)
-        self.collective_rpc(method="broadcast_bucket", args=(src_pp_rank, meta_infos, bucket_size))
-
-    def broadcast_parameter(self, *args, **kwargs):
-        self.collective_rpc(method="broadcast_parameter", args=args, kwargs=kwargs)
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker, is_lora):
-        if envs.VLLM_USE_V1:
-            weight_dict = {
-                "dtype": weight.dtype,
-                "weight": weight.cpu().tolist()
-            }
-        self.collective_rpc(method="update_parameter", args=(parameter_name, weight_dict, ranks_in_worker, is_lora))
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        if envs.VLLM_USE_V1:
-            SendBucketManager.meta_to_dict(meta_infos)
-            # vllm 084 does not support serialization of torch.Tensor(GPU), must use custom
-            # numpy array encoder or use pickle.
-            # Can not convert to numpy array here, because of bug in encoder/decoder of vllm 084.
-            # Newer version of vllm support efficient serilization of torch.Tensor.
-            buffer = buffer.cpu().tolist()
-        self.collective_rpc(method="update_parameter_in_bucket", args=(meta_infos, buffer, ranks_in_worker))
-
-    def add_lora(self, *args, **kwargs):
-        self.collective_rpc(method="add_lora", args=args, kwargs=kwargs)
diff --git a/roll/third_party/vllm/vllm_0_11_0/llm_engine.py b/roll/third_party/vllm/vllm_0_11_0/llm_engine.py
deleted file mode 100644
index bd573ccea..000000000
--- a/roll/third_party/vllm/vllm_0_11_0/llm_engine.py
+++ /dev/null
@@ -1,87 +0,0 @@
-from typing import Dict, Optional, Type
-
-from vllm import LLMEngine, EngineArgs, envs
-from vllm.config import VllmConfig
-from vllm.usage.usage_lib import UsageContext
-from vllm.engine.metrics_types import StatLoggerBase
-
-import roll.third_party.vllm.fp8 as fp8
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-
-class LLMEngine0110(LLMEngine):
-
-    @classmethod
-    def from_vllm_config(
-        cls,
-        vllm_config: VllmConfig,
-        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
-        stat_loggers: Optional[Dict[str, StatLoggerBase]] = None,
-        disable_log_stats: bool = False,
-    ) -> "LLMEngine":
-        parallel_config = vllm_config.parallel_config
-
-        executor_class = cls._get_executor_cls(vllm_config)
-        if parallel_config.distributed_executor_backend == "ray":
-            from roll.third_party.vllm.vllm_0_10_0.ray_distributed_executor import (
-                CustomRayDistributedExecutor as V0CustomRayDistributedExecutor)
-            executor_class = V0CustomRayDistributedExecutor
-
-        logger.info(f"Using executor_class: {executor_class}")
-        logger.info(f"Using worker cls: {parallel_config.worker_cls}")
-        return cls(
-            vllm_config=vllm_config,
-            executor_class=executor_class,
-            log_stats=(not disable_log_stats),
-            usage_context=usage_context,
-            stat_loggers=stat_loggers,
-        )
-
-    @classmethod
-    def from_engine_args(
-        cls,
-        engine_args: EngineArgs,
-        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
-        stat_loggers: Optional[Dict[str, StatLoggerBase]] = None,
-    ) -> "LLMEngine":
-        """Creates an LLM engine from the engine arguments."""
-        # Create the engine configs.
-        vllm_config = engine_args.create_engine_config(usage_context)
-        parallel_config = vllm_config.parallel_config
-
-        resource_placement_groups = getattr(engine_args, "resource_placement_groups")
-        assert len(resource_placement_groups) == parallel_config.world_size
-        parallel_config.placement_group = resource_placement_groups
-
-        # change worker cls to custom
-        cls.update_worker_cls_config(vllm_config)
-
-        fp8.update_quant_config(vllm_config)
-
-        engine_cls = cls
-        if envs.VLLM_USE_V1:
-            from roll.third_party.vllm.vllm_0_11_0.v1.llm_engine import (
-                LLMEngine0110 as V1LLMEngine0110)
-            engine_cls = V1LLMEngine0110
-
-        return engine_cls.from_vllm_config(
-            vllm_config=vllm_config,
-            usage_context=usage_context,
-            stat_loggers=stat_loggers,
-            disable_log_stats=engine_args.disable_log_stats,
-        )
-
-    @classmethod
-    def update_worker_cls_config(cls, vllm_config: VllmConfig) -> None:
-        parallel_config = vllm_config.parallel_config
-
-        assert parallel_config.worker_cls != "auto"
-        if vllm_config.speculative_config:
-            pass
-        else:
-            if envs.VLLM_USE_V1:
-                parallel_config.worker_cls = "roll.third_party.vllm.vllm_0_11_0.v1.worker.Worker0110"
-            else:
-                parallel_config.worker_cls = "roll.third_party.vllm.vllm_0_11_0.worker.Worker0110"
diff --git a/roll/third_party/vllm/vllm_0_11_0/ray_distributed_executor.py b/roll/third_party/vllm/vllm_0_11_0/ray_distributed_executor.py
index 1b9288825..608f7f460 100644
--- a/roll/third_party/vllm/vllm_0_11_0/ray_distributed_executor.py
+++ b/roll/third_party/vllm/vllm_0_11_0/ray_distributed_executor.py
@@ -109,29 +109,18 @@ def _init_workers_ray(self, placement_group: "PlacementGroup",
             env_vars = {}
             env_vars.update(roll_current_platform.get_custom_env_vars())
             env_vars.update(roll_current_platform.get_vllm_run_time_env_vars(gpu_rank))
+            env_vars["FLASHINFER_WORKSPACE_BASE"] = f"{os.environ['FLASHINFER_WORKSPACE_BASE']}_{rank}"
             runtime_env = RuntimeEnv(env_vars=env_vars)
             assert current_platform.ray_device_key == "GPU"
             # NV+AMD GPUs, and Intel XPUs
-            if current_platform.ray_device_key == "GPU":
-                worker = ray.remote(
-                    num_cpus=0,
-                    num_gpus=0.01,
-                    runtime_env=runtime_env,
-                    scheduling_strategy=PlacementGroupSchedulingStrategy(placement_group=pg, ),
-                    **ray_remote_kwargs,
-                )(RayWorkerWrapper).remote(vllm_config=self.vllm_config,
-                                            rpc_rank=rank)
-            else:
-                worker = ray.remote(
-                    num_cpus=0,
-                    num_gpus=0,
-                    runtime_env=runtime_env,
-                    resources={current_platform.ray_device_key: 0.01},
-                    scheduling_strategy=PlacementGroupSchedulingStrategy(placement_group=pg, ),
-                    **ray_remote_kwargs,
-                )(RayWorkerWrapper).remote(vllm_config=self.vllm_config,
-                                           rpc_rank=rank)
-
+            worker = ray.remote(
+                num_cpus=0,
+                num_gpus=0.01,
+                runtime_env=runtime_env,
+                scheduling_strategy=PlacementGroupSchedulingStrategy(placement_group=pg, ),
+                **ray_remote_kwargs,
+            )(RayWorkerWrapper).remote(vllm_config=self.vllm_config,
+                                       rpc_rank=rank)
             worker_metadata.append(
                 RayWorkerMetaData(worker=worker, created_rank=rank))
 
diff --git a/roll/third_party/vllm/vllm_0_11_0/v1/llm_engine.py b/roll/third_party/vllm/vllm_0_11_0/v1/llm_engine.py
deleted file mode 100644
index 8a0d95c28..000000000
--- a/roll/third_party/vllm/vllm_0_11_0/v1/llm_engine.py
+++ /dev/null
@@ -1,233 +0,0 @@
-import os
-import time
-from collections.abc import Mapping, Sequence
-from copy import copy
-from typing import Any, Optional, Union
-
-from vllm import envs
-from vllm.config import VllmConfig
-from vllm.usage.usage_lib import UsageContext
-from vllm.v1.metrics.loggers import StatLoggerFactory
-from vllm.v1.engine.processor import Processor
-from vllm.config import VllmConfig
-from vllm.inputs import ProcessorInputs, PromptType, SingletonInputs
-from vllm.multimodal.inputs import MultiModalFeatureSpec
-from vllm.inputs.parse import split_enc_dec_inputs
-from vllm.outputs import PoolingRequestOutput, RequestOutput
-from vllm.lora.request import LoRARequest
-from vllm.multimodal.utils import argsort_mm_positions
-from vllm.pooling_params import PoolingParams
-from vllm.sampling_params import SamplingParams
-from vllm.v1.engine import EngineCoreRequest
-from vllm.v1.engine import EngineCoreOutputs
-from vllm.v1.engine.core_client import SyncMPClient
-from vllm.v1.executor.abstract import Executor
-from vllm.v1.engine.llm_engine import LLMEngine
-from vllm.v1.engine.parallel_sampling import ParentRequest
-from vllm.v1.metrics.stats import IterationStats
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-def custom_process_inputs(
-    self,
-    request_id: str,
-    prompt: ProcessorInputs,
-    params: Union[SamplingParams, PoolingParams],
-    arrival_time: Optional[float] = None,
-    lora_request: Optional[LoRARequest] = None,
-    trace_headers: Optional[Mapping[str, str]] = None,
-    priority: int = 0,
-    data_parallel_rank: Optional[int] = None,
-) -> tuple[Optional[str], EngineCoreRequest]:
-
-    # TODO(woosuk): Support pooling models.
-    self._validate_lora(lora_request)
-    self._validate_params(params)
-
-    data_parallel_size = self.vllm_config.parallel_config.data_parallel_size
-    if data_parallel_rank is not None and not (0 <= data_parallel_rank <
-                                               data_parallel_size):
-        raise ValueError(f"data_parallel_rank {data_parallel_rank} "
-                         f"is out of range [0, {data_parallel_size}).")
-
-    assert arrival_time is not None
-    processed_inputs: ProcessorInputs = prompt
-
-    eos_token_id = self.input_preprocessor.get_eos_token_id()
-
-    encoder_inputs, decoder_inputs = split_enc_dec_inputs(processed_inputs)
-    self._validate_model_inputs(encoder_inputs, decoder_inputs)
-
-    sampling_params = None
-    pooling_params = None
-    if isinstance(params, SamplingParams):
-        # TODO: can we avoid cloning here in multiproc case?
-        sampling_params = params.clone()
-        # If unset max tokens, then generate up to the max_model_len.
-        if sampling_params.max_tokens is None:
-            sampling_params.max_tokens = (
-                self.model_config.max_model_len -
-                len(decoder_inputs["prompt_token_ids"]))
-        sampling_params.update_from_generation_config(
-            self.generation_config_fields, eos_token_id)
-        if self.tokenizer is not None:
-            sampling_params.update_from_tokenizer(self.tokenizer)
-    else:
-        pooling_params = params.clone()
-
-    # Multimodal related.
-    mm_features: Optional[list[MultiModalFeatureSpec]] = None
-
-    if decoder_inputs["type"] == "multimodal":
-        decoder_mm_inputs = decoder_inputs["mm_kwargs"]
-        decoder_mm_positions = decoder_inputs["mm_placeholders"]
-        decoder_mm_hashes = decoder_inputs["mm_hashes"]
-
-        # Merge and flatten multimodal placeholders, hashes and inputs
-        # from dictionaries to lists, and sort them by each item's position
-        # in the input sequence.
-        sorted_mm_idxs = argsort_mm_positions(decoder_mm_positions)
-
-        mm_features = []
-        for modality, idx in sorted_mm_idxs:
-            mm_features.append(
-                MultiModalFeatureSpec(
-                    data=decoder_mm_inputs[modality][idx],
-                    modality=modality,
-                    identifier=decoder_mm_hashes[modality][idx],
-                    mm_position=decoder_mm_positions[modality][idx]))
-
-    return decoder_inputs.get("prompt"), EngineCoreRequest(
-        request_id=request_id,
-        prompt_token_ids=decoder_inputs["prompt_token_ids"],
-        mm_features=mm_features,
-        sampling_params=sampling_params,
-        pooling_params=pooling_params,
-        eos_token_id=eos_token_id,
-        arrival_time=arrival_time,
-        lora_request=lora_request,
-        cache_salt=decoder_inputs.get("cache_salt"),
-        priority=priority,
-        data_parallel_rank=data_parallel_rank,
-        trace_headers=trace_headers,
-    )
-
-Processor.custom_process_inputs = custom_process_inputs
-
-def get_output_nowait(self) -> EngineCoreOutputs:
-    """
-    Only get an item if one is immediately available. Otherwise
-    raise the queue.Empty exception.
-    """
-    # If an exception arises in process_outputs_socket task,
-    # it is forwarded to the outputs_queue so we can raise it
-    # from this (run_output_handler) task to shut down the server.
-    outputs = self.outputs_queue.get_nowait()
-    if isinstance(outputs, Exception):
-        raise self._format_exception(outputs) from None
-    if outputs.wave_complete is not None:
-        self.engines_running = False
-    return outputs
-
-# Function 'step' of vllm v1 and v0 engine has different semantic.
-# Function vllm.v1.engine.LLMEngine.step is blocking but that of v0 is not.
-# This will cause deadlock when calling roll.third_party.vllm.vllm_0_8_4.Llm084.fetch_output
-# inside VllmStrategy if set generate_opt_level to 1.
-SyncMPClient.get_output_nowait = get_output_nowait
-
-class LLMEngine0110(LLMEngine):
-
-    @classmethod
-    def from_vllm_config(
-        cls,
-        vllm_config: VllmConfig,
-        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
-        stat_loggers: Optional[list[StatLoggerFactory]] = None,
-        disable_log_stats: bool = False,
-    ) -> "LLMEngine":
-        parallel_config = vllm_config.parallel_config
-
-        executor_class = Executor.get_class(vllm_config)
-        if parallel_config.distributed_executor_backend == "ray":
-            from roll.third_party.vllm.vllm_0_11_0.v1.ray_distributed_executor import (
-                CustomRayDistributedExecutor as V1CustomeRayDistributedExecutor)
-            executor_class = V1CustomeRayDistributedExecutor
-
-        # Default fork method is not compatible with ScaleAligner.
-        os.environ['VLLM_WORKER_MULTIPROC_METHOD'] = 'spawn'
-
-        logger.info(f"Using executor_class: {executor_class}")
-        logger.info(f"Using worker cls: {parallel_config.worker_cls}")
-        return cls(vllm_config=vllm_config,
-                   executor_class=executor_class,
-                   log_stats=(not disable_log_stats),
-                   usage_context=usage_context,
-                   stat_loggers=stat_loggers,
-                   multiprocess_mode=envs.VLLM_ENABLE_V1_MULTIPROCESSING)
-
-    def _add_processed_request(
-        self,
-        request_id: str,
-        processed_inputs: ProcessorInputs,
-        params: Union[SamplingParams, PoolingParams],
-        arrival_time: float,
-        lora_request: Optional[LoRARequest],
-        trace_headers: Optional[Mapping[str, str]] = None,
-        priority: int = 0,
-    ) -> None:
-        prompt_str, request = self.processor.custom_process_inputs(request_id, processed_inputs, params,
-                                                arrival_time, lora_request,
-                                                trace_headers,
-                                                priority)
-
-        n = params.n if isinstance(params, SamplingParams) else 1
-
-        if n == 1:
-            # Make a new RequestState and queue.
-            self.output_processor.add_request(request, prompt_str, None, 0)
-            # Add the request to EngineCore.
-            self.engine_core.add_request(request)
-            return
-
-        # Fan out child requests (for n>1).
-        parent_req = ParentRequest(request_id, params)
-        for idx in range(n):
-            request_id, params = parent_req.get_child_info(idx)
-            child_request = request if idx == n - 1 else copy(request)
-            child_request.request_id = request_id
-            child_request.sampling_params = params
-
-            # Make a new RequestState and queue.
-            self.output_processor.add_request(child_request,prompt_str, parent_req, idx)
-            # Add the request to EngineCore.
-            self.engine_core.add_request(child_request)
-
-    def step_nowait(self) -> Union[list[RequestOutput], list[PoolingRequestOutput]]:
-
-        if self.should_execute_dummy_batch:
-            self.should_execute_dummy_batch = False
-            self.engine_core.execute_dummy_batch()
-            return []
-
-        # 1) Get EngineCoreOutput from the EngineCore.
-        outputs = self.engine_core.get_output_nowait()
-
-        # 2) Process EngineCoreOutputs.
-        iteration_stats = IterationStats() if self.log_stats else None
-        processed_outputs = self.output_processor.process_outputs(
-            outputs.outputs,
-            engine_core_timestamp=outputs.timestamp,
-            iteration_stats=iteration_stats)
-
-        # 3) Abort any reqs that finished due to stop strings.
-        self.engine_core.abort_requests(processed_outputs.reqs_to_abort)
-
-        # 4) Record stats
-        if self.logger_manager is not None:
-            assert outputs.scheduler_stats is not None
-            self.logger_manager.record(scheduler_stats=outputs.scheduler_stats,
-                                    iteration_stats=iteration_stats)
-            self.do_log_stats_with_interval()
-
-        return processed_outputs.request_outputs
diff --git a/roll/third_party/vllm/vllm_0_11_0/v1/worker.py b/roll/third_party/vllm/vllm_0_11_0/v1/worker.py
deleted file mode 100644
index 316ea41eb..000000000
--- a/roll/third_party/vllm/vllm_0_11_0/v1/worker.py
+++ /dev/null
@@ -1,51 +0,0 @@
-import gc
-import time
-from collections import OrderedDict
-
-import torch
-
-from roll.platforms import current_platform
-from roll.third_party.vllm.vllm_utils import TensorLoRARequest, patch_vllm_lora_manager
-from roll.third_party.vllm.worker_helper import WorkerHelper
-from roll.utils.logging import get_logger
-from roll.utils.send_recv_utils import RecvBucketManager
-
-
-logger = get_logger()
-
-Worker = current_platform.get_vllm_worker_class()
-
-
-class Worker0110(WorkerHelper, Worker):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.lora_params = OrderedDict()
-        patch_vllm_lora_manager()
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker, is_lora):
-        weight_dict = weight
-        weight = torch.tensor(weight_dict["weight"], dtype=weight_dict["dtype"]).cuda()
-        super().update_parameter(parameter_name, weight, ranks_in_worker, is_lora)
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        RecvBucketManager.dict_to_meta(meta_infos)
-        super().broadcast_bucket(src_pp_rank, meta_infos, bucket_size)
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        RecvBucketManager.dict_to_meta(meta_infos)
-        buffer = torch.tensor(buffer, dtype=torch.int8, device='cuda')
-        super().update_parameter_in_bucket(meta_infos, buffer, ranks_in_worker)
-
-    def add_lora(self, peft_config) -> bool:
-        lora_int_id = int(time.time_ns() % 0x7FFFFFFF)
-        lora_request = TensorLoRARequest(
-            lora_name=f"{lora_int_id}",
-            lora_int_id=lora_int_id,
-            lora_path="dummy_lora_path",
-            peft_config=peft_config,
-            lora_tensors=self.lora_params,
-        )
-        del self.lora_params
-        self.lora_params = OrderedDict()
-        super().reload_model()
-        return self.model_runner.add_lora(lora_request)
diff --git a/roll/third_party/vllm/vllm_0_11_0/worker.py b/roll/third_party/vllm/vllm_0_11_0/worker.py
deleted file mode 100644
index d88e99b9c..000000000
--- a/roll/third_party/vllm/vllm_0_11_0/worker.py
+++ /dev/null
@@ -1,15 +0,0 @@
-import gc
-from typing import Optional
-
-import torch
-from vllm.worker.worker import Worker
-
-from roll.third_party.vllm.worker_helper import WorkerHelper
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-
-class Worker0110(WorkerHelper, Worker):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
diff --git a/roll/distributed/strategy/fsdp_strategy.py b/roll/third_party/vllm/vllm_0_12_0/__init__.py
similarity index 100%
rename from roll/distributed/strategy/fsdp_strategy.py
rename to roll/third_party/vllm/vllm_0_12_0/__init__.py
diff --git a/roll/third_party/vllm/vllm_0_12_0/ray_distributed_executor.py b/roll/third_party/vllm/vllm_0_12_0/ray_distributed_executor.py
new file mode 100644
index 000000000..979457445
--- /dev/null
+++ b/roll/third_party/vllm/vllm_0_12_0/ray_distributed_executor.py
@@ -0,0 +1,190 @@
+import os
+from typing import TYPE_CHECKING
+
+import ray
+from ray.runtime_env import RuntimeEnv
+from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
+from vllm.platforms import current_platform
+from vllm.ray.ray_env import get_env_vars_to_copy
+from vllm.utils.network_utils import get_distributed_init_method, get_ip, get_open_port
+from vllm.v1.core.sched.output import SchedulerOutput
+from vllm.v1.executor.ray_executor import RayDistributedExecutor, RayWorkerMetaData
+from vllm.v1.executor.ray_utils import RayWorkerWrapper
+
+from roll.platforms import current_platform as roll_current_platform
+from roll.utils.logging import get_logger
+
+
+if TYPE_CHECKING:
+    from ray.util.placement_group import PlacementGroup
+
+
+logger = get_logger()
+
+
+def initialize_ray_cluster(ray_address: str | None = None):
+    if ray.is_initialized():
+        return
+    ray.init(address=ray_address)
+
+
+class CustomRayDistributedExecutor(RayDistributedExecutor):
+    def _init_executor(self) -> None:
+        self.forward_dag: ray.dag.CompiledDAG | None = None
+
+        assert not current_platform.is_tpu()
+
+        placement_group = self.parallel_config.placement_group
+        assert self.uses_ray
+        assert len(placement_group) > 0
+        initialize_ray_cluster(placement_group[0]["ray_address"])
+        assert ray.is_initialized()
+
+        # Disable Ray usage stats collection.
+        ray_usage = os.environ.get("RAY_USAGE_STATS_ENABLED", "0")
+        if ray_usage != "1":
+            os.environ["RAY_USAGE_STATS_ENABLED"] = "0"
+
+        # Create the parallel GPU workers.
+        self._init_workers_ray(placement_group)
+
+        # KV connector setup
+        self.has_connector = self.vllm_config.kv_transfer_config is not None
+
+        self.uses_sampler = self.vllm_config.model_config.runner_type != "pooling" and (
+            self.vllm_config.ec_transfer_config is None or not self.vllm_config.ec_transfer_config.is_ec_producer
+        )
+
+        self.scheduler_output: SchedulerOutput | None = None
+
+    def _init_workers_ray(self, placement_group: "PlacementGroup", **ray_remote_kwargs):
+        assert len(placement_group) == self.parallel_config.world_size
+
+        # The driver dummy worker does not actually use any resources.
+        # It holds the resource for the driver worker.
+        self.driver_dummy_worker: RayWorkerWrapper | None = None
+        # The remaining workers are the actual ray actors.
+        self.workers: list[RayWorkerWrapper] = []
+
+        # Used in ray compiled DAG: indexed first by PP rank,
+        # and then TP rank. In other words, the inner list is
+        # the TP group of workers for a PP rank.
+        self.pp_tp_workers: list[list[RayWorkerWrapper]] = []
+
+        if self.parallel_config.ray_workers_use_nsight:
+            ray_remote_kwargs = self._configure_ray_workers_use_nsight(ray_remote_kwargs)
+
+        worker_metadata: list[RayWorkerMetaData] = []
+        driver_ip = get_ip()
+        for rank in range(self.parallel_config.world_size):
+            pg = placement_group[rank]["placement_group"]
+            gpu_rank = placement_group[rank]["gpu_rank"]
+            env_vars = {}
+            env_vars.update(roll_current_platform.get_custom_env_vars())
+            env_vars.update(roll_current_platform.get_vllm_run_time_env_vars(gpu_rank))
+            runtime_env = RuntimeEnv(env_vars=env_vars)
+            assert current_platform.ray_device_key == "GPU"
+            # NV+AMD GPUs, and Intel XPUs
+            worker = ray.remote(
+                num_cpus=0,
+                num_gpus=0.01,
+                runtime_env=runtime_env,
+                scheduling_strategy=PlacementGroupSchedulingStrategy(
+                    placement_group=pg,
+                ),
+                **ray_remote_kwargs,
+            )(RayWorkerWrapper).remote(vllm_config=self.vllm_config, rpc_rank=rank)
+            worker_metadata.append(RayWorkerMetaData(worker=worker, created_rank=rank))
+
+        worker_ips = ray.get(
+            [
+                each.worker.get_node_ip.remote()  # type: ignore[attr-defined]
+                for each in worker_metadata
+            ]
+        )
+
+        for each, ip in zip(worker_metadata, worker_ips):
+            each.ip = ip
+
+        logger.debug("workers: %s", worker_metadata)
+        logger.debug("driver_dummy_worker: %s", self.driver_dummy_worker)
+
+        # No need to sort, just use the given resource order of the placement group
+        for i, item in enumerate(worker_metadata):
+            item.adjusted_rank = i
+        self.workers = [item.worker for item in worker_metadata]
+        rerank_mapping = {item.created_rank: item.adjusted_rank for item in worker_metadata}
+        self.collective_rpc("adjust_rank", args=(rerank_mapping,))
+
+        # Get the set of GPU IDs used on each node.
+        worker_node_and_gpu_ids = []
+        for worker in [self.driver_dummy_worker] + self.workers:
+            if worker is None:
+                # driver_dummy_worker can be None when using ray spmd worker.
+                continue
+            worker_node_and_gpu_ids.append(ray.get(worker.get_node_and_gpu_ids.remote()))  # type: ignore[attr-defined]
+
+        # Set environment variables for the driver and workers.
+        # remove device_control_env_var(CUDA_VISIBLE_DEVICES), for we only allocate one gpu for each worker
+        all_args_to_update_environment_variables = [{}] * len(worker_node_and_gpu_ids)
+
+        # Environment variables to copy from driver to workers
+        env_vars_to_copy = get_env_vars_to_copy(
+            exclude_vars=self.WORKER_SPECIFIC_ENV_VARS,
+            additional_vars=set(current_platform.additional_env_vars).union(self.ADDITIONAL_ENV_VARS),
+            destination="workers",
+        )
+
+        # Copy existing env vars to each worker's args
+        for args in all_args_to_update_environment_variables:
+            # TODO: refactor platform-specific env vars
+            for name in env_vars_to_copy:
+                if name in os.environ:
+                    args[name] = os.environ[name]
+
+        self._env_vars_for_all_workers = all_args_to_update_environment_variables
+
+        self.collective_rpc("update_environment_variables", args=(self._get_env_vars_to_be_updated(),))
+
+        distributed_init_method = get_distributed_init_method(driver_ip, get_open_port())
+
+        # Initialize the actual workers inside worker wrapper.
+        all_kwargs = []
+        for rank, (node_id, _) in enumerate(worker_node_and_gpu_ids):
+            local_rank = 0
+            kwargs = dict(
+                vllm_config=self.vllm_config,
+                local_rank=local_rank,
+                rank=rank,
+                distributed_init_method=distributed_init_method,
+                is_driver_worker=(not self.parallel_config) or (rank % self.parallel_config.tensor_parallel_size == 0),
+            )
+            all_kwargs.append(kwargs)
+        self.collective_rpc("init_worker", args=(all_kwargs,))
+
+        self.collective_rpc("init_device")
+        self.collective_rpc("load_model")
+
+        for pp_rank in range(self.parallel_config.pipeline_parallel_size):
+            self.pp_tp_workers.append([])
+            for tp_rank in range(self.parallel_config.tensor_parallel_size):
+                # PP=2, TP=4
+                # pp_tp_workers = [[0, 1, 2, 3], [4, 5, 6, 7]]
+                rank = (pp_rank * self.parallel_config.tensor_parallel_size) + tp_rank
+                assert len(self.pp_tp_workers[pp_rank]) == tp_rank
+                assert pp_rank < len(self.pp_tp_workers)
+                self.pp_tp_workers[pp_rank].append(self.workers[rank])
+
+    def shutdown(self) -> None:
+        logger.info(
+            "Shutting down Ray distributed executor. If you see error log "
+            "from logging.cc regarding SIGTERM received, please ignore because "
+            "this is the expected termination process in Ray."
+        )
+        if hasattr(self, "forward_dag") and self.forward_dag is not None:
+            self.forward_dag.teardown()
+            import ray
+
+            for worker in self.workers:
+                ray.kill(worker)
+            self.forward_dag = None
diff --git a/roll/third_party/vllm/vllm_0_8_4/__init__.py b/roll/third_party/vllm/vllm_0_8_4/__init__.py
index 6f1750d59..633252a34 100644
--- a/roll/third_party/vllm/vllm_0_8_4/__init__.py
+++ b/roll/third_party/vllm/vllm_0_8_4/__init__.py
@@ -1,16 +1,89 @@
+# Patch CustomAsyncLLM.generate and OutputProcessor.abort_requests
+# (more on tests.third_party.vllm.test_vllm_local.test_vllm_abort)
+from typing import Optional
+from collections.abc import AsyncGenerator, Mapping, Iterable
+import asyncio
+
+from vllm.inputs import PromptType
+from vllm.lora.request import LoRARequest
+from vllm.outputs import RequestOutput
+from vllm.prompt_adapter.request import PromptAdapterRequest
+from vllm.sampling_params import SamplingParams
+from vllm.v1.engine.output_processor import OutputProcessor
+
+from roll.third_party.vllm.async_llm import CustomAsyncLLM
+
+async def generate(
+    self,
+    prompt: PromptType,
+    sampling_params: SamplingParams,
+    request_id: str,
+    lora_request: Optional[LoRARequest] = None,
+    trace_headers: Optional[Mapping[str, str]] = None,
+    prompt_adapter_request: Optional[PromptAdapterRequest] = None,
+    priority: int = 0,
+) -> AsyncGenerator[RequestOutput, None]:
+    try:
+        if self.output_handler is None:
+            self.output_handler = asyncio.create_task(
+                self._run_output_handler())
+
+        q = await self.add_request(
+            request_id,
+            prompt,
+            sampling_params,
+            lora_request=lora_request,
+            trace_headers=trace_headers,
+            prompt_adapter_request=prompt_adapter_request,
+            priority=priority,
+        )
+
+        finished = False
+        while not finished:
+            out = q.get_nowait() or await q.get()
+
+            if isinstance(out, BaseException) or (isinstance(out, type) and issubclass(out, BaseException)):
+                # raise asyncio.CancelledError, will not cause dead recursive
+                raise out
+
+            finished = out.finished
+            yield out
+
+    except asyncio.CancelledError:
+        await self.abort(request_id)
+        raise
+CustomAsyncLLM.generate = generate
+
+def abort_requests(
+    self,
+    request_ids: Iterable[str],
+) -> list[str]:
+    request_ids_to_abort = []
+    for request_id in request_ids:
+        req_state = self.request_states.pop(request_id, None)
+        if req_state is not None:
+            self.lora_states.abort_request(req_state)
+            request_ids_to_abort.append(request_id)
+            req_state.queue.put(asyncio.CancelledError) # wakeup generate coroutine with asyncio.CancelledError
+        else:
+            parent = self.parent_requests.pop(request_id, None)
+            if parent and parent.child_requests:
+                self.abort_requests(parent.child_requests)
+                request_ids_to_abort.extend(parent.child_requests)
+    return request_ids_to_abort
+OutputProcessor.abort_requests = abort_requests
+
+
 # patch qwen3 fp8
 # https://github.com/vllm-project/vllm/issues/17327
 # https://github.com/vllm-project/vllm/pull/17318
-
 from vllm.model_executor.layers.linear import QKVParallelLinear
-
 from typing import Optional
 import torch
 from vllm.model_executor.parameter import (BasevLLMParameter,
                                            BlockQuantScaleParameter,
                                            PerTensorScaleParameter,
                                            RowvLLMParameter)
-
 def weight_loader_v2(self,
                      param: BasevLLMParameter,
                      loaded_weight: torch.Tensor,
@@ -45,7 +118,7 @@ def weight_loader_v2(self,
                           shard_id=loaded_shard_id,
                           shard_offset=shard_offset,
                           shard_size=shard_size)
-
 QKVParallelLinear.weight_loader_v2 = weight_loader_v2
 
+
 __all__ = []
diff --git a/roll/third_party/vllm/vllm_0_8_4/llm.py b/roll/third_party/vllm/vllm_0_8_4/llm.py
deleted file mode 100644
index 0f716bb53..000000000
--- a/roll/third_party/vllm/vllm_0_8_4/llm.py
+++ /dev/null
@@ -1,230 +0,0 @@
-import os
-import queue
-import time
-from typing import Any, Dict, Iterable, List, Optional, Union
-
-import cloudpickle
-import torch
-from vllm import LLM, EngineArgs, SamplingParams, envs
-from vllm.config import CompilationConfig
-from vllm.engine.arg_utils import HfOverrides, PoolerConfig, TaskOption
-from vllm.lora.request import LoRARequest
-from vllm.usage.usage_lib import UsageContext
-from vllm.utils import Counter
-from vllm.envs import get_default_cache_root
-
-from roll.platforms import current_platform
-from roll.third_party.vllm.vllm_0_8_4.llm_engine import LLMEngine084
-from roll.utils.send_recv_utils import SendBucketManager
-
-
-class Llm084(LLM):
-
-    def __init__(
-        self,
-        resource_placement_groups: List[Dict],
-        model: str,
-        tokenizer: Optional[str] = None,
-        tokenizer_mode: str = "auto",
-        skip_tokenizer_init: bool = False,
-        trust_remote_code: bool = False,
-        allowed_local_media_path: str = "",
-        tensor_parallel_size: int = 1,
-        dtype: str = "auto",
-        quantization: Optional[str] = None,
-        revision: Optional[str] = None,
-        tokenizer_revision: Optional[str] = None,
-        seed: Optional[int] = None,
-        gpu_memory_utilization: float = 0.9,
-        swap_space: float = 4,
-        cpu_offload_gb: float = 0,
-        enforce_eager: Optional[bool] = None,
-        max_seq_len_to_capture: int = 8192,
-        disable_custom_all_reduce: bool = False,
-        disable_async_output_proc: bool = False,
-        hf_overrides: Optional[HfOverrides] = None,
-        mm_processor_kwargs: Optional[dict[str, Any]] = None,
-        # After positional args are removed, move this right below `model`
-        task: TaskOption = "auto",
-        override_pooler_config: Optional[PoolerConfig] = None,
-        compilation_config: Optional[Union[int, dict[str, Any]]] = None,
-        **kwargs,
-    ) -> None:
-        '''
-        LLM constructor.
-
-        Note: if enforce_eager is unset (enforce_eager is None)
-        it defaults to False.
-        '''
-
-        # setup envs for vllm
-        # https://github.com/vllm-project/vllm/pull/14189/files
-        # TODO do not override other options in PYTORCH_CUDA_ALLOC_CONF
-        os.environ["PYTORCH_CUDA_ALLOC_CONF"] = ""
-        # torch.cuda may already init, explicitly disable expandable_segments
-        # here (only matters when VLLM_USE_RAY_SPMD_WORKER=0)
-        current_platform.set_allocator_settings("expandable_segments:False")
-
-        os.environ["VLLM_CACHE_ROOT"] = os.path.join(
-            get_default_cache_root(), "vllm", os.environ.get("WORKER_NAME", ""))
-
-        if "disable_log_stats" not in kwargs:
-            kwargs["disable_log_stats"] = True
-
-        if "worker_cls" in kwargs:
-            worker_cls = kwargs["worker_cls"]
-            # if the worker_cls is not qualified string name,
-            # we serialize it using cloudpickle to avoid pickling issues
-            if isinstance(worker_cls, type):
-                kwargs["worker_cls"] = cloudpickle.dumps(worker_cls)
-
-        if compilation_config is not None:
-            if isinstance(compilation_config, (int, dict)):
-                compilation_config_instance = CompilationConfig.from_cli(
-                    str(compilation_config))
-            else:
-                compilation_config_instance = compilation_config
-        else:
-            compilation_config_instance = None
-
-        kwargs["enable_sleep_mode"] = True
-        engine_args = EngineArgs(
-            model=model,
-            task=task,
-            tokenizer=tokenizer,
-            tokenizer_mode=tokenizer_mode,
-            skip_tokenizer_init=skip_tokenizer_init,
-            trust_remote_code=trust_remote_code,
-            allowed_local_media_path=allowed_local_media_path,
-            tensor_parallel_size=tensor_parallel_size,
-            dtype=dtype,
-            quantization=quantization,
-            revision=revision,
-            tokenizer_revision=tokenizer_revision,
-            seed=seed,
-            gpu_memory_utilization=gpu_memory_utilization,
-            swap_space=swap_space,
-            cpu_offload_gb=cpu_offload_gb,
-            enforce_eager=enforce_eager,
-            max_seq_len_to_capture=max_seq_len_to_capture,
-            disable_custom_all_reduce=disable_custom_all_reduce,
-            disable_async_output_proc=disable_async_output_proc,
-            hf_overrides=hf_overrides,
-            mm_processor_kwargs=mm_processor_kwargs,
-            override_pooler_config=override_pooler_config,
-            compilation_config=compilation_config_instance,
-            **kwargs,
-        )
-        engine_args.resource_placement_groups = resource_placement_groups
-
-        # Create the Engine (autoselects V0 vs V1)
-        self.llm_engine = LLMEngine084.from_engine_args(
-            engine_args=engine_args, usage_context=UsageContext.LLM_CLASS)
-        self.engine_class = type(self.llm_engine)
-
-        self.request_counter = Counter()
-        self.default_sampling_params: Union[dict[str, Any], None] = None
-
-    def load_states(self):
-        self.collective_rpc(method="load_states")
-
-    def offload_states(self, level=1):
-        self.reset_prefix_cache()
-        self.collective_rpc(method="offload_states", args=(level,))
-
-    def fetch_output(self):
-        # simulating non blocking semantic when using v1 engine
-        if envs.VLLM_USE_V1:
-            try:
-                request_outputs = self.llm_engine.step_nowait()
-            except queue.Empty:
-                request_outputs = []
-        else:
-            request_outputs = self.llm_engine.step()
-        return request_outputs
-
-    def get_num_waiting(self):
-        stats = self.llm_engine._get_stats(scheduler_outputs=None)
-        return stats.num_waiting_sys
-
-    def add_requests(
-        self,
-        prompt_token_ids: List[List[int]],
-        request_ids: List[int] | None,
-        sampling_params: SamplingParams,
-        multi_modal_data: List[int] | None,
-        lora_requests: List[LoRARequest] | None,
-    ):
-        assert len(prompt_token_ids) == len(request_ids)
-        if multi_modal_data:
-            assert len(multi_modal_data) == len(request_ids)
-        for i, (token_ids, request_id) in enumerate(zip(prompt_token_ids, request_ids)):
-            if request_id is None:
-                request_id = next(self.request_counter)
-            lora_request = lora_requests[i] if lora_requests is not None else None
-            if multi_modal_data:
-                # in v1, input_preprocessor is in engine.processor
-                processor = getattr(self.llm_engine, "processor", None)
-                input_preprocessor = processor.input_preprocessor if processor else self.llm_engine.input_preprocessor
-                preprocessed_inputs = input_preprocessor.preprocess(
-                    prompt={"prompt_token_ids": token_ids, "multi_modal_data": multi_modal_data[i]},
-                    lora_request=lora_request,
-                    prompt_adapter_request=None,
-                )
-                # in v1, engine does not use a input_processor
-                processed_inputs = (
-                    self.llm_engine.input_processor(preprocessed_inputs)
-                    if hasattr(self.llm_engine, "input_processor")
-                    else preprocessed_inputs
-                )
-            else:
-                processed_inputs = {"type": "token", "prompt_token_ids": token_ids}
-            self.llm_engine._add_processed_request(
-                request_id=request_id,
-                processed_inputs=processed_inputs,
-                params=sampling_params,
-                arrival_time=time.time(),
-                lora_request=lora_request,
-                prompt_adapter_request=None,
-            )
-
-    def abort_request(self, request_id: Union[str, Iterable[str]]) -> None:
-        self.llm_engine.abort_request(request_id)
-
-    def clear_unfinished_requests(self):
-        self._run_engine(use_tqdm=True)
-
-    # 参数同步接口
-    def setup_collective_group(self, *args, **kwargs):
-        self.collective_rpc(method="setup_collective_group", args=args, kwargs=kwargs)
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        if envs.VLLM_USE_V1:
-            SendBucketManager.meta_to_dict(meta_infos)
-        self.collective_rpc(method="broadcast_bucket", args=(src_pp_rank, meta_infos, bucket_size))
-
-    def broadcast_parameter(self, *args, **kwargs):
-        self.collective_rpc(method="broadcast_parameter", args=args, kwargs=kwargs)
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker, is_lora):
-        if envs.VLLM_USE_V1:
-            weight_dict = {
-                "dtype": weight.dtype,
-                "weight": weight.cpu().tolist()
-            }
-        else:
-            weight_dict = weight
-        self.collective_rpc(method="update_parameter", args=(parameter_name, weight_dict, ranks_in_worker, is_lora))
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        if envs.VLLM_USE_V1:
-            SendBucketManager.meta_to_dict(meta_infos)
-            # vllm 084 does not support serialization of torch.Tensor(GPU), must use custom
-            # numpy array encoder or use pickle.
-            # Can not convert to numpy array here, because of bug in encoder/decoder of vllm 084.
-            # Newer version of vllm support efficient serilization of torch.Tensor.
-            buffer = buffer.cpu().tolist()
-        self.collective_rpc(method="update_parameter_in_bucket", args=(meta_infos, buffer, ranks_in_worker))
-
-    def add_lora(self, *args, **kwargs):
-        self.collective_rpc(method="add_lora", args=args, kwargs=kwargs)
diff --git a/roll/third_party/vllm/vllm_0_8_4/llm_engine.py b/roll/third_party/vllm/vllm_0_8_4/llm_engine.py
deleted file mode 100644
index 3a61a6169..000000000
--- a/roll/third_party/vllm/vllm_0_8_4/llm_engine.py
+++ /dev/null
@@ -1,89 +0,0 @@
-from typing import Dict, Optional, Type
-
-from vllm import LLMEngine, EngineArgs, envs
-from vllm.config import VllmConfig
-from vllm.usage.usage_lib import UsageContext
-from vllm.engine.metrics_types import StatLoggerBase
-
-import roll.third_party.vllm.fp8 as fp8
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-
-class LLMEngine084(LLMEngine):
-
-    @classmethod
-    def from_vllm_config(
-        cls,
-        vllm_config: VllmConfig,
-        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
-        stat_loggers: Optional[Dict[str, StatLoggerBase]] = None,
-        disable_log_stats: bool = False,
-    ) -> "LLMEngine":
-        parallel_config = vllm_config.parallel_config
-
-        executor_class = cls._get_executor_cls(vllm_config)
-        if parallel_config.distributed_executor_backend == "ray":
-            from roll.third_party.vllm.vllm_0_8_4.ray_distributed_executor import (
-                CustomRayDistributedExecutor as V0CustomRayDistributedExecutor)
-            executor_class = V0CustomRayDistributedExecutor
-
-        logger.info(f"Using executor_class: {executor_class}")
-        logger.info(f"Using worker cls: {parallel_config.worker_cls}")
-        return cls(
-            vllm_config=vllm_config,
-            executor_class=executor_class,
-            log_stats=(not disable_log_stats),
-            usage_context=usage_context,
-            stat_loggers=stat_loggers,
-        )
-
-    @classmethod
-    def from_engine_args(
-        cls,
-        engine_args: EngineArgs,
-        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
-        stat_loggers: Optional[Dict[str, StatLoggerBase]] = None,
-    ) -> "LLMEngine":
-        # Create the engine configs.
-        vllm_config = engine_args.create_engine_config(usage_context)
-        parallel_config = vllm_config.parallel_config
-
-        resource_placement_groups = getattr(engine_args, "resource_placement_groups")
-        assert len(resource_placement_groups) == parallel_config.world_size
-        parallel_config.placement_group = resource_placement_groups
-
-        # change worker cls to custom
-        cls.update_worker_cls_config(vllm_config)
-
-        fp8.update_quant_config(vllm_config)
-
-        engine_cls = cls
-        if envs.VLLM_USE_V1:
-            from roll.third_party.vllm.vllm_0_8_4.v1.llm_engine import (
-                LLMEngine084 as V1LLMEngine084)
-            engine_cls = V1LLMEngine084
-
-        return engine_cls.from_vllm_config(
-            vllm_config=vllm_config,
-            usage_context=usage_context,
-            stat_loggers=stat_loggers,
-            disable_log_stats=engine_args.disable_log_stats,
-        )
-
-    @classmethod
-    def update_worker_cls_config(cls, vllm_config: VllmConfig) -> None:
-        parallel_config = vllm_config.parallel_config
-        scheduler_config = vllm_config.scheduler_config
-
-        assert parallel_config.worker_cls != "auto"
-        if scheduler_config.is_multi_step:
-            pass
-        elif vllm_config.speculative_config:
-            pass
-        else:
-            if envs.VLLM_USE_V1:
-                parallel_config.worker_cls = "roll.third_party.vllm.vllm_0_8_4.v1.worker.Worker084"
-            else:
-                parallel_config.worker_cls = "roll.third_party.vllm.vllm_0_8_4.worker.Worker084"
diff --git a/roll/third_party/vllm/vllm_0_8_4/ray_distributed_executor.py b/roll/third_party/vllm/vllm_0_8_4/ray_distributed_executor.py
index 7f0e6a45d..85c2596ed 100644
--- a/roll/third_party/vllm/vllm_0_8_4/ray_distributed_executor.py
+++ b/roll/third_party/vllm/vllm_0_8_4/ray_distributed_executor.py
@@ -109,6 +109,7 @@ def _init_workers_ray(self, placement_group: "PlacementGroup",
             env_vars = {}
             env_vars.update(roll_current_platform.get_custom_env_vars())
             env_vars.update(roll_current_platform.get_vllm_run_time_env_vars(gpu_rank))
+            env_vars["FLASHINFER_WORKSPACE_BASE"] = f"{os.environ['FLASHINFER_WORKSPACE_BASE']}_{rank}"
             runtime_env = RuntimeEnv(env_vars=env_vars)
             assert current_platform.ray_device_key == "GPU"
             # NV+AMD GPUs, and Intel XPUs
diff --git a/roll/third_party/vllm/vllm_0_8_4/v1/async_llm.py b/roll/third_party/vllm/vllm_0_8_4/v1/async_llm.py
deleted file mode 100644
index 430b11887..000000000
--- a/roll/third_party/vllm/vllm_0_8_4/v1/async_llm.py
+++ /dev/null
@@ -1,98 +0,0 @@
-import os
-import asyncio
-from typing import (Tuple, List, Dict, Optional, Union, Any,
-                    Callable, Dict, List, Optional)
-
-from vllm import envs
-from vllm.v1.engine.async_llm import AsyncLLM
-from vllm.engine.arg_utils import AsyncEngineArgs
-from vllm.entrypoints.llm import _R
-from vllm.usage.usage_lib import UsageContext
-from vllm.v1.executor.abstract import Executor
-
-from roll.utils.logging import get_logger
-from roll.utils.send_recv_utils import SendBucketManager
-
-logger = get_logger()
-
-class AsyncLLM084(AsyncLLM):
-
-    def __init__(self, resource_placement_groups, **kwargs):
-        assert envs.VLLM_USE_V1
-
-        engine_args = AsyncEngineArgs(
-            **kwargs,
-        )
-        engine_args.enable_sleep_mode = True
-        vllm_config = engine_args.create_engine_config(UsageContext.ENGINE_CONTEXT)
-
-        parallel_config = vllm_config.parallel_config
-        assert len(resource_placement_groups) == parallel_config.world_size
-        parallel_config.placement_group = resource_placement_groups
-
-        assert not vllm_config.scheduler_config.is_multi_step
-        assert not vllm_config.speculative_config
-        parallel_config.worker_cls = "roll.third_party.vllm.vllm_0_8_4.v1.worker.Worker084"
-
-        executor_class = Executor.get_class(vllm_config)
-        if parallel_config.distributed_executor_backend == "ray":
-            from roll.third_party.vllm.vllm_0_8_4.v1.ray_distributed_executor import (
-                CustomRayDistributedExecutor as V1CustomeRayDistributedExecutor)
-            executor_class = V1CustomeRayDistributedExecutor
-
-        # https://github.com/vllm-project/vllm/pull/14189/files
-        # TODO do not override other options in PYTORCH_CUDA_ALLOC_CONF
-        os.environ["PYTORCH_CUDA_ALLOC_CONF"] = ""
-
-        # Default fork method is not compatible with ScaleAligner.
-        os.environ['VLLM_WORKER_MULTIPROC_METHOD'] = 'spawn'
-
-        logger.info(f"Using AsyncLLM")
-        logger.info(f"Using executor_class: {executor_class}")
-        logger.info(f"Using worker cls: {parallel_config.worker_cls}")
-        return super().__init__(
-            vllm_config=vllm_config,
-            executor_class=executor_class,
-            start_engine_loop=True,
-            log_requests=True,
-            log_stats=True,
-            usage_context=UsageContext.ENGINE_CONTEXT,
-        )
-
-    def collective_rpc(self,
-                       method: Union[str, Callable[..., _R]],
-                       timeout: Optional[float] = None,
-                       args: Tuple = (),
-                       kwargs: Optional[Dict[str, Any]] = None) -> List[_R]:
-        loop = asyncio.get_event_loop()
-        return loop.run_until_complete(self.engine_core.collective_rpc_async(method, timeout, args, kwargs))
-
-    def load_states(self):
-        self.collective_rpc(method="load_states")
-
-    def offload_states(self, level=1):
-        self.reset_prefix_cache()
-        self.collective_rpc(method="offload_states", args=(level,))
-
-    # 参数同步接口
-    def setup_collective_group(self, *args, **kwargs):
-        self.collective_rpc(method="setup_collective_group", args=args, kwargs=kwargs)
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        if envs.VLLM_USE_V1:
-            SendBucketManager.meta_to_dict(meta_infos)
-        self.collective_rpc(method="broadcast_bucket", args=(src_pp_rank, meta_infos, bucket_size))
-
-    def broadcast_parameter(self, *args, **kwargs):
-        self.collective_rpc(method="broadcast_parameter", args=args, kwargs=kwargs)
-
-    def update_parameter(self, *args, **kwargs):
-        self.collective_rpc(method="update_parameter", args=args, kwargs=kwargs)
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        if envs.VLLM_USE_V1:
-            SendBucketManager.meta_to_dict(meta_infos)
-        self.collective_rpc(method="update_parameter_in_bucket", args=(meta_infos, buffer, ranks_in_worker))
-
-    def add_lora(self, *args, **kwargs):
-        self.collective_rpc(method="add_lora", args=args, kwargs=kwargs)
diff --git a/roll/third_party/vllm/vllm_0_8_4/v1/llm_engine.py b/roll/third_party/vllm/vllm_0_8_4/v1/llm_engine.py
deleted file mode 100644
index 8373f6968..000000000
--- a/roll/third_party/vllm/vllm_0_8_4/v1/llm_engine.py
+++ /dev/null
@@ -1,244 +0,0 @@
-import os
-from collections.abc import Mapping, Sequence
-from copy import copy
-from typing import Optional, Union
-
-from vllm import envs
-from vllm.config import VllmConfig
-from vllm.usage.usage_lib import UsageContext
-from vllm.engine.metrics_types import StatLoggerBase
-from vllm.v1.engine.processor import Processor
-from vllm.config import VllmConfig
-from vllm.inputs import ProcessorInputs
-from vllm.inputs.parse import split_enc_dec_inputs
-from vllm.outputs import RequestOutput
-from vllm.lora.request import LoRARequest
-from vllm.multimodal import MultiModalKwargs
-from vllm.multimodal.inputs import PlaceholderRange
-from vllm.multimodal.utils import merge_and_sort_multimodal_metadata
-from vllm.pooling_params import PoolingParams
-from vllm.prompt_adapter.request import PromptAdapterRequest
-from vllm.sampling_params import SamplingParams
-from vllm.v1.engine import EngineCoreRequest
-from vllm.v1.engine import EngineCoreOutputs
-from vllm.v1.engine.core_client import SyncMPClient
-from vllm.v1.executor.abstract import Executor
-from vllm.v1.engine.llm_engine import LLMEngine
-from vllm.v1.engine.parallel_sampling import ParentRequest
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-def custom_process_inputs(
-    self,
-    request_id: str,
-    prompt: ProcessorInputs,
-    params: Union[SamplingParams, PoolingParams],
-    arrival_time: Optional[float] = None,
-    lora_request: Optional[LoRARequest] = None,
-    trace_headers: Optional[Mapping[str, str]] = None,
-    prompt_adapter_request: Optional[PromptAdapterRequest] = None,
-    priority: int = 0,
-) -> EngineCoreRequest:
-
-    self._validate_lora(lora_request)
-    self._validate_params(params)
-    if priority != 0:
-        raise ValueError("V1 does not support priority yet.")
-    if trace_headers is not None:
-        raise ValueError("V1 does not support tracing yet.")
-    if prompt_adapter_request is not None:
-        raise ValueError("V1 does not support prompt_adapter_request.")
-
-    assert arrival_time is not None
-
-    processed_inputs: ProcessorInputs = prompt
-    eos_token_id = self.input_preprocessor.get_eos_token_id(lora_request)
-
-    self._validate_model_inputs(processed_inputs, lora_request)
-
-    encoder_inputs, decoder_inputs = split_enc_dec_inputs(processed_inputs)
-
-    if encoder_inputs is not None:
-        raise NotImplementedError
-
-    assert isinstance(params, SamplingParams)
-    sampling_params = params.clone()
-    # If unset max tokens, then generate up to the max_model_len.
-    if sampling_params.max_tokens is None:
-        sampling_params.max_tokens = (
-            self.model_config.max_model_len -
-            len(decoder_inputs["prompt_token_ids"]))
-    sampling_params.update_from_generation_config(
-        self.generation_config_fields, eos_token_id)
-    sampling_params.update_from_tokenizer(
-        self.tokenizer.get_lora_tokenizer(lora_request))
-
-    # Multimodal related.
-    sorted_mm_inputs: Optional[Sequence[Optional[MultiModalKwargs]]] = None
-    sorted_mm_positions: Optional[list[PlaceholderRange]] = None
-    sorted_mm_hashes: Optional[list[str]] = None
-    if decoder_inputs["type"] == "multimodal":
-        decoder_mm_inputs = decoder_inputs["mm_kwargs"]
-
-        # Merge and flatten multimodal placeholders, hashes and inputs
-        # from dictionaries to lists, and sort them by each item's position
-        # in the input sequence.
-        (
-            sorted_item_modalities,
-            sorted_mm_positions,
-            sorted_mm_hashes,
-        ) = merge_and_sort_multimodal_metadata(
-            decoder_inputs["mm_placeholders"],
-            decoder_inputs["mm_hashes"] if self.use_hash else None,
-        )
-
-        # The output of merged multi-modal processor (`decoder_mm_inputs`)
-        # is a single MultiModalKwargs for all items from all modalities.
-        # This code flattens kwargs for individual items in a list and
-        # sorts them by each item's position in the input sequence if there
-        # are multiple modalities.
-        unique_modalities = set(sorted_item_modalities)
-        if len(unique_modalities) > 1:
-            orig_sorted_mm_inputs = []
-            used_indices = {modality: 0 for modality in unique_modalities}
-
-            for modality in sorted_item_modalities:
-                items = decoder_mm_inputs.get_items(modality)
-                item = items[used_indices[modality]]
-
-                orig_sorted_mm_inputs.append(
-                    MultiModalKwargs.from_items([item]))
-                used_indices[modality] += 1
-        else:
-            orig_sorted_mm_inputs = [
-                MultiModalKwargs.from_items([item]) for item in
-                decoder_mm_inputs.get_items(sorted_item_modalities[0])
-            ]
-
-        if sorted_mm_hashes is not None:
-            sorted_mm_inputs = self.mm_input_cache_client.get_and_update_p0(
-                orig_sorted_mm_inputs, sorted_mm_hashes)
-        else:
-            sorted_mm_inputs = orig_sorted_mm_inputs
-
-    return EngineCoreRequest(
-        request_id=request_id,
-        prompt=decoder_inputs.get("prompt"),
-        prompt_token_ids=decoder_inputs["prompt_token_ids"],
-        mm_inputs=sorted_mm_inputs,
-        mm_hashes=sorted_mm_hashes,
-        mm_placeholders=sorted_mm_positions,
-        sampling_params=sampling_params,
-        eos_token_id=eos_token_id,
-        arrival_time=arrival_time,
-        lora_request=lora_request,
-    )
-
-Processor.custom_process_inputs = custom_process_inputs
-
-def get_output_nowait(self) -> EngineCoreOutputs:
-    """
-    Only get an item if one is immediately available. Otherwise
-    raise the queue.Empty exception.
-    """
-    return self.outputs_queue.get_nowait()
-
-# Function 'step' of vllm v1 and v0 engine has different semantic.
-# Function vllm.v1.engine.LLMEngine.step is blocking but that of v0 is not.
-# This will cause deadlock when calling roll.third_party.vllm.vllm_0_8_4.Llm084.fetch_output
-# inside VllmStrategy if set generate_opt_level to 1.
-SyncMPClient.get_output_nowait = get_output_nowait
-
-class LLMEngine084(LLMEngine):
-
-    @classmethod
-    def from_vllm_config(
-        cls,
-        vllm_config: VllmConfig,
-        usage_context: UsageContext = UsageContext.ENGINE_CONTEXT,
-        stat_loggers: Optional[dict[str, StatLoggerBase]] = None,
-        disable_log_stats: bool = False,
-    ) -> "LLMEngine":
-        if stat_loggers is not None:
-            raise NotImplementedError(
-                "Passing StatLoggers to V1 is not yet supported. "
-                "Set VLLM_USE_V1=0 and file and issue on Github.")
-
-        parallel_config = vllm_config.parallel_config
-
-        executor_class = Executor.get_class(vllm_config)
-        if parallel_config.distributed_executor_backend == "ray":
-            from roll.third_party.vllm.vllm_0_8_4.v1.ray_distributed_executor import (
-                CustomRayDistributedExecutor as V1CustomeRayDistributedExecutor)
-            executor_class = V1CustomeRayDistributedExecutor
-
-        # Default fork method is not compatible with ScaleAligner.
-        os.environ['VLLM_WORKER_MULTIPROC_METHOD'] = 'spawn'
-
-        logger.info(f"Using executor_class: {executor_class}")
-        logger.info(f"Using worker cls: {parallel_config.worker_cls}")
-        return cls(vllm_config=vllm_config,
-                   executor_class=executor_class,
-                   log_stats=(not disable_log_stats),
-                   usage_context=usage_context,
-                   stat_loggers=stat_loggers,
-                   multiprocess_mode=envs.VLLM_ENABLE_V1_MULTIPROCESSING)
-
-    def _add_processed_request(
-        self,
-        request_id: str,
-        processed_inputs: ProcessorInputs,
-        params: Union[SamplingParams, PoolingParams],
-        arrival_time: float,
-        lora_request: Optional[LoRARequest],
-        prompt_adapter_request: Optional[PromptAdapterRequest],
-        trace_headers: Optional[Mapping[str, str]] = None,
-        priority: int = 0,
-    ) -> None:
-        request = self.processor.custom_process_inputs(request_id, processed_inputs, params,
-                                                arrival_time, lora_request,
-                                                trace_headers,
-                                                prompt_adapter_request,
-                                                priority)
-
-        n = params.n if isinstance(params, SamplingParams) else 1
-
-        if n == 1:
-            # Make a new RequestState and queue.
-            self.output_processor.add_request(request, None, 0)
-            # Add the request to EngineCore.
-            self.engine_core.add_request(request)
-            return
-
-        # Fan out child requests (for n>1).
-        parent_req = ParentRequest(request_id, params)
-        for idx in range(n):
-            request_id, params = parent_req.get_child_info(idx)
-            child_request = request if idx == n - 1 else copy(request)
-            child_request.request_id = request_id
-            child_request.sampling_params = params
-
-            # Make a new RequestState and queue.
-            self.output_processor.add_request(child_request, parent_req, idx)
-            # Add the request to EngineCore.
-            self.engine_core.add_request(child_request)
-
-    def step_nowait(self) -> list[RequestOutput]:
-
-        if self.should_execute_dummy_batch:
-            self.should_execute_dummy_batch = False
-            self.engine_core.execute_dummy_batch()
-            return []
-
-        # 1) Get EngineCoreOutput from the EngineCore.
-        outputs = self.engine_core.get_output_nowait()
-
-        # 2) Process EngineCoreOutputs.
-        processed_outputs = self.output_processor.process_outputs(
-            outputs.outputs)
-
-        # 3) Abort any reqs that finished due to stop strings.
-        self.engine_core.abort_requests(processed_outputs.reqs_to_abort)
-
-        return processed_outputs.request_outputs
diff --git a/roll/third_party/vllm/vllm_0_8_4/v1/worker.py b/roll/third_party/vllm/vllm_0_8_4/v1/worker.py
deleted file mode 100644
index a0e473d19..000000000
--- a/roll/third_party/vllm/vllm_0_8_4/v1/worker.py
+++ /dev/null
@@ -1,51 +0,0 @@
-import gc
-import time
-from collections import OrderedDict
-
-import torch
-from vllm.device_allocator.cumem import CuMemAllocator
-
-from roll.platforms import current_platform
-from roll.third_party.vllm.vllm_utils import TensorLoRARequest, patch_vllm_lora_manager
-from roll.third_party.vllm.worker_helper import WorkerHelper
-from roll.utils.logging import get_logger
-from roll.utils.send_recv_utils import RecvBucketManager
-
-
-logger = get_logger()
-
-Worker = current_platform.get_vllm_worker_class()
-
-class Worker084(WorkerHelper, Worker):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.lora_params = OrderedDict()
-        patch_vllm_lora_manager()
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker, is_lora):
-        weight_dict = weight
-        weight = torch.tensor(weight_dict["weight"], dtype=weight_dict["dtype"]).to(current_platform.device_type)
-        super().update_parameter(parameter_name, weight, ranks_in_worker, is_lora)
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        RecvBucketManager.dict_to_meta(meta_infos)
-        super().broadcast_bucket(src_pp_rank, meta_infos, bucket_size)
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        RecvBucketManager.dict_to_meta(meta_infos)
-        buffer = torch.tensor(buffer, dtype=torch.int8, device=current_platform.device_type)
-        super().update_parameter_in_bucket(meta_infos, buffer, ranks_in_worker)
-
-    def add_lora(self, peft_config) -> bool:
-        lora_int_id = int(time.time_ns() % 0x7FFFFFFF)
-        lora_request = TensorLoRARequest(
-            lora_name=f"{lora_int_id}",
-            lora_int_id=lora_int_id,
-            lora_path="dummy_lora_path",
-            peft_config=peft_config,
-            lora_tensors=self.lora_params,
-        )
-        del self.lora_params
-        self.lora_params = OrderedDict()
-        super().reload_model()
-        return self.model_runner.add_lora(lora_request)
diff --git a/roll/third_party/vllm/vllm_0_8_4/worker.py b/roll/third_party/vllm/vllm_0_8_4/worker.py
deleted file mode 100644
index af38f2898..000000000
--- a/roll/third_party/vllm/vllm_0_8_4/worker.py
+++ /dev/null
@@ -1,16 +0,0 @@
-import gc
-from typing import Optional
-
-import torch
-from roll.platforms import current_platform
-
-from roll.third_party.vllm.worker_helper import WorkerHelper
-from roll.utils.logging import get_logger
-
-logger = get_logger()
-
-Worker = current_platform.get_vllm_worker_class()
-
-class Worker084(WorkerHelper, Worker):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
diff --git a/roll/third_party/vllm/vllm_utils.py b/roll/third_party/vllm/vllm_utils.py
index 2a61616ea..9adc8c6d1 100644
--- a/roll/third_party/vllm/vllm_utils.py
+++ b/roll/third_party/vllm/vllm_utils.py
@@ -1,17 +1,25 @@
-# borrow from https://github.com/volcengine/verl/blob/main/verl/utils/vllm_utils.py
 from dataclasses import field
 from typing import List
+from packaging.version import Version
 
-from vllm.lora.models import LoRAModel
+import vllm
 from vllm.lora.request import LoRARequest
 from vllm.lora.utils import get_adapter_absolute_path
 from vllm.lora.worker_manager import LRUCacheWorkerLoRAManager
+if Version("0.13.0") <= Version(vllm.__version__):
+    from vllm.lora.lora_model import LoRAModel
+else:
+    from vllm.lora.models import LoRAModel
 
 
+# TODO: remove this patch once vllm 0.8.4 is deprecated
+# Patch weight loader for moe models
+# borrow from https://github.com/volcengine/verl/blob/main/verl/utils/vllm_utils.py
 SUPPORTED_MOE_MODELS = []
 
 try:
     from vllm.model_executor.models.deepseek_v2 import DeepseekV2ForCausalLM, DeepseekV3ForCausalLM
+
     SUPPORTED_MOE_MODELS.append(DeepseekV2ForCausalLM)
     SUPPORTED_MOE_MODELS.append(DeepseekV3ForCausalLM)
 except ImportError:
@@ -19,12 +27,14 @@
 
 try:
     from vllm.model_executor.models.qwen2_moe import Qwen2MoeForCausalLM
+
     SUPPORTED_MOE_MODELS.append(Qwen2MoeForCausalLM)
 except ImportError:
     pass
 
 try:
     from vllm.model_executor.models.qwen3_moe import Qwen3MoeForCausalLM
+
     SUPPORTED_MOE_MODELS.append(Qwen3MoeForCausalLM)
 except ImportError:
     pass
@@ -42,6 +52,7 @@ def patch_vllm_moe_model_weight_loader(model):
             if ("w13_weight" in name or "w2_weight" in name) and not skip_patch:
                 param.weight_loader = mlp.experts.weight_loader
 
+
 class TensorLoRARequest(LoRARequest):
     peft_config: dict = field(default=None)
     lora_tensors: dict = field(default=None)
@@ -57,16 +68,21 @@ def load_adapter(self, lora_request: TensorLoRARequest) -> LoRAModel:
         To synchronize the LoRA tensors of the actor model, we need to find a workaround to enable VLLM to load memory-based LoRA tensors.
         """
         try:
+            from packaging.version import Version
+            from vllm import __version__ as vllm_version
+
             supported_lora_modules = self._adapter_manager.supported_lora_modules
             packed_modules_mapping = self._adapter_manager.packed_modules_mapping
-            expected_lora_modules: List[str] = []
+            expected_lora_lst: list[str] = []
             for module in supported_lora_modules:
                 if module in packed_modules_mapping:
-                    expected_lora_modules.extend(packed_modules_mapping[module])
+                    expected_lora_lst.extend(packed_modules_mapping[module])
                 else:
-                    expected_lora_modules.append(module)
+                    expected_lora_lst.append(module)
+                if module == "experts":
+                    expected_lora_lst.append(module)
 
-            expected_lora_modules = list(set(expected_lora_modules))
+            expected_lora_modules = list(set(expected_lora_lst))
 
             lora_tensors = None
             from vllm.lora.peft_helper import PEFTHelper
@@ -76,9 +92,15 @@ def load_adapter(self, lora_request: TensorLoRARequest) -> LoRAModel:
                 lora_tensors = lora_request.lora_tensors
                 peft_helper = PEFTHelper.from_dict(peft_config)
             else:
+                kwargs = {}
+                if Version(vllm_version) > Version("0.8.4"):
+                    kwargs["tensorizer_config_dict"] = lora_request.tensorizer_config_dict
                 lora_path = get_adapter_absolute_path(lora_request.lora_path)
-
-                peft_helper = PEFTHelper.from_local_dir(lora_path, self.max_position_embeddings)
+                peft_helper = PEFTHelper.from_local_dir(
+                    lora_path,
+                    self.max_position_embeddings,
+                    **kwargs,
+                )
 
             # Validates the LoRA configuration against requirements before
             # loading weights, throwing an exception if validation fails.
@@ -92,19 +114,33 @@ def load_adapter(self, lora_request: TensorLoRARequest) -> LoRAModel:
                 hf_to_vllm_mapper = model.hf_to_vllm_mapper
 
             if isinstance(lora_request, TensorLoRARequest):
+                kwargs = {}
+                if Version(vllm_version) >= Version("0.12.0"):
+                    kwargs["model_vocab_size"] = self.vocab_size
+                else:
+                    kwargs["embeddings"] = None
+                    kwargs["target_embedding_padding"] = self.vocab_size + self.lora_config.lora_extra_vocab_size
+                    kwargs["embedding_modules"] = self.embedding_modules
+                    kwargs["embedding_padding_modules"] = self.embedding_padding_modules
                 lora = self._lora_model_cls.from_lora_tensors(
                     lora_model_id=lora_request.lora_int_id,
                     tensors=lora_tensors,
                     peft_helper=peft_helper,
                     device="cpu",
                     dtype=self.lora_config.lora_dtype,
-                    embeddings=None,
-                    target_embedding_padding=self.vocab_size + self.lora_config.lora_extra_vocab_size,
-                    embedding_modules=self.embedding_modules,
-                    embedding_padding_modules=self.embedding_padding_modules,
                     weights_mapper=hf_to_vllm_mapper,
+                    **kwargs,
                 )
             else:
+                kwargs = {}
+                if Version(vllm_version) > Version("0.8.4"):
+                    kwargs["tensorizer_config_dict"] = lora_request.tensorizer_config_dict
+                if Version(vllm_version) >= Version("0.12.0"):
+                    kwargs["model_vocab_size"] = self.vocab_size
+                else:
+                    kwargs["target_embedding_padding"] = self.vocab_size + self.lora_config.lora_extra_vocab_size
+                    kwargs["embedding_modules"] = self.embedding_modules
+                    kwargs["embedding_padding_modules"] = self.embedding_padding_modules
                 lora = self._lora_model_cls.from_local_checkpoint(
                     lora_path,
                     expected_lora_modules,
@@ -112,18 +148,12 @@ def load_adapter(self, lora_request: TensorLoRARequest) -> LoRAModel:
                     lora_model_id=lora_request.lora_int_id,
                     device="cpu",
                     dtype=self.lora_config.lora_dtype,
-                    target_embedding_padding=self.vocab_size + self.lora_config.lora_extra_vocab_size,
-                    embedding_modules=self.embedding_modules,
-                    embedding_padding_modules=self.embedding_padding_modules,
                     weights_mapper=hf_to_vllm_mapper,
+                    **kwargs,
                 )
         except Exception as e:
             raise e
 
-        if lora.extra_vocab_size > self.lora_config.lora_extra_vocab_size:
-            raise ValueError(
-                f"LoRA added vocab size {lora.extra_vocab_size} is greater than lora_extra_vocab_size {self.lora_config.lora_extra_vocab_size}."
-            )
         return lora
 
     setattr(LRUCacheWorkerLoRAManager, "_load_adapter", load_adapter)
diff --git a/roll/third_party/vllm/worker.py b/roll/third_party/vllm/worker.py
new file mode 100644
index 000000000..0348a2172
--- /dev/null
+++ b/roll/third_party/vllm/worker.py
@@ -0,0 +1,178 @@
+import gc
+import hashlib
+import json
+import time
+from collections import OrderedDict
+from typing import Iterable, Tuple
+
+import torch
+import vllm
+from packaging.version import Version
+
+from roll.platforms import current_platform
+from roll.third_party.vllm.vllm_utils import TensorLoRARequest, patch_vllm_lora_manager
+from roll.utils.collective import collective
+from roll.utils.cuda_ipc_utils import MultiprocessingSerializer
+from roll.utils.logging import get_logger
+from roll.utils.send_recv_utils import monkey_patch_torch_reductions, named_tensors_from_bucket
+
+logger = get_logger()
+
+
+class TensorLoraManager:
+    def __init__(self):
+        self.lora_params = OrderedDict()
+        self.add_lora_count = 0
+
+    def add_weight(self, name: str, weight: torch.Tensor):
+        self.lora_params[name] = weight
+
+    def build_request(self, peft_config: dict) -> TensorLoRARequest:
+        """
+        Generate a unique LoRA ID based on the PEFT configuration rather than
+        using a timestamp to assert all tp-ranks get the same LoRA ID.
+        """
+        self.add_lora_count += 1
+        peft_config["add_lora_count"] = self.add_lora_count
+        peft_config_str = json.dumps(peft_config, sort_keys=True)
+        hash_obj = hashlib.sha256(peft_config_str.encode("utf-8"))
+        hex_dig = hash_obj.hexdigest()
+        lora_int_id = int(hex_dig, 16) % 0x7FFFFFFF
+
+        lora_request = TensorLoRARequest(
+            lora_name=f"{lora_int_id}",
+            lora_int_id=lora_int_id,
+            lora_path="dummy_lora_path",
+            peft_config=peft_config,
+            lora_tensors=self.lora_params,
+        )
+        del self.lora_params
+        self.lora_params = OrderedDict()
+        return lora_request
+
+
+class WorkerBase:
+    def custom_init_worker(self, *args, **kwargs):
+        self.weight_loaded: bool = True
+        self.kv_cache_loaded: bool = True
+        self.buffers = None
+        self.buffer_cache = None
+        self.tensor_lora_manager = TensorLoraManager()
+
+    def reload_model(self):
+        if not self.weight_loaded:
+            self.wake_up(["weights"])
+            self.weight_loaded = True
+
+    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+        # before updating the parameters, we need to reinitialize the previously released model
+        self.reload_model()
+        if vllm.__version__ < "0.8.5":
+            from roll.third_party.vllm.vllm_utils import patch_vllm_moe_model_weight_loader
+
+            patch_vllm_moe_model_weight_loader(self.model_runner.model)
+        self.model_runner.model.load_weights(weights=weights)
+
+    def load_states(self):
+        self.reload_model()
+        if not self.kv_cache_loaded:
+            self.wake_up(["kv_cache"])
+            self.kv_cache_loaded = True
+        if vllm.__version__ < "0.8.5" and self.buffers is not None:
+            # https://github.com/vllm-project/vllm/issues/16564
+            model = self.model_runner.model
+            for name, buffer in model.named_buffers():
+                if name in self.buffers:
+                    buffer.data.copy_(self.buffers[name].data)
+            self.buffers = None
+
+    def offload_states(self, level):
+        assert (self.weight_loaded and self.kv_cache_loaded) or (not self.weight_loaded and not self.kv_cache_loaded)
+        if not self.weight_loaded:
+            return
+        if vllm.__version__ < "0.8.5" and level == 2:
+            # https://github.com/vllm-project/vllm/issues/16564
+            model = self.model_runner.model
+            self.buffers = {name: buffer.cpu().clone() for name, buffer in model.named_buffers()}
+        self.sleep(level)
+        self.weight_loaded = False
+        self.kv_cache_loaded = False
+        if hasattr(self, "recv_manager"):
+            self.recv_manager.clear()
+        gc.collect()
+        current_platform.empty_cache()
+
+    def setup_collective_group(self, master_address, master_port, rank_offset, world_size, group_name, backend):
+        group_rank = self.rank + rank_offset
+        collective.init_collective_group(
+            world_size,
+            rank=group_rank,
+            backend=backend,
+            group_name=group_name,
+            master_addr=master_address,
+            master_port=master_port,
+        )
+        logger.info(f"setup_collective_group: {group_name} rank: {group_rank} world_size: {world_size}")
+
+    def broadcast_parameter(self, names, dtypes, shapes, group_name, is_lora=False):
+        weights_and_handles = []
+        for name, dtype, shape in zip(names, dtypes, shapes):
+            target_dtype = dtype if isinstance(dtype, torch.dtype) else getattr(torch, dtype)
+            weight = torch.empty(shape, dtype=target_dtype, device=self.device)
+            handle = collective.broadcast(tensor=weight, src_rank=0, group_name=group_name, async_op=True)
+            weights_and_handles.append((name, weight, handle))
+
+        def weights_iter():
+            for name, weight, handle in weights_and_handles:
+                handle.wait()
+                yield name, weight
+
+        if is_lora:
+            for name, weight in weights_iter():
+                self.tensor_lora_manager.add_weight(name, weight)
+            return
+        self.load_weights(weights=weights_iter())
+
+    def update_parameter_in_bucket(self, serialized_named_tensors, is_lora=False):
+        monkey_patch_torch_reductions()
+        bucket_with_meta = MultiprocessingSerializer.deserialize(serialized_named_tensors[self.rank])
+        named_params = named_tensors_from_bucket(**bucket_with_meta)
+        if is_lora:
+            for name, weight in named_params:
+                self.tensor_lora_manager.add_weight(name, weight)
+            return
+        self.load_weights([(name, weight) for name, weight in named_params])
+
+    def process_weights_after_loading(self):
+        if Version(vllm.__version__) >= Version("0.11.1"):
+            from vllm.model_executor.model_loader.utils import process_weights_after_loading
+            from vllm.utils.torch_utils import set_default_torch_dtype
+            device_config = self.device_config
+            load_config = self.vllm_config.load_config
+            load_device = (device_config.device if load_config.device is None else load_config.device)
+            target_device = torch.device(load_device)
+            with set_default_torch_dtype(self.model_config.dtype):
+                process_weights_after_loading(self.model_runner.model,self.model_config,target_device)
+        if (Version("0.11.0") == Version(vllm.__version__) or
+                Version("0.11.1rc1") == Version(vllm.__version__) or
+                Version("0.11.1rc2.dev0+gc3a722fcb.d20251021") == Version(vllm.__version__)):
+            from vllm.model_executor.model_loader.utils import process_weights_after_loading,set_default_torch_dtype
+            device_config = self.device_config
+            load_config = self.vllm_config.load_config
+            load_device = (device_config.device if load_config.device is None else load_config.device)
+            target_device = torch.device(load_device)
+            with set_default_torch_dtype(self.model_config.dtype):
+                process_weights_after_loading(self.model_runner.model,self.model_config,target_device)
+
+
+class WorkerV1(WorkerBase):
+    def custom_init_worker(self, *args, **kwargs):
+        super().custom_init_worker(*args, **kwargs)
+        patch_vllm_lora_manager()
+
+    # Use custom prefix because worker_extension_cls can not has
+    # conflicting method name with vllm worker.
+    def custom_add_lora(self, peft_config) -> bool:
+        lora_request = self.tensor_lora_manager.build_request(peft_config)
+        super().reload_model()
+        return self.model_runner.add_lora(lora_request)
diff --git a/roll/third_party/vllm/worker_helper.py b/roll/third_party/vllm/worker_helper.py
deleted file mode 100644
index e6b0d9045..000000000
--- a/roll/third_party/vllm/worker_helper.py
+++ /dev/null
@@ -1,120 +0,0 @@
-import gc
-from typing import Tuple, Iterable
-
-import torch
-import torch.distributed as dist
-import vllm
-
-from roll.utils.collective import collective
-from roll.utils.functionals import get_dist_info_from_comm_plan
-from roll.utils.logging import get_logger
-from roll.utils.send_recv_utils import RecvBucketManager
-from roll.third_party.vllm.vllm_utils import patch_vllm_moe_model_weight_loader
-from roll.platforms import current_platform
-
-logger = get_logger()
-
-
-class WorkerHelper:
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.weight_loaded : bool = True
-        self.kv_cache_loaded : bool = True
-        self.buffers = None
-
-    def reload_model(self):
-        if not self.weight_loaded:
-            self.wake_up(["weights"])
-            self.weight_loaded = True
-
-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
-        # before updating the parameters, we need to reinitialize the previously released model
-        self.reload_model()
-        patch_vllm_moe_model_weight_loader(self.model_runner.model)
-        self.model_runner.model.load_weights(weights=weights)
-
-    def load_states(self):
-        self.reload_model()
-        if not self.kv_cache_loaded:
-            self.wake_up(["kv_cache"])
-            self.kv_cache_loaded = True
-        if vllm.__version__ < "0.8.5" and  self.buffers is not None:
-            # https://github.com/vllm-project/vllm/issues/16564
-            model = self.model_runner.model
-            for name, buffer in model.named_buffers():
-                if name in self.buffers:
-                    buffer.data.copy_(self.buffers[name].data)
-            self.buffers = None
-
-    def offload_states(self, level):
-        assert (self.weight_loaded and self.kv_cache_loaded) or (not self.weight_loaded and not self.kv_cache_loaded)
-        if not self.weight_loaded:
-            return
-        if vllm.__version__ < "0.8.5" and level == 2:
-            # https://github.com/vllm-project/vllm/issues/16564
-            model = self.model_runner.model
-            self.buffers = {name: buffer.cpu().clone() for name, buffer in model.named_buffers()}
-        self.sleep(level)
-        self.weight_loaded = False
-        self.kv_cache_loaded = False
-        if hasattr(self, 'recv_manager'):
-            self.recv_manager.clear()
-        gc.collect()
-        current_platform.empty_cache()
-
-    def setup_collective_group(self, comm_plan, backend, rank_in_cluster):
-        self.model_update_comm_plan = getattr(self, "model_update_comm_plan", {})
-        rank, comm_plan_args = get_dist_info_from_comm_plan(comm_plan, rank_in_cluster=rank_in_cluster,
-                                                            rank_in_worker=dist.get_rank())
-        if rank is None:
-            logger.info(f"no comm_plan found for rank {rank_in_cluster}/{dist.get_rank()}")
-            return
-        group_name = comm_plan_args["group_name"]
-        master_addr = comm_plan_args["master_addr"]
-        master_port = comm_plan_args["master_port"]
-        world_size = len(comm_plan_args["tgt_devices"]) + 1
-        src_pp_rank = comm_plan_args["src_pp_rank"]
-        collective.init_collective_group(world_size, rank, backend=backend, group_name=group_name,
-                                         master_addr=master_addr, master_port=master_port)
-        # A small all_reduce for warmup.
-        collective.allreduce(torch.zeros(1).to(current_platform.device_type), group_name=group_name)
-        self.model_update_comm_plan[src_pp_rank] = dict(rank=rank,
-                                                        world_size=world_size,
-                                                        src_pp_rank=src_pp_rank,
-                                                        group_name=group_name,
-                                                        comm_plan=comm_plan,
-                                                        comm_plan_args=comm_plan_args)
-        logger.info(f"warmup setup_collective_group: {group_name} rank: {rank} world_size: {world_size}")
-
-    def broadcast_bucket(self, src_pp_rank, meta_infos, bucket_size):
-        if src_pp_rank not in self.model_update_comm_plan:
-            return
-        comm_plan = self.model_update_comm_plan[src_pp_rank]
-        buffer = torch.empty(bucket_size, dtype=torch.int8, device=current_platform.device_type)
-        collective.broadcast(tensor=buffer, src_rank=0, group_name=comm_plan["group_name"])
-        WorkerHelper.update_parameter_in_bucket(self, meta_infos, buffer, [dist.get_rank()])
-
-    def broadcast_parameter(self, src_pp_rank, dtype, shape, parameter_name, is_lora=False):
-        if src_pp_rank not in self.model_update_comm_plan:
-            return
-        comm_plan = self.model_update_comm_plan[src_pp_rank]
-        weight = torch.empty(shape, dtype=dtype, device=current_platform.device_type)
-        collective.broadcast(tensor=weight, src_rank=0, group_name=comm_plan["group_name"])
-        WorkerHelper.update_parameter(self, parameter_name, weight, [dist.get_rank()], is_lora=is_lora)
-
-    def update_parameter(self, parameter_name, weight, ranks_in_worker, is_lora=False):
-        if is_lora:
-            self.lora_params[parameter_name] = weight
-            return
-        if dist.get_rank() not in ranks_in_worker:
-            return
-        self.load_weights([(parameter_name, weight)])
-        del weight
-
-    def update_parameter_in_bucket(self, meta_infos, buffer, ranks_in_worker):
-        if dist.get_rank() not in ranks_in_worker:
-            return
-        self.recv_manager = getattr(self, "recv_manager", RecvBucketManager())
-        named_params = self.recv_manager.process_bucket(meta_infos, buffer)
-        del buffer
-        self.load_weights([(name, weight) for name, weight in named_params.items()])
\ No newline at end of file
diff --git a/roll/utils/asyncio_decorator.py b/roll/utils/asyncio_decorator.py
new file mode 100644
index 000000000..5ae05620e
--- /dev/null
+++ b/roll/utils/asyncio_decorator.py
@@ -0,0 +1,41 @@
+import asyncio
+import functools
+from typing import Callable, Coroutine, Any, Type
+
+def run_sync(func: Callable[..., Coroutine[Any, Any, Any]]) -> Callable[..., Any]:
+    """
+    A decorator to run an async method synchronously.
+    It gets or creates an event loop and runs the async method until it completes.
+    """
+    @functools.wraps(func)
+    def wrapper(*args, **kwargs):
+        assert asyncio.iscoroutinefunction(func)
+        try:
+            loop = asyncio.get_event_loop()
+        except:
+            loop = asyncio.new_event_loop()
+            asyncio.set_event_loop(loop)
+        assert not loop.is_closed() and not loop.is_running()
+        coro = func(*args, **kwargs)
+        return loop.run_until_complete(coro)
+    return wrapper
+
+def create_sync_class(OriginalCls: Type) -> Type:
+    """
+    A factory function that creates a synchronous subclass of a given class.
+    
+    It generates and returns a new class that inherits from the original
+    but overrides all of its `async def` methods with synchronous wrappers.
+
+    The name of the new class will be 'Sync' + original name.
+    """
+    new_class_attrs = {
+        '__doc__': OriginalCls.__doc__
+    }
+
+    for name, method in OriginalCls.__dict__.items():
+        if not name.startswith('_') and asyncio.iscoroutinefunction(method):
+            new_class_attrs[name] = run_sync(method)
+
+    SyncVersion = type(f"Sync{OriginalCls.__name__}", (OriginalCls,), new_class_attrs)
+    return SyncVersion
\ No newline at end of file
diff --git a/roll/utils/checkpoint_manager.py b/roll/utils/checkpoint_manager.py
index 92c6d499d..19b32225a 100644
--- a/roll/utils/checkpoint_manager.py
+++ b/roll/utils/checkpoint_manager.py
@@ -38,8 +38,8 @@ def file_lock_context(lock_path: str):
 shared_storage = None
 
 def model_path_cache(func):
-    node_ip = get_node_ip()
     def wrapper(model_name_or_path: str, local_dir: Optional[str] = None):
+        node_ip = get_node_ip()
         global shared_storage
         if shared_storage is None:
             shared_storage = SharedStorage.options(
diff --git a/roll/utils/collective/collective.py b/roll/utils/collective/collective.py
index ea22a3983..78bcd5fcb 100644
--- a/roll/utils/collective/collective.py
+++ b/roll/utils/collective/collective.py
@@ -1,4 +1,4 @@
-from typing import Union
+from typing import Union, Optional
 
 from torch._C._distributed_c10d import ReduceOp
 from torch.distributed import Backend
@@ -21,13 +21,14 @@ def __init__(self):
         self._name_group_map = {}
         self._group_name_map = {}
 
-    def create_collective_group(self, backend, world_size, rank, master_addr: str, master_port: int, group_name):
+    def create_collective_group(self, backend, world_size, rank, master_addr: str, master_port: int, group_name, global_ranks=None):
         self._name_group_map[group_name] = init_custom_process_group(
             backend=backend,
             init_method=f"tcp://{master_addr}:{master_port}",
             world_size=world_size,
             rank=rank,
             group_name=group_name,
+            global_ranks=global_ranks
         )
 
         return self._name_group_map[group_name]
@@ -65,6 +66,7 @@ def init_collective_group(
     master_port: int,
     backend: Union[str, Backend] = current_platform.communication_backend,
     group_name: str = "default",
+    global_ranks: Optional[list] = None,
 ):
     global _group_mgr
     if not group_name:
@@ -76,7 +78,7 @@ def init_collective_group(
     assert world_size > 0
     assert rank >= 0
     assert rank < world_size
-    _group_mgr.create_collective_group(backend, world_size, rank, master_addr, master_port, group_name)
+    _group_mgr.create_collective_group(backend, world_size, rank, master_addr, master_port, group_name, global_ranks=global_ranks)
 
 
 def allreduce(tensor, group_name: str = "default", op=ReduceOp.SUM):
@@ -84,11 +86,20 @@ def allreduce(tensor, group_name: str = "default", op=ReduceOp.SUM):
     dist.all_reduce(tensor, op=op, group=_group_mgr.get_group_by_name(group_name))
 
 
-def broadcast(tensor, src_rank: int = 0, group_name: str = "default"):
+def broadcast(tensor, src_rank: int = 0, group_name: str = "default", async_op=False):
     global _group_mgr
-    dist.broadcast(tensor, src=src_rank, group=_group_mgr.get_group_by_name(group_name))
-
+    return dist.broadcast(tensor, src=src_rank, group=_group_mgr.get_group_by_name(group_name), async_op=async_op)
 
 def barrier(group_name):
     global _group_mgr
     dist.barrier(group=_group_mgr.get_group_by_name(group_name), device_ids=[0])
+
+def all_gather_object(object_list, obj, group_name):
+    global _group_mgr
+    dist.all_gather_object(object_list, obj, group=_group_mgr.get_group_by_name(group_name))
+
+def broadcast_object_list(object_list, src=None, group_name="default", device=None, group_src=None):
+    global _group_mgr
+    assert (src is not None and group_src is None) or (src is None and group_src is not None),\
+        ("Either src or group_src must be set, but they cannot be set simultaneously.")
+    dist.broadcast_object_list(object_list, src=src, group_src=group_src, group=_group_mgr.get_group_by_name(group_name))
diff --git a/roll/utils/collective/pg_utils.py b/roll/utils/collective/pg_utils.py
index d6d384b22..0586888e7 100644
--- a/roll/utils/collective/pg_utils.py
+++ b/roll/utils/collective/pg_utils.py
@@ -1,4 +1,5 @@
 import time
+from packaging import version
 
 import torch
 
@@ -16,6 +17,7 @@ def init_custom_process_group(
     store=None,
     group_name=None,
     pg_options=None,
+    global_ranks=None,
 ):
     from torch.distributed.distributed_c10d import (
         Backend,
@@ -56,11 +58,11 @@ def init_custom_process_group(
     # NOTE: The pg_options parameter was renamed into backend_options in PyTorch 2.6.0
     # https://github.com/pytorch/pytorch/commit/a0c7029a75628cd5fa8df83c0de0ea98ee7fd844
     # We need to determine the appropriate parameter name based on PyTorch version
-    pg_options_param_name = "backend_options" if str(torch.__version__) >= "2.6" else "pg_options"
+    pg_options_param_name = "backend_options" if version.parse(torch.__version__) >= version.parse("2.6") else "pg_options"
     pg, _ = _new_process_group_helper(
         world_size,
         rank,
-        [],
+        global_ranks if global_ranks is not None else [],
         backend,
         store,
         group_name=group_name,
@@ -68,7 +70,10 @@ def init_custom_process_group(
         timeout=timeout,
     )
 
-    _world.pg_group_ranks[pg] = {i: i for i in range(world_size)}
+    if global_ranks is not None:
+        _world.pg_group_ranks[pg] = {gr: lr for lr, gr in enumerate(global_ranks)}
+    else:
+        _world.pg_group_ranks[pg] = {i: i for i in range(world_size)}
 
     # 多device id时,barrier还需要指定device_ids，不然会校验所有相关的device是否有相同
     # barrier(group=pg, device_ids=[0])
diff --git a/roll/utils/constants.py b/roll/utils/constants.py
index 4884f384c..561c62e12 100644
--- a/roll/utils/constants.py
+++ b/roll/utils/constants.py
@@ -4,7 +4,6 @@
 
 RAY_NAMESPACE = "roll"
 STORAGE_NAME = "SHARED_STORAGE_ACTOR"
-GENERATE_SCHEDULER_NAME = "GENERATE_SCHEDULER_ACTOR"
 REWARD_SCHEDULER_NAME = "REWARD_SCHEDULER_ACTOR"
 
 BARRIER_NAME = "BARRIER_ACTOR_NAME"
@@ -25,6 +24,7 @@ class GenerateStopReason(enum.Enum):
     FINISH = enum.auto()
     ABORT = enum.auto()
     MAX_LENGTH = enum.auto()
+    NO_SYSTEM_PROMPT = enum.auto()
     
     
 class EpisodeStopReason(enum.Enum):
@@ -37,4 +37,5 @@ class EpisodeStopReason(enum.Enum):
     ENV_TIMEOUT = "env_timeout"   
     LLM_GENERATE_FAILED = "llm_generate_failed" 
     UNKNOWN = "unknown"
-    NO_SYSTEM_PROMPT = "no_system_prompt"
\ No newline at end of file
+    NO_SYSTEM_PROMPT = "no_system_prompt"
+    EVAL_GT = "eval_gt"
\ No newline at end of file
diff --git a/roll/utils/context_parallel/__init__.py b/roll/utils/context_parallel/__init__.py
index fff4995fc..8112b8d2b 100644
--- a/roll/utils/context_parallel/__init__.py
+++ b/roll/utils/context_parallel/__init__.py
@@ -1,5 +1,4 @@
 from roll.utils.context_parallel.globals import get_ulysses_group, set_upg_manager
 from roll.utils.context_parallel.monkey_patch import apply_ulysses_patch, unapply_ulysses_patch
 
-
 __all__ = ["set_upg_manager", "get_ulysses_group", "apply_ulysses_patch", "unapply_ulysses_patch"]
diff --git a/roll/utils/context_parallel/all_to_all.py b/roll/utils/context_parallel/all_to_all.py
index 1fff2a84b..155457273 100644
--- a/roll/utils/context_parallel/all_to_all.py
+++ b/roll/utils/context_parallel/all_to_all.py
@@ -36,19 +36,24 @@ def all_to_all_4D(
         # Pad sequence for multi-modality use case
         ulysses_seqlen = [torch.zeros(1, dtype=torch.int64, device=input.device) for _ in range(seq_world_size)]
         dist.barrier(group=group)
-        dist.all_gather(ulysses_seqlen, torch.tensor(shard_seqlen, device=input.device), group=group)
+        dist.all_gather(
+            ulysses_seqlen,
+            torch.tensor([shard_seqlen], device=input.device),
+            group=group,
+        )
         set_ulysses_seqlen(ulysses_seqlen)
 
         max_global_length = max(ulysses_seqlen)
         # pad to the second dimension to the longest
         input = torch.nn.functional.pad(input, (0, 0, 0, 0, 0, max_global_length - shard_seqlen))
 
-        seqlen = max_global_length * seq_world_size
+        shard_seqlen_padded = int(max_global_length.item())
+        seqlen_padded = shard_seqlen_padded * seq_world_size
         shard_hc = hc // seq_world_size
 
         # transpose groups of heads with the seq-len parallel dimension, so that we can scatter them!
         # (bs, seqlen/P, hc, hs) -reshape-> (bs, seq_len/P, P, hc/P, hs) -transpose(0,2)-> (P, seq_len/P, bs, hc/P, hs)
-        input_t = input.reshape(bs, shard_seqlen, seq_world_size, shard_hc, hs).transpose(0, 2).contiguous()
+        input_t = input.reshape(bs, shard_seqlen_padded, seq_world_size, shard_hc, hs).transpose(0, 2).contiguous()
 
         output = torch.empty_like(input_t)
         # https://pytorch.org/docs/stable/distributed.html#torch.distributed.all_to_all_single
@@ -61,18 +66,19 @@ def all_to_all_4D(
         else:
             output = input_t
         # if scattering the seq-dim, transpose the heads back to the original dimension
-        output = output.reshape(seqlen, bs, shard_hc, hs)
+        output = output.reshape(seqlen_padded, bs, shard_hc, hs)
 
         # then we will unpad it back
-        output_list = torch.split(output, max_global_length.item(), dim=0)
+        output_list = torch.split(output, shard_seqlen_padded, dim=0)
         assert len(output_list) == seq_world_size
         unpadded_output_list = [_output[: _seqlen.item()] for _output, _seqlen in zip(output_list, ulysses_seqlen)]
 
         # Concatenate the unpadded tensors back together
         output = torch.cat(unpadded_output_list)
+        seqlen_actual = int(output.size(0))
 
-        # (seq_len, bs, hc/P, hs) -reshape-> (bs, seq_len, hc/P, hs)
-        output = output.transpose(0, 1).contiguous().reshape(bs, seqlen, shard_hc, hs)
+        # (seq_len_actual, bs, hc/P, hs) -> (bs, seq_len_actual, hc/P, hs)
+        output = output.transpose(0, 1).contiguous().reshape(bs, seqlen_actual, shard_hc, hs)
 
         return output
 
@@ -117,11 +123,11 @@ def all_to_all_4D(
         output = output.reshape(hc, max_global_length, bs, hs)
 
         # unpad the output
-        self_length = ulysses_seqlen[dist.get_rank(group=group)]
+        self_length = int(ulysses_seqlen[dist.get_rank(group=group)].item())
         output = output[:, :self_length, :, :]
 
-        # (hc, seqlen/N, bs, hs) -tranpose(0,2)-> (bs, seqlen/N, hc, hs)
-        output = output.transpose(0, 2).contiguous().reshape(bs, max_global_length, hc, hs)
+        # (hc, local_seqlen, bs, hs) -> (bs, local_seqlen, hc, hs)
+        output = output.transpose(0, 2).contiguous().reshape(bs, self_length, hc, hs)
 
         return output
     else:
diff --git a/roll/utils/context_parallel/autograd_gather.py b/roll/utils/context_parallel/autograd_gather.py
new file mode 100644
index 000000000..4a2ee5f6f
--- /dev/null
+++ b/roll/utils/context_parallel/autograd_gather.py
@@ -0,0 +1,98 @@
+"""
+PumpkinComment:
+
+Why this exists:
+- CP ranks typically see the same (replicated) batch, but operate on different sequence shards.
+- Downstream loss code often wants full-sequence tensors (e.g., log_probs, entropy).
+- A naive gather using torch.distributed.nn.functional.all_gather has a backward that performs
+  ReduceScatter(SUM)-like behavior, which interacts poorly with replicated-loss semantics.
+
+- forward: gather shards and concatenate along `gather_dim`
+- backward: *slice only* the gradient shard for this rank
+- optional `grad_scaler`: multiply grad_output by world_size before slicing, so that if an outer
+  data-parallel reduction averages across CP replicas, the effective gradient matches cp_size=1.
+
+Reference: https://github.com/volcengine/verl/blob/main/verl/utils/ulysses.py
+"""
+
+from typing import Optional
+
+import torch
+import torch.distributed as dist
+
+
+class _UlyssesGather(torch.autograd.Function):
+    @staticmethod
+    def forward(
+        ctx,
+        group: dist.ProcessGroup,
+        local_tensor: torch.Tensor,
+        gather_dim: int,
+        grad_scaler: bool,
+    ) -> torch.Tensor:
+        # Normalize dim.
+        if gather_dim < 0:
+            gather_dim = local_tensor.dim() + gather_dim
+
+        world_size = dist.get_world_size(group=group)
+        rank = dist.get_rank(group=group)
+        part_size = local_tensor.size(gather_dim)
+
+        ctx.group = group
+        ctx.gather_dim = gather_dim
+        ctx.grad_scaler = grad_scaler
+        ctx.world_size = world_size
+        ctx.rank = rank
+        ctx.part_size = part_size
+
+        # Move gather_dim to leading dim so we can use all_gather_into_tensor on dim0.
+        x_perm = local_tensor.movedim(gather_dim, 0).contiguous()
+        out_perm = torch.empty(
+            (world_size * x_perm.size(0),) + tuple(x_perm.shape[1:]),
+            device=x_perm.device,
+            dtype=x_perm.dtype,
+        )
+        dist.all_gather_into_tensor(out_perm, x_perm, group=group)
+
+        full = out_perm.movedim(0, gather_dim).contiguous()
+        return full
+
+    @staticmethod
+    def backward(ctx, grad_output: torch.Tensor):
+        # grad_output is the full concatenated tensor on every rank.
+        if ctx.grad_scaler:
+            grad_output = grad_output * ctx.world_size
+
+        gdim = ctx.gather_dim
+        if gdim < 0:
+            gdim = grad_output.dim() + gdim
+
+        grad_perm = grad_output.movedim(gdim, 0).contiguous()
+        start = ctx.rank * ctx.part_size
+        end = (ctx.rank + 1) * ctx.part_size
+        grad_local_perm = grad_perm[start:end].contiguous()
+        grad_local = grad_local_perm.movedim(0, gdim).contiguous()
+        return None, grad_local, None, None
+
+
+def ulysses_gather(
+    x: torch.Tensor,
+    *,
+    gather_dim: int,
+    group: Optional[dist.ProcessGroup],
+    grad_scaler: bool = True,
+) -> torch.Tensor:
+    """
+    Gather shards across `group` and concatenate along `gather_dim` with autograd-friendly backward.
+
+    Args:
+        x: local shard tensor
+        gather_dim: dim to concatenate along
+        group: process group (if None or world_size<=1, returns x)
+        grad_scaler: whether to scale grad_output by world_size before slicing in backward
+    """
+    if group is None:
+        return x
+    if dist.get_world_size(group=group) <= 1:
+        return x
+    return _UlyssesGather.apply(group, x, gather_dim, grad_scaler)
diff --git a/roll/utils/context_parallel/hf_flash_attention_patch.py b/roll/utils/context_parallel/hf_flash_attention_patch.py
new file mode 100644
index 000000000..5524f9b56
--- /dev/null
+++ b/roll/utils/context_parallel/hf_flash_attention_patch.py
@@ -0,0 +1,404 @@
+import inspect
+from typing import Any, Callable, Dict, Optional, Tuple
+
+import torch
+import torch.distributed as dist
+
+from roll.utils.context_parallel.all_to_all import SeqAllToAll4D, all_to_all_4D
+from roll.utils.context_parallel.globals import get_ulysses_group, get_ulysses_size
+from roll.utils.context_parallel.ulysses_attention import expandKV
+from roll.utils.logging import get_logger
+
+logger = get_logger()
+
+_DTYPE_ID_TO_DTYPE = {
+    0: torch.int32,
+    1: torch.int64,
+    2: torch.bool,
+    3: torch.float16,
+    4: torch.bfloat16,
+    5: torch.float32,
+}
+
+
+def _dtype_to_id(dtype: torch.dtype) -> int:
+    for k, v in _DTYPE_ID_TO_DTYPE.items():
+        if v == dtype:
+            return k
+    return -1
+
+
+def _sync_optional_tensor_meta(
+    t: Any,
+    *,
+    group: dist.ProcessGroup,
+    dev: torch.device,
+) -> Tuple[bool, Optional[torch.dtype]]:
+    """
+    Synchronize whether `t` is a tensor across `group` and (if present) its dtype.
+    Returns:
+      (global_present, global_dtype_if_present)
+    """
+    present = 1 if torch.is_tensor(t) else 0
+    dtype_id = _dtype_to_id(t.dtype) if torch.is_tensor(t) else -1
+    meta = torch.tensor([present, dtype_id], device=dev, dtype=torch.int32)
+    metas = [torch.empty_like(meta) for _ in range(dist.get_world_size(group))]
+    dist.all_gather(metas, meta, group=group)
+    meta_stack = torch.stack(metas, dim=0)
+
+    global_present = bool(int(meta_stack[:, 0].max().item()) == 1)
+    if not global_present:
+        return False, None
+
+    present_mask = meta_stack[:, 0] == 1
+    dtype_ids = meta_stack[present_mask][:, 1]
+    dtype_min = int(dtype_ids.min().item())
+    dtype_max = int(dtype_ids.max().item())
+    if dtype_min != dtype_max or dtype_min not in _DTYPE_ID_TO_DTYPE:
+        return True, None
+    return True, _DTYPE_ID_TO_DTYPE[dtype_min]
+
+
+_PATCH_STATE: Dict[str, Any] = {
+    "patched": False,
+    "orig_modeling_flash_attention_forward": None,
+    "orig_integrations_flash_attention_forward": None,
+}
+
+
+def _normalize_position_ids_for_fa_varlen(position_ids: Any) -> Any:
+    """
+    Normalize `position_ids` for HF FlashAttention varlen bookkeeping.
+
+    Some Transformers versions derive FlashAttention varlen `cu_seqlens` by scanning `position_ids == 0`
+    to find packed-sequence boundaries. In some pipelines, user-provided `position_ids` starts from 1,
+    meaning there are no zeros and boundary detection fails.
+
+    In typical HF attention implementations, RoPE is applied to Q/K before calling the (FlashAttention)
+    forward, so `position_ids` passed into `_flash_attention_forward` is used for varlen metadata, not
+    for rotary math. Therefore shifting it here is safe for correctness of attention computation.
+
+    Policy:
+    - If `position_ids` is an int tensor of shape (seqlen,) or (bs, seqlen) and the first token of each
+      sequence is not 0 (e.g. starts from 1), shift each sequence by its first value so it starts at 0.
+      This also works when CP-align padding introduces zeros later in the tensor (e.g. rmpad adds [0..pad)).
+    - Otherwise return it unchanged.
+
+    Note:
+    - This normalization is intentionally applied *after* we gather `position_ids` to the global sequence
+      for Ulysses CP so that every rank sees consistent varlen metadata.
+    """
+    if not torch.is_tensor(position_ids):
+        return position_ids
+    if position_ids.numel() == 0:
+        return position_ids
+    if position_ids.dtype not in (torch.int32, torch.int64):
+        return position_ids
+    if position_ids.dim() not in (1, 2):
+        return position_ids
+
+    if position_ids.dim() == 1:
+        start_val = position_ids[:1]  # [1]
+        if int(start_val.item()) == 0:
+            return position_ids
+        if int(start_val.item()) < 0:
+            return position_ids
+        return position_ids - start_val
+
+    # dim == 2: shift each row by its own first token
+    start_val = position_ids[:, :1]  # [bs, 1]
+    # If all rows already start at 0, leave unchanged.
+    if bool(torch.all(start_val == 0).item()):
+        return position_ids
+    # Avoid shifting for negative/sentinel schemes.
+    if bool(torch.any(start_val < 0).item()):
+        return position_ids
+    return position_ids - start_val
+
+
+def _pad_to(t: torch.Tensor, target_len: int, *, dim: int = -1, pad_value: int = 0) -> torch.Tensor:
+    if dim < 0:
+        dim = dim % t.ndim
+    if t.size(dim) >= target_len:
+        return t
+    pad_len = target_len - t.size(dim)
+    pad = [0, 0] * t.ndim
+    pad[2 * (t.ndim - 1 - dim) + 1] = pad_len
+    return torch.nn.functional.pad(t, pad, value=pad_value)
+
+
+def _gather_sharded_seq_tensor(
+    local: torch.Tensor,
+    *,
+    group: dist.ProcessGroup,
+    shard_lens: torch.Tensor,
+) -> torch.Tensor:
+    world_size = dist.get_world_size(group)
+    max_len = int(shard_lens.max().item())
+
+    local_padded = _pad_to(local, max_len, dim=-1, pad_value=0).contiguous()
+    gathered = [
+        torch.empty(local_padded.shape, device=local_padded.device, dtype=local_padded.dtype)
+        for _ in range(world_size)
+    ]
+    dist.all_gather(gathered, local_padded, group=group)
+
+    pieces = []
+    for i, g in enumerate(gathered):
+        li = int(shard_lens[i].item())
+        pieces.append(g[..., :li])
+    return torch.cat(pieces, dim=-1)
+
+
+def _maybe_repeat_kv_for_ulysses(
+    key_states: torch.Tensor,
+    value_states: torch.Tensor,
+    *,
+    ulysses_size: int,
+) -> Tuple[torch.Tensor, torch.Tensor]:
+    # PumpkinComment: (bs, seqlen, n_kv_heads, head_dim)
+    n_kv = key_states.size(2)
+    if ulysses_size > n_kv:
+        assert (
+            ulysses_size % n_kv == 0
+        ), f"ulysses_size={ulysses_size} must be divisible by num_key_value_heads={n_kv} (or vice versa)."
+        repeats = ulysses_size // n_kv
+        k = key_states.transpose(1, 2)
+        v = value_states.transpose(1, 2)
+        k, v = expandKV(k, v, repeats, 1)
+        return k.transpose(1, 2), v.transpose(1, 2)
+    return key_states, value_states
+
+
+def make_ulysses_flash_attention_forward(
+    original_forward: Callable[..., Any],
+) -> Callable[..., Any]:
+    """
+    Wrap HF `_flash_attention_forward` by inserting Ulysses all-to-all before and after.
+    """
+
+    def _wrapped(*args: Any, **kwargs: Any) -> Any:
+        ulysses_group = get_ulysses_group()
+        ulysses_size = get_ulysses_size() or 1
+
+        # If Ulysses isn't enabled, do nothing.
+        if ulysses_group is None or ulysses_size <= 1:
+            return original_forward(*args, **kwargs)
+
+        query_states = kwargs.get("query_states", args[0] if len(args) > 0 else None)
+        key_states = kwargs.get("key_states", args[1] if len(args) > 1 else None)
+        value_states = kwargs.get("value_states", args[2] if len(args) > 2 else None)
+        attention_mask = kwargs.get("attention_mask", args[3] if len(args) > 3 else None)
+        query_length = kwargs.get("query_length", args[4] if len(args) > 4 else None)
+        # Some callers pass `position_ids` positionally (Transformers signature has it after dropout).
+        # Handle both forms to avoid silently skipping the CP gather path for packed/varlen attention.
+        position_ids = kwargs.get("position_ids", args[7] if len(args) > 7 else None)
+
+        if query_states is None or key_states is None or value_states is None:
+            return original_forward(*args, **kwargs)
+
+        if query_states.dim() != 4:
+            # Unexpected, fall back.
+            return original_forward(*args, **kwargs)
+
+        layout = "bshd"  # (b, s, h, d)
+        dev = query_states.device
+        attn_present, attn_dtype = _sync_optional_tensor_meta(attention_mask, group=ulysses_group, dev=dev)
+        pos_present, pos_dtype = _sync_optional_tensor_meta(position_ids, group=ulysses_group, dev=dev)
+        if torch.is_tensor(attention_mask) and attention_mask.dim() == 2:
+            seq_len_local = attention_mask.size(1)
+            if query_states.size(1) != seq_len_local and query_states.size(2) == seq_len_local:
+                layout = "bhsd"
+        elif position_ids is not None and torch.is_tensor(position_ids):
+            seq_len_local = position_ids.size(-1)
+            if query_states.size(1) != seq_len_local and query_states.size(2) == seq_len_local:
+                layout = "bhsd"
+
+        if layout == "bhsd":
+            query_states = query_states.transpose(1, 2)
+            key_states = key_states.transpose(1, 2)
+            value_states = value_states.transpose(1, 2)
+
+        key_states, value_states = _maybe_repeat_kv_for_ulysses(key_states, value_states, ulysses_size=ulysses_size)
+
+        q_global = SeqAllToAll4D.apply(ulysses_group, query_states, 2, 1, False)
+        k_global = SeqAllToAll4D.apply(ulysses_group, key_states, 2, 1, False)
+        v_global = SeqAllToAll4D.apply(ulysses_group, value_states, 2, 1, False)
+
+        # Gather attention_mask / position_ids to global sequence if present.
+        # Use shard lengths from the local query sequence (before all2all).
+        shard_lens = torch.tensor([query_states.size(1)], device=query_states.device, dtype=torch.int64)
+        shard_lens_list = [torch.zeros_like(shard_lens) for _ in range(dist.get_world_size(ulysses_group))]
+        dist.all_gather(shard_lens_list, shard_lens, group=ulysses_group)
+        shard_lens_cat = torch.cat(shard_lens_list, dim=0)
+
+        attn_mask_global = attention_mask
+
+        # PumpkinComment: (Important for CP > 1 without rmpad)
+        # For transformers, it will make attn_mask to none is no pad tokens exists (all_causal)
+        # however, if two cp rank, one is fully causal, other is not, the gather process will be hang
+        # therefore, we set attn_mask to all ones if not present (fully causal)
+        if attn_present:
+            if not torch.is_tensor(attention_mask):
+                # Dummy local mask (all zeros) so all ranks participate in the same all_gather.
+                attention_mask = torch.ones(
+                    (query_states.size(0), query_states.size(1)),
+                    device=query_states.device,
+                    dtype=attn_dtype,
+                )
+            attn_mask_global = _gather_sharded_seq_tensor(
+                attention_mask, group=ulysses_group, shard_lens=shard_lens_cat
+            )
+
+        position_ids_global = position_ids
+        # PumpkinComment:
+        # Transformers sometimes sets `position_ids=None` when not needed, or passes it only in some codepaths.
+        # Under Ulysses CP, if one rank enters the gather path and another rank skips it, NCCL will hang.
+        if pos_present:
+            # Ensure all ranks participate in the gather:
+            # - If local `position_ids` is missing, create a dummy 1D tensor.
+            # - If local `position_ids` is provided, force it into the HF FlashAttention "1D PE" form.
+            local_len = int(query_states.size(1))
+            bs = int(query_states.size(0))
+            if not torch.is_tensor(position_ids):
+                # Create a dummy that matches the query batch size.
+                base = torch.arange(local_len, device=dev, dtype=pos_dtype)
+                position_ids = base.unsqueeze(0).expand(bs, -1).contiguous()
+            else:
+                if position_ids.dtype != pos_dtype:
+                    position_ids = position_ids.to(dtype=pos_dtype)
+                if position_ids.dim() == 1:
+                    position_ids = position_ids.unsqueeze(0).expand(bs, -1).contiguous()
+                elif position_ids.dim() == 2:
+                    if int(position_ids.size(0)) == 1 and bs > 1:
+                        position_ids = position_ids.expand(bs, -1).contiguous()
+                    assert int(position_ids.size(0)) == bs, (
+                        "position_ids batch size must match query batch size under Ulysses CP. "
+                        f"position_ids.shape={tuple(position_ids.shape)}, query_bs={bs}"
+                    )
+                else:
+                    raise AssertionError(
+                        "Ulysses CP FlashAttention wrapper only supports 1D or 2D `position_ids`. "
+                        f"Got shape={tuple(position_ids.shape)}"
+                    )
+
+            position_ids_global = _gather_sharded_seq_tensor(
+                position_ids, group=ulysses_group, shard_lens=shard_lens_cat
+            )
+            position_ids_global = _normalize_position_ids_for_fa_varlen(position_ids_global)
+
+        query_length_global = q_global.size(1)
+
+        new_args = list(args)
+        if len(new_args) > 0:
+            new_args[0] = q_global
+        if len(new_args) > 1:
+            new_args[1] = k_global
+        if len(new_args) > 2:
+            new_args[2] = v_global
+        if len(new_args) > 3:
+            new_args[3] = attn_mask_global
+        if len(new_args) > 4:
+            new_args[4] = query_length_global
+
+        # Only update kwargs keys that were already provided (do NOT inject new, version-dependent kw names).
+        if "query_states" in kwargs:
+            kwargs["query_states"] = q_global
+        if "key_states" in kwargs:
+            kwargs["key_states"] = k_global
+        if "value_states" in kwargs:
+            kwargs["value_states"] = v_global
+        if "attention_mask" in kwargs:
+            kwargs["attention_mask"] = attn_mask_global
+        if "position_ids" in kwargs:
+            kwargs["position_ids"] = position_ids_global
+        if "query_length" in kwargs:
+            kwargs["query_length"] = query_length_global
+        elif len(new_args) <= 4:
+            # If query_length isn't positional in this call, pass it iff the original accepts it.
+            sig = None
+            try:
+                sig = inspect.signature(original_forward)
+            except Exception:
+                sig = None
+            if sig is None or "query_length" in sig.parameters:
+                kwargs["query_length"] = query_length_global
+
+        out = original_forward(*new_args, **kwargs)
+
+        if isinstance(out, tuple):
+            attn_out = out[0]
+        else:
+            attn_out = out
+
+        if torch.is_tensor(attn_out) and attn_out.dim() == 4:
+            local_out = SeqAllToAll4D.apply(ulysses_group, attn_out, 1, 2, False)
+            if layout == "bhsd":
+                local_out = local_out.transpose(1, 2)
+            if isinstance(out, tuple):
+                return (local_out,) + out[1:]
+            return local_out
+
+        return out
+
+    return _wrapped
+
+
+def apply_hf_flash_attention_ulysses_patch() -> Dict[str, Any]:
+    """
+    PumpkinComment: Patch for different versions of Transformers.
+    """
+    if _PATCH_STATE["patched"]:
+        return {"patched": True, "already": True, **_PATCH_STATE}
+
+    patched_any = False
+    result: Dict[str, Any] = {"patched": False, "targets": []}
+
+    try:
+        import transformers.modeling_flash_attention_utils as mfu
+
+        if hasattr(mfu, "_flash_attention_forward"):
+            _PATCH_STATE["orig_modeling_flash_attention_forward"] = mfu._flash_attention_forward
+            mfu._flash_attention_forward = make_ulysses_flash_attention_forward(mfu._flash_attention_forward)
+            patched_any = True
+            result["targets"].append("transformers.modeling_flash_attention_utils._flash_attention_forward")
+    except Exception as e:
+        logger.warning(f"Failed to patch transformers.modeling_flash_attention_utils._flash_attention_forward: {e}")
+
+    try:
+        from transformers.integrations import flash_attention as fa
+
+        if hasattr(fa, "_flash_attention_forward"):
+            _PATCH_STATE["orig_integrations_flash_attention_forward"] = fa._flash_attention_forward
+            fa._flash_attention_forward = make_ulysses_flash_attention_forward(fa._flash_attention_forward)
+            patched_any = True
+            result["targets"].append("transformers.integrations.flash_attention._flash_attention_forward")
+    except Exception as e:
+        logger.warning(f"Failed to patch transformers.integrations.flash_attention._flash_attention_forward: {e}")
+
+    _PATCH_STATE["patched"] = patched_any
+    result["patched"] = patched_any
+    return result
+
+
+def unapply_hf_flash_attention_ulysses_patch() -> None:
+    if not _PATCH_STATE["patched"]:
+        return
+
+    try:
+        import transformers.modeling_flash_attention_utils as mfu
+
+        if _PATCH_STATE["orig_modeling_flash_attention_forward"] is not None:
+            mfu._flash_attention_forward = _PATCH_STATE["orig_modeling_flash_attention_forward"]
+    except Exception:
+        pass
+
+    try:
+        from transformers.integrations import flash_attention as fa
+
+        if _PATCH_STATE["orig_integrations_flash_attention_forward"] is not None:
+            fa._flash_attention_forward = _PATCH_STATE["orig_integrations_flash_attention_forward"]
+    except Exception:
+        pass
+
+    _PATCH_STATE["patched"] = False
diff --git a/roll/utils/context_parallel/monkey_patch.py b/roll/utils/context_parallel/monkey_patch.py
index b64b3c339..a98ec66d8 100644
--- a/roll/utils/context_parallel/monkey_patch.py
+++ b/roll/utils/context_parallel/monkey_patch.py
@@ -1,12 +1,9 @@
 from transformers.modeling_utils import ALL_ATTENTION_FUNCTIONS
 from transformers.models.qwen2.modeling_qwen2 import Qwen2Model
 
-
-
 from roll.utils.logging import get_logger
 from roll.utils.packages import is_transformers_version_greater_than
 
-
 logger = get_logger()
 
 
@@ -25,8 +22,17 @@ def apply_ulysses_patch():
         Qwen2Model._update_causal_mask = _update_causal_mask
         return _flash_attention_forward, _update_causal_mask
     else:
-        logger.warning("Currently, ulysses_attention patching is not supported for transformers>=4.53.0")
-        return None
+        from .hf_flash_attention_patch import apply_hf_flash_attention_ulysses_patch
+
+        patch_info = apply_hf_flash_attention_ulysses_patch()
+        if not patch_info.get("patched", False):
+            logger.warning(
+                "Failed to apply ulysses_attention patching for transformers>=4.53.0 "
+                "(no FlashAttention2 hook patched)."
+            )
+            return None
+        logger.info(f"Applied ulysses_attention patching for transformers>=4.53.0: {patch_info.get('targets')}")
+        return patch_info
 
 
 def unapply_ulysses_patch():
@@ -34,3 +40,10 @@ def unapply_ulysses_patch():
     ALL_ATTENTION_FUNCTIONS["flash_attention_2"] = old_flash_attention_forward
     if not is_transformers_version_greater_than("4.53.0"):
         Qwen2Model._update_causal_mask = old_update_causal_mask
+    else:
+        try:
+            from .hf_flash_attention_patch import unapply_hf_flash_attention_ulysses_patch
+
+            unapply_hf_flash_attention_ulysses_patch()
+        except Exception:
+            pass
diff --git a/roll/utils/context_parallel/rmpad_ulysses.py b/roll/utils/context_parallel/rmpad_ulysses.py
new file mode 100644
index 000000000..b119f4285
--- /dev/null
+++ b/roll/utils/context_parallel/rmpad_ulysses.py
@@ -0,0 +1,136 @@
+"""
+Reference: https://verl.readthedocs.io/en/latest/_modules/verl/utils/ulysses.html
+"""
+
+from typing import Optional, Tuple
+
+import torch
+import torch.distributed as dist
+
+from roll.utils.context_parallel.autograd_gather import ulysses_gather
+from roll.utils.context_parallel.globals import get_ulysses_group
+
+
+def ulysses_pad_inputs(
+    input_ids_rmpad: torch.Tensor,
+    position_ids_rmpad: Optional[torch.Tensor] = None,
+    *,
+    cp_size: int,
+) -> Tuple[torch.Tensor, Optional[torch.Tensor], int]:
+    """
+    Pad rmpad token streams so sequence length is divisible by cp_size, without slicing.
+
+    This is used by VLM CP(Ulysses) "slice-after-embedding" paths where we must keep the
+    full token stream on every CP rank until the decoder slices `inputs_embeds`.
+
+    Args:
+        input_ids_rmpad: shape [1, total_nnz]
+        position_ids_rmpad: shape [1, total_nnz] or [C, 1, total_nnz] (e.g. mrope)
+        cp_size: context parallel group size
+
+    Returns:
+        padded_input_ids_rmpad: shape [1, total_padded]
+        padded_position_ids_rmpad: same padding, if provided
+        pad_size: how many tokens were padded at the end
+    """
+    if cp_size <= 1:
+        return input_ids_rmpad, position_ids_rmpad, 0
+
+    assert (
+        input_ids_rmpad.dim() == 2 and input_ids_rmpad.size(0) == 1
+    ), f"Expected input_ids_rmpad shape [1, total_nnz], got {tuple(input_ids_rmpad.shape)}"
+    if position_ids_rmpad is not None:
+        assert position_ids_rmpad.size(-2) == 1, "position_ids_rmpad must have batch dim==1 for rmpad path"
+        assert input_ids_rmpad.size(-1) == position_ids_rmpad.size(-1)
+
+    _, total_seq_len = input_ids_rmpad.shape
+    pad_size = (cp_size - (total_seq_len % cp_size)) % cp_size
+    if pad_size > 0:
+        input_ids_rmpad = torch.nn.functional.pad(input_ids_rmpad, (0, pad_size), value=0)
+        if position_ids_rmpad is not None:
+            pad_pos = torch.arange(pad_size, device=position_ids_rmpad.device).unsqueeze(0)  # [1, pad]
+            if position_ids_rmpad.dim() == 3:
+                pad_pos = pad_pos.unsqueeze(0).repeat(position_ids_rmpad.size(0), 1, 1)  # [C, 1, pad]
+            position_ids_rmpad = torch.cat((position_ids_rmpad, pad_pos), dim=-1)
+
+    return input_ids_rmpad, position_ids_rmpad, pad_size
+
+
+def ulysses_pad_and_slice_inputs(
+    input_ids_rmpad: torch.Tensor,
+    position_ids_rmpad: Optional[torch.Tensor] = None,
+    *,
+    cp_size: int,
+    cp_rank: int,
+) -> Tuple[torch.Tensor, Optional[torch.Tensor], int]:
+    """
+    Pad and slice rmpad token streams so sequence length is divisible by cp_size.
+
+    Args:
+        input_ids_rmpad: shape [1, total_nnz]
+        position_ids_rmpad: shape [1, total_nnz] or [C, 1, total_nnz] (e.g. mrope)
+        cp_size/cp_rank: context parallel group size/rank
+
+    Returns:
+        sliced_input_ids_rmpad: shape [1, total_padded/cp_size]
+        sliced_position_ids_rmpad: same slicing, if provided
+        pad_size: how many tokens were padded at the end
+    """
+    if cp_size <= 1:
+        return input_ids_rmpad, position_ids_rmpad, 0
+
+    assert (
+        input_ids_rmpad.dim() == 2 and input_ids_rmpad.size(0) == 1
+    ), f"Expected input_ids_rmpad shape [1, total_nnz], got {tuple(input_ids_rmpad.shape)}"
+    if position_ids_rmpad is not None:
+        assert position_ids_rmpad.size(-2) == 1, "position_ids_rmpad must have batch dim==1 for rmpad path"
+        assert input_ids_rmpad.size(-1) == position_ids_rmpad.size(-1)
+
+    _, total_seq_len = input_ids_rmpad.shape
+    pad_size = (cp_size - (total_seq_len % cp_size)) % cp_size
+    if pad_size > 0:
+        input_ids_rmpad = torch.nn.functional.pad(input_ids_rmpad, (0, pad_size), value=0)
+        if position_ids_rmpad is not None:
+            pad_pos = torch.arange(pad_size, device=position_ids_rmpad.device).unsqueeze(0)  # [1, pad]
+            if position_ids_rmpad.dim() == 3:
+                pad_pos = pad_pos.unsqueeze(0).repeat(position_ids_rmpad.size(0), 1, 1)  # [C, 1, pad]
+            position_ids_rmpad = torch.cat((position_ids_rmpad, pad_pos), dim=-1)
+
+    total_padded = input_ids_rmpad.size(1)
+    part = total_padded // cp_size
+    start = cp_rank * part
+    end = (cp_rank + 1) * part
+    input_ids_rmpad = input_ids_rmpad[:, start:end]
+    if position_ids_rmpad is not None:
+        position_ids_rmpad = position_ids_rmpad[..., start:end]
+    return input_ids_rmpad, position_ids_rmpad, pad_size
+
+
+def gather_outputs_and_unpad(
+    x: torch.Tensor,
+    *,
+    gather_dim: int,
+    unpad_dim: Optional[int] = None,
+    padding_size: int = 0,
+    group: Optional[dist.ProcessGroup] = None,
+) -> torch.Tensor:
+    """
+    All-gather tensors across CP ranks and optionally remove padding added by `ulysses_pad_and_slice_inputs`.
+
+    Note: this gathers full tensors onto every CP rank; use only when acceptable.
+    """
+    group = get_ulysses_group() if group is None else group
+    if group is None or dist.get_world_size(group) <= 1:
+        if unpad_dim is not None and padding_size:
+            sl = [slice(None)] * x.dim()
+            sl[unpad_dim] = slice(0, x.size(unpad_dim) - padding_size)
+            return x[tuple(sl)]
+        return x
+
+    out = ulysses_gather(x, gather_dim=gather_dim, group=group, grad_scaler=True)
+
+    if unpad_dim is not None and padding_size:
+        sl = [slice(None)] * out.dim()
+        sl[unpad_dim] = slice(0, out.size(unpad_dim) - padding_size)
+        out = out[tuple(sl)]
+    return out
diff --git a/roll/utils/context_parallel/ulysses_attention.py b/roll/utils/context_parallel/ulysses_attention.py
index b46ee3e28..cb15dad2b 100644
--- a/roll/utils/context_parallel/ulysses_attention.py
+++ b/roll/utils/context_parallel/ulysses_attention.py
@@ -4,25 +4,19 @@
 import copy
 import inspect
 import os
-from typing import Any, Callable
-from typing import Optional
+from typing import Any, Callable, Optional
 
 import torch
 import torch.distributed as dist
-from torch import Tensor
-
 from flash_attn import flash_attn_func, flash_attn_varlen_func
 from flash_attn.bert_padding import pad_input
-
-from roll.utils.context_parallel.all_to_all import SeqAllToAll4D
-from roll.utils.context_parallel.globals import get_ulysses_seqlen, get_ulysses_size
-
+from torch import Tensor
 from transformers.cache_utils import Cache
 from transformers.modeling_flash_attention_utils import _upad_input
 from transformers.utils import is_flash_attn_greater_or_equal
 
-from roll.utils.context_parallel.globals import get_ulysses_group
-from roll.utils.context_parallel.ulysses_attention import UlyssesAttention
+from roll.utils.context_parallel.all_to_all import SeqAllToAll4D
+from roll.utils.context_parallel.globals import get_ulysses_group, get_ulysses_seqlen, get_ulysses_size
 
 
 def _ulysses_attn_varlen_func(
diff --git a/roll/utils/context_parallel/vlm_cp_patch.py b/roll/utils/context_parallel/vlm_cp_patch.py
new file mode 100644
index 000000000..38348f2e8
--- /dev/null
+++ b/roll/utils/context_parallel/vlm_cp_patch.py
@@ -0,0 +1,147 @@
+"""
+PumpkinComment:
+
+For many VLMs, slicing `input_ids` before the model builds `inputs_embeds` can break alignment between
+visual placeholder tokens and visual features. Instead, keep the full token stream on every CP rank,
+build `inputs_embeds`, then slice `inputs_embeds` (and associated tensors) inside the decoder forward.
+
+Reference: https://github.com/volcengine/verl/blob/main/verl/models/transformers/monkey_patch.py
+"""
+
+import types
+from typing import Any, Optional, Sequence, Tuple
+
+import torch
+import torch.distributed as dist
+from torch import nn
+
+from roll.utils.context_parallel.globals import get_ulysses_group, get_ulysses_size
+from roll.utils.logging import get_logger
+
+logger = get_logger()
+
+
+def _get_cp_info() -> Tuple[int, int, Optional[dist.ProcessGroup]]:
+    group = get_ulysses_group()
+    cp_size = int(get_ulysses_size() or 1)
+    if group is None or cp_size <= 1:
+        return 1, 0, group
+    return cp_size, dist.get_rank(group), group
+
+
+def _slice_seq_dim(x: torch.Tensor, *, start: int, end: int, seq_dim: int) -> torch.Tensor:
+    sl = [slice(None)] * x.dim()
+    sl[seq_dim] = slice(start, end)
+    return x[tuple(sl)].contiguous()
+
+
+def _slice_position_ids(position_ids: torch.Tensor, *, start: int, end: int) -> torch.Tensor:
+    # Common shapes:
+    # - (bs, seq)
+    # - (C, bs, seq)  (e.g. some multimodal rope layouts)
+    # - (C, 1, seq)   (rmpad path with bs==1)
+    if position_ids.dim() == 2:
+        return position_ids[:, start:end].contiguous()
+    if position_ids.dim() == 3:
+        return position_ids[..., start:end].contiguous()
+    raise ValueError(f"Unexpected position_ids shape: {position_ids.shape}")
+
+
+def _slice_attention_mask(attention_mask: torch.Tensor, *, start: int, end: int) -> torch.Tensor:
+    if attention_mask.dim() == 2:
+        return attention_mask[:, start:end].contiguous()
+    if attention_mask.dim() == 4 and attention_mask.size(-1) >= end and attention_mask.size(-2) >= end:
+        return attention_mask[:, :, start:end, start:end].contiguous()
+    raise ValueError(f"Unexpected attention_mask shape: {attention_mask.shape}")
+
+
+def patch_vlm_decoder_for_cp(
+    decoder_module: nn.Module,
+    *,
+    allow_no_inputs_embeds: bool = True,
+    name: str = "",
+) -> bool:
+    """
+    Patch a decoder/text-stack module to slice `inputs_embeds` inside forward under CP.
+
+    This patches ONLY the given module instance (not the global class), to avoid affecting other code paths.
+    """
+    if getattr(decoder_module, "_roll_vlm_cp_patched", False):
+        return True
+
+    original_forward = decoder_module.forward
+
+    def _wrapped_forward(self: nn.Module, *args: Any, **kwargs: Any):
+        cp_size, cp_rank, _ = _get_cp_info()
+        if cp_size <= 1:
+            return original_forward(*args, **kwargs)
+
+        inputs_embeds = kwargs.get("inputs_embeds", None)
+        if not torch.is_tensor(inputs_embeds):
+            if allow_no_inputs_embeds:
+                return original_forward(*args, **kwargs)
+            raise RuntimeError("VLM CP patch expects `inputs_embeds` in decoder forward kwargs, but it was missing.")
+
+        # Guard against re-entrancy / nested forwards.
+        if not getattr(self, "_roll_vlm_cp_needs_initial_slice", True):
+            return original_forward(*args, **kwargs)
+
+        seq_len = inputs_embeds.size(1)
+        if seq_len % cp_size != 0:
+            # This should not happen if the caller padded to multiple-of-cp, but keep safe.
+            raise RuntimeError(f"inputs_embeds seq_len={seq_len} not divisible by cp_size={cp_size}")
+        part = seq_len // cp_size
+        start = cp_rank * part
+        end = (cp_rank + 1) * part
+
+        call_kwargs = dict(kwargs)
+        call_kwargs["inputs_embeds"] = _slice_seq_dim(inputs_embeds, start=start, end=end, seq_dim=1)
+
+        # Slice position_ids if present.
+        position_ids = call_kwargs.get("position_ids", None)
+        if torch.is_tensor(position_ids):
+            call_kwargs["position_ids"] = _slice_position_ids(position_ids, start=start, end=end)
+
+        # Slice attention_mask if present (non-rmpad CP path).
+        attention_mask = call_kwargs.get("attention_mask", None)
+        if torch.is_tensor(attention_mask):
+            call_kwargs["attention_mask"] = _slice_attention_mask(attention_mask, start=start, end=end)
+
+        # Qwen3-VL style extras (best-effort).
+        visual_pos_masks = call_kwargs.get("visual_pos_masks", None)
+        deepstack_visual_embeds = call_kwargs.get("deepstack_visual_embeds", None)
+        if torch.is_tensor(visual_pos_masks):
+            # visual_pos_masks expected shape: (bs, seq)
+            sliced_visual_mask = _slice_seq_dim(visual_pos_masks, start=start, end=end, seq_dim=1)
+            call_kwargs["visual_pos_masks"] = sliced_visual_mask
+
+            if isinstance(deepstack_visual_embeds, Sequence) and len(deepstack_visual_embeds) > 0:
+                # Compute which visual embeddings belong to this CP shard.
+                # We count visual tokens across the whole (replicated) batch.
+                with torch.no_grad():
+                    visual_start = int(visual_pos_masks[:, :start].sum().item()) if start > 0 else 0
+                    visual_end = int(visual_pos_masks[:, :end].sum().item())
+
+                sliced_embeds = []
+                for emb in deepstack_visual_embeds:
+                    if not torch.is_tensor(emb):
+                        sliced_embeds.append(emb)
+                        continue
+                    if visual_end <= visual_start:
+                        sliced_embeds.append(emb[:0])
+                    else:
+                        sliced_embeds.append(emb[visual_start:visual_end])
+                call_kwargs["deepstack_visual_embeds"] = sliced_embeds
+
+        self._roll_vlm_cp_needs_initial_slice = False
+        try:
+            return original_forward(*args, **call_kwargs)
+        finally:
+            self._roll_vlm_cp_needs_initial_slice = True
+
+    decoder_module.forward = types.MethodType(_wrapped_forward, decoder_module)
+    setattr(decoder_module, "_roll_vlm_cp_patched", True)
+    setattr(decoder_module, "_roll_vlm_cp_needs_initial_slice", True)
+    if dist.is_available() and dist.is_initialized() and dist.get_rank() == 0:
+        logger.info(f"Applied VLM CP decoder slice patch to {name or decoder_module.__class__.__name__}")
+    return True
diff --git a/roll/utils/dynamic_batching.py b/roll/utils/dynamic_batching.py
index 83af8120a..34b9c0f08 100644
--- a/roll/utils/dynamic_batching.py
+++ b/roll/utils/dynamic_batching.py
@@ -1,8 +1,13 @@
+import bisect
 from typing import Iterator
 
 import torch
 
 from roll.distributed.scheduler.protocol import DataProto
+from roll.utils.logging import get_logger
+
+
+logger = get_logger()
 
 
 def dynamic_batching_shard(
@@ -10,11 +15,17 @@ def dynamic_batching_shard(
     dp_size: int,
     max_tokens_per_microbatch: int,
     sequence_length_round: int,
+    pipeline_model_parallel_size: int = 1,
+    virtual_pipeline_model_parallel_size: int = None,
     log_prefix: str = None,
 ) -> tuple[DataProto, dict]:
+    #TODO use Karmarkar–Karp algorithm to replace the greedy implementation
     attention_mask = origin_batch.batch["attention_mask"]
     batch_size = attention_mask.shape[0]
     seq_lens = attention_mask.view(batch_size, -1).sum(-1).tolist()
+    
+    if 0 in seq_lens:
+        logger.warning(f"The attention_mask is all zero in the {log_prefix} stage. Please verify the rollout stage.")
 
     seq_index_sort_by_len = [i for i, _ in sorted(enumerate(seq_lens), key=lambda x: x[1])]
     seq_lens_sort = [seq_lens[i] for i in seq_index_sort_by_len]
@@ -27,10 +38,9 @@ def dynamic_batching_shard(
 
     global_micro_batch_indices = [[0, 0]]
     global_micro_batch_lengths = [0]
-    max_seqlen_this_mb = 0
+    max_seqlen_this_mb = sequence_length_round # at least `sequence_length_round`
     shard_size = len(aggregated_shards[0])
 
-    total_tokens = 0
     for shard_indice in range(shard_size):
         max_seqlen_this_shard_indice = 0
         for shard, seq_lens in zip(aggregated_shards, seq_len_of_shard):
@@ -53,7 +63,58 @@ def dynamic_batching_shard(
             global_micro_batch_indices.append([shard_indice, shard_indice + 1])
             max_seqlen_this_mb = max_seqlen_this_shard_indice
             global_micro_batch_lengths.append(max_seqlen_this_mb)
-            total_tokens += total_tokens_in_mbs
+
+    total_tokens = sum(
+        (end - start) * length
+        for (start, end), length in zip(global_micro_batch_indices, global_micro_batch_lengths)
+    )
+    if pipeline_model_parallel_size > 1 and virtual_pipeline_model_parallel_size:
+        # pad to multiple of `microbatch_group_size_per_vp_stage`
+        num_micro_batches = len(global_micro_batch_indices)
+        padded_num_micro_batches = (
+            (num_micro_batches + pipeline_model_parallel_size - 1) // pipeline_model_parallel_size
+        ) * pipeline_model_parallel_size
+        assert pipeline_model_parallel_size <= shard_size, f"The pipeline_model_size: {pipeline_model_parallel_size} should not be greater than num_seqs in one dp_rank"
+        assert padded_num_micro_batches <= shard_size
+        num_micro_batches_needed = padded_num_micro_batches - num_micro_batches
+        
+        splittable_mbs = [i for i in range(num_micro_batches) if (global_micro_batch_indices[i][1] - global_micro_batch_indices[i][0]) > 1]
+        # sort by tokens
+        splittable_mbs.sort(key=lambda x: (global_micro_batch_indices[x][1] - global_micro_batch_indices[x][0]) * global_micro_batch_lengths[x], reverse=True)
+
+        assert len(splittable_mbs) >= num_micro_batches_needed
+        dropped_mbs = []
+        added_micro_batch_indices = []
+        added_micro_batch_lengths = []
+        while num_micro_batches_needed:
+            mb_to_split = splittable_mbs.pop(0)
+
+            # compute split point
+            split_start, split_end = global_micro_batch_indices[mb_to_split]
+            split_length = global_micro_batch_lengths[mb_to_split]
+            split_seqs = split_end - split_start
+            split_point = split_start + (split_seqs // 2)
+
+            # generate new mb
+            new_mb1 = [split_start, split_point]
+            new_mb2 = [split_point, split_end]
+            
+            # record dropped and added mbs
+            dropped_mbs.append(mb_to_split)
+            added_micro_batch_indices += [new_mb1, new_mb2]
+            added_micro_batch_lengths += [split_length, split_length]
+            
+            num_micro_batches_needed -= 1
+
+        global_micro_batch_indices = [global_micro_batch_indices[i] for i in range(num_micro_batches) if i not in dropped_mbs]
+        global_micro_batch_lengths = [global_micro_batch_lengths[i] for i in range(num_micro_batches) if i not in dropped_mbs]
+
+        # insert added_mbs, ensure sorted
+        for added_mbs_indices, added_mbs_length in zip(added_micro_batch_indices, added_micro_batch_lengths):
+            insert_indice = bisect.bisect_right(global_micro_batch_indices, added_mbs_indices)
+            global_micro_batch_indices.insert(insert_indice, added_mbs_indices)
+            global_micro_batch_lengths.insert(insert_indice, added_mbs_length)        
+
     batch = DataProto.concat(aggregated_shards)
     batch.meta_info["global_micro_batch_indices"] = global_micro_batch_indices
     batch.meta_info["global_micro_batch_lengths"] = global_micro_batch_lengths
@@ -113,6 +174,7 @@ def make_mini_batch_iter_for_dynamic_batching(
 
             data.meta_info["micro_batch_indices"] = [[x - start for x in row] for row in indices_chunk]
             data.meta_info["micro_batch_lengths"] = global_micro_batch_lengths[i : i + ga_steps]
+            mini_batch.meta_info["mini_batch_size"] = mini_batch.batch.batch_size[0]
             mini_batch.meta_info["num_micro_batchs"] = len(indices_chunk)
 
             yield (mini_batch)
@@ -125,7 +187,7 @@ def make_micro_batch_iter_for_dynamic_batching(mini_batch: DataProto):
         micro_batch = mini_batch.slice(start_idx, end_idx)
         input_ids_shape = micro_batch.batch["input_ids"].shape
         for k in mini_batch.batch.keys():
-            if len(micro_batch.batch[k].shape) == len(input_ids_shape) and micro_batch.batch[k].shape[-1] in (
+            if (len(micro_batch.batch[k].shape) == len(input_ids_shape) or k == "position_ids") and micro_batch.batch[k].shape[-1] in (
                 input_ids_shape[-1],
                 input_ids_shape[-1] - 1,
             ):
@@ -135,4 +197,4 @@ def make_micro_batch_iter_for_dynamic_batching(mini_batch: DataProto):
                     start=0,
                     length=seqlen if micro_batch.batch[k].shape[-1] == input_ids_shape[-1] else seqlen - 1,
                 )
-        yield micro_batch
+        yield micro_batch
\ No newline at end of file
diff --git a/roll/utils/fp8.py b/roll/utils/fp8.py
new file mode 100644
index 000000000..56e108adb
--- /dev/null
+++ b/roll/utils/fp8.py
@@ -0,0 +1,61 @@
+from typing import List
+
+import torch
+
+# Block quant operator
+#
+# Borrow from transformers
+#   https://huggingface.co/docs/transformers/en/quantization/finegrained_fp8
+#   https://github.com/huggingface/transformers/blob/v4.55.0/src/transformers/quantizers/quantizer_finegrained_fp8.py#L83
+#
+# May use op from torchao:
+#   https://github.com/pytorch/ao/pull/1668
+#   https://github.com/volcengine/verl/pull/3084
+def per_block_fp8_quant(param_value: torch.Tensor, weight_block_size: List[int]):
+    """
+    Quantizes weights to FP8 format using Block-wise quantization
+    """
+    # Get FP8 min/max values
+    fp8_min = torch.finfo(torch.float8_e4m3fn).min
+    fp8_max = torch.finfo(torch.float8_e4m3fn).max
+
+    block_size_m, block_size_n = weight_block_size
+
+    rows, cols = param_value.shape[-2:]
+
+    if rows % block_size_m != 0 or cols % block_size_n != 0:
+        raise ValueError(
+            f"Matrix dimensions ({rows}, {cols}) must be divisible by block sizes ({block_size_m}, {block_size_n})"
+        )
+    param_value_orig_shape = param_value.shape
+
+    param_value = param_value.reshape(
+        -1, rows // block_size_m, block_size_m, cols // block_size_n, block_size_n
+    ).permute(0, 1, 3, 2, 4)
+
+    # Calculate scaling factor for each block
+    max_abs = torch.amax(torch.abs(param_value), dim=(-1, -2))
+    scale = fp8_max / max_abs
+    scale_orig_shape = scale.shape
+    scale = scale.unsqueeze(-1).unsqueeze(-1)
+
+    # Quantize the weights
+    quantized_param = torch.clamp(param_value * scale, min=fp8_min, max=fp8_max).to(torch.float8_e4m3fn)
+
+    quantized_param = quantized_param.permute(0, 1, 3, 2, 4)
+    # Reshape back to matrix shape
+    quantized_param = quantized_param.reshape(param_value_orig_shape)
+
+    # Construct the final, correct shape for the scales
+    num_row_blocks = rows // block_size_m
+    num_col_blocks = cols // block_size_n
+    # This preserves original batch dimensions, if any
+    final_scale_shape = (*param_value_orig_shape[:-2], num_row_blocks, num_col_blocks)
+    # Reshape directly to the correct shape and take the reciprocal
+    scale = scale.reshape(final_scale_shape).reciprocal()
+
+    # TODO: DeepGemm scales need to be transposed and aligned (said in vLLM fp8.py)?
+
+    # TODO: On B200, DeepGemm only support E8M0 scale
+
+    return quantized_param, scale
diff --git a/roll/utils/fsdp_utils.py b/roll/utils/fsdp_utils.py
new file mode 100644
index 000000000..a32719a3f
--- /dev/null
+++ b/roll/utils/fsdp_utils.py
@@ -0,0 +1,290 @@
+import copy
+import dataclasses
+from abc import ABC
+from contextlib import contextmanager
+
+import torch
+import torch.distributed as dist
+import torch.nn as nn
+from torch.distributed.fsdp import CPUOffloadPolicy, fully_shard
+from torch.distributed.tensor import Shard
+
+from roll.models.model_providers import _is_moe_config
+from roll.platforms import current_platform
+
+try:
+    from torch.distributed.device_mesh import DeviceMesh
+except ImportError:
+    DeviceMesh = None
+
+fully_shard_module = torch.distributed.fsdp._fully_shard._fully_shard
+
+
+@contextmanager
+def maybe_patch_fsdp_module(model):
+    if fully_shard_module is None:
+        yield
+        return
+
+    orig_fsdp_module = fully_shard_module.FSDPModule
+
+    class FSDPModuleABC(ABC, orig_fsdp_module):
+        pass
+
+    try:
+        if isinstance(model, ABC):
+            fully_shard_module.FSDPModule = FSDPModuleABC
+        yield
+    finally:
+        fully_shard_module.FSDPModule = orig_fsdp_module
+
+
+def get_init_weight_context_manager(use_meta_tensor=True, mesh: DeviceMesh = None):
+    from accelerate import init_empty_weights
+
+    cpu_init_weights = lambda: torch.device("cpu")
+    if use_meta_tensor:
+        if mesh is None:
+            init_context = init_empty_weights if torch.distributed.get_rank() != 0 else cpu_init_weights
+        else:
+            init_context = init_empty_weights if mesh.get_coordinate()[-1] != 0 else cpu_init_weights
+    else:
+        init_context = cpu_init_weights
+    return init_context
+
+
+def get_shard_placement_fn(fsdp_size):
+    """
+    Choose the dimension that can divide fsdp_size to avoid padding
+    Reference: https://github.com/volcengine/verl/blob/main/verl/utils/fsdp_utils.py
+
+    """
+
+    def shard_placement_fn(param):
+        shape = list(param.shape)
+        for i in range(len(shape)):
+            if shape[i] % fsdp_size == 0:
+                return Shard(i)
+        return Shard(0)
+
+    return shard_placement_fn
+
+
+def _clone_mp_policy(mp_policy, **overrides):
+    if mp_policy is None:
+        return None
+
+    if dataclasses.is_dataclass(mp_policy):
+        return dataclasses.replace(mp_policy, **overrides)
+
+    # Try reconstructing via constructor from common attributes.
+    attrs = {}
+    for k in ("param_dtype", "reduce_dtype", "output_dtype", "cast_forward_inputs"):
+        if hasattr(mp_policy, k):
+            attrs[k] = getattr(mp_policy, k)
+    attrs.update(overrides)
+    return mp_policy.__class__(**attrs)
+
+
+def _fsdp_kwargs_for_module(fsdp_kwargs: dict, module: nn.Module) -> dict:
+    """
+    Allows overriding FSDP2 kwargs per module, e.g. disabling mp_policy.cast_forward_inputs
+    for specific classes like VL blocks.
+    """
+    mp_policy = fsdp_kwargs.get("mp_policy", None)
+    if mp_policy is None or not hasattr(mp_policy, "cast_forward_inputs"):
+        return fsdp_kwargs
+
+    attr_override = getattr(module, "_fsdp2_cast_forward_inputs", None)
+    if attr_override is not None:
+        desired = bool(attr_override)
+    else:
+        desired = False
+
+    if desired == mp_policy.cast_forward_inputs:
+        return fsdp_kwargs
+
+    new_kwargs = dict(fsdp_kwargs)
+    new_kwargs["mp_policy"] = _clone_mp_policy(mp_policy, cast_forward_inputs=desired)
+    return new_kwargs
+
+
+def apply_fsdp2(model, fsdp_kwargs, config, is_lora=False):
+    """
+    model: AutoModelForCausalLM
+
+    Reference: https://github.com/volcengine/verl/blob/main/verl/utils/fsdp_utils.py
+    and LoRA Patch: https://github.com/volcengine/verl/issues/3470
+
+    """
+    assert CPUOffloadPolicy is not None, "PyTorch version >= 2.4 is required for using fully_shard API (FSDP2)"
+
+    model_cfg = getattr(model, "config", None)
+    is_moe = _is_moe_config(model_cfg)
+    apply_expert_patch = bool(config.get("apply_expert_patch", False))
+
+    if is_moe and apply_expert_patch:
+        from transformers.models.qwen3_moe.modeling_qwen3_moe import Qwen3MoeSparseMoeBlock
+
+        from roll.third_party.fsdp2.qwen3_moe_patch import qwen3_moe_forward
+
+        Qwen3MoeSparseMoeBlock.forward = qwen3_moe_forward
+        print("[apply_fsdp2] Applied expert patch for Qwen3MoeSparseMoeBlock")
+
+    default_transformer_cls_names_to_wrap = getattr(model, "_no_split_modules", None)
+    fsdp_transformer_layer_cls_to_wrap = config.get("wrap_policy", {}).get(
+        "transformer_layer_cls_to_wrap",
+        default_transformer_cls_names_to_wrap,
+    )
+
+    if isinstance(fsdp_transformer_layer_cls_to_wrap, str):
+        fsdp_transformer_layer_cls_to_wrap = [fsdp_transformer_layer_cls_to_wrap]
+
+    assert len(fsdp_transformer_layer_cls_to_wrap) > 0 and fsdp_transformer_layer_cls_to_wrap[0] is not None
+
+    wrap_embeddings = bool(config.get("wrap_policy", {}).get("wrap_embeddings", False))
+    wrap_lm_output = bool(config.get("wrap_policy", {}).get("wrap_lm_output", False))
+
+    def _get_embed_tokens(m: nn.Module):
+        inner = getattr(m, "model", None)
+        if inner is not None and hasattr(inner, "embed_tokens"):
+            return getattr(inner, "embed_tokens")
+        if hasattr(m, "embed_tokens"):
+            return getattr(m, "embed_tokens")
+        if hasattr(m, "get_input_embeddings"):
+            return m.get_input_embeddings()
+        return None
+
+    def _already_fully_sharded(mod: nn.Module) -> bool:
+        # `fully_shard()` mutates the module into an internal FSDPModule type. If so, do not re-apply.
+        return fully_shard_module is not None and isinstance(mod, fully_shard_module.FSDPModule)
+
+    lora_modules = []
+    selected = []
+    moe_modules = []
+    for name, module in model.named_modules():
+        if is_lora and (
+            len(list(module.named_children())) == 0
+            and getattr(module, "weight", None) is not None
+            and module.weight.requires_grad
+        ):
+            lora_modules.append(module)
+
+        # PumpkinComment:
+        #  (MoE): Do NOT FSDP-wrap individual experts by default.
+        # Experts are invoked conditionally per-rank (based on routing),
+        # so wrapping `experts.*` as separate FSDP modules can deadlock collectives when
+        # different ranks activate different experts. Therefor we only wrap experts
+        # if we apply the expert patch.
+        if is_moe and config.get("apply_expert_patch", False):
+            moe_block = config.get("wrap_policy", {}).get("moe_experts", None)
+            if isinstance(moe_block, str):
+                moe_block = [moe_block]
+            if moe_block is not None and module.__class__.__name__ in moe_block:
+                moe_modules.append(module)
+                print("[apply_fsdp2] Wrapped MoE expert module: ", name, module.__class__.__name__)
+
+        # If `wrap_embeddings` is enabled, embeddings are handled explicitly below to avoid double wrapping.
+        if module.__class__.__name__ in fsdp_transformer_layer_cls_to_wrap or (
+            (not wrap_embeddings)
+            and isinstance(module, nn.Embedding)
+            and (not getattr(getattr(model, "config", None), "tie_word_embeddings", True))
+        ):
+            selected.append((name, module))
+
+    # PumpkinComment:
+    # Avoid wrapping both a parent module and its child module with the same mesh.
+    selected_names = [n for n, _ in selected]
+    non_leaf = set()
+    for n in selected_names:
+        if not n:
+            continue
+        parts = n.split(".")
+        for i in range(1, len(parts)):
+            non_leaf.add(".".join(parts[:i]))
+
+    modules = [m for n, m in selected if n not in non_leaf]
+
+    wrapped_ids = set()
+
+    def _wrap_once(mod: nn.Module, kwargs: dict):
+        if mod is None:
+            return
+        if id(mod) in wrapped_ids:
+            return
+        if _already_fully_sharded(mod):
+            wrapped_ids.add(id(mod))
+            return
+        with maybe_patch_fsdp_module(mod):
+            fully_shard(mod, **kwargs)
+        wrapped_ids.add(id(mod))
+
+    # 1. Embeddings
+    if wrap_embeddings:
+        _wrap_once(_get_embed_tokens(model), fsdp_kwargs)
+
+    # 2. LoRA Modules (Linear Layer)
+    for idx, module in enumerate(lora_modules):
+        _wrap_once(module, fsdp_kwargs)
+
+    # 3. MoE
+    for idx, module in enumerate(moe_modules):
+        _wrap_once(module, fsdp_kwargs)
+
+    # 4. Transformers Layers
+    for idx, module in enumerate(modules):
+        _wrap_once(module, _fsdp_kwargs_for_module(fsdp_kwargs, module))
+
+    # 5. LM Output
+    if wrap_lm_output:
+        _wrap_once(getattr(model, "lm_head", None), fsdp_kwargs)
+
+    # Root wrap last for remaining modules. (FSDP2 will not reshard_after_forward for the root module.)
+    root_kwargs = dict(fsdp_kwargs)
+    root_kwargs["mp_policy"] = _clone_mp_policy(root_kwargs.get("mp_policy", None), cast_forward_inputs=False)
+    _wrap_once(model, root_kwargs)
+
+
+def fsdp2_load_full_state_dict(
+    model: torch.nn.Module,
+    full_state: dict,
+    device_mesh=None,
+    cpu_offload=None,
+):
+    """
+    Reference: https://github1s.com/volcengine/verl/blob/main/verl/utils/fsdp_utils.py
+
+    Loads the full state dict (could be only on rank 0) into the sharded model. This is done by broadcasting the
+    parameters from rank 0 to all other ranks. This function modifies the model in-place.
+
+    Args:
+        model (`torch.nn.Module`): The model to load the state dict into
+        full_state (`dict`): The full state dict to load, can only be on rank 0
+    """
+
+    from torch.distributed.checkpoint.state_dict import StateDictOptions, set_model_state_dict
+
+    device_id = current_platform.current_device()
+
+    if dist.get_rank() == 0:
+        model = model.to(device=device_id, non_blocking=True)
+    else:
+        model = model.to_empty(device=device_id)
+
+    cpu_offload = cpu_offload is not None
+    options = StateDictOptions(
+        full_state_dict=True,
+        cpu_offload=cpu_offload,
+        broadcast_from_rank0=True,
+    )
+    set_model_state_dict(model, full_state, options=options)
+
+    # rotary_emb is not in state_dict, so we need to broadcast it manually
+    for name, buf in model.named_buffers():
+        dist.broadcast(buf, src=0)
+
+    if cpu_offload:
+        # Ensure model is on CPU but buffers are on GPU for FSDP2 CPU offload
+        model.to("cpu", non_blocking=True)
+        for buf in model.buffers():
+            buf.data = buf.data.to(device_id)
diff --git a/roll/utils/functionals.py b/roll/utils/functionals.py
index 3c1661d0c..6e251a092 100644
--- a/roll/utils/functionals.py
+++ b/roll/utils/functionals.py
@@ -1,7 +1,13 @@
+from __future__ import annotations
+
 import inspect
+from typing import TYPE_CHECKING
 
+if TYPE_CHECKING:
+    from roll.distributed.scheduler.protocol import DataProto
 import enum
 import traceback
+import heapq
 from typing import Dict, List, Optional, Tuple, Union
 
 import numpy as np
@@ -9,13 +15,12 @@
 import torch.nn.functional as F
 from tensordict import TensorDict
 
-from roll.pipeline.rlvr.rlvr_config import RLVRConfig
 from roll.configs.base_config import PPOConfig
+from roll.pipeline.rlvr.rlvr_config import RLVRConfig
 from roll.platforms import current_platform
 from roll.utils.kl_controller import AdaptiveKLController
 from roll.utils.logging import get_logger
 
-
 logger = get_logger()
 
 
@@ -118,6 +123,17 @@ def append_to_dict(data: Dict, new_data: Dict):
         data[key].append(val)
 
 
+def flatten_sum(values):
+    """Flatten nested lists/tuples and sum all numeric values."""
+    total = 0
+    for v in values:
+        if isinstance(v, (list, tuple)):
+            total += flatten_sum(v)
+        elif isinstance(v, (int, float)):
+            total += v
+    return total
+
+
 class RunningMoments:
     def __init__(self):
         """
@@ -209,8 +225,8 @@ def entropy_from_logits(logits: torch.Tensor):
     return entropy
 
 
-def agg_loss(loss_mat: torch.Tensor, loss_mask: torch.Tensor, loss_agg_mode: str,
-             weights: Optional[torch.Tensor] = None, loss_scale: Optional[float] = None):
+def agg_loss(loss_mat: torch.Tensor, loss_mask: torch.Tensor, loss_agg_mode: str, batch_num_tokens: int = None,
+             global_valid_samples: int = None, weights: Optional[torch.Tensor] = None):
     """
     ref: https://github.com/volcengine/verl/blob/78532923368aeb058f62201489546d013df47710/verl/trainer/ppo/core_algos.py#L370
     Aggregate the loss matrix into a scalar.
@@ -225,27 +241,30 @@ def agg_loss(loss_mat: torch.Tensor, loss_mask: torch.Tensor, loss_agg_mode: str
                                       "seq-mean-token-sum-norm" /
             "seq-mean-token-sum" is the default behavior
         weights: `torch.Tensor`
-        loss_scale: `(float)`
     Returns:
         loss: `a scalar torch.Tensor`
             aggregated loss
     """
+    if batch_num_tokens is None:
+        batch_num_tokens = loss_mask.sum()
+    if global_valid_samples is None:
+        global_valid_samples = loss_mat.size(0)
     if loss_agg_mode == "token-mean":
         if weights is None:
             weights = torch.ones(loss_mask.shape[0], device=loss_mask.device)
-        loss = masked_mean(loss_mat * weights.unsqueeze(-1), loss_mask)
+        loss = (loss_mat * weights.unsqueeze(-1)).sum() / batch_num_tokens
     elif loss_agg_mode == "seq-mean-token-sum":
-        seq_losses = masked_sum(loss_mat, loss_mask, dim=-1) # token-sum
+        seq_losses = masked_sum(loss_mat, loss_mask, dim=-1)  # token-sum
         valid_samples = torch.any(loss_mask > 0, dim=-1).float()
         if weights is None:
             weights = torch.ones(loss_mask.shape[0], device=loss_mask.device)
-        loss = (seq_losses * weights * valid_samples).sum() / (valid_samples.sum() + 1e-8) # seq-mean
+        loss = (seq_losses * weights * valid_samples).sum() / (global_valid_samples + 1e-8)  # seq-mean
     elif loss_agg_mode == "seq-mean-token-mean":
         seq_losses = masked_mean(loss_mat, loss_mask, dim=-1)
         valid_samples = torch.any(loss_mask > 0, dim=-1).float()
         if weights is None:
             weights = torch.ones(loss_mask.shape[0], device=loss_mask.device)
-        loss = (seq_losses * weights * valid_samples).sum() / (valid_samples.sum() + 1e-8)  # seq-mean
+        loss = (seq_losses * weights * valid_samples).sum() / (global_valid_samples + 1e-8)  # seq-mean
     elif loss_agg_mode == "seq-mean-token-sum-norm":
         seq_losses = masked_sum(loss_mat, loss_mask, dim=-1)
         valid_samples = torch.any(loss_mask > 0, dim=-1).float()
@@ -259,7 +278,7 @@ def agg_loss(loss_mat: torch.Tensor, loss_mask: torch.Tensor, loss_agg_mode: str
     else:
         raise ValueError(f"Invalid loss_agg_mode: {loss_agg_mode}")
 
-    return loss * loss_scale if loss_scale else loss
+    return loss
 
 
 def masked_mean(tensor: torch.Tensor, mask: torch.Tensor, dim: int = None) -> torch.Tensor:
@@ -312,21 +331,21 @@ def get_pad_mask(response_id: torch.Tensor, pad_token: int = 0, eos_token: int =
     e.g. pad token=0
     response_id: [1, 2, 2, 42, 3, 5, 1, 0, 0]
     pad_mask:     [1, 1, 1, 1,  1, 1, 1, 0, 0]
-    
+
     If eos_token == pad_token, the first pad token (which is the eos token) should be kept.
     e.g. pad_token=0, eos_token=0
     response_id: [1, 2, 2, 42, 3, 5, 0, 0, 0]
     pad_mask:     [1, 1, 1, 1,  1, 1, 1, 0, 0]  (first pad token/eos token is kept)
     """
     pad_mask = response_id.not_equal(pad_token).to(dtype)
-    
+
     # eos_token == pad_token, 需要保留第一个pad token否则会误将eos token mask掉
     if eos_token == pad_token:
         pad_positions = response_id.eq(pad_token).to(dtype)
         cumsum_pad = torch.cumsum(pad_positions, dim=-1)
         first_pad_token = (cumsum_pad == 1).to(dtype)
         pad_mask = pad_mask | first_pad_token
-    
+
     assert (
         not (pad_mask[:, 0] == 0).logical_and(pad_mask.sum(-1) != 0).any()
     ), f"response_id is not valid: {response_id}, pad_token is {pad_token}"
@@ -364,56 +383,74 @@ def response_level_masked_whiten(values: torch.Tensor, mask: torch.Tensor, shift
 
 def reduce_metrics(metrics: dict, reduce_func=np.mean) -> dict:
     """
-    Reduce metrics with enhanced aggregation support based on metric name suffixes.
-    
-    Supported suffixes:
-    - _mean: arithmetic mean (default)
-    - _max: maximum value
-    - _min: minimum value  
-    - _p50: 50th percentile (median)
-    - _p99: 99th percentile
-    - _std: standard deviation
-    - _sum: sum of all values
-    
-    Args:
-        metrics: Dictionary of metric names to lists/tensors of values
-        reduce_func: Default reduction function (used for metrics without suffix)
-    
-    Returns:
-        Dictionary with reduced metric values
+    Reduce metrics by parsing an aggregation instruction from the metric name.
+
+    Aggregation can be specified in the metric name using either of the following formats:
+      - Suffix after '@': e.g., "loss@sum", "latency@p99"
+      - Underscore suffix: e.g., "loss_sum", "latency_p99"
+
+    Supported aggregation tags/suffixes: mean, max, min, p50, p99, std, sum
+
+    Notes:
+      - The original metric key is preserved (the '@tag' or '_suffix' remains in the key).
+      - Scalar values (int, float, np.number) and torch.Tensor objects are left unchanged.
+      - Values of type list, tuple, or np.ndarray are reduced using the inferred aggregation function.
+      - If no aggregation tag or suffix is found, the default `reduce_func` is used.
+      - Empty sequences are skipped and not modified.
     """
     import numpy as np
-    
-    def _parse_suffix(metric_name):
-        """Parse aggregation method from metric name suffix."""
-        if metric_name.endswith('_mean'):
-            return np.mean
-        elif metric_name.endswith('_max'):
-            return np.max
-        elif metric_name.endswith('_min'):
-            return np.min
-        elif metric_name.endswith('_p50'):
-            return lambda x: np.percentile(x, 50)
-        elif metric_name.endswith('_p99'):
-            return lambda x: np.percentile(x, 99)
-        elif metric_name.endswith('_std'):
-            return np.std
-        elif metric_name.endswith('_sum'):
-            return np.sum
-        else:
-            return reduce_func
-    
-    for key, val in metrics.items():
-        if isinstance(val, (list, tuple, np.ndarray)) and len(val) > 0:
-            # Use suffix-based aggregation if available
-            aggregation_func = _parse_suffix(key)
-            metrics[key] = float(aggregation_func(val))
+
+    reducers = {
+        "mean": np.mean,
+        "max": np.max,
+        "min": np.min,
+        "p50": lambda x: np.percentile(x, 50),
+        "p99": lambda x: np.percentile(x, 99),
+        "std": np.std,
+        "sum": np.sum,
+    }
+
+    def _parse_aggregation_func(metric_name: str):
+        # First, check for '@' separator
+        if "@" in metric_name:
+            _, tag = metric_name.rsplit("@", 1)
+            tag = tag.strip()
+            if tag in reducers:
+                return reducers[tag]
+            else:
+                raise ValueError(f"Unknown reducer tag '{tag}' in metric '{metric_name}'")
+
+        # Otherwise, check for underscore-based suffixes
+        for suffix_key in ["mean", "max", "min", "p50", "p99", "std", "sum"]:
+            if metric_name.endswith(f"_{suffix_key}"):
+                return reducers[suffix_key]
+
+        # No aggregation specifier found → use default
+        return reduce_func
+
+    for key, val in list(metrics.items()):
+        # Skip reduction for scalars and tensors
+        if isinstance(val, (int, float, np.number)) or isinstance(val, torch.Tensor):
+            continue
+
+        # Reduce sequences
+        if isinstance(val, (list, tuple, np.ndarray)):
+            if len(val) == 0:
+                continue
+            agg_func = _parse_aggregation_func(key)
+            metrics[key] = float(agg_func(val))
         else:
-            # Fallback to default reduction function
-            metrics[key] = reduce_func(val)
-    
+            # Fallback for other types (e.g., single-element containers)
+            metrics[key] = float(reduce_func(val))
+
     return metrics
 
+def reduce_metrics_list(metrics_list: list, reduce_func=np.mean) -> dict:
+    if len(metrics_list) == 0:
+        return {}
+    merged_metrics = {k: reduce_func([m[k] for m in metrics_list]) for k in metrics_list[0].keys()}
+    return merged_metrics
+
 
 def pad_to_length(tensor: torch.Tensor, length, pad_value, dim=-1):
     if tensor.size(dim) >= length:
@@ -440,6 +477,11 @@ def concatenate_input_and_output(input_ids, output_ids, num_return_sequences):
     return sequences
 
 
+def gather_unpadded_input_ids(input_ids: torch.Tensor, attention_mask: torch.Tensor):
+    gathered_input_ids = [ids[mask.bool()].tolist() for ids, mask in zip(input_ids, attention_mask)]
+    return gathered_input_ids
+
+
 def compute_reinforce_return(token_level_rewards: torch.Tensor, gamma: torch.Tensor, lambd: torch.Tensor):
     with torch.no_grad():
         advantages_reversed = []
@@ -516,7 +558,9 @@ def expand_to_token_level(data: "DataProto"):
     return token_level_rewards
 
 
-def reward_norm(response_level_rewards: torch.Tensor, n_sample=-1, running_ctrl={}, norm_mean_type=None, norm_std_type=None):
+def reward_norm(
+    response_level_rewards: torch.Tensor, n_sample=-1, running_ctrl={}, norm_mean_type=None, norm_std_type=None
+):
     group_mode = (norm_mean_type == "group") or (norm_std_type == "group")
     if group_mode and n_sample > 0:
         reshape_reward = response_level_rewards.reshape(*response_level_rewards.size()[:-1], -1, n_sample)
@@ -543,10 +587,10 @@ def reward_norm(response_level_rewards: torch.Tensor, n_sample=-1, running_ctrl=
     rewards = reshape_reward if norm_mean_type == "group" else response_level_rewards
     # 标准化奖励
     if norm_std_type is not None:
-        normalized_rewards = (rewards - reward_mean) / (reward_std + 1e-6) 
-    else: 
+        normalized_rewards = (rewards - reward_mean) / (reward_std + 1e-6)
+    else:
         normalized_rewards = (rewards - reward_mean)
-    
+
     # 如果是对 group mean 归一化，需要恢复原始形状
     if norm_mean_type == "group":
         normalized_rewards = normalized_rewards.reshape(*response_level_rewards.size())
@@ -609,7 +653,7 @@ def reward_postprocess(data: "DataProto", pipeline_config: RLVRConfig, running_c
         pipeline_config.norm_mean_type, pipeline_config.norm_std_type = "group", "group"
 
     response_level_rewards = reward_norm(
-                    response_level_rewards, 
+                    response_level_rewards,
                     n_sample=pipeline_config.actor_infer.generating_args.num_return_sequences,
                     running_ctrl=running_ctrl,
                     norm_mean_type=pipeline_config.norm_mean_type,
@@ -736,6 +780,7 @@ def compute_advantage(
     whiten_advantages=False,
     whiten_rewards=False,
     response_mask=None,
+    pipeline_config=None,
 ):
     if response_mask is None:
         response_mask = data.batch["response_mask"][:, 1:]
@@ -744,25 +789,51 @@ def compute_advantage(
         whiten_advantages = False
         logger.info("Warning: domain final_response_mask.sum() == 0! All masked_whiten will be skipped.")
 
-    token_level_rewards = data.batch["token_level_rewards"].float()
-    if whiten_rewards:
-        token_level_rewards = masked_whiten(values=token_level_rewards, mask=response_mask)
-    token_level_rewards = token_level_rewards * response_mask
-    data.batch["token_level_rewards"] = token_level_rewards
-    if adv_estimator == "gae":
-        values = data.batch["values"].float()
-        data.batch["values"] = values * response_mask
-        advantages, returns = compute_gae_advantage_return(
-            token_level_rewards=token_level_rewards, values=values, gamma=gamma, lambd=lambd
-        )
-    elif adv_estimator in ["reinforce", "grpo", "gigpo", "step_reinforce"]:
-        advantages, returns = compute_reinforce_return(
-            token_level_rewards=token_level_rewards, gamma=gamma, lambd=lambd
+    # Check OPD config
+    is_pure_opd = getattr(pipeline_config, "is_pure_opd", False) if pipeline_config else False
+    use_opd = getattr(pipeline_config, "use_opd", False) if pipeline_config else False
+    opd_kl_coef = getattr(pipeline_config, "opd_kl_coef", 1.0) if pipeline_config else 1.0
+
+    # Compute KL divergence for OPD modes
+    kld = None
+    if is_pure_opd or use_opd:
+        kld = compute_approx_kl(
+            log_probs=data.batch["old_log_probs"] if getattr(pipeline_config, "enable_old_logprobs_recompute", False) else data.batch["infer_logprobs"],
+            log_probs_base=data.batch["ref_log_probs"],
+            action_mask=response_mask,
+            kl_penalty=getattr(pipeline_config, "kl_penalty", "kl"),
         )
+
+    # For pure OPD mode, advantage is directly -kld
+    if is_pure_opd:
+        advantages = -kld
+        returns = advantages
+        data.batch["raw_advantages"] = advantages
     else:
-        raise NotImplementedError
+        token_level_rewards = data.batch["token_level_rewards"].float()
+        if whiten_rewards:
+            token_level_rewards = masked_whiten(values=token_level_rewards, mask=response_mask)
+        token_level_rewards = token_level_rewards * response_mask
+        data.batch["token_level_rewards"] = token_level_rewards
+        if adv_estimator == "gae":
+            values = data.batch["values"].float()
+            data.batch["values"] = values * response_mask
+            advantages, returns = compute_gae_advantage_return(
+                token_level_rewards=token_level_rewards, values=values, gamma=gamma, lambd=lambd
+            )
+        elif adv_estimator in ["reinforce", "grpo", "gigpo", "step_reinforce"]:
+            advantages, returns = compute_reinforce_return(
+                token_level_rewards=token_level_rewards, gamma=gamma, lambd=lambd
+            )
+        else:
+            raise NotImplementedError
+
+        data.batch["raw_advantages"] = advantages
+
+        # Apply mixed OPD mode
+        if use_opd:
+            advantages = advantages - opd_kl_coef * kld
 
-    data.batch["raw_advantages"] = advantages
     if whiten_advantages:
         # TODO whiten过程中是否要考虑response的长度？
         advantages = masked_whiten(values=advantages, mask=response_mask)
@@ -777,14 +848,6 @@ def compute_advantage(
     data.batch["returns"] = returns
     return data
 
-
-class GenerateRequestType(enum.Enum):
-    ADD = enum.auto()
-    ABORT = enum.auto()
-    STOP = enum.auto()
-    ALIVE_CHECK = enum.auto()
-
-
 def postprocess_generate(
     prompts: "DataProto",
     output: torch.Tensor,
@@ -793,7 +856,7 @@ def postprocess_generate(
     eos_token_id,
     pad_token_id,
     fill_eos_token=False,
-    output_logprobs: Optional[list[list[float]]]=None,
+    output_logprobs: Optional[list[list[float]]] = None,
     pad_to_seq_len=True,
 ) -> "DataProto":
     from roll.distributed.scheduler.protocol import DataProto
@@ -811,7 +874,6 @@ def postprocess_generate(
 
     # input_batch_size * num_return_sequences
     output_batch_size = output.size(0)
-    input_batch_size = input_ids.size(0)
     prompt_length = input_ids.size(1)
 
     if pad_to_seq_len:
@@ -825,7 +887,9 @@ def postprocess_generate(
     attention_mask = (
         attention_mask.unsqueeze(1).repeat(1, num_return_sequences, 1).view(output_batch_size, prompt_length)
     )
-    response_mask = get_pad_mask(response_id=response, pad_token=pad_token_id, eos_token=eos_token_id, dtype=attention_mask.dtype)
+    response_mask = get_pad_mask(
+        response_id=response, pad_token=pad_token_id, eos_token=eos_token_id, dtype=attention_mask.dtype
+    )
     attention_mask = torch.cat((attention_mask, response_mask), dim=-1)
 
     position_ids = prompts.batch["position_ids"]
@@ -837,7 +901,8 @@ def postprocess_generate(
             .view(output_batch_size, *position_ids.shape[-2:])
         )
         delta_position_id = torch.arange(1, (sequence_length - prompt_length) + 1, device=position_ids.device)
-        delta_position_id = delta_position_id.view(1, 1, -1).expand(output_batch_size, 3, -1)
+        # position_ids: (bsz, C, prompt_len). Expand delta along channel dim (C can be 3 or 4).
+        delta_position_id = delta_position_id.view(1, 1, -1).expand(output_batch_size, position_ids.size(1), -1)
         response_position_ids = position_ids[..., -1:] + delta_position_id
         # left padding for prompt and right padding for response, to be converted
         # to right padding which is consistent with output
@@ -846,7 +911,11 @@ def postprocess_generate(
     assert attention_mask.any(dim=1).all(), f"has all 0 attention_mask, {attention_mask} {input_ids}"
     first_one = attention_mask.float().argmax(dim=1)
     new_response_mask = torch.zeros_like(attention_mask)  # response mask for cat input_ids
-    logprobs = torch.zeros([output_batch_size, sequence_length - 1], dtype=torch.float32) if output_logprobs is not None else None
+    logprobs = (
+        torch.zeros([output_batch_size, sequence_length - 1], dtype=torch.float32)
+        if output_logprobs is not None
+        else None
+    )
     for i in range(output_batch_size):
         shift = first_one[i].item()
         if shift > 0:
@@ -858,7 +927,7 @@ def postprocess_generate(
         attention_mask[i][:valid_length] = 1
         attention_mask[i][valid_length:] = 0
         prompt_len = valid_length - response_length
-        new_response_mask[i][prompt_len : valid_length] = 1
+        new_response_mask[i][prompt_len:valid_length] = 1
         if logprobs is not None:
             logprobs[i][prompt_len - 1 : valid_length - 1] = torch.tensor(
                 output_logprobs[i][:response_length], dtype=logprobs.dtype
@@ -873,8 +942,8 @@ def postprocess_generate(
             # cause error: Image features and image tokens do not match
             output_position_ids[i, ..., :-shift] = output_position_ids[i, ..., shift:].clone()
             # only clean in VLM(qwen2-vl) to make no effect on LLM
-            if prompt_length > response_length:
-                output[i, -shift:] = pad_token_id
+        if shift > 0 and prompt_length > valid_length:
+            output[i, -shift:] = pad_token_id
 
     prompt_mask = (attention_mask == 1) & (new_response_mask == 0)
     if position_ids.dim() == 3:
@@ -984,3 +1053,280 @@ def group_reward_norm(data: "DataProto", n_sample=-1, div_std=True, div_std_glob
             reshape_reward = reshape_reward / (torch.std(reshape_reward) + 1e-6)
     data.batch["response_level_rewards"] = reshape_reward.reshape(*response_level_rewards.size())
     return data
+
+
+def adjust_sequence_length(sequence, target_length, origin_seq_len, pad_value=0):
+    """
+    调整序列长度。自动探测序列维度（优先最后一维，其次向前搜索）。
+
+    Args:
+        sequence: 输入张量 (e.g., [B, S], [B, S, D], [B, 3, S])
+        target_length: 目标的全局序列长度
+        origin_seq_len: 当前张量应当对应的参考原始长度
+        pad_value: 填充值
+    """
+    if sequence.dim() < 2:
+        return sequence
+
+    # --- 1. 探测序列维度 (seq_dim) ---
+    seq_dim = None
+    is_causal_shift = False
+
+    # 优先级：最后一维 (-1)，然后是倒数第二维 (-2)，以此类推
+    # 检查是否等于参考长度 或 参考长度-1 (causal shift)
+    candidate_dims = [-1] + list(range(-2, -sequence.dim() - 1, -1))
+
+    for d in candidate_dims:
+        curr_size = sequence.size(d)
+        if curr_size == origin_seq_len:
+            seq_dim = d
+            is_causal_shift = False
+            break
+        elif curr_size == origin_seq_len - 1:
+            seq_dim = d
+            is_causal_shift = True
+            break
+
+    # 如果没找到任何维度匹配 origin_seq_len，说明该张量不需要处理
+    if seq_dim is None:
+        return sequence
+
+    # --- 2. 计算实际需要调整到的目标长度 ---
+    actual_len = sequence.size(seq_dim)
+    # 如果原始是 S-1，目标也应该是 target-1 (保持位移一致)
+    effective_target = target_length - 1 if is_causal_shift else target_length
+
+    if actual_len == effective_target:
+        return sequence
+
+    # --- 3. 执行 Padding 或 Truncation ---
+    if actual_len < effective_target:
+        # Padding 逻辑
+        pad_size = effective_target - actual_len
+
+        # torch.nn.functional.pad 的 pad 参数顺序是：
+        # [最后维左, 最后维右, 倒数第二维左, 倒数第二维右, ...]
+        # 我们只在识别到的 seq_dim 的右侧进行 padding
+        # 偏移量计算：abs(seq_dim) - 1 决定了前面有多少对 [0, 0]
+        pad_config = [0, 0] * (abs(seq_dim) - 1) + [0, pad_size]
+
+        return torch.nn.functional.pad(sequence, pad_config, value=pad_value)
+
+    else:
+        # Truncation 逻辑 (通用切片)
+        slices = [slice(None)] * sequence.dim()
+        slices[seq_dim] = slice(0, effective_target)
+        return sequence[tuple(slices)]
+
+
+def get_seqlen_balanced_partitions(seqlen_list: List[float],
+                                   k_partitions: int,
+                                   equal_size: bool = False) -> List[List[int]]:
+    """
+    Reference: https://github.com/volcengine/verl/blob/468adf22c43b744348051fccd7a5d830c6c3c36a/verl/utils/seqlen_balancing.py
+
+    Partition sequences to balance workload using Karmarkar-Karp algorithm.
+
+    Args:
+        seqlen_list: List of sequence lengths (or workloads)
+        k_partitions: Number of partitions to create
+        equal_size: If True, ensure all partitions have equal number of items
+
+    Returns:
+        List of partitions, where each partition is a list of indices
+    """
+
+    class Set:
+        """Represents a set of items with their sum."""
+
+        def __init__(self):
+            self.sum = 0
+            self.items = []
+
+        def add(self, idx: int, val: float):
+            self.items.append((idx, val))
+            self.sum += val
+
+        def merge(self, other):
+            for idx, val in other.items:
+                self.items.append((idx, val))
+                self.sum += val
+
+        def __lt__(self, other):
+            if self.sum != other.sum:
+                return self.sum < other.sum
+            if len(self.items) != len(other.items):
+                return len(self.items) < len(other.items)
+            return self.items < other.items
+
+    class State:
+        """Represents a state in the partitioning algorithm."""
+
+        def __init__(self, items: List[Tuple[int, float]], k: int):
+            self.k = k
+            self.sets = [Set() for _ in range(k)]
+            assert len(items) in [1, k], f"{len(items)} not in [1, {k}]"
+            for i, (idx, seqlen) in enumerate(items):
+                self.sets[i].add(idx=idx, val=seqlen)
+            self.sets = sorted(self.sets, reverse=True)
+
+        def get_partitions(self) -> List[List[int]]:
+            partitions = []
+            for i in range(len(self.sets)):
+                cur_partition = []
+                for idx, _ in self.sets[i].items:
+                    cur_partition.append(idx)
+                partitions.append(cur_partition)
+            return partitions
+
+        def merge(self, other):
+            for i in range(self.k):
+                self.sets[i].merge(other.sets[self.k - 1 - i])
+            self.sets = sorted(self.sets, reverse=True)
+
+        @property
+        def spread(self) -> float:
+            return self.sets[0].sum - self.sets[-1].sum
+
+        def __lt__(self, other):
+            if self.spread != other.spread:
+                return self.spread > other.spread
+            return self.sets[0] > other.sets[0]
+
+    assert len(seqlen_list) >= k_partitions, \
+        f"number of items:[{len(seqlen_list)}] < k_partitions:[{k_partitions}]"
+
+    # Sort by sequence length
+    sorted_seqlen_list = sorted([(seqlen, i) for i, seqlen in enumerate(seqlen_list)])
+    states_pq = []
+
+    if equal_size:
+        assert len(seqlen_list) % k_partitions == 0, \
+            f"{len(seqlen_list)} % {k_partitions} != 0"
+        for offset in range(0, len(sorted_seqlen_list), k_partitions):
+            items = []
+            for i in range(k_partitions):
+                seqlen, idx = sorted_seqlen_list[offset + i]
+                items.append((idx, seqlen))
+            heapq.heappush(states_pq, State(items=items, k=k_partitions))
+    else:
+        for seqlen, idx in sorted_seqlen_list:
+            heapq.heappush(states_pq, State(items=[(idx, seqlen)], k=k_partitions))
+
+    # Merge states until only one remains
+    while len(states_pq) > 1:
+        state0 = heapq.heappop(states_pq)
+        state1 = heapq.heappop(states_pq)
+        state0.merge(state1)
+        heapq.heappush(states_pq, state0)
+
+    final_state = states_pq[0]
+    partitions = final_state.get_partitions()
+
+    # Validate and sort partitions
+    assert len(partitions) == k_partitions, f"{len(partitions)} != {k_partitions}"
+    seen_idx = set()
+    sorted_partitions = []
+
+    for i, partition in enumerate(partitions):
+        assert len(partition) > 0, f"the {i}-th partition is empty"
+        for idx in partition:
+            seen_idx.add(idx)
+        sorted_partitions.append(sorted(partition))
+
+    assert seen_idx == set(range(len(seqlen_list))), "Not all indices are covered"
+
+    return sorted_partitions
+
+
+def log_seqlen_unbalance(seqlen_list: list[int], partitions: list[list[int]], prefix):
+    """
+    Calculate and log metrics related to sequence length imbalance before and after partitioning.
+
+    Args:
+        seqlen_list (List[int]): A list of sequence lengths for each item.
+        partitions (List[List[int]]): A list of partitions, where each inner list contains indices
+                                      from seqlen_list assigned to that partition.
+        prefix (str): A prefix to be added to each metric key in the returned dictionary.
+
+    Returns:
+        dict: A dictionary containing metrics related to sequence length imbalance.
+    """
+    # Get the number of partitions
+    k_partition = len(partitions)
+    # assert len(seqlen_list) % k_partition == 0
+    batch_size = len(seqlen_list) // k_partition
+    min_sum_seqlen = None
+    max_sum_seqlen = None
+    total_sum_seqlen = 0
+
+    # Iterate over each batch of sequence lengths
+    for offset in range(0, len(seqlen_list), batch_size):
+        cur_sum_seqlen = sum(seqlen_list[offset: offset + batch_size])
+        if min_sum_seqlen is None or cur_sum_seqlen < min_sum_seqlen:
+            min_sum_seqlen = cur_sum_seqlen
+        if max_sum_seqlen is None or cur_sum_seqlen > max_sum_seqlen:
+            max_sum_seqlen = cur_sum_seqlen
+        total_sum_seqlen += cur_sum_seqlen
+
+    balanced_sum_seqlen_list = []
+    for partition in partitions:
+        cur_sum_seqlen_balanced = sum([seqlen_list[i] for i in partition])
+        balanced_sum_seqlen_list.append(cur_sum_seqlen_balanced)
+    min_sum_seqlen_balanced = min(balanced_sum_seqlen_list)
+    max_sum_seqlen_balanced = max(balanced_sum_seqlen_list)
+
+    return {
+        f"{prefix}/min": min_sum_seqlen,
+        f"{prefix}/max": max_sum_seqlen,
+        f"{prefix}/minmax_diff": max_sum_seqlen - min_sum_seqlen,
+        f"{prefix}/balanced_min": min_sum_seqlen_balanced,
+        f"{prefix}/balanced_max": max_sum_seqlen_balanced,
+        f"{prefix}/mean": total_sum_seqlen / len(partitions),
+    }
+
+
+def batch_balance(batch: DataProto, dp_size, minibatch_size, logging_prefix="global_seqlen", keep_minibatch=False):
+    """
+    ref: https://github.com/volcengine/verl/blob/2c0fcbe52a9230281329e7197501f4dc67f0a5d8/verl/trainer/ppo/ray_trainer.py#L1018
+    Reorder the data on single controller such that each dp rank gets similar total tokens"""
+    attention_mask = batch.batch["attention_mask"]
+    batch_size = attention_mask.shape[0]
+    global_seqlen_lst = batch.batch["attention_mask"].view(batch_size, -1).sum(-1)  # (train_batch_size,)
+
+    def calculate_workload(seq_len_list):
+        return 24576 * seq_len_list + seq_len_list * seq_len_list
+
+    workload_lst = calculate_workload(global_seqlen_lst)
+    world_size = dp_size
+    if keep_minibatch:
+        # Decouple the DP balancing and mini-batching.
+        minibatch_num = len(workload_lst) // minibatch_size
+        global_partition_lst = [[] for _ in range(world_size)]
+        for i in range(minibatch_num):
+            rearrange_minibatch_lst = get_seqlen_balanced_partitions(
+                workload_lst[i * minibatch_size: (i + 1) * minibatch_size],
+                k_partitions=world_size,
+                equal_size=True,
+            )
+            for j, part in enumerate(rearrange_minibatch_lst):
+                global_partition_lst[j].extend([x + minibatch_size * i for x in part])
+    else:
+        global_partition_lst = get_seqlen_balanced_partitions(
+            workload_lst, k_partitions=world_size, equal_size=True
+        )
+    # Place smaller micro-batches at both ends to reduce the bubbles in pipeline parallel.
+    for idx, partition in enumerate(global_partition_lst):
+        partition.sort(key=lambda x: (workload_lst[x], x))
+        ordered_partition = partition[::2] + partition[1::2][::-1]
+        global_partition_lst[idx] = ordered_partition
+    # reorder based on index. The data will be automatically equally partitioned by dispatch function
+    global_idx = torch.tensor([j for partition in global_partition_lst for j in partition])
+    batch.reorder(global_idx)
+    global_balance_stats = log_seqlen_unbalance(
+        seqlen_list=global_seqlen_lst.detach().cpu().tolist(), partitions=global_partition_lst, prefix=logging_prefix
+    )
+    metrics = {}
+    metrics.update(global_balance_stats)
+    return metrics
+
diff --git a/roll/utils/logging.py b/roll/utils/logging.py
index 3d8f769d0..167bed6d2 100644
--- a/roll/utils/logging.py
+++ b/roll/utils/logging.py
@@ -7,6 +7,7 @@
 def is_roll_debug_mode():
     return os.getenv("ROLL_DEBUG", os.getenv("RAY_PROFILING", "0")) == "1"
 
+logging.basicConfig(force=True, level=logging.DEBUG if is_roll_debug_mode() else logging.INFO)
 
 class CustomFormatter(logging.Formatter):
     def format(self, record):
@@ -81,8 +82,14 @@ def get_logger() -> logging.Logger:
         handler.setFormatter(formatter)
         handler.set_name(_logger_name)
         _logger.addHandler(handler)
+        err_handler = logging.StreamHandler(sys.stderr)
+        err_handler.setFormatter(formatter)
+        err_handler.set_name(_logger_name)
+        err_handler.setLevel(logging.ERROR)
+        _logger.addHandler(err_handler)
 
     reset_file_logger_handler(_logger, log_dir, formatter)
 
     logger = _logger
+    logger.propagate = False
     return _logger
diff --git a/roll/utils/metrics/metrics_manager.py b/roll/utils/metrics/metrics_manager.py
index 3d2ba15ce..6b75661c2 100644
--- a/roll/utils/metrics/metrics_manager.py
+++ b/roll/utils/metrics/metrics_manager.py
@@ -1,8 +1,8 @@
 from typing import Dict, Any, List, Optional
 import torch
 import numpy as np
-from ray.util.timer import _Timer
 from codetiming import Timer
+from contextlib import contextmanager
 
 from roll.utils.functionals import masked_mean, reduce_metrics
 
@@ -414,3 +414,39 @@ def add_domain_all_metrics(self, global_step, batch_grouped: Dict[str, Any]) ->
             token_metrics = self.add_token_metrics(batch=domain_batch)
             self.add_domain_metrics(domain, token_metrics)
             self.metrics = original_metrics
+
+class DurationTracker:
+    def __init__(self):
+        self._clear()
+
+    def observe(self, duration: float):
+        self.count += 1
+        self.total += duration
+        self.min_time = min(self.min_time, duration)
+        self.max_time = max(self.max_time, duration)
+        self.mean = self.total / self.count if self.count > 0 else 0.0
+
+    @contextmanager
+    def track(self):
+        try:
+            with Timer(logger=None) as timer:
+                yield
+        finally:
+            self.observe(timer.last)
+
+    def _clear(self):
+        self.count = 0
+        self.total = 0.0
+        self.min_time = float('inf')
+        self.max_time = float('-inf')
+        self.mean = 0.0
+
+    def log(self):
+        summary = {
+            'count': self.count,
+            'min': self.min_time if self.min_time != float('inf') else 0.0,
+            'max': self.max_time if self.max_time != float('-inf') else 0.0,
+            'mean': round(self.mean, 6),
+        }
+        self._clear()
+        return summary
diff --git a/roll/utils/network_utils.py b/roll/utils/network_utils.py
index a9719f6d5..bcb08ddf5 100644
--- a/roll/utils/network_utils.py
+++ b/roll/utils/network_utils.py
@@ -2,9 +2,9 @@
 
 
 def get_node_ip():
-    s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
-    s.connect(("8.8.8.8", 80))
-    return s.getsockname()[0]
+    with socket.socket(socket.AF_INET, socket.SOCK_DGRAM) as s:
+        s.connect(("8.8.8.8", 80))
+        return s.getsockname()[0]
 
 
 def collect_free_port():
diff --git a/roll/utils/send_recv_utils.py b/roll/utils/send_recv_utils.py
index d816d1ff4..348d525ae 100644
--- a/roll/utils/send_recv_utils.py
+++ b/roll/utils/send_recv_utils.py
@@ -1,13 +1,10 @@
-from dataclasses import dataclass
-from typing import TYPE_CHECKING, Dict, List, Optional
-
-from roll.platforms import current_platform
+from typing import Dict
 
 import torch
+from torch.multiprocessing import reductions
 
-if TYPE_CHECKING:
-    from torch import Tensor
-
+from roll.platforms import current_platform
+from roll.utils.cuda_ipc_utils import MultiprocessingSerializer
 
 MAX_SHARD_SIZE = 5_000_000_000  # 5GB
 
@@ -57,19 +54,13 @@ def get_tensor_size(tensor: "torch.Tensor") -> int:
     return tensor.numel() * tensor.element_size()
 
 
-@dataclass
-class StackedTensors:
-    tensors: Optional[List["torch.Tensor"]]
-    dim: int = 0
-
-
 class TensorBucket:
     def __init__(self, bucket_size, device="cuda"):
         self.buffer = torch.empty(bucket_size, dtype=torch.int8, device=device)
         self.device = device
         self.bucket_size = bucket_size
         self.write_index = 0
-        self.tensors_meta = {}
+        self.tensors_meta = []
 
     def push_tensor(self, tensor: "torch.Tensor", tensor_start: int, name: str):
         required_bytes = get_tensor_size(tensor) - tensor_start
@@ -79,12 +70,16 @@ def push_tensor(self, tensor: "torch.Tensor", tensor_start: int, name: str):
         self.buffer[bucket_start : bucket_start + save_bytes].copy_(
             tensor_bytes[tensor_start : tensor_start + save_bytes]
         )
-        self.tensors_meta[name] = {
-            "bucket_start": bucket_start,
-            "tensor_start": tensor_start,
-            "save_bytes": save_bytes,
-            "tensor_meta": torch.empty_like(tensor, device="meta"),
-        }
+        self.tensors_meta.append(
+            {
+                "name": name,
+                "bucket_start": bucket_start,
+                "tensor_start": tensor_start,
+                "save_bytes": save_bytes,
+                "shape": list(tensor.shape),
+                "dtype": tensor.dtype,
+            }
+        )
         self.write_index += save_bytes
         return save_bytes
 
@@ -95,12 +90,16 @@ def pop_tensor(self, named_tensors: Dict[str, "torch.Tensor"]):
 
     @staticmethod
     def pop_tensor_in_buffer(named_tensors: Dict[str, "torch.Tensor"], tensors_meta, buffer: "torch.Tensor"):
-        for name, meta in tensors_meta.items():
-            meta = tensors_meta[name]
+        for meta in tensors_meta:
+            name = meta["name"]
             bucket_start, tensor_start, save_bytes = meta["bucket_start"], meta["tensor_start"], meta["save_bytes"]
             tensor = named_tensors.get(name, None)
             if tensor is None:
-                tensor = torch.empty_like(meta["tensor_meta"], device=buffer.device)
+                tensor = torch.empty(
+                    torch.Size(meta["shape"]),
+                    dtype=meta["dtype"],
+                    device=buffer.device,
+                )
                 named_tensors[name] = tensor
             tensor.view(-1).view(torch.int8)[tensor_start : tensor_start + save_bytes].copy_(
                 buffer[bucket_start : bucket_start + save_bytes]
@@ -108,7 +107,7 @@ def pop_tensor_in_buffer(named_tensors: Dict[str, "torch.Tensor"], tensors_meta,
         return named_tensors
 
     def drop(self):
-        self.tensors_meta = {}
+        self.tensors_meta = []
         self.write_index = 0
 
     def is_full(self):
@@ -135,21 +134,6 @@ def pop_last_bucket(self):
             return self.bucket.tensors_meta, self.bucket.buffer
         return None, None
 
-    @staticmethod
-    def meta_to_dict(meta_infos):
-        """
-        Convert tensor_meta from torch.Tensor of meta device to dict
-        """
-        for _, meta_info in meta_infos.items():
-            t = meta_info["tensor_meta"]
-            tensor_meta = {
-                "shape": list(t.shape),
-                "dtype": t.dtype,
-                "layout": t.layout,
-                "device": t.device,
-            }
-            meta_info["tensor_meta"] = tensor_meta
-
 
 class RecvBucketManager:
     def __init__(self):
@@ -158,7 +142,8 @@ def __init__(self):
     def process_bucket(self, tensors_meta, buffer):
         self.waiting_tensors = TensorBucket.pop_tensor_in_buffer(self.waiting_tensors, tensors_meta, buffer)
         finished_tensors = {}
-        for name, meta in tensors_meta.items():
+        for meta in tensors_meta:
+            name = meta["name"]
             tensor_start, save_bytes = meta["tensor_start"], meta["save_bytes"]
             if tensor_start + save_bytes == get_tensor_size(self.waiting_tensors[name]):
                 finished_tensors[name] = self.waiting_tensors.pop(name)
@@ -167,15 +152,171 @@ def process_bucket(self, tensors_meta, buffer):
     def clear(self):
         assert len(self.waiting_tensors) == 0
 
-    @staticmethod
-    def dict_to_meta(meta_infos):
-        for _, meta_info in meta_infos.items():
-            tensor_meta = meta_info["tensor_meta"]
-            assert tensor_meta["device"] == torch.device("meta")
-            t = torch.empty(
-                torch.Size(tensor_meta["shape"]),
-                dtype=tensor_meta["dtype"],
-                layout=tensor_meta["layout"],
-                device=tensor_meta["device"],
-            )
-            meta_info["tensor_meta"] = t
+
+# ref: https://github.com/sgl-project/sglang/blob/main/python/sglang/srt/utils/patch_torch.py
+def monkey_patch_torch_reductions():
+    """Monkey patching before Torch https://github.com/pytorch/pytorch/pull/149248 is fixed"""
+
+    # Currently, NPU does not support UUID. This has been temporarily commented out, with support expected in the fourth quarter.
+    if current_platform.device_type == "npu":
+        return
+
+    if hasattr(reductions, "_reduce_tensor_original"):
+        return
+
+    reductions._reduce_tensor_original = reductions.reduce_tensor
+    reductions._rebuild_cuda_tensor_original = reductions.rebuild_cuda_tensor
+
+    reductions.reduce_tensor = _reduce_tensor_modified
+    reductions.rebuild_cuda_tensor = _rebuild_cuda_tensor_modified
+
+    reductions.init_reductions()
+
+
+_REDUCE_TENSOR_ARG_DEVICE_INDEX = 6
+
+
+def _reduce_tensor_modified(*args, **kwargs):
+    output_fn, output_args = reductions._reduce_tensor_original(*args, **kwargs)
+    output_args = _modify_tuple(output_args, _REDUCE_TENSOR_ARG_DEVICE_INDEX, _device_to_uuid)
+    return output_fn, output_args
+
+
+def _rebuild_cuda_tensor_modified(*args):
+    args = _modify_tuple(args, _REDUCE_TENSOR_ARG_DEVICE_INDEX, _device_from_maybe_uuid)
+    return reductions._rebuild_cuda_tensor_original(*args)
+
+
+def _device_to_uuid(device: int) -> str:
+    return str(torch.cuda.get_device_properties(device).uuid)
+
+
+def _device_from_maybe_uuid(device_maybe_uuid) -> int:
+    if isinstance(device_maybe_uuid, int):
+        return device_maybe_uuid
+
+    if isinstance(device_maybe_uuid, str):
+        for device in range(torch.cuda.device_count()):
+            if str(torch.cuda.get_device_properties(device).uuid) == device_maybe_uuid:
+                return device
+        raise Exception("Invalid device_uuid=" + device_maybe_uuid)
+
+    raise Exception(f"Unknown type: {device_maybe_uuid=}")
+
+
+def _modify_tuple(t, index: int, modifier):
+    return *t[:index], modifier(t[index]), *t[index + 1 :]
+
+
+_BUCKET_CACHE = {}
+_BUFFER_INDEX = 0
+
+
+def _bucket_named_tensors(named_tensors: list[tuple[str, torch.Tensor]]) -> tuple[torch.Tensor, list[dict]]:
+    if current_platform.is_rocm():
+        global _BUFFER_INDEX
+        if not named_tensors:
+            raise ValueError("Cannot create empty tensor bucket")
+
+        tensors_meta = []
+        
+        current_idx = 0
+        total_numel = sum(tensor.numel() * tensor.element_size() for _, tensor in named_tensors)
+        device = named_tensors[0][1].device
+        
+        # Double buffering to prevent overwriting the buffer before receiver finishes processing
+        _BUFFER_INDEX = (_BUFFER_INDEX + 1) % 2
+        cache_key = (device, _BUFFER_INDEX)
+        
+        if cache_key not in _BUCKET_CACHE or _BUCKET_CACHE[cache_key].numel() < total_numel:
+            _BUCKET_CACHE[cache_key] = torch.empty(total_numel, dtype=torch.int8, device=device)
+            
+        flattened_tensor = _BUCKET_CACHE[cache_key][:total_numel]
+
+        for name, tensor in named_tensors:
+            flattened = tensor.flatten().view(torch.int8)
+            numel = flattened.numel()
+            metadata = {
+                "name": name,
+                "shape": list(tensor.shape),
+                "dtype": tensor.dtype,
+                "start_idx": current_idx,
+                "end_idx": current_idx + numel,
+                "numel": numel,
+            }
+            tensors_meta.append(metadata)
+            flattened_tensor[current_idx:current_idx + numel].copy_(flattened)
+            current_idx += numel
+
+        torch.cuda.synchronize(device)
+
+        return flattened_tensor, tensors_meta
+    else:
+        if not named_tensors:
+            raise ValueError("Cannot create empty tensor bucket")
+
+        tensors_meta = []
+        flattened_tensors = []
+
+        current_idx = 0
+        for i, (name, tensor) in enumerate(named_tensors):
+            flattened = tensor.flatten().view(torch.int8)
+
+            numel = flattened.numel()
+            metadata = {
+                "name": name,
+                "shape": list(tensor.shape),  # Convert to list for serialization
+                "dtype": tensor.dtype,
+                "start_idx": current_idx,
+                "end_idx": current_idx + numel,
+                "numel": numel,
+            }
+            tensors_meta.append(metadata)
+            flattened_tensors.append(flattened)
+            current_idx += numel
+
+        flattened_tensor = torch.cat(flattened_tensors, dim=0)
+        return flattened_tensor, tensors_meta
+
+
+def named_tensors_from_bucket(bucket: "torch.Tensor", tensors_meta: list[dict]) -> list[tuple[str, torch.Tensor]]:
+    reconstructed = []
+    for i, meta in enumerate(tensors_meta):
+        tensor = bucket[meta["start_idx"] : meta["end_idx"]].view(meta["dtype"]).reshape(torch.Size(meta["shape"]))
+        reconstructed.append((meta["name"], tensor))
+    return reconstructed
+
+
+def serialize_named_weights(named_weights: list[tuple[str, torch.Tensor]], infer_strategy: str):
+    if infer_strategy == "sglang":
+        from sglang.srt.weight_sync.tensor_bucket import FlattenedTensorBucket
+
+        try:
+            from sglang.srt.utils.patch_torch import (
+                monkey_patch_torch_reductions as sglang_monkey_patch_torch_reductions,
+            )  # type: ignore
+        except ImportError:
+            from sglang.srt.patch_torch import (
+                monkey_patch_torch_reductions as sglang_monkey_patch_torch_reductions,
+            )  # type: ignore
+
+        sglang_monkey_patch_torch_reductions()
+        bucket = FlattenedTensorBucket(named_weights)
+        flattened_tensor_data = {
+            "flattened_tensor": bucket.get_flattened_tensor(),
+            "metadata": bucket.get_metadata(),
+        }
+        serialized_tensors = MultiprocessingSerializer.serialize(flattened_tensor_data, output_str=True)
+        return serialized_tensors
+
+    bucket, tensors_meta = _bucket_named_tensors(named_weights)
+
+    # PumpkinComment:
+    # FSDP2 will fail if using CPUOffload Policy without this check
+    if not getattr(bucket, "is_cuda", False):
+        bucket = bucket.to(current_platform.device_type).contiguous()
+
+    monkey_patch_torch_reductions()
+
+    serialized_tensors = MultiprocessingSerializer.serialize({"bucket": bucket, "tensors_meta": tensors_meta})
+    return serialized_tensors
diff --git a/roll/utils/sequence_packing.py b/roll/utils/sequence_packing.py
index ec9c6f3a0..e485f1387 100644
--- a/roll/utils/sequence_packing.py
+++ b/roll/utils/sequence_packing.py
@@ -1,356 +1,343 @@
-import torch
-
-from roll.distributed.scheduler.protocol import DataProto
-from roll.platforms import current_platform
-from roll.utils.constants import IGNORE_INDEX
+from __future__ import annotations
+from typing import TYPE_CHECKING
 
-"""
-Loss computation wrappers for sequence packing training.
-Handles unpacking model outputs and aligning with original sequence boundaries for loss calculation.
-"""
+if TYPE_CHECKING:
+    from roll.distributed.scheduler.protocol import DataProto
+    from roll.utils.functionals import get_seqlen_balanced_partitions
 
-
-# TODO: use view of tensor in loss caculating instead of copy
-class SequencePackingLossWrapper:
+import torch
+import math
+import copy
+from dataclasses import field, dataclass, asdict
+from typing import Iterator, Tuple, Dict, List
+import torch.distributed as dist
+from roll.configs.worker_config import SequencePackingConfig
+
+def make_micro_batch_iter_for_sequence_packing(mini_batch, tp_size, cp_size, vp_size, is_train=False, dp_group=None,
+                                               micro_batch_size=None, config: SequencePackingConfig = None):
+    packer = get_sequence_packing_packer(config)
+    return packer.make_micro_batch_iter_for_sequence_packing(mini_batch, tp_size, cp_size, vp_size, is_train, dp_group, micro_batch_size)
+
+def restore_results_order(
+            results: Dict[str, torch.Tensor],
+            partition_indices_list: List[List[int]],
+            config: SequencePackingConfig = None
+    ) -> Dict[str, torch.Tensor]:
+    packer = get_sequence_packing_packer(config)
+    return packer.restore_results_order(results, partition_indices_list)
+
+
+def get_sequence_packing_packer(config: SequencePackingConfig = None):
+    """Factory function to get the appropriate sequence packing algorithm."""
+    if config==None:
+        config = SequencePackingConfig()
+    if config.algorithm == 'load_balance':
+        return LoadBalancePacker(config)
+    elif config.algorithm == 'none':
+        return SequencePackingPacker(config)
+    else:
+        raise ValueError(f"Illegal sequence packing algorithm {config.algorithm},"
+                         f" algorithm must be in ['none', 'load_balance']")
+
+
+class SequencePackingPacker:
     """
-    Base wrapper for computing loss on packed sequences.
-
-    In sequence packing, multiple sequences are concatenated and padded to form a single packed sequence.
-    This wrapper handles:
-    1. Unpacking model outputs back to individual sequences
-    2. Aligning original data (labels, masks) with unpacked outputs
-    3. Computing loss on properly aligned data
+    Sequence Packing Packer
     """
 
-    def __init__(
-        self,
-        strategy,
-        loss_func,
-    ):
+    def __init__(self, config: SequencePackingConfig = None):
+        self.config = config if config is not None else SequencePackingConfig()
+
+    def get_pad_factor(self, cp_size, tp_size):
+        """Calculate padding factor based on parallelism configuration."""
+        pad_factor = cp_size * 2 * tp_size if cp_size > 1 else tp_size
+        pad_factor = math.lcm(16, pad_factor)
+        return pad_factor
+
+    @staticmethod
+    def calculate_workload(seqlen: int) -> float:
         """
-        Args:
-            strategy: Training strategy containing model and distributed config
-            loss_func: Loss function to apply
-            cu_seqlens_q: Cumulative sequence lengths of original (unpadded) sequences
-            cu_seqlens_q_padded: Cumulative sequence lengths after padding for packing
-            logger: Optional logger
+        Calculate workload (simulating Transformer FLOPs).
+        FLOPs ∝ 6 * hidden_size * seqlen + seqlen^2
+        Using hidden_size=4096 as reference (7B model)
         """
-        self.strategy = strategy
-        self.loss_func = loss_func
-        self.cu_seqlens = None
-        self.cu_seqlens_padded = None
-        self.logger = None
-
-    def set_packing_params(self, cu_seqlens, cu_seqlens_padded, logger):
-        self.cu_seqlens = cu_seqlens
-        self.cu_seqlens_padded = cu_seqlens_padded
-        self.logger = logger
-
-    def _unpack_output_tensor(self, output_tensor):
+        return 24576 * seqlen + seqlen * seqlen
+
+    @staticmethod
+    def ceildiv(a: int, b: int) -> int:
+        """Ceiling division."""
+        return -(a // -b)
+
+    def make_micro_batch_iter_for_sequence_packing(
+            self,
+            mini_batch: DataProto,
+            tp_size, cp_size, vp_size, is_train=False,
+            dp_group=None, micro_batch_size=None
+    ) -> Iterator[DataProto]:
+        assert micro_batch_size is not None, "SequencePackingPacker: micro_batch_size is None"
+        mini_batch_size = len(mini_batch)
+        mini_batch.meta_info['partition_indices_list'] = []
+        num_microbatches = mini_batch_size // micro_batch_size
+        mini_batch.meta_info['num_micro_batchs'] = num_microbatches
+        return iter(mini_batch.chunk(chunks=num_microbatches))
+
+    @staticmethod
+    def restore_results_order(
+            results: Dict[str, torch.Tensor],
+            partition_indices_list: List[List[int]]
+    ) -> Dict[str, torch.Tensor]:
+        return results
+
+
+
+class LoadBalancePacker(SequencePackingPacker):
+    @staticmethod
+    def roundup_divisible(a: int, b: int) -> int:
+        """Round up a to be divisible by b."""
+        return ((a + b - 1) // b) * b
+
+    @staticmethod
+    def get_device_name():
+        """Get current device name."""
+        if torch.cuda.is_available():
+            return f"cuda:{torch.cuda.current_device()}"
+        return "cpu"
+
+    @staticmethod
+    def calculate_workload_batch(seqlen_tensor: torch.Tensor) -> torch.Tensor:
         """
-        Unpack model output tensor from packed format back to individual sequences.
-
-        The packed output contains multiple sequences concatenated together. This method
-        splits them back using padded cumulative sequence lengths, accounting for context
-        parallelism partitioning.
+        Calculate workload for a batch of sequences.
 
         Args:
-            output_tensor: Packed model output with shape (batch=1, packed_seq_len, hidden_dim)
+            seqlen_tensor: Tensor of sequence lengths
 
         Returns:
-            List of unpacked tensors, one per original sequence, each with shape
-            (batch=1, padded_seq_len, hidden_dim)
+            Tensor of workloads
         """
-        cp_size = self.strategy.worker.rank_info.cp_size
-
-        # Calculate sequence boundaries in the packed tensor
-        # Padded cumulative lengths mark where each sequence starts/ends after packing
-        padded_cu_seqlens = self.cu_seqlens_padded
-
-        # Adjust for context parallelism: each rank only holds a portion of the sequence
-        seq_starts = padded_cu_seqlens[:-1] // cp_size
-        seq_ends = padded_cu_seqlens[1:] // cp_size
-
-        # Extract each sequence from the packed tensor
-        unpacked_output_tensor_list = []
-        for seq_idx, (seq_start, seq_end) in enumerate(zip(seq_starts, seq_ends)):
-            unpacked_output_tensor_list.append(output_tensor[:, seq_start:seq_end, :])
-        return unpacked_output_tensor_list
-
-    def _pad_tensor_to_target_length(self, tensor, target_length, pad_val=0, pad_dim=0):
+        return 24576 * seqlen_tensor + seqlen_tensor * seqlen_tensor
+
+    def make_micro_batch_iter_for_sequence_packing(
+            self,
+            mini_batch: DataProto,
+            tp_size: int,
+            cp_size: int,
+            vp_size: int,
+            is_train=False,
+            dp_group=None,
+            micro_batch_size=None
+    ) -> Iterator[DataProto]:
         """
-        Pad tensor along the specified dimension to reach the target length by padding on the right.
+        Split mini_batch into micro batches with sequence packing strategy.
 
-        Args:
-            tensor: Input tensor to pad
-            target_length: Desired length along pad_dim
-            pad_val: Value to use for padding
-            pad_dim: Dimension to pad along
+        This function:
+        1. Calculates the optimal number of micro batches based on max_packed_sequence_length
+        2. Ensures all DP ranks have the same number of micro batches
+        3. Ensures the number of micro batches is divisible by vp_size
+        4. Balances workload across micro batches using Karmarkar-Karp algorithm
+        5. Optimizes scheduling by placing smaller batches at edges
 
-        Returns:
-            Padded tensor with length target_length along pad_dim
+        Args:
+            mini_batch: Input mini batch data containing:
+                - batch: TensorDict with tensors including 'input_ids' and 'attention_mask'
+                - non_tensor_batch: Dict with non-tensor data
+                - meta_info: Dict with metadata
+            tp_size: Tensor parallel size
+            cp_size: Context parallel size
+            vp_size: Virtual pipeline parallel size (must divide num_micro_batches)
+            max_packed_sequence_length: Maximum total sequence length per micro batch
+            dp_group: Data parallel process group for synchronization
+
+        Yields:
+            DataProto: Micro batches with balanced workload
+
+        Raises:
+            AssertionError: If max_packed_sequence_length < max sequence length in batch
         """
-        seq_len = tensor.shape[pad_dim]
-
-        if target_length > seq_len:
-            pad_size = target_length - seq_len
-
-            # Construct padding specification for torch.nn.functional.pad
-            # Format: [pad_left, pad_right] for each dim from last to first
-            pad_list = [0, 0] * tensor.ndim
-            pad_list[2 * (tensor.ndim - 1 - pad_dim) + 1] = pad_size
-
-            tensor = torch.nn.functional.pad(tensor, pad_list, value=pad_val)
-
-        return tensor
-
-    def _align_to_unpacked_output_tensor_shape(self, tensor, pad_val=0):
+        assert dp_group is not None, "LoadBalancePacker: dp_group is None"
+        # Calculate effective sequence lengths for each sample
+        # For regular tensors, use attention mask
+        attention_mask = mini_batch.batch["attention_mask"]
+        max_seq_len = attention_mask.shape[-1]
+        seq_len_effective: torch.Tensor = attention_mask.sum(dim=1)
+        pad_factor = self.get_pad_factor(cp_size, tp_size)
+        seq_len_effective = ((seq_len_effective + pad_factor - 1) // pad_factor) * pad_factor
+
+        if is_train:
+            max_packed_sequence_length = self.config.max_packed_sequence_length_train
+        else:
+            max_packed_sequence_length = self.config.max_packed_sequence_length_forward
+        assert max_packed_sequence_length is not None, "LoadBalancePacker: max_packed_sequence_length is None"
+        # Validate that max_packed_sequence_length is sufficient
+        assert max_packed_sequence_length >= max_seq_len, (
+            f"max_packed_sequence_length ({max_packed_sequence_length}) must be >= "
+            f"max sequence length in batch ({max_seq_len})"
+        )
+
+        batch_size = len(seq_len_effective)
+        total_seqlen = seq_len_effective.sum().item()
+
+        # Step 2: Calculate initial number of micro batches
+        # Base calculation: how many batches do we need to fit all tokens?
+        num_micro_batches = max(1, self.ceildiv(total_seqlen, max_packed_sequence_length))
+
+        # Cannot have more micro batches than samples
+        num_micro_batches = min(num_micro_batches, batch_size)
+
+        if is_train:
+            min_num_micro_batches = self.config.min_num_micro_batches_train
+        else:
+            min_num_micro_batches = self.config.min_num_micro_batches_forward
+        num_micro_batches = max(num_micro_batches, min_num_micro_batches)
+
+        # Step 3: Synchronize across DP ranks (all ranks must have same count)
+        if dist.is_initialized() and dp_group is not None:
+            num_micro_batches_tensor = torch.tensor(
+                [num_micro_batches],
+                device=self.get_device_name()
+            )
+            # Use MAX to ensure all ranks can accommodate their data
+            dist.all_reduce(
+                num_micro_batches_tensor,
+                op=dist.ReduceOp.MAX,
+                group=dp_group
+            )
+            num_micro_batches = num_micro_batches_tensor.cpu().item()
+
+        # Step 4: Round up to be divisible by vp_size
+        if vp_size > 1:
+            num_micro_batches = self.roundup_divisible(num_micro_batches, vp_size)
+
+        # Step 5: Calculate workload for load balancing
+        # Use squared sequence length as proxy for attention computation cost
+        workloads = self.calculate_workload_batch(seq_len_effective)
+
+        from roll.utils.functionals import get_seqlen_balanced_partitions
+        # Step 6: Partition samples into micro batches with balanced workload
+        micro_batch_indices = get_seqlen_balanced_partitions(
+            seqlen_list=workloads.tolist(),
+            k_partitions=num_micro_batches,
+            equal_size=False  # Allow variable sizes for better balance
+        )
+
+        # Step 7: Sort and reorder for better pipeline scheduling
+        # Sort by workload (descending) to identify large and small batches
+        micro_batch_indices_with_workload = [
+            (
+                partition,
+                sum(workloads[idx].item() for idx in partition),
+                partition[0] if partition else 0  # tie-breaker
+            )
+            for partition in micro_batch_indices
+        ]
+
+        micro_batch_indices_with_workload.sort(
+            key=lambda x: (x[1], x[2]),
+            reverse=True
+        )
+
+        # Reorder: place smaller batches at both ends to reduce pipeline bubbles
+        # Pattern: [small, large, large, ..., large, small]
+        sorted_indices = [x[0] for x in micro_batch_indices_with_workload]
+        reordered_indices = sorted_indices[::2][::-1] + sorted_indices[1::2]
+
+        mini_batch.meta_info['partition_indices_list'] = reordered_indices.copy()
+
+        # Step 8: Generate micro batches
+        generated_count = 0
+
+        for partition in reordered_indices:
+            if len(partition) == 0:
+                # Skip empty partitions (shouldn't happen but be safe)
+                continue
+
+            # Use DataProto's select_idxs method to create micro batch
+            micro_batch_proto = mini_batch.select_idxs(partition)
+
+            # Add metadata about this micro batch
+            micro_batch_proto.meta_info = copy.deepcopy(mini_batch.meta_info)
+            micro_batch_proto.meta_info['micro_batch_idx'] = generated_count
+            micro_batch_proto.meta_info['is_padding_batch'] = False
+            micro_batch_proto.meta_info['partition_indices'] = partition
+            micro_batch_proto.meta_info['num_micro_batchs'] = num_micro_batches
+            micro_batch_proto.meta_info['mini_batch_size'] = mini_batch.batch.batch_size[0]
+
+            yield micro_batch_proto
+            generated_count += 1
+
+        # Verify we generated the correct number of micro batches
+        assert generated_count == num_micro_batches, (
+            f"Generated {generated_count} micro batches but expected {num_micro_batches}"
+        )
+
+    @staticmethod
+    def restore_results_order(
+            results: Dict[str, torch.Tensor],
+            partition_indices_list: List[List[int]]
+    ) -> Dict[str, torch.Tensor]:
         """
-        Align original data tensors (labels, masks) to match unpacked output shape.
+        Restore computation results to their original order after load-balanced partitioning.
 
-        Original data comes in shape (batch, max_seq_len, ...) where batch contains multiple
-        sequences with varying actual lengths. This method:
-        1. Extracts each sequence's valid portion (up to its original unpadded length)
-        2. Pads it to match the padded length used during packing
-
-        This ensures original data aligns with unpacked model outputs for loss computation.
+        During load balancing, samples are reordered into partitions by sequence length.
+        This function reverses that reordering to match the original input order.
 
         Args:
-            tensor: Original data tensor with shape (batch, seq_len, ...)
-            pad_val: Value used for padding (e.g., IGNORE_INDEX for labels, 0 for masks)
+            results: Dict of computation results where first dimension is in partitioned order
+                     e.g., {'logits': [total_batch, ...], 'loss': [total_batch]}
+            partition_indices_list: List of original indices for each partition
+                                    (from mini_batch.meta_info['partition_indices_list'])
 
         Returns:
-            List of aligned tensors, each with shape (1, padded_seq_len, ...) matching
-            the corresponding unpacked output tensor
-        """
-        # Get original unpadded sequence lengths (actual data before packing)
-        unpadded_seq_lengths = self.cu_seqlens[1:] - self.cu_seqlens[:-1]
-
-        # Get padded sequence lengths (after padding during packing)
-        padded_seq_lengths = self.cu_seqlens_padded[1:] - self.cu_seqlens_padded[:-1]
+            Dict with same keys but tensors reordered to original sample order
 
-        source_seq_lengths = unpadded_seq_lengths  # Valid data length
-        target_seq_lengths = padded_seq_lengths  # Target length after packing
-
-        aligned_tensor_list = []
-        for seq_idx, (source_len, target_len) in enumerate(
-                zip(source_seq_lengths, target_seq_lengths)
-        ):
-            # Extract valid portion: truncate to original unpadded length
-            seq_tensor = tensor[seq_idx:seq_idx + 1, :source_len]
+        Example:
+            # Create micro batches with load balancing
+            micro_batches_iter = packer.make_micro_batch_iter_for_sequence_packing(
+                mini_batch=mini_batch, ...
+            )
+            partition_indices_list = mini_batch.meta_info['partition_indices_list']
 
-            # Pad to match the padded length used in packing
-            seq_tensor = self._pad_tensor_to_target_length(seq_tensor, target_len, pad_val=pad_val, pad_dim=1)
+            # Compute (results are concatenated across partitions)
+            results = model(micro_batches_iter)  # {'logits': [total_batch, ...]}
 
-            # Keep batch dimension (1) to match unpacked output format
-            aligned_tensor_list.append(seq_tensor)
+            # Restore original order
+            restored = LoadBalancePacker.restore_results_order(
+                results, partition_indices_list
+            )
+        """
+        if not results:
+            return {}
 
-        return aligned_tensor_list
+        # Flatten partition indices to get current -> original mapping
+        original_indices = []
+        for partition_indices in partition_indices_list:
+            original_indices.extend(partition_indices)
 
-    def __call__(self, data: DataProto, output_tensor: torch.Tensor):
-        return self.loss_func(data, output_tensor)
+        # Build inverse mapping: original position -> current position
+        # original_indices[current_pos] = original_pos
+        # reorder_indices[original_pos] = current_pos
+        total_samples = len(original_indices)
+        reorder_indices = [0] * total_samples
+        for current_pos, original_pos in enumerate(original_indices):
+            reorder_indices[original_pos] = current_pos
 
+        reorder_indices_tensor = torch.tensor(reorder_indices, dtype=torch.long)
 
-# SFT
-class SequencePackingSFTLossWrapper(SequencePackingLossWrapper):
-    """
-    Wrapper for SFT loss computation with packed sequences.
+        # Reorder each tensor result
+        restored_results = {}
+        for key, tensor in results.items():
+            if isinstance(tensor, torch.Tensor) and tensor.dim() > 0:
+                assert tensor.shape[0] == total_samples, \
+                    f"Tensor '{key}' batch size {tensor.shape[0]} != total samples {total_samples}"
 
-    For SFT, labels are already packed in the same format as model outputs,
-    so we can directly compute loss without unpacking.
-    """
+                restored_results[key] = tensor[reorder_indices_tensor]
+            else:
+                # Scalar or non-tensor, keep as-is
+                restored_results[key] = tensor
 
-    def __call__(self, data: DataProto, output_tensor: torch.Tensor):
-        # Use pre-packed labels that match the packed output format
-        labels = data.meta_info['labels_packed']
-        return self.loss_func(DataProto.from_dict(tensors={'labels': labels}), output_tensor)
+        return restored_results
 
 
-# Distillation
-class SequencePackingDistillForwardWrapper(SequencePackingLossWrapper):
-    """
-    Wrapper for teacher model forward pass in distillation with packed sequences.
 
-    Computes teacher logits from packed outputs and prepares them for student training:
-    1. Unpacks teacher outputs to individual sequences
-    2. Computes full vocabulary logits or topk logits for each sequence
-    3. Pads logits back to original max sequence length for easy alignment with student
-    """
 
-    def __init__(self, strategy, loss_func):
-        super().__init__(strategy, loss_func)
-        self.forward_func = loss_func
 
-    def __call__(self, data: DataProto, output_tensor: torch.Tensor, non_loss_data: bool = True):
-        """
-        Compute teacher logits from packed outputs.
-
-        Args:
-            data: Input data protocol
-            output_tensor: Packed teacher model outputs
-            non_loss_data: Flag indicating this is for data generation, not loss computation
-
-        Returns:
-            Tuple of (dummy_loss, dict with teacher logits and topk indices)
-        """
-        # Step 1: Unpack teacher outputs to individual sequences
-        unpacked_output_tensor_list = self._unpack_output_tensor(output_tensor)
-
-        # Step 2: Compute logits for each sequence
-        # Gather across tensor/context parallel ranks to get full logits
-        teacher_topk_probs_list = []
-        teacher_topk_log_probs_list = []
-        teacher_topk_indices_list = []
-        teacher_topk_inf_mask_list = []
-        for idx, unpacked_output_tensor in enumerate(unpacked_output_tensor_list):
-            # Compute logits with full vocabulary (or topk for efficiency)
-            teacher_topk_probs, teacher_topk_log_probs, teacher_topk_indices, teacher_topk_inf_mask = self.strategy.op_compute_topk_probs_and_indices(
-                unpacked_output_tensor,
-                topk=self.strategy.worker.pipeline_config.logits_topk,
-                target_vocab_size=self.strategy.worker.pipeline_config.target_vocab_size,
-                kd_temperature=self.strategy.worker.pipeline_config.kd_temperature,
-                teacher_temperature=self.strategy.worker.pipeline_config.teacher_temperature
-            )
 
-            # Step 3: Pad each sequence's logits to max sequence length
-            # This makes them easy to align with original student data later
-            max_length = self.strategy.worker.pipeline_config.sequence_length
-            teacher_topk_probs = self._pad_tensor_to_target_length(teacher_topk_probs, max_length, pad_val=0, pad_dim=1)
-            teacher_topk_log_probs = self._pad_tensor_to_target_length(teacher_topk_log_probs, max_length, pad_val=0, pad_dim=1)
-            teacher_topk_indices = self._pad_tensor_to_target_length(teacher_topk_indices, max_length, pad_val=0, pad_dim=1)
-            teacher_topk_inf_mask = self._pad_tensor_to_target_length(teacher_topk_inf_mask, max_length, pad_val=1, pad_dim=1)
-
-            teacher_topk_probs_list.append(teacher_topk_probs)
-            teacher_topk_log_probs_list.append(teacher_topk_log_probs)
-            teacher_topk_indices_list.append(teacher_topk_indices)
-            teacher_topk_inf_mask_list.append(teacher_topk_inf_mask)
-
-        # Concatenate all sequences back into batch format
-        teacher_topk_probs = torch.cat(teacher_topk_probs_list, dim=0)
-        teacher_topk_log_probs = torch.cat(teacher_topk_log_probs_list, dim=0)
-        teacher_topk_indices = torch.cat(teacher_topk_indices_list, dim=0)
-        teacher_topk_inf_mask = torch.cat(teacher_topk_inf_mask_list, dim=0)
-
-        # Return dummy loss (teacher forward doesn't compute loss) and teacher outputs
-        return torch.tensor(0., device=output_tensor.device), {
-            'topk_probs': teacher_topk_probs.detach(),
-            'topk_log_probs': teacher_topk_log_probs.detach(),
-            'topk_indices': teacher_topk_indices.detach(),
-            'topk_inf_mask': teacher_topk_inf_mask.detach()
-        }
-
-
-class SequencePackingDistillLossWrapper(SequencePackingLossWrapper):
-    """
-    Wrapper for computing distillation loss with packed sequences.
-
-    Combines language modeling loss and distillation loss:
-    1. Unpacks student model outputs to individual sequences
-    2. Aligns original labels and teacher outputs with unpacked student outputs
-    3. Computes both standard LM loss and KL divergence with teacher for each sequence
-    4. Combines losses with configurable weighting
-    """
-
-    def __call__(self, data: DataProto, output_tensor: torch.Tensor):
-        """
-        Compute combined distillation and language modeling loss.
-
-        Args:
-            data: Input data containing original labels and masks
-            output_tensor: Packed student model outputs
-
-        Returns:
-            Tuple of (total_loss, metrics_dict)
-        """
-        # Step 1: Compute student logits from packed outputs
-        # Keep them partitioned across tensor/context parallel for memory efficiency
-        student_logits = output_tensor
-
-        # Step 2: Unpack student logits to individual sequences (still cp-partitioned)
-        student_logits_list = self._unpack_output_tensor(student_logits)
-
-        # Step 3: Get original data from dataloader (not packed)
-        labels = data.batch['labels_for_loss']
-        attention_mask = data.batch['attention_mask']
-
-        # Step 4: Align original data with unpacked outputs
-        # Truncate to original length and pad to match packing padding
-        aligned_labels_list = self._align_to_unpacked_output_tensor_shape(labels, pad_val=IGNORE_INDEX)
-        aligned_attention_mask_list = self._align_to_unpacked_output_tensor_shape(attention_mask, pad_val=0)
-
-        # Step 5: Get and align teacher outputs (pre-computed in teacher forward pass)
-        if self.strategy.worker.teacher_probs_iterator is not None:
-            teacher_probs = next(self.strategy.worker.teacher_probs_iterator)
-            aligned_teacher_probs_list = self._align_to_unpacked_output_tensor_shape(teacher_probs)
-        else:
-            teacher_probs = None
-        if self.strategy.worker.teacher_log_probs_iterator is not None:
-            teacher_log_probs = next(self.strategy.worker.teacher_log_probs_iterator)
-            aligned_teacher_log_probs_list = self._align_to_unpacked_output_tensor_shape(teacher_log_probs)
-        else:
-            teacher_log_probs = None
-        if self.strategy.worker.teacher_topk_indices_iterator is not None:
-            teacher_topk_indices = next(self.strategy.worker.teacher_topk_indices_iterator)
-            aligned_teacher_topk_indices_list = self._align_to_unpacked_output_tensor_shape(teacher_topk_indices)
-        else:
-            teacher_topk_indices = None
-        if self.strategy.worker.teacher_inf_mask_iterator is not None:
-            teacher_inf_mask = next(self.strategy.worker.teacher_inf_mask_iterator)
-            aligned_teacher_inf_mask_list = self._align_to_unpacked_output_tensor_shape(teacher_inf_mask)
-        else:
-            teacher_inf_mask = None
-
-
-        # Step 6: Accumulate losses across all sequences in the batch
-        total_gpt_loss = torch.tensor(0, device=current_platform.device_type, dtype=torch.float32)
-        total_distill_loss = torch.tensor(0, device=current_platform.device_type, dtype=torch.float32)
-        total_valid_tokens = 0
-        total_valid_tokens_distill = 0
-
-        batch_size = len(student_logits_list)
-        for idx in range(batch_size):
-            # Get aligned data for this sequence
-            single_student_logits = student_logits_list[idx]
-            single_label = aligned_labels_list[idx]
-            single_teacher_probs = aligned_teacher_probs_list[idx] if teacher_probs is not None else None
-            single_teacher_log_probs = aligned_teacher_log_probs_list[idx] if teacher_log_probs is not None else None
-            single_teacher_topk_indices = aligned_teacher_topk_indices_list[idx] if teacher_topk_indices is not None else None
-            single_teacher_inf_mask = aligned_teacher_inf_mask_list[idx] if teacher_inf_mask is not None else None
-
-            # Compute standard language modeling loss (cross-entropy with labels)
-            local_gpt_loss, local_valid_tokens = self.strategy.op_compute_language_loss_from_logits(
-                single_student_logits, single_label,
-                reduction="sum")
-            total_gpt_loss += local_gpt_loss
-            total_valid_tokens += local_valid_tokens
-
-            # Compute distillation loss (KL divergence between student and teacher)
-            local_distill_loss, local_valid_tokens_distill = self.strategy.op_compute_various_divergence(
-                self.strategy.worker.kl_loss_func,
-                single_student_logits, single_teacher_probs,
-                single_teacher_log_probs, single_teacher_topk_indices,
-                single_teacher_inf_mask, single_label,
-                attention_mask=None, reduction="sum")
-
-            total_distill_loss += local_distill_loss
-            total_valid_tokens_distill += local_valid_tokens_distill
-
-        # Step 7: Normalize losses by number of valid tokens
-        if total_valid_tokens == 0:
-            total_valid_tokens = 1
-        if total_valid_tokens_distill == 0:
-            total_valid_tokens_distill = 1
-        gpt_loss = total_gpt_loss / total_valid_tokens
-        distill_loss = total_distill_loss / total_valid_tokens_distill
-
-        # Step 8: Combine losses with configured weighting
-        # loss = (1 - α) * LM_loss + α * distill_loss
-        loss = ((1 - self.strategy.worker.pipeline_config.distill_loss_weight) * gpt_loss
-                + self.strategy.worker.pipeline_config.distill_loss_weight * distill_loss)
-
-        student_metrics = {
-            "train/loss": loss.detach().item(),
-            "train/train_distill_loss": distill_loss.detach().item(),
-            "train/train_student_loss": gpt_loss.detach().item(),
-        }
-        return loss, student_metrics
diff --git a/roll/utils/str_utils.py b/roll/utils/str_utils.py
index 04dbd2db7..7ca5abfbc 100644
--- a/roll/utils/str_utils.py
+++ b/roll/utils/str_utils.py
@@ -1,4 +1,11 @@
+import io
+import os
 import re
+import sys
+import dataclasses
+from typing import Any, Optional
+
+from omegaconf import OmegaConf
 
 def contains_renderable_field(s: str, key: str) -> bool:
     """
@@ -18,4 +25,62 @@ def contains_renderable_field(s: str, key: str) -> bool:
         raise TypeError("Input 'key' must be a string.")
 
     pattern = r"\{" + re.escape(key) + r"(?!\w).*\}"
-    return re.search(pattern, s) is not None
\ No newline at end of file
+    return re.search(pattern, s) is not None
+
+
+def print_pipeline_config(config_obj: Any, enable_color: bool = False) -> None:
+    def convert_to_dict(obj):
+        if dataclasses.is_dataclass(obj):
+            return {f.name: convert_to_dict(getattr(obj, f.name)) for f in dataclasses.fields(obj)}
+        if isinstance(obj, (set, frozenset)):
+            try:
+                return sorted(list(obj), key=str)
+            except TypeError:
+                return list(obj)
+        if isinstance(obj, dict):
+            return {k: convert_to_dict(v) for k, v in obj.items()}
+        if isinstance(obj, (list, tuple)):
+            return [convert_to_dict(item) for item in obj]
+        return obj
+
+    buf = io.StringIO()
+
+    ANSI_RESET = "\033[0m"
+    ANSI_MAGENTA = "\033[95m"
+    ANSI_CYAN = "\033[96m"
+    ANSI_GREEN = "\033[92m"
+    ANSI_YELLOW = "\033[93m"
+    COLORS_BY_LEVEL = [ANSI_CYAN, ANSI_GREEN, ANSI_YELLOW, ANSI_MAGENTA]
+
+    use_color = enable_color and sys.stdout.isatty() and os.getenv("NO_COLOR") is None
+
+    def wrap(text: str, color: Optional[str]) -> str:
+        if use_color and color:
+            return f"{color}{text}{ANSI_RESET}"
+        return text
+
+    def bprint(s: str, color: Optional[str] = None):
+        print(wrap(s, color), file=buf)
+
+    def colorize_yaml(yaml_text: str) -> str:
+        colored_lines = []
+        for line in yaml_text.splitlines():
+            stripped = line.lstrip()
+            indent = len(line) - len(stripped)
+            level_color = COLORS_BY_LEVEL[(indent // 2) % len(COLORS_BY_LEVEL)]
+            if ":" in stripped:
+                key, rest = stripped.split(":", 1)
+                rest = rest.rstrip()
+                suffix = f": {rest.strip()}" if rest.strip() else ":"
+                colored_lines.append(f"{' ' * indent}{wrap(key, level_color)}{suffix}")
+            else:
+                colored_lines.append(f"{' ' * indent}{wrap(stripped, level_color)}")
+        return "\n".join(colored_lines)
+
+    bprint("\n====== Pipeline Config ======", ANSI_MAGENTA)
+    bprint("------ merged & post-init ------", ANSI_CYAN)
+    config_dict = convert_to_dict(config_obj)
+    yaml_text = OmegaConf.to_yaml(OmegaConf.create(config_dict), resolve=True).rstrip()
+    bprint(colorize_yaml(yaml_text))
+    bprint("====== End Config ======", ANSI_MAGENTA)
+    print(buf.getvalue())
\ No newline at end of file
diff --git a/roll/utils/taskgroups.py b/roll/utils/taskgroups.py
new file mode 100644
index 000000000..d7fd737c0
--- /dev/null
+++ b/roll/utils/taskgroups.py
@@ -0,0 +1,298 @@
+# borrow from cpython
+# https://github.com/python/cpython/blob/3.12/Lib/asyncio/taskgroups.py
+#
+# Copyright (c) 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010,
+# 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023 Python Software Foundation;
+# All Rights Reserved
+#
+# Adapted with permission from the EdgeDB project;
+# license: PSFL.
+#
+#
+# This implementation of TaskGroup does not match all semantic of cpython TaskGroup.
+# On exception in task group, we still cancel parent task but will not uncancel it.
+# So we will raise `asyncio.CancelledError` if any exceptions other than
+# `asyncio.CancelledError` raised within a task.
+#
+# And bacause python 3.11 and above need Task.uncancel() in addition to catching
+# `asyncio.CancelledError` to suppress the cancellation, users should not suppress
+# cancellation when using this implementation of TaskGroup to keep compatibility.
+
+
+__all__ = ("TaskGroup",)
+
+from asyncio import events
+from asyncio import exceptions
+from asyncio import tasks
+
+
+class TaskGroup:
+    """Asynchronous context manager for managing groups of tasks.
+
+    Example use:
+
+        async with asyncio.TaskGroup() as group:
+            task1 = group.create_task(some_coroutine(...))
+            task2 = group.create_task(other_coroutine(...))
+        print("Both tasks have completed now.")
+
+    All tasks are awaited when the context manager exits.
+
+    Any exceptions other than `asyncio.CancelledError` raised within
+    a task will cancel all remaining tasks and wait for them to exit.
+    The first exception is then raised (BaseExceptionGroup is not
+    supported on python 3.10).
+
+    This implementation of TaskGroup does not match all semantic of cpython TaskGroup.
+    On exception in task group, we still cancel parent task but will not uncancel it.
+    So we will raise `asyncio.CancelledError` if any exceptions other than 
+    `asyncio.CancelledError` raised within a task.
+
+    And bacause python 3.11 and above need Task.uncancel() in addition to catching
+    `asyncio.CancelledError` to suppress the cancellation, users should not suppress
+    cancellation when using this implementation of TaskGroup to keep compatibility.
+    """
+    def __init__(self):
+        self._entered = False
+        self._exiting = False
+        self._aborting = False
+        self._loop = None
+        self._parent_task = None
+        self._parent_cancel_requested = False
+        self._tasks = set()
+        self._errors = []
+        self._base_error = None
+        self._on_completed_fut = None
+
+    def __repr__(self):
+        info = ['']
+        if self._tasks:
+            info.append(f'tasks={len(self._tasks)}')
+        if self._errors:
+            info.append(f'errors={len(self._errors)}')
+        if self._aborting:
+            info.append('cancelling')
+        elif self._entered:
+            info.append('entered')
+
+        info_str = ' '.join(info)
+        return f'<TaskGroup{info_str}>'
+
+    async def __aenter__(self):
+        if self._entered:
+            raise RuntimeError(
+                f"TaskGroup {self!r} has already been entered")
+        if self._loop is None:
+            self._loop = events.get_running_loop()
+        self._parent_task = tasks.current_task(self._loop)
+        if self._parent_task is None:
+            raise RuntimeError(
+                f'TaskGroup {self!r} cannot determine the parent task')
+        self._entered = True
+
+        return self
+
+    async def __aexit__(self, et, exc, tb):
+        tb = None
+        try:
+            return await self._aexit(et, exc)
+        finally:
+            # Exceptions are heavy objects that can have object
+            # cycles (bad for GC); let's not keep a reference to
+            # a bunch of them. It would be nicer to use a try/finally
+            # in __aexit__ directly but that introduced some diff noise
+            self._parent_task = None
+            self._errors = None
+            self._base_error = None
+            exc = None
+
+    async def _aexit(self, et, exc):
+        self._exiting = True
+
+        if (exc is not None and
+                self._is_base_error(exc) and
+                self._base_error is None):
+            self._base_error = exc
+
+        propagate_cancellation_error = \
+            exc if et is exceptions.CancelledError else None
+        # TODO not supported on python 3.10
+        # if self._parent_cancel_requested:
+        #     # If this flag is set we *must* call uncancel().
+        #     if self._parent_task.uncancel() == 0:
+        #         # If there are no pending cancellations left,
+        #         # don't propagate CancelledError.
+        #         propagate_cancellation_error = None
+
+        if et is not None:
+            if not self._aborting:
+                # Our parent task is being cancelled:
+                #
+                #    async with TaskGroup() as g:
+                #        g.create_task(...)
+                #        await ...  # <- CancelledError
+                #
+                # or there's an exception in "async with":
+                #
+                #    async with TaskGroup() as g:
+                #        g.create_task(...)
+                #        1 / 0
+                #
+                self._abort()
+
+        # We use while-loop here because "self._on_completed_fut"
+        # can be cancelled multiple times if our parent task
+        # is being cancelled repeatedly (or even once, when
+        # our own cancellation is already in progress)
+        while self._tasks:
+            if self._on_completed_fut is None:
+                self._on_completed_fut = self._loop.create_future()
+
+            try:
+                await self._on_completed_fut
+            except exceptions.CancelledError as ex:
+                if not self._aborting:
+                    # Our parent task is being cancelled:
+                    #
+                    #    async def wrapper():
+                    #        async with TaskGroup() as g:
+                    #            g.create_task(foo)
+                    #
+                    # "wrapper" is being cancelled while "foo" is
+                    # still running.
+                    propagate_cancellation_error = ex
+                    self._abort()
+
+            self._on_completed_fut = None
+
+        assert not self._tasks
+
+        if self._base_error is not None:
+            try:
+                raise self._base_error
+            finally:
+                exc = None
+
+        # Propagate CancelledError if there is one, except if there
+        # are other errors -- those have priority.
+        try:
+            if propagate_cancellation_error and not self._errors:
+                try:
+                    raise propagate_cancellation_error
+                finally:
+                    exc = None
+        finally:
+            propagate_cancellation_error = None
+
+        if et is not None and et is not exceptions.CancelledError:
+            self._errors.append(exc)
+
+        if self._errors:
+            try:
+                # TODO not supported on python 3.10
+                # raise BaseExceptionGroup(
+                #     'unhandled errors in a TaskGroup',
+                #     self._errors,
+                # ) from None
+                raise self._errors[0]
+            finally:
+                exc = None
+
+
+    def create_task(self, coro, *, name=None, context=None):
+        """Create a new task in this group and return it.
+
+        Similar to `asyncio.create_task`.
+        """
+        if not self._entered:
+            raise RuntimeError(f"TaskGroup {self!r} has not been entered")
+        if self._exiting and not self._tasks:
+            raise RuntimeError(f"TaskGroup {self!r} is finished")
+        if self._aborting:
+            raise RuntimeError(f"TaskGroup {self!r} is shutting down")
+        if context is None:
+            task = self._loop.create_task(coro)
+        else:
+            task = self._loop.create_task(coro, context=context)
+        tasks._set_task_name(task, name)
+
+        # Always schedule the done callback even if the task is
+        # already done (e.g. if the coro was able to complete eagerly),
+        # otherwise if the task completes with an exception then it will cancel
+        # the current task too early. gh-128550, gh-128588
+
+        self._tasks.add(task)
+        task.add_done_callback(self._on_task_done)
+        try:
+            return task
+        finally:
+            # gh-128552: prevent a refcycle of
+            # task.exception().__traceback__->TaskGroup.create_task->task
+            del task
+
+    # Since Python 3.8 Tasks propagate all exceptions correctly,
+    # except for KeyboardInterrupt and SystemExit which are
+    # still considered special.
+
+    def _is_base_error(self, exc: BaseException) -> bool:
+        assert isinstance(exc, BaseException)
+        return isinstance(exc, (SystemExit, KeyboardInterrupt))
+
+    def _abort(self):
+        self._aborting = True
+
+        for t in self._tasks:
+            if not t.done():
+                t.cancel()
+
+    def _on_task_done(self, task):
+        self._tasks.discard(task)
+
+        if self._on_completed_fut is not None and not self._tasks:
+            if not self._on_completed_fut.done():
+                self._on_completed_fut.set_result(True)
+
+        if task.cancelled():
+            return
+
+        exc = task.exception()
+        if exc is None:
+            return
+
+        self._errors.append(exc)
+        if self._is_base_error(exc) and self._base_error is None:
+            self._base_error = exc
+
+        if self._parent_task.done():
+            # Not sure if this case is possible, but we want to handle
+            # it anyways.
+            self._loop.call_exception_handler({
+                'message': f'Task {task!r} has errored out but its parent '
+                           f'task {self._parent_task} is already completed',
+                'exception': exc,
+                'task': task,
+            })
+            return
+
+        if not self._aborting and not self._parent_cancel_requested:
+            # If parent task *is not* being cancelled, it means that we want
+            # to manually cancel it to abort whatever is being run right now
+            # in the TaskGroup.  But we want to mark parent task as
+            # "not cancelled" later in __aexit__.  Example situation that
+            # we need to handle:
+            #
+            #    async def foo():
+            #        try:
+            #            async with TaskGroup() as g:
+            #                g.create_task(crash_soon())
+            #                await something  # <- this needs to be canceled
+            #                                 #    by the TaskGroup, e.g.
+            #                                 #    foo() needs to be cancelled
+            #        except Exception:
+            #            # Ignore any exceptions raised in the TaskGroup
+            #            pass
+            #        await something_else     # this line has to be called
+            #                                 # after TaskGroup is finished.
+            self._abort()
+            self._parent_cancel_requested = True
+            self._parent_task.cancel()
diff --git a/roll/utils/tracking.py b/roll/utils/tracking.py
index dafda4156..8c9dd6525 100644
--- a/roll/utils/tracking.py
+++ b/roll/utils/tracking.py
@@ -1,4 +1,6 @@
+from concurrent import futures
 import json
+from functools import wraps
 from typing import Optional, Dict, Any
 
 import torch
@@ -10,6 +12,48 @@
 tracker_registry: Dict[str, Any] = {}
 
 
+def _strip_metric_tag(values: Dict[str, Any]) -> Dict[str, Any]:
+    """
+    Strip reducer tags from metric keys before logging.
+
+    We may annotate metric keys with reducer tags for internal aggregation:
+      "actor/pg_loss@sum", "actor/kl_loss@mean", ...
+    Dashboards (TensorBoard/W&B/...) should log clean names, so we remove "@...":
+      "actor/pg_loss@sum" -> "actor/pg_loss"
+
+    - Only strips the last "@tag" part (rsplit("@", 1))
+    - Recursively strips nested dict keys (e.g. add_scalars)
+    - Returns a new dict (does not mutate the input)
+    """
+    def strip_key(k: str) -> str:
+        return k.rsplit("@", 1)[0] if isinstance(k, str) and "@" in k else k
+
+    out: Dict[str, Any] = {}
+    for k, v in values.items():
+        nk = strip_key(k)
+        if isinstance(v, dict):
+            v = _strip_metric_tag(v)
+        out[nk] = v
+    return out
+
+
+def strip_at_tag_in_log(func):
+    """
+    Decorator for Tracker.log(...).
+
+    Purpose:
+      Remove "@tag" suffixes from metric keys right before sending them to the
+      logging backend. This is name-cleaning only (no reduction happens here).
+    """
+    @wraps(func)
+    def wrapper(self, values: dict, step: Optional[int] = None, **kwargs):
+        if isinstance(values, dict):
+            values = _strip_metric_tag(values)
+        return func(self, values, step, **kwargs)
+    return wrapper
+
+
+
 class BaseTracker:
 
     def log(self, values: dict, step: Optional[int], **kwargs):
@@ -34,8 +78,9 @@ def __init__(self, config: dict, **kwargs):
                 self.config[k] = str(self.config[k])
         self.writer.add_hparams(hparam_dict=self.config, metric_dict={})
         self.writer.flush()
+        self.executor = futures.ThreadPoolExecutor(max_workers=1)
 
-    def log(self, values: dict, step: Optional[int], **kwargs):
+    def _write(self, values: dict, step: Optional[int], **kwargs):
         for k, v in values.items():
             if isinstance(v, (int, float)):
                 self.writer.add_scalar(k, v, global_step=step, **kwargs)
@@ -45,7 +90,12 @@ def log(self, values: dict, step: Optional[int], **kwargs):
                 self.writer.add_scalars(k, v, global_step=step, **kwargs)
         self.writer.flush()
 
+    @strip_at_tag_in_log
+    def log(self, values: dict, step: Optional[int], **kwargs):
+        self.executor.submit(self._write, values, step, **kwargs)
+
     def finish(self):
+        self.executor.shutdown(wait=True)
         self.writer.close()
 
 
@@ -68,6 +118,7 @@ def __init__(self, config: dict, **kwargs):
 
         self.run.config.update(config, allow_val_change=True)
 
+    @strip_at_tag_in_log
     def log(self, values: dict, step: Optional[int], **kwargs):
         self.run.log(values, step=step, **kwargs)
 
@@ -92,6 +143,7 @@ def __init__(self, config: dict, **kwargs):
         self.run = swanlab.init(project=project, workspace=workspace, experiment_name=experiment_name, description=description,
                                 tags=tags, logdir=logdir, **kwargs)
 
+    @strip_at_tag_in_log
     def log(self, values: dict, step: Optional[int], **kwargs):
         self.run.log(values, step=step, **kwargs)
 
@@ -104,6 +156,7 @@ class StdoutTracker(BaseTracker):
     def __init__(self, config: dict, **kwargs):
         self.config = config
 
+    @strip_at_tag_in_log
     def log(self, values: dict, step: Optional[int], **kwargs):
         logger.info(f"metrics_tag: {json.dumps({'step': step, 'metrics': values})}")
 
@@ -121,7 +174,55 @@ def create_tracker(tracker_name: str, config: dict, **kwargs) -> BaseTracker:
     tracker_cls = tracker_registry[tracker_name]
     return tracker_cls(config, **kwargs)
 
+class TrackioTracker(BaseTracker):
+
+    def __init__(self, config: dict, **kwargs):
+        self.config = config
+
+        project = kwargs.pop("project", None)
+        name = kwargs.pop("name", None)
+        group = kwargs.pop("group", None)
+        space_id = kwargs.pop("space_id", None)
+        dataset_id = kwargs.pop("dataset_id", None)
+        tags = kwargs.pop("tags", None)
+
+        auto_log_gpu = kwargs.pop("auto_log_gpu", True)
+        gpu_log_interval = kwargs.pop("gpu_log_interval", 2)
+
+        import trackio
+
+        if space_id:
+            logger.info(f"[Trackio] Using HF Space: {space_id}")
+        if dataset_id:
+            logger.info(f"[Trackio] Syncing to dataset: {dataset_id}")
+
+        self.run = trackio.init(
+            project=project,
+            name=name,
+            group=group,
+            config=config,
+            space_id=space_id,
+            dataset_id=dataset_id,
+            tags=tags,
+            auto_log_gpu=auto_log_gpu,
+            gpu_log_interval=gpu_log_interval,
+        )
+
+    @strip_at_tag_in_log
+    def log(self, values: dict, step: Optional[int], **kwargs):
+        if step is not None:
+            values = dict(values)
+            values["step"] = step
+        self.run.log(values)
+
+    def log_system(self, values: dict):
+        self.run.log_system(values)
+
+    def finish(self):
+        self.run.finish()
+
 tracker_registry["tensorboard"] = TensorBoardTracker
 tracker_registry["wandb"] = WandbTracker
 tracker_registry["stdout"] = StdoutTracker
 tracker_registry["swanlab"] = SwanlabTracker
+tracker_registry["trackio"] = TrackioTracker
diff --git a/roll/utils/train_infer_corrections.py b/roll/utils/train_infer_corrections.py
new file mode 100644
index 000000000..99107df98
--- /dev/null
+++ b/roll/utils/train_infer_corrections.py
@@ -0,0 +1,255 @@
+from __future__ import annotations
+from typing import Dict, Tuple, Optional
+
+import torch
+
+from roll.utils.functionals import masked_mean, masked_sum, agg_loss
+from roll.pipeline.agentic.utils import compute_segment_masked_mean
+from roll.configs.base_config import TrainInferCorrectionConfig
+from roll.utils.logging import get_logger
+
+logger = get_logger()
+
+
+def _compute_all_granularity(old_log_probs, infer_log_probs, response_mask) -> dict:
+    """Compute importance ratios and probability differences at multiple granularities."""
+    response_mask = response_mask.long()
+    log_ratio = old_log_probs - infer_log_probs
+
+    ratio_token = log_ratio.exp()
+    diff_token = old_log_probs.exp() - infer_log_probs.exp()
+
+    # Geometric mean (per sequence, then broadcast to token level)
+    log_ratio_geo = masked_mean(log_ratio, response_mask, dim=-1)  # [B]
+    ratio_geometric = log_ratio_geo.exp().unsqueeze(-1).expand_as(ratio_token)
+    diff_geometric = masked_mean(diff_token, response_mask, dim=-1).unsqueeze(-1).expand_as(diff_token)
+
+    # Sequence-level sum (then broadcast to token level)
+    log_ratio_seq = masked_sum(log_ratio, response_mask, dim=-1)   # [B]
+    ratio_sequence = log_ratio_seq.exp().unsqueeze(-1).expand_as(ratio_token)
+    diff_sequence = masked_sum(diff_token, response_mask, dim=-1).unsqueeze(-1).expand_as(diff_token)
+
+    # Segment-level mean (computed per segment within each sequence)
+    log_ratio_segment = compute_segment_masked_mean(log_ratio, response_mask)  # [B, T]
+    ratio_segment = log_ratio_segment.exp()
+    diff_segment = compute_segment_masked_mean(diff_token, response_mask)
+
+    return {
+        "ratio": {
+            "token": ratio_token,
+            "geometric": ratio_geometric,
+            "sequence": ratio_sequence,
+            "segment": ratio_segment,
+        },
+        "diff": {
+            "token": diff_token,
+            "geometric": diff_geometric,
+            "sequence": diff_sequence,
+            "segment": diff_segment,
+        },
+    }
+
+
+def _infer_global_valid_samples_from_mask(mask: torch.Tensor) -> float:
+    """Count the number of samples that contain at least one valid token."""
+    valid_samples = (mask.sum(dim=-1) > 0).float().sum().detach().item()
+    return max(float(valid_samples), 1.0)
+
+
+def _infer_global_valid_tokens_from_mask(mask: torch.Tensor) -> float:
+    """Count the total number of valid tokens across all samples."""
+    valid_tokens = mask.float().sum().detach().item()
+    return max(float(valid_tokens), 1.0)
+
+
+def compute_train_infer_correction(
+    cfg: TrainInferCorrectionConfig,
+    response_mask: torch.Tensor,          # [B, T]
+    old_log_probs: torch.Tensor,          # [B, T]
+    infer_log_probs: torch.Tensor,        # [B, T]
+    global_valid_samples: Optional[int] = None,  # Number of valid sequences
+    global_valid_tokens: Optional[int] = None,   # Total number of valid tokens
+    apply_filters: bool = True,
+) -> Tuple[torch.Tensor, torch.Tensor, Dict[str, float]]:
+    """Compute importance sampling weights and apply optional filters based on train-infer divergence."""
+    metrics: Dict[str, float] = {}
+
+    base_mask = response_mask.long()
+    if global_valid_samples is None:
+        global_valid_samples = _infer_global_valid_samples_from_mask(base_mask)
+    if global_valid_tokens is None:
+        global_valid_tokens = _infer_global_valid_tokens_from_mask(base_mask)
+
+    stats = _compute_all_granularity(
+        old_log_probs=old_log_probs,
+        infer_log_probs=infer_log_probs,
+        response_mask=base_mask,
+    )
+    ratio = stats["ratio"]
+    diff = stats["diff"]
+
+    # 1) Importance Sampling (IS) Weight Handling
+    if cfg.is_weight.enabled:
+        is_weight = ratio[cfg.is_weight.weight_type]
+        ub = cfg.is_weight.upper_bound
+        if ub is not None:
+            # Log the fraction of weights clipped due to upper bound
+            metrics["actor/is_weight_clipfrac@sum"] = agg_loss(
+                loss_mat=(is_weight > ub).float(),
+                loss_mask=base_mask,
+                loss_agg_mode='token-mean',
+                batch_num_tokens=global_valid_tokens,
+                global_valid_samples=global_valid_samples
+            ).detach().item()
+            is_weight = is_weight.clamp(min=0.0, max=ub)
+        if cfg.is_weight.detach:
+            is_weight = is_weight.detach()
+    else:
+        is_weight = torch.ones_like(ratio["token"]).detach()
+
+    # 2) Apply Filters (if enabled)
+    filter_mask = torch.ones_like(base_mask)
+    recorded_val_metrics = set()  # Avoid duplicate metric logging for the same granularity
+
+    if apply_filters:
+        for i, f in enumerate(cfg.filters):
+            if not f.enabled:
+                continue
+
+            agg = f.agg_type
+
+            # --- Ratio-based Filter ---
+            if f.ratio_enabled:
+                m_ratio = (ratio[agg] >= f.ratio_low).float() * (ratio[agg] <= f.ratio_high).float()
+
+                # Log pass rate of this filter over currently active tokens
+                metrics[f"actor/train_infer_{agg}_ratio_mask_mean@sum"] = agg_loss(
+                    loss_mat=m_ratio,
+                    loss_mask=base_mask,
+                    loss_agg_mode='token-mean',
+                    batch_num_tokens=global_valid_tokens,
+                ).detach().item()
+
+                # Log mean value of the ratio at this granularity (for monitoring)
+                val_key = f"actor/train_infer_ratio_{agg}_mean@sum"
+                if val_key not in recorded_val_metrics:
+                    metrics[val_key] = agg_loss(
+                        loss_mat=ratio[agg],
+                        loss_mask=base_mask,
+                        loss_agg_mode="seq-mean-token-mean",
+                        global_valid_samples=global_valid_samples,
+                    ).detach().item()
+                    recorded_val_metrics.add(val_key)
+
+                filter_mask = filter_mask * m_ratio
+
+            # --- Difference-based Filter ---
+            if f.diff_enabled:
+                m_diff = (diff[agg] >= f.diff_low).float() * (diff[agg] <= f.diff_high).float()
+
+                # Log pass rate of this filter
+                metrics[f"actor/train_infer_{agg}_diff_mask_mean"] = agg_loss(
+                    loss_mat=m_diff,
+                    loss_mask=base_mask,
+                    loss_agg_mode='token-mean',
+                    batch_num_tokens=global_valid_tokens,
+                ).detach().item()
+
+                # Log mean value of the difference at this granularity
+                val_key = f"actor/train_infer_diff_{agg}_mean@sum"
+                if val_key not in recorded_val_metrics:
+                    metrics[val_key] = agg_loss(
+                        loss_mat=diff[agg],
+                        loss_mask=base_mask,
+                        loss_agg_mode="seq-mean-token-mean",
+                        global_valid_samples=global_valid_samples,
+                    ).detach().item()
+                    recorded_val_metrics.add(val_key)
+
+                filter_mask = filter_mask * m_diff
+
+    # 3) Final overall pass rate after all filters
+    if apply_filters and cfg.filters:
+        metrics["actor/train_infer_final_mask_mean"] = masked_mean(
+            base_mask*filter_mask.float(), base_mask
+        ).detach().item()
+
+    return is_weight, filter_mask, metrics
+
+
+def apply_train_infer_correction_to_batch(
+    pipeline_config,
+    batch,
+    stat_mask_key='response_mask',
+    update_mask_keys: Optional[list] = None,
+):
+    """Apply train-infer correction to a batch at the pipeline level.
+
+    This function is designed for pipeline-level usage where masks are in their
+    original shape [B, T]. It handles slicing internally and updates the original
+    masks with the computed filter mask.
+
+    Args:
+        pipeline_config: Pipeline configuration containing train_infer_correction config
+        batch: DataProto batch to modify
+        stat_mask_key: Key of mask used for computing train-infer statistics (diff, ratio)
+        update_mask_keys: List of mask keys to update with computed filter mask.
+                          If None, defaults to ['response_mask'].
+
+    Note:
+        For worker-level usage, use compute_train_infer_correction() directly,
+        as it works with already-sliced tensors [B, T-1] and provides more flexibility.
+    """
+    # Check if required fields are present
+    if "old_log_probs" not in batch.batch or "infer_logprobs" not in batch.batch:
+        missing_fields = []
+        if "old_log_probs" not in batch.batch:
+            missing_fields.append("'old_log_probs'")
+        if "infer_logprobs" not in batch.batch:
+            missing_fields.append("'infer_logprobs'")
+        logger.warning(f"Skipping train-infer correction: {', '.join(missing_fields)} not found in batch.")
+        stat_mask = batch.batch[stat_mask_key][:, 1:].long()  # [B, T-1]
+        batch.batch["train_infer_is_weight"] = torch.ones_like(stat_mask, dtype=torch.float32)
+        return batch, {}
+
+    # Default: update response_mask if not specified
+    if update_mask_keys is None:
+        update_mask_keys = [stat_mask_key]
+
+    # Get the mask for computing train-infer statistics (always sliced to [B, T-1])
+    stat_mask = batch.batch[stat_mask_key][:, 1:].long()  # [B, T-1]
+    old_lp = batch.batch["old_log_probs"]                # [B, T-1]
+    infer_lp = batch.batch["infer_logprobs"]             # [B, T-1]
+
+    cfg = pipeline_config.train_infer_correction
+
+    # Compute IS weights and filter mask
+    is_w, filter_mask, corr_metrics = compute_train_infer_correction(
+        cfg=cfg,
+        response_mask=stat_mask,
+        old_log_probs=old_lp,
+        infer_log_probs=infer_lp,
+        global_valid_samples=None,   # Will be inferred from stat_mask
+        global_valid_tokens=None,    # Will be inferred from stat_mask
+        apply_filters=True,
+    )
+
+    # Set train_infer_is_weight
+    batch.batch["train_infer_is_weight"] = is_w
+
+    # Apply filter mask to all specified masks
+    for key in update_mask_keys:
+        if key in batch.batch:
+            mask_tensor = batch.batch[key]
+            # Check if mask is already sliced (shape [B, T-1]) or full (shape [B, T])
+            # final_response_mask is already [:, 1:] sliced in get_sample_level_mask
+            if mask_tensor.shape[-1] == filter_mask.shape[-1]:
+                # Mask is already sliced (e.g., final_response_mask)
+                batch.batch[key] = mask_tensor.long() * filter_mask.long()
+            else:
+                # Mask is full shape (e.g., response_mask), apply to [:, 1:] part
+                batch.batch[key][:, 1:] = mask_tensor[:, 1:].long() * filter_mask.long()
+        else:
+            logger.warning(f"Mask key '{key}' not found in batch, skipping update.")
+
+    return batch, corr_metrics
diff --git a/tests/agentic/env/test_frozen_lake.py b/tests/agentic/env/test_frozen_lake.py
index 3bf35370f..0ee90f316 100644
--- a/tests/agentic/env/test_frozen_lake.py
+++ b/tests/agentic/env/test_frozen_lake.py
@@ -1,35 +1,20 @@
-from roll.pipeline.agentic.env import FrozenLakeEnvConfig, FrozenLakeEnv
-from roll.pipeline.agentic.utils import dump_frames_as_gif
+from roll.pipeline.agentic.env.frozen_lake import FrozenLakeEnv
 
 
-def test_frozen_lake():
-    config = FrozenLakeEnvConfig(size=4, p=0.8, is_slippery=False, map_seed=42)
-    env = FrozenLakeEnv(config)
-    frames = []
-    print(env.reset(seed=42))
-    while True:
-        keyboard = input("Enter action: ")
-        if keyboard.lower() == "q":
-            break
-        try:
-            action = int(keyboard)
-        except Exception as e:
-            print("Invalid action, please enter a number")
-            continue
-        if action not in env.ACTION_LOOKUP:
-            print(f"Invalid action {action}, please enter a number between 1 and 4")
-            continue
-        obs, reward, done, info = env.step(action)
-        print()
-        print(obs, reward, done, info)
-        if action in env.ACTION_LOOKUP:
-            frames.append(env.render(mode="rgb_array"))
-        if done:
-            break
+def test_frozen_lake_rejects_invalid_action_without_changing_state():
+    env = FrozenLakeEnv(size=4, p=1.0, is_slippery=False, map_seed=42, format_penalty=-0.2)
+    try:
+        obs, info = env.reset(seed=42)
 
-    # save the image
-    dump_frames_as_gif(filename="./frozen_lake_result.gif", frames=frames)
+        next_obs, reward, terminated, truncated, step_info = env.step("not tagged")
 
-
-if __name__ == "__main__":
-    test_frozen_lake()
+        assert "P" in obs
+        assert "env_instruction" in info
+        assert next_obs == obs
+        assert reward == -0.2
+        assert terminated is False
+        assert truncated is False
+        assert step_info["metrics"]["action_is_valid"] is False
+        assert step_info["metrics"]["action_is_effective"] is False
+    finally:
+        env.close()
diff --git a/tests/agentic/env/test_mcp_client.py b/tests/agentic/env/test_mcp_client.py
new file mode 100644
index 000000000..3d09d4e84
--- /dev/null
+++ b/tests/agentic/env/test_mcp_client.py
@@ -0,0 +1,103 @@
+import json
+import os
+
+import pytest
+
+
+@pytest.mark.skip_on_npu
+@pytest.mark.skipif(
+    os.getenv("ROLL_RUN_EXTERNAL_AGENTIC_TESTS") != "1",
+    reason="requires access to the external Sokoban MCP service",
+)
+@pytest.mark.asyncio
+async def test_sokoban_mcp_server_interaction():
+    from roll.pipeline.agentic.env.mcp.mcp_client import MCPClient
+
+    async with MCPClient("http://sokoban-mcp.alibaba-inc.com/sse") as client:
+        tools_list = await client.tools()
+        tool_names = [tool.name for tool in tools_list]
+        assert "reset" in tool_names, "reset tool not found in server tools"
+        assert "play" in tool_names, "play tool not found in server tools"
+        # call reset without seed
+        raw_reset_result = await client.call_tool("reset")
+        reset_result = parse_call_tool_result(raw_reset_result)
+        assert "Observation" in reset_result
+        print("Reset observation:\n", reset_result["Observation"])
+        # call reset with seed=2
+        seed = 2
+        raw_reset_seed_result = await client.call_tool("reset", {"seed": seed})
+        reset_seed_result = parse_call_tool_result(raw_reset_seed_result)
+        assert "Observation" in reset_seed_result
+        assert reset_seed_result["Observation"] == "######\n#_#_P#\n#_#X_#\n#___O#\n#____#\n######"
+        print(f"Reset with seed={seed} observation:\n", reset_seed_result["Observation"])
+        
+        # call play with action=3 （left）
+        await call_play_and_parse(client, 3,
+            expected_obs="######\n#_#P_#\n#_#X_#\n#___O#\n#____#\n######"
+        )
+        # call play with action=2 （down）
+        await call_play_and_parse(client, 2,
+            expected_obs="######\n#_#__#\n#_#P_#\n#__XO#\n#____#\n######"
+        )
+        # call play with action=4 （right）
+        await call_play_and_parse(client, 4,
+            expected_obs="######\n#_#__#\n#_#_P#\n#__XO#\n#____#\n######"
+        )
+        # call play with action=2 （down）
+        await call_play_and_parse(client, 2,
+            expected_obs="######\n#_#__#\n#_#__#\n#__XS#\n#____#\n######"
+        )
+        # call play with action=2 （down）
+        await call_play_and_parse(client, 2,
+            expected_obs="######\n#_#__#\n#_#__#\n#__XO#\n#___P#\n######"
+        )
+        # call play with action=3 （left）
+        await call_play_and_parse(client, 3,
+            expected_obs="######\n#_#__#\n#_#__#\n#__XO#\n#__P_#\n######"
+        )       
+        # call play with action=3 （left）
+        await call_play_and_parse(client, 3,
+            expected_obs="######\n#_#__#\n#_#__#\n#__XO#\n#_P__#\n######"
+        )     
+        # call play with action=1 （up）
+        await call_play_and_parse(client, 1,
+            expected_obs="######\n#_#__#\n#_#__#\n#_PXO#\n#____#\n######"
+        )               
+        # call play with action=4 （right）
+        await call_play_and_parse(client, 4,
+            expected_obs="######\n#_#__#\n#_#__#\n#__P√#\n#____#\n######",
+            reward=10.9,
+            done=True, 
+            success=True
+        )   
+        
+def parse_call_tool_result(call_tool_result):
+    """
+    Extract the JSON string from CallToolResult
+    """
+    content_list = getattr(call_tool_result, "content", [])
+    text_json_str = None
+    for content_item in content_list:
+        if hasattr(content_item, "type") and content_item.type == "text":
+            text_json_str = content_item.text
+            break
+    if not text_json_str:
+        raise ValueError("No 'text' content found in CallToolResult")
+    return json.loads(text_json_str)
+
+async def call_play_and_parse(client, action_code, expected_obs, reward=-0.1, done=False, success=False, effective=True):
+    raw = await client.call_tool("play", {"action": action_code})
+    res = parse_call_tool_result(raw)
+    assert res["Observation"] == expected_obs
+    assert res["Reward"] == reward
+    assert res.get("Game End") is done
+    server_info = res.get("info", {})
+    assert server_info.get("action_is_effective") is effective
+    assert server_info.get("success") is success
+    print(f"Action {action_code} Observation:\n{res['Observation']}")
+    print(f"Game ended: {res['Game End']} \ninfo: {res['info']}")
+    return res
+
+if __name__ == "__main__":
+    import asyncio
+    asyncio.run(test_sokoban_mcp_server_interaction())
diff --git a/tests/agentic/env/test_sokoban_mcp.py b/tests/agentic/env/test_sokoban_mcp.py
new file mode 100644
index 000000000..21f935fac
--- /dev/null
+++ b/tests/agentic/env/test_sokoban_mcp.py
@@ -0,0 +1,167 @@
+import os
+import pytest
+from unittest.mock import MagicMock
+from roll.pipeline.agentic.env.mcp.mcp_client import MCPClient
+from roll.pipeline.agentic.env.mcp import SokobanMCPEnv
+
+# Configuration
+SERVER_URL = "http://sokoban-mcp.alibaba-inc.com/sse"
+MOCK_SERVER_URL = "http://mock-sokoban-server.test"
+TEST_SEED = 2
+TEST_ACTION_STR = "Left" 
+
+MOCK_ENV_INSTRUCTION = "Solve the puzzle."
+MOCK_ACTION_LOOKUP = {1: "Up", 2: "Down", 3: "Left", 4: "Right"}
+MOCK_FORMAT_PENALTY = -0.15
+MOCK_SPECIAL_TOKEN_LIST = ("<think>", "</think>", "<|im_start|>", "<|im_end|>")
+
+# =============================================================================
+# / Pytest Fixtures                                                           /
+# =============================================================================
+@pytest.fixture(scope="function")
+def real_sokoban_env():
+    """
+    Provides a SokobanMCPEnv instance connected to the REAL server.
+    Use this fixture ONLY for integration tests.
+    """
+    print("\n[Fixture Setup] Creating SokobanMCPEnv instance for integration test...")
+        
+    env = SokobanMCPEnv(
+        server_url=SERVER_URL,
+        env_instruction=MOCK_ENV_INSTRUCTION,
+        action_lookup=MOCK_ACTION_LOOKUP,
+        format_penalty=MOCK_FORMAT_PENALTY,
+        special_token_list=MOCK_SPECIAL_TOKEN_LIST,
+    )
+    yield env
+    
+@pytest.fixture
+def isolated_mock_env():
+    """
+    Provides a mocked env where the automatic __init__ async logic is disabled,
+    allowing for isolated testing of individual methods like step() and reset().
+    """
+    env = SokobanMCPEnv(
+        server_url=MOCK_SERVER_URL,
+        env_instruction=MOCK_ENV_INSTRUCTION,
+        action_lookup=MOCK_ACTION_LOOKUP,
+        format_penalty=MOCK_FORMAT_PENALTY,
+        special_token_list=MOCK_SPECIAL_TOKEN_LIST,
+        client=MagicMock(spec_set=MCPClient),
+    )
+    env._last_obs = "A previous observation state."
+    yield env
+
+# =============================================================================
+# / Integration Tests (Requires Real Server)                                  /
+# =============================================================================
+@pytest.mark.skipif(
+    os.getenv("ROLL_RUN_EXTERNAL_AGENTIC_TESTS") != "1",
+    reason="requires access to the external Sokoban MCP service",
+)
+def test_sokoban_mcp_env_with_valid_action(real_sokoban_env: SokobanMCPEnv):
+    """Integration test for SokobanMCPEnv with real server connection"""   
+    # 1. Test environment reset
+    obs, info = real_sokoban_env.reset(seed=TEST_SEED)
+    print(f"Initial state (seed={TEST_SEED}):\n{obs}")
+    
+    # Validate initial state
+    assert "Solve the puzzle" in obs, "Observation should contain the instruction string."
+    assert "######\n#_#_P#" in info['suffix'], "Initial state in 'suffix' mismatch"
+    
+    # 2. Test single action execution
+    llm_output_action = f"<answer>{TEST_ACTION_STR}</answer>"
+    
+    # ACT: Pass the full, tagged string to the step function.
+    obs, reward, terminated, truncated, info = real_sokoban_env.step(llm_output_action)
+    print(f"After action {TEST_ACTION_STR}:\n{obs}")
+    print(f"Reward: {reward}, Terminated: {terminated}, Success: {info.get('success', False)}")
+    
+    # Validate post-action state
+    assert f"you moved {TEST_ACTION_STR}" in obs, "Feedback text should confirm the executed action."
+    assert "######\n#_#P_#" in info['suffix'], "Post-action state in 'suffix' mismatch"
+    assert reward == -0.1, "Reward value mismatch"
+    assert not terminated, "Game should not be terminated after one action"
+    assert not truncated, "Game should not be truncated after one action"
+    assert not info['metrics']["success"], "Game should not be successful after one action"    
+
+# =============================================================================
+# / Unit Tests - Environment Interaction (`reset`, `step`)                    /
+# =============================================================================
+def test_reset_wraps_connection_error_in_runtime_error(isolated_mock_env: SokobanMCPEnv):
+    """
+    Tests that reset raises an error if the connection fails during its execution.
+    """
+    # ARRANGE
+    env = isolated_mock_env
+    
+    # This mock is for the call inside reset's _run_async_logic
+    env._run_async_logic = MagicMock(side_effect=ConnectionError("Server is down!"))
+    # We expect reset() to catch ConnectionError and raise RuntimeError
+    with pytest.raises(RuntimeError, match="Failed to reset the environment due to a server or network issue"):
+        env.reset(seed=TEST_SEED)
+
+def test_step_handles_invalid_action(isolated_mock_env: SokobanMCPEnv):
+    """
+    Tests that the step() method's first error handling block correctly catches
+    ANY ValueError raised by the parse_action method and calls the error handler.
+    """
+    # ARRANGE
+    env = isolated_mock_env
+    
+    env.parse_action = MagicMock(return_value={"action": None, "action_content": "Go Up"})
+    
+    obs, reward, terminated, truncated, info = env.step("<answer>Go Up</answer>")
+        
+    # Check the final output to confirm the error handling flow completed.
+    assert obs == "A previous observation state."
+    assert reward == MOCK_FORMAT_PENALTY, "Reward should be the format penalty"
+    assert not terminated
+    assert not truncated
+    assert info["metrics"]["action_is_valid"] is False
+    assert info["metrics"]["action_is_effective"] is False
+    assert info["metrics"]["success"] is False
+    assert "suffix" not in info
+    
+# ============================================================================
+# / Unit Tests - Pure Functions and Parsers                                   /
+# =============================================================================    
+def test_parse_action_simple_logic(isolated_mock_env: SokobanMCPEnv):
+    """Tests the generic parse_action method from the MCPEnv base class."""
+    env = isolated_mock_env
+    # --- Path 1: SUCCESS (Valid action) ---
+    action_info = env.parse_action("<answer>Up</answer>")
+    assert action_info["action"] == 1
+    assert action_info["action_content"] == "Up"
+    
+    # === BASIC FORMATTING FAILURES ===
+    
+    # --- Path 2: FAILURE (No <answer> tags) ---
+    action_info = env.parse_action("Up")
+    assert action_info["action"] is None
+        
+    # --- Path 3: FAILURE (Content is not valid) ---
+    action_info = env.parse_action("<answer>move left</answer>")
+    assert action_info["action"] is None
+        
+def test_process_parsed_json_logic(isolated_mock_env: SokobanMCPEnv):
+    """
+    Unit test for the game-specific process_parsed_json method.
+    """
+    isolated_mock_env._last_obs = "Previous state"
+    
+    success_response = {
+        "Observation": "New state",
+        "Reward": 1.0,
+        "Game End": True,
+        "info": {"success": True, "action_is_effective": True}
+    }
+    obs, terminated, truncated, info = isolated_mock_env._process_parsed_json(success_response)
+    
+    assert "New state" in obs
+    assert terminated
+    assert not truncated
+    assert info["metrics"]["success"]
+    assert info["metrics"]["action_is_effective"]
+    assert info["metrics"]["format_penalty"] == 0.0
+    assert info["reward_from_server"] == 1.0
diff --git a/tests/agentic/env/test_sokoban_sandbox.py b/tests/agentic/env/test_sokoban_sandbox.py
new file mode 100644
index 000000000..0447078e2
--- /dev/null
+++ b/tests/agentic/env/test_sokoban_sandbox.py
@@ -0,0 +1,99 @@
+import os
+import pytest
+
+import traceback
+
+
+@pytest.mark.skip_on_npu
+@pytest.mark.skipif(
+    os.getenv("ROLL_RUN_AGENTIC_SANDBOX_TESTS") != "1",
+    reason="requires an interactive cloud sandbox service",
+)
+def test_sandbox():
+    """
+    Main function to run an interactive test session with the SokobanSandboxEnv.
+    """
+    from roll.pipeline.agentic.env.sandbox import SokobanSandboxEnv
+
+    env = None
+    try:
+        env = SokobanSandboxEnv()
+        print("--- Initialization Successful! ---")
+        
+        # Initial reset to start the first game
+        obs, info = env.reset(seed=1)
+        print_game_state(obs, info)
+        
+        while True:
+            keyboard = input("Enter action(up, down, left, right), render, reset, or enter exit to quit): ").strip().lower()
+            
+            if not keyboard:
+                continue
+            
+            if keyboard == "exit":
+                break
+            
+            if keyboard == "render":
+                print(env.render())
+                continue
+            
+            if keyboard.startswith("reset"):
+                parts = keyboard.split()
+                seed = None
+                if len(parts) > 1:
+                    try:
+                        seed = int(parts[1])
+                        print(f"--- Resetting with seed: {seed} ---")
+                    except (ValueError, IndexError):
+                        print("Invalid seed provided. Resetting with a random seed.")
+                
+                obs, info = env.reset(seed=seed)
+                print_game_state(obs, info)
+                continue
+            
+            # Wrap the action in the format expected by the LLM parser
+            action = f"<answer>{keyboard}</answer>"
+            obs, reward, terminated, truncated, info = env.step(action)
+            print_game_state(obs, info)
+            print(f"Reward: {reward:.2f}, Terminated: {terminated}, Truncated: {truncated}")
+            
+            if terminated or truncated:
+                print("\n!!! GAME OVER !!!Starting a new game...")
+                obs, info = env.reset()
+                print_game_state(obs, info)
+    
+    except Exception as e:
+        print("\n!!! An error occurred during SokobanSandboxEnv initialization !!!")
+        # traceback.format_exc() is more informative than just printing the exception 'e'
+        print("--- Full Traceback ---")
+        print(traceback.format_exc())
+        print("--- End of Traceback ---")
+    
+    finally:
+        if env:
+            print("\n--- Closing environment ---")
+            env.close()    
+
+def print_game_state(obs, info):
+    """
+    A helper function to neatly print the current game state.
+    
+    Args:
+        obs (str): The observation string, which contains rules or turn feedback.
+        info (dict): The info dictionary, which should contain the game map.
+    """
+    print("\n" + "="*20 + " CURRENT STATE " + "="*20)
+    
+    # Print the observation (game rules or turn feedback)
+    print("\n[Observation]")
+    print(obs)
+    
+    # Extract and print the game map from the info dictionary
+    game_map = info.get('suffix', 'No map data found in info.')
+    print("\n[Map]")
+    print(game_map.strip())  # .strip() removes potential leading/trailing whitespace
+    
+    print("="*55 + "\n")
+
+if __name__ == "__main__":
+    test_sandbox()
diff --git a/tests/agentic/env_manager/config_load_utils.py b/tests/agentic/env_manager/config_load_utils.py
index 96b642931..c93ed0009 100644
--- a/tests/agentic/env_manager/config_load_utils.py
+++ b/tests/agentic/env_manager/config_load_utils.py
@@ -1,11 +1,14 @@
 from dacite import from_dict
-from hydra.experimental import compose, initialize
+from hydra import compose, initialize
+from hydra.core.global_hydra import GlobalHydra
 from omegaconf import OmegaConf
 
 def make_pipeline_config(config_path, config_name, data_class):
 
-    initialize(config_path=config_path)
-    cfg = compose(config_name=config_name)
+    if GlobalHydra.instance().is_initialized():
+        GlobalHydra.instance().clear()
+    with initialize(config_path=config_path, version_base=None):
+        cfg = compose(config_name=config_name)
     pipeline_config = from_dict(data_class=data_class, data=OmegaConf.to_container(cfg, resolve=True))
 
     return pipeline_config
diff --git a/tests/agentic/env_manager/test_traj_env_manager.py b/tests/agentic/env_manager/test_traj_env_manager.py
index 4f9fd56e7..9a1b000c6 100644
--- a/tests/agentic/env_manager/test_traj_env_manager.py
+++ b/tests/agentic/env_manager/test_traj_env_manager.py
@@ -8,21 +8,63 @@
 
 python tests/agentic/env_manager/test_traj_env_manager.py
 """
-import threading
-
-import ray
+import os
 
-from roll.distributed.scheduler.rollout_scheduler import GroupQueueManager
-from roll.distributed.scheduler.protocol import DataProto
-from roll.models.model_providers import default_tokenizer_provider, default_processor_provider, get_extra_data_provider
-from roll.pipeline.agentic.agentic_config import AgenticConfig
-from roll.pipeline.agentic.env_manager.step_env_manager import StepEnvManager
-from roll.pipeline.agentic.env_manager.traj_env_manager import TrajEnvManager
-from roll.pipeline.agentic.env_manager.vl_traj_env_manager import VLTrajEnvManager
-from tests.agentic.env_manager.config_load_utils import make_pipeline_config
+import pytest
 
+import threading
 
+_RUN_ENV_MANAGER_DEBUG_TESTS = os.getenv("ROLL_RUN_AGENTIC_ENV_MANAGER_DEBUG_TESTS") == "1"
+skip_env_manager_debug = pytest.mark.skipif(
+    not _RUN_ENV_MANAGER_DEBUG_TESTS,
+    reason="agentic env-manager debug tests require model assets and are opt-in",
+)
+
+
+def _load_debug_deps():
+    import ray
+
+    from roll.distributed.scheduler.protocol import DataProto
+    from roll.distributed.scheduler.rollout_scheduler import GroupQueueManager
+    from roll.models.model_providers import default_processor_provider, default_tokenizer_provider, get_extra_data_provider
+    from roll.pipeline.agentic.agentic_config import AgenticConfig
+    from roll.pipeline.agentic.env_manager.step_env_manager import StepEnvManager
+    from roll.pipeline.agentic.env_manager.traj_env_manager import TrajEnvManager
+    from roll.pipeline.agentic.env_manager.vl_traj_env_manager import VLTrajEnvManager
+    from tests.agentic.env_manager.config_load_utils import make_pipeline_config
+
+    return (
+        ray,
+        DataProto,
+        GroupQueueManager,
+        default_processor_provider,
+        default_tokenizer_provider,
+        get_extra_data_provider,
+        AgenticConfig,
+        StepEnvManager,
+        TrajEnvManager,
+        VLTrajEnvManager,
+        make_pipeline_config,
+    )
+
+
+@pytest.mark.skip_on_npu
+@skip_env_manager_debug
 def test_debug_traj_env_manager():
+    (
+        ray,
+        DataProto,
+        GroupQueueManager,
+        _default_processor_provider,
+        default_tokenizer_provider,
+        _get_extra_data_provider,
+        AgenticConfig,
+        _StepEnvManager,
+        TrajEnvManager,
+        _VLTrajEnvManager,
+        make_pipeline_config,
+    ) = _load_debug_deps()
+
     ray.init(log_to_driver=True)
     current_step = 0
 
@@ -61,7 +103,23 @@ def test_debug_traj_env_manager():
     env_manager.stop()
 
 
+@pytest.mark.skip_on_npu
+@skip_env_manager_debug
 def test_debug_vl_traj_env_manager():
+    (
+        ray,
+        DataProto,
+        GroupQueueManager,
+        default_processor_provider,
+        default_tokenizer_provider,
+        get_extra_data_provider,
+        AgenticConfig,
+        _StepEnvManager,
+        _TrajEnvManager,
+        VLTrajEnvManager,
+        make_pipeline_config,
+    ) = _load_debug_deps()
+
     ray.init(log_to_driver=True)
     current_step = 0
 
@@ -103,7 +161,23 @@ def test_debug_vl_traj_env_manager():
     env_manager.stop()
 
 
+@pytest.mark.skip_on_npu
+@skip_env_manager_debug
 def test_debug_step_env_manager():
+    (
+        ray,
+        DataProto,
+        GroupQueueManager,
+        _default_processor_provider,
+        default_tokenizer_provider,
+        _get_extra_data_provider,
+        AgenticConfig,
+        StepEnvManager,
+        _TrajEnvManager,
+        _VLTrajEnvManager,
+        make_pipeline_config,
+    ) = _load_debug_deps()
+
     ray.init(log_to_driver=True)
     current_step = 0
 
@@ -145,4 +219,4 @@ def test_debug_step_env_manager():
 if __name__ == '__main__':
     test_debug_traj_env_manager()
     # test_debug_vl_traj_env_manager()
-    # test_debug_step_env_manager()
\ No newline at end of file
+    # test_debug_step_env_manager()
diff --git a/tests/agentic/env_manager/test_traj_env_manager_debug.py b/tests/agentic/env_manager/test_traj_env_manager_debug.py
new file mode 100644
index 000000000..f0165ba09
--- /dev/null
+++ b/tests/agentic/env_manager/test_traj_env_manager_debug.py
@@ -0,0 +1,230 @@
+"""
+usage:
+
+conda create -n python310_torch260_em  python=3.10
+
+pip3 install torch torchvision torchaudio py-cpuinfo
+pip install -r requirements_em_local_debug.txt
+
+python tests/agentic/env_manager/test_traj_env_manager.py
+"""
+import os
+
+import pytest
+
+import threading
+
+_RUN_ENV_MANAGER_DEBUG_TESTS = os.getenv("ROLL_RUN_AGENTIC_ENV_MANAGER_DEBUG_TESTS") == "1"
+skip_env_manager_debug = pytest.mark.skipif(
+    not _RUN_ENV_MANAGER_DEBUG_TESTS,
+    reason="agentic env-manager debug tests require model assets and are opt-in",
+)
+
+
+def _load_debug_deps():
+    import ray
+
+    from roll.distributed.scheduler.protocol import DataProto
+    from roll.distributed.scheduler.rollout_scheduler import GroupQueueManager
+    from roll.models.model_providers import default_processor_provider, default_tokenizer_provider, get_extra_data_provider
+    from roll.pipeline.agentic.agentic_config import AgenticConfig
+    from roll.pipeline.agentic.env_manager.step_env_manager import StepEnvManager
+    from roll.pipeline.agentic.env_manager.traj_env_manager import TrajEnvManager
+    from roll.pipeline.agentic.env_manager.vl_traj_env_manager import VLTrajEnvManager
+    from roll.utils.import_utils import safe_import_class
+    from tests.agentic.env_manager.config_load_utils import make_pipeline_config
+
+    return (
+        ray,
+        DataProto,
+        GroupQueueManager,
+        default_processor_provider,
+        default_tokenizer_provider,
+        get_extra_data_provider,
+        AgenticConfig,
+        StepEnvManager,
+        TrajEnvManager,
+        VLTrajEnvManager,
+        safe_import_class,
+        make_pipeline_config,
+    )
+
+
+@pytest.mark.skip_on_npu
+@skip_env_manager_debug
+def test_debug_traj_env_manager():
+    (
+        ray,
+        DataProto,
+        GroupQueueManager,
+        _default_processor_provider,
+        default_tokenizer_provider,
+        _get_extra_data_provider,
+        AgenticConfig,
+        _StepEnvManager,
+        _TrajEnvManager,
+        _VLTrajEnvManager,
+        safe_import_class,
+        make_pipeline_config,
+    ) = _load_debug_deps()
+
+    ray.init(log_to_driver=True)
+    current_step = 0
+
+    config_path = ""
+    config_name = "traj_env_manager_debug"
+
+    pipeline_config: AgenticConfig = make_pipeline_config(config_path, config_name, AgenticConfig)
+
+    pipeline_config.model_download_type = "MODELSCOPE"
+    pipeline_config.async_generation_ratio = 2
+
+    worker_config = pipeline_config.train_env_manager
+    tokenizer = default_tokenizer_provider(model_args=worker_config.model_args)
+    generate_scheduler = None
+
+    output_queue = GroupQueueManager.remote(config=pipeline_config, env_manager_config=worker_config, mode="train")
+
+    ray.get(output_queue.advance_step.remote(current_step))
+
+    env_config = worker_config.env_configs[0][0]
+    env_manager_cls = safe_import_class(env_config["env_manager_cls"])
+    env_manager = env_manager_cls(worker_config=worker_config,
+                                 pipeline_config=pipeline_config,
+                                 env_config=worker_config.env_configs[0][0],
+                                 tokenizer=tokenizer,
+                                 generate_scheduler=generate_scheduler,
+                                 output_queue=output_queue,
+                                 thread_lock=threading.Lock(),
+                                 mode="train")
+    env_manager.update_step(global_step=current_step)
+
+    data = DataProto(meta_info={"seed": 0})
+    thread = threading.Thread(target=env_manager.run_rollout_loop, args=(data,), daemon=False)
+    thread.start()
+
+    batch = ray.get(output_queue.get_batch.remote(batch_size=pipeline_config.rollout_batch_size, current_step=current_step))
+    print(batch)
+    print(f"batch_size: {len(batch)}")
+    env_manager.stop()
+
+
+@pytest.mark.skip_on_npu
+@skip_env_manager_debug
+def test_debug_vl_traj_env_manager():
+    (
+        ray,
+        DataProto,
+        GroupQueueManager,
+        default_processor_provider,
+        default_tokenizer_provider,
+        get_extra_data_provider,
+        AgenticConfig,
+        _StepEnvManager,
+        _TrajEnvManager,
+        VLTrajEnvManager,
+        _safe_import_class,
+        make_pipeline_config,
+    ) = _load_debug_deps()
+
+    ray.init(log_to_driver=True)
+    current_step = 0
+
+    config_path = ""
+    config_name = "vl_traj_env_manager_debug"
+
+    pipeline_config: AgenticConfig = make_pipeline_config(config_path, config_name, AgenticConfig)
+    pipeline_config.model_download_type = "MODELSCOPE"
+    pipeline_config.async_generation_ratio = 2
+    worker_config = pipeline_config.train_env_manager
+    tokenizer = default_tokenizer_provider(model_args=worker_config.model_args)
+    processor = default_processor_provider(model_args=worker_config.model_args)
+    extra_data_provider = get_extra_data_provider(worker_config.model_args.model_name_or_path, processor=processor)
+    generate_scheduler = None
+
+    output_queue = GroupQueueManager.remote(config=pipeline_config, env_manager_config=worker_config, mode="train")
+
+    ray.get(output_queue.advance_step.remote(current_step))
+    env_manager = VLTrajEnvManager(worker_config=worker_config,
+                                     pipeline_config=pipeline_config,
+                                     env_config=worker_config.env_configs[0][0],
+                                     tokenizer=tokenizer,
+                                     processor=processor,
+                                     generate_scheduler=generate_scheduler,
+                                     output_queue=output_queue,
+                                     thread_lock=threading.Lock(),
+                                     extra_data_provider=extra_data_provider,
+                                     mode="train")
+    env_manager.update_step(global_step=current_step)
+
+    data = DataProto(meta_info={"seed": 0})
+    thread = threading.Thread(target=env_manager.run_rollout_loop, args=(data,))
+    thread.start()
+
+    print("pipeline_config.rollout_batch_size: ", pipeline_config.rollout_batch_size)
+    batch = ray.get(output_queue.get_batch.remote(batch_size=pipeline_config.rollout_batch_size, current_step=0))
+    # print(batch)
+    print(f"batch_size: {len(batch)}")
+    env_manager.stop()
+
+
+@pytest.mark.skip_on_npu
+@skip_env_manager_debug
+def test_debug_step_env_manager():
+    (
+        ray,
+        DataProto,
+        GroupQueueManager,
+        _default_processor_provider,
+        default_tokenizer_provider,
+        _get_extra_data_provider,
+        AgenticConfig,
+        StepEnvManager,
+        _TrajEnvManager,
+        _VLTrajEnvManager,
+        _safe_import_class,
+        make_pipeline_config,
+    ) = _load_debug_deps()
+
+    ray.init(log_to_driver=True)
+    current_step = 0
+
+    config_path = ""
+    config_name = "step_env_manager_debug"
+
+    pipeline_config: AgenticConfig = make_pipeline_config(config_path, config_name, AgenticConfig)
+
+    pipeline_config.model_download_type = "MODELSCOPE"
+    pipeline_config.async_generation_ratio = 2
+
+    worker_config = pipeline_config.train_env_manager
+    tokenizer = default_tokenizer_provider(model_args=worker_config.model_args)
+    generate_scheduler = None
+
+    output_queue = GroupQueueManager.remote(config=pipeline_config, env_manager_config=worker_config, mode="train")
+
+    ray.get(output_queue.advance_step.remote(current_step))
+    env_manager = StepEnvManager(worker_config=worker_config,
+                                 pipeline_config=pipeline_config,
+                                 env_config=worker_config.env_configs[0][0],
+                                 tokenizer=tokenizer,
+                                 generate_scheduler=generate_scheduler,
+                                 output_queue=output_queue,
+                                 thread_lock=threading.Lock(),
+                                 mode="train")
+    env_manager.update_step(global_step=current_step)
+
+    data = DataProto(meta_info={"seed": 0})
+    thread = threading.Thread(target=env_manager.run_rollout_loop, args=(data,))
+    thread.start()
+
+    batch = ray.get(output_queue.get_batch.remote(batch_size=pipeline_config.rollout_batch_size, current_step=current_step))
+    # print(batch)
+    print(f"batch_size: {len(batch)}")
+    env_manager.stop()
+
+
+if __name__ == '__main__':
+    test_debug_traj_env_manager()
+    # test_debug_vl_traj_env_manager()
+    # test_debug_step_env_manager()
diff --git a/tests/agentic/env_manager/traj_env_manager_debug.yaml b/tests/agentic/env_manager/traj_env_manager_debug.yaml
index 59b5777e1..f893019ea 100644
--- a/tests/agentic/env_manager/traj_env_manager_debug.yaml
+++ b/tests/agentic/env_manager/traj_env_manager_debug.yaml
@@ -39,6 +39,12 @@ custom_envs:
     ${custom_env.deep_math}
   CodeContest:
     ${custom_env.CodeContest}
+  SweNativeEnv:
+    ${custom_env.SweNativeEnv}
+  SokobanNativeEnv:
+    ${custom_env.SokobanNativeEnv}
+  RockTBNativeEnvTrain:
+    ${custom_env.RockTBNativeEnvTrain}  
 
 actor_infer:
   generating_args:
@@ -145,7 +151,100 @@ custom_env:
             timeout: 5
             sandbox_type: none
             keep_error_last_line: false
+  SweNativeEnv:
+    env_type: "swe_native_env"
+    max_steps: 10
+    max_tokens_per_step: 8192
+    env_manager_cls: roll.pipeline.agentic.env_manager.agent_native_env_manager.AgentNativeStepEnvManager
+    agent_system_template: "agent_system_template placeholder"
+    agent_template: "agent_template placeholder"
+    env_config:
+      dataset_name: data/swe/data.jsonl
+      train_idx_range: [1, 1]
+      val_idx_range: [0, 0]
+      tools: [ "Edit", "glob", "list_directory", "read_file", "Shell" ]
+      traj_dir: "./traj/trainset/"
+      swe_requirement_dir: ""
+      base_dir: "./logs"
+
+      max_steps: 5
+      mode: "train"
+      xrl_authorization: t-r8c4rjh0por8gwc5
+      sandbox_base_url: https://xrl-sandbox.alibaba-inc.com
+      user_id: '410435'
+      experiment_id: "test"
 
+  SokobanNativeEnv:
+    env_type: "sokoban_native_env"
+    max_steps: 10
+    max_tokens_per_step: 128
+    env_manager_cls: roll.pipeline.agentic.env_manager.agent_native_env_manager.AgentNativeStepEnvManager
+    agent_system_template: "agent_system_template placeholder"
+    agent_template: "agent_template placeholder"
+    env_config:
+      max_steps: 10
+
+  RockTBNativeEnvTrain:
+    env_type: "rock_tb_native_env"
+    max_steps: 10
+    max_tokens_per_step: 8192
+    env_manager_cls: roll.pipeline.agentic.env_manager.agent_native_env_manager.AgentNativeStepEnvManager
+    agent_system_template: "agent_system_template placeholder"
+    agent_template: "agent_template placeholder"
+    env_config:
+      dataset_name: data/terminal_bench.jsonl
+      train_idx_range: [13, 13]
+      tools: ~
+      max_steps: 10
+      mode: "train"
+      xrl_authorization: t-j99eljub5bst4q9p
+      sandbox_base_url: https://xrl-sandbox.alibaba-inc.com
+      user_id: '481404'
+      experiment_id: "test"
+      test_files: ["output/terminal-bench/terminal-bench"]
+      agent_config:
+        agent_type: "iflow-cli"
+        version: "0.0.1"
+        pre_init_bash_cmd_list:
+          - command: 'echo "118.31.38.66 github.com" | tee -a /etc/hosts'
+            timeout_seconds: 30
+          - command: "apt-get update"
+            timeout_seconds: 600
+          - command: "apt-get install -y curl git wget xz-utils"
+            timeout_seconds: 600
+          - command: "apt-get install -y build-essential libc6-dev patch procps"
+            timeout_seconds: 600
+        model_service_config: 
+          model_service_install_cmd: 'pip install "rl_rock[model-service]==1.0.0" -i https://artlab.alibaba-inc.com/1/pypi/simple --trusted-host artlab.alibaba-inc.com'
+        iflow_cli_install_cmd: "wget --retry-connrefused --tries=10 --waitretry=2 -O ~/iflow-cli.tgz 'http://cloud.iflow.cn/iflow-cli/iflow-ai-iflow-cli-for-roll-0-4-4-v5.tgz' && npm i -g ~/iflow-cli.tgz && ln -s /opt/nodejs/bin/iflow /usr/local/bin/iflow"
+        iflow_settings:
+          selectedAuthType: "openai-compatible"
+          apiKey: "123"
+          baseUrl: "http://127.0.0.1:8080/v1/"
+          modelName: "Qwen3-Coder-Plus"
+          searchApiKey: "88888888"
+          disableAutoUpdate: True
+          shellTimeout: 360000
+          tokensLimit: 128000          
+          coreTools: [
+                    "Edit",
+                    "exit_plan_mode",
+                    "glob",
+                    "list_directory",
+                    "multi_edit",
+                    "plan",
+                    "read plan",
+                    "read_file",
+                    "read_many_files",
+                    "save_memory",
+                    "Search",
+                    "Shell",
+                    "task",
+                    "web_fetch",
+                    "web_search",
+                    "write_file",
+                    "xml_escape",
+                  ]    
 
 cli_agent_system_template: You're a helpful assistant. You are a good game player. You are aiming to get high reward in the game.
 cli_agent_template: |
diff --git a/tests/agentic/rollout/test_rollout_scheduler.py b/tests/agentic/rollout/test_rollout_scheduler.py
index c432b9ca0..91c1a172e 100644
--- a/tests/agentic/rollout/test_rollout_scheduler.py
+++ b/tests/agentic/rollout/test_rollout_scheduler.py
@@ -1,135 +1,93 @@
 import asyncio
-from concurrent.futures import ThreadPoolExecutor
-import threading
-import sys
+from types import SimpleNamespace
+
+import pytest
 import ray
 
+from roll.distributed.scheduler.protocol import DataProto
 from roll.distributed.scheduler.rollout_scheduler import GroupQueueManager
+from roll.pipeline.agentic.agentic_config import EnvMonitorConfig
+
+
+def _make_config(rollout_batch_size: int, async_generation_ratio: int):
+    return SimpleNamespace(
+        rollout_batch_size=rollout_batch_size,
+        async_generation_ratio=async_generation_ratio,
+        env_monitor=EnvMonitorConfig(enable=False),
+    )
+
 
-TEST_EXCEPTION = False
+def _make_env_manager_config(rollout_batch_size: int, group_size: int = 2, env_groups: int = 2):
+    train_env_num = env_groups * group_size
+    return SimpleNamespace(
+        world_size=1,
+        env_groups=env_groups,
+        group_size=group_size,
+        group_size_redundancy=0,
+        group_filter_cls="roll.pipeline.agentic.agentic_pipeline.GroupFilter",
+        max_traj_per_env=(rollout_batch_size + train_env_num - 1) // train_env_num,
+        max_env_num_per_worker=train_env_num,
+        env_configs={
+            0: {
+                env_id: {"group_id": env_id // group_size}
+                for env_id in range(train_env_num)
+            }
+        },
+    )
 
-class AgenticConfig:
-    pass
 
-class EnvManagerConfig:
-    pass
+async def _put_one_group(output_queue, group_id: int, group_size: int, step: int):
+    episode_ids = []
+    for env_offset in range(group_size):
+        env_id = group_id * group_size + env_offset
+        episode_id = await output_queue.get_episode_id.remote(group_id, env_id)
+        episode_ids.append(episode_id)
 
-async def async_test_GroupQueueManager(rollout_batch_size, async_generation_ratio):
-    print(f">>>>>>>>>>>>>>>>>>>>>>>> TEST rollout_batch_size {rollout_batch_size} async_generation_ratio {async_generation_ratio}")
-    config = AgenticConfig()
-    config.async_generation_ratio = async_generation_ratio
+    assert len(set(episode_ids)) == 1
 
-    env_manager_config = EnvManagerConfig()
-    env_manager_config.world_size = 1
-    env_manager_config.env_groups = 2
-    env_manager_config.group_size = 8 # grpo
-    train_env_num = env_manager_config.env_groups * env_manager_config.group_size
-    env_manager_config.max_env_num_per_worker = train_env_num
-    env_manager_config.env_configs = {0: {0: {"group_id": 0}, 1: {"group_id": 1}}}
+    for env_offset, episode_id in enumerate(episode_ids):
+        rollout = DataProto(meta_info={"group_id": group_id, "env_offset": env_offset, "step": step})
+        await output_queue.put.remote(group_id, episode_id, step, rollout)
 
-    traj_per_env = (rollout_batch_size + train_env_num - 1) // train_env_num
-    env_manager_config.max_traj_per_env = traj_per_env
 
+async def _run_group_queue_manager_smoke():
+    rollout_batch_size = 4
+    config = _make_config(rollout_batch_size=rollout_batch_size, async_generation_ratio=0)
+    env_manager_config = _make_env_manager_config(rollout_batch_size=rollout_batch_size)
     env_num = env_manager_config.world_size * env_manager_config.max_env_num_per_worker
 
-    env_output_queue = GroupQueueManager.options(
-        max_concurrency = env_num + 1
-    ).remote(
+    output_queue = GroupQueueManager.options(max_concurrency=env_num + 1).remote(
         config,
         env_manager_config,
-        "train"
+        "train",
     )
 
-    current_step = 0
-    stoped_threads = 0
-    barrier = threading.Barrier(env_num + 1)
-
-    def run_rollout_loop(thread_id, group_id, output_queue):
-        nonlocal stoped_threads
-        if TEST_EXCEPTION:
-            raise Exception("test exception")
-
-        episode_id = 0
-        for i in range(10):
-            if async_generation_ratio == 0:
-                barrier.wait()
-            rollout = current_step
-            for j in range(env_manager_config.max_traj_per_env):
-                ray.get(output_queue.put.remote(group_id, episode_id, 0, rollout))
-                episode_id += 1
-            if async_generation_ratio == 0:
-                barrier.wait()
-        stoped_threads += 1
-
-    async def rollout():
-        nonlocal current_step
-        try:
-            for i in range(10):
-                current_step = i
-                if async_generation_ratio == 0:
-                    barrier.wait()
-                batch = await env_output_queue.get_batch.remote(rollout_batch_size)
-                print(f"batch on step({current_step}): {batch}")
-                if rollout_batch_size >= env_num and rollout_batch_size % env_num == 0: 
-                    assert all((current_step - rollout) <= async_generation_ratio for rollout in batch), f"current_step - rollout_step exceed async_generation_ratio"
-                if async_generation_ratio == 0:
-                    env_output_queue.prepare_clear.remote()
-                    barrier.wait()
-                    env_output_queue.clear.remote(rollout_batch_size)
-                await asyncio.sleep(1)
-            env_output_queue.prepare_clear.remote()
-            # unblock all run_rollout_loop threads
-            # cannot call env_output_queue.clear here (otherwise must wait all threads are finished)
-        except Exception as e:
-            sys.exit(f"ERROR rollout get exception: {e}")
-
-    rollout_task = asyncio.create_task(rollout())
-
-    with ThreadPoolExecutor(max_workers=16) as pool:
-        loop = asyncio.get_event_loop()
-        try:
-            assert env_manager_config.world_size == 1
-            if TEST_EXCEPTION:
-                assert 2 < env_num
-                await asyncio.gather(
-                    *[loop.run_in_executor(pool, run_rollout_loop, i, i // env_manager_config.group_size, env_output_queue) for i in range(2)]
-                )
-            else:
-                await asyncio.gather(
-                    *[loop.run_in_executor(pool, run_rollout_loop, i, i // env_manager_config.group_size, env_output_queue) for i in range(env_num)]
-                )
-        except Exception as e:
-            ref = env_output_queue.put_exception.remote(e)
-            await asyncio.wrap_future(ref.future())
-
-    await rollout_task
-
-def test_GroupQueueManager():
-    loop = asyncio.get_event_loop()
-
-    # env_num is 16
-
-    # test BoundedGroupQueue
-    loop.run_until_complete(async_test_GroupQueueManager(16, 2))
-    loop.run_until_complete(async_test_GroupQueueManager(8, 2))
-    # do not test batch_size 12, because 12 % group_size != 0
-    loop.run_until_complete(async_test_GroupQueueManager(24, 2))
-    loop.run_until_complete(async_test_GroupQueueManager(32, 2))
-
-    loop.run_until_complete(async_test_GroupQueueManager(16, 7))
-    loop.run_until_complete(async_test_GroupQueueManager(8, 7))
-
-    # test PipeGroupQueu
-    loop.run_until_complete(async_test_GroupQueueManager(16, 1))
-    loop.run_until_complete(async_test_GroupQueueManager(8, 1))
-    loop.run_until_complete(async_test_GroupQueueManager(24, 1))
-    loop.run_until_complete(async_test_GroupQueueManager(32, 1))
-
-    # test sync training
-    loop.run_until_complete(async_test_GroupQueueManager(16, 0))
-    loop.run_until_complete(async_test_GroupQueueManager(8, 0))
-    loop.run_until_complete(async_test_GroupQueueManager(24, 0))
-    loop.run_until_complete(async_test_GroupQueueManager(32, 0))
-
-if __name__ == "__main__":
-    test_GroupQueueManager()
+    try:
+        for step in range(2):
+            await output_queue.advance_step.remote(step)
+            await asyncio.gather(
+                *[
+                    _put_one_group(output_queue, group_id, env_manager_config.group_size, step)
+                    for group_id in range(env_manager_config.env_groups)
+                ]
+            )
+
+            batch = await output_queue.get_batch.remote(batch_size=rollout_batch_size, current_step=step)
+            assert len(batch) == rollout_batch_size
+            assert {rollout.meta_info["group_id"] for rollout in batch} == {0, 1}
+            assert all(rollout.meta_info["step"] == step for rollout in batch)
+    finally:
+        await output_queue.shutdown.remote()
+
+
+@pytest.mark.skip_on_npu
+def test_group_queue_manager_cpu_smoke():
+    started_ray = not ray.is_initialized()
+    if started_ray:
+        ray.init(num_cpus=4, include_dashboard=False, ignore_reinit_error=True, log_to_driver=False)
+
+    try:
+        asyncio.run(_run_group_queue_manager_smoke())
+    finally:
+        if started_ray:
+            ray.shutdown()
diff --git a/tests/agentic/test_segment_masked_mean.py b/tests/agentic/test_segment_masked_mean.py
new file mode 100644
index 000000000..0b66b9169
--- /dev/null
+++ b/tests/agentic/test_segment_masked_mean.py
@@ -0,0 +1,197 @@
+import torch
+import pytest
+from roll.pipeline.agentic.agentic_actor_worker import compute_segment_masked_mean
+
+
+def test_single_segment():
+    """测试单段连续的1"""
+    # mask: [0, 0, 1, 1, 1, 0, 0]
+    # tensor: [0, 0, 2, 4, 6, 0, 0]
+    # 期望: 第2-4位置的mean是 (2+4+6)/3 = 4.0
+    mask = torch.tensor([[0, 0, 1, 1, 1, 0, 0]], dtype=torch.long)
+    tensor = torch.tensor([[0, 0, 2, 4, 6, 0, 0]], dtype=torch.float32)
+    
+    result = compute_segment_masked_mean(tensor, mask)
+    
+    expected = torch.tensor([[0, 0, 4.0, 4.0, 4.0, 0, 0]], dtype=torch.float32)
+    torch.testing.assert_close(result, expected)
+
+
+def test_multiple_segments():
+    """测试多段连续的1，中间有0分隔"""
+    # mask: [0, 1, 1, 0, 1, 1, 1, 0]
+    # tensor: [0, 1, 2, 0, 3, 4, 5, 0]
+    # 第一段(位置1-2): mean = (1+2)/2 = 1.5
+    # 第二段(位置4-6): mean = (3+4+5)/3 = 4.0
+    mask = torch.tensor([[0, 1, 1, 0, 1, 1, 1, 0]], dtype=torch.long)
+    tensor = torch.tensor([[0, 1, 2, 0, 3, 4, 5, 0]], dtype=torch.float32)
+    
+    result = compute_segment_masked_mean(tensor, mask)
+    
+    expected = torch.tensor([[0, 1.5, 1.5, 0, 4.0, 4.0, 4.0, 0]], dtype=torch.float32)
+    torch.testing.assert_close(result, expected)
+
+
+def test_starts_with_one():
+    """测试以1开头的情况"""
+    # mask: [1, 1, 0, 1, 0]
+    # tensor: [2, 4, 0, 6, 0]
+    # 第一段(位置0-1): mean = (2+4)/2 = 3.0
+    # 第二段(位置3): mean = 6.0
+    mask = torch.tensor([[1, 1, 0, 1, 0]], dtype=torch.long)
+    tensor = torch.tensor([[2, 4, 0, 6, 0]], dtype=torch.float32)
+    
+    result = compute_segment_masked_mean(tensor, mask)
+    
+    expected = torch.tensor([[3.0, 3.0, 0, 6.0, 0]], dtype=torch.float32)
+    torch.testing.assert_close(result, expected)
+
+
+def test_ends_with_one():
+    """测试以1结尾的情况"""
+    # mask: [0, 1, 1, 1]
+    # tensor: [0, 2, 4, 6]
+    # 期望: 位置1-3的mean是 (2+4+6)/3 = 4.0
+    mask = torch.tensor([[0, 1, 1, 1]], dtype=torch.long)
+    tensor = torch.tensor([[0, 2, 4, 6]], dtype=torch.float32)
+    
+    result = compute_segment_masked_mean(tensor, mask)
+    
+    expected = torch.tensor([[0, 4.0, 4.0, 4.0]], dtype=torch.float32)
+    torch.testing.assert_close(result, expected)
+
+
+def test_all_ones():
+    """测试全为1的情况"""
+    # mask: [1, 1, 1]
+    # tensor: [1, 2, 3]
+    # 期望: 所有位置的mean是 (1+2+3)/3 = 2.0
+    mask = torch.tensor([[1, 1, 1]], dtype=torch.long)
+    tensor = torch.tensor([[1, 2, 3]], dtype=torch.float32)
+    
+    result = compute_segment_masked_mean(tensor, mask)
+    
+    expected = torch.tensor([[2.0, 2.0, 2.0]], dtype=torch.float32)
+    torch.testing.assert_close(result, expected)
+
+
+def test_all_zeros():
+    """测试全为0的情况"""
+    # mask: [0, 0, 0]
+    # tensor: [1, 2, 3]
+    # 期望: 所有位置都是0
+    mask = torch.tensor([[0, 0, 0]], dtype=torch.long)
+    tensor = torch.tensor([[1, 2, 3]], dtype=torch.float32)
+    
+    result = compute_segment_masked_mean(tensor, mask)
+    
+    expected = torch.tensor([[0, 0, 0]], dtype=torch.float32)
+    torch.testing.assert_close(result, expected)
+
+
+def test_single_one():
+    """测试单个1的情况"""
+    # mask: [0, 0, 1, 0, 0]
+    # tensor: [0, 0, 5, 0, 0]
+    # 期望: 位置2的值是5.0
+    mask = torch.tensor([[0, 0, 1, 0, 0]], dtype=torch.long)
+    tensor = torch.tensor([[0, 0, 5, 0, 0]], dtype=torch.float32)
+    
+    result = compute_segment_masked_mean(tensor, mask)
+    
+    expected = torch.tensor([[0, 0, 5.0, 0, 0]], dtype=torch.float32)
+    torch.testing.assert_close(result, expected)
+
+
+def test_complex_pattern():
+    """测试复杂模式：多段，开头和结尾都是1"""
+    # mask: [1, 1, 0, 0, 1, 1, 1, 0, 1]
+    # tensor: [1, 2, 0, 0, 3, 4, 5, 0, 6]
+    # 第一段(位置0-1): mean = (1+2)/2 = 1.5
+    # 第二段(位置4-6): mean = (3+4+5)/3 = 4.0
+    # 第三段(位置8): mean = 6.0
+    mask = torch.tensor([[1, 1, 0, 0, 1, 1, 1, 0, 1]], dtype=torch.long)
+    tensor = torch.tensor([[1, 2, 0, 0, 3, 4, 5, 0, 6]], dtype=torch.float32)
+    
+    result = compute_segment_masked_mean(tensor, mask)
+    
+    expected = torch.tensor([[1.5, 1.5, 0, 0, 4.0, 4.0, 4.0, 0, 6.0]], dtype=torch.float32)
+    torch.testing.assert_close(result, expected)
+
+
+def test_batch_processing():
+    """测试batch处理"""
+    # batch_size=2
+    # 样本1: mask=[0,1,1,0], tensor=[0,2,4,0] -> mean=3.0
+    # 样本2: mask=[1,1,0,1], tensor=[1,3,0,5] -> 第一段mean=2.0, 第二段mean=5.0
+    mask = torch.tensor([
+        [0, 1, 1, 0],
+        [1, 1, 0, 1]
+    ], dtype=torch.long)
+    tensor = torch.tensor([
+        [0, 2, 4, 0],
+        [1, 3, 0, 5]
+    ], dtype=torch.float32)
+    
+    result = compute_segment_masked_mean(tensor, mask)
+    
+    expected = torch.tensor([
+        [0, 3.0, 3.0, 0],
+        [2.0, 2.0, 0, 5.0]
+    ], dtype=torch.float32)
+    torch.testing.assert_close(result, expected)
+
+
+def test_segments_not_multiplied():
+    """测试不同段之间不相乘（验证独立性）"""
+    # mask: [1, 1, 0, 1, 1]
+    # tensor: [1, 1, 0, 10, 10]
+    # 第一段(位置0-1): mean = (1+1)/2 = 1.0
+    # 第二段(位置3-4): mean = (10+10)/2 = 10.0
+    # 如果相乘，结果应该是10.0，但实际应该是各自独立
+    mask = torch.tensor([[1, 1, 0, 1, 1]], dtype=torch.long)
+    tensor = torch.tensor([[1, 1, 0, 10, 10]], dtype=torch.float32)
+    
+    result = compute_segment_masked_mean(tensor, mask)
+    
+    # 验证第一段是1.0，第二段是10.0，不相乘
+    assert result[0, 0].item() == pytest.approx(1.0)
+    assert result[0, 1].item() == pytest.approx(1.0)
+    assert result[0, 3].item() == pytest.approx(10.0)
+    assert result[0, 4].item() == pytest.approx(10.0)
+
+
+if __name__ == "__main__":
+    # 运行所有测试
+    test_single_segment()
+    print("test_single_segment passed")
+    
+    test_multiple_segments()
+    print("test_multiple_segments passed")
+    
+    test_starts_with_one()
+    print("test_starts_with_one passed")
+    
+    test_ends_with_one()
+    print("test_ends_with_one passed")
+    
+    test_all_ones()
+    print("test_all_ones passed")
+    
+    test_all_zeros()
+    print("test_all_zeros passed")
+    
+    test_single_one()
+    print("test_single_one passed")
+    
+    test_complex_pattern()
+    print("test_complex_pattern passed")
+    
+    test_batch_processing()
+    print("test_batch_processing passed")
+    
+    test_segments_not_multiplied()
+    print("test_segments_not_multiplied passed")
+    
+    print("\n所有测试通过！")
+
diff --git a/tests/agentic/tools/test_mcp_tools.py b/tests/agentic/tools/test_mcp_tools.py
index 353c537db..e4edfb446 100644
--- a/tests/agentic/tools/test_mcp_tools.py
+++ b/tests/agentic/tools/test_mcp_tools.py
@@ -1,5 +1,6 @@
 import pytest
 import asyncio
+import os
 from unittest.mock import MagicMock, AsyncMock, patch
 from jsonschema.exceptions import ValidationError
 import re
@@ -293,6 +294,10 @@ def test_execute_action_handles_server_business_logic_error(connected_mock_tool:
     # Verify that the tool was still called correctly.
     tool._client.call_tool.assert_called_once_with("play", {"action": 9})  
 
+@pytest.mark.skipif(
+    os.getenv("ROLL_RUN_EXTERNAL_AGENTIC_TESTS") != "1",
+    reason="requires access to the external Sokoban MCP service",
+)
 def test_mcp_tool_end_to_end_with_sokoban_mcp_server():
     """
     Tests the full lifecycle of MCPTool against a running MCP server.
@@ -377,6 +382,10 @@ def test_mcp_tool_end_to_end_with_sokoban_mcp_server():
     
     tool.close()
     
+@pytest.mark.skipif(
+    os.getenv("ROLL_RUN_EXTERNAL_AGENTIC_TESTS") != "1",
+    reason="requires access to the external calculator MCP service",
+)
 def test_calculator_tool_with_subset_of_tools():
     """
     Integration test for MCPTool using a real calculator server.
@@ -430,4 +439,4 @@ def test_calculator_tool_with_subset_of_tools():
     assert "[Validation Error: The tool call format is incorrect. Reason: Unknown tool_name: 'subtract'. Available tools are: ['add', 'modulo']]" in observation
     print("'subtract' tool was correctly rejected as it's not in the subset.")    
     
-    tool.close()
\ No newline at end of file
+    tool.close()
diff --git a/tests/conftest.py b/tests/conftest.py
index 468344cbb..495d8d226 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -27,6 +27,19 @@ def pytest_configure(config):
     config.option.durations = 0
     config.option.durations_min = 1
     config.option.verbose = True
+    config.addinivalue_line("markers", "skip_on_npu: skip test when running on Ascend NPU")
+
+
+def pytest_collection_modifyitems(config, items):
+    from roll.platforms import current_platform
+
+    if not current_platform.is_npu():
+        return
+
+    skip_on_npu = pytest.mark.skip(reason="skipped on Ascend NPU")
+    for item in items:
+        if "skip_on_npu" in item.keywords:
+            item.add_marker(skip_on_npu)
 
 
 def pytest_addoption(parser):
diff --git a/tests/datasets/test_collator.py b/tests/datasets/test_collator.py
index 38113a765..517241566 100644
--- a/tests/datasets/test_collator.py
+++ b/tests/datasets/test_collator.py
@@ -1,16 +1,19 @@
-import numpy as np
 import torch
 
-from roll.datasets.collator import DataCollatorWithPaddingForPaddedKeys, collate_fn_to_dict_list
+from roll.datasets.collator import DataCollatorWithPaddingForPaddedKeys
 
 
 class DummyTokenizer:
-    """Minimal tokenizer stub that behaves like a HF tokenizer for padding."""
+    pad_token_id = 0
 
-    def __init__(self, pad_token_id: int = 0, padding_side: str = "right"):
-        self.pad_token_id = pad_token_id
+    def __init__(self, padding_side="left"):
         self.padding_side = padding_side
-        self.model_input_names = ["input_ids", "attention_mask", "labels"]
+
+    def encode(self, text, return_tensors=None):
+        token_ids = list(range(1, len(text.split()) + 1))
+        if return_tensors == "pt":
+            return torch.tensor([token_ids], dtype=torch.long)
+        return token_ids
 
     def pad(
         self,
@@ -19,75 +22,73 @@ def pad(
         max_length=None,
         pad_to_multiple_of=None,
         return_tensors=None,
+        **kwargs,
     ):
-        assert padding in [True, "max_length"]
-        target_length = max_length or max(len(feature["input_ids"]) for feature in encoded_inputs)
-        pad_values = {"input_ids": self.pad_token_id, "attention_mask": 0, "labels": -100}
-        padded = {key: [] for key in encoded_inputs[0].keys()}
-        for feature in encoded_inputs:
-            for key, value in feature.items():
-                value_list = list(value)
-                pad_value = pad_values.get(key, 0)
-                padded[key].append(value_list + [pad_value] * (target_length - len(value_list)))
-        if return_tensors == "pt":
-            for key in padded:
-                padded[key] = torch.tensor(padded[key], dtype=torch.long)
-        return padded
-
-
-def test_collate_fn_to_dict_list_merges_tensor_and_python_data():
-    data_list = [
-        {"input_ids": torch.tensor([[1, 2]]), "meta": {"id": "a"}},
-        {"input_ids": torch.tensor([[3, 4]]), "meta": {"id": "b"}},
-    ]
-
-    output = collate_fn_to_dict_list(data_list)
-
-    assert torch.equal(output["input_ids"], torch.tensor([[1, 2], [3, 4]]))
-    assert isinstance(output["meta"], np.ndarray)
-    assert output["meta"].shape == (2,)
-    assert output["meta"][0]["id"] == "a"
-    assert output["meta"][1]["id"] == "b"
+        max_input_len = max(len(feature["input_ids"]) for feature in encoded_inputs)
+        target_len = max_length if padding == "max_length" and max_length is not None else max_input_len
+        if pad_to_multiple_of is not None and target_len % pad_to_multiple_of:
+            target_len = ((target_len + pad_to_multiple_of - 1) // pad_to_multiple_of) * pad_to_multiple_of
 
-
-def test_data_collator_with_padding_for_padded_keys_handles_unpadded_fields():
-    tokenizer = DummyTokenizer(pad_token_id=9)
-    collator = DataCollatorWithPaddingForPaddedKeys(
-        tokenizer=tokenizer,
-        padding="max_length",
-        max_length=6,
+        batch = {"input_ids": [], "attention_mask": [], "labels": []}
+        for feature in encoded_inputs:
+            input_ids = feature["input_ids"].tolist()
+            attention_mask = list(feature["attention_mask"])
+            pad_len = target_len - len(input_ids)
+            if self.padding_side == "left":
+                input_ids = [self.pad_token_id] * pad_len + input_ids
+                attention_mask = [0] * pad_len + attention_mask
+            else:
+                input_ids = input_ids + [self.pad_token_id] * pad_len
+                attention_mask = attention_mask + [0] * pad_len
+            batch["input_ids"].append(input_ids)
+            batch["attention_mask"].append(attention_mask)
+            batch["labels"].append(feature["labels"])
+
+        return {
+            "input_ids": torch.tensor(batch["input_ids"], dtype=torch.long),
+            "attention_mask": torch.tensor(batch["attention_mask"], dtype=torch.long),
+            "labels": torch.stack(batch["labels"]),
+        }
+
+
+def test_data_collator_with_padding_for_padded_keys():
+    tokenizer = DummyTokenizer(padding_side="left")
+
+    max_length = 32
+    data_collator = DataCollatorWithPaddingForPaddedKeys(
+        tokenizer=tokenizer, padding="max_length", max_length=max_length
     )
 
     features = [
         {
-            "input_ids": [1, 2, 3],
-            "attention_mask": [1, 1, 1],
-            "labels": [10, 11, 12],
+            "input_ids": tokenizer.encode("Hello, how are you?", return_tensors="pt").squeeze(0),
+            "labels": torch.tensor(1),
             "auxiliary": {"type": 1},
         },
         {
-            "input_ids": [4, 5],
-            "attention_mask": [1, 1],
-            "labels": [13, 14],
+            "input_ids": tokenizer.encode("I'm fine, thank you!", return_tensors="pt").squeeze(0),
+            "labels": torch.tensor(0),
             "auxiliary": {"type": 2},
         },
+        {
+            "input_ids": tokenizer.encode("What about you?", return_tensors="pt").squeeze(0),
+            "labels": torch.tensor(1),
+            "auxiliary": {"type": 3},
+        },
     ]
-
-    batch = collator(features)
-
-    assert batch["input_ids"].shape == (2, 6)
-    assert torch.equal(batch["input_ids"][0, 3:], torch.tensor([9, 9, 9]))
-    assert torch.equal(batch["attention_mask"][1], torch.tensor([1, 1, 0, 0, 0, 0]))
-    assert torch.equal(batch["labels"][1], torch.tensor([13, 14, -100, -100, -100, -100]))
-
-    expected_position_ids = torch.tensor(
-        [
-            [0, 1, 2, 2, 2, 2],
-            [0, 1, 1, 1, 1, 1],
-        ]
-    )
-    assert torch.equal(batch["position_ids"], expected_position_ids)
-
-    assert isinstance(batch["auxiliary"], np.ndarray)
-    assert batch["auxiliary"][0]["type"] == 1
-    assert batch["auxiliary"][1]["type"] == 2
+    for feature in features:
+        feature["attention_mask"] = [1] * len(feature["input_ids"])
+
+    batch = data_collator(features)
+
+    print("Padded input_ids:")
+    print(batch["input_ids"])
+    print("Padded attention_mask:")
+    print(batch["attention_mask"])
+    print("Labels:")
+    print(batch["labels"])
+
+    assert (
+        batch["input_ids"].shape[1] == max_length
+    ), f"Expected max_length {max_length}, got {batch['input_ids'].shape[1]}"
+    print(f"All inputs padded to length {max_length} correctly.")
diff --git a/tests/datasets/test_sampler.py b/tests/datasets/test_sampler.py
index 9f0609df9..6985b15aa 100644
--- a/tests/datasets/test_sampler.py
+++ b/tests/datasets/test_sampler.py
@@ -71,15 +71,24 @@ def test_ratio_calculation():
     assert sampler.domain_batch_num == {"a": 9, "b": 1}
 
 
-def test_randomness(sample_dataset):
-    sampler = BatchStratifiedSampler(sample_dataset, domain_ratios={"a": 5, "b": 3, "c": 2}, batch_size=10)
-    batches1 = list(sampler.__iter__())
-    batches2 = list(sampler.__iter__())
+def test_randomness(sample_dataset, monkeypatch):
+    from roll.datasets import sampler as sampler_module
+
+    def reverse_shuffle(values):
+        values[:] = values[::-1]
 
-    assert batches1 != batches2
+    monkeypatch.setattr(sampler_module.np.random, "shuffle", reverse_shuffle)
+    monkeypatch.setattr(sampler_module.random, "shuffle", reverse_shuffle)
+
+    sampler = BatchStratifiedSampler(sample_dataset, domain_ratios={"a": 5, "b": 3, "c": 2}, batch_size=10)
+    batches = list(sampler.__iter__())
 
-    for batch in batches1:
+    for batch in batches:
         domains = [sample_dataset[i]["domain"] for i in batch]
+        counts = Counter(domains)
+        assert counts["a"] == 5
+        assert counts["b"] == 3
+        assert counts["c"] == 2
         assert domains != ["a"] * 5 + ["b"] * 3 + ["c"] * 2
 
 
diff --git a/tests/distributed/executor/test_async_cluster.py b/tests/distributed/executor/test_async_cluster.py
new file mode 100644
index 000000000..44c3f4b55
--- /dev/null
+++ b/tests/distributed/executor/test_async_cluster.py
@@ -0,0 +1,71 @@
+from typing import Any
+
+import pytest
+import ray
+import asyncio
+
+from roll.configs.worker_config import WorkerConfig
+from roll.distributed.executor.cluster import Cluster
+from roll.distributed.executor.worker import Worker
+from roll.distributed.scheduler.decorator import register, Dispatch
+from roll.distributed.scheduler.resource_manager import ResourceManager
+
+
+@ray.remote
+class TestWorker(Worker):
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL)
+    async def test_one_to_all(self):
+        return 1
+
+    @register(dispatch_mode=Dispatch.ONE_TO_ALL_ONE)
+    async def test_one_to_all_one(self):
+        return 1
+
+    @register(dispatch_mode=Dispatch.ALL_TO_ALL)
+    async def test_all_to_all(self):
+        return 1
+
+    @register(dispatch_mode=Dispatch.DP_MP_COMPUTE)
+    async def test_dp_mp_compute(self):
+        return 1
+
+    @register(dispatch_mode=Dispatch.DP_MP_DISPATCH_FIRST)
+    async def test_dp_mp_dispatch_first(self):
+        return 1
+
+async def _assert_async_cluster_calls(cluster):
+    ret = await asyncio.gather(*cluster.test_one_to_all(blocking=False))
+    assert ret == [1, 1]
+
+    ret = await asyncio.gather(*[ref.obj_ref for ref in cluster.test_one_to_all_one(blocking=False)])
+    assert ret == [1, 1]
+
+    ret = await asyncio.gather(*cluster.test_all_to_all(blocking=False))
+    assert ret == [1, 1]
+
+    ret = await asyncio.gather(*[ref.obj_ref for ref in cluster.test_dp_mp_compute(blocking=False)])
+    assert ret == [1, 1]
+
+    ret = await asyncio.gather(*[ref.obj_ref for ref in cluster.test_dp_mp_dispatch_first(blocking=False)])
+    assert ret == [1, 1]
+
+def test_async_cluster():
+    ray.shutdown()
+    ray.init()
+    try:
+        resource_manager = ResourceManager(0, 1)
+        worker_config = WorkerConfig(name="test_worker", world_size=2)
+
+        cluster: Any = Cluster(
+            name=worker_config.name,
+            resource_manager=resource_manager,
+            worker_cls=TestWorker,
+            worker_config=worker_config,
+        )
+
+        asyncio.run(_assert_async_cluster_calls(cluster))
+    finally:
+        ray.shutdown()
+
+if __name__ == "__main__":
+    test_async_cluster()
diff --git a/tests/distributed/executor/test_cluster.py b/tests/distributed/executor/test_cluster.py
index c7c57da34..f82b7a45f 100644
--- a/tests/distributed/executor/test_cluster.py
+++ b/tests/distributed/executor/test_cluster.py
@@ -61,48 +61,54 @@ def add(self, x: List):
 
 
 def test_cluster_run():
+    ray.shutdown()
     ray.init(log_to_driver=True)
-
-    resource_manager = ResourceManager()
-
-    test_worker_config = WorkerConfig(name="test_worker", world_size=2)
-    test_cluster: Any = Cluster(
-        name=test_worker_config.name,
-        resource_manager=resource_manager,
-        worker_cls=TestWorker,
-        worker_config=test_worker_config,
-    )
-    x = 1
-    res = test_cluster.add(x=x)
-    print(res)
-    assert res == [1, 2]
+    try:
+        resource_manager = ResourceManager(0, 1)
+
+        test_worker_config = WorkerConfig(name="test_worker", world_size=2)
+        test_cluster: Any = Cluster(
+            name=test_worker_config.name,
+            resource_manager=resource_manager,
+            worker_cls=TestWorker,
+            worker_config=test_worker_config,
+        )
+        x = 1
+        res = test_cluster.add(x=x)
+        print(res)
+        assert res == [1, 2]
+    finally:
+        ray.shutdown()
 
 
 def test_cluster_dp_mp_compute():
+    ray.shutdown()
     ray.init(log_to_driver=True)
-
-    resource_manager = ResourceManager()
-
-    test_worker_config = WorkerConfig(name="test_worker", world_size=8)
-    test_cluster: Any = Cluster(
-        name=test_worker_config.name,
-        resource_manager=resource_manager,
-        worker_cls=TestDPWorker,
-        worker_config=test_worker_config,
-    )
-    x = [1, 2, 3, 4, 5, 6, 7, 8]
-    res = test_cluster.add(x=x)
-    print(res)
-    assert res == [
-        [0, 0, 1, 1],
-        [0, 0, 1, 2],
-        [0, 0, 1, 3],
-        [0, 0, 1, 4],
-        [1, 0, 1, 5],
-        [1, 0, 1, 6],
-        [1, 0, 1, 7],
-        [1, 0, 1, 8],
-    ]
+    try:
+        resource_manager = ResourceManager(0, 1)
+
+        test_worker_config = WorkerConfig(name="test_worker", world_size=8)
+        test_cluster: Any = Cluster(
+            name=test_worker_config.name,
+            resource_manager=resource_manager,
+            worker_cls=TestDPWorker,
+            worker_config=test_worker_config,
+        )
+        x = [1, 2, 3, 4, 5, 6, 7, 8]
+        res = test_cluster.add(x=x)
+        print(res)
+        assert res == [
+            [0, 0, 1, 1],
+            [0, 0, 1, 2],
+            [0, 0, 1, 3],
+            [0, 0, 1, 4],
+            [1, 0, 1, 5],
+            [1, 0, 1, 6],
+            [1, 0, 1, 7],
+            [1, 0, 1, 8],
+        ]
+    finally:
+        ray.shutdown()
 
 
 if __name__ == "__main__":
diff --git a/tests/distributed/executor/test_ray_debugger.py b/tests/distributed/executor/test_ray_debugger.py
new file mode 100644
index 000000000..caf586fbe
--- /dev/null
+++ b/tests/distributed/executor/test_ray_debugger.py
@@ -0,0 +1,40 @@
+"""
+debug code from: https://docs.ray.io/en/latest/ray-observability/ray-distributed-debugger.html
+"""
+import ray
+import sys
+
+
+@ray.remote
+def my_task(x):
+    y = x * x
+    print("my_task: x = {}, y = {}".format(x, y))
+    breakpoint()  # Add a breakpoint in the Ray task.
+    return y
+
+
+@ray.remote
+def post_mortem(x):
+    x += 1
+    raise Exception("An exception is raised.")
+    return x
+
+
+def main():
+    # Add the RAY_DEBUG_POST_MORTEM=1 environment variable
+    # if you want to activate post-mortem debugging
+    ray.init(
+        runtime_env={
+            "env_vars": {"RAY_DEBUG": "1"},
+        },
+        log_to_driver=True,
+    )
+
+    if len(sys.argv) == 1:
+        ray.get(my_task.remote(10))
+    else:
+        ray.get(post_mortem.remote(10))
+
+
+if __name__ == "__main__":
+    main()
diff --git a/tests/distributed/executor/test_ray_thread_actor_cuda_mem_leak.py b/tests/distributed/executor/test_ray_thread_actor_cuda_mem_leak.py
index 17eac4964..8ae2b8a66 100644
--- a/tests/distributed/executor/test_ray_thread_actor_cuda_mem_leak.py
+++ b/tests/distributed/executor/test_ray_thread_actor_cuda_mem_leak.py
@@ -1,12 +1,16 @@
 import gc
 import json
 
+import pytest
 import ray
 import torch
 
 from roll.distributed.scheduler.initialize import init
 
 
+pytestmark = pytest.mark.skipif(not torch.cuda.is_available(), reason="Requires CUDA")
+
+
 def log_gpu_memory_usage(head: str):
     memory_allocated = torch.cuda.memory_allocated() / 1024**3
     memory_reserved = torch.cuda.memory_reserved() / 1024**3
diff --git a/tests/distributed/scheduler/test_decorator.py b/tests/distributed/scheduler/test_decorator.py
index 987598f62..54b8fa6d7 100644
--- a/tests/distributed/scheduler/test_decorator.py
+++ b/tests/distributed/scheduler/test_decorator.py
@@ -84,7 +84,9 @@ def test_collect_dp_mp_compute():
     cluster = Mock()
     cluster.world_size = 4
 
-    cluster.get_rank_info = Mock(side_effect=lambda rank: Mock(tp_rank=rank % 2))
+    cluster.get_rank_info = Mock(
+        side_effect=lambda rank: Mock(tp_rank=rank % 2, cp_rank=0, is_pipeline_last_stage=True)
+    )
 
     output = [[0], [1], [2], [3]]
     collected_output = collect_dp_mp_compute(cluster, output)
diff --git a/tests/distributed/scheduler/test_generate_scheduler.py b/tests/distributed/scheduler/test_generate_scheduler.py
new file mode 100644
index 000000000..fe3d4ff79
--- /dev/null
+++ b/tests/distributed/scheduler/test_generate_scheduler.py
@@ -0,0 +1,498 @@
+import asyncio
+import ray
+import math
+import random
+from typing import List, Optional
+from dataclasses import dataclass
+import torch
+import numpy as np
+import pytest
+
+from roll.distributed.scheduler.generate_scheduler import (
+    DynamicSamplingScheduler,
+    RolloutContext,
+    ExperienceItem,
+)
+import roll.distributed.scheduler.user_defined_rollout_loop as udrl
+from roll.distributed.scheduler.user_defined_rollout_loop import UserDefinedRolloutLoop as UserDefinedRolloutLoopBase
+from roll.distributed.scheduler.protocol import DataProto
+from roll.distributed.executor.worker import RankInfo
+from roll.configs import ModelArguments
+from roll.configs.worker_config import WorkerConfig
+from roll.pipeline.rlvr.rlvr_config import RewardConfig, RewardFilterConfig
+from roll.utils.logging import get_logger
+
+
+logger = get_logger()
+
+
+@pytest.mark.skip(reason="LoadBalancer was removed; request routing is handled by RouterManager.")
+async def test_load_balancer():
+    load_balancer = LoadBalancer(mp_rank_zero={0:0, 1:0, 2:0, 3:0}, max_running_requests=2)
+
+    leases = []
+    for i in range(8):
+        lease = await load_balancer.acquire(1)
+        assert lease._dp_rank == i % 4
+        leases.append(lease)
+    assert load_balancer.full()
+    for i in range(8):
+        leases[i].clear()
+    assert load_balancer.empty()
+
+    async def process_new_prompt():
+        lease = await load_balancer.acquire(2)
+        await asyncio.sleep(2)
+        for i in range(2):
+            assert lease.lease == 2 - i
+            async with lease.lock(1) as dp_rank:
+                assert dp_rank == lease._dp_rank
+            assert lease.lease == 1 - i
+        return lease._dp_rank
+
+    tasks = [asyncio.create_task(process_new_prompt()) for _ in range(4)]
+    await asyncio.sleep(1)
+    assert load_balancer.full()
+    await asyncio.sleep(2)
+    assert load_balancer.empty()
+    await load_balancer.wait_complete()
+    assert load_balancer.empty()
+    ret = await asyncio.gather(*tasks)
+    assert len(ret) == 4 and sum(ret) == 6
+    assert set(ret) == set([0, 1, 2, 3])
+
+    tasks = [asyncio.create_task(process_new_prompt()) for _ in range(8)]
+    await asyncio.sleep(1)
+    assert load_balancer.full()
+    await asyncio.sleep(2)
+    assert load_balancer.full()
+    await load_balancer.wait_complete()
+    assert load_balancer.empty()
+    ret = await asyncio.gather(*tasks)
+    assert len(ret) == 8 and sum(ret) == 12
+    assert set(ret) == set([0, 1, 2, 3])
+
+    async def suspended():
+        while load_balancer._suspend:
+            load_balancer.suspend_event.clear()
+            await load_balancer.suspend_event.wait()
+
+    load_balancer.suspend() 
+    tasks = [asyncio.create_task(process_new_prompt()) for _ in range(8)]
+    await asyncio.sleep(1)
+    assert load_balancer.empty()
+    wait_task = asyncio.create_task(suspended())
+    await asyncio.sleep(1)
+    assert not wait_task.done()
+    load_balancer.resume()
+    await wait_task
+    await asyncio.sleep(1)
+    assert load_balancer.full()
+    await load_balancer.wait_complete()
+    assert load_balancer.empty()
+    ret = await asyncio.gather(*tasks)
+    assert len(ret) == 8 and sum(ret) == 12
+    assert set(ret) == set([0, 1, 2, 3])
+
+
+@ray.remote
+class MockWorker:
+    async def generate_request(self, data: DataProto):
+        if "turn" not in data.meta_info:
+            data.meta_info["turn"] = 1
+        else:
+            data.meta_info["turn"] += 1
+
+        if data.meta_info["turn"] < 3:
+            data.meta_info["finihsh_reasons"] = ["abort"]
+        else:
+            data.meta_info["finihsh_reasons"] = ["stop"]
+
+        return data
+
+    async def compute_rewards(self, data: DataProto):
+        return data
+
+    async def abort_requests(self, ids):
+        return
+
+class MockCluster:
+    def __init__(self, workers: List[MockWorker]):
+        self.workers = workers
+        self.worker_rank_info = [RankInfo() for _ in range(4)]
+        self.worker_config = WorkerConfig(model_args=ModelArguments(model_type="diffusion_module"))
+
+    def get_rank_info(self, rank):
+        return self.worker_rank_info[rank]
+    
+class MockCollectFn:
+    def __init__(self, tokenizer):
+        pass
+
+    def __call__(self, data):
+        assert isinstance(data, list)
+        assert len(data) == 1
+        assert isinstance(data[0], dict)
+        domain = [data[0]["domain"]]
+        data[0]["domain"] = np.empty(len(domain), dtype=object)
+        data[0]["domain"][:] = domain
+        return data[0]
+
+@dataclass
+class MockPipelineConfig:
+    is_val: bool = False
+
+    async_generation_ratio: float = 0
+    max_running_requests: int = 128
+    is_num_return_sequences_expand: bool = True # this unit test only support is_num_return_sequences_expand
+    is_use_additional_prompts: bool = False
+    max_additional_running_prompts: int = 0
+    user_defined_rollout_loop_cls: str = "roll.distributed.scheduler.user_defined_rollout_loop.UserDefinedRolloutLoop"
+
+    seed: int = 0
+    sequence_length: int = 0
+    val_sequence_length: int = 0
+    prompt_length: int = 0
+
+    rewards = {"default": RewardConfig(query_filter_config=RewardFilterConfig(type="no_filter"))}
+
+def postprocess_paused_data(pre_data, data: DataProto, sequence_length, prompt_length) -> DataProto:
+    return data
+udrl.postprocess_paused_data = postprocess_paused_data
+
+def postprocess_output_data(request, data: DataProto, sequence_length) -> DataProto:
+    return data
+udrl.postprocess_output_data = postprocess_output_data
+
+class UserDefinedRolloutLoopWithFilter(UserDefinedRolloutLoopBase):
+    def __init__(self):
+        super().__init__()
+        self.used_prompt = 0
+
+    async def process_new_prompt(self, context: RolloutContext) -> Optional[DataProto|List[DataProto]]:
+        ret = await super().process_new_prompt(context)
+        self.used_prompt += 1
+        if self.used_prompt < 16:
+            return None
+        else:
+            return ret
+
+class UserDefinedRolloutLoopWithDynamicSamplen(UserDefinedRolloutLoopBase):
+    async def process_new_prompt(self, context: RolloutContext) -> Optional[DataProto|List[DataProto]]:
+        ret = await super().process_new_prompt(context)
+        assert isinstance(ret, list)
+        # dynamic num_return_sequences
+        if random.choice([True, False]):
+            return ret * 2
+        else:
+            return ret[0]
+
+class MockDynamicSamplingScheduler(DynamicSamplingScheduler):
+    def __init__(self, pipeline_config):
+        super().__init__(pipeline_config)
+        self.mock_pipeline_config = pipeline_config
+
+    async def set_scheduler(self):
+        actor_cluster = MockCluster([MockWorker.remote() for _ in range(4)])
+        reward_clusters = {"default": MockCluster([MockWorker.remote() for _ in range(4)])}
+        await super().set_scheduler(
+            actor_cluster,
+            reward_clusters,
+            dataset=range(0,1024),
+            collect_fn_cls=MockCollectFn,
+            collect_fn_kwargs={},
+            is_val=self.mock_pipeline_config.is_val,
+        )
+
+    def get_next_dataset_item(self):
+        return {
+            "prompt": torch.ones((1, 1)),
+            "response_level_rewards": torch.ones((1, 1)),
+            "domain": "default",
+        }
+
+    def collect_items_as_batch(self, finished_items: List[ExperienceItem]):
+        batch = DataProto(meta_info={
+            "finished_items": finished_items,
+            "metrics": {},
+        })
+        return batch
+
+async def _run_val():
+    logger.info("TEST test_val")
+    async_generation_ratio = 2
+    pipeline_config = MockPipelineConfig(
+        is_val=True,
+        async_generation_ratio=async_generation_ratio,
+        max_running_requests=2,
+        is_use_additional_prompts=False,
+        max_additional_running_prompts=0,
+    )
+    scheduler = MockDynamicSamplingScheduler(pipeline_config)
+    await scheduler.set_scheduler()
+    for i in range(10):
+        logger.info(f"pipeline step {i}")
+        await scheduler.pause_sampling()
+        data = DataProto(meta_info={"generation_config": {"num_return_sequences": 2}})
+        ret = await scheduler.get_batch(data=data, global_step=i, batch_size=4)
+        # logger.info(f"step {i}: {ret}")
+        ret = ret.meta_info["finished_items"]
+        assert len(ret) == 8, f"{len(ret)=}"
+        for item in ret:
+            assert item.sampling_start_step == max(0, i)
+            assert item.prompt_id in list(range(i * 4, (i + 1) * 4)), f"{[item.prompt_id for item in ret]}"
+        logger.info(f"test_val step={i}, response step={[item.sampling_start_step for item in ret]}, prompt_id={[item.prompt_id for item in ret]}")
+    await scheduler.shutdown()
+
+async def _run_sync():
+    logger.info("TEST test_sync")
+    async_generation_ratio = 0
+    pipeline_config = MockPipelineConfig(
+        async_generation_ratio=async_generation_ratio,
+        max_running_requests=2,
+        is_use_additional_prompts=False,
+        max_additional_running_prompts=0,
+    )
+    scheduler = MockDynamicSamplingScheduler(pipeline_config)
+    await scheduler.set_scheduler()
+    for i in range(10):
+        logger.info(f"pipeline step {i}")
+        await scheduler.pause_sampling()
+        data = DataProto(meta_info={"generation_config": {"num_return_sequences": 2}})
+        ret = await scheduler.get_batch(data=data, global_step=i, batch_size=4)
+        # logger.info(f"step {i}: {ret}")
+        ret = ret.meta_info["finished_items"]
+        assert len(ret) == 8, f"{len(ret)=}"
+        for item in ret:
+            assert item.sampling_start_step == max(0, i)
+            assert item.prompt_id in list(range(i * 4, (i + 1) * 4)), f"{[item.prompt_id for item in ret]}"
+        logger.info(f"test_sync step={i}, response step={[item.sampling_start_step for item in ret]}, prompt_id={[item.prompt_id for item in ret]}")
+    await scheduler.shutdown()
+
+async def _run_sync_pause():
+    logger.info("TEST test_sync_pause")
+    async_generation_ratio = 0
+    pipeline_config = MockPipelineConfig(
+        async_generation_ratio=async_generation_ratio,
+        max_running_requests=2,
+        is_use_additional_prompts=False,
+        max_additional_running_prompts=0,
+    )
+    scheduler = MockDynamicSamplingScheduler(pipeline_config)
+    await scheduler.set_scheduler()
+    for i in range(10):
+        logger.info(f"pipeline step {i}")
+        data = DataProto(meta_info={"generation_config": {"num_return_sequences": 2}})
+        ret = await scheduler.get_batch(data=data, global_step=i, batch_size=4)
+        # logger.info(f"step {i}: {ret}")
+        ret = ret.meta_info["finished_items"]
+        assert len(ret) == 8, f"{len(ret)=}"
+        for item in ret:
+            assert item.sampling_start_step == max(0, i)
+            assert item.prompt_id in list(range(i * 4, (i + 1) * 4)), f"{[item.prompt_id for item in ret]}"
+        logger.info(f"test_sync_pause step={i}, response step={[item.sampling_start_step for item in ret]}, prompt_id={[item.prompt_id for item in ret]}")
+    await scheduler.shutdown()
+
+async def _run_sync_filter():
+    logger.info("TEST test_sync_filter")
+    async_generation_ratio = 0
+    pipeline_config = MockPipelineConfig(
+        async_generation_ratio=async_generation_ratio,
+        max_running_requests=2,
+        is_use_additional_prompts=True,
+        max_additional_running_prompts=2,
+        user_defined_rollout_loop_cls="tests.distributed.scheduler.test_generate_scheduler.UserDefinedRolloutLoopWithFilter",
+    )
+    scheduler = MockDynamicSamplingScheduler(pipeline_config)
+    await scheduler.set_scheduler()
+    for i in range(10):
+        logger.info(f"pipeline step {i}")
+        await scheduler.pause_sampling()
+        data = DataProto(meta_info={"generation_config": {"num_return_sequences": 2}})
+        ret = await scheduler.get_batch(global_step=i, batch_size=4, data=data)
+        # logger.info(f"step {i}: {ret}")
+        ret = ret.meta_info["finished_items"]
+        assert len(ret) == 8, f"{len(ret)=}"
+        for item in ret:
+            assert item.sampling_start_step == max(0, i)
+        logger.info(f"test_sync_filter step={i}, response step={[item.sampling_start_step for item in ret]}, prompt_id={[item.prompt_id for item in ret]}")
+    await scheduler.shutdown()
+
+async def _run_sync_additional_prompts():
+    logger.info("TEST test_sync_additional_prompts")
+    async_generation_ratio = 0
+    pipeline_config = MockPipelineConfig(
+        async_generation_ratio=async_generation_ratio,
+        max_running_requests=2,
+        is_use_additional_prompts=True,
+        max_additional_running_prompts=2,
+    )
+    scheduler = MockDynamicSamplingScheduler(pipeline_config)
+    await scheduler.set_scheduler()
+    for i in range(10):
+        logger.info(f"pipeline step {i}")
+        await scheduler.pause_sampling()
+        data = DataProto(meta_info={"generation_config": {"num_return_sequences": 2}})
+        ret = await scheduler.get_batch(data=data, global_step=i, batch_size=4)
+        # logger.info(f"step {i}: {ret}")
+        ret = ret.meta_info["finished_items"]
+        assert len(ret) == 8, f"{len(ret)=}"
+        for item in ret:
+            assert item.sampling_start_step == max(0, i)
+        logger.info(f"test_sync_additional_prompts step={i}, response step={[item.sampling_start_step for item in ret]}, prompt_id={[item.prompt_id for item in ret]}")
+    await scheduler.shutdown()
+
+async def _run_sync_dynamic_num_return_sequences():
+    logger.info("TEST test_sync_dynamic_num_return_sequences")
+    async_generation_ratio = 0
+    pipeline_config = MockPipelineConfig(
+        async_generation_ratio=async_generation_ratio,
+        max_running_requests=2,
+        is_use_additional_prompts=True,
+        max_additional_running_prompts=2,
+        user_defined_rollout_loop_cls="tests.distributed.scheduler.test_generate_scheduler.UserDefinedRolloutLoopWithDynamicSamplen",
+    )
+    scheduler = MockDynamicSamplingScheduler(pipeline_config)
+    await scheduler.set_scheduler()
+    for i in range(10):
+        logger.info(f"pipeline step {i}")
+        await scheduler.pause_sampling()
+        data = DataProto(meta_info={"generation_config": {"num_return_sequences": 2}})
+        ret = await scheduler.get_batch(global_step=i, batch_size=4, data=data)
+        # logger.info(f"step {i}: {ret}")
+        ret = ret.meta_info["finished_items"]
+        assert len(ret) == 8, f"{len(ret)=}"
+        for item in ret:
+            assert item.sampling_start_step == max(0, i)
+        logger.info(f"test_sync_dynamic_num_return_sequences step={i}, response step={[item.sampling_start_step for item in ret]}, prompt_id={[item.prompt_id for item in ret]}")
+    await scheduler.shutdown()
+
+async def _run_sync_dynamic_num_return_sequences_exception():
+    logger.info("TEST test_sync_dynamic_num_return_sequences_exception")
+    async_generation_ratio = 0
+    pipeline_config = MockPipelineConfig(
+        async_generation_ratio=async_generation_ratio,
+        max_running_requests=2,
+        is_use_additional_prompts=False,
+        max_additional_running_prompts=0,
+        user_defined_rollout_loop_cls="tests.distributed.scheduler.test_generate_scheduler.UserDefinedRolloutLoopWithDynamicSamplen",
+    )
+    scheduler = MockDynamicSamplingScheduler(pipeline_config)
+    await scheduler.set_scheduler()
+    with pytest.raises(Exception):
+        for i in range(10):
+            logger.info(f"pipeline step {i}")
+            await scheduler.pause_sampling()
+            data = DataProto(meta_info={"generation_config": {"num_return_sequences": 2}})
+            ret = await scheduler.get_batch(global_step=i, batch_size=4, data=data)
+            # logger.info(f"step {i}: {ret}")
+            ret = ret.meta_info["finished_items"]
+            assert len(ret) == 8, f"{len(ret)=}"
+            for item in ret:
+                assert item.sampling_start_step == max(0, i)
+            logger.info(f"test_sync_dynamic_num_return_sequences_exception step={i}, response step={[item.sampling_start_step for item in ret]}, prompt_id={[item.prompt_id for item in ret]}")
+        await scheduler.shutdown()
+
+async def _run_1_off():
+    logger.info("TEST test_1_off")
+    async_generation_ratio = 1
+    pipeline_config = MockPipelineConfig(
+        async_generation_ratio=async_generation_ratio,
+        max_running_requests=2,
+        is_use_additional_prompts=False,
+        max_additional_running_prompts=0,
+    )
+    scheduler = MockDynamicSamplingScheduler(pipeline_config)
+    await scheduler.set_scheduler()
+    for i in range(10):
+        logger.info(f"pipeline step {i}")
+        await scheduler.pause_sampling()
+        data = DataProto(meta_info={"generation_config": {"num_return_sequences": 2}})
+        ret = await scheduler.get_batch(data=data, global_step=i, batch_size=4)
+        # logger.info(f"step {i}: {ret}")
+        ret = ret.meta_info["finished_items"]
+        assert len(ret) == 8, f"{len(ret)=}"
+        for item in ret:
+            assert item.sampling_start_step >= max(0, i - math.ceil(async_generation_ratio))
+            assert item.sampling_start_step <= i
+            assert item.prompt_id >= max(0, i - async_generation_ratio) * 4
+            assert item.prompt_id < (i + 1 + async_generation_ratio) * 4
+        logger.info(f"test_1_off step={i}, response step={[item.sampling_start_step for item in ret]}, prompt_id={[item.prompt_id for item in ret]}")
+        await asyncio.sleep(2)
+    await scheduler.shutdown()
+
+async def _run_3_off():
+    logger.info("TEST test_3_off")
+    async_generation_ratio = 3.0
+    pipeline_config = MockPipelineConfig(
+        async_generation_ratio=async_generation_ratio,
+        max_running_requests=2,
+        is_use_additional_prompts=False,
+        max_additional_running_prompts=0,
+    )
+    scheduler = MockDynamicSamplingScheduler(pipeline_config)
+    await scheduler.set_scheduler()
+    for i in range(10):
+        logger.info(f"pipeline step {i}")
+        await scheduler.pause_sampling()
+        data = DataProto(meta_info={"generation_config": {"num_return_sequences": 2}})
+        ret = await scheduler.get_batch(data=data, global_step=i, batch_size=4)
+        # logger.info(f"step {i}: {ret}")
+        ret = ret.meta_info["finished_items"]
+        assert len(ret) == 8, f"{len(ret)=}"
+        for item in ret:
+            assert item.sampling_start_step >= max(0, i - math.ceil(async_generation_ratio))
+            assert item.sampling_start_step <= i
+            assert item.prompt_id >= max(0, i - async_generation_ratio) * 4
+            assert item.prompt_id < (i + 1 + async_generation_ratio) * 4
+        logger.info(f"test_3_off step={i}, response step={[item.sampling_start_step for item in ret]}, prompt_id={[item.prompt_id for item in ret]}")
+        await asyncio.sleep(2)
+    await scheduler.shutdown()
+
+async def _run_2_5_off():
+    logger.info("TEST test_2_5_off")
+    async_generation_ratio = 2.5
+    pipeline_config = MockPipelineConfig(
+        async_generation_ratio=async_generation_ratio,
+        max_running_requests=2,
+        is_use_additional_prompts=False,
+        max_additional_running_prompts=0,
+    )
+    scheduler = MockDynamicSamplingScheduler(pipeline_config)
+    await scheduler.set_scheduler()
+    for i in range(10):
+        logger.info(f"pipeline step {i}")
+        await scheduler.pause_sampling()
+        data = DataProto(meta_info={"generation_config": {"num_return_sequences": 2}})
+        ret = await scheduler.get_batch(data=data, global_step=i, batch_size=4)
+        # logger.info(f"step {i}: {ret}")
+        ret = ret.meta_info["finished_items"]
+        assert len(ret) == 8, f"{len(ret)=}"
+        for item in ret:
+            assert item.sampling_start_step >= max(0, i - math.ceil(async_generation_ratio))
+            assert item.sampling_start_step <= i
+        logger.info(f"test_2_5_off step={i}, response step={[item.sampling_start_step for item in ret]}, prompt_id={[item.prompt_id for item in ret]}")
+        await asyncio.sleep(2)
+    await scheduler.shutdown()
+
+async def _run_dynamic_sampling_scheduler():
+    await _run_val()
+    await _run_sync()
+    await _run_sync_pause()
+    await _run_sync_filter()
+    await _run_sync_additional_prompts()
+    await _run_sync_dynamic_num_return_sequences()
+    await _run_sync_dynamic_num_return_sequences_exception()
+    await _run_1_off()
+    await _run_3_off()
+    await _run_2_5_off()
+
+
+@pytest.mark.skip(reason="DynamicSamplingScheduler now requires RouterManager-backed construction; this legacy mock test is stale.")
+def test_dynamic_sampling_scheduler():
+    asyncio.run(_run_dynamic_sampling_scheduler())
+
+
+if __name__ == "__main__":
+    ray.init()
+    asyncio.run(_run_dynamic_sampling_scheduler())
diff --git a/tests/distributed/scheduler/test_initialize.py b/tests/distributed/scheduler/test_initialize.py
index 6a20c5480..e284c5ea1 100644
--- a/tests/distributed/scheduler/test_initialize.py
+++ b/tests/distributed/scheduler/test_initialize.py
@@ -1,4 +1,5 @@
 import ray
+import pytest
 
 from roll.distributed.scheduler.initialize import init
 
@@ -14,6 +15,7 @@ def say_hello(self):
         return msg
 
 
+@pytest.mark.skip(reason="Requires a multi-node Ray cluster; STRICT_SPREAD placement can hang in CI.")
 def test_ray_cluster_func():
     init()
     placement_group = ray.util.placement_group(bundles=[{"CPU": 1}, {"CPU": 1}], strategy="STRICT_SPREAD")
diff --git a/tests/distributed/scheduler/test_resource_manager.py b/tests/distributed/scheduler/test_resource_manager.py
index 96e2f9142..8b36dddb4 100644
--- a/tests/distributed/scheduler/test_resource_manager.py
+++ b/tests/distributed/scheduler/test_resource_manager.py
@@ -1,100 +1,82 @@
-import os
+from types import SimpleNamespace
 
-from ray.runtime_env import RuntimeEnv
-
-os.environ["RAY_DEDUP_LOGS"] = "0"
 import ray
-from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
 
-from roll.distributed.scheduler.driver_utils import get_driver_world_size
-from roll.distributed.scheduler.initialize import init
 from roll.distributed.scheduler.resource_manager import ResourceManager
 
 
-@ray.remote
-class TestResourceManagerActor:
-    def __init__(self, rank, world_size):
-        self.rank = rank
-        self.world_size = world_size
-
-    def say_hello(self):
-        msg = f"Hello from {self.world_size}_{self.rank}! get_gpu_ids: {ray.get_gpu_ids()} current GPU: {os.environ['CUDA_VISIBLE_DEVICES']}"
-        print(msg)
-        return msg
-
-
-def test_resource_manager():
-    init()
-
-    resource_manager = ResourceManager(num_nodes=get_driver_world_size())
-    num_gpus_per_worker = 1
-    device_mapping = eval("list(range(0,8))")
-    print(f"device_mapping: {device_mapping}")
-    world_size = len(device_mapping) // num_gpus_per_worker
-    pgs = resource_manager.allocate_placement_group(world_size=world_size, device_mapping=device_mapping)
-
-    actor_list = []
-    world_size = len(pgs)
-    for rank, pg in enumerate(pgs):
-        runtime_env = RuntimeEnv(
-            env_vars={
-                "CUDA_VISIBLE_DEVICES": ",".join(map(str, pg.gpu_ranks)),
-                "RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES": "1",
-            }
-        )
-        actor_list.append(
-            TestResourceManagerActor.options(
-                scheduling_strategy=PlacementGroupSchedulingStrategy(placement_group=pg.placement_group),
-                num_gpus=0.01,
-                runtime_env=runtime_env,
-            ).remote(rank=rank, world_size=world_size)
-        )
-
-    refs = []
-    for actor in actor_list:
-        refs.append(actor.say_hello.remote())
-    res = ray.get(refs)
-    print(res)
-
-
-def test_resource_manager_num_gpus_per_worker_gt_1():
-    init()
-
-    resource_manager = ResourceManager(num_nodes=get_driver_world_size())
-    num_gpus_per_worker = 2
-    device_mapping = eval("list(range(0,8))")
-    print(f"device_mapping: {device_mapping}")
-    world_size = len(device_mapping) // num_gpus_per_worker
-    pgs = resource_manager.allocate_placement_group(world_size=world_size, device_mapping=device_mapping)
-
-    actor_list = []
-    world_size = len(pgs)
-    for rank, pg in enumerate(pgs):
-        runtime_env = RuntimeEnv(
-            env_vars={
-                "CUDA_VISIBLE_DEVICES": ",".join(map(str, pg.gpu_ranks)),
-                "RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES": "1",
-            }
-        )
-        actor_list.append(
-            TestResourceManagerActor.options(
-                scheduling_strategy=PlacementGroupSchedulingStrategy(placement_group=pg.placement_group),
-                num_gpus=0.01,
-                runtime_env=runtime_env,
-            ).remote(rank=rank, world_size=world_size)
-        )
-
-    refs = []
-    for actor in actor_list:
-        refs.append(actor.say_hello.remote())
-    res = ray.get(refs)
-    print(res)
-
-
-if __name__ == "__main__":
-    """
-    RANK=0 WORLD_SIZE=2 MASTER_ADDR='33.195.52.67' MASTER_PORT=54893 python tests/distributed/scheduler/test_resource_manager.py
-    RANK=1 WORLD_SIZE=2 MASTER_ADDR='33.195.52.67' MASTER_PORT=54893 python tests/distributed/scheduler/test_resource_manager.py
-    """
-    # test_resource_manager()
-    test_resource_manager_num_gpus_per_worker_gt_1()
+def _make_resource_manager(num_nodes=2, num_gpus_per_node=4):
+    resource_manager = ResourceManager.__new__(ResourceManager)
+    resource_manager.num_nodes = num_nodes
+    resource_manager.gpu_per_node = num_gpus_per_node
+    resource_manager.node2pg = {
+        node_rank: f"pg-{node_rank}"
+        for node_rank in range(num_nodes)
+    }
+    return resource_manager
+
+
+def _mock_runtime_context(monkeypatch):
+    monkeypatch.setattr(
+        ray,
+        "get_runtime_context",
+        lambda: SimpleNamespace(gcs_address="127.0.0.1:6379"),
+    )
+
+
+def _placement(node_rank, gpu_rank, placement_group):
+    return {
+        "node_rank": node_rank,
+        "gpu_rank": gpu_rank,
+        "placement_group": placement_group,
+        "ray_address": "127.0.0.1:6379",
+    }
+
+
+def test_allocate_placement_group_single_device_per_worker(monkeypatch):
+    _mock_runtime_context(monkeypatch)
+    resource_manager = _make_resource_manager()
+
+    allocated = resource_manager.allocate_placement_group(
+        world_size=8,
+        device_mapping=list(range(8)),
+    )
+
+    assert len(allocated) == 8
+    assert allocated[0] == [_placement(node_rank=0, gpu_rank=0, placement_group="pg-0")]
+    assert allocated[3] == [_placement(node_rank=0, gpu_rank=3, placement_group="pg-0")]
+    assert allocated[4] == [_placement(node_rank=1, gpu_rank=0, placement_group="pg-1")]
+    assert allocated[7] == [_placement(node_rank=1, gpu_rank=3, placement_group="pg-1")]
+
+
+def test_allocate_placement_group_multi_device_per_worker(monkeypatch):
+    _mock_runtime_context(monkeypatch)
+    resource_manager = _make_resource_manager()
+
+    allocated = resource_manager.allocate_placement_group(
+        world_size=4,
+        device_mapping=list(range(8)),
+    )
+
+    assert len(allocated) == 4
+    assert allocated[0] == [
+        _placement(node_rank=0, gpu_rank=0, placement_group="pg-0"),
+        _placement(node_rank=0, gpu_rank=1, placement_group="pg-0"),
+    ]
+    assert allocated[2] == [
+        _placement(node_rank=1, gpu_rank=0, placement_group="pg-1"),
+        _placement(node_rank=1, gpu_rank=1, placement_group="pg-1"),
+    ]
+
+
+def test_allocate_placement_group_without_device_mapping_spreads_workers(monkeypatch):
+    _mock_runtime_context(monkeypatch)
+    resource_manager = _make_resource_manager(num_nodes=2)
+
+    allocated = resource_manager.allocate_placement_group(world_size=3)
+
+    assert allocated == [
+        [_placement(node_rank=0, gpu_rank=None, placement_group="pg-0")],
+        [_placement(node_rank=1, gpu_rank=None, placement_group="pg-1")],
+        [_placement(node_rank=0, gpu_rank=None, placement_group="pg-0")],
+    ]
diff --git a/tests/distributed/scheduler/test_rollout_scheduler.py b/tests/distributed/scheduler/test_rollout_scheduler.py
index 4f3e39084..11c80b19a 100644
--- a/tests/distributed/scheduler/test_rollout_scheduler.py
+++ b/tests/distributed/scheduler/test_rollout_scheduler.py
@@ -1,7 +1,7 @@
 import asyncio
 import random
 from concurrent.futures import ThreadPoolExecutor
-from dataclasses import dataclass
+from dataclasses import dataclass, field
 import ray
 from ray.util.scheduling_strategies import NodeAffinitySchedulingStrategy
 
@@ -12,11 +12,12 @@
 from roll.distributed.executor.worker import Worker
 from roll.distributed.scheduler.protocol import DataProto
 from roll.pipeline.agentic.agentic_pipeline import GroupFilter
+from roll.pipeline.agentic.agentic_config import EnvMonitorConfig
 
 
 FULL_DATASET_ITER=4
 
-class TestGroupFilter(GroupFilter):
+class MockGroupFilter(GroupFilter):
     def filter(self, group_id: int, episode_id: int, group: list[DataProto]):
         return episode_id % 3 == 0
 
@@ -24,6 +25,7 @@ def filter(self, group_id: int, episode_id: int, group: list[DataProto]):
 class MockAgenticConfig:
     async_generation_ratio: int
     rollout_batch_size: int
+    env_monitor: EnvMonitorConfig = field(default_factory=lambda: EnvMonitorConfig(enable=False))
 
 class MockEnvManagerConfig:
     def __init__(
@@ -42,7 +44,7 @@ def __init__(
         self.group_size_redundancy = group_size_redundancy if enable_redundancy else 0
         self.final_group_size = group_size + self.group_size_redundancy
         if enable_filter:
-            self.group_filter_cls = "tests.distributed.scheduler.test_rollout_scheduler.TestGroupFilter"
+            self.group_filter_cls = "tests.distributed.scheduler.test_rollout_scheduler.MockGroupFilter"
         else:
             self.group_filter_cls = "roll.pipeline.agentic.agentic_pipeline.GroupFilter"
 
@@ -76,8 +78,8 @@ def run_rollout_loop(self, full_dataset):
             else:
                 start_step = self.current_step
             assert start_step is not None
-            DataProto(meta_info={"global_step": start_step})
-            ray.get(self.output_queue.put.remote(self.group_id, episode_id, start_step, (start_step, episode_id)))
+            rollout = DataProto(meta_info={"rollout": (start_step, episode_id)})
+            ray.get(self.output_queue.put.remote(self.group_id, episode_id, start_step, rollout))
         ray.get(self.output_queue.put.remote(self.group_id, episode_id, start_step, None))
 
 class MockEnvManager(Worker):
@@ -157,6 +159,17 @@ def __init__(self, config, env_manager_config, mode):
 
         self.rollout_task = None
 
+    async def suspend(self):
+        await self.generate_scheduler.suspend.remote()
+
+    async def shutdown(self):
+        if self.rollout_task is None:
+            return
+        await asyncio.gather(*self.es_manager.stop(blocking=False))
+        await self.env_output_queue.shutdown.remote()
+        await self.rollout_task
+        self.rollout_task = None
+
     # FIXME use RolloutScheduler.get_batch
     async def get_batch(self, data: DataProto, batch_size):
         global_step = data.meta_info["global_step"]
@@ -204,51 +217,54 @@ async def async_test_GroupQueueManager(rollout_batch_size, async_generation_rati
         await scheduler.suspend.remote()
         batch = await scheduler.get_batch.remote(data=data, batch_size=rollout_batch_size)
 
-        print(f"batch on step({current_step}): {[rollout[0] for rollout in batch]}")
+        rollout_steps = [rollout.meta_info["rollout"][0] for rollout in batch]
+        print(f"batch on step({current_step}): {rollout_steps}")
         expected = FULL_DATASET_ITER * env_manager_config.env_groups * env_manager_config.group_size if rollout_batch_size <= 0 else rollout_batch_size
         assert len(batch) == expected, f"{len(batch)=} expected={expected}"
-        assert all(rollout[0] == batch[0][0] for rollout in batch), "Not all start_step are equal"
+        assert all(step == rollout_steps[0] for step in rollout_steps), "Not all start_step are equal"
         assert (
-            all(max(0, current_step - async_generation_ratio) == rollout[0] for rollout in batch)
-        ), f"current_step({current_step}) - rollout_step({batch[0][0]}) exceed async_generation_ratio"
+            all(max(0, current_step - async_generation_ratio) == step for step in rollout_steps)
+        ), f"current_step({current_step}) - rollout_step({rollout_steps[0]}) exceed async_generation_ratio"
 
         await asyncio.sleep(1)
     await scheduler.shutdown.remote()
 
-def test_GroupQueueManager():
-    loop = asyncio.get_event_loop()
-
+async def _run_GroupQueueManager():
     # default_setting:
     #   env_num=16
 
     # batch_size = -1
-    loop.run_until_complete(async_test_GroupQueueManager(-1, 0, enable_filter=False, enable_redundancy=False))
+    await async_test_GroupQueueManager(-1, 0, enable_filter=False, enable_redundancy=False)
 
     # sync training
-    loop.run_until_complete(async_test_GroupQueueManager(16, 0))
-    loop.run_until_complete(async_test_GroupQueueManager(8, 0))
-    loop.run_until_complete(async_test_GroupQueueManager(24, 0))
-    loop.run_until_complete(async_test_GroupQueueManager(32, 0))
-    loop.run_until_complete(async_test_GroupQueueManager(64, 0))
+    await async_test_GroupQueueManager(16, 0)
+    await async_test_GroupQueueManager(8, 0)
+    await async_test_GroupQueueManager(24, 0)
+    await async_test_GroupQueueManager(32, 0)
+    await async_test_GroupQueueManager(64, 0)
 
     # async training: 2
-    loop.run_until_complete(async_test_GroupQueueManager(16, 2))
-    loop.run_until_complete(async_test_GroupQueueManager(8, 2))
+    await async_test_GroupQueueManager(16, 2)
+    await async_test_GroupQueueManager(8, 2)
     # do not test batch_size 12, because 12 % group_size != 0
-    loop.run_until_complete(async_test_GroupQueueManager(24, 2))
-    loop.run_until_complete(async_test_GroupQueueManager(32, 2))
-    loop.run_until_complete(async_test_GroupQueueManager(64, 2))
+    await async_test_GroupQueueManager(24, 2)
+    await async_test_GroupQueueManager(32, 2)
+    await async_test_GroupQueueManager(64, 2)
 
     # async training: 7
-    loop.run_until_complete(async_test_GroupQueueManager(16, 7))
-    loop.run_until_complete(async_test_GroupQueueManager(8, 7))
+    await async_test_GroupQueueManager(16, 7)
+    await async_test_GroupQueueManager(8, 7)
 
     # async training: 1
-    loop.run_until_complete(async_test_GroupQueueManager(16, 1))
-    loop.run_until_complete(async_test_GroupQueueManager(8, 1))
-    loop.run_until_complete(async_test_GroupQueueManager(24, 1))
-    loop.run_until_complete(async_test_GroupQueueManager(32, 1))
-    loop.run_until_complete(async_test_GroupQueueManager(64, 1))
+    await async_test_GroupQueueManager(16, 1)
+    await async_test_GroupQueueManager(8, 1)
+    await async_test_GroupQueueManager(24, 1)
+    await async_test_GroupQueueManager(32, 1)
+    await async_test_GroupQueueManager(64, 1)
+
+
+def test_GroupQueueManager():
+    asyncio.run(_run_GroupQueueManager())
 
 if __name__ == "__main__":
     test_GroupQueueManager()
diff --git a/tests/distributed/strategy/checkpoint/fsdp_config.yaml b/tests/distributed/strategy/checkpoint/fsdp_config.yaml
new file mode 100644
index 000000000..9d1f9fbf6
--- /dev/null
+++ b/tests/distributed/strategy/checkpoint/fsdp_config.yaml
@@ -0,0 +1,55 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "fsdp2_train_checkpoint_debug"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+checkpoint_config:
+  type: file_system
+  output_dir: ./test/checkpoint_fsdp_saving2
+
+track_with: stdout
+
+save_steps: 1
+rollout_batch_size: 512
+prompt_length: 128
+response_length: 512
+resume_from_checkpoint: ./test/checkpoint_fsdp/20251120-154318/checkpoint-1
+pretrain: Qwen/Qwen3-0.6B
+
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+  training_args:
+    learning_rate: 5.0e-7
+    weight_decay: 0
+    per_device_train_batch_size: 4
+    gradient_accumulation_steps: 8
+    warmup_steps: 5
+    num_train_epochs: 1
+  data_args:
+    template: qwen2_5
+    file_name: data/comparison_gpt4_data_zh.json
+    dataset_dir: data
+    prompt: instruction
+    interleave_probs: "1.0"
+    max_samples: 4096
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      param_dtype: bf16
+      reduce_dtype: float32
+      fsdp_size: 8
+      reshard_after_forward: true
+      offload_policy: true
+  device_mapping: list(range(0,8))
+
+actor_infer:
+  generating_args:
+    num_return_sequences: 1
\ No newline at end of file
diff --git a/tests/distributed/strategy/checkpoint/fsdp_lora_config.yaml b/tests/distributed/strategy/checkpoint/fsdp_lora_config.yaml
new file mode 100644
index 000000000..679efa953
--- /dev/null
+++ b/tests/distributed/strategy/checkpoint/fsdp_lora_config.yaml
@@ -0,0 +1,59 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "fsdp2_train_checkpoint_debug"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+checkpoint_config:
+  type: file_system
+  output_dir: ./test_lora/checkpoint_fsdp_saving1
+
+track_with: stdout
+
+save_steps: 1
+rollout_batch_size: 512
+prompt_length: 128
+response_length: 512
+lora_target: o_proj,q_proj,k_proj,v_proj
+pretrain: Qwen/Qwen3-0.6B
+
+actor_train:
+  model_args:
+    disable_gradient_checkpointing: false
+    dtype: bf16
+    model_type: ~
+    lora_target: ${lora_target}
+    lora_r: 16
+    lora_alpha: 32
+    lora_dropout: 0.05
+  training_args:
+    learning_rate: 5.0e-7
+    weight_decay: 0
+    per_device_train_batch_size: 4
+    gradient_accumulation_steps: 8
+    warmup_steps: 5
+    num_train_epochs: 1
+  data_args:
+    template: qwen2_5
+    file_name: data/comparison_gpt4_data_zh.json
+    dataset_dir: data
+    prompt: instruction
+    interleave_probs: "1.0"
+    max_samples: 4096
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      param_dtype: bf16
+      reduce_dtype: float32
+      fsdp_size: 8
+      reshard_after_forward: true
+      offload_policy: true
+  device_mapping: list(range(0,8))
+
+actor_infer:
+  generating_args:
+    num_return_sequences: 1
\ No newline at end of file
diff --git a/tests/distributed/strategy/checkpoint/megatron_config.yaml b/tests/distributed/strategy/checkpoint/megatron_config.yaml
index f07304818..1938eab16 100644
--- a/tests/distributed/strategy/checkpoint/megatron_config.yaml
+++ b/tests/distributed/strategy/checkpoint/megatron_config.yaml
@@ -10,7 +10,8 @@ output_dir: ./output
 
 checkpoint_config:
   type: file_system
-  output_dir: /data/cpfs_0/xiongshaopan.xsp/models/${exp_name}
+  async_upload: false
+  output_dir: /data/ckpt_path/models/${exp_name}
 
 track_with: stdout
 
@@ -18,11 +19,8 @@ save_steps: 1
 rollout_batch_size: 512
 prompt_length: 128
 response_length: 512
-#resume_from_checkpoint: /data/cpfs_0/xiongshaopan.xsp/models/megatron_0.5B_ckpt/checkpoint-0
-#resume_from_checkpoint: /data/cpfs_0/xiongshaopan.xsp/models/megatron_0.5B_async_ckpt/checkpoint-1
-#resume_from_checkpoint: /data/cpfs_0/xiongshaopan.xsp/models/megatron_train_checkpoint_debug/20250305-172118/checkpoint-1
-resume_from_checkpoint: /data/cpfs_0/xiongshaopan.xsp/models/megatron_train_checkpoint_debug/20250305-212054/checkpoint-1
-pretrain: /data/cpfs_0/common/models/Qwen2.5-0.5B-Instruct
+resume_from_checkpoint: false
+pretrain: Qwen/Qwen2.5-7B-Instruct
 
 actor_train:
   model_args:
@@ -36,6 +34,8 @@ actor_train:
     gradient_accumulation_steps: 8
     warmup_steps: 5
     num_train_epochs: 1
+    save_hf_model: true
+
   data_args:
     template: qwen2_5
     file_name: data/comparison_gpt4_data_zh.json
diff --git a/tests/distributed/strategy/checkpoint/test_deepspeed_stategy_lora_ckpt.py b/tests/distributed/strategy/checkpoint/test_deepspeed_stategy_lora_ckpt.py
index 6608dacb6..8733e1f39 100644
--- a/tests/distributed/strategy/checkpoint/test_deepspeed_stategy_lora_ckpt.py
+++ b/tests/distributed/strategy/checkpoint/test_deepspeed_stategy_lora_ckpt.py
@@ -15,7 +15,7 @@
 logger = get_logger()
 
 
-class TestModelCheckpointPipeline(BasePipeline):
+class ModelCheckpointPipeline(BasePipeline):
 
     def __init__(self, pipeline_config: RLVRConfig):
         super().__init__(pipeline_config)
@@ -48,5 +48,5 @@ def run(self):
 
     ppo_config = make_baseline_config(config_path="./checkpoint", config_name="deepspeed_config")
 
-    pipeline = TestModelCheckpointPipeline(ppo_config)
+    pipeline = ModelCheckpointPipeline(ppo_config)
     metric_list = pipeline.run()
diff --git a/tests/distributed/strategy/checkpoint/test_fsdp_strategy.py b/tests/distributed/strategy/checkpoint/test_fsdp_strategy.py
new file mode 100644
index 000000000..da1536cdd
--- /dev/null
+++ b/tests/distributed/strategy/checkpoint/test_fsdp_strategy.py
@@ -0,0 +1,54 @@
+from typing import Any
+
+import torch
+
+from roll.distributed.executor.cluster import Cluster
+from roll.distributed.scheduler.initialize import init
+from roll.models.model_providers import default_tokenizer_provider
+from roll.pipeline.base_pipeline import BasePipeline
+from roll.pipeline.base_worker import ActorWorker
+from roll.pipeline.rlvr.rlvr_config import RLVRConfig
+from roll.utils.logging import get_logger
+from tests.distributed.strategy.make_baseline_config import make_baseline_config
+
+logger = get_logger()
+
+
+class ModelCheckpointPipeline(BasePipeline):
+
+    def __init__(self, pipeline_config: RLVRConfig):
+        super().__init__(pipeline_config)
+
+        self.tokenizer = default_tokenizer_provider(
+            model_args=self.pipeline_config.actor_train.model_args,
+        )
+        max_steps = 10240 * self.pipeline_config.actor_train.training_args.num_train_epochs
+        self.pipeline_config.set_max_steps(max_steps=max_steps)
+
+        self.actor_train: Any = Cluster(
+            name=self.pipeline_config.actor_train.name,
+            worker_cls=ActorWorker,
+            resource_manager=self.resource_manager,
+            worker_config=self.pipeline_config.actor_train,
+        )
+        self.actor_train.initialize(pipeline_config=self.pipeline_config, blocking=True)
+        self.set_checkpoint_clusters(self.actor_train)
+
+    @torch.no_grad()
+    def run(self):
+        # self.actor_train.strategy.save_checkpoint(self.pipeline_config.output_dir, global_step)
+        self.state.log_history.append({"global_step": 1})
+        self.do_checkpoint(global_step=1)
+        self.do_checkpoint(global_step=2, is_last_step=True)
+
+
+if __name__ == "__main__":
+    init()
+
+    ppo_config = make_baseline_config(config_path="./checkpoint", config_name="fsdp_config")
+    # ppo_config = make_baseline_config(
+    #     config_path="./checkpoint", config_name="fsdp_lora_config"
+    # )
+
+    pipeline = ModelCheckpointPipeline(ppo_config)
+    metric_list = pipeline.run()
diff --git a/tests/distributed/strategy/checkpoint/test_megatron_stategy_ckpt.py b/tests/distributed/strategy/checkpoint/test_megatron_stategy_ckpt.py
index fba2d5b8d..5f112aea9 100644
--- a/tests/distributed/strategy/checkpoint/test_megatron_stategy_ckpt.py
+++ b/tests/distributed/strategy/checkpoint/test_megatron_stategy_ckpt.py
@@ -14,15 +14,11 @@
 logger = get_logger()
 
 
-class TestModelCheckpointPipeline(BasePipeline):
+class ModelCheckpointPipeline(BasePipeline):
 
     def __init__(self, pipeline_config: RLVRConfig):
         super().__init__(pipeline_config)
 
-        self.tokenizer = default_tokenizer_provider(
-            model_args=self.pipeline_config.actor_train.model_args,
-            template_name=self.pipeline_config.actor_train.data_args.template,
-        )
         max_steps = 10240 * self.pipeline_config.actor_train.training_args.num_train_epochs
         self.pipeline_config.set_max_steps(max_steps=max_steps)
 
@@ -38,7 +34,9 @@ def __init__(self, pipeline_config: RLVRConfig):
     @torch.no_grad()
     def run(self):
         # self.actor_train.strategy.save_checkpoint(self.pipeline_config.output_dir, global_step)
+        self.state.log_history.append({})
         self.do_checkpoint(global_step=1)
+        self.state.log_history.append({})
         self.do_checkpoint(global_step=2)
 
 
@@ -47,5 +45,5 @@ def run(self):
 
     ppo_config = make_baseline_config(config_path="./checkpoint", config_name="megatron_config")
 
-    pipeline = TestModelCheckpointPipeline(ppo_config)
+    pipeline = ModelCheckpointPipeline(ppo_config)
     metric_list = pipeline.run()
diff --git a/tests/distributed/strategy/context_parallel/test_fsdp2_cp_grad_equivalence.py b/tests/distributed/strategy/context_parallel/test_fsdp2_cp_grad_equivalence.py
new file mode 100644
index 000000000..f5eae7711
--- /dev/null
+++ b/tests/distributed/strategy/context_parallel/test_fsdp2_cp_grad_equivalence.py
@@ -0,0 +1,169 @@
+import os
+import socket
+import tempfile
+from typing import Dict
+
+import pytest
+import torch
+import torch.distributed as dist
+import torch.multiprocessing as mp
+
+from roll.utils.context_parallel import get_ulysses_group, set_upg_manager
+from roll.utils.context_parallel.autograd_gather import ulysses_gather
+from roll.utils.functionals import agg_loss, log_probs_from_logits
+
+
+def _find_free_port() -> int:
+    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
+        sock.bind(("", 0))
+        return sock.getsockname()[1]
+
+
+def _broadcast_state_dict(module: torch.nn.Module, src: int = 0):
+    # Ensure identical initialization across ranks.
+    for _, p in module.state_dict().items():
+        if torch.is_tensor(p):
+            dist.broadcast(p, src=src)
+
+
+def _ddp_average_grads(module: torch.nn.Module):
+    for p in module.parameters():
+        if p.grad is None:
+            continue
+        dist.all_reduce(p.grad, op=dist.ReduceOp.SUM)
+        p.grad.div_(dist.get_world_size())
+
+
+def _run_and_save_grads(
+    rank: int,
+    world_size: int,
+    cp_size: int,
+    loss_agg_mode: str,
+    master_port: int,
+    out_path: str,
+):
+    os.environ["MASTER_ADDR"] = "127.0.0.1"
+    os.environ["MASTER_PORT"] = str(master_port)
+
+    torch.cuda.set_device(rank)
+    dist.init_process_group(backend="nccl", rank=rank, world_size=world_size)
+
+    set_upg_manager(ulysses_size=cp_size, rank=rank, world_size=world_size)
+    group = get_ulysses_group()
+
+    torch.manual_seed(1234)
+    torch.cuda.manual_seed_all(1234)
+
+    vocab = 97
+    hidden = 32
+    model = torch.nn.Sequential(
+        torch.nn.Embedding(vocab, hidden),
+        torch.nn.Linear(hidden, vocab, bias=False),
+    ).cuda()
+    _broadcast_state_dict(model, src=0)
+
+    bs, seqlen = 2, 8
+    assert seqlen % max(cp_size, 1) == 0
+
+    if rank == 0:
+        input_ids = torch.randint(0, vocab, (bs, seqlen), device="cuda", dtype=torch.long)
+        attention_mask = torch.ones((bs, seqlen), device="cuda", dtype=torch.long)
+    else:
+        input_ids = torch.empty((bs, seqlen), device="cuda", dtype=torch.long)
+        attention_mask = torch.empty((bs, seqlen), device="cuda", dtype=torch.long)
+    dist.broadcast(input_ids, src=0)
+    dist.broadcast(attention_mask, src=0)
+
+    if cp_size > 1:
+        cp_rank = rank % cp_size
+        shard = seqlen // cp_size
+        start = cp_rank * shard
+        end = (cp_rank + 1) * shard
+
+        input_ids_local = input_ids[:, start:end]
+        logits_local = model(input_ids_local)
+
+        labels = input_ids[:, 1:].clone()
+        labels[attention_mask[:, 1:] == 0] = 0
+        labels = torch.cat([labels, torch.zeros_like(labels[:, :1])], dim=1)
+        labels_local = labels[:, start:end]
+
+        log_probs_local = log_probs_from_logits(logits_local, labels_local)
+        log_probs = ulysses_gather(
+            log_probs_local,
+            gather_dim=1,
+            group=group,
+            grad_scaler=True,
+        )
+        log_probs = log_probs[:, :-1] * attention_mask[:, 1:]
+    else:
+        logits = model(input_ids)
+        labels = input_ids[:, 1:].clone()
+        labels[attention_mask[:, 1:] == 0] = 0
+        labels = torch.cat([labels, torch.zeros_like(labels[:, :1])], dim=1)
+        log_probs = log_probs_from_logits(logits, labels)
+        log_probs = log_probs[:, :-1] * attention_mask[:, 1:]
+
+    # PPO-style uses negative log-prob as a loss term.
+    response_mask = attention_mask[:, 1:].long()
+    loss = agg_loss(loss_mat=-log_probs, loss_mask=response_mask, loss_agg_mode=loss_agg_mode)
+    loss.backward()
+
+    # Simulate DP/FSDP gradient averaging across ranks.
+    _ddp_average_grads(model)
+
+    if rank == 0:
+        grads: Dict[str, torch.Tensor] = {}
+        for name, p in model.named_parameters():
+            grads[name] = p.grad.detach().cpu()
+        torch.save({"loss": float(loss.detach().cpu()), "grads": grads}, out_path)
+
+    dist.barrier()
+    dist.destroy_process_group()
+
+
+@pytest.mark.skipif(not dist.is_available(), reason="torch.distributed is not available")
+@pytest.mark.skipif(not torch.cuda.is_available(), reason="Requires CUDA")
+@pytest.mark.skipif(torch.cuda.device_count() < 2, reason="Requires >= 2 CUDA devices")
+@pytest.mark.parametrize("loss_agg_mode", ["token-mean", "seq-mean-token-sum"])
+def test_fsdp2_cp_grad_equivalence_vs_cp1(loss_agg_mode: str):
+    """
+    Gradient equivalence test for CP gather semantics.
+
+    We run twice on the same 2-GPU world:
+    - baseline: cp_size=1
+    - CP:       cp_size=2
+    Both runs do a DDP-style gradient averaging across the 2 ranks.
+
+    With autograd-friendly CP gather (slice-only backward + grad scaling),
+    the averaged gradients should match the cp_size=1 baseline.
+    """
+    world_size = 2
+
+    with tempfile.TemporaryDirectory() as td:
+        out_cp1 = os.path.join(td, f"grads_cp1_{loss_agg_mode}.pt")
+        out_cp2 = os.path.join(td, f"grads_cp2_{loss_agg_mode}.pt")
+
+        port1 = _find_free_port()
+        port2 = _find_free_port()
+
+        mp.spawn(
+            _run_and_save_grads,
+            args=(world_size, 1, loss_agg_mode, port1, out_cp1),
+            nprocs=world_size,
+            join=True,
+        )
+        mp.spawn(
+            _run_and_save_grads,
+            args=(world_size, 2, loss_agg_mode, port2, out_cp2),
+            nprocs=world_size,
+            join=True,
+        )
+
+        ref = torch.load(out_cp1, map_location="cpu")
+        cp = torch.load(out_cp2, map_location="cpu")
+
+        assert abs(ref["loss"] - cp["loss"]) < 1e-6
+
+        for k in ref["grads"].keys():
+            torch.testing.assert_close(cp["grads"][k], ref["grads"][k], rtol=0, atol=1e-6)
diff --git a/tests/distributed/strategy/context_parallel/test_fsdp2_cp_qwen3_hf_equivalence.py b/tests/distributed/strategy/context_parallel/test_fsdp2_cp_qwen3_hf_equivalence.py
new file mode 100644
index 000000000..e8514c894
--- /dev/null
+++ b/tests/distributed/strategy/context_parallel/test_fsdp2_cp_qwen3_hf_equivalence.py
@@ -0,0 +1,163 @@
+import os
+import socket
+
+import pytest
+import torch
+import torch.distributed as dist
+import torch.multiprocessing as mp
+
+from roll.utils.context_parallel.globals import set_upg_manager
+from roll.utils.context_parallel.monkey_patch import apply_ulysses_patch, unapply_ulysses_patch
+
+
+def _find_free_port() -> int:
+    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
+        sock.bind(("", 0))
+        return sock.getsockname()[1]
+
+
+def _pad_to(x: torch.Tensor, target: int, *, dim: int = 1) -> torch.Tensor:
+    if x.size(dim) >= target:
+        return x
+    pad_len = target - x.size(dim)
+    pad = [0, 0] * x.ndim
+    pad[2 * (x.ndim - 1 - dim) + 1] = pad_len
+    return torch.nn.functional.pad(x, pad, value=0)
+
+
+def _gather_seq_shards(x_local: torch.Tensor, lens: list[int], group) -> torch.Tensor:
+    max_len = max(lens)
+    x_pad = _pad_to(x_local, max_len, dim=1)
+    gathered = [torch.empty_like(x_pad) for _ in range(len(lens))]
+    dist.all_gather(gathered, x_pad, group=group)
+    parts = [g[:, :l] for g, l in zip(gathered, lens)]
+    return torch.cat(parts, dim=1)
+
+
+def _worker_qwen3_hf_equivalence(rank: int, world_size: int, port: int, model_id: str) -> None:
+    transformers = pytest.importorskip("transformers")
+    pytest.importorskip("flash_attn")
+
+    if not torch.cuda.is_available():
+        pytest.skip("Qwen3 HF + FlashAttention2 CP equivalence test requires CUDA")
+    if torch.cuda.device_count() < world_size:
+        pytest.skip(f"Need >= {world_size} CUDA devices, got {torch.cuda.device_count()}")
+
+    os.environ["MASTER_ADDR"] = "127.0.0.1"
+    os.environ["MASTER_PORT"] = str(port)
+    os.environ["RANK"] = str(rank)
+    os.environ["WORLD_SIZE"] = str(world_size)
+
+    dist.init_process_group(backend="nccl", rank=rank, world_size=world_size)
+    try:
+        torch.cuda.set_device(rank)
+        device = torch.device("cuda", rank)
+
+        from transformers import AutoModelForCausalLM, AutoTokenizer
+
+        try:
+            tokenizer = AutoTokenizer.from_pretrained(model_id, local_files_only=True, trust_remote_code=True)
+        except Exception as e:
+            pytest.skip(f"Tokenizer for {model_id} not available locally: {e}")
+
+        if tokenizer.pad_token is None:
+            tokenizer.pad_token = tokenizer.eos_token
+
+        try:
+            model = AutoModelForCausalLM.from_pretrained(
+                model_id,
+                local_files_only=True,
+                trust_remote_code=True,
+                torch_dtype=torch.bfloat16,
+                attn_implementation="flash_attention_2",
+            )
+        except Exception as e:
+            pytest.skip(f"Model for {model_id} not available locally (or FA2 unsupported): {e}")
+
+        model.to(device)
+        model.eval()
+
+        patch_info = apply_ulysses_patch()
+        if patch_info is None or (isinstance(patch_info, dict) and not patch_info.get("patched", True)):
+            pytest.skip("Ulysses patch was not applied (no FlashAttention2 hook patched)")
+
+        max_len = 64
+        assert max_len % world_size == 0
+
+        # One long "real-ish" prompt (tokenized by the real tokenizer).
+        text = (
+            "Explain Ulysses context parallelism in Transformers with FlashAttention2. "
+            "Include a short example and mention sequence sharding, all-to-all, and why it preserves global attention. "
+        )
+        for _ in range(8):
+            enc = tokenizer(
+                text,
+                return_tensors="pt",
+                padding=False,
+                truncation=True,
+                max_length=max_len,
+                add_special_tokens=True,
+            )
+            if enc["input_ids"].size(1) >= max_len:
+                break
+            text = text + " Add more technical detail about rotary embeddings and KV heads."
+
+        input_ids = enc["input_ids"][:, :max_len].to(device)
+        # Important for equivalence: RoPE/position embedding is applied before the FA2 hook.
+        position_ids = torch.arange(max_len, device=device, dtype=torch.long).unsqueeze(0)
+
+        with torch.no_grad():
+            # Baseline: CP disabled (ulysses_size=1 means the patch is a no-op).
+            set_upg_manager(ulysses_size=1, rank=rank, world_size=world_size)
+            baseline = model(
+                input_ids=input_ids,
+                position_ids=position_ids,
+                use_cache=False,
+            ).logits
+
+            # CP: enable Ulysses group and run on local sequence shard, then gather to full logits.
+            set_upg_manager(ulysses_size=world_size, rank=rank, world_size=world_size)
+
+            local_len = max_len // world_size
+            start = rank * local_len
+            end = start + local_len
+
+            input_ids_local = input_ids[:, start:end]
+            position_ids_local = position_ids[:, start:end]
+
+            logits_local = model(
+                input_ids=input_ids_local,
+                position_ids=position_ids_local,
+                use_cache=False,
+            ).logits
+
+        group = dist.group.WORLD
+        lens = [local_len for _ in range(world_size)]
+        logits_cp_full = _gather_seq_shards(logits_local.float(), lens, group)
+        baseline_full = baseline.float()
+
+        if rank == 0:
+            torch.testing.assert_close(logits_cp_full, baseline_full, rtol=2e-2, atol=2e-2)
+    finally:
+        try:
+            unapply_ulysses_patch()
+        except Exception:
+            pass
+        dist.destroy_process_group()
+
+
+@pytest.mark.skipif(not dist.is_available(), reason="torch.distributed is not available")
+@pytest.mark.skipif(not torch.cuda.is_available(), reason="Requires CUDA + FlashAttention2")
+@pytest.mark.skipif(torch.cuda.device_count() < 2, reason="Requires >= 2 CUDA devices for CP all-to-all")
+def test_fsdp2_cp_qwen3_hf_logits_equivalence():
+    world_size = 2
+    port = _find_free_port()
+    model_id = os.environ.get(
+        "ROLL_TEST_QWEN3_MODEL_ID", "/home/dilixiati.dlxtmhte/.cache/openlm/hub/14ffd5928d24731fd670f04c645a5928"
+    )
+    mp.spawn(
+        _worker_qwen3_hf_equivalence,
+        args=(world_size, port, model_id),
+        nprocs=world_size,
+        join=True,
+    )
diff --git a/tests/distributed/strategy/context_parallel/test_fsdp2_cp_qwen3_hf_rmpad_equivalence.py b/tests/distributed/strategy/context_parallel/test_fsdp2_cp_qwen3_hf_rmpad_equivalence.py
new file mode 100644
index 000000000..7b3f294fc
--- /dev/null
+++ b/tests/distributed/strategy/context_parallel/test_fsdp2_cp_qwen3_hf_rmpad_equivalence.py
@@ -0,0 +1,504 @@
+import json
+import os
+import socket
+import time
+
+import pytest
+import torch
+import torch.distributed as dist
+import torch.multiprocessing as mp
+
+from roll.utils.context_parallel.globals import get_ulysses_group, set_upg_manager
+from roll.utils.context_parallel.monkey_patch import apply_ulysses_patch, unapply_ulysses_patch
+from roll.utils.context_parallel.rmpad_ulysses import gather_outputs_and_unpad, ulysses_pad_and_slice_inputs
+
+_DEBUG_LOG_PATH = os.environ.get("ROLL_DEBUG_LOG_PATH", "output/debug.log")
+
+
+def _dbg(hypothesis_id: str, location: str, message: str, data: dict) -> None:
+    try:
+        with open(_DEBUG_LOG_PATH, "a", encoding="utf-8") as f:
+            f.write(
+                json.dumps(
+                    {
+                        "sessionId": "debug-session",
+                        "runId": "pre-fix",
+                        "hypothesisId": hypothesis_id,
+                        "location": location,
+                        "message": message,
+                        "data": data,
+                        "timestamp": int(time.time() * 1000),
+                    },
+                    ensure_ascii=False,
+                )
+                + "\n"
+            )
+    except Exception:
+        pass
+
+
+def _find_free_port() -> int:
+    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
+        sock.bind(("", 0))
+        return sock.getsockname()[1]
+
+
+def _worker_qwen3_hf_rmpad_equivalence(rank: int, world_size: int, port: int, model_id: str) -> None:
+    pytest.importorskip("transformers")
+    pytest.importorskip("flash_attn")
+
+    if not torch.cuda.is_available():
+        pytest.skip("Qwen3 HF + FlashAttention2 CP rmpad equivalence test requires CUDA")
+    if torch.cuda.device_count() < world_size:
+        pytest.skip(f"Need >= {world_size} CUDA devices, got {torch.cuda.device_count()}")
+
+    os.environ["MASTER_ADDR"] = "127.0.0.1"
+    os.environ["MASTER_PORT"] = str(port)
+    os.environ["RANK"] = str(rank)
+    os.environ["WORLD_SIZE"] = str(world_size)
+
+    dist.init_process_group(backend="nccl", rank=rank, world_size=world_size)
+    try:
+        torch.cuda.set_device(rank)
+        device = torch.device("cuda", rank)
+
+        from transformers import AutoModelForCausalLM, AutoTokenizer
+        from transformers import __version__ as transformers_version
+
+        from flash_attn import __version__ as flash_attn_version
+
+        try:
+            tokenizer = AutoTokenizer.from_pretrained(model_id, local_files_only=True, trust_remote_code=True)
+        except Exception as e:
+            pytest.skip(f"Tokenizer for {model_id} not available locally: {e}")
+
+        if tokenizer.pad_token is None:
+            tokenizer.pad_token = tokenizer.eos_token
+
+        try:
+            model = AutoModelForCausalLM.from_pretrained(
+                model_id,
+                local_files_only=True,
+                trust_remote_code=True,
+                torch_dtype=torch.bfloat16,
+                attn_implementation="flash_attention_2",
+            )
+        except Exception as e:
+            pytest.skip(f"Model for {model_id} not available locally (or FA2 unsupported): {e}")
+
+        model.to(device)
+        model.eval()
+
+        patch_info = apply_ulysses_patch()
+        if patch_info is None or (isinstance(patch_info, dict) and not patch_info.get("patched", True)):
+            pytest.skip("Ulysses patch was not applied (no FlashAttention2 hook patched)")
+
+        max_len = 64
+        assert max_len % world_size == 0
+
+        tokenizer.padding_side = "right"
+        texts = [
+            "Explain FlashAttention2 remove-padding (varlen) and how it interacts with rotary embeddings and position ids.",
+            "Relate remove-padding to Ulysses context parallelism and all-to-all. Give a small example.",
+        ]
+        enc = tokenizer(
+            texts,
+            return_tensors="pt",
+            padding="max_length",
+            truncation=True,
+            max_length=max_len,
+        )
+        input_ids = enc["input_ids"].to(device)
+        attention_mask = enc["attention_mask"].to(device)
+        position_ids = (attention_mask.long().cumsum(dim=1) - 1).clamp_min(0)
+
+        from flash_attn.bert_padding import index_first_axis, pad_input, rearrange, unpad_input
+
+        if rank == 0 and hasattr(model, "_update_causal_mask"):
+            original_update_mask = model._update_causal_mask
+
+            def _instrumented_update_mask(attention_mask, input_tensor, cache_position, **kwargs):
+                result = original_update_mask(attention_mask, input_tensor, cache_position, **kwargs)
+                prepare_log.append(
+                    {
+                        "input_attn_mask_shape": (
+                            tuple(attention_mask.shape) if torch.is_tensor(attention_mask) else None
+                        ),
+                        "input_attn_mask_is_none": attention_mask is None,
+                        "input_tensor_shape": tuple(input_tensor.shape) if torch.is_tensor(input_tensor) else None,
+                        "output_mask_shape": tuple(result.shape) if torch.is_tensor(result) else None,
+                    }
+                )
+                return result
+
+            model._update_causal_mask = _instrumented_update_mask
+        if rank == 0:
+            enc1 = tokenizer(
+                [texts[0]],
+                return_tensors="pt",
+                padding="max_length",
+                truncation=True,
+                max_length=max_len,
+            )
+            input_ids1 = enc1["input_ids"].to(device)
+            attention_mask1 = enc1["attention_mask"].to(device)
+            position_ids1 = (attention_mask1.long().cumsum(dim=1) - 1).clamp_min(0)
+
+            with torch.no_grad():
+                out_padded_1 = model(
+                    input_ids=input_ids1,
+                    attention_mask=attention_mask1,
+                    position_ids=position_ids1,
+                    use_cache=False,
+                ).logits.float()
+                input_ids_rmpad_1, indices_1, *_ = unpad_input(input_ids1.unsqueeze(-1), attention_mask1)
+                input_ids_rmpad_1 = input_ids_rmpad_1.transpose(0, 1)
+                position_ids_rmpad_1 = index_first_axis(
+                    rearrange(position_ids1.unsqueeze(-1), "b s ... -> (b s) ..."),
+                    indices_1,
+                ).transpose(0, 1)
+                out_rmpad_1 = model(
+                    input_ids=input_ids_rmpad_1,
+                    attention_mask=None,
+                    position_ids=position_ids_rmpad_1,
+                    use_cache=False,
+                ).logits.float()
+                out_rmpad_1 = pad_input(
+                    hidden_states=out_rmpad_1.squeeze(0).unsqueeze(-1),
+                    indices=indices_1,
+                    batch=1,
+                    seqlen=input_ids1.size(1),
+                ).squeeze(-1)
+                m1 = attention_mask1.to(torch.bool)
+                max_abs_1 = float((out_padded_1 - out_rmpad_1).abs()[m1].max().item()) if m1.any() else 0.0
+                _dbg(
+                    "H9",
+                    "tests/.../test_fsdp2_cp_qwen3_hf_rmpad_equivalence.py:bs1_probe",
+                    "padded_vs_rmpad_bs1",
+                    {"masked_max_abs_padded_vs_rmpad_bs1": max_abs_1, "mask_sum": int(attention_mask1.sum().item())},
+                )
+        if rank == 0:
+            _dbg(
+                "H1",
+                "tests/.../test_fsdp2_cp_qwen3_hf_rmpad_equivalence.py:_worker",
+                "env_and_batch",
+                {
+                    "model_id": str(model_id),
+                    "transformers_version": str(transformers_version),
+                    "flash_attn_version": str(flash_attn_version),
+                    "world_size": int(world_size),
+                    "max_len": int(max_len),
+                    "mask_sum_per_sample": [int(x) for x in attention_mask.sum(dim=1).tolist()],
+                    "pos0_first8": position_ids[0, :8].tolist(),
+                    "pos1_first8": position_ids[1, :8].tolist(),
+                },
+            )
+        original_fa2_forward = None
+        call_log = {"padded": [], "rmpad": []}
+        original_layer_forward = None
+        first_layer = None
+        layer_call_info = {"padded": None, "rmpad": None}
+        prepare_log = []
+        original_update_mask = None
+
+        if rank == 0:
+
+            def _instrumented_fa2(*args, **kwargs):
+                import inspect
+
+                sig = inspect.signature(original_fa2_forward)
+                bound = sig.bind(*args, **kwargs)
+                bound.apply_defaults()
+                params = bound.arguments
+                call_log["current_mode"].append(
+                    {
+                        "attention_mask_is_none": params.get("attention_mask") is None,
+                        "has_cu_seqlens_q": "cu_seqlens_q" in params,
+                        "has_cu_seqlens_k": "cu_seqlens_k" in params,
+                        "query_length": int(params.get("query_length", -1)) if params.get("query_length") else -1,
+                        "query_shape": (
+                            tuple(params["query_states"].shape)
+                            if torch.is_tensor(params.get("query_states"))
+                            else None
+                        ),
+                    }
+                )
+                return original_fa2_forward(*args, **kwargs)
+
+            try:
+                from transformers.integrations import flash_attention as fa_module
+
+                original_fa2_forward = fa_module._flash_attention_forward
+                fa_module._flash_attention_forward = _instrumented_fa2
+            except Exception:
+                try:
+                    import transformers.modeling_flash_attention_utils as mfu
+
+                    original_fa2_forward = mfu._flash_attention_forward
+                    mfu._flash_attention_forward = _instrumented_fa2
+                except Exception:
+                    original_fa2_forward = None
+
+        with torch.no_grad():
+            set_upg_manager(ulysses_size=1, rank=rank, world_size=world_size)
+
+            if rank == 0 and original_fa2_forward is not None:
+                call_log["current_mode"] = call_log["padded"]
+
+            baseline_padded_out = model(
+                input_ids=input_ids,
+                attention_mask=attention_mask,
+                position_ids=position_ids,
+                use_cache=False,
+                output_hidden_states=True,
+            )
+            baseline_padded = baseline_padded_out.logits
+
+            if rank == 0:
+                first_layer = model.model.layers[0].self_attn
+                original_layer_forward = first_layer.forward
+
+                def _instrumented_layer_forward(hidden_states, attention_mask=None, position_ids=None, **kwargs):
+                    layer_call_info["current"]["attn_mask_shape"] = (
+                        tuple(attention_mask.shape) if torch.is_tensor(attention_mask) else None
+                    )
+                    layer_call_info["current"]["attn_mask_is_none"] = attention_mask is None
+                    layer_call_info["current"]["pos_ids_shape"] = (
+                        tuple(position_ids.shape) if torch.is_tensor(position_ids) else None
+                    )
+                    return original_layer_forward(
+                        hidden_states, attention_mask=attention_mask, position_ids=position_ids, **kwargs
+                    )
+
+                first_layer.forward = _instrumented_layer_forward
+
+                layer_call_info["current"] = layer_call_info["padded"] = {}
+                with torch.no_grad():
+                    _ = model(
+                        input_ids=input_ids[:1, :8],  # small probe
+                        attention_mask=attention_mask[:1, :8],
+                        position_ids=position_ids[:1, :8],
+                        use_cache=False,
+                    )
+            if rank == 0 and original_fa2_forward is not None:
+                call_log["current_mode"] = call_log["rmpad"]
+
+            input_ids_rmpad_base, indices_base, *_ = unpad_input(input_ids.unsqueeze(-1), attention_mask)
+            input_ids_rmpad_base = input_ids_rmpad_base.transpose(0, 1)  # (1, total_nnz)
+            position_ids_rmpad_base = index_first_axis(
+                rearrange(position_ids.unsqueeze(-1), "b s ... -> (b s) ..."),
+                indices_base,
+            ).transpose(
+                0, 1
+            )  # (1, total_nnz)
+
+            if rank == 0:
+                layer_call_info["current"] = layer_call_info["rmpad"] = {}
+                with torch.no_grad():
+                    # Create a small packed input to probe
+                    probe_ids = torch.cat([input_ids[0, :4], input_ids[1, :4]], dim=0).unsqueeze(0)  # (1, 8)
+                    probe_pos = torch.tensor([[0, 1, 2, 3, 0, 1, 2, 3]], device=device)  # position resets
+                    _ = model(input_ids=probe_ids, attention_mask=None, position_ids=probe_pos, use_cache=False)
+
+                # Restore original forward
+                first_layer.forward = original_layer_forward
+
+                _dbg(
+                    "H12",
+                    "tests/.../test_fsdp2_cp_qwen3_hf_rmpad_equivalence.py:layer_inputs",
+                    "layer_attn_mask_comparison",
+                    {
+                        "padded_mask_shape": layer_call_info["padded"].get("attn_mask_shape"),
+                        "padded_mask_is_none": layer_call_info["padded"].get("attn_mask_is_none"),
+                        "rmpad_mask_shape": layer_call_info["rmpad"].get("attn_mask_shape"),
+                        "rmpad_mask_is_none": layer_call_info["rmpad"].get("attn_mask_is_none"),
+                        "padded_pos_shape": layer_call_info["padded"].get("pos_ids_shape"),
+                        "rmpad_pos_shape": layer_call_info["rmpad"].get("pos_ids_shape"),
+                    },
+                )
+            # endregion agent log
+
+            baseline_rmpad_out = model(
+                input_ids=input_ids_rmpad_base,
+                attention_mask=None,
+                position_ids=position_ids_rmpad_base,
+                use_cache=False,
+                output_hidden_states=True,
+            )
+            logits_rmpad_base = baseline_rmpad_out.logits  # (1, total_nnz, vocab)
+
+            baseline_rmpad = pad_input(
+                hidden_states=logits_rmpad_base.squeeze(0).unsqueeze(-1),
+                indices=indices_base,
+                batch=input_ids.size(0),
+                seqlen=input_ids.size(1),
+            ).squeeze(-1)
+
+            # H10: locate the earliest hidden-state mismatch (after first decoder block).
+            if (
+                rank == 0
+                and getattr(baseline_padded_out, "hidden_states", None) is not None
+                and getattr(baseline_rmpad_out, "hidden_states", None) is not None
+            ):
+                hs_padded = baseline_padded_out.hidden_states
+                hs_rmpad = baseline_rmpad_out.hidden_states
+                # hidden_states[0] is embedding output; [1] is after first layer (for most HF decoder models).
+                if len(hs_padded) > 1 and len(hs_rmpad) > 1:
+                    hs1_padded = hs_padded[1].float()
+                    hs1_rmpad = hs_rmpad[1].float()  # (1, total_nnz, hidden)
+                    hs1_rmpad_padded = pad_input(
+                        hidden_states=hs1_rmpad.squeeze(0).unsqueeze(-1),
+                        indices=indices_base,
+                        batch=input_ids.size(0),
+                        seqlen=input_ids.size(1),
+                    ).squeeze(-1)
+                    m = attention_mask.to(torch.bool)
+                    max_abs_hs1 = float((hs1_padded - hs1_rmpad_padded).abs()[m].max().item()) if m.any() else 0.0
+                    tok0_abs_hs1 = float((hs1_padded[0, 0] - hs1_rmpad_padded[0, 0]).abs().max().item())
+                    _dbg(
+                        "H10",
+                        "tests/.../test_fsdp2_cp_qwen3_hf_rmpad_equivalence.py:hidden_states",
+                        "hs_layer1_diff",
+                        {"masked_max_abs_hs1": max_abs_hs1, "sample0_tok0_max_abs_hs1": tok0_abs_hs1},
+                    )
+
+            set_upg_manager(ulysses_size=world_size, rank=rank, world_size=world_size)
+
+            input_ids_rmpad, indices, cu_seqlens, max_seqlen, _ = unpad_input(input_ids.unsqueeze(-1), attention_mask)
+            input_ids_rmpad = input_ids_rmpad.transpose(0, 1)  # (1, total_nnz)
+
+            position_ids_rmpad = index_first_axis(
+                rearrange(position_ids.unsqueeze(-1), "b s ... -> (b s) ..."),
+                indices,
+            ).transpose(
+                0, 1
+            )  # (1, total_nnz)
+
+            if rank == 0:
+                _dbg(
+                    "H2",
+                    "tests/.../test_fsdp2_cp_qwen3_hf_rmpad_equivalence.py:unpad_input",
+                    "rmpad_metadata",
+                    {
+                        "total_nnz": int(input_ids_rmpad.size(1)),
+                        "cu_seqlens_shape": tuple(cu_seqlens.shape) if torch.is_tensor(cu_seqlens) else None,
+                        "cu_seqlens_head": (
+                            cu_seqlens[: min(6, cu_seqlens.numel())].tolist() if torch.is_tensor(cu_seqlens) else None
+                        ),
+                        "max_seqlen": int(max_seqlen) if max_seqlen is not None else None,
+                        "position_ids_rmpad_head": position_ids_rmpad[
+                            0, : min(10, position_ids_rmpad.size(1))
+                        ].tolist(),
+                    },
+                )
+            # endregion agent log
+
+            input_ids_rmpad, position_ids_rmpad, pad_size = ulysses_pad_and_slice_inputs(
+                input_ids_rmpad,
+                position_ids_rmpad,
+                cp_size=world_size,
+                cp_rank=rank,
+            )
+
+            logits_rmpad_local = model(
+                input_ids=input_ids_rmpad,
+                attention_mask=None,
+                position_ids=position_ids_rmpad,
+                use_cache=False,
+            ).logits  # (1, local_tokens, vocab)
+
+            logits_rmpad = gather_outputs_and_unpad(
+                logits_rmpad_local,
+                gather_dim=1,
+                unpad_dim=1,
+                padding_size=pad_size,
+                group=get_ulysses_group(),
+            )
+
+            logits = pad_input(
+                hidden_states=logits_rmpad.squeeze(0).unsqueeze(-1),
+                indices=indices,
+                batch=input_ids.size(0),
+                seqlen=input_ids.size(1),
+            ).squeeze(-1)
+
+        baseline_padded_full = baseline_padded.float()
+        baseline_rmpad_full = baseline_rmpad.float()
+
+        if rank == 0:
+            mask = attention_mask.to(torch.bool)
+            diff_cp = (logits.float() - baseline_padded_full).abs()
+            diff_rmpad = (baseline_rmpad_full - baseline_padded_full).abs()
+            max_abs_cp = float(diff_cp[mask].max().item()) if mask.any() else 0.0
+            max_abs_rmpad = float(diff_rmpad[mask].max().item()) if mask.any() else 0.0
+            tok0_abs_cp = float(diff_cp[0, 0].max().item())
+            tok0_abs_rmpad = float(diff_rmpad[0, 0].max().item())
+            _dbg(
+                "H4",
+                "tests/.../test_fsdp2_cp_qwen3_hf_rmpad_equivalence.py:compare",
+                "masked_diff_stats",
+                {
+                    "masked_max_abs_cp_vs_padded": max_abs_cp,
+                    "masked_max_abs_rmpad_vs_padded": max_abs_rmpad,
+                    "sample0_tok0_max_abs_cp_vs_padded": tok0_abs_cp,
+                    "sample0_tok0_max_abs_rmpad_vs_padded": tok0_abs_rmpad,
+                },
+            )
+            if original_fa2_forward is not None:
+                try:
+                    from transformers.integrations import flash_attention as fa_module
+
+                    fa_module._flash_attention_forward = original_fa2_forward
+                except Exception:
+                    try:
+                        import transformers.modeling_flash_attention_utils as mfu
+
+                        mfu._flash_attention_forward = original_fa2_forward
+                    except Exception:
+                        pass
+                _dbg(
+                    "H11",
+                    "tests/.../test_fsdp2_cp_qwen3_hf_rmpad_equivalence.py:fa2_calls",
+                    "fa2_call_comparison",
+                    {
+                        "padded_calls": call_log["padded"][:3],
+                        "rmpad_calls": call_log["rmpad"][:3],
+                        "padded_count": len(call_log["padded"]),
+                        "rmpad_count": len(call_log["rmpad"]),
+                    },
+                )
+
+            if original_update_mask is not None:
+                model._update_causal_mask = original_update_mask
+                _dbg(
+                    "H13",
+                    "tests/.../test_fsdp2_cp_qwen3_hf_rmpad_equivalence.py:prepare_calls",
+                    "mask_generation_calls",
+                    {"prepare_log": prepare_log[:6], "total_calls": len(prepare_log)},
+                )
+
+            torch.testing.assert_close(logits.float()[mask], baseline_padded_full[mask], rtol=2e-2, atol=2e-2)
+    finally:
+        try:
+            unapply_ulysses_patch()
+        except Exception:
+            pass
+        dist.destroy_process_group()
+
+
+@pytest.mark.skipif(not dist.is_available(), reason="torch.distributed is not available")
+@pytest.mark.skipif(not torch.cuda.is_available(), reason="Requires CUDA + FlashAttention2")
+@pytest.mark.skipif(torch.cuda.device_count() < 2, reason="Requires >= 2 CUDA devices for CP all-to-all")
+def test_fsdp2_cp_qwen3_hf_rmpad_logits_equivalence():
+    world_size = 2
+    port = _find_free_port()
+    model_id = os.environ.get(
+        "ROLL_TEST_QWEN3_MODEL_ID",
+        "/home/dilixiati.dlxtmhte/.cache/openlm/hub/14ffd5928d24731fd670f04c645a5928",
+    )
+    mp.spawn(
+        _worker_qwen3_hf_rmpad_equivalence,
+        args=(world_size, port, model_id),
+        nprocs=world_size,
+        join=True,
+    )
diff --git a/tests/distributed/strategy/context_parallel/test_fsdp2_cp_ulysses_equivalence.py b/tests/distributed/strategy/context_parallel/test_fsdp2_cp_ulysses_equivalence.py
new file mode 100644
index 000000000..583e0d83a
--- /dev/null
+++ b/tests/distributed/strategy/context_parallel/test_fsdp2_cp_ulysses_equivalence.py
@@ -0,0 +1,97 @@
+import os
+
+import pytest
+import torch
+import torch.distributed as dist
+
+pytest.importorskip("flash_attn")
+
+from roll.utils.context_parallel.globals import get_ulysses_group, get_ulysses_size, set_upg_manager
+from roll.utils.context_parallel.hf_flash_attention_patch import make_ulysses_flash_attention_forward
+
+
+def _pad_to(x: torch.Tensor, target: int) -> torch.Tensor:
+    if x.size(1) >= target:
+        return x
+    pad_len = target - x.size(1)
+    pad = [0, 0] * x.ndim
+    pad[2 * (x.ndim - 2) + 1] = pad_len
+    return torch.nn.functional.pad(x, pad, value=0)
+
+
+def _gather_seq_shards(x_local: torch.Tensor, lens: list[int], group) -> torch.Tensor:
+    max_len = max(lens)
+    x_pad = _pad_to(x_local, max_len)
+    gathered = [torch.empty_like(x_pad) for _ in range(len(lens))]
+    dist.all_gather(gathered, x_pad, group=group)
+    parts = [g[:, :l] for g, l in zip(gathered, lens)]
+    return torch.cat(parts, dim=1)
+
+
+def original_forward(query_states, key_states, value_states, attention_mask, query_length, *args, **kwargs):
+    # A head-wise function that depends on the full sequence length, so CP needs correct all-to-all.
+    # Shape in/out: (bs, seqlen, heads, dim)
+    assert query_states.size(1) == query_length
+    global_mix = query_states.mean(dim=1, keepdim=True)  # (bs, 1, heads, dim)
+    return query_states + global_mix
+
+
+def main():
+    backend = "gloo"
+    if not dist.is_initialized():
+        dist.init_process_group(backend=backend)
+
+    rank = dist.get_rank()
+    world = dist.get_world_size()
+    assert world == 2, "This smoke test expects torchrun --nproc_per_node=2"
+
+    # Use the full world as the CP group for simplicity.
+    set_upg_manager(ulysses_size=world, rank=rank, world_size=world)
+    group = get_ulysses_group()
+    assert group is not None and get_ulysses_size() == world
+
+    # Variable local lengths to simulate remove-padding imbalance.
+    local_len = 2 + rank  # rank0=2, rank1=3 => total=5
+    lens_t = torch.tensor([local_len], dtype=torch.int64)
+    lens_list = [torch.zeros_like(lens_t) for _ in range(world)]
+    dist.all_gather(lens_list, lens_t, group=group)
+    lens = [int(x.item()) for x in lens_list]
+    total_len = sum(lens)
+
+    # Shapes
+    bs, heads, dim = 1, 4, 2  # heads divisible by world
+
+    torch.manual_seed(1234)
+    q_local = torch.randn(bs, local_len, heads, dim)
+    k_local = torch.randn(bs, local_len, heads, dim)
+    v_local = torch.randn(bs, local_len, heads, dim)
+    attn_mask_local = torch.ones(bs, local_len, dtype=torch.long)
+
+    # Wrapped call (simulates patched HF hook)
+    wrapped = make_ulysses_flash_attention_forward(original_forward)
+    out_local = wrapped(q_local, k_local, v_local, attn_mask_local, local_len)
+
+    # Baseline: run original on the *global* sequence (cp_size=1 semantics), then slice back to local.
+    q_global = _gather_seq_shards(q_local, lens, group)
+    k_global = _gather_seq_shards(k_local, lens, group)
+    v_global = _gather_seq_shards(v_local, lens, group)
+    attn_mask_global = _gather_seq_shards(attn_mask_local.unsqueeze(-1).to(q_local.dtype), lens, group).squeeze(-1)
+
+    baseline_global = original_forward(q_global, k_global, v_global, attn_mask_global, total_len)
+
+    start = sum(lens[:rank])
+    end = start + local_len
+    baseline_local = baseline_global[:, start:end]
+
+    torch.testing.assert_close(out_local, baseline_local, rtol=0, atol=1e-6)
+
+    if rank == 0:
+        print("Ulysses wrapper equivalence smoke test passed.")
+
+    dist.barrier()
+    dist.destroy_process_group()
+
+
+if __name__ == "__main__":
+    os.environ.setdefault("TORCH_DISTRIBUTED_DEBUG", "DETAIL")
+    main()
diff --git a/tests/distributed/strategy/context_parallel/test_fsdp2_cp_vlm_rmpad_equivalence.py b/tests/distributed/strategy/context_parallel/test_fsdp2_cp_vlm_rmpad_equivalence.py
new file mode 100644
index 000000000..faa3439ea
--- /dev/null
+++ b/tests/distributed/strategy/context_parallel/test_fsdp2_cp_vlm_rmpad_equivalence.py
@@ -0,0 +1,484 @@
+import inspect
+import os
+import socket
+from pathlib import Path
+
+import pytest
+import torch
+import torch.distributed as dist
+import torch.multiprocessing as mp
+
+from roll.models.model_providers import get_extra_data_provider, load_model
+from roll.utils.context_parallel.globals import get_ulysses_group, set_upg_manager
+from roll.utils.context_parallel.monkey_patch import apply_ulysses_patch, unapply_ulysses_patch
+from roll.utils.context_parallel.rmpad_ulysses import gather_outputs_and_unpad, ulysses_pad_inputs
+
+try:
+    # Optional debugging capture utilities used elsewhere in tests.
+    from tests.distributed.strategy.log_probs.layer_states_capture import is_enabled as _capture_is_enabled
+    from tests.distributed.strategy.log_probs.layer_states_capture import save_tensor as _capture_save_tensor
+except Exception:  # pragma: no cover
+
+    def _capture_is_enabled() -> bool:
+        return False
+
+    def _capture_save_tensor(*_args, **_kwargs):
+        return None
+
+
+def _maybe_save_cp_gathered_tensors(
+    *,
+    rank: int,
+    base_logits: torch.Tensor | None,
+    cp_gathered_logits: torch.Tensor | None,
+    attention_mask: torch.Tensor | None = None,
+):
+    """
+    Opt-in persistence of gathered CP outputs to debug divergence.
+
+    Enable either:
+    - CP_GATHER_SAVE_DIR=/path (saves via torch.save to that directory), OR
+    - LAYER_STATES_SAVE_DIR=... (uses layer_states_capture.save_tensor), plus CP_SAVE_GATHERED=1
+      (handy when you already have layer-state capture configured).
+
+    Notes:
+    - We save only on rank0 by default to avoid duplicate files.
+    - We also save a small per-token error map to quickly localize divergence.
+    """
+    if os.getenv("CP_SAVE_GATHERED", "0") != "1":
+        return
+    if rank != 0:
+        return
+    if base_logits is None or cp_gathered_logits is None:
+        return
+
+    with torch.no_grad():
+        # (bs, seq, vocab) -> (bs, seq)
+        err_absmax = (cp_gathered_logits.float() - base_logits.float()).abs().amax(dim=-1)
+        if attention_mask is not None:
+            err_absmax = err_absmax * attention_mask.to(err_absmax.dtype)
+
+    save_dir = os.getenv("CP_GATHER_SAVE_DIR", "").strip()
+    prefix = os.getenv("CP_GATHER_PREFIX", "cp_gather").strip() or "cp_gather"
+    step = os.getenv("LAYER_STATES_STEP", "0")
+    batch = os.getenv("LAYER_STATES_BATCH", "0")
+
+    if save_dir:
+        out_dir = Path(save_dir)
+        out_dir.mkdir(parents=True, exist_ok=True)
+        torch.save(base_logits.detach().cpu(), out_dir / f"{prefix}_step{step}_batch{batch}_base_logits.pt")
+        torch.save(
+            cp_gathered_logits.detach().cpu(), out_dir / f"{prefix}_step{step}_batch{batch}_cp_gathered_logits.pt"
+        )
+        torch.save(err_absmax.detach().cpu(), out_dir / f"{prefix}_step{step}_batch{batch}_cp_vs_base_err_absmax.pt")
+        return
+
+    if _capture_is_enabled():
+        _capture_save_tensor(base_logits, "base_logits", subdir="cp_gather")
+        _capture_save_tensor(cp_gathered_logits, "cp_gathered_logits", subdir="cp_gather")
+        _capture_save_tensor(err_absmax, "cp_vs_base_err_absmax", subdir="cp_gather")
+
+
+def _find_free_port() -> int:
+    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
+        sock.bind(("", 0))
+        return sock.getsockname()[1]
+
+
+def _make_dummy_pil_image():
+    PIL = pytest.importorskip("PIL")
+    from PIL import Image
+
+    # Deterministic small RGB image.
+    w, h = 32, 32
+    arr = torch.arange(w * h * 3, dtype=torch.uint8).reshape(h, w, 3).numpy()
+    return Image.fromarray(arr, mode="RGB")
+
+
+def _build_mm_batch(model_path: str, device: torch.device, max_len: int = 64):
+    transformers = pytest.importorskip("transformers")
+    from transformers import AutoProcessor, AutoTokenizer
+
+    processor = AutoProcessor.from_pretrained(model_path, local_files_only=True, trust_remote_code=True)
+    tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=True, trust_remote_code=True)
+    if tokenizer.pad_token is None:
+        tokenizer.pad_token = tokenizer.eos_token
+
+    img = _make_dummy_pil_image()
+    # Qwen-VL style models require explicit vision placeholder tokens in the text stream
+    # so that image/video features can be scattered into matching token positions.
+    text = "<|vision_start|><|image_pad|><|vision_end|> Describe the image briefly."
+    # Many VLM processors accept `text` + `images`; keep it simple and deterministic.
+    #
+    # Qwen3-VL is strict about multimodal token counts: if truncation clips placeholder tokens,
+    # it raises an error. So we disable truncation and retry with a larger max_length if needed.
+    last_err = None
+    for trial_max_len in (max_len, 128, 256, 512):
+        try:
+            model_inputs = processor(
+                text=[text],
+                images=[img],
+                return_tensors="pt",
+                padding="max_length",
+                truncation=False,
+                max_length=trial_max_len,
+            )
+            max_len = trial_max_len
+            break
+        except ValueError as e:
+            last_err = e
+            continue
+    else:
+        raise last_err  # type: ignore[misc]
+    model_inputs = {k: v.to(device) if torch.is_tensor(v) else v for k, v in dict(model_inputs).items()}
+
+    input_ids = model_inputs["input_ids"]
+    attention_mask = model_inputs["attention_mask"]
+
+    # Position ids: use existing ROLL provider (qwen2-vl) or default (others, incl qwen3-vl).
+    extra_provider = get_extra_data_provider(model_path, processor=processor)
+    extra_kwargs = {
+        "input_ids": input_ids,
+        "attention_mask": attention_mask,
+        "image_grid_thw": model_inputs.get("image_grid_thw"),
+        "video_grid_thw": model_inputs.get("video_grid_thw"),
+    }
+    # `get_extra_data_provider()` returns providers with different signatures:
+    # - Qwen2-VL-style provider expects image/video grid args
+    # - default provider only accepts (input_ids, attention_mask)
+    try:
+        sig = inspect.signature(extra_provider)
+        accepted = set(sig.parameters.keys())
+        filtered_kwargs = {k: v for k, v in extra_kwargs.items() if k in accepted}
+        extra = extra_provider(**filtered_kwargs)
+    except Exception:
+        # Best-effort fallback (handles unexpected kwargs TypeError).
+        extra = extra_provider(input_ids=input_ids, attention_mask=attention_mask)
+    position_ids = extra["position_ids"].to(device)
+    # Match strategy behavior: (bs, C, seqlen) -> (C, bs, seqlen)
+    if position_ids.dim() == 3:
+        position_ids = position_ids.transpose(0, 1).contiguous()
+
+    # Keep only tensors relevant for forward.
+    mm_args = {}
+    for k in ("pixel_values", "pixel_values_videos", "image_grid_thw", "video_grid_thw"):
+        if k in model_inputs and torch.is_tensor(model_inputs[k]):
+            mm_args[k] = model_inputs[k]
+    # Some VLMs have conditional vision tower paths; keep consistent with pipelines.
+    mm_args["force_vit_image"] = True
+
+    return input_ids, attention_mask, position_ids, mm_args
+
+
+def _to_rmpad(input_ids: torch.Tensor, attention_mask: torch.Tensor, position_ids: torch.Tensor):
+    pytest.importorskip("flash_attn")
+    from flash_attn.bert_padding import index_first_axis, pad_input, rearrange, unpad_input
+
+    input_ids_rmpad, indices, *_ = unpad_input(input_ids.unsqueeze(-1), attention_mask)
+    input_ids_rmpad = input_ids_rmpad.transpose(0, 1)  # (1, total_nnz)
+
+    if position_ids.dim() == 3:
+        position_ids_rmpad = (
+            index_first_axis(
+                rearrange(position_ids, "c b s ... -> (b s) c ..."),
+                indices,
+            )
+            .transpose(0, 1)
+            .unsqueeze(1)
+        )  # (C, 1, total_nnz)
+    else:
+        position_ids_rmpad = index_first_axis(
+            rearrange(position_ids.unsqueeze(-1), "b s ... -> (b s) ..."),
+            indices,
+        ).transpose(
+            0, 1
+        )  # (1, total_nnz)
+
+    def pad_back(x_rmpad: torch.Tensor) -> torch.Tensor:
+        # x_rmpad: (1, total_nnz, ...)
+        dense = pad_input(
+            hidden_states=x_rmpad.squeeze(0).unsqueeze(-1),
+            indices=indices,
+            batch=input_ids.size(0),
+            seqlen=input_ids.size(1),
+        ).squeeze(-1)
+        return dense
+
+    return input_ids_rmpad, position_ids_rmpad, pad_back
+
+
+def _worker_vlm_cp_equivalence(rank: int, world_size: int, port: int, model_path: str):
+    pytest.importorskip("transformers")
+    pytest.importorskip("flash_attn")
+
+    if not torch.cuda.is_available():
+        pytest.skip("VLM CP equivalence test requires CUDA")
+    if torch.cuda.device_count() < world_size:
+        pytest.skip(f"Need >= {world_size} CUDA devices, got {torch.cuda.device_count()}")
+
+    os.environ["MASTER_ADDR"] = "127.0.0.1"
+    os.environ["MASTER_PORT"] = str(port)
+    os.environ["RANK"] = str(rank)
+    os.environ["WORLD_SIZE"] = str(world_size)
+
+    dist.init_process_group(backend="nccl", rank=rank, world_size=world_size)
+    try:
+        torch.cuda.set_device(rank)
+        device = torch.device("cuda", rank)
+
+        # Patch HF attention hooks for Ulysses.
+        patch_info = apply_ulysses_patch()
+        if patch_info is None or (isinstance(patch_info, dict) and not patch_info.get("patched", True)):
+            pytest.skip("Ulysses patch was not applied (no FlashAttention2 hook patched)")
+
+        # Load model via ROLL provider so our VLM CP decoder patch is exercised.
+        from roll.configs.model_args import ModelArguments
+
+        model_args = ModelArguments(
+            model_name_or_path=model_path,
+            attn_implementation="fa2",
+            dtype="bf16",
+            ulysses_size=world_size,  # install decoder slice patch; runtime CP size controlled by set_upg_manager
+        )
+        # Force each rank to keep weights on its own GPU.
+        model_args.device_map = {"": rank}
+
+        model = load_model(model_args=model_args, is_trainable=False)
+        model.eval()
+
+        input_ids, attention_mask, position_ids, mm_args = _build_mm_batch(model_path, device=device, max_len=256)
+        input_ids_rmpad, position_ids_rmpad, pad_back = _to_rmpad(input_ids, attention_mask, position_ids)
+
+        # Baseline: CP disabled (ulysses_size=1 semantics) on the same world_size job.
+        set_upg_manager(ulysses_size=1, rank=rank, world_size=world_size)
+        with torch.no_grad():
+            out_base = model(
+                input_ids=input_ids_rmpad,
+                attention_mask=None,
+                position_ids=position_ids_rmpad,
+                use_cache=False,
+                **mm_args,
+            ).logits  # (1, total_nnz, vocab)
+            dense_base = pad_back(out_base)
+
+        # CP: use slice-after-embedding (pad-only here, slice in decoder patch).
+        set_upg_manager(ulysses_size=world_size, rank=rank, world_size=world_size)
+        input_ids_pad, pos_pad, pad_size = ulysses_pad_inputs(
+            input_ids_rmpad,
+            position_ids_rmpad,
+            cp_size=world_size,
+        )
+        with torch.no_grad():
+            out_local = model(
+                input_ids=input_ids_pad,
+                attention_mask=None,
+                position_ids=pos_pad,
+                use_cache=False,
+                **mm_args,
+            ).logits  # (1, local_tokens, vocab)
+
+            out_full = gather_outputs_and_unpad(
+                out_local,
+                gather_dim=1,
+                unpad_dim=1,
+                padding_size=pad_size,
+                group=get_ulysses_group(),
+            )
+            dense_cp = pad_back(out_full)
+
+        _maybe_save_cp_gathered_tensors(
+            rank=rank,
+            base_logits=dense_base,
+            cp_gathered_logits=dense_cp,
+            attention_mask=attention_mask,
+        )
+
+        if rank == 0:
+            mask = attention_mask.to(torch.bool)
+            # Compare a small vocabulary slice to reduce memory pressure.
+            dense_base_s = dense_base[..., :64].float()
+            dense_cp_s = dense_cp[..., :64].float()
+            torch.testing.assert_close(dense_cp_s[mask], dense_base_s[mask], rtol=3e-2, atol=3e-2)
+    finally:
+        try:
+            unapply_ulysses_patch()
+        except Exception:
+            pass
+        dist.destroy_process_group()
+
+
+def _worker_vlm_cp_equivalence_nonrmpad(rank: int, world_size: int, port: int, model_path: str):
+    pytest.importorskip("transformers")
+    pytest.importorskip("flash_attn")
+
+    if not torch.cuda.is_available():
+        pytest.skip("VLM CP equivalence test requires CUDA")
+    if torch.cuda.device_count() < world_size:
+        pytest.skip(f"Need >= {world_size} CUDA devices, got {torch.cuda.device_count()}")
+
+    os.environ["MASTER_ADDR"] = "127.0.0.1"
+    os.environ["MASTER_PORT"] = str(port)
+    os.environ["RANK"] = str(rank)
+    os.environ["WORLD_SIZE"] = str(world_size)
+
+    dist.init_process_group(backend="nccl", rank=rank, world_size=world_size)
+    try:
+        torch.cuda.set_device(rank)
+        device = torch.device("cuda", rank)
+
+        patch_info = apply_ulysses_patch()
+        if patch_info is None or (isinstance(patch_info, dict) and not patch_info.get("patched", True)):
+            pytest.skip("Ulysses patch was not applied (no FlashAttention2 hook patched)")
+
+        from roll.configs.model_args import ModelArguments
+
+        model_args = ModelArguments(
+            model_name_or_path=model_path,
+            attn_implementation="fa2",
+            dtype="bf16",
+            ulysses_size=world_size,
+        )
+        model_args.device_map = {"": rank}
+        model = load_model(model_args=model_args, is_trainable=False)
+        from tests.distributed.strategy.log_probs.apply_model_patch import apply_qwen3vl_patches
+
+        if apply_qwen3vl_patches():
+            print("Applied Qwen3VL layer states capture patches")
+        model.eval()
+
+        # Use a length divisible by world_size to match CP shard requirements.
+        input_ids, attention_mask, position_ids, mm_args = _build_mm_batch(model_path, device=device, max_len=256)
+        assert input_ids.size(1) % world_size == 0
+
+        # Baseline (CP disabled) -> full logits.
+        os.environ["LAYER_STATES_SAVE_DIR"] = "./cp_layerwise_out/base"
+        os.environ["LAYER_STATES_PREFIX"] = "base"
+        os.environ["LAYER_STATES_STEP"] = "0"
+        os.environ["LAYER_STATES_BATCH"] = "0"
+        if rank == 0:  # attach only one process to avoid chaos
+            import debugpy
+
+            debugpy.listen(("0.0.0.0", 5679))
+            print("Waiting for debugger attach on 5678...")
+            debugpy.wait_for_client()
+            debugpy.breakpoint()  # or use breakpoint() after attach
+        set_upg_manager(ulysses_size=1, rank=rank, world_size=world_size)
+        with torch.no_grad():
+            base_output = model(
+                input_ids=input_ids,
+                attention_mask=attention_mask,
+                position_ids=position_ids,
+                use_cache=False,
+                output_hidden_states=True,
+                **mm_args,
+            )
+
+            base_states = base_output.hidden_states
+            base_layer_states = base_output.layer_states
+            base = base_output.logits  # (bs, seq, vocab)
+
+        # CP enabled -> decoder outputs local shard; gather to full for comparison.
+        os.environ["LAYER_STATES_SAVE_DIR"] = "./cp_layerwise_out/cp"
+        os.environ["LAYER_STATES_PREFIX"] = "cp"
+        set_upg_manager(ulysses_size=world_size, rank=rank, world_size=world_size)
+        with torch.no_grad():
+            local_output = model(
+                input_ids=input_ids,
+                attention_mask=attention_mask,
+                position_ids=position_ids,
+                use_cache=False,
+                output_hidden_states=True,
+                **mm_args,
+            )
+
+            local_states = local_output.hidden_states
+            local_layer_states = local_output.layer_states
+            local = local_output.logits  # (bs, local_seq, vocab)
+
+            # Sanity: ensure CP actually shards the sequence.
+            assert dist.get_world_size(get_ulysses_group()) == world_size
+            assert local.size(1) * world_size == input_ids.size(1), (
+                f"Expected local_seq={input_ids.size(1)//world_size}, got local_seq={local.size(1)}. "
+                "This usually means the VLM decoder slice-after-embedding patch did not take effect."
+            )
+
+            full = gather_outputs_and_unpad(
+                local,
+                gather_dim=1,
+                unpad_dim=None,
+                padding_size=0,
+                group=get_ulysses_group(),
+            )
+
+        _maybe_save_cp_gathered_tensors(
+            rank=rank,
+            base_logits=base,
+            cp_gathered_logits=full,
+            attention_mask=attention_mask,
+        )
+
+        if rank == 0:
+            mask = attention_mask.to(torch.bool)
+            base_s = base.float()
+            full_s = full.float()
+            torch.testing.assert_close(full_s[mask], base_s[mask], rtol=3e-2, atol=3e-2)
+    finally:
+        try:
+            unapply_ulysses_patch()
+        except Exception:
+            pass
+        dist.destroy_process_group()
+
+
+@pytest.mark.skipif(not dist.is_available(), reason="torch.distributed is not available")
+@pytest.mark.skipif(not torch.cuda.is_available(), reason="Requires CUDA + FlashAttention2")
+@pytest.mark.skipif(torch.cuda.device_count() < 2, reason="Requires >= 2 CUDA devices for CP all-to-all")
+@pytest.mark.parametrize(
+    "env_key",
+    [
+        "ROLL_TEST_QWEN25VL_PATH",
+        "ROLL_TEST_QWEN3VL_PATH",
+    ],
+)
+def test_fsdp2_cp_vlm_rmpad_equivalence(env_key: str):
+    model_path = os.environ.get(env_key)
+    if not model_path:
+        pytest.skip(f"Set {env_key} to a local model path to run this test.")
+    if not os.path.exists(model_path):
+        pytest.skip(f"{env_key}={model_path} does not exist on this machine.")
+
+    world_size = 2
+    port = _find_free_port()
+    mp.spawn(
+        _worker_vlm_cp_equivalence,
+        args=(world_size, port, model_path),
+        nprocs=world_size,
+        join=True,
+    )
+
+
+@pytest.mark.skipif(not dist.is_available(), reason="torch.distributed is not available")
+@pytest.mark.skipif(not torch.cuda.is_available(), reason="Requires CUDA + FlashAttention2")
+@pytest.mark.skipif(torch.cuda.device_count() < 2, reason="Requires >= 2 CUDA devices for CP all-to-all")
+@pytest.mark.parametrize(
+    "env_key",
+    [
+        "ROLL_TEST_QWEN25VL_PATH",
+        "ROLL_TEST_QWEN3VL_PATH",
+    ],
+)
+def test_fsdp2_cp_vlm_nonrmpad_equivalence(env_key: str):
+    model_path = os.environ.get(env_key)
+    if not model_path:
+        pytest.skip(f"Set {env_key} to a local model path to run this test.")
+    if not os.path.exists(model_path):
+        pytest.skip(f"{env_key}={model_path} does not exist on this machine.")
+
+    world_size = 2
+    port = _find_free_port()
+    mp.spawn(
+        _worker_vlm_cp_equivalence_nonrmpad,
+        args=(world_size, port, model_path),
+        nprocs=world_size,
+        join=True,
+    )
diff --git a/tests/distributed/strategy/grad_norm/run_fsdp2_distributed_test.sh b/tests/distributed/strategy/grad_norm/run_fsdp2_distributed_test.sh
new file mode 100644
index 000000000..73f96c37b
--- /dev/null
+++ b/tests/distributed/strategy/grad_norm/run_fsdp2_distributed_test.sh
@@ -0,0 +1,38 @@
+#!/bin/bash
+
+set -e
+
+echo "=================================="
+echo "FSDP2 Gradient Norm Distributed Test"
+echo "=================================="
+echo ""
+
+if ! command -v nvidia-smi &> /dev/null; then
+    echo "ERROR: nvidia-smi not found. CUDA is required for this test."
+    exit 1
+fi
+
+NUM_GPUS=$(nvidia-smi --list-gpus | wc -l)
+echo "Found $NUM_GPUS GPUs"
+
+if [ "$NUM_GPUS" -lt 2 ]; then
+    echo "ERROR: This test requires at least 2 GPUs, but only $NUM_GPUS found."
+    exit 1
+fi
+
+SCRIPT_DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"
+
+echo ""
+echo "Running FSDP2 distributed gradient norm test with 2 GPUs..."
+echo ""
+
+torchrun \
+    --nproc_per_node=2 \
+    --master_port=29500 \
+    "${SCRIPT_DIR}/test_fsdp2_grad_norm.py"
+
+echo ""
+echo "=================================="
+echo "Test completed successfully!"
+echo "=================================="
+
diff --git a/tests/distributed/strategy/grad_norm/test_fsdp2_grad_norm.py b/tests/distributed/strategy/grad_norm/test_fsdp2_grad_norm.py
new file mode 100644
index 000000000..ec54be625
--- /dev/null
+++ b/tests/distributed/strategy/grad_norm/test_fsdp2_grad_norm.py
@@ -0,0 +1,291 @@
+import os
+
+import torch
+import torch.distributed as dist
+import torch.nn as nn
+from torch.distributed._composable.fsdp import fully_shard
+from torch.distributed.device_mesh import init_device_mesh
+from torch.distributed.fsdp import MixedPrecisionPolicy
+from torch.distributed.tensor import DTensor
+from torch.nn.utils.clip_grad import _get_total_norm
+
+from roll.platforms import current_platform
+
+
+class SimpleModel(nn.Module):
+
+    def __init__(self, input_size=128, hidden_size=256, output_size=64):
+        super().__init__()
+        self.fc1 = nn.Linear(input_size, hidden_size, bias=True)
+        self.fc2 = nn.Linear(hidden_size, hidden_size, bias=True)
+        self.fc3 = nn.Linear(hidden_size, output_size, bias=True)
+        self.relu = nn.ReLU()
+
+    def forward(self, x):
+        x = self.relu(self.fc1(x))
+        x = self.relu(self.fc2(x))
+        x = self.fc3(x)
+        return x
+
+
+def manual_compute_grad_norm(model, norm_type=2.0):
+    grads = []
+    for param in model.parameters():
+        if param.grad is not None:
+            # If it's a DTensor, gather to full tensor first
+            if isinstance(param.grad, DTensor):
+                grad = param.grad.full_tensor()
+            else:
+                grad = param.grad
+            grads.append(grad)
+
+    if len(grads) == 0:
+        return torch.tensor(0.0)
+
+    # Compute total norm
+    total_norm = torch.norm(
+        torch.stack([torch.norm(g.detach(), norm_type) for g in grads]),
+        norm_type,
+    )
+    return total_norm
+
+
+def fsdp2_compute_grad_norm(model, norm_type=2.0):
+    """
+    Compute gradient norm using FSDP2 approach (operating on sharded gradients).
+    """
+    parameters = list(model.parameters())
+    grads = [p.grad for p in parameters if p.grad is not None]
+
+    if not grads:
+        return torch.tensor(0.0, device=current_platform.current_device())
+
+    total_norm = _get_total_norm(
+        grads, norm_type, error_if_nonfinite=False, foreach=None
+    )
+
+    # Convert DTensor to full tensor to get global norm
+    if isinstance(total_norm, DTensor):
+        total_norm = total_norm.full_tensor()
+
+    return total_norm
+
+
+def test_gradient_norm_single_gpu():
+    """Test gradient norm computation on a single GPU (no sharding)."""
+
+    if not torch.cuda.is_available():
+        print("CUDA not available, skipping test")
+        return
+
+    device = torch.device("cuda")
+
+    # Create model and data
+    model = SimpleModel().to(device)
+    batch_size = 8
+    input_data = torch.randn(batch_size, 128, device=device)
+    target = torch.randn(batch_size, 64, device=device)
+
+    # Forward pass
+    output = model(input_data)
+    loss = ((output - target) ** 2).mean()
+
+    # Backward pass
+    loss.backward()
+
+    # Compute gradient norm manually
+    manual_norm = manual_compute_grad_norm(model)
+
+    # Compute gradient norm using PyTorch's built-in function
+    from torch.nn.utils import clip_grad_norm_
+
+    pytorch_norm = clip_grad_norm_(
+        model.parameters(), max_norm=float("inf")
+    )
+
+    # They should match
+    print(f"Manual norm: {manual_norm.item():.6f}")
+    print(f"PyTorch norm: {pytorch_norm.item():.6f}")
+
+    assert torch.allclose(
+        manual_norm, pytorch_norm, rtol=1e-4, atol=1e-4
+    ), f"Manual norm {manual_norm.item()} != PyTorch norm {pytorch_norm.item()}"
+
+    print("✓ Single GPU gradient norm test passed!")
+
+
+def test_gradient_norm_fsdp2_distributed():
+    """
+    Test gradient norm computation with FSDP2 in a distributed setting.
+    This test should be run with torchrun or similar launcher.
+
+    Example:
+        torchrun --nproc_per_node=2 test_fsdp2_grad_norm.py
+    """
+
+    if not dist.is_initialized():
+        # Initialize distributed if not already done
+        if not torch.cuda.is_available():
+            print("CUDA not available, skipping distributed test")
+            return
+
+        backend = "nccl" if torch.cuda.is_available() else "gloo"
+        dist.init_process_group(backend=backend)
+
+    rank = dist.get_rank()
+    world_size = dist.get_world_size()
+    device = torch.device(
+        f"cuda:{rank}" if torch.cuda.is_available() else "cpu"
+    )
+    torch.cuda.set_device(device)
+
+    print(f"[Rank {rank}/{world_size}] Starting FSDP2 gradient norm test")
+
+    # Set seed for reproducibility across ranks
+    torch.manual_seed(42)
+
+    # Create device mesh for FSDP2
+    mesh = init_device_mesh(
+        "cuda" if torch.cuda.is_available() else "cpu",
+        (world_size,),
+        mesh_dim_names=("fsdp",),
+    )
+
+    # Create model directly on device (not meta)
+    model = SimpleModel().to(device)
+
+    # Apply FSDP2 configuration using PyTorch's fully_shard
+    from torch.distributed._composable.fsdp import fully_shard
+
+    mixed_precision = MixedPrecisionPolicy(
+        param_dtype=torch.bfloat16,
+        reduce_dtype=torch.float32,
+        cast_forward_inputs=True,
+    )
+
+    for module in model.modules():
+        if isinstance(module, nn.Linear):
+            fully_shard(
+                module,
+                mesh=mesh,
+                reshard_after_forward=True,
+                mp_policy=mixed_precision,
+            )
+
+    fully_shard(
+        model,
+        mesh=mesh,
+        reshard_after_forward=True,
+        mp_policy=mixed_precision,
+    )
+
+    torch.manual_seed(42 + rank)  # Different data per rank
+    batch_size = 4
+    input_data = torch.randn(
+        batch_size, 128, device=device, dtype=torch.bfloat16
+    )
+    target = torch.randn(
+        batch_size, 64, device=device, dtype=torch.bfloat16
+    )
+
+    # Forward pass
+    output = model(input_data)
+    loss = ((output - target) ** 2).mean()
+
+    print(f"[Rank {rank}] Loss: {loss.item():.6f}")
+
+    # Backward pass
+    loss.backward()
+
+    # Compute gradient norm using FSDP2 approach
+    fsdp2_norm = fsdp2_compute_grad_norm(model)
+
+    print(f"[Rank {rank}] FSDP2 gradient norm: {fsdp2_norm.item():.6f}")
+
+    all_norms = [torch.zeros_like(fsdp2_norm) for _ in range(world_size)]
+    dist.all_gather(all_norms, fsdp2_norm)
+
+    if rank == 0:
+        print(f"\n[Rank 0] Gradient norms from all ranks:")
+        for r, norm in enumerate(all_norms):
+            print(f"  Rank {r}: {norm.item():.6f}")
+
+        for r, norm in enumerate(all_norms):
+            assert torch.allclose(
+                norm, all_norms[0], rtol=1e-3, atol=1e-5
+            ), f"Rank {r} norm {norm.item()} != Rank 0 norm {all_norms[0].item()}"
+
+        print("\n✓ FSDP2 distributed gradient norm test passed!")
+
+    dist.barrier()
+
+    if rank == 0:
+        print("\nTest completed successfully!")
+
+
+def test_gradient_norm_consistency():
+    if not torch.cuda.is_available():
+        print("CUDA not available, skipping test")
+        return
+
+    device = torch.device("cuda")
+
+    # Create a very simple model for easy verification
+    class TinyModel(nn.Module):
+        def __init__(self):
+            super().__init__()
+            self.w = nn.Parameter(
+                torch.tensor([1.0, 2.0, 3.0], device=device)
+            )
+
+    model = TinyModel()
+
+    loss = (model.w**2).sum()
+    loss.backward()
+
+    expected_grad = torch.tensor([2.0, 4.0, 6.0], device=device)
+    assert torch.allclose(
+        model.w.grad, expected_grad
+    ), f"Expected grad {expected_grad}, got {model.w.grad}"
+
+    expected_norm = torch.sqrt(torch.tensor(56.0, device=device))
+
+    from torch.nn.utils import clip_grad_norm_
+
+    pytorch_norm = clip_grad_norm_(
+        model.parameters(), max_norm=float("inf")
+    )
+
+    print(f"Expected norm: {expected_norm.item():.6f}")
+    print(f"PyTorch norm: {pytorch_norm.item():.6f}")
+
+    assert torch.allclose(
+        pytorch_norm, expected_norm, rtol=1e-4, atol=1e-4
+    ), f"PyTorch norm {pytorch_norm.item()} != expected {expected_norm.item()}"
+
+    print("✓ Gradient norm consistency test passed!")
+
+
+if __name__ == "__main__":
+    if "RANK" in os.environ and "WORLD_SIZE" in os.environ:
+        print(
+            f"Running in distributed mode (Rank {os.environ['RANK']}/{os.environ['WORLD_SIZE']})"
+        )
+        test_gradient_norm_fsdp2_distributed()
+    else:
+        print("Running in single-GPU mode")
+        print("\n" + "=" * 60)
+        print("Test 1: Gradient Norm Consistency")
+        print("=" * 60)
+        test_gradient_norm_consistency()
+
+        print("\n" + "=" * 60)
+        print("Test 2: Single GPU Gradient Norm")
+        print("=" * 60)
+        test_gradient_norm_single_gpu()
+
+        print("\n" + "=" * 60)
+        print("All tests passed!")
+        print("=" * 60)
+        print("\nTo test distributed FSDP2, run:")
+        print("  torchrun --nproc_per_node=2 test_fsdp2_grad_norm.py")
diff --git a/tests/distributed/strategy/grad_norm/test_grad_accumulation_scaling.py b/tests/distributed/strategy/grad_norm/test_grad_accumulation_scaling.py
new file mode 100644
index 000000000..d67f7d4db
--- /dev/null
+++ b/tests/distributed/strategy/grad_norm/test_grad_accumulation_scaling.py
@@ -0,0 +1,324 @@
+import torch
+import torch.nn as nn
+
+
+class SimpleModel(nn.Module):
+    """Simple model for testing."""
+
+    def __init__(self):
+        super().__init__()
+        self.fc = nn.Linear(10, 5, bias=True)
+
+    def forward(self, x):
+        return self.fc(x)
+
+
+def test_gradient_accumulation_without_scaling():
+    """
+    Test gradient accumulation WITHOUT loss scaling.
+    This demonstrates the problem: gradients scale with accumulation steps.
+    """
+    print("\n" + "=" * 60)
+    print("Test: Gradient Accumulation WITHOUT Scaling (Incorrect)")
+    print("=" * 60)
+
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    torch.manual_seed(42)
+
+    # Test with different accumulation steps
+    for grad_acc_steps in [1, 2, 4]:
+        model = SimpleModel().to(device)
+        optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
+
+        # Create mini-batches
+        batch_size_per_step = 8
+        total_batch_size = batch_size_per_step * grad_acc_steps
+
+        torch.manual_seed(42)
+        x_full = torch.randn(total_batch_size, 10, device=device)
+        y_full = torch.randn(total_batch_size, 5, device=device)
+
+        # Accumulate gradients WITHOUT scaling
+        optimizer.zero_grad()
+        for i in range(grad_acc_steps):
+            start_idx = i * batch_size_per_step
+            end_idx = (i + 1) * batch_size_per_step
+            x_mini = x_full[start_idx:end_idx]
+            y_mini = y_full[start_idx:end_idx]
+
+            output = model(x_mini)
+            loss = ((output - y_mini) ** 2).mean()
+            # NO SCALING - This is the problem!
+            loss.backward()
+
+        # Compute gradient norm
+        from torch.nn.utils import clip_grad_norm_
+
+        grad_norm = clip_grad_norm_(
+            model.parameters(), max_norm=float("inf")
+        )
+
+        print(f"grad_acc_steps={grad_acc_steps}: grad_norm={grad_norm:.6f}")
+
+    print(
+        "\n⚠️  WITHOUT scaling, gradient norm increases with accumulation steps!"
+    )
+
+
+def test_gradient_accumulation_with_scaling():
+    """
+    Test gradient accumulation WITH loss scaling.
+    This demonstrates the correct approach: gradients remain consistent.
+    """
+    print("\n" + "=" * 60)
+    print("Test: Gradient Accumulation WITH Scaling (Correct)")
+    print("=" * 60)
+
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
+    # Use FIXED total batch size across all tests
+    total_batch_size = 32
+
+    # Test with different accumulation steps
+    grad_norms = {}
+    for grad_acc_steps in [1, 2, 4, 8]:
+        torch.manual_seed(42)
+        model = SimpleModel().to(device)
+        optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
+
+        # Adjust batch size per step to keep total constant
+        batch_size_per_step = total_batch_size // grad_acc_steps
+
+        # Use SAME data for all configurations
+        torch.manual_seed(100)
+        x_full = torch.randn(total_batch_size, 10, device=device)
+        y_full = torch.randn(total_batch_size, 5, device=device)
+
+        # Accumulate gradients WITH scaling
+        optimizer.zero_grad()
+        for i in range(grad_acc_steps):
+            start_idx = i * batch_size_per_step
+            end_idx = (i + 1) * batch_size_per_step
+            x_mini = x_full[start_idx:end_idx]
+            y_mini = y_full[start_idx:end_idx]
+
+            output = model(x_mini)
+            loss = ((output - y_mini) ** 2).mean()
+            # CORRECT: Scale by gradient accumulation steps
+            scaled_loss = loss / grad_acc_steps
+            scaled_loss.backward()
+
+        # Compute gradient norm
+        from torch.nn.utils import clip_grad_norm_
+
+        grad_norm = clip_grad_norm_(
+            model.parameters(), max_norm=float("inf")
+        )
+        grad_norms[grad_acc_steps] = grad_norm.item()
+
+        print(f"grad_acc_steps={grad_acc_steps}: grad_norm={grad_norm:.6f}")
+
+    # Verify all gradient norms are similar
+    norm_values = list(grad_norms.values())
+    max_norm = max(norm_values)
+    min_norm = min(norm_values)
+    relative_diff = (max_norm - min_norm) / min_norm
+
+    print(f"\nRelative difference: {relative_diff*100:.2f}%")
+
+    if relative_diff < 0.01:  # Within 1%
+        print("✓ WITH scaling, gradient norms remain consistent!")
+    else:
+        print(f"⚠️  Gradient norms vary by {relative_diff*100:.2f}%")
+        print(
+            "   Note: Small variations are expected due to different computational order"
+        )
+
+    return relative_diff < 0.05  # Allow 5% for numerical precision
+
+
+def test_gradient_accumulation_equivalence():
+    """
+    Test that gradient accumulation with scaling is equivalent to full-batch training.
+    """
+    print("\n" + "=" * 60)
+    print("Test: Gradient Accumulation Equivalence")
+    print("=" * 60)
+
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
+    # Full batch training (baseline)
+    torch.manual_seed(42)
+    model_full = SimpleModel().to(device)
+
+    total_batch_size = 32
+    torch.manual_seed(100)
+    x_full = torch.randn(total_batch_size, 10, device=device)
+    y_full = torch.randn(total_batch_size, 5, device=device)
+
+    output_full = model_full(x_full)
+    loss_full = ((output_full - y_full) ** 2).mean()
+    loss_full.backward()
+
+    from torch.nn.utils import clip_grad_norm_
+
+    grad_norm_full = clip_grad_norm_(
+        model_full.parameters(), max_norm=float("inf")
+    )
+
+    print(
+        f"Full batch (batch_size={total_batch_size}): grad_norm={grad_norm_full:.6f}"
+    )
+
+    # Gradient accumulation (should match)
+    grad_acc_steps = 4
+    batch_size_per_step = total_batch_size // grad_acc_steps
+
+    torch.manual_seed(42)
+    model_acc = SimpleModel().to(device)
+    model_acc.zero_grad()
+
+    torch.manual_seed(100)
+    x_acc = torch.randn(total_batch_size, 10, device=device)
+    y_acc = torch.randn(total_batch_size, 5, device=device)
+
+    for i in range(grad_acc_steps):
+        start_idx = i * batch_size_per_step
+        end_idx = (i + 1) * batch_size_per_step
+        x_mini = x_acc[start_idx:end_idx]
+        y_mini = y_acc[start_idx:end_idx]
+
+        output = model_acc(x_mini)
+        loss = ((output - y_mini) ** 2).mean()
+        scaled_loss = loss / grad_acc_steps
+        scaled_loss.backward()
+
+    grad_norm_acc = clip_grad_norm_(
+        model_acc.parameters(), max_norm=float("inf")
+    )
+
+    print(
+        f"Gradient accumulation (steps={grad_acc_steps}, batch_size={batch_size_per_step}): grad_norm={grad_norm_acc:.6f}"
+    )
+
+    # Compare
+    relative_diff = abs(grad_norm_full - grad_norm_acc) / grad_norm_full
+    print(f"\nRelative difference: {relative_diff*100:.2f}%")
+
+    # They should be very close (within numerical precision)
+    if torch.allclose(grad_norm_full, grad_norm_acc, rtol=1e-3, atol=1e-5):
+        print("✓ Gradient accumulation matches full-batch training!")
+        return True
+    else:
+        print(f"⚠️  Mismatch: {grad_norm_full:.6f} vs {grad_norm_acc:.6f}")
+        return False
+
+
+def test_gradient_accumulation_impact_on_norm():
+    """
+    Demonstrate the impact of gradient accumulation on gradient norms.
+    """
+    print("\n" + "=" * 60)
+    print("Summary: Impact of Gradient Accumulation on Gradient Norms")
+    print("=" * 60)
+
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
+    print("\nScenario: Training with gradient_accumulation_steps=4")
+    print("-" * 60)
+
+    grad_acc_steps = 4
+    batch_size_per_step = 8
+    total_batch_size = batch_size_per_step * grad_acc_steps
+
+    torch.manual_seed(42)
+    x = torch.randn(total_batch_size, 10, device=device)
+    y = torch.randn(total_batch_size, 5, device=device)
+
+    # WITHOUT scaling
+    torch.manual_seed(42)
+    model_no_scale = SimpleModel().to(device)
+    model_no_scale.zero_grad()
+
+    for i in range(grad_acc_steps):
+        start = i * batch_size_per_step
+        end = (i + 1) * batch_size_per_step
+        loss = ((model_no_scale(x[start:end]) - y[start:end]) ** 2).mean()
+        loss.backward()
+
+    from torch.nn.utils import clip_grad_norm_
+
+    norm_no_scale = clip_grad_norm_(
+        model_no_scale.parameters(), max_norm=float("inf")
+    )
+
+    # WITH scaling
+    torch.manual_seed(42)
+    model_with_scale = SimpleModel().to(device)
+    model_with_scale.zero_grad()
+
+    for i in range(grad_acc_steps):
+        start = i * batch_size_per_step
+        end = (i + 1) * batch_size_per_step
+        loss = ((model_with_scale(x[start:end]) - y[start:end]) ** 2).mean()
+        (loss / grad_acc_steps).backward()
+
+    norm_with_scale = clip_grad_norm_(
+        model_with_scale.parameters(), max_norm=float("inf")
+    )
+
+    print(f"WITHOUT loss scaling: grad_norm = {norm_no_scale:.6f}")
+    print(f"WITH loss scaling:    grad_norm = {norm_with_scale:.6f}")
+    print(f"\nRatio (without/with): {norm_no_scale / norm_with_scale:.2f}x")
+    print(f"Expected ratio:       {grad_acc_steps:.2f}x")
+
+    # The ratio should match the gradient accumulation steps
+    ratio = norm_no_scale / norm_with_scale
+    expected_ratio = float(grad_acc_steps)
+
+    if abs(ratio - expected_ratio) < 0.1:
+        print(
+            f"\n✓ Without scaling, gradients are {grad_acc_steps}x larger!"
+        )
+
+    return abs(ratio - expected_ratio) < 0.1
+
+
+if __name__ == "__main__":
+    print("\n" + "=" * 80)
+    print("GRADIENT ACCUMULATION SCALING TESTS")
+    print("=" * 80)
+
+    # Run all tests
+    test_gradient_accumulation_without_scaling()
+
+    test1_passed = test_gradient_accumulation_with_scaling()
+    test2_passed = test_gradient_accumulation_equivalence()
+    test3_passed = test_gradient_accumulation_impact_on_norm()
+
+    print("\n" + "=" * 80)
+    print("SUMMARY")
+    print("=" * 80)
+    print(
+        f"Gradient accumulation consistency: {'✓ PASS' if test1_passed else '✗ FAIL'}"
+    )
+    print(
+        f"Full-batch equivalence:            {'✓ PASS' if test2_passed else '✗ FAIL'}"
+    )
+    print(
+        f"Scaling impact verification:       {'✓ PASS' if test3_passed else '✗ FAIL'}"
+    )
+
+    if test1_passed and test2_passed and test3_passed:
+        print("\n✓ All tests passed!")
+        print("\nKEY TAKEAWAY:")
+        print(
+            "  Always scale loss by 1/gradient_accumulation_steps to maintain"
+        )
+        print(
+            "  consistent gradient magnitudes regardless of accumulation settings."
+        )
+    else:
+        print("\n✗ Some tests failed")
+
+    print("=" * 80)
diff --git a/tests/distributed/strategy/grad_norm/test_grad_norm_unit.py b/tests/distributed/strategy/grad_norm/test_grad_norm_unit.py
new file mode 100644
index 000000000..e07fce092
--- /dev/null
+++ b/tests/distributed/strategy/grad_norm/test_grad_norm_unit.py
@@ -0,0 +1,232 @@
+import pytest
+import torch
+import torch.nn as nn
+
+from roll.platforms import current_platform
+
+
+def _has_accelerator() -> bool:
+    if current_platform.device_type == "cpu":
+        return False
+    is_available = getattr(current_platform, "is_available", None)
+    return callable(is_available) and bool(is_available())
+
+
+class TestGradientNormBasic:
+    """Basic unit tests for gradient norm computation."""
+
+    def test_simple_parameter_grad_norm(self):
+        """Test gradient norm with a single parameter."""
+        # Create a parameter with known gradient
+        param = nn.Parameter(torch.tensor([1.0, 2.0, 3.0]))
+
+        # Manually set gradient: [2, 4, 6]
+        param.grad = torch.tensor([2.0, 4.0, 6.0])
+
+        # Expected L2 norm: sqrt(4 + 16 + 36) = sqrt(56) ≈ 7.4833
+        expected_norm = torch.sqrt(torch.tensor(56.0))
+
+        # Compute using PyTorch
+        from torch.nn.utils import clip_grad_norm_
+
+        computed_norm = clip_grad_norm_([param], max_norm=float("inf"))
+
+        assert torch.allclose(
+            computed_norm, expected_norm, rtol=1e-5, atol=1e-5
+        ), f"Computed norm {computed_norm:.6f} != expected {expected_norm:.6f}"
+
+    def test_multiple_parameters_grad_norm(self):
+        """Test gradient norm with multiple parameters."""
+        # Create parameters
+        param1 = nn.Parameter(
+            torch.tensor([3.0, 4.0])
+        )  # grad will be [1, 0]
+        param2 = nn.Parameter(
+            torch.tensor([1.0, 2.0])
+        )  # grad will be [0, 1]
+
+        param1.grad = torch.tensor([1.0, 0.0])
+        param2.grad = torch.tensor([0.0, 1.0])
+
+        # Expected L2 norm: sqrt(1^2 + 0^2 + 0^2 + 1^2) = sqrt(2) ≈ 1.4142
+        expected_norm = torch.sqrt(torch.tensor(2.0))
+
+        from torch.nn.utils import clip_grad_norm_
+
+        computed_norm = clip_grad_norm_(
+            [param1, param2], max_norm=float("inf")
+        )
+
+        assert torch.allclose(
+            computed_norm, expected_norm, rtol=1e-5, atol=1e-5
+        ), f"Computed norm {computed_norm:.6f} != expected {expected_norm:.6f}"
+
+    def test_model_grad_norm(self):
+        """Test gradient norm computation through a simple model."""
+
+        class TinyModel(nn.Module):
+            def __init__(self):
+                super().__init__()
+                self.w1 = nn.Parameter(torch.tensor([1.0, 2.0]))
+                self.w2 = nn.Parameter(torch.tensor([3.0]))
+
+        model = TinyModel()
+
+        # Create a simple loss: L = w1[0]^2 + w1[1]^2 + w2[0]^2
+        # Gradients: dL/dw1 = [2*w1[0], 2*w1[1]] = [2, 4]
+        #            dL/dw2 = [2*w2[0]] = [6]
+        loss = (model.w1**2).sum() + (model.w2**2).sum()
+        loss.backward()
+
+        # Verify gradients
+        assert torch.allclose(
+            model.w1.grad, torch.tensor([2.0, 4.0])
+        ), f"w1.grad = {model.w1.grad}, expected [2, 4]"
+        assert torch.allclose(
+            model.w2.grad, torch.tensor([6.0])
+        ), f"w2.grad = {model.w2.grad}, expected [6]"
+
+        # Expected norm: sqrt(4 + 16 + 36) = sqrt(56)
+        expected_norm = torch.sqrt(torch.tensor(56.0))
+
+        from torch.nn.utils import clip_grad_norm_
+
+        computed_norm = clip_grad_norm_(
+            model.parameters(), max_norm=float("inf")
+        )
+
+        assert torch.allclose(
+            computed_norm, expected_norm, rtol=1e-5, atol=1e-5
+        ), f"Computed norm {computed_norm:.6f} != expected {expected_norm:.6f}"
+
+    def test_grad_clipping(self):
+        """Test that gradient clipping works correctly."""
+
+        # Create parameter with large gradient
+        param = nn.Parameter(torch.tensor([3.0, 4.0]))
+        param.grad = torch.tensor([3.0, 4.0])  # norm = 5.0
+
+        max_norm = 2.5
+        from torch.nn.utils import clip_grad_norm_
+
+        total_norm = clip_grad_norm_([param], max_norm=max_norm)
+
+        # Total norm before clipping should be 5.0
+        assert torch.allclose(
+            total_norm, torch.tensor(5.0), rtol=1e-5
+        ), f"Total norm {total_norm:.6f} != 5.0"
+
+        # After clipping, gradient should be scaled by max_norm / total_norm = 2.5 / 5.0 = 0.5
+        expected_grad = torch.tensor([1.5, 2.0])  # [3, 4] * 0.5
+        assert torch.allclose(
+            param.grad, expected_grad, rtol=1e-5, atol=1e-5
+        ), f"Clipped grad {param.grad} != expected {expected_grad}"
+
+        # Verify clipped norm
+        clipped_norm = torch.norm(param.grad)
+        assert torch.allclose(
+            clipped_norm, torch.tensor(max_norm), rtol=1e-5, atol=1e-5
+        ), f"Clipped norm {clipped_norm:.6f} != max_norm {max_norm}"
+
+    @pytest.mark.skipif(not _has_accelerator(), reason="accelerator not available")
+    def test_grad_norm_accelerator(self):
+        """Test gradient norm computation on the active accelerator."""
+
+        device = torch.device(current_platform.device_type)
+
+        class SimpleModel(nn.Module):
+            def __init__(self):
+                super().__init__()
+                self.linear = nn.Linear(10, 5, bias=True)
+
+            def forward(self, x):
+                return self.linear(x)
+
+        model = SimpleModel().to(device)
+
+        # Forward pass
+        x = torch.randn(8, 10, device=device)
+        y_target = torch.randn(8, 5, device=device)
+        y_pred = model(x)
+        loss = ((y_pred - y_target) ** 2).mean()
+
+        # Backward pass
+        loss.backward()
+
+        # Compute gradient norm
+        from torch.nn.utils import clip_grad_norm_
+
+        grad_norm = clip_grad_norm_(
+            model.parameters(), max_norm=float("inf")
+        )
+
+        # Verify it's a valid number
+        assert torch.isfinite(
+            grad_norm
+        ), f"Gradient norm is not finite: {grad_norm}"
+        assert (
+            grad_norm > 0
+        ), f"Gradient norm should be positive, got {grad_norm}"
+
+        # Manual computation
+        total_norm_sq = 0.0
+        for param in model.parameters():
+            if param.grad is not None:
+                param_norm = torch.norm(param.grad)
+                total_norm_sq += param_norm**2
+        manual_norm = torch.sqrt(total_norm_sq)
+
+        assert torch.allclose(
+            grad_norm, manual_norm, rtol=1e-4, atol=1e-5
+        ), f"Computed norm {grad_norm:.6f} != manual norm {manual_norm:.6f}"
+
+
+class TestGradientNormEdgeCases:
+    """Test edge cases in gradient norm computation."""
+
+    def test_zero_gradients(self):
+        """Test gradient norm with zero gradients."""
+        param = nn.Parameter(torch.tensor([1.0, 2.0, 3.0]))
+        param.grad = torch.zeros_like(param)
+
+        from torch.nn.utils import clip_grad_norm_
+
+        grad_norm = clip_grad_norm_([param], max_norm=1.0)
+
+        assert torch.allclose(
+            grad_norm, torch.tensor(0.0)
+        ), f"Zero gradient should have norm 0, got {grad_norm}"
+
+    def test_no_gradients(self):
+        """Test gradient norm when no parameters have gradients."""
+        param = nn.Parameter(torch.tensor([1.0, 2.0, 3.0]))
+        # Don't set grad (None)
+
+        from torch.nn.utils import clip_grad_norm_
+
+        grad_norm = clip_grad_norm_([param], max_norm=1.0)
+
+        assert torch.allclose(
+            grad_norm, torch.tensor(0.0)
+        ), f"No gradient should have norm 0, got {grad_norm}"
+
+    def test_mixed_gradients(self):
+        """Test gradient norm when some parameters have gradients and others don't."""
+        param1 = nn.Parameter(torch.tensor([3.0, 4.0]))
+        param2 = nn.Parameter(torch.tensor([1.0, 2.0]))
+
+        param1.grad = torch.tensor([3.0, 4.0])  # norm = 5
+        # param2.grad is None
+
+        from torch.nn.utils import clip_grad_norm_
+
+        grad_norm = clip_grad_norm_([param1, param2], max_norm=float("inf"))
+
+        expected_norm = torch.tensor(5.0)
+        assert torch.allclose(
+            grad_norm, expected_norm, rtol=1e-5
+        ), f"Computed norm {grad_norm:.6f} != expected {expected_norm:.6f}"
+
+
+if __name__ == "__main__":
+    pytest.main([__file__, "-v", "-s"])
diff --git a/tests/distributed/strategy/log_probs/analyze_layer_divergence.py b/tests/distributed/strategy/log_probs/analyze_layer_divergence.py
new file mode 100644
index 000000000..7ca932781
--- /dev/null
+++ b/tests/distributed/strategy/log_probs/analyze_layer_divergence.py
@@ -0,0 +1,612 @@
+import argparse
+import json
+from pathlib import Path
+from typing import Dict, List, Optional, Tuple
+
+import numpy as np
+import torch
+from tqdm import tqdm
+
+
+def load_layer_states(
+    state_dir: Path, prefix: str, global_step: int, batch_idx: int = 0, subdir: str = "layers"
+) -> Dict:
+    """Load all layer states for a given step and batch."""
+    layer_states = {}
+
+    # Look in subdirectory (layers or embeddings)
+    search_dir = state_dir / subdir if subdir else state_dir
+
+    if not search_dir.exists():
+        return layer_states
+
+    # Find all files matching the pattern
+    pattern = f"{prefix}_step{global_step}_batch{batch_idx}_*.pt"
+    state_files = list(search_dir.glob(pattern))
+
+    for state_file in state_files:
+        # Parse filename patterns:
+        # - {prefix}_step{step}_batch{batch}_layer_states_{layer_key}_{state_key}.pt
+        # - {prefix}_step{step}_batch{batch}_{direct_key}.pt (e.g., inputs_embeds)
+        stem = state_file.stem
+        prefix_pattern = f"{prefix}_step{global_step}_batch{batch_idx}_"
+
+        if not stem.startswith(prefix_pattern):
+            continue
+
+        # Remove prefix to get the key part
+        key_part = stem[len(prefix_pattern) :]
+
+        # Check if it's a layer_states file
+        # Pattern: layer_states_layer_{N}_{state_key}
+        # Example: layer_states_layer_0_before_attn
+        if key_part.startswith("layer_states_"):
+            parts = key_part.split("_")
+            # parts = ['layer', 'states', 'layer', '0', 'before', 'attn', ...]
+            if len(parts) >= 4 and parts[0] == "layer" and parts[1] == "states":
+                # parts[2] = "layer", parts[3] = layer number
+                layer_key = f"{parts[2]}_{parts[3]}"  # e.g., "layer_0"
+                if len(parts) > 4:
+                    state_key = "_".join(parts[4:])  # e.g., "before_attn"
+                else:
+                    state_key = "hidden_state"
+
+                if layer_key not in layer_states:
+                    layer_states[layer_key] = {}
+                layer_states[layer_key][state_key] = torch.load(state_file)
+        else:
+            # Direct key (e.g., inputs_embeds, visual_image_embeds)
+            layer_states[key_part] = torch.load(state_file)
+
+    return layer_states
+
+
+def compute_tensor_diff(tensor1: torch.Tensor, tensor2: torch.Tensor, mask: Optional[torch.Tensor] = None) -> Dict:
+    """Compute various difference metrics between two tensors."""
+    transposed = None
+    if tensor1.shape != tensor2.shape:
+        # Common layout mismatch between frameworks:
+        # - Megatron often uses [S, B, H]
+        # - HF/FSDP often uses [B, S, H]
+        # Try swapping the first two dims for 2D/3D tensors.
+        if tensor1.dim() in (2, 3) and tensor2.dim() == tensor1.dim():
+            if tensor1.transpose(0, 1).shape == tensor2.shape:
+                tensor1 = tensor1.transpose(0, 1).contiguous()
+                transposed = "tensor1"
+                if mask is not None and mask.dim() >= 2 and mask.shape == tensor2.transpose(0, 1).shape:
+                    mask = mask.transpose(0, 1).contiguous()
+            elif tensor2.transpose(0, 1).shape == tensor1.shape:
+                tensor2 = tensor2.transpose(0, 1).contiguous()
+                transposed = "tensor2"
+                if mask is not None and mask.dim() >= 2 and mask.shape == tensor2.transpose(0, 1).shape:
+                    mask = mask.transpose(0, 1).contiguous()
+
+    if tensor1.shape != tensor2.shape:
+        return {
+            "shape_mismatch": True,
+            "shape1": list(tensor1.shape),
+            "shape2": list(tensor2.shape),
+        }
+
+    # Handle bool tensors (e.g., visual_pos_masks)
+    if tensor1.dtype == torch.bool or tensor2.dtype == torch.bool:
+        if tensor1.dtype != tensor2.dtype:
+            return {
+                "dtype_mismatch": True,
+                "dtype1": str(tensor1.dtype),
+                "dtype2": str(tensor2.dtype),
+            }
+        # For bool tensors, compute element-wise equality
+        equal = tensor1 == tensor2
+        if mask is not None:
+            if mask.shape != tensor1.shape:
+                mask = mask.expand_as(tensor1)
+            equal = equal | (~mask)  # Consider masked positions as equal
+        num_different = (~equal).sum().item()
+        total = equal.numel()
+        return {
+            "is_bool": True,
+            "num_different": num_different,
+            "total": total,
+            "match_rate": (total - num_different) / total if total > 0 else 1.0,
+        }
+
+    diff = tensor1 - tensor2
+    abs_diff = diff.abs()
+
+    if mask is not None:
+        if mask.shape != tensor1.shape:
+            # Try to broadcast mask
+            mask = mask.expand_as(tensor1)
+        abs_diff_masked = abs_diff * mask
+        max_diff = abs_diff_masked.max().item()
+        mean_diff = abs_diff_masked[mask > 0].mean().item() if mask.any() else 0.0
+        max_abs_value = torch.max(tensor1.abs(), tensor2.abs())[mask > 0].max().item() if mask.any() else 0.0
+    else:
+        max_diff = abs_diff.max().item()
+        mean_diff = abs_diff.mean().item()
+        max_abs_value = torch.max(tensor1.abs(), tensor2.abs()).max().item()
+
+    # Relative error
+    relative_error = max_diff / (max_abs_value + 1e-10)
+
+    # Cosine similarity
+    tensor1_flat = tensor1.flatten()
+    tensor2_flat = tensor2.flatten()
+    cos_sim = torch.nn.functional.cosine_similarity(tensor1_flat.unsqueeze(0), tensor2_flat.unsqueeze(0)).item()
+
+    return {
+        "max_diff": max_diff,
+        "mean_diff": mean_diff,
+        "relative_error": relative_error,
+        "cosine_similarity": cos_sim,
+        "shape_mismatch": False,
+        "transposed": transposed,
+    }
+
+
+def compare_layer_states(fsdp_states: Dict, hf_states: Dict, attention_mask: Optional[torch.Tensor] = None) -> Dict:
+    """Compare layer states between FSDP2 and HF.
+
+    Handles both:
+    - Nested structure: {layer_0: {before_attn: tensor, ...}, ...}  (layer states)
+    - Flat structure: {inputs_embeds: tensor, ...}  (embeddings)
+    """
+    comparison = {}
+
+    # Get all keys (union of both)
+    all_keys = set(fsdp_states.keys()) | set(hf_states.keys())
+
+    for key in sorted(all_keys):
+        if key not in fsdp_states or key not in hf_states:
+            comparison[key] = {"missing": True}
+            continue
+
+        fsdp_value = fsdp_states[key]
+        hf_value = hf_states[key]
+
+        # Check if this is a nested structure (layer states) or flat (embeddings)
+        if isinstance(fsdp_value, dict) and isinstance(hf_value, dict):
+            # Nested structure: layer states
+            layer_comparison = {}
+
+            # Compare each state within the layer
+            all_state_keys = set(fsdp_value.keys()) | set(hf_value.keys())
+            for state_key in sorted(all_state_keys):
+                if state_key not in fsdp_value or state_key not in hf_value:
+                    layer_comparison[state_key] = {"missing": True}
+                    continue
+
+                fsdp_tensor = fsdp_value[state_key]
+                hf_tensor = hf_value[state_key]
+
+                if isinstance(fsdp_tensor, torch.Tensor) and isinstance(hf_tensor, torch.Tensor):
+                    # Skip comparison for visual_pos_masks (they're metadata, just check if they match)
+                    if state_key == "visual_pos_masks":
+                        if fsdp_tensor.shape == hf_tensor.shape and fsdp_tensor.dtype == hf_tensor.dtype:
+                            match = (fsdp_tensor == hf_tensor).all().item()
+                            layer_comparison[state_key] = {
+                                "is_mask": True,
+                                "match": match,
+                                "shape": list(fsdp_tensor.shape),
+                            }
+                        else:
+                            layer_comparison[state_key] = {
+                                "is_mask": True,
+                                "match": False,
+                                "shape_mismatch": True,
+                                "shape1": list(fsdp_tensor.shape),
+                                "shape2": list(hf_tensor.shape),
+                            }
+                    else:
+                        # Create mask for this state if attention_mask is provided
+                        # Note: layer states might have different shapes, so we need to be careful
+                        mask = None
+                        if attention_mask is not None and state_key not in (
+                            "visual_pos_masks",
+                            "deepstack_visual_embeds",
+                        ):
+                            # Try to create appropriate mask based on tensor shape
+                            if len(fsdp_tensor.shape) >= 2:
+                                # attention_mask is [B, S]
+                                if (
+                                    fsdp_tensor.shape[0] == attention_mask.shape[0]
+                                    and fsdp_tensor.shape[1] == attention_mask.shape[1]
+                                ):
+                                    # [B, S, ...]
+                                    mask = attention_mask
+                                elif (
+                                    fsdp_tensor.shape[0] == attention_mask.shape[1]
+                                    and fsdp_tensor.shape[1] == attention_mask.shape[0]
+                                ):
+                                    # [S, B, ...]
+                                    mask = attention_mask.transpose(0, 1)
+                                if mask is not None:
+                                    mask = mask.unsqueeze(-1)
+                                    while mask.dim() < fsdp_tensor.dim():
+                                        mask = mask.unsqueeze(-1)
+                                    mask = mask.expand_as(fsdp_tensor)
+
+                        diff_stats = compute_tensor_diff(fsdp_tensor, hf_tensor, mask)
+                        layer_comparison[state_key] = diff_stats
+                else:
+                    layer_comparison[state_key] = {"type_mismatch": True}
+
+            comparison[key] = layer_comparison
+        elif isinstance(fsdp_value, torch.Tensor) and isinstance(hf_value, torch.Tensor):
+            # Flat structure: direct tensor comparison (embeddings)
+            # Skip bool tensors (masks)
+            if fsdp_value.dtype == torch.bool or hf_value.dtype == torch.bool:
+                if fsdp_value.shape == hf_value.shape and fsdp_value.dtype == hf_value.dtype:
+                    match = (fsdp_value == hf_value).all().item()
+                    comparison[key] = {
+                        "is_mask": True,
+                        "match": match,
+                        "shape": list(fsdp_value.shape),
+                    }
+                else:
+                    comparison[key] = {
+                        "is_mask": True,
+                        "match": False,
+                        "shape_mismatch": True,
+                        "shape1": list(fsdp_value.shape),
+                        "shape2": list(hf_value.shape),
+                    }
+            else:
+                # Create mask if attention_mask is provided
+                mask = None
+                if attention_mask is not None:
+                    if len(fsdp_value.shape) >= 2:
+                        if (
+                            fsdp_value.shape[0] == attention_mask.shape[0]
+                            and fsdp_value.shape[1] == attention_mask.shape[1]
+                        ):
+                            mask = attention_mask
+                        elif (
+                            fsdp_value.shape[0] == attention_mask.shape[1]
+                            and fsdp_value.shape[1] == attention_mask.shape[0]
+                        ):
+                            mask = attention_mask.transpose(0, 1)
+                        if mask is not None:
+                            mask = mask.unsqueeze(-1)
+                            while mask.dim() < fsdp_value.dim():
+                                mask = mask.unsqueeze(-1)
+                            mask = mask.expand_as(fsdp_value)
+
+                diff_stats = compute_tensor_diff(fsdp_value, hf_value, mask)
+                comparison[key] = diff_stats
+        else:
+            comparison[key] = {"type_mismatch": True}
+
+    return comparison
+
+
+def find_divergence_point(comparison: Dict, threshold: float = 1e-5) -> Optional[int]:
+    """Find the first point where divergence exceeds threshold.
+
+    Supports both:
+    - Nested layer structure: {layer_0: {before_attn: {max_diff: ...}, ...}, ...}
+    - Flat tensor structure:  {inputs_embeds: {max_diff: ...}, ...}
+      (e.g., if some tensors were saved directly under `layers/` without the `layer_states_` prefix)
+    """
+    for layer_idx, (layer_key, layer_comp) in enumerate(sorted(comparison.items())):
+        # Defensive: some keys may map to non-dicts in malformed/partial outputs.
+        if not isinstance(layer_comp, dict):
+            continue
+
+        # Flat diff-stats dict (max_diff/mean_diff/...) at top level
+        if "max_diff" in layer_comp and isinstance(layer_comp.get("max_diff", None), (int, float)):
+            if layer_comp.get("max_diff", 0) > threshold:
+                return layer_idx, layer_key, "__tensor__"
+            continue
+
+        # Nested layer dict case
+        if "missing" in layer_comp:
+            continue
+
+        for state_key, state_comp in layer_comp.items():
+            if not isinstance(state_comp, dict):
+                continue
+            if "missing" in state_comp or "type_mismatch" in state_comp:
+                continue
+
+            if state_comp.get("max_diff", 0) > threshold:
+                return layer_idx, layer_key, state_key
+
+    return None
+
+
+def analyze_divergence(
+    fsdp_dir: Path,
+    hf_dir: Path,
+    inputs_dir: Path,
+    output_file: Path,
+    fsdp_prefix: str = "fsdp2",
+    hf_prefix: str = "hf",
+    fsdp_name: str = "FSDP2",
+    hf_name: str = "HF",
+    global_step: int = 0,
+    batch_idx: int = 0,
+    threshold: float = 1e-5,
+):
+    """Main analysis function."""
+    print(f"Analyzing divergence for step {global_step}, batch {batch_idx}")
+
+    # Load embeddings first
+    print("Loading embeddings...")
+    fsdp_embeddings = load_layer_states(fsdp_dir, fsdp_prefix, global_step, batch_idx, subdir="embeddings")
+    hf_embeddings = load_layer_states(hf_dir, hf_prefix, global_step, batch_idx, subdir="embeddings")
+    print(f"{fsdp_name} embeddings: {list(fsdp_embeddings.keys())}")
+    print(f"{hf_name} embeddings: {list(hf_embeddings.keys())}")
+
+    # Load layer states
+    print(f"Loading {fsdp_name} layer states...")
+    fsdp_states = load_layer_states(fsdp_dir, fsdp_prefix, global_step, batch_idx, subdir="layers")
+    print(f"Loaded {len(fsdp_states)} layers from {fsdp_name}")
+
+    print(f"Loading {hf_name} layer states...")
+    hf_states = load_layer_states(hf_dir, hf_prefix, global_step, batch_idx, subdir="layers")
+    print(f"Loaded {len(hf_states)} layers from {hf_name}")
+
+    # Load attention mask if available
+    attention_mask = None
+    mask_file = inputs_dir / f"input_step{global_step}_batch{batch_idx}_attention_mask.pt"
+    if mask_file.exists():
+        attention_mask = torch.load(mask_file)
+        print(f"Loaded attention mask: {attention_mask.shape}")
+
+    # Compare embeddings first
+    print("Comparing embeddings...")
+    embedding_comparison = compare_layer_states(fsdp_embeddings, hf_embeddings, attention_mask)
+
+    # Compare states
+    print("Comparing layer states...")
+    comparison = compare_layer_states(fsdp_states, hf_states, attention_mask)
+
+    # Find divergence point
+    divergence_point = find_divergence_point(comparison, threshold)
+
+    # Generate summary
+    summary = {
+        "global_step": global_step,
+        "batch_idx": batch_idx,
+        "fsdp_prefix": fsdp_prefix,
+        "hf_prefix": hf_prefix,
+        "fsdp_name": fsdp_name,
+        "hf_name": hf_name,
+        "num_fsdp_layers": len(fsdp_states),
+        "num_hf_layers": len(hf_states),
+        "divergence_threshold": threshold,
+        "divergence_point": divergence_point,
+        "embedding_comparison": embedding_comparison,
+        "layer_comparison": comparison,
+    }
+
+    # Add per-layer summary
+    layer_summaries = []
+    for layer_key, layer_comp in sorted(comparison.items()):
+        if not isinstance(layer_comp, dict):
+            continue
+
+        # Flat diff-stats dict at top level (treat as a "layer" summary entry too)
+        if "max_diff" in layer_comp and isinstance(layer_comp.get("max_diff", None), (int, float)):
+            layer_summaries.append(
+                {
+                    "layer": layer_key,
+                    "max_diff": float(layer_comp.get("max_diff", 0.0)),
+                    "mean_diff": float(layer_comp.get("mean_diff", 0.0)),
+                    "max_relative_error": float(layer_comp.get("relative_error", 0.0)),
+                    "min_cosine_similarity": float(layer_comp.get("cosine_similarity", 1.0)),
+                }
+            )
+            continue
+
+        if "missing" in layer_comp:
+            continue
+
+        layer_max_diff = 0.0
+        layer_mean_diff = 0.0
+        layer_max_relative_error = 0.0
+        layer_min_cosine_sim = 1.0
+
+        for state_key, state_comp in layer_comp.items():
+            if not isinstance(state_comp, dict):
+                continue
+            if "missing" in state_comp or "type_mismatch" in state_comp:
+                continue
+
+            layer_max_diff = max(layer_max_diff, state_comp.get("max_diff", 0))
+            layer_mean_diff = max(layer_mean_diff, state_comp.get("mean_diff", 0))
+            layer_max_relative_error = max(layer_max_relative_error, state_comp.get("relative_error", 0))
+            layer_min_cosine_sim = min(layer_min_cosine_sim, state_comp.get("cosine_similarity", 1.0))
+
+        layer_summaries.append(
+            {
+                "layer": layer_key,
+                "max_diff": layer_max_diff,
+                "mean_diff": layer_mean_diff,
+                "max_relative_error": layer_max_relative_error,
+                "min_cosine_similarity": layer_min_cosine_sim,
+            }
+        )
+
+    summary["layer_summaries"] = layer_summaries
+
+    # Save results
+    with open(output_file, "w") as f:
+        json.dump(summary, f, indent=2, default=str)
+
+    print(f"\nAnalysis complete. Results saved to {output_file}")
+
+    # Analyze embedding divergence
+    print("\n" + "=" * 80)
+    print("EMBEDDING ANALYSIS")
+    print("=" * 80)
+    if embedding_comparison:
+        print("\nEmbedding differences:")
+        max_emb_diff = 0.0
+        max_emb_rel_err = 0.0
+        for emb_key, emb_stats in sorted(embedding_comparison.items()):
+            if "is_mask" in emb_stats:
+                print(f"  {emb_key}: ✓ Match (metadata)")
+                continue
+            if "shape_mismatch" in emb_stats and emb_stats["shape_mismatch"]:
+                print(f"  {emb_key}: ✗ SHAPE MISMATCH")
+                continue
+            max_diff = emb_stats.get("max_diff", 0)
+            rel_err = emb_stats.get("relative_error", 0)
+            cos_sim = emb_stats.get("cosine_similarity", 1.0)
+            max_emb_diff = max(max_emb_diff, max_diff)
+            max_emb_rel_err = max(max_emb_rel_err, rel_err)
+
+            # Determine severity
+            severity = ""
+            if max_diff > 0.01 or rel_err > 0.01:
+                severity = " ⚠️  HIGH"
+            elif max_diff > 0.001 or rel_err > 0.001:
+                severity = " ⚠️  MEDIUM"
+
+            print(
+                f"  {emb_key}: max_diff={max_diff:.6f}, "
+                f"rel_error={rel_err:.6f}, "
+                f"cos_sim={cos_sim:.6f}{severity}"
+            )
+
+        print(f"\nEmbedding Summary:")
+        print(f"  Max absolute difference: {max_emb_diff:.6f}")
+        print(f"  Max relative error: {max_emb_rel_err:.6f}")
+
+        if max_emb_diff > 0.01 or max_emb_rel_err > 0.01:
+            print(f"\n  ⚠️  WARNING: Significant divergence detected at EMBEDDING phase!")
+            print(f"     This is likely the ROOT CAUSE of logprobs differences.")
+            print(f"     Possible causes:")
+            print(f"     1. Different input_ids or tokenization")
+            print(f"     2. Different visual encoder outputs (vision model differences)")
+            print(f"     3. Different embedding layer weights (model loading/initialization)")
+            print(f"     4. Numerical precision differences in embedding computation")
+            print(f"     → Check if input_ids are identical between FSDP2 and HF")
+            print(f"     → Check if pixel_values are processed identically")
+        elif max_emb_diff > 0.001:
+            print(f"\n  ⚠️  Moderate differences at embedding phase")
+            print(f"     These may accumulate through layers")
+        else:
+            print(f"\n  ✓ Embeddings are very similar (differences likely numerical precision)")
+
+    print("\n" + "=" * 80)
+    print("LAYER-BY-LAYER ANALYSIS")
+    print("=" * 80)
+    print(f"\nDivergence point (threshold={threshold}): {divergence_point}")
+    print("\nLayer summaries (showing divergence progression):")
+
+    # Analyze embedding divergence
+    print("\n" + "=" * 80)
+    print("EMBEDDING ANALYSIS")
+    print("=" * 80)
+    if embedding_comparison:
+        print("\nEmbedding differences:")
+        for emb_key, emb_stats in sorted(embedding_comparison.items()):
+            if "is_mask" in emb_stats:
+                continue
+            if "shape_mismatch" in emb_stats and emb_stats["shape_mismatch"]:
+                print(f"  {emb_key}: SHAPE MISMATCH")
+                continue
+            max_diff = emb_stats.get("max_diff", 0)
+            rel_err = emb_stats.get("relative_error", 0)
+            cos_sim = emb_stats.get("cosine_similarity", 1.0)
+            print(f"  {emb_key}: max_diff={max_diff:.6f}, " f"rel_error={rel_err:.6f}, " f"cos_sim={cos_sim:.6f}")
+
+        # Check if embeddings show significant divergence
+        max_emb_diff = max(
+            (
+                emb_stats.get("max_diff", 0)
+                for emb_stats in embedding_comparison.values()
+                if "is_mask" not in emb_stats and not emb_stats.get("shape_mismatch", False)
+            ),
+            default=0,
+        )
+        max_emb_rel_err = max(
+            (
+                emb_stats.get("relative_error", 0)
+                for emb_stats in embedding_comparison.values()
+                if "is_mask" not in emb_stats and not emb_stats.get("shape_mismatch", False)
+            ),
+            default=0,
+        )
+
+        print(f"\nEmbedding summary:")
+        print(f"  Max absolute difference: {max_emb_diff:.6f}")
+        print(f"  Max relative error: {max_emb_rel_err:.6f}")
+
+        if max_emb_diff > 1e-3 or max_emb_rel_err > 0.01:
+            print(f"  ⚠️  WARNING: Significant divergence detected at embedding phase!")
+            print(f"     This suggests differences in:")
+            print(f"     - Input token embeddings (check if input_ids are identical)")
+            print(f"     - Visual encoder outputs (check vision model implementation)")
+            print(f"     - Embedding layer weights (check model initialization/loading)")
+        else:
+            print(f"  ✓ Embeddings are very similar (differences likely due to numerical precision)")
+
+    print("\n" + "=" * 80)
+    print("LAYER-BY-LAYER ANALYSIS")
+    print("=" * 80)
+    print("\nLayer summaries (showing divergence progression):")
+    for i, layer_summary in enumerate(layer_summaries[:20]):  # Show first 20 layers
+        layer_name = layer_summary["layer"]
+        max_diff = layer_summary["max_diff"]
+        rel_err = layer_summary["max_relative_error"]
+        cos_sim = layer_summary["min_cosine_similarity"]
+
+        # Mark significant divergence
+        marker = ""
+        if max_diff > threshold:
+            marker = " ⚠️  DIVERGED"
+        elif max_diff > threshold / 10:
+            marker = " ⚠️  WARNING"
+
+        print(
+            f"  [{i:2d}] {layer_name}: max_diff={max_diff:.6e}, "
+            f"rel_error={rel_err:.6e}, "
+            f"cos_sim={cos_sim:.6f}{marker}"
+        )
+
+    if len(layer_summaries) > 20:
+        print(f"  ... ({len(layer_summaries) - 20} more layers)")
+
+    return summary
+
+
+def main():
+    parser = argparse.ArgumentParser(description="Analyze layer state divergence between FSDP2 and HF")
+    parser.add_argument("--fsdp-dir", type=str, required=True, help="Directory containing FSDP2 layer states")
+    parser.add_argument("--hf-dir", type=str, required=True, help="Directory containing HF layer states")
+    parser.add_argument("--inputs-dir", type=str, required=True, help="Directory containing input tensors")
+    parser.add_argument("--output", type=str, default="divergence_analysis.json", help="Output JSON file")
+    parser.add_argument("--step", type=int, default=0, help="Global step to analyze")
+    parser.add_argument("--batch", type=int, default=0, help="Batch index to analyze")
+    parser.add_argument("--threshold", type=float, default=1e-5, help="Divergence threshold")
+    parser.add_argument("--fsdp-prefix", type=str, default="fsdp2", help="Prefix used for FSDP2 saved tensors")
+    parser.add_argument(
+        "--hf-prefix", type=str, default="hf", help="Prefix used for baseline saved tensors (hf/megatron)"
+    )
+    parser.add_argument("--fsdp-name", type=str, default="FSDP2", help="Display name for FSDP side")
+    parser.add_argument("--hf-name", type=str, default="HF", help="Display name for baseline side")
+
+    args = parser.parse_args()
+
+    analyze_divergence(
+        fsdp_dir=Path(args.fsdp_dir),
+        hf_dir=Path(args.hf_dir),
+        inputs_dir=Path(args.inputs_dir),
+        output_file=Path(args.output),
+        fsdp_prefix=args.fsdp_prefix,
+        hf_prefix=args.hf_prefix,
+        fsdp_name=args.fsdp_name,
+        hf_name=args.hf_name,
+        global_step=args.step,
+        batch_idx=args.batch,
+        threshold=args.threshold,
+    )
+
+
+if __name__ == "__main__":
+    main()
diff --git a/tests/distributed/strategy/log_probs/apply_model_patch.py b/tests/distributed/strategy/log_probs/apply_model_patch.py
new file mode 100644
index 000000000..44c5dc5f8
--- /dev/null
+++ b/tests/distributed/strategy/log_probs/apply_model_patch.py
@@ -0,0 +1,744 @@
+import os
+
+import torch
+import torch.nn.functional as F
+from numpy import save
+
+# Try to import the capture utilities
+try:
+    from tests.distributed.strategy.log_probs.layer_states_capture import is_enabled, save_dict, save_tensor
+except ImportError:
+    # If not available, create no-op functions
+    def is_enabled():
+        return False
+
+    def save_tensor(tensor, name, subdir=""):
+        pass
+
+    def save_dict(data, name, subdir=""):
+        pass
+
+
+def apply_qwen3vl_patches():
+    """Apply patches to Qwen3VL model classes."""
+    try:
+        from transformers.models.qwen3_vl.modeling_qwen3_vl import (
+            ALL_ATTENTION_FUNCTIONS,
+            Callable,
+            CustomBaseModelOutputWithPast,
+            DynamicCache,
+            Qwen3VLModel,
+            Qwen3VLTextDecoderLayer,
+            Qwen3VLTextMLP,
+            Qwen3VLTextModel,
+            Qwen3VLVisionAttention,
+            Qwen3VLVisionBlock,
+            Qwen3VLVisionModel,
+            apply_rotary_pos_emb_vision,
+            create_causal_mask,
+            eager_attention_forward,
+        )
+
+        # Patch Qwen3VLTextModel.forward
+        original_text_model_forward = Qwen3VLTextModel.forward
+
+        def patched_text_model_forward(
+            self,
+            input_ids=None,
+            attention_mask=None,
+            position_ids=None,
+            past_key_values=None,
+            inputs_embeds=None,
+            use_cache=None,
+            cache_position=None,
+            visual_pos_masks=None,
+            deepstack_visual_embeds=None,
+            **kwargs,
+        ):
+            # Capture inputs_embeds
+            if inputs_embeds is not None and is_enabled():
+                save_tensor(inputs_embeds, "inputs_embeds", subdir="embeddings")
+
+            # Capture visual embeddings
+            if deepstack_visual_embeds is not None and is_enabled():
+                for i, visual_embed in enumerate(deepstack_visual_embeds):
+                    save_tensor(visual_embed, f"deepstack_visual_embeds_{i}", subdir="embeddings")
+
+            if visual_pos_masks is not None and is_enabled():
+                save_tensor(visual_pos_masks, "visual_pos_masks", subdir="embeddings")
+
+            # Call original forward
+            if is_enabled():
+                if (input_ids is None) ^ (inputs_embeds is not None):
+                    raise ValueError("You must specify exactly one of input_ids or inputs_embeds")
+
+                # torch.jit.trace() doesn't support cache objects in the output
+                if use_cache and past_key_values is None and not torch.jit.is_tracing():
+                    past_key_values = DynamicCache(config=self.config)
+
+                if inputs_embeds is None:
+                    inputs_embeds = self.embed_tokens(input_ids)
+
+                if cache_position is None:
+                    past_seen_tokens = past_key_values.get_seq_length() if past_key_values is not None else 0
+                    cache_position = torch.arange(
+                        past_seen_tokens, past_seen_tokens + inputs_embeds.shape[1], device=inputs_embeds.device
+                    )
+
+                # the hard coded `3` is for temporal, height and width.
+                if position_ids is None:
+                    position_ids = cache_position.view(1, 1, -1).expand(3, inputs_embeds.shape[0], -1)
+                elif position_ids.ndim == 2:
+                    position_ids = position_ids[None, ...].expand(3, position_ids.shape[0], -1)
+
+                if position_ids.ndim == 3 and position_ids.shape[0] == 4:
+                    text_position_ids = position_ids[0]
+                    position_ids = position_ids[1:]
+                else:
+                    text_position_ids = position_ids[0]
+
+                attention_mask = create_causal_mask(
+                    config=self.config,
+                    input_embeds=inputs_embeds,
+                    attention_mask=attention_mask,
+                    cache_position=cache_position,
+                    past_key_values=past_key_values,
+                    position_ids=text_position_ids,
+                )
+
+                hidden_states = inputs_embeds
+
+                # create position embeddings to be shared across the decoder layers
+                position_embeddings = self.rotary_emb(hidden_states, position_ids)
+
+                # decoder layers
+                layer_states = {}
+                for layer_idx, decoder_layer in enumerate(self.layers):
+                    layer_outputs, layer_state = decoder_layer(
+                        hidden_states,
+                        attention_mask=attention_mask,
+                        position_ids=text_position_ids,
+                        past_key_values=past_key_values,
+                        cache_position=cache_position,
+                        position_embeddings=position_embeddings,
+                        layer_ids=layer_idx,
+                        **kwargs,
+                    )
+                    hidden_states = layer_outputs
+                    layer_states[f"layer_{layer_idx}"] = layer_state
+                    layer_states[f"layer_{layer_idx}_visual_pos_masks"] = visual_pos_masks
+
+                    # add visual features to the hidden states of first several layers
+                    if deepstack_visual_embeds is not None and layer_idx in range(len(deepstack_visual_embeds)):
+                        layer_states[f"layer_{layer_idx}_deepstack_visual_embeds"] = deepstack_visual_embeds[layer_idx]
+                        hidden_states = self._deepstack_process(
+                            hidden_states,
+                            visual_pos_masks,
+                            deepstack_visual_embeds[layer_idx],
+                        )
+                        layer_states[f"layer_{layer_idx}_deepstack"] = hidden_states
+
+                hidden_states = self.norm(hidden_states)
+
+                return CustomBaseModelOutputWithPast(
+                    last_hidden_state=hidden_states,
+                    past_key_values=past_key_values,
+                    layer_states=layer_states,
+                )
+            else:
+                output = original_text_model_forward(
+                    self,
+                    input_ids=input_ids,
+                    attention_mask=attention_mask,
+                    position_ids=position_ids,
+                    past_key_values=past_key_values,
+                    inputs_embeds=inputs_embeds,
+                    use_cache=use_cache,
+                    cache_position=cache_position,
+                    visual_pos_masks=visual_pos_masks,
+                    deepstack_visual_embeds=deepstack_visual_embeds,
+                    **kwargs,
+                )
+
+            # Capture layer_states
+            if hasattr(output, "layer_states") and output.layer_states is not None and is_enabled():
+                save_dict(output.layer_states, "layer_states", subdir="layers")
+
+            return output
+
+        Qwen3VLTextModel.forward = patched_text_model_forward
+
+        # Patch Qwen3VLModel.forward to capture visual embeddings
+        original_model_forward = Qwen3VLModel.forward
+
+        def patched_model_forward(
+            self,
+            input_ids=None,
+            attention_mask=None,
+            position_ids=None,
+            past_key_values=None,
+            inputs_embeds=None,
+            pixel_values=None,
+            pixel_values_videos=None,
+            image_grid_thw=None,
+            video_grid_thw=None,
+            cache_position=None,
+            **kwargs,
+        ):
+            # Call original forward
+            output = original_model_forward(
+                self,
+                input_ids=input_ids,
+                attention_mask=attention_mask,
+                position_ids=position_ids,
+                past_key_values=past_key_values,
+                inputs_embeds=inputs_embeds,
+                pixel_values=pixel_values,
+                pixel_values_videos=pixel_values_videos,
+                image_grid_thw=image_grid_thw,
+                video_grid_thw=video_grid_thw,
+                cache_position=cache_position,
+                **kwargs,
+            )
+
+            # Capture layer_states from output
+            if hasattr(output, "layer_states") and output.layer_states is not None and is_enabled():
+                save_dict(output.layer_states, "layer_states", subdir="layers")
+
+            return output
+
+        Qwen3VLModel.forward = patched_model_forward
+
+        # Patch Qwen3VLVisionModel.forward to capture visual embeddings
+        original_vision_forward = Qwen3VLVisionModel.forward
+
+        def patched_vision_forward(self, hidden_states, grid_thw, **kwargs):
+            if is_enabled():
+                save_tensor(hidden_states, "visual_hidden_states", subdir="embeddings")
+
+                hidden_states = self.patch_embed(hidden_states)
+
+                pos_embeds = self.fast_pos_embed_interpolate(grid_thw)
+                hidden_states = hidden_states + pos_embeds
+
+                rotary_pos_emb = self.rot_pos_emb(grid_thw)
+
+                seq_len, _ = hidden_states.size()
+                hidden_states = hidden_states.reshape(seq_len, -1)
+                rotary_pos_emb = rotary_pos_emb.reshape(seq_len, -1)
+                emb = torch.cat((rotary_pos_emb, rotary_pos_emb), dim=-1)
+                position_embeddings = (emb.cos(), emb.sin())
+
+                cu_seqlens = torch.repeat_interleave(grid_thw[:, 1] * grid_thw[:, 2], grid_thw[:, 0]).cumsum(
+                    dim=0,
+                    # Select dtype based on the following factors:
+                    #  - FA2 requires that cu_seqlens_q must have dtype int32
+                    #  - torch.onnx.export requires that cu_seqlens_q must have same dtype as grid_thw
+                    # See https://github.com/huggingface/transformers/pull/34852 for more information
+                    dtype=grid_thw.dtype if torch.jit.is_tracing() else torch.int32,
+                )
+                cu_seqlens = F.pad(cu_seqlens, (1, 0), value=0)
+
+                deepstack_feature_lists = []
+                for layer_num, blk in enumerate(self.blocks):
+                    hidden_states = blk(
+                        hidden_states,
+                        cu_seqlens=cu_seqlens,
+                        position_embeddings=position_embeddings,
+                        layer_ids=layer_num,
+                        **kwargs,
+                    )
+                    save_tensor(hidden_states, f"visual_hidden_states_{layer_num}", subdir="embeddings")
+                    if layer_num in self.deepstack_visual_indexes:
+                        deepstack_feature = self.deepstack_merger_list[self.deepstack_visual_indexes.index(layer_num)](
+                            hidden_states
+                        )
+                        save_tensor(deepstack_feature, f"visual_deepstack_feature_{layer_num}", subdir="embeddings")
+                        deepstack_feature_lists.append(deepstack_feature)
+
+                hidden_states = self.merger(hidden_states)
+                save_tensor(hidden_states, "final_visual_image_embeds", subdir="embeddings")
+                print(f"[DEBUG] Visual Atten Type: {self.blocks[0].attn.config._attn_implementation}")
+
+                output = hidden_states, deepstack_feature_lists
+            else:
+                return original_vision_forward(self, hidden_states, grid_thw, **kwargs)
+
+            # Visual model returns (image_embeds, deepstack_image_embeds)
+            if is_enabled():
+                if isinstance(output, tuple) and len(output) >= 1:
+                    image_embeds = output[0]
+                    save_tensor(image_embeds, "visual_image_embeds", subdir="embeddings")
+
+                    if len(output) >= 2 and output[1] is not None:
+                        deepstack_embeds = output[1]
+                        for i, embed in enumerate(deepstack_embeds):
+                            save_tensor(embed, f"visual_deepstack_embeds_{i}", subdir="embeddings")
+
+            return output
+
+        Qwen3VLVisionModel.forward = patched_vision_forward
+
+        original_vision_decoder_block_forward = Qwen3VLVisionBlock.forward
+
+        def patched_vision_decoder_block_forward(
+            self, hidden_states, cu_seqlens, rotary_pos_emb=None, position_embeddings=None, **kwargs
+        ):
+            if is_enabled():
+                layer_ids = kwargs.pop("layer_ids", 0)
+                norm_result = self.norm1(hidden_states)
+                save_tensor(norm_result, f"visual_block_{layer_ids}_after_norm1", subdir="embeddings")
+
+                attn_result = self.attn(
+                    norm_result,
+                    cu_seqlens=cu_seqlens,
+                    rotary_pos_emb=rotary_pos_emb,
+                    position_embeddings=position_embeddings,
+                    layer_ids=layer_ids,
+                    **kwargs,
+                )
+                save_tensor(attn_result, f"visual_block_{layer_ids}_after_attn", subdir="embeddings")
+
+                hidden_states = hidden_states + attn_result
+
+                norm_result = self.norm2(hidden_states)
+                save_tensor(norm_result, f"visual_block_{layer_ids}_after_norm2", subdir="embeddings")
+
+                mlp_result = self.mlp(norm_result)
+                save_tensor(mlp_result, f"visual_block_{layer_ids}_after_mlp", subdir="embeddings")
+
+                hidden_states = hidden_states + mlp_result
+                return hidden_states
+            return original_vision_decoder_block_forward(
+                self, hidden_states, cu_seqlens, position_embeddings, **kwargs
+            )
+
+        Qwen3VLVisionBlock.forward = patched_vision_decoder_block_forward
+
+        original_vision_attention_forward = Qwen3VLVisionAttention.forward
+
+        def patched_vision_attention_forward(
+            self,
+            hidden_states,
+            cu_seqlens,
+            rotary_pos_emb=None,
+            position_embeddings=None,
+            **kwargs,
+        ):
+            if is_enabled():
+                layer_ids = kwargs.pop("layer_ids", 0)
+                seq_length = hidden_states.shape[0]
+                query_states, key_states, value_states = (
+                    self.qkv(hidden_states).reshape(seq_length, 3, self.num_heads, -1).permute(1, 0, 2, 3).unbind(0)
+                )
+                cos, sin = position_embeddings
+                query_states, key_states = apply_rotary_pos_emb_vision(query_states, key_states, cos, sin)
+
+                query_states = query_states.transpose(0, 1).unsqueeze(0)
+                key_states = key_states.transpose(0, 1).unsqueeze(0)
+                value_states = value_states.transpose(0, 1).unsqueeze(0)
+
+                if layer_ids == 0:
+                    save_tensor(query_states, f"visual_block_{layer_ids}_query_states", subdir="embeddings")
+                    save_tensor(key_states, f"visual_block_{layer_ids}_key_states", subdir="embeddings")
+                    save_tensor(value_states, f"visual_block_{layer_ids}_value_states", subdir="embeddings")
+                    save_tensor(cos, f"visual_block_{layer_ids}_cos", subdir="embeddings")
+                    save_tensor(sin, f"visual_block_{layer_ids}_sin", subdir="embeddings")
+
+                attention_interface: Callable = eager_attention_forward
+                if self.config._attn_implementation != "eager":
+                    attention_interface = ALL_ATTENTION_FUNCTIONS[self.config._attn_implementation]
+
+                if self.config._attn_implementation == "flash_attention_2":
+                    # Flash Attention 2: Use cu_seqlens for variable length attention
+                    max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
+                    attn_output, _ = attention_interface(
+                        self,
+                        query_states,
+                        key_states,
+                        value_states,
+                        attention_mask=None,
+                        scaling=self.scaling,
+                        dropout=0.0 if not self.training else self.attention_dropout,
+                        cu_seq_lens_q=cu_seqlens,
+                        cu_seq_lens_k=cu_seqlens,
+                        max_length_q=max_seqlen,
+                        max_length_k=max_seqlen,
+                        is_causal=False,
+                        **kwargs,
+                    )
+
+                    if layer_ids == 0:
+                        save_tensor(attn_output, f"visual_block_{layer_ids}_after_attn_output", subdir="embeddings")
+                else:
+                    # Other implementations: Process each chunk separately
+                    lengths = cu_seqlens[1:] - cu_seqlens[:-1]
+                    splits = [
+                        torch.split(tensor, lengths.tolist(), dim=2)
+                        for tensor in (query_states, key_states, value_states)
+                    ]
+
+                    attn_outputs = [
+                        attention_interface(
+                            self,
+                            q,
+                            k,
+                            v,
+                            attention_mask=None,
+                            scaling=self.scaling,
+                            dropout=0.0 if not self.training else self.attention_dropout,
+                            is_causal=False,
+                            **kwargs,
+                        )[0]
+                        for q, k, v in zip(*splits)
+                    ]
+                    attn_output = torch.cat(attn_outputs, dim=1)
+
+                attn_output = attn_output.reshape(seq_length, -1).contiguous()
+                attn_output = self.proj(attn_output)
+
+                if layer_ids == 0:
+                    save_tensor(attn_output, f"visual_block_{layer_ids}_after_o_output", subdir="embeddings")
+                return attn_output
+            else:
+                return original_vision_attention_forward(
+                    self, hidden_states, cu_seqlens, rotary_pos_emb, position_embeddings, **kwargs
+                )
+
+        Qwen3VLVisionAttention.forward = patched_vision_attention_forward
+
+        original_text_mlp_forward = Qwen3VLTextMLP.forward
+
+        def patched_text_mlp_forward(self, x, layer_ids=0):
+            if is_enabled():
+                up_proj = self.up_proj(x)
+                save_tensor(up_proj, f"text_block_{layer_ids}_up_proj", subdir="layers")
+                gate_proj = self.gate_proj(x)
+                save_tensor(gate_proj, f"text_block_{layer_ids}_gate_proj", subdir="layers")
+                act_fn = self.act_fn(gate_proj)
+                save_tensor(act_fn, f"text_block_{layer_ids}_act_fn", subdir="layers")
+                down_proj = self.down_proj(act_fn * up_proj)
+                save_tensor(down_proj, f"text_block_{layer_ids}_down_proj", subdir="layers")
+
+                if layer_ids == 0:
+                    up_proj_weight = self.up_proj.weight
+                    save_tensor(up_proj_weight, f"text_block_{layer_ids}_up_proj_weight", subdir="layers")
+                    gate_proj_weight = self.gate_proj.weight
+                    save_tensor(gate_proj_weight, f"text_block_{layer_ids}_gate_proj_weight", subdir="layers")
+                    down_proj_weight = self.down_proj.weight
+                    save_tensor(down_proj_weight, f"text_block_{layer_ids}_down_proj_weight", subdir="layers")
+                return down_proj
+            return original_text_mlp_forward(self, x)
+
+        Qwen3VLTextMLP.forward = patched_text_mlp_forward
+
+        original_text_decoder_layer_forward = Qwen3VLTextDecoderLayer.forward
+
+        def patched_text_decoder_layer_forward(
+            self,
+            hidden_states: torch.Tensor,
+            position_embeddings: tuple[torch.Tensor, torch.Tensor],
+            attention_mask=None,
+            position_ids=None,
+            past_key_values=None,
+            use_cache=False,
+            cache_position=None,
+            **kwargs,
+        ):
+            if is_enabled():
+                layer_ids = kwargs.pop("layer_ids", 0)
+                residual = hidden_states
+                hidden_states = self.input_layernorm(hidden_states)
+
+                before_attn = hidden_states
+                # Self Attention
+                hidden_states, _ = self.self_attn(
+                    hidden_states=hidden_states,
+                    attention_mask=attention_mask,
+                    position_ids=position_ids,
+                    past_key_values=past_key_values,
+                    use_cache=use_cache,
+                    cache_position=cache_position,
+                    position_embeddings=position_embeddings,
+                    **kwargs,
+                )
+
+                after_attn = hidden_states
+
+                hidden_states = residual + hidden_states
+
+                # Fully Connected
+                residual = hidden_states
+                hidden_states = self.post_attention_layernorm(hidden_states)
+
+                after_post_norm = hidden_states
+
+                hidden_states = self.mlp(hidden_states, layer_ids=layer_ids)
+                after_mlp = hidden_states
+
+                hidden_states = residual + hidden_states
+
+                after_mlp_res = hidden_states
+
+                layer_states = {
+                    "before_attn": before_attn,
+                    "after_attn": after_attn,
+                    "after_post_norm": after_post_norm,
+                    "after_mlp": after_mlp,
+                    "after_mlp_res": after_mlp_res,
+                }
+                return hidden_states, layer_states
+            else:
+                return original_text_decoder_layer_forward(
+                    self,
+                    hidden_states,
+                    position_embeddings,
+                    attention_mask,
+                    position_ids,
+                    past_key_values,
+                    use_cache,
+                    cache_position,
+                    **kwargs,
+                )
+
+        Qwen3VLTextDecoderLayer.forward = patched_text_decoder_layer_forward
+
+        return True
+    except ImportError as e:
+        print(f"Warning: Could not import Qwen3VL models for patching: {e}")
+        return False
+
+
+# -----------------------------
+# Megatron/mcore patches
+# -----------------------------
+def apply_qwen3vl_megatron_patches():
+    """
+    Apply patches to mcore_adapter Qwen3-VL classes to capture per-layer states
+    (similar naming/layout to the HF patch above) for divergence debugging.
+    """
+    try:
+        from mcore_adapter.models.qwen3_vl.modeling_qwen3_vl import Qwen3VLGPTModel  # type: ignore[import-not-found]
+        from mcore_adapter.models.qwen3_vl.transformer_block import (
+            Qwen3VLTransformerBlock,
+        )  # type: ignore[import-not-found]
+
+        # -------------------------
+        # Patch Qwen3VLGPTModel.forward
+        # Capture embeddings + visual injection inputs at the text stack boundary.
+        # -------------------------
+        original_gpt_forward = Qwen3VLGPTModel.forward
+
+        def patched_gpt_forward(
+            self,
+            input_ids,
+            position_ids,
+            attention_mask,
+            decoder_input=None,
+            labels=None,
+            inference_context=None,
+            packed_seq_params=None,
+            extra_block_kwargs=None,
+            runtime_gather_output=None,
+            *,
+            inference_params=None,
+            loss_mask=None,
+            visual_pos_masks=None,
+            deepstack_visual_embeds=None,
+        ):
+            if is_enabled():
+                if decoder_input is not None:
+                    save_tensor(decoder_input, "inputs_embeds", subdir="embeddings")
+                if visual_pos_masks is not None:
+                    save_tensor(visual_pos_masks, "visual_pos_masks", subdir="embeddings")
+                if deepstack_visual_embeds is not None:
+                    for i, visual_embed in enumerate(deepstack_visual_embeds):
+                        save_tensor(visual_embed, f"deepstack_visual_embeds_{i}", subdir="embeddings")
+
+            return original_gpt_forward(
+                self,
+                input_ids=input_ids,
+                position_ids=position_ids,
+                attention_mask=attention_mask,
+                decoder_input=decoder_input,
+                labels=labels,
+                inference_context=inference_context,
+                packed_seq_params=packed_seq_params,
+                extra_block_kwargs=extra_block_kwargs,
+                runtime_gather_output=runtime_gather_output,
+                inference_params=inference_params,
+                loss_mask=loss_mask,
+                visual_pos_masks=visual_pos_masks,
+                deepstack_visual_embeds=deepstack_visual_embeds,
+            )
+
+        Qwen3VLGPTModel.forward = patched_gpt_forward
+
+        # -------------------------
+        # Patch Qwen3VLTransformerBlock to capture per-layer intermediates.
+        # Uses hooks to avoid changing model math.
+        # Also patches _deepstack_process to attribute "deepstack" state to the last executed layer.
+        # -------------------------
+        original_block_forward = Qwen3VLTransformerBlock.forward
+        original_deepstack_process = Qwen3VLTransformerBlock._deepstack_process
+
+        def _first_tensor(x):
+            if x is None:
+                return None
+            if isinstance(x, torch.Tensor):
+                return x
+            if isinstance(x, (list, tuple)):
+                for item in x:
+                    t = _first_tensor(item)
+                    if t is not None:
+                        return t
+                return None
+            if hasattr(x, "unwrap"):  # WrappedTensor
+                try:
+                    return x.unwrap()
+                except Exception:
+                    return None
+            return None
+
+        def patched_deepstack_process(self, hidden_states, visual_pos_masks, visual_embeds):
+            out = original_deepstack_process(self, hidden_states, visual_pos_masks, visual_embeds)
+            if is_enabled():
+                idx = getattr(self, "_capture_last_layer_idx", None)
+                if idx is not None:
+                    save_tensor(out, f"layer_states_layer_{idx}_deepstack", subdir="layers")
+            return out
+
+        Qwen3VLTransformerBlock._deepstack_process = patched_deepstack_process
+
+        def patched_block_forward(self, *args, **kwargs):
+            if not is_enabled():
+                return original_block_forward(self, *args, **kwargs)
+
+            # Last layer idx (global layer number - 1) whose forward just ran on this PP rank.
+            self._capture_last_layer_idx = None
+            handles = []
+
+            def _register(module, fn):
+                try:
+                    h = module.register_forward_hook(fn)
+                    handles.append(h)
+                except Exception:
+                    pass
+
+            try:
+                for layer in getattr(self, "layers", []):
+                    layer_idx = getattr(layer, "layer_number", None)
+                    if layer_idx is not None:
+                        layer_idx = int(layer_idx) - 1
+
+                    # input_layernorm -> before_attn
+                    ln = getattr(layer, "input_layernorm", None)
+                    if ln is not None:
+                        _register(
+                            ln,
+                            (
+                                lambda idx: (
+                                    lambda _m, _inp, out: (
+                                        save_tensor(
+                                            _first_tensor(out),
+                                            f"layer_states_layer_{idx}_before_attn",
+                                            subdir="layers",
+                                        )
+                                        if idx is not None
+                                        else None
+                                    )
+                                )
+                            )(layer_idx),
+                        )
+
+                    # self_attention -> after_attn (attention output before residual)
+                    attn = getattr(layer, "self_attention", None)
+                    if attn is not None:
+                        _register(
+                            attn,
+                            (
+                                lambda idx: (
+                                    lambda _m, _inp, out: (
+                                        save_tensor(
+                                            _first_tensor(out), f"layer_states_layer_{idx}_after_attn", subdir="layers"
+                                        )
+                                        if idx is not None
+                                        else None
+                                    )
+                                )
+                            )(layer_idx),
+                        )
+
+                    # post-attn norm (naming differs across versions)
+                    post_ln = getattr(layer, "pre_mlp_layernorm", None) or getattr(
+                        layer, "post_attention_layernorm", None
+                    )
+                    if post_ln is not None:
+                        _register(
+                            post_ln,
+                            (
+                                lambda idx: (
+                                    lambda _m, _inp, out: (
+                                        save_tensor(
+                                            _first_tensor(out),
+                                            f"layer_states_layer_{idx}_after_post_norm",
+                                            subdir="layers",
+                                        )
+                                        if idx is not None
+                                        else None
+                                    )
+                                )
+                            )(layer_idx),
+                        )
+
+                    # mlp -> after_mlp
+                    mlp = getattr(layer, "mlp", None)
+                    if mlp is not None:
+                        _register(
+                            mlp,
+                            (
+                                lambda idx: (
+                                    lambda _m, _inp, out: (
+                                        save_tensor(
+                                            _first_tensor(out), f"layer_states_layer_{idx}_after_mlp", subdir="layers"
+                                        )
+                                        if idx is not None
+                                        else None
+                                    )
+                                )
+                            )(layer_idx),
+                        )
+
+                    # layer output -> after_mlp_res (final hidden after residuals)
+                    def _layer_out_hook(idx):
+                        def _hook(_m, _inp, out):
+                            t = _first_tensor(out)
+                            if idx is not None:
+                                self._capture_last_layer_idx = idx
+                                if t is not None:
+                                    save_tensor(t, f"layer_states_layer_{idx}_after_mlp_res", subdir="layers")
+
+                        return _hook
+
+                    _register(layer, _layer_out_hook(layer_idx))
+
+                return original_block_forward(self, *args, **kwargs)
+            finally:
+                for h in handles:
+                    try:
+                        h.remove()
+                    except Exception:
+                        pass
+
+        Qwen3VLTransformerBlock.forward = patched_block_forward
+
+        return True
+    except Exception as e:
+        print(f"Warning: Could not import mcore Qwen3VL models for patching: {e}")
+        return False
+
+
+# Auto-apply patches when module is imported if enabled
+if os.getenv("AUTO_APPLY_MODEL_PATCHES", "0") == "1":
+    apply_qwen3vl_patches()
+    apply_qwen3vl_megatron_patches()
diff --git a/tests/distributed/strategy/log_probs/layer_states_capture.py b/tests/distributed/strategy/log_probs/layer_states_capture.py
new file mode 100644
index 000000000..689e9f351
--- /dev/null
+++ b/tests/distributed/strategy/log_probs/layer_states_capture.py
@@ -0,0 +1,165 @@
+import os
+from pathlib import Path
+from typing import Any, Dict, Optional
+
+import torch
+import torch.distributed as dist
+
+_capture_info = None
+
+
+class LayerStatesCapture:
+
+    _instance = None
+    _initialized = False
+
+    def __new__(cls):
+        if cls._instance is None:
+            cls._instance = super().__new__(cls)
+        return cls._instance
+
+    def __init__(self):
+        if not self._initialized:
+            self._update_from_env_or_meta()
+            self._initialized = True
+
+    def _update_from_env_or_meta(self):
+        """Update capture settings from environment variables or global _capture_info."""
+        global _capture_info
+
+        # First check global _capture_info (set from meta_info)
+        if _capture_info is not None:
+            self.save_dir = _capture_info.get("save_dir")
+            self.prefix = _capture_info.get("prefix", "capture")
+            self.global_step = _capture_info.get("step", 0)
+            self.batch_idx = _capture_info.get("batch_idx", 0)
+        else:
+            # Fall back to environment variables
+            self.save_dir = os.getenv("LAYER_STATES_SAVE_DIR", None)
+            self.prefix = os.getenv("LAYER_STATES_PREFIX", "capture")
+            self.global_step = int(os.getenv("LAYER_STATES_STEP", "0"))
+            self.batch_idx = int(os.getenv("LAYER_STATES_BATCH", "0"))
+
+        self.enabled = self.save_dir is not None
+
+    def update_from_meta_info(self, meta_info: Dict):
+        """Update capture settings from DataProto meta_info."""
+        global _capture_info
+        if "_capture_layer_states" in meta_info:
+            _capture_info = meta_info["_capture_layer_states"]
+            self._update_from_env_or_meta()
+        else:
+            _capture_info = None
+            self._update_from_env_or_meta()
+
+    def save_tensor(self, tensor: torch.Tensor, name: str, subdir: str = ""):
+        """Save a tensor to disk if capture is enabled."""
+        # Refresh settings before each save
+        self._update_from_env_or_meta()
+
+        if not self.enabled:
+            return
+
+        # Optional: gather CP (Ulysses) sharded sequence tensors before saving.
+        # This is meant for debugging context-parallel divergence:
+        # - We only gather common "sequence-shaped" tensors (ndim == 3), e.g. (bs, seq, hidden)
+        # - We concatenate on dim=1 by default (the seq dimension)
+        # - We save only on rank0 to avoid duplicate files
+        #
+        # Enable with:
+        # - LAYER_STATES_CP_GATHER=1
+        # Optional knobs:
+        # - LAYER_STATES_CP_GATHER_DIM (default: 1)
+        # - LAYER_STATES_CP_GATHER_SAVE_LOCAL=1 (also save local shard under original name)
+        do_cp_gather = os.getenv("LAYER_STATES_CP_GATHER", "0") == "1"
+        gather_dim = int(os.getenv("LAYER_STATES_CP_GATHER_DIM", "1"))
+        save_local = os.getenv("LAYER_STATES_CP_GATHER_SAVE_LOCAL", "0") == "1"
+
+        gathered_tensor: torch.Tensor | None = None
+        if (
+            do_cp_gather
+            and isinstance(tensor, torch.Tensor)
+            and tensor.ndim == 3
+            and dist.is_available()
+            and dist.is_initialized()
+        ):
+            try:
+                # Prefer the dedicated CP/Ulysses group if available; otherwise fall back to WORLD.
+                try:
+                    from roll.utils.context_parallel.globals import (
+                        get_ulysses_group,
+                    )  # local import for test-only util
+
+                    group = get_ulysses_group()
+                except Exception:
+                    group = dist.group.WORLD
+
+                world = dist.get_world_size(group=group)
+                if world > 1 and gather_dim < tensor.ndim:
+                    # Assumes equal shapes across ranks for the gathered dim (true for padded CP and non-rmpad tests).
+                    parts = [torch.empty_like(tensor) for _ in range(world)]
+                    dist.all_gather(parts, tensor, group=group)
+                    gathered_tensor = torch.cat(parts, dim=gather_dim)
+
+                    if dist.get_rank(group=group) != 0:
+                        # Non-zero ranks participate in all_gather but do not write files.
+                        return
+            except Exception:
+                # Never fail training/tests due to debug capture logic.
+                gathered_tensor = None
+
+        save_path = Path(self.save_dir)
+        if subdir:
+            save_path = save_path / subdir
+        save_path.mkdir(parents=True, exist_ok=True)
+
+        if gathered_tensor is not None:
+            if save_local:
+                local_path = save_path / f"{self.prefix}_step{self.global_step}_batch{self.batch_idx}_{name}.pt"
+                torch.save(tensor.cpu().detach(), local_path)
+
+            file_path = save_path / f"{self.prefix}_step{self.global_step}_batch{self.batch_idx}_{name}_gathered.pt"
+            torch.save(gathered_tensor.cpu().detach(), file_path)
+        else:
+            file_path = save_path / f"{self.prefix}_step{self.global_step}_batch{self.batch_idx}_{name}.pt"
+            torch.save(tensor.cpu().detach(), file_path)
+
+    def save_dict(self, data: Dict[str, Any], name: str, subdir: str = ""):
+        """Save a dictionary of tensors."""
+        # Refresh settings before each save
+        self._update_from_env_or_meta()
+
+        if not self.enabled:
+            return
+
+        for key, value in data.items():
+            if isinstance(value, torch.Tensor):
+                self.save_tensor(value, f"{name}_{key}", subdir)
+            elif isinstance(value, dict):
+                self.save_dict(value, f"{name}_{key}", subdir)
+            elif isinstance(value, (list, tuple)) and len(value) > 0:
+                if isinstance(value[0], torch.Tensor):
+                    for i, tensor in enumerate(value):
+                        self.save_tensor(tensor, f"{name}_{key}_{i}", subdir)
+
+
+# Global instance
+_capture = LayerStatesCapture()
+
+
+def save_tensor(tensor: torch.Tensor, name: str, subdir: str = ""):
+    """Convenience function to save a tensor."""
+    _capture._update_from_env_or_meta()  # Refresh settings
+    _capture.save_tensor(tensor, name, subdir)
+
+
+def save_dict(data: Dict[str, Any], name: str, subdir: str = ""):
+    """Convenience function to save a dict."""
+    _capture._update_from_env_or_meta()  # Refresh settings
+    _capture.save_dict(data, name, subdir)
+
+
+def is_enabled() -> bool:
+    """Check if capture is enabled."""
+    _capture._update_from_env_or_meta()  # Refresh settings
+    return _capture.enabled
diff --git a/tests/distributed/strategy/log_probs/log_probs_cmp_config.yaml b/tests/distributed/strategy/log_probs/log_probs_cmp_config.yaml
index b3079dfd3..befeed536 100644
--- a/tests/distributed/strategy/log_probs/log_probs_cmp_config.yaml
+++ b/tests/distributed/strategy/log_probs/log_probs_cmp_config.yaml
@@ -21,7 +21,7 @@ prompt_length: 128
 response_length: 64
 
 
-pretrain: Qwen/Qwen2.5-7B-Instruct
+pretrain: Qwen/Qwen3-0.6B
 
 
 actor_train:
diff --git a/tests/distributed/strategy/log_probs/log_probs_fsdp_config.yaml b/tests/distributed/strategy/log_probs/log_probs_fsdp_config.yaml
new file mode 100644
index 000000000..c827ece26
--- /dev/null
+++ b/tests/distributed/strategy/log_probs/log_probs_fsdp_config.yaml
@@ -0,0 +1,109 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "fsdp_log_probs_test"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+track_with: stdout
+
+rollout_batch_size: 128
+prompt_length: 128
+response_length: 512
+
+pretrain: Qwen/Qwen3-0.6B
+
+actor_train:
+  name: actor_train
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  training_args:
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 8
+    learning_rate: 1.0e-05
+    num_train_epochs: 1
+    max_steps: 10
+    warmup_steps: 0
+    logging_steps: 1
+    save_steps: 10
+    eval_steps: 10
+    seed: 42
+    max_grad_norm: 1.0
+    weight_decay: 0.0
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+    ulysses_size: 1
+  data_args:
+    template: qwen2_5
+    file_name: data/comparison_gpt4_data_zh.json
+    dataset_dir: data
+    prompt: instruction
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+    max_samples: ${rollout_batch_size}
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      param_dtype: bf16
+      reduce_dtype: fp32
+      reshard_after_forward: True
+      offload_policy: true
+      fsdp_size: 8
+  checkpoint_config:
+    async_upload: False
+  offload_nccl: False
+  use_remove_padding: False
+  use_dynamic_batching_in_train: False
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+actor_infer:
+  name: actor_infer
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 1.0
+    top_k: 100
+    num_beams: 1
+    temperature: 1.0
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+    file_name: data/comparison_gpt4_data_zh.json
+    dataset_dir: data
+    prompt: instruction
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+    max_samples: ${rollout_batch_size}
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.75
+      block_size: 16
+      load_format: auto
+      max_num_seqs: 1024
+      max_num_batched_tokens: 8096
+      enable_prefix_caching: true
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+reference:
+  name: reference
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(0,1))
+  infer_batch_size: 2
+
diff --git a/tests/distributed/strategy/log_probs/log_probs_fsdp_cp_config.yaml b/tests/distributed/strategy/log_probs/log_probs_fsdp_cp_config.yaml
new file mode 100644
index 000000000..8adc17070
--- /dev/null
+++ b/tests/distributed/strategy/log_probs/log_probs_fsdp_cp_config.yaml
@@ -0,0 +1,110 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "fsdp_cp_log_probs_test"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+track_with: stdout
+
+rollout_batch_size: 128
+prompt_length: 8192
+response_length: 8192
+
+pretrain: Qwen/Qwen3-0.6B
+
+actor_train:
+  name: actor_train
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  training_args:
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 16
+    learning_rate: 1.0e-05
+    num_train_epochs: 1
+    max_steps: 10
+    warmup_steps: 0
+    logging_steps: 1
+    save_steps: 10
+    eval_steps: 10
+    seed: 42
+    max_grad_norm: 1.0
+    weight_decay: 0.0
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+    ulysses_size: 2
+  data_args:
+    template: qwen2_5
+    file_name: data/comparison_gpt4_data_zh.json
+    dataset_dir: data
+    prompt: instruction
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+    max_samples: ${rollout_batch_size}
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      param_dtype: bf16
+      reduce_dtype: fp32
+      reshard_after_forward: True
+      offload_policy: False
+      fsdp_size: 4
+  checkpoint_config:
+    async_upload: False
+  offload_nccl: False
+  use_remove_padding: False
+  use_dynamic_batching_in_train: False
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+actor_infer:
+  name: actor_infer
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 1.0
+    top_k: 100
+    num_beams: 1
+    temperature: 1.0
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+    file_name: data/comparison_gpt4_data_zh.json
+    dataset_dir: data
+    prompt: instruction
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+    max_samples: ${rollout_batch_size}
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.75
+      block_size: 16
+      load_format: auto
+      max_num_seqs: 1024
+      max_num_batched_tokens: 8096
+      enable_prefix_caching: true
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+
+reference:
+  name: reference
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(0,1))
+  infer_batch_size: 2
+
diff --git a/tests/distributed/strategy/log_probs/log_probs_fsdp_cp_rmpad_config.yaml b/tests/distributed/strategy/log_probs/log_probs_fsdp_cp_rmpad_config.yaml
new file mode 100644
index 000000000..9b9bc3899
--- /dev/null
+++ b/tests/distributed/strategy/log_probs/log_probs_fsdp_cp_rmpad_config.yaml
@@ -0,0 +1,111 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "fsdp_cp_log_probs_test"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+track_with: stdout
+
+rollout_batch_size: 128
+prompt_length: 8192
+response_length: 8192
+
+pretrain: Qwen/Qwen3-0.6B
+
+actor_train:
+  name: actor_train
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  training_args:
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 16
+    learning_rate: 1.0e-05
+    num_train_epochs: 1
+    max_steps: 10
+    warmup_steps: 0
+    logging_steps: 1
+    save_steps: 10
+    eval_steps: 10
+    seed: 42
+    max_grad_norm: 1.0
+    weight_decay: 0.0
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+    ulysses_size: 2
+  data_args:
+    template: qwen2_5
+    file_name: data/comparison_gpt4_data_zh.json
+    dataset_dir: data
+    prompt: instruction
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+    max_samples: ${rollout_batch_size}
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      param_dtype: bf16
+      reduce_dtype: fp32
+      reshard_after_forward: True
+      offload_policy: False
+      fsdp_size: 4
+  checkpoint_config:
+    async_upload: False
+  offload_nccl: False
+  use_remove_padding: true
+  use_dynamic_batching_in_train: False
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+actor_infer:
+  name: actor_infer
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 1.0
+    top_k: 100
+    num_beams: 1
+    temperature: 1.0
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+    file_name: data/comparison_gpt4_data_zh.json
+    dataset_dir: data
+    prompt: instruction
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+    max_samples: ${rollout_batch_size}
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.75
+      block_size: 16
+      load_format: auto
+      max_num_seqs: 1024
+      max_num_batched_tokens: 8096
+      enable_prefix_caching: true
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+
+reference:
+  name: reference
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(0,1))
+  infer_batch_size: 2
+  use_remove_padding: false
+
diff --git a/tests/distributed/strategy/log_probs/log_probs_fsdp_lora_config.yaml b/tests/distributed/strategy/log_probs/log_probs_fsdp_lora_config.yaml
new file mode 100644
index 000000000..6721a716d
--- /dev/null
+++ b/tests/distributed/strategy/log_probs/log_probs_fsdp_lora_config.yaml
@@ -0,0 +1,113 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "fsdp_lora_log_probs_test"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+track_with: stdout
+
+rollout_batch_size: 128
+prompt_length: 128
+response_length: 512
+
+pretrain: Qwen/Qwen3-0.6B
+
+actor_train:
+  name: actor_train
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  training_args:
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 8
+    learning_rate: 1.0e-05
+    num_train_epochs: 1
+    max_steps: 10
+    warmup_steps: 0
+    logging_steps: 1
+    save_steps: 10
+    eval_steps: 10
+    seed: 42
+    max_grad_norm: 1.0
+    weight_decay: 0.0
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+    ulysses_size: 1
+    lora_target: q_proj, k_proj, v_proj, o_proj
+    lora_r: 16
+    lora_alpha: 32
+    lora_dropout: 0.05
+  data_args:
+    template: qwen2_5
+    file_name: data/comparison_gpt4_data_zh.json
+    dataset_dir: data
+    prompt: instruction
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+    max_samples: ${rollout_batch_size}
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      param_dtype: bf16
+      reduce_dtype: fp32
+      reshard_after_forward: True
+      offload_policy: False
+      fsdp_size: 8
+  checkpoint_config:
+    async_upload: False
+  offload_nccl: False
+  use_remove_padding: False
+  use_dynamic_batching_in_train: False
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+actor_infer:
+  name: actor_infer
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 1.0
+    top_k: 100
+    num_beams: 1
+    temperature: 1.0
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+    file_name: data/comparison_gpt4_data_zh.json
+    dataset_dir: data
+    prompt: instruction
+    interleave_probs: "1.0"
+    preprocessing_num_workers: 16
+    max_samples: ${rollout_batch_size}
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.75
+      block_size: 16
+      load_format: auto
+      max_num_seqs: 1024
+      max_num_batched_tokens: 8096
+      enable_prefix_caching: true
+  device_mapping: list(range(0,8))
+  infer_batch_size: 2
+
+reference:
+  name: reference
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(0,1))
+  infer_batch_size: 2
+
diff --git a/tests/distributed/strategy/log_probs/log_probs_fsdp_vlm_cp2_config.yaml b/tests/distributed/strategy/log_probs/log_probs_fsdp_vlm_cp2_config.yaml
new file mode 100644
index 000000000..de983f158
--- /dev/null
+++ b/tests/distributed/strategy/log_probs/log_probs_fsdp_vlm_cp2_config.yaml
@@ -0,0 +1,103 @@
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "fsdp_cp2_vlm_log_probs_test"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+track_with: stdout
+
+# Keep batch sizes small by default (VLM is heavy). Override as needed.
+rollout_batch_size: 2
+
+# Prompt/response lengths are taken from the example (prompt_length=8192). Response length can be smaller for tests.
+prompt_length: 8192
+response_length: 8192
+
+pretrain: /home/dilixiati.dlxtmhte/.cache/openlm/hub/b961282fc5087c3ee28b5c7d2a72424e
+
+actor_train:
+  name: actor_train
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  training_args:
+    per_device_train_batch_size: 2
+    gradient_accumulation_steps: 1
+    learning_rate: 1.0e-6
+    num_train_epochs: 1
+    max_steps: 1
+    warmup_steps: 0
+    logging_steps: 1
+    save_steps: 10
+    eval_steps: 10
+    seed: 42
+    max_grad_norm: 1.0
+    weight_decay: 1.0e-2
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+    dtype: bf16
+    ulysses_size: 2
+    # Ensure image preprocessing works (mirrors RLVRVLMPipeline defaults).
+    max_pixels: 1048576
+    min_pixels: 3136
+    # keep vision frozen (as in example config) to reduce training footprint
+    freeze_module_prefix: vision_model
+  data_args:
+    file_name: ./data/geoqa_data/
+    dataset_dir: ./
+    preprocessing_num_workers: 16
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      param_dtype: bf16
+      reduce_dtype: fp32
+      reshard_after_forward: true
+      offload_policy: false
+      fsdp_size: 1
+  checkpoint_config:
+    async_upload: false
+  offload_nccl: false
+  use_remove_padding: false
+  use_dynamic_batching_in_train: false
+  # Match the example (8 GPUs). The test will skip if the machine has fewer.
+  device_mapping: list(range(0,2))
+  infer_batch_size: 1
+
+actor_infer:
+  name: actor_infer
+  worker_cls: roll.pipeline.base_worker.InferWorker
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+    disable_gradient_checkpointing: true
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+  device_mapping: list(range(0,8))
+  infer_batch_size: 1
+
+reference:
+  name: reference
+  worker_cls: roll.pipeline.base_worker.ActorWorker
+  model_args:
+    model_name_or_path: ${pretrain}
+    attn_implementation: fa2
+    dtype: bf16
+  strategy_args:
+    strategy_name: hf_infer
+    strategy_config: ~
+  device_mapping: list(range(0,1))
+  infer_batch_size: 1
\ No newline at end of file
diff --git a/tests/distributed/strategy/log_probs/log_probs_megatron_config.yaml b/tests/distributed/strategy/log_probs/log_probs_megatron_config.yaml
index 3b51df270..1b4f67e2f 100644
--- a/tests/distributed/strategy/log_probs/log_probs_megatron_config.yaml
+++ b/tests/distributed/strategy/log_probs/log_probs_megatron_config.yaml
@@ -14,7 +14,7 @@ rollout_batch_size: 512
 prompt_length: 128
 response_length: 512
 
-pretrain: Qwen/Qwen2.5-7B-Instruct
+pretrain: Qwen/Qwen3-0.6B
 
 actor_infer:
   model_args:
diff --git a/tests/distributed/strategy/log_probs/test_ds_hf_log_probs.py b/tests/distributed/strategy/log_probs/test_ds_hf_log_probs.py
index e5810bcae..113fb1286 100644
--- a/tests/distributed/strategy/log_probs/test_ds_hf_log_probs.py
+++ b/tests/distributed/strategy/log_probs/test_ds_hf_log_probs.py
@@ -7,14 +7,15 @@
 
 from roll.datasets.collator import DataCollatorWithPaddingForPaddedKeys
 from roll.datasets.loader import get_dataset
-from roll.pipeline.base_worker import ActorWorker
 from roll.distributed.executor.cluster import Cluster
 from roll.distributed.scheduler.initialize import init
 from roll.distributed.scheduler.protocol import DataProto
 from roll.models.model_providers import default_tokenizer_provider
 from roll.pipeline.base_pipeline import BasePipeline
+from roll.pipeline.base_worker import ActorWorker
 from roll.utils.logging import get_logger
-from tests.distributed.strategy.make_baseline_config import make_baseline_config
+from tests.distributed.strategy.make_baseline_config import \
+    make_baseline_config
 
 logger = get_logger()
 
@@ -26,7 +27,6 @@ def __init__(self, pipeline_config):
         set_seed(self.pipeline_config.seed)
         self.tokenizer = default_tokenizer_provider(
             model_args=self.pipeline_config.actor_train.model_args,
-            template_name=self.pipeline_config.actor_train.data_args.template,
         )
         self.dataset = get_dataset(
             tokenizer=self.tokenizer,
@@ -92,22 +92,84 @@ def run(self):
             logprobs_zero3_eq = self.reference.compute_log_probs(batch)
 
             prompt_ids = generate_output.batch["prompts"]
+            response_ids = generate_output.batch["responses"]
             prompts = self.tokenizer.batch_decode(prompt_ids, skip_special_tokens=True)
-            for prompt, logprob_zero3_ne, logprob_hf, logprob_zero3_eq in zip(
+            responses = self.tokenizer.batch_decode(response_ids, skip_special_tokens=True)
+            
+            # Compute per-sample differences
+            count = 0
+            sum_diff_zero3ne_hf_max = 0.0
+            sum_diff_zero3ne_hf_mean = 0.0
+            sum_diff_zero3eq_hf_max = 0.0
+            sum_diff_zero3eq_hf_mean = 0.0
+            
+            for prompt, response, logprob_zero3_ne, logprob_hf, logprob_zero3_eq in zip(
                 prompts,
+                responses,
                 logprobs_zero3_ne.batch["log_probs"],
                 logprobs_hf.batch["log_probs"],
                 logprobs_zero3_eq.batch["log_probs"],
             ):
+                # Compute differences
+                diff_zero3ne_hf_max = (logprob_zero3_ne - logprob_hf).abs().max().item()
+                diff_zero3ne_hf_mean = (logprob_zero3_ne - logprob_hf).abs().mean().item()
+                diff_zero3eq_hf_max = (logprob_zero3_eq - logprob_hf).abs().max().item()
+                diff_zero3eq_hf_mean = (logprob_zero3_eq - logprob_hf).abs().mean().item()
+                
+                sum_diff_zero3ne_hf_max += diff_zero3ne_hf_max
+                sum_diff_zero3ne_hf_mean += diff_zero3ne_hf_mean
+                sum_diff_zero3eq_hf_max += diff_zero3eq_hf_max
+                sum_diff_zero3eq_hf_mean += diff_zero3eq_hf_mean
+                count += 1
+                
                 result = {
                     "prompt": prompt,
+                    "response": response,
+                    "diff_zero3ne_hf_max": diff_zero3ne_hf_max,
+                    "diff_zero3ne_hf_mean": diff_zero3ne_hf_mean,
+                    "diff_zero3eq_hf_max": diff_zero3eq_hf_max,
+                    "diff_zero3eq_hf_mean": diff_zero3eq_hf_mean,
                     "logprob_zero3_ne": logprob_zero3_ne.tolist(),
                     "logprob_hf": logprob_hf.tolist(),
                     "logprob_zero3_eq": logprob_zero3_eq.tolist(),
                 }
-                print(result)
                 results.append(result)
-
+            
+            # Log average differences for this batch
+            logger.info(
+                f"Batch {global_step} - ZeRO3(ne) vs HF: "
+                f"avg_diff_max={sum_diff_zero3ne_hf_max / count:.6f}, "
+                f"avg_diff_mean={sum_diff_zero3ne_hf_mean / count:.6f}"
+            )
+            logger.info(
+                f"Batch {global_step} - ZeRO3(eq) vs HF: "
+                f"avg_diff_max={sum_diff_zero3eq_hf_max / count:.6f}, "
+                f"avg_diff_mean={sum_diff_zero3eq_hf_mean / count:.6f}"
+            )
+            
+            global_step += 1
+
+        logger.info("pipeline complete!")
+        
+        # Compute and log overall statistics
+        if results:
+            overall_zero3ne_hf_max = sum(r["diff_zero3ne_hf_max"] for r in results) / len(results)
+            overall_zero3ne_hf_mean = sum(r["diff_zero3ne_hf_mean"] for r in results) / len(results)
+            overall_zero3eq_hf_max = sum(r["diff_zero3eq_hf_max"] for r in results) / len(results)
+            overall_zero3eq_hf_mean = sum(r["diff_zero3eq_hf_mean"] for r in results) / len(results)
+            
+            logger.info("=" * 80)
+            logger.info("Overall Statistics:")
+            logger.info(
+                f"  ZeRO3(ne) vs HF: avg_diff_max={overall_zero3ne_hf_max:.6f}, "
+                f"avg_diff_mean={overall_zero3ne_hf_mean:.6f}"
+            )
+            logger.info(
+                f"  ZeRO3(eq) vs HF: avg_diff_max={overall_zero3eq_hf_max:.6f}, "
+                f"avg_diff_mean={overall_zero3eq_hf_mean:.6f}"
+            )
+            logger.info("=" * 80)
+        
         return results
 
 
@@ -121,4 +183,8 @@ def run(self):
 
     output_file = "logprobs_cmp.json"
     with open(output_file, "w") as f:
-        json.dump(results, f, ensure_ascii=False)
+        for m in results:
+            json.dump(m, f, ensure_ascii=False)
+            f.write("\n")
+    
+    logger.info(f"Results saved to {output_file}")
diff --git a/tests/distributed/strategy/log_probs/test_fsdp_log_probs.py b/tests/distributed/strategy/log_probs/test_fsdp_log_probs.py
new file mode 100644
index 000000000..b558b22db
--- /dev/null
+++ b/tests/distributed/strategy/log_probs/test_fsdp_log_probs.py
@@ -0,0 +1,423 @@
+import json
+import os
+import time
+from typing import Any, Dict
+
+import pytest
+import ray
+import torch
+from torch.utils.data import DataLoader
+from tqdm import tqdm
+
+from roll.datasets.collator import DataCollatorWithPaddingForPaddedKeys
+from roll.datasets.loader import get_dataset
+from roll.distributed.executor.cluster import Cluster
+from roll.distributed.scheduler.initialize import init
+from roll.distributed.scheduler.protocol import DataProto
+from roll.models.model_providers import default_tokenizer_provider
+from roll.pipeline.base_pipeline import BasePipeline
+from roll.pipeline.base_worker import ActorWorker
+from roll.pipeline.rlvr.rlvr_config import RLVRConfig
+from roll.platforms import current_platform
+from roll.utils.logging import get_logger
+from tests.distributed.strategy.make_baseline_config import make_baseline_config
+
+logger = get_logger()
+
+
+def _available_ray_nodes_for_config(num_gpus_per_node: int) -> int:
+    """Count Ray nodes that have enough devices for the configured per-node requirement."""
+    count = 0
+    for node in ray.nodes():
+        if int(node["Resources"].get(current_platform.ray_device_key, 0)) >= num_gpus_per_node:
+            count += 1
+    return count
+
+
+def _skip_if_cluster_insufficient(config: RLVRConfig, test_name: str) -> None:
+    required_nodes = getattr(config, "num_nodes", None)
+    required_gpus_per_node = getattr(config, "num_gpus_per_node", 1)
+    if required_nodes is None:
+        return
+    available_nodes = _available_ray_nodes_for_config(required_gpus_per_node)
+    if available_nodes < required_nodes:
+        pytest.skip(
+            f"{test_name} requires {required_nodes} Ray nodes with >= {required_gpus_per_node} "
+            f"{current_platform.ray_device_key} each, but only {available_nodes} available in CI."
+        )
+
+
+def _reset_model_download_cache_actor() -> None:
+    from roll.utils import checkpoint_manager
+
+    checkpoint_manager.shared_storage = None
+
+
+def _looks_like_local_path(path: str) -> bool:
+    return (
+        os.path.isabs(path)
+        or path.startswith((".", "~"))
+        or "\\" in path
+        or path.count("/") != 1
+    )
+
+
+def _skip_if_local_model_unavailable(config: RLVRConfig, test_name: str) -> None:
+    model_paths = set()
+    for config_name in ("actor_train", "actor_infer", "reference"):
+        worker_config = getattr(config, config_name, None)
+        model_args = getattr(worker_config, "model_args", None)
+        model_path = getattr(model_args, "model_name_or_path", None)
+        if model_path:
+            model_paths.add(str(model_path))
+
+    for model_path in sorted(model_paths):
+        if _looks_like_local_path(model_path) and not os.path.isdir(os.path.expanduser(model_path)):
+            pytest.skip(f"{test_name} requires local model path {model_path}, but it is not available on this CI node.")
+
+
+def _data_files_exist(data_args) -> bool:
+    file_names = getattr(data_args, "file_name", None)
+    if file_names is None:
+        return False
+    if isinstance(file_names, str):
+        file_names = [file_names]
+
+    dataset_dir = os.path.expanduser(str(getattr(data_args, "dataset_dir", ".") or "."))
+    for file_name in file_names:
+        path = os.path.expanduser(str(file_name))
+        if os.path.exists(path):
+            continue
+        if os.path.exists(os.path.join(dataset_dir, path)):
+            continue
+        return False
+    return True
+
+
+def _make_synthetic_vlm_dataset(processor, size: int = 2):
+    from PIL import Image
+    from torch.utils.data import Dataset
+
+    from roll.pipeline.rlvr.rlvr_vlm_pipeline import format_prompt
+
+    prompt = format_prompt("What color is the image?", processor, use_image=True)
+    size = max(1, int(size))
+
+    class SyntheticVLMDataset(Dataset):
+        def __len__(self):
+            return size
+
+        def __getitem__(self, index):
+            return {
+                "images": [Image.new("RGB", (64, 64), (255, 255, 255))],
+                "prompt": prompt,
+                "ground_truth": "white",
+                "image_flag": True,
+                "tag": "synthetic",
+            }
+
+    return SyntheticVLMDataset()
+
+
+def _cleanup_pipeline(pipeline) -> None:
+    for cluster_name in ("actor_train", "actor_infer", "reference"):
+        cluster = getattr(pipeline, cluster_name, None)
+        for worker in getattr(cluster, "workers", []) or []:
+            ray.kill(worker, no_restart=True)
+    resource_manager = getattr(pipeline, "resource_manager", None)
+    if resource_manager is not None:
+        resource_manager.destroy_placement_group()
+    time.sleep(1)
+
+
+def _run_pipeline_and_cleanup(pipeline, *args, **kwargs):
+    try:
+        return pipeline.run(*args, **kwargs)
+    finally:
+        _cleanup_pipeline(pipeline)
+
+
+class FSDPLogProbsPipeline(BasePipeline):
+    def __init__(self, pipeline_config: RLVRConfig):
+        super().__init__(pipeline_config)
+
+        self.tokenizer = default_tokenizer_provider(
+            model_args=self.pipeline_config.actor_train.model_args,
+        )
+
+        # Load dataset
+        self.dataset = get_dataset(
+            tokenizer=self.tokenizer,
+            data_args=self.pipeline_config.actor_train.data_args,
+        )
+
+        # Create data collator
+        data_collator = DataCollatorWithPaddingForPaddedKeys(
+            tokenizer=self.tokenizer,
+            max_length=self.pipeline_config.prompt_length,
+            padding="max_length",
+        )
+
+        # Create dataloader
+        self.dataloader = DataLoader(
+            dataset=self.dataset,
+            batch_size=self.pipeline_config.rollout_batch_size,
+            shuffle=True,
+            drop_last=True,
+            collate_fn=data_collator,
+        )
+
+        max_steps = len(self.dataloader) * self.pipeline_config.actor_train.training_args.num_train_epochs
+        self.pipeline_config.set_max_steps(max_steps=max_steps)
+
+        # Initialize clusters
+        self.actor_train: Any = Cluster(
+            name=self.pipeline_config.actor_train.name,
+            worker_cls=ActorWorker,
+            resource_manager=self.resource_manager,
+            worker_config=self.pipeline_config.actor_train,
+        )
+        self.reference: Any = Cluster(
+            name=self.pipeline_config.reference.name,
+            worker_cls=ActorWorker,
+            resource_manager=self.resource_manager,
+            worker_config=self.pipeline_config.reference,
+        )
+
+        self.actor_train.initialize(pipeline_config=self.pipeline_config, blocking=True)
+        self.reference.initialize(pipeline_config=self.pipeline_config, blocking=True)
+
+    @torch.no_grad()
+    def run(self):
+        """
+        Compare log probs between FSDP2 strategy and HF reference implementation.
+        Similar to test_ds_hf_log_probs.py logic.
+        """
+        global_step = 0
+        results = []
+
+        for batch_dict in tqdm(self.dataloader):
+            logger.info(f"pipeline step {global_step} start...")
+
+            batch_dict: Dict
+            batch: DataProto = DataProto.from_single_dict(batch_dict)
+            batch.meta_info = {"global_step": global_step, "loss_mask_keys": ["response_mask"]}
+            batch.batch["response_mask"] = batch.batch["attention_mask"].clone()
+
+            if self.pipeline_config.actor_train.model_args.lora_target is not None:
+                batch.meta_info["disable_adapter"] = True
+                logprobs_fsdp_disable_adapter = self.actor_train.compute_log_probs(batch)
+                batch.meta_info["disable_adapter"] = False
+                logprobs_fsdp_enable_adapter = self.actor_train.compute_log_probs(batch)
+                logprobs_fsdp = logprobs_fsdp_enable_adapter
+            else:
+                logprobs_fsdp = self.actor_train.compute_log_probs(batch)
+                logprobs_fsdp_disable_adapter = None
+                logprobs_fsdp_enable_adapter = None
+
+            # Compute log probs from reference (should also use HF)
+            logprobs_ref = self.reference.compute_log_probs(batch)
+
+            # These tests validate logprob computation, not generation. Use the
+            # collated token sequence directly to avoid depending on vLLM startup.
+            prompt_ids = batch.batch["input_ids"]
+            response_ids = batch.batch["input_ids"]
+            prompts = self.tokenizer.batch_decode(prompt_ids, skip_special_tokens=True)
+            responses = self.tokenizer.batch_decode(response_ids, skip_special_tokens=True)
+
+            # Compare FSDP vs HF and FSDP vs Reference
+            count = 0
+            sum_diff_max = 0.0
+            sum_diff_mean = 0.0
+
+            # Statistics for adapter enable/disable comparison
+            sum_diff_adapter_enable_disable_max = 0.0
+            sum_diff_adapter_enable_disable_mean = 0.0
+            count_adapter = 0
+
+            # Statistics for FSDP vs HF comparison
+            sum_diff_fsdp_hf_max = 0.0
+            sum_diff_fsdp_hf_mean = 0.0
+            count_fsdp_hf = 0
+
+            # Prepare logprobs lists
+            logprobs_fsdp_list = logprobs_fsdp.batch["log_probs"]
+            logprobs_ref_list = logprobs_ref.batch["log_probs"]
+
+            # Prepare adapter logprobs if available
+            logprobs_fsdp_enable_list = None
+            logprobs_fsdp_disable_list = None
+            if logprobs_fsdp_enable_adapter is not None and logprobs_fsdp_disable_adapter is not None:
+                logprobs_fsdp_enable_list = logprobs_fsdp_enable_adapter.batch["log_probs"]
+                logprobs_fsdp_disable_list = logprobs_fsdp_disable_adapter.batch["log_probs"]
+
+            for idx, (prompt, response, logprob_fsdp, logprob_ref) in enumerate(
+                zip(
+                    prompts,
+                    responses,
+                    logprobs_fsdp_list,
+                    logprobs_ref_list,
+                )
+            ):
+                # Compare FSDP (with adapter enabled) vs FSDP (with adapter disabled)
+                if logprobs_fsdp_enable_list is not None and logprobs_fsdp_disable_list is not None:
+                    logprob_enable = logprobs_fsdp_enable_list[idx]
+                    logprob_disable = logprobs_fsdp_disable_list[idx]
+                    diff_adapter_max = (logprob_enable - logprob_disable).abs().max().item()
+                    diff_adapter_mean = (logprob_enable - logprob_disable).abs().mean().item()
+                    sum_diff_adapter_enable_disable_max += diff_adapter_max
+                    sum_diff_adapter_enable_disable_mean += diff_adapter_mean
+                    count_adapter += 1
+                    adapter_diff_max = diff_adapter_max
+                    adapter_diff_mean = diff_adapter_mean
+                else:
+                    adapter_diff_max = None
+                    adapter_diff_mean = None
+
+                # Compare FSDP vs HF (if both have values)
+                if logprob_fsdp is not None and logprob_ref is not None:
+                    diff_fsdp_hf_max = (logprob_fsdp - logprob_ref).abs().max().item()
+                    diff_fsdp_hf_mean = (logprob_fsdp - logprob_ref).abs().mean().item()
+                    sum_diff_fsdp_hf_max += diff_fsdp_hf_max
+                    sum_diff_fsdp_hf_mean += diff_fsdp_hf_mean
+                    count_fsdp_hf += 1
+                else:
+                    diff_fsdp_hf_max = None
+                    diff_fsdp_hf_mean = None
+
+                # Original comparison (FSDP vs HF, kept for backward compatibility)
+                diff_max = diff_fsdp_hf_max if diff_fsdp_hf_max is not None else 0.0
+                diff_mean = diff_fsdp_hf_mean if diff_fsdp_hf_mean is not None else 0.0
+                sum_diff_max += diff_max
+                sum_diff_mean += diff_mean
+                count += 1
+
+                result = {
+                    "prompt": prompt,
+                    "response": response,
+                    "diff_max": diff_max,
+                    "diff_mean": diff_mean,
+                    "logprob_fsdp": logprob_fsdp.tolist(),
+                    "logprob_ref": logprob_ref.tolist(),
+                }
+
+                # Add adapter comparison if available
+                if adapter_diff_max is not None:
+                    result["diff_adapter_enable_disable_max"] = adapter_diff_max
+                    result["diff_adapter_enable_disable_mean"] = adapter_diff_mean
+
+                # Add explicit FSDP vs HF comparison if available
+                if diff_fsdp_hf_max is not None:
+                    result["diff_fsdp_hf_max"] = diff_fsdp_hf_max
+                    result["diff_fsdp_hf_mean"] = diff_fsdp_hf_mean
+
+                results.append(result)
+
+            # Log statistics
+            if count > 0:
+                logger.info(f"avg_diff_max: {sum_diff_max / count}, avg_diff_mean: {sum_diff_mean / count}")
+
+            if count_adapter > 0:
+                logger.info(
+                    f"avg_diff_adapter_enable_disable_max: {sum_diff_adapter_enable_disable_max / count_adapter}, "
+                    f"avg_diff_adapter_enable_disable_mean: {sum_diff_adapter_enable_disable_mean / count_adapter}"
+                )
+
+            if count_fsdp_hf > 0:
+                logger.info(
+                    f"avg_diff_fsdp_hf_max: {sum_diff_fsdp_hf_max / count_fsdp_hf}, "
+                    f"avg_diff_fsdp_hf_mean: {sum_diff_fsdp_hf_mean / count_fsdp_hf}"
+                )
+            global_step += 1
+            break
+
+        logger.info("pipeline complete!")
+        return results
+
+
+def test_fsdp_log_probs_full():
+    init()
+    _reset_model_download_cache_actor()
+    config = make_baseline_config(config_path="./log_probs", config_name="log_probs_fsdp_config")
+    _skip_if_cluster_insufficient(config, "test_fsdp_log_probs_full")
+    pipeline = FSDPLogProbsPipeline(config)
+    results = _run_pipeline_and_cleanup(pipeline)
+
+    output_file = "test_fsdp_log_probs_full.json"
+    with open(output_file, "w") as f:
+        for m in results:
+            json.dump(m, f, ensure_ascii=False)
+            f.write("\n")
+    logger.info(f"Test FSDP (full) completed, results saved to {output_file}")
+
+
+def test_fsdp_log_probs_lora():
+    init()
+    _reset_model_download_cache_actor()
+    config = make_baseline_config(config_path="./log_probs", config_name="log_probs_fsdp_lora_config")
+    _skip_if_cluster_insufficient(config, "test_fsdp_log_probs_lora")
+    pipeline = FSDPLogProbsPipeline(config)
+    results = _run_pipeline_and_cleanup(pipeline)
+
+    output_file = "test_fsdp_log_probs_lora.json"
+    with open(output_file, "w") as f:
+        for m in results:
+            json.dump(m, f, ensure_ascii=False)
+            f.write("\n")
+    logger.info(f"Test FSDP (LoRA) completed, results saved to {output_file}")
+
+
+def test_fsdp_log_probs_cp():
+    init()
+    _reset_model_download_cache_actor()
+    config = make_baseline_config(config_path="./log_probs", config_name="log_probs_fsdp_cp_config")
+    _skip_if_cluster_insufficient(config, "test_fsdp_log_probs_cp")
+
+    device_count = current_platform.device_count()
+    if device_count < 8:
+        pytest.skip(f"Need at least 8 {current_platform.ray_device_key} devices, got {device_count}.")
+
+    pipeline = FSDPLogProbsPipeline(config)
+    results = _run_pipeline_and_cleanup(pipeline)
+
+    output_file = "test_fsdp_log_probs_cp.json"
+    with open(output_file, "w") as f:
+        for m in results:
+            json.dump(m, f, ensure_ascii=False)
+            f.write("\n")
+    logger.info(f"Test FSDP (CP) completed, results saved to {output_file}")
+
+
+def test_fsdp_log_probs_cp_rmpad():
+    init()
+    _reset_model_download_cache_actor()
+    config = make_baseline_config(config_path="./log_probs", config_name="log_probs_fsdp_cp_rmpad_config")
+    _skip_if_cluster_insufficient(config, "test_fsdp_log_probs_cp_rmpad")
+    pipeline = FSDPLogProbsPipeline(config)
+    results = _run_pipeline_and_cleanup(pipeline)
+
+    output_file = "test_fsdp_log_probs_cp_rmpad.json"
+    with open(output_file, "w") as f:
+        for m in results:
+            json.dump(m, f, ensure_ascii=False)
+            f.write("\n")
+    logger.info(f"Test FSDP (CP+RMpad) completed, results saved to {output_file}")
+
+
+if __name__ == "__main__":
+    import sys
+
+    if len(sys.argv) > 1:
+        test_name = sys.argv[1]
+        if test_name == "full":
+            test_fsdp_log_probs_full()
+        elif test_name == "lora":
+            test_fsdp_log_probs_lora()
+        elif test_name == "cp":
+            test_fsdp_log_probs_cp()
+        elif test_name == "cp_rmpad":
+            test_fsdp_log_probs_cp_rmpad()
+        else:
+            logger.error(f"Unknown test: {test_name}. Use 'full', 'lora', or 'cp'.")
+    else:
+        test_fsdp_log_probs_full()
diff --git a/tests/distributed/strategy/log_probs/test_fsdp_vlm_layer_states.py b/tests/distributed/strategy/log_probs/test_fsdp_vlm_layer_states.py
new file mode 100644
index 000000000..e18e88d79
--- /dev/null
+++ b/tests/distributed/strategy/log_probs/test_fsdp_vlm_layer_states.py
@@ -0,0 +1,286 @@
+import json
+import os
+from pathlib import Path
+from typing import Any, Dict, Optional
+
+import ray
+import torch
+from torch.utils.data import DataLoader
+from tqdm import tqdm
+
+# Apply model patches before importing anything that uses the model
+os.environ["AUTO_APPLY_MODEL_PATCHES"] = "1"
+from tests.distributed.strategy.log_probs.apply_model_patch import (
+    apply_qwen3vl_megatron_patches,
+    apply_qwen3vl_patches,
+)
+
+apply_qwen3vl_patches()
+apply_qwen3vl_megatron_patches()
+
+from roll.datasets.collator import DataCollatorWithPaddingForMM
+from roll.distributed.executor.cluster import Cluster
+from roll.distributed.scheduler.initialize import init
+from roll.distributed.scheduler.protocol import DataProto
+from roll.models.model_providers import default_processor_provider, get_extra_data_provider
+from roll.pipeline.base_pipeline import BasePipeline
+from roll.pipeline.base_worker import ActorWorker
+from roll.pipeline.rlvr.rlvr_config import RLVRConfig
+from roll.utils.logging import get_logger
+from tests.distributed.strategy.log_probs.analyze_layer_divergence import analyze_divergence
+from tests.distributed.strategy.log_probs.test_fsdp_log_probs import (
+    _data_files_exist,
+    _make_synthetic_vlm_dataset,
+    _reset_model_download_cache_actor,
+    _run_pipeline_and_cleanup,
+    _skip_if_cluster_insufficient,
+    _skip_if_local_model_unavailable,
+)
+from tests.distributed.strategy.make_baseline_config import make_baseline_config
+
+logger = get_logger()
+
+
+def _actorworker_set_capture_env(self, env: Dict[str, str]):
+    """
+    Test-only helper executed inside Ray workers.
+    - Sets capture env vars used by `layer_states_capture.py`
+    - Ensures model patches are applied inside the worker process (not just the driver)
+    """
+    for k, v in env.items():
+        os.environ[k] = str(v)
+    # Apply patches inside the worker process so FSDP2/HF forwards get instrumented.
+    try:
+        from tests.distributed.strategy.log_probs.apply_model_patch import (
+            apply_qwen3vl_megatron_patches,
+            apply_qwen3vl_patches,
+        )
+
+        apply_qwen3vl_patches()
+        apply_qwen3vl_megatron_patches()
+    except Exception:
+        pass
+
+
+# Monkeypatch onto ActorWorker so we can call it on Ray actors from this test.
+setattr(ActorWorker, "set_capture_env", _actorworker_set_capture_env)
+
+
+def _set_capture_env_on_cluster(cluster: Cluster, save_dir: Path, prefix: str, step: int, batch_idx: int):
+    env = {
+        "LAYER_STATES_SAVE_DIR": str(save_dir),
+        "LAYER_STATES_PREFIX": str(prefix),
+        "LAYER_STATES_STEP": str(step),
+        "LAYER_STATES_BATCH": str(batch_idx),
+    }
+    ray.get([w.set_capture_env.remote(env) for w in cluster.workers])
+
+
+def save_inputs_and_embeddings(data: DataProto, save_dir: Path, prefix: str, global_step: int, batch_idx: int = 0):
+    """Save input tensors for comparison."""
+    save_dir.mkdir(parents=True, exist_ok=True)
+
+    # Save input_ids, attention_mask, position_ids
+    for key in ["input_ids", "attention_mask", "position_ids", "response_mask"]:
+        if key in data.batch:
+            save_path = save_dir / f"{prefix}_step{global_step}_batch{batch_idx}_{key}.pt"
+            torch.save(data.batch[key].cpu().detach(), save_path)
+
+    # Save multi_modal_data if present
+    if "multi_modal_data" in data.non_tensor_batch:
+        mm_data = data.non_tensor_batch["multi_modal_data"]
+        save_path = save_dir / f"{prefix}_step{global_step}_batch{batch_idx}_multi_modal_data.json"
+        mm_metadata = {}
+        if isinstance(mm_data, (list, tuple)):
+            for i, sample_mm in enumerate(mm_data):
+                if isinstance(sample_mm, dict):
+                    for k, v in sample_mm.items():
+                        if isinstance(v, torch.Tensor):
+                            key_name = f"sample{i}_{k}"
+                            mm_metadata[key_name] = {"shape": list(v.shape), "dtype": str(v.dtype)}
+                            tensor_path = save_dir / f"{prefix}_step{global_step}_batch{batch_idx}_mm_{key_name}.pt"
+                            torch.save(v.cpu().detach(), tensor_path)
+        with open(save_path, "w") as f:
+            json.dump(mm_metadata, f, indent=2)
+
+
+class FSDPVLMLayerStatesPipeline(BasePipeline):
+    def __init__(self, pipeline_config: RLVRConfig, output_dir: str = "./layer_states_output"):
+        super().__init__(pipeline_config)
+        self.pipeline_config = pipeline_config
+        self.output_dir = Path(output_dir)
+        self.output_dir.mkdir(parents=True, exist_ok=True)
+
+        self.processor = default_processor_provider(self.pipeline_config.actor_train.model_args)
+        if self.processor is None:
+            raise RuntimeError("VLM layer states test requires a processor (AutoProcessor).")
+        # Follow RLVRVLMPipeline: ensure these are not None
+        img_proc = getattr(self.processor, "image_processor", None)
+        if img_proc is not None:
+            model_args = self.pipeline_config.actor_train.model_args
+            if getattr(img_proc, "max_pixels", None) is None:
+                img_proc.max_pixels = getattr(model_args, "max_pixels", 1024 * 1024)
+            if getattr(img_proc, "min_pixels", None) is None:
+                img_proc.min_pixels = getattr(model_args, "min_pixels", 56 * 56)
+        self.tokenizer = self.processor.tokenizer
+        self.tokenizer.padding_side = "left"
+
+        # Dataset
+        self.dataset = self._build_dataset_or_skip()
+
+        data_collator = DataCollatorWithPaddingForMM(
+            tokenizer=self.tokenizer,
+            processor=self.processor,
+            extra_data_provider=get_extra_data_provider(
+                self.pipeline_config.actor_train.model_args.model_name_or_path,
+                processor=self.processor,
+            ),
+            image_key="images",
+            max_length=self.pipeline_config.prompt_length,
+            padding="max_length",
+        )
+
+        self.dataloader = DataLoader(
+            dataset=self.dataset,
+            batch_size=self.pipeline_config.rollout_batch_size,
+            shuffle=True,
+            drop_last=True,
+            collate_fn=data_collator,
+        )
+
+        max_steps = len(self.dataloader) * self.pipeline_config.actor_train.training_args.num_train_epochs
+        self.pipeline_config.set_max_steps(max_steps=max_steps)
+
+        self.actor_train: Any = Cluster(
+            name=self.pipeline_config.actor_train.name,
+            worker_cls=ActorWorker,
+            resource_manager=self.resource_manager,
+            worker_config=self.pipeline_config.actor_train,
+        )
+        self.reference: Any = Cluster(
+            name=self.pipeline_config.reference.name,
+            worker_cls=ActorWorker,
+            resource_manager=self.resource_manager,
+            worker_config=self.pipeline_config.reference,
+        )
+
+        self.actor_train.initialize(pipeline_config=self.pipeline_config, blocking=True)
+        self.reference.initialize(pipeline_config=self.pipeline_config, blocking=True)
+
+    def _build_dataset_or_skip(self):
+        data_args = self.pipeline_config.actor_train.data_args
+        if _data_files_exist(data_args):
+            from roll.pipeline.rlvr.rlvr_vlm_pipeline import encode_function, get_vlm_dataset
+
+            return get_vlm_dataset(data_args, encode_function, self.processor)
+        return _make_synthetic_vlm_dataset(self.processor, size=self.pipeline_config.rollout_batch_size)
+
+    @torch.no_grad()
+    def run(self, max_batches: Optional[int] = None):
+        """
+        Run the pipeline and capture layer states using environment variables.
+
+        Args:
+            max_batches: Maximum number of batches to process (None for all)
+        """
+        global_step = 0
+        results = []
+
+        # Create output directories
+        fsdp_dir = self.output_dir / "fsdp2"
+        hf_dir = self.output_dir / "hf"
+        inputs_dir = self.output_dir / "inputs"
+        analysis_dir = self.output_dir / "analysis"
+        analysis_dir.mkdir(parents=True, exist_ok=True)
+
+        for batch_idx, batch_dict in enumerate(tqdm(self.dataloader)):
+            if max_batches is not None and batch_idx >= max_batches:
+                break
+
+            logger.info(f"vlm layer states pipeline step {global_step} batch {batch_idx} start...")
+
+            batch: DataProto = DataProto.from_single_dict(batch_dict)
+            batch.meta_info = {
+                "global_step": global_step,
+                "_broadcast_non_tensor_batch": True,
+                "loss_mask_keys": ["response_mask"],
+            }
+            batch.batch["response_mask"] = batch.batch["attention_mask"].clone()
+
+            # Save inputs and embeddings
+            save_inputs_and_embeddings(batch, inputs_dir, "input", global_step, batch_idx)
+
+            _set_capture_env_on_cluster(
+                self.actor_train,
+                save_dir=fsdp_dir,
+                prefix="fsdp2",
+                step=global_step,
+                batch_idx=batch_idx,
+            )
+            logprobs_fsdp = self.actor_train.compute_log_probs(batch)
+
+            _set_capture_env_on_cluster(
+                self.reference,
+                save_dir=hf_dir,
+                prefix="hf",
+                step=global_step,
+                batch_idx=batch_idx,
+            )
+            logprobs_ref = self.reference.compute_log_probs(batch)
+
+            # Directly compare saved inputs/embeddings/layer states for this step/batch.
+            analysis_out = analysis_dir / f"divergence_step{global_step}_batch{batch_idx}.json"
+            analyze_divergence(
+                fsdp_dir=fsdp_dir,
+                hf_dir=hf_dir,
+                inputs_dir=inputs_dir,
+                output_file=analysis_out,
+                global_step=global_step,
+                batch_idx=batch_idx,
+                threshold=1e-5,
+            )
+
+            lp_fsdp = logprobs_fsdp.batch["log_probs"]
+            lp_ref = logprobs_ref.batch["log_probs"]
+            mask = batch.batch["response_mask"][:, 1:].to(torch.bool)
+
+            diff = (lp_fsdp - lp_ref).abs()
+            diff_max = diff[mask].max().item() if mask.any() else 0.0
+            diff_mean = diff[mask].mean().item() if mask.any() else 0.0
+
+            results.append(
+                {
+                    "global_step": global_step,
+                    "batch_idx": batch_idx,
+                    "diff_max": diff_max,
+                    "diff_mean": diff_mean,
+                }
+            )
+            logger.info(f"vlm logprob diff_max={diff_max:.6f}, diff_mean={diff_mean:.6f}")
+
+            global_step += 1
+
+        logger.info("vlm layer states pipeline complete!")
+
+        # Save summary
+        summary_path = self.output_dir / "summary.json"
+        with open(summary_path, "w") as f:
+            json.dump(results, f, indent=2)
+
+        return results
+
+
+def test_fsdp_vlm_layer_states_cp2():
+    init()
+    _reset_model_download_cache_actor()
+    config = make_baseline_config(config_path="./log_probs", config_name="log_probs_fsdp_vlm_cp2_config")
+    _skip_if_cluster_insufficient(config, "test_fsdp_vlm_layer_states_cp2")
+    _skip_if_local_model_unavailable(config, "test_fsdp_vlm_layer_states_cp2")
+    pipeline = FSDPVLMLayerStatesPipeline(config, output_dir="./layer_states_output")
+    results = _run_pipeline_and_cleanup(pipeline, max_batches=1)  # Start with 1 batch for testing
+
+    logger.info(f"Test FSDP VLM layer states (CP2) completed, results saved to {pipeline.output_dir}")
+
+
+if __name__ == "__main__":
+    test_fsdp_vlm_layer_states_cp2()
diff --git a/tests/distributed/strategy/log_probs/test_fsdp_vlm_log_probs.py b/tests/distributed/strategy/log_probs/test_fsdp_vlm_log_probs.py
new file mode 100644
index 000000000..12fe9f7cd
--- /dev/null
+++ b/tests/distributed/strategy/log_probs/test_fsdp_vlm_log_probs.py
@@ -0,0 +1,198 @@
+import json
+import os
+from typing import Any
+
+import torch
+from torch.utils.data import DataLoader
+from tqdm import tqdm
+
+from roll.datasets.collator import DataCollatorWithPaddingForMM
+from roll.distributed.executor.cluster import Cluster
+from roll.distributed.scheduler.initialize import init
+from roll.distributed.scheduler.protocol import DataProto
+from roll.models.model_providers import default_processor_provider, get_extra_data_provider
+from roll.pipeline.base_pipeline import BasePipeline
+from roll.pipeline.base_worker import ActorWorker
+from roll.pipeline.rlvr.rlvr_config import RLVRConfig
+from roll.utils.logging import get_logger
+from tests.distributed.strategy.log_probs.test_fsdp_log_probs import (
+    _data_files_exist,
+    _make_synthetic_vlm_dataset,
+    _reset_model_download_cache_actor,
+    _run_pipeline_and_cleanup,
+    _skip_if_cluster_insufficient,
+    _skip_if_local_model_unavailable,
+)
+from tests.distributed.strategy.make_baseline_config import make_baseline_config
+
+logger = get_logger()
+
+
+class FSDPVLMLogProbsPipeline(BasePipeline):
+    """
+    VLM logprob precision test:
+    - use VLM processor + DataCollatorWithPaddingForMM (same data path as RLVRVLMPipeline)
+    - generate with vLLM (actor_infer)
+    - compare compute_log_probs between FSDP2 (actor_train) and HF (reference)
+    """
+
+    def __init__(self, pipeline_config: RLVRConfig):
+        super().__init__(pipeline_config)
+        self.pipeline_config = pipeline_config
+
+        # ------------------------------------------------------------------
+        # Qwen3-VL precision debug dumps (rank-0 only inside each Ray actor process).
+        # We must pass env vars via Ray runtime_env (worker_config.system_envs), not via driver os.environ.
+        dump_root = os.path.abspath(
+            os.getenv(
+                "QWEN3_VL_TEST_DUMP_ROOT",
+                os.path.join(self.pipeline_config.output_dir or ".", "qwen3_vl_dumps"),
+            )
+        )
+        os.makedirs(dump_root, exist_ok=True)
+        self.pipeline_config.actor_train.system_envs["QWEN3_VL_DUMP_DIR"] = os.path.join(dump_root, "actor_train")
+        self.pipeline_config.reference.system_envs["QWEN3_VL_DUMP_DIR"] = os.path.join(dump_root, "reference")
+
+        self.processor = default_processor_provider(self.pipeline_config.actor_train.model_args)
+        if self.processor is None:
+            raise RuntimeError("VLM logprob test requires a processor (AutoProcessor).")
+        # Follow RLVRVLMPipeline: ensure these are not None, otherwise qwen2_vl smart_resize will crash.
+        img_proc = getattr(self.processor, "image_processor", None)
+        if img_proc is not None:
+            model_args = self.pipeline_config.actor_train.model_args
+            if getattr(img_proc, "max_pixels", None) is None:
+                img_proc.max_pixels = getattr(model_args, "max_pixels", 1024 * 1024)
+            if getattr(img_proc, "min_pixels", None) is None:
+                img_proc.min_pixels = getattr(model_args, "min_pixels", 56 * 56)
+        self.tokenizer = self.processor.tokenizer
+        self.tokenizer.padding_side = "left"
+
+        # Dataset: prefer real VLM dataset if paths exist; otherwise skip (this is a GPU-heavy test anyway).
+        self.dataset = self._build_dataset_or_skip()
+
+        data_collator = DataCollatorWithPaddingForMM(
+            tokenizer=self.tokenizer,
+            processor=self.processor,
+            extra_data_provider=get_extra_data_provider(
+                self.pipeline_config.actor_train.model_args.model_name_or_path,
+                processor=self.processor,
+            ),
+            image_key="images",
+            max_length=self.pipeline_config.prompt_length,
+            padding="max_length",
+        )
+
+        self.dataloader = DataLoader(
+            dataset=self.dataset,
+            batch_size=self.pipeline_config.rollout_batch_size,
+            shuffle=True,
+            drop_last=True,
+            collate_fn=data_collator,
+        )
+
+        max_steps = len(self.dataloader) * self.pipeline_config.actor_train.training_args.num_train_epochs
+        self.pipeline_config.set_max_steps(max_steps=max_steps)
+
+        self.actor_train: Any = Cluster(
+            name=self.pipeline_config.actor_train.name,
+            worker_cls=ActorWorker,
+            resource_manager=self.resource_manager,
+            worker_config=self.pipeline_config.actor_train,
+        )
+        self.reference: Any = Cluster(
+            name=self.pipeline_config.reference.name,
+            worker_cls=ActorWorker,
+            resource_manager=self.resource_manager,
+            worker_config=self.pipeline_config.reference,
+        )
+
+        self.actor_train.initialize(pipeline_config=self.pipeline_config, blocking=True)
+        # self.actor_infer.initialize(pipeline_config=self.pipeline_config, blocking=True)
+        self.reference.initialize(pipeline_config=self.pipeline_config, blocking=True)
+
+    def _build_dataset_or_skip(self):
+        data_args = self.pipeline_config.actor_train.data_args
+        if _data_files_exist(data_args):
+            from roll.pipeline.rlvr.rlvr_vlm_pipeline import encode_function, get_vlm_dataset
+
+            return get_vlm_dataset(data_args, encode_function, self.processor)
+        return _make_synthetic_vlm_dataset(self.processor, size=self.pipeline_config.rollout_batch_size)
+
+    @torch.no_grad()
+    def run(self):
+        global_step = 0
+        results = []
+
+        for batch_dict in tqdm(self.dataloader):
+            logger.info(f"vlm logprob pipeline step {global_step} start...")
+
+            batch: DataProto = DataProto.from_single_dict(batch_dict)
+            batch.meta_info = {
+                "global_step": global_step,
+                "_broadcast_non_tensor_batch": True,
+                "loss_mask_keys": ["response_mask"],
+            }
+            batch.batch["response_mask"] = batch.batch["attention_mask"].clone()
+
+            # Generate responses using actor_infer (vLLM). Needs multi_modal_data for VLM prompts.
+            # gen_batch = batch.pop(
+            #     batch_keys=["input_ids", "attention_mask", "position_ids"],
+            #     non_tensor_batch_keys=["multi_modal_data"],
+            # )
+            # gen_batch.meta_info = {"global_step": global_step}
+            # generate_output: DataProto = self.actor_infer.generate(data=gen_batch)
+
+            # Merge generated full sequences back with original (keeps multi_modal_inputs for HF/FSDP forward).
+            # batch.batch = generate_output.batch
+            # batch = batch.union(generate_output)
+
+            # Compute log probs from FSDP2 and HF reference.
+            logprobs_fsdp = self.actor_train.compute_log_probs(batch)
+            logprobs_ref = self.reference.compute_log_probs(batch)
+
+            # layer_states = self.actor_train.compute_layer_state(batch)
+            # layer_states_ref = self.reference.compute_layer_state(batch)
+            # breakpoint()
+
+            lp_fsdp = logprobs_fsdp.batch["log_probs"]
+            lp_ref = logprobs_ref.batch["log_probs"]
+
+            diff = (lp_fsdp - lp_ref).abs()
+            diff_max = diff.max().item()
+            diff_mean = diff.mean().item()
+
+            results.append(
+                {
+                    "global_step": global_step,
+                    "diff_max": diff_max,
+                    "diff_mean": diff_mean,
+                }
+            )
+            logger.info(f"vlm logprob diff_max={diff_max:.6f}, diff_mean={diff_mean:.6f}")
+
+            global_step += 1
+            break
+
+        logger.info("vlm logprob pipeline complete!")
+        return results
+
+
+def test_fsdp_vlm_log_probs_cp2():
+    init()
+    _reset_model_download_cache_actor()
+    config = make_baseline_config(config_path="./log_probs", config_name="log_probs_fsdp_vlm_cp2_config")
+    _skip_if_cluster_insufficient(config, "test_fsdp_vlm_log_probs_cp2")
+    _skip_if_local_model_unavailable(config, "test_fsdp_vlm_log_probs_cp2")
+    pipeline = FSDPVLMLogProbsPipeline(config)
+    results = _run_pipeline_and_cleanup(pipeline)
+
+    output_file = "test_fsdp_vlm_log_probs_cp2.json"
+    with open(output_file, "w", encoding="utf-8") as f:
+        for m in results:
+            json.dump(m, f, ensure_ascii=False)
+            f.write("\n")
+    logger.info(f"Test FSDP VLM log probs (CP2) completed, results saved to {output_file}")
+
+
+if __name__ == "__main__":
+    test_fsdp_vlm_log_probs_cp2()
diff --git a/tests/distributed/strategy/log_probs/test_fsdp_vlm_log_probs_perf.py b/tests/distributed/strategy/log_probs/test_fsdp_vlm_log_probs_perf.py
new file mode 100644
index 000000000..84e538012
--- /dev/null
+++ b/tests/distributed/strategy/log_probs/test_fsdp_vlm_log_probs_perf.py
@@ -0,0 +1,305 @@
+import json
+import os
+import time
+from typing import Any
+
+import torch
+from torch.utils.data import DataLoader
+from tqdm import tqdm
+
+from roll.datasets.collator import DataCollatorWithPaddingForMM
+from roll.distributed.executor.cluster import Cluster
+from roll.distributed.scheduler.initialize import init
+from roll.distributed.scheduler.protocol import DataProto
+from roll.models.model_providers import default_processor_provider, get_extra_data_provider
+from roll.pipeline.base_pipeline import BasePipeline
+from roll.pipeline.base_worker import ActorWorker
+from roll.pipeline.rlvr.rlvr_config import RLVRConfig
+from roll.utils.logging import get_logger
+from tests.distributed.strategy.log_probs.test_fsdp_log_probs import (
+    _data_files_exist,
+    _make_synthetic_vlm_dataset,
+    _reset_model_download_cache_actor,
+    _run_pipeline_and_cleanup,
+    _skip_if_cluster_insufficient,
+    _skip_if_local_model_unavailable,
+)
+from tests.distributed.strategy.make_baseline_config import make_baseline_config
+
+logger = get_logger()
+
+
+def get_timer_stats():
+    """Get timer statistics from the context parallel utilities."""
+    try:
+        from roll.utils.context_parallel.globals import get_timer, log_timer_stats, clear_timer_stats
+        return {
+            "available": True,
+            "timers": log_timer_stats(),
+        }
+    except Exception as e:
+        return {
+            "available": False,
+            "error": str(e)
+        }
+
+
+def get_memory_stats():
+    """Get GPU memory statistics."""
+    if not torch.cuda.is_available():
+        return {"available": False}
+    
+    return {
+        "available": True,
+        "allocated_gb": torch.cuda.memory_allocated() / 1024**3,
+        "reserved_gb": torch.cuda.memory_reserved() / 1024**3,
+        "max_allocated_gb": torch.cuda.max_memory_allocated() / 1024**3,
+    }
+
+
+class FSDPVLMLogProbsPipeline(BasePipeline):
+    """
+    VLM logprob precision test with performance statistics:
+    - use VLM processor + DataCollatorWithPaddingForMM (same data path as RLVRVLMPipeline)
+    - compare compute_log_probs between FSDP2 (actor_train) and HF (reference)
+    - measure timing, memory usage, and communication overhead
+    """
+
+    def __init__(self, pipeline_config: RLVRConfig):
+        super().__init__(pipeline_config)
+        self.pipeline_config = pipeline_config
+
+        # ------------------------------------------------------------------
+        # Qwen3-VL precision debug dumps (rank-0 only inside each Ray actor process).
+        dump_root = os.path.abspath(
+            os.getenv(
+                "QWEN3_VL_TEST_DUMP_ROOT",
+                os.path.join(self.pipeline_config.output_dir or ".", "qwen3_vl_dumps"),
+            )
+        )
+        os.makedirs(dump_root, exist_ok=True)
+        self.pipeline_config.actor_train.system_envs["QWEN3_VL_DUMP_DIR"] = os.path.join(dump_root, "actor_train")
+        self.pipeline_config.reference.system_envs["QWEN3_VL_DUMP_DIR"] = os.path.join(dump_root, "reference")
+
+        self.processor = default_processor_provider(self.pipeline_config.actor_train.model_args)
+        if self.processor is None:
+            raise RuntimeError("VLM logprob test requires a processor (AutoProcessor).")
+        # Follow RLVRVLMPipeline: ensure these are not None
+        img_proc = getattr(self.processor, "image_processor", None)
+        if img_proc is not None:
+            model_args = self.pipeline_config.actor_train.model_args
+            if getattr(img_proc, "max_pixels", None) is None:
+                img_proc.max_pixels = getattr(model_args, "max_pixels", 1024 * 1024)
+            if getattr(img_proc, "min_pixels", None) is None:
+                img_proc.min_pixels = getattr(model_args, "min_pixels", 56 * 56)
+        self.tokenizer = self.processor.tokenizer
+        self.tokenizer.padding_side = "left"
+
+        # Dataset
+        self.dataset = self._build_dataset_or_skip()
+
+        data_collator = DataCollatorWithPaddingForMM(
+            tokenizer=self.tokenizer,
+            processor=self.processor,
+            extra_data_provider=get_extra_data_provider(
+                self.pipeline_config.actor_train.model_args.model_name_or_path,
+                processor=self.processor,
+            ),
+            image_key="images",
+            max_length=self.pipeline_config.prompt_length,
+            padding="max_length",
+        )
+
+        self.dataloader = DataLoader(
+            dataset=self.dataset,
+            batch_size=self.pipeline_config.rollout_batch_size,
+            shuffle=True,
+            drop_last=True,
+            collate_fn=data_collator,
+        )
+
+        max_steps = len(self.dataloader) * self.pipeline_config.actor_train.training_args.num_train_epochs
+        self.pipeline_config.set_max_steps(max_steps=max_steps)
+
+        self.actor_train: Any = Cluster(
+            name=self.pipeline_config.actor_train.name,
+            worker_cls=ActorWorker,
+            resource_manager=self.resource_manager,
+            worker_config=self.pipeline_config.actor_train,
+        )
+        self.reference: Any = Cluster(
+            name=self.pipeline_config.reference.name,
+            worker_cls=ActorWorker,
+            resource_manager=self.resource_manager,
+            worker_config=self.pipeline_config.reference,
+        )
+
+        self.actor_train.initialize(pipeline_config=self.pipeline_config, blocking=True)
+        self.reference.initialize(pipeline_config=self.pipeline_config, blocking=True)
+
+    def _build_dataset_or_skip(self):
+        data_args = self.pipeline_config.actor_train.data_args
+        if _data_files_exist(data_args):
+            from roll.pipeline.rlvr.rlvr_vlm_pipeline import encode_function, get_vlm_dataset
+
+            return get_vlm_dataset(data_args, encode_function, self.processor)
+        return _make_synthetic_vlm_dataset(self.processor, size=self.pipeline_config.rollout_batch_size)
+
+    @torch.no_grad()
+    def run(self):
+        global_step = 0
+        results = []
+        
+        # Clear timer stats before starting
+        try:
+            from roll.utils.context_parallel.globals import clear_timer_stats
+            clear_timer_stats()
+        except:
+            pass
+
+        for batch_dict in tqdm(self.dataloader):
+            logger.info(f"vlm logprob pipeline step {global_step} start...")
+
+            batch: DataProto = DataProto.from_single_dict(batch_dict)
+            batch.meta_info = {
+                "global_step": global_step,
+                "_broadcast_non_tensor_batch": True,
+                "loss_mask_keys": ["response_mask"],
+            }
+            batch.batch["response_mask"] = batch.batch["attention_mask"].clone()
+
+            # Get initial memory stats
+            mem_before = get_memory_stats()
+
+            # Time FSDP2 compute_log_probs
+            start_fsdp = time.time()
+            logprobs_fsdp = self.actor_train.compute_log_probs(batch)
+            time_fsdp = time.time() - start_fsdp
+
+            # Get memory stats after FSDP2
+            mem_after_fsdp = get_memory_stats()
+
+            # Get timer stats after FSDP2
+            timer_stats_fsdp = get_timer_stats()
+
+            # Clear timers for reference run
+            try:
+                from roll.utils.context_parallel.globals import clear_timer_stats
+                clear_timer_stats()
+            except:
+                pass
+
+            # Time HF reference compute_log_probs
+            start_ref = time.time()
+            logprobs_ref = self.reference.compute_log_probs(batch)
+            time_ref = time.time() - start_ref
+
+            # Get memory stats after reference
+            mem_after_ref = get_memory_stats()
+
+            # Get timer stats after reference (should be minimal)
+            timer_stats_ref = get_timer_stats()
+
+            # Compute correctness metrics
+            lp_fsdp = logprobs_fsdp.batch["log_probs"]
+            lp_ref = logprobs_ref.batch["log_probs"]
+
+            diff = (lp_fsdp - lp_ref).abs()
+            diff_max = diff.max().item()
+            diff_mean = diff.mean().item()
+            diff_std = diff.std().item()
+
+            # Check if results are numerically equivalent
+            is_correct = diff_max < 1e-5
+
+            # Batch statistics
+            batch_size = batch.batch["input_ids"].size(0)
+            seq_len = batch.batch["input_ids"].size(1)
+            num_tokens = (batch.batch["attention_mask"].sum()).item()
+
+            # Speedup calculation
+            speedup = time_ref / time_fsdp if time_fsdp > 0 else 0
+
+            result = {
+                "global_step": global_step,
+                "correctness": {
+                    "diff_max": diff_max,
+                    "diff_mean": diff_mean,
+                    "diff_std": diff_std,
+                    "is_correct": is_correct,
+                },
+                "performance": {
+                    "time_fsdp_seconds": time_fsdp,
+                    "time_ref_seconds": time_ref,
+                    "speedup": speedup,
+                    "tokens_per_second_fsdp": num_tokens / time_fsdp if time_fsdp > 0 else 0,
+                    "tokens_per_second_ref": num_tokens / time_ref if time_ref > 0 else 0,
+                },
+                "memory": {
+                    "before_gb": mem_before.get("allocated_gb", 0),
+                    "after_fsdp_gb": mem_after_fsdp.get("allocated_gb", 0),
+                    "after_ref_gb": mem_after_ref.get("allocated_gb", 0),
+                    "fsdp_memory_increase_gb": mem_after_fsdp.get("allocated_gb", 0) - mem_before.get("allocated_gb", 0),
+                },
+                "batch_info": {
+                    "batch_size": batch_size,
+                    "seq_len": seq_len,
+                    "num_tokens": num_tokens,
+                },
+                "communication": {
+                    "fsdp_timer_stats": timer_stats_fsdp,
+                    "ref_timer_stats": timer_stats_ref,
+                }
+            }
+
+            results.append(result)
+            
+            logger.info(f"Step {global_step}:")
+            logger.info(f"  Correctness: diff_max={diff_max:.6f}, diff_mean={diff_mean:.6f}, is_correct={is_correct}")
+            logger.info(f"  Performance: FSDP={time_fsdp:.4f}s, Ref={time_ref:.4f}s, Speedup={speedup:.2f}x")
+            logger.info(f"  Throughput: FSDP={result['performance']['tokens_per_second_fsdp']:.0f} tok/s, Ref={result['performance']['tokens_per_second_ref']:.0f} tok/s")
+            
+            if timer_stats_fsdp.get("available"):
+                logger.info(f"  Communication stats: {timer_stats_fsdp.get('timers', {})}")
+
+            global_step += 1
+            break  # Only run one step for testing
+
+        logger.info("vlm logprob pipeline complete!")
+        return results
+
+
+def test_fsdp_vlm_log_probs_cp2_with_perf():
+    """Test VLM logprobs with CP2 and comprehensive performance statistics."""
+    init()
+    _reset_model_download_cache_actor()
+    config = make_baseline_config(config_path="./log_probs", config_name="log_probs_fsdp_vlm_cp2_config")
+    _skip_if_cluster_insufficient(config, "test_fsdp_vlm_log_probs_cp2_with_perf")
+    _skip_if_local_model_unavailable(config, "test_fsdp_vlm_log_probs_cp2_with_perf")
+    pipeline = FSDPVLMLogProbsPipeline(config)
+    results = _run_pipeline_and_cleanup(pipeline)
+
+    output_file = "test_fsdp_vlm_log_probs_cp2_with_perf.json"
+    with open(output_file, "w", encoding="utf-8") as f:
+        json.dump(results, f, indent=2, ensure_ascii=False)
+    
+    logger.info(f"Test FSDP VLM log probs (CP2) with performance stats completed!")
+    logger.info(f"Results saved to {output_file}")
+    
+    # Print summary
+    if results:
+        r = results[0]
+        logger.info("\n" + "="*80)
+        logger.info("PERFORMANCE SUMMARY")
+        logger.info("="*80)
+        logger.info(f"Correctness: {r['correctness']['is_correct']} (diff_max={r['correctness']['diff_max']:.6f})")
+        logger.info(f"Speedup: {r['performance']['speedup']:.2f}x")
+        logger.info(f"FSDP time: {r['performance']['time_fsdp_seconds']:.4f}s")
+        logger.info(f"Reference time: {r['performance']['time_ref_seconds']:.4f}s")
+        logger.info(f"FSDP throughput: {r['performance']['tokens_per_second_fsdp']:.0f} tokens/s")
+        logger.info(f"Memory increase: {r['memory']['fsdp_memory_increase_gb']:.2f} GB")
+        logger.info("="*80)
+
+
+if __name__ == "__main__":
+    test_fsdp_vlm_log_probs_cp2_with_perf()
diff --git a/tests/distributed/strategy/log_probs/test_megatron_strategy.py b/tests/distributed/strategy/log_probs/test_megatron_strategy.py
index 71e8ea907..452ae0c35 100644
--- a/tests/distributed/strategy/log_probs/test_megatron_strategy.py
+++ b/tests/distributed/strategy/log_probs/test_megatron_strategy.py
@@ -1,5 +1,5 @@
 import json
-from typing import Any, List, Dict
+from typing import Any, Dict, List
 
 import ray
 import torch
@@ -8,15 +8,16 @@
 
 from roll.datasets.collator import DataCollatorWithPaddingForPaddedKeys
 from roll.datasets.loader import get_dataset
-from roll.pipeline.base_worker import ActorWorker
 from roll.distributed.executor.cluster import Cluster
 from roll.distributed.scheduler.initialize import init
 from roll.distributed.scheduler.protocol import DataProto
 from roll.models.model_providers import default_tokenizer_provider
 from roll.pipeline.base_pipeline import BasePipeline
+from roll.pipeline.base_worker import ActorWorker
 from roll.pipeline.rlvr.rlvr_config import RLVRConfig
 from roll.utils.logging import get_logger
-from tests.distributed.strategy.make_baseline_config import make_baseline_config
+from tests.distributed.strategy.make_baseline_config import \
+    make_baseline_config
 
 logger = get_logger()
 
@@ -27,7 +28,6 @@ def __init__(self, pipeline_config: RLVRConfig):
         super().__init__(pipeline_config)
         self.tokenizer = default_tokenizer_provider(
             model_args=self.pipeline_config.reference.model_args,
-            template_name=self.pipeline_config.reference.data_args.template,
         )
         self.dataset = get_dataset(
             tokenizer=self.tokenizer,
@@ -83,11 +83,15 @@ def run(self):
             ref_log_probs_refs: List[ray.ObjectRef] = self.reference.compute_log_probs(batch, blocking=False)
             ref_log_probs = DataProto.materialize_concat(data_refs=ref_log_probs_refs)
             ref_log_probs.rename(old_keys="log_probs", new_keys="ref_log_probs")
+            if "entropy" in ref_log_probs.batch.keys():
+                del ref_log_probs.batch["entropy"]
             ref_log_probs.meta_info.pop("metrics", {})
             batch = batch.union(ref_log_probs)
 
             hf_log_probs: DataProto = self.actor_infer.compute_log_probs(batch)
             hf_log_probs.rename(old_keys="log_probs", new_keys="hf_log_probs")
+            if "entropy" in hf_log_probs.batch.keys():
+                del hf_log_probs.batch["entropy"]
             hf_log_probs.meta_info.pop("metrics", {})
             batch = batch.union(hf_log_probs)
             response_mask = batch.batch["response_mask"]
diff --git a/tests/distributed/strategy/make_baseline_config.py b/tests/distributed/strategy/make_baseline_config.py
index cd35d287d..7bae49496 100644
--- a/tests/distributed/strategy/make_baseline_config.py
+++ b/tests/distributed/strategy/make_baseline_config.py
@@ -1,5 +1,6 @@
 from dacite import from_dict
-from hydra.experimental import compose, initialize
+from hydra import compose, initialize
+from hydra.core.global_hydra import GlobalHydra
 from omegaconf import OmegaConf
 
 from roll.pipeline.rlvr.rlvr_config import RLVRConfig
@@ -7,8 +8,10 @@
 
 def make_baseline_config(config_path, config_name):
 
-    initialize(config_path=config_path)
-    cfg = compose(config_name=config_name)
+    if GlobalHydra.instance().is_initialized():
+        GlobalHydra.instance().clear()
+    with initialize(config_path=config_path, version_base=None):
+        cfg = compose(config_name=config_name)
     ppo_config = from_dict(data_class=RLVRConfig, data=OmegaConf.to_container(cfg, resolve=True))
 
     return ppo_config
diff --git a/tests/distributed/strategy/model_update/model_update_baseline_config.yaml b/tests/distributed/strategy/model_update/model_update_baseline_config.yaml
index 59f3c8254..777a1cb9a 100644
--- a/tests/distributed/strategy/model_update/model_update_baseline_config.yaml
+++ b/tests/distributed/strategy/model_update/model_update_baseline_config.yaml
@@ -16,7 +16,7 @@ prompt_length: 1024
 response_length: 1024
 
 
-pretrain: Qwen/Qwen2.5-7B-Instruct
+pretrain: Qwen/Qwen3-8B
 
 actor_train:
   model_args:
diff --git a/tests/distributed/strategy/model_update/model_update_debug.py b/tests/distributed/strategy/model_update/model_update_debug.py
index 0dd18c6e1..0d6cb8c27 100644
--- a/tests/distributed/strategy/model_update/model_update_debug.py
+++ b/tests/distributed/strategy/model_update/model_update_debug.py
@@ -4,8 +4,10 @@
 from roll.configs.worker_config import StrategyArguments
 from roll.distributed.scheduler.initialize import init
 from roll.utils.logging import get_logger
-from tests.distributed.strategy.make_baseline_config import make_baseline_config
-from tests.distributed.strategy.model_update.model_update_pipeline import ModelUpdatePipeline
+from tests.distributed.strategy.make_baseline_config import \
+    make_baseline_config
+from tests.distributed.strategy.model_update.model_update_pipeline import \
+    ModelUpdatePipeline
 
 logger = get_logger()
 
@@ -16,13 +18,13 @@ def vllm_model_update_baseline():
     init()
 
     ppo_config = make_baseline_config(config_path="./model_update", config_name="model_update_baseline_config")
-    # vllm_strategy_args = StrategyArguments(strategy_name="vllm",
-    #                                        strategy_config={
-    #                                            "gpu_memory_utilization": 0.8,
-    #                                            "block_size": 16,
-    #                                        })
-    #
-    # ppo_config.actor_infer.strategy_args = vllm_strategy_args
+    # Enable stat logging for vLLM to allow metrics collection
+    if (
+        hasattr(ppo_config.actor_infer, "strategy_args")
+        and ppo_config.actor_infer.strategy_args.strategy_name == "vllm"
+    ):
+        if "disable_log_stats" not in ppo_config.actor_infer.strategy_args.strategy_config:
+            ppo_config.actor_infer.strategy_args.strategy_config["disable_log_stats"] = False
 
     pipeline = ModelUpdatePipeline(pipeline_config=ppo_config)
 
@@ -53,6 +55,34 @@ def ds_2_hf_model_update_baseline():
     logger.info(f"{json.dumps({'total_time': total_time, 'time_list': generate_times})}")
 
 
+def fsdp2_train_model_update():
+    os.environ["RAY_PROFILING"] = "1"
+
+    init()
+
+    ppo_config = make_baseline_config(config_path="./model_update", config_name="model_update_fsdp")
+    # Enable stat logging for vLLM to allow metrics collection
+    if (
+        hasattr(ppo_config.actor_infer, "strategy_args")
+        and ppo_config.actor_infer.strategy_args.strategy_name == "vllm"
+    ):
+        if "disable_log_stats" not in ppo_config.actor_infer.strategy_args.strategy_config:
+            ppo_config.actor_infer.strategy_args.strategy_config["disable_log_stats"] = False
+
+    pipeline = ModelUpdatePipeline(pipeline_config=ppo_config)
+
+    metric_list = pipeline.run()
+    generate_times = [metric["time/model_update"] for metric in metric_list[:-2]]
+    total_time = sum(generate_times)
+
+    logger.info(f"{json.dumps({'total_time': total_time, 'time_list': generate_times})}")
+
+    output_file = "model_update_fsdp.json"
+    with open(output_file, "w") as f:
+        json.dump(metric_list, f, ensure_ascii=False)
+
+
 if __name__ == "__main__":
-    vllm_model_update_baseline()
+    # vllm_model_update_baseline()
     # ds_2_hf_model_update_baseline()
+    fsdp2_train_model_update()
diff --git a/tests/distributed/strategy/model_update/model_update_fsdp.yaml b/tests/distributed/strategy/model_update/model_update_fsdp.yaml
new file mode 100644
index 000000000..a6c6a1e99
--- /dev/null
+++ b/tests/distributed/strategy/model_update/model_update_fsdp.yaml
@@ -0,0 +1,70 @@
+
+hydra:
+  run:
+    dir: .
+  output_subdir: null
+
+exp_name: "model_update_baseline"
+seed: 42
+logging_dir: ./output/logs
+output_dir: ./output
+
+track_with: stdout
+
+rollout_batch_size: 1024
+prompt_length: 1024
+response_length: 1024
+
+
+pretrain: Qwen/Qwen3-0.6B
+
+actor_train:
+  model_args:
+    dtype: bf16
+    model_type: ~
+  data_args:
+    template: qwen2_5
+    file_name: data/comparison_gpt4_data_zh.json
+    dataset_dir: data
+    prompt: instruction
+    interleave_probs: "1.0"
+  training_args:
+    learning_rate: 5.0e-7
+    weight_decay: 0
+    per_device_train_batch_size: 1
+    gradient_accumulation_steps: 2
+    warmup_ratio: 0.1
+    num_train_epochs: 1
+  strategy_args:
+    strategy_name: fsdp2_train
+    strategy_config:
+      fsdp_size: 8
+      param_dtype: bf16
+      reduce_dtype: fp32
+      reshard_after_forward: true
+      offload_policy: true
+      forward_prefetch: true
+      use_batched_model_update: true
+  device_mapping: list(range(0,8))
+
+
+actor_infer:
+  model_args:
+    dtype: bf16
+  generating_args:
+    max_new_tokens: ${response_length}
+    top_p: 0.99
+    top_k: 100
+    num_beams: 1
+    temperature: 0.99
+    num_return_sequences: 1
+  data_args:
+    template: qwen2_5
+  strategy_args:
+    strategy_name: vllm
+    strategy_config:
+      gpu_memory_utilization: 0.8
+      block_size: 16
+      max_model_len: 6000
+      tensor_parallel_size: 1
+  device_mapping: list(range(0,8))
diff --git a/tests/distributed/strategy/model_update/model_update_multi_group_debug.py b/tests/distributed/strategy/model_update/model_update_multi_group_debug.py
index 7ce740f93..03b4e3b1b 100644
--- a/tests/distributed/strategy/model_update/model_update_multi_group_debug.py
+++ b/tests/distributed/strategy/model_update/model_update_multi_group_debug.py
@@ -4,8 +4,10 @@
 from roll.configs.worker_config import StrategyArguments
 from roll.distributed.scheduler.initialize import init
 from roll.utils.logging import get_logger
-from tests.distributed.strategy.make_baseline_config import make_baseline_config
-from tests.distributed.strategy.model_update.model_update_pipeline_multi_group import ModelUpdatePipeline
+from tests.distributed.strategy.make_baseline_config import \
+    make_baseline_config
+from tests.distributed.strategy.model_update.model_update_pipeline_multi_group import \
+    ModelUpdatePipeline
 
 logger = get_logger()
 
@@ -16,13 +18,13 @@ def vllm_model_update_baseline():
     init()
 
     ppo_config = make_baseline_config(config_path="./model_update", config_name="model_update_baseline_config")
-    # vllm_strategy_args = StrategyArguments(strategy_name="vllm",
-    #                                        strategy_config={
-    #                                            "gpu_memory_utilization": 0.8,
-    #                                            "block_size": 16,
-    #                                        })
-    #
-    # ppo_config.actor_infer.strategy_args = vllm_strategy_args
+    # Enable stat logging for vLLM to allow metrics collection
+    if (
+        hasattr(ppo_config.actor_infer, "strategy_args")
+        and ppo_config.actor_infer.strategy_args.strategy_name == "vllm"
+    ):
+        if "disable_log_stats" not in ppo_config.actor_infer.strategy_args.strategy_config:
+            ppo_config.actor_infer.strategy_args.strategy_config["disable_log_stats"] = False
 
     pipeline = ModelUpdatePipeline(pipeline_config=ppo_config)
 
@@ -53,6 +55,34 @@ def ds_2_hf_model_update_baseline():
     logger.info(f"{json.dumps({'total_time': total_time, 'time_list': generate_times})}")
 
 
+def fsdp2_train_model_update():
+    os.environ["RAY_PROFILING"] = "1"
+
+    init()
+
+    ppo_config = make_baseline_config(config_path="./model_update", config_name="model_update_fsdp")
+    # Enable stat logging for vLLM to allow metrics collection
+    if (
+        hasattr(ppo_config.actor_infer, "strategy_args")
+        and ppo_config.actor_infer.strategy_args.strategy_name == "vllm"
+    ):
+        if "disable_log_stats" not in ppo_config.actor_infer.strategy_args.strategy_config:
+            ppo_config.actor_infer.strategy_args.strategy_config["disable_log_stats"] = False
+
+    pipeline = ModelUpdatePipeline(pipeline_config=ppo_config)
+
+    metric_list = pipeline.run()
+    generate_times = [metric["time/model_update"] for metric in metric_list[:-2]]
+    total_time = sum(generate_times)
+
+    logger.info(f"{json.dumps({'total_time': total_time, 'time_list': generate_times})}")
+
+    output_file = "model_update_fsdp.json"
+    with open(output_file, "w") as f:
+        json.dump(metric_list, f, ensure_ascii=False, indent=2)
+
+
 if __name__ == "__main__":
-    vllm_model_update_baseline()
+    # vllm_model_update_baseline()
     # ds_2_hf_model_update_baseline()
+    fsdp2_train_model_update()
diff --git a/tests/distributed/strategy/model_update/model_update_pipeline.py b/tests/distributed/strategy/model_update/model_update_pipeline.py
index aeac940b7..c8fe7c42e 100644
--- a/tests/distributed/strategy/model_update/model_update_pipeline.py
+++ b/tests/distributed/strategy/model_update/model_update_pipeline.py
@@ -1,16 +1,19 @@
+import os
 from typing import Any, Dict
 
+import ray
 import torch
 from codetiming import Timer
 
-from roll.pipeline.base_worker import ActorWorker
 from roll.distributed.executor.cluster import Cluster
 from roll.distributed.scheduler.protocol import DataProto
 from roll.models.model_providers import default_tokenizer_provider
 from roll.pipeline.base_pipeline import BasePipeline
+from roll.pipeline.base_worker import ActorWorker, InferWorker
 from roll.pipeline.rlvr.rlvr_config import RLVRConfig
 from roll.utils.logging import get_logger
 
+
 logger = get_logger()
 
 
@@ -25,13 +28,13 @@ def __init__(self, pipeline_config: RLVRConfig):
         self.pipeline_config.set_max_steps(max_steps=1024)
         self.actor_train: Any = Cluster(
             name=self.pipeline_config.actor_train.name,
-            worker_cls=ActorWorker,
+            worker_cls=self.pipeline_config.actor_train.worker_cls,
             resource_manager=self.resource_manager,
             worker_config=self.pipeline_config.actor_train,
         )
         self.actor_infer: Any = Cluster(
             name=self.pipeline_config.actor_infer.name,
-            worker_cls=ActorWorker,
+            worker_cls=self.pipeline_config.actor_infer.worker_cls,
             resource_manager=self.resource_manager,
             worker_config=self.pipeline_config.actor_infer,
         )
diff --git a/tests/distributed/strategy/model_update/model_update_pipeline_multi_group.py b/tests/distributed/strategy/model_update/model_update_pipeline_multi_group.py
index 8d9a89eac..29b4cad69 100644
--- a/tests/distributed/strategy/model_update/model_update_pipeline_multi_group.py
+++ b/tests/distributed/strategy/model_update/model_update_pipeline_multi_group.py
@@ -4,12 +4,12 @@
 import torch
 from codetiming import Timer
 
-from roll.configs.worker_config import WorkerConfig, StrategyArguments
-from roll.pipeline.base_worker import ActorWorker
+from roll.configs.worker_config import StrategyArguments, WorkerConfig
 from roll.distributed.executor.cluster import Cluster
 from roll.distributed.scheduler.protocol import DataProto
 from roll.models.model_providers import default_tokenizer_provider
 from roll.pipeline.base_pipeline import BasePipeline
+from roll.pipeline.base_worker import ActorWorker, InferWorker
 from roll.pipeline.rlvr.rlvr_config import RLVRConfig
 from roll.utils.logging import get_logger
 
@@ -33,7 +33,7 @@ def __init__(self, pipeline_config: RLVRConfig):
         )
         self.actor_infer: Any = Cluster(
             name=self.pipeline_config.actor_infer.name,
-            worker_cls=ActorWorker,
+            worker_cls=InferWorker,
             resource_manager=self.resource_manager,
             worker_config=self.pipeline_config.actor_infer,
         )
diff --git a/tests/distributed/strategy/standalone/fsdp2_standalone_strategy.py b/tests/distributed/strategy/standalone/fsdp2_standalone_strategy.py
new file mode 100644
index 000000000..081c86be7
--- /dev/null
+++ b/tests/distributed/strategy/standalone/fsdp2_standalone_strategy.py
@@ -0,0 +1,523 @@
+import contextlib
+import os
+from dataclasses import dataclass
+from typing import Any, Dict, Optional, Tuple
+
+import torch
+import torch.distributed as dist
+from torch.distributed.device_mesh import init_device_mesh
+from torch.distributed.fsdp import CPUOffloadPolicy, MixedPrecisionPolicy
+from transformers import AutoConfig, AutoModelForCausalLM, AutoModelForVision2Seq
+
+from roll.platforms import current_platform
+from roll.utils.context_parallel import get_ulysses_group, set_upg_manager
+from roll.utils.context_parallel.autograd_gather import ulysses_gather
+from roll.utils.context_parallel.rmpad_ulysses import (
+    gather_outputs_and_unpad,
+    ulysses_pad_and_slice_inputs,
+    ulysses_pad_inputs,
+)
+from roll.utils.fsdp_utils import (
+    apply_fsdp2,
+    fsdp2_load_full_state_dict,
+    get_init_weight_context_manager,
+    get_shard_placement_fn,
+)
+from roll.utils.functionals import log_probs_from_logits
+
+
+def _parse_dtype(dtype):
+    if dtype is None:
+        return None
+    if isinstance(dtype, torch.dtype):
+        return dtype
+    if isinstance(dtype, str):
+        dtype_lower = dtype.lower()
+        dtype_map = {
+            "bf16": torch.bfloat16,
+            "bfloat16": torch.bfloat16,
+            "fp16": torch.float16,
+            "float16": torch.float16,
+            "half": torch.float16,
+            "fp32": torch.float32,
+            "float32": torch.float32,
+            "float": torch.float32,
+            "fp64": torch.float64,
+            "float64": torch.float64,
+        }
+        if dtype_lower in dtype_map:
+            return dtype_map[dtype_lower]
+        if hasattr(torch, dtype):
+            return getattr(torch, dtype)
+        raise ValueError(f"Unsupported dtype string: {dtype}")
+    return dtype
+
+
+def create_device_mesh_with_ulysses(world_size: int, fsdp_size: int):
+    """
+    Matches `roll.distributed.strategy.fsdp2_strategy.create_device_mesh_with_ulysses`.
+    """
+    if fsdp_size <= 1 or fsdp_size >= world_size:
+        mesh_shape = (world_size,)
+        mesh_dim_names = ["fsdp"]
+    else:
+        ddp_size = world_size // fsdp_size
+        mesh_shape = (ddp_size, fsdp_size)
+        mesh_dim_names = ["ddp", "fsdp"]
+    return init_device_mesh(
+        current_platform.device_type,
+        mesh_shape=mesh_shape,
+        mesh_dim_names=mesh_dim_names,
+    )
+
+
+def _validate_ulysses_compat(config, cp_size: int):
+    try:
+        num_attention_heads, num_key_value_heads = (
+            config.num_attention_heads,
+            config.num_key_value_heads,
+        )
+    except AttributeError:
+        num_attention_heads, num_key_value_heads = (
+            config.text_config.num_attention_heads,
+            config.text_config.num_key_value_heads,
+        )
+
+    assert (
+        num_attention_heads % cp_size == 0
+    ), f"num_attention_heads {num_attention_heads} must be divisible by ulysses_size {cp_size}"
+    assert num_key_value_heads % cp_size == 0 or cp_size % num_key_value_heads == 0, (
+        f"num_key_value_heads {num_key_value_heads} must be divisible by ulysses_size "
+        f"{cp_size} or vice versa. Upon ulysses_size % num_key_value_heads == 0, "
+        f"kv heads are repeated to ensure correctness."
+    )
+
+
+@dataclass
+class StandaloneRankInfo:
+    dp_rank: int
+    dp_size: int
+    cp_rank: int
+    cp_size: int
+
+
+@dataclass
+class StandaloneFSDP2Config:
+    model_name_or_path: str
+    is_trainable: bool = False
+    # FSDP2
+    param_dtype: torch.dtype = torch.bfloat16
+    reduce_dtype: torch.dtype = torch.float32
+    reshard_after_forward: bool = True
+    fsdp_size: int = 1
+    cpu_offload: bool = False
+    # CP(Ulysses)
+    ulysses_size: int = 1
+    use_remove_padding: bool = False
+    # HF
+    trust_remote_code: bool = True
+    attn_implementation: Optional[str] = None  # e.g. "fa2" / "sdpa" / None
+
+
+class StandaloneFSDP2Strategy:
+    def __init__(self, cfg: StandaloneFSDP2Config):
+        self.cfg = cfg
+        self.rank_info: Optional[StandaloneRankInfo] = None
+        self.device_mesh = None
+        self.fsdp_config: Optional[Dict[str, Any]] = None
+        self.model: Optional[torch.nn.Module] = None
+        self.config = None
+        self.param_dtype = _parse_dtype(cfg.param_dtype)
+        self.reduce_dtype = _parse_dtype(cfg.reduce_dtype)
+
+    def _init_dist_if_needed(self):
+        if dist.is_initialized():
+            return
+        if current_platform.device_type != "cpu":
+            backends_str = f"cpu:gloo,{current_platform.device_type}:{current_platform.communication_backend}"
+        else:
+            backends_str = current_platform.communication_backend
+        dist.init_process_group(backend=backends_str)
+
+    def _setup_rank_info(self) -> StandaloneRankInfo:
+        world_size = dist.get_world_size()
+        global_rank = dist.get_rank()
+
+        cp_size = int(self.cfg.ulysses_size or 1)
+        if cp_size > 1:
+            patch_info = current_platform.apply_ulysses_patch()
+            if patch_info is None:
+                cp_size = 1
+
+        dp_rank = global_rank // cp_size
+        dp_size = world_size // cp_size
+        cp_rank = global_rank % cp_size
+
+        info = StandaloneRankInfo(dp_rank=dp_rank, dp_size=dp_size, cp_rank=cp_rank, cp_size=cp_size)
+        self.rank_info = info
+        return info
+
+    def _setup_device(self):
+        if current_platform.device_type == "cuda":
+            local_rank = int(os.environ.get("LOCAL_RANK", str(dist.get_rank())))
+            torch.cuda.set_device(local_rank)
+
+    def setup_fsdp2_configuration(self):
+        mixed_precision = MixedPrecisionPolicy(
+            param_dtype=self.param_dtype,
+            reduce_dtype=self.reduce_dtype,
+            cast_forward_inputs=True,
+        )
+
+        offload_policy = None
+        if bool(self.cfg.cpu_offload):
+            offload_policy = CPUOffloadPolicy(pin_memory=True)
+
+        self.fsdp_config = {
+            "mesh": self.device_mesh,
+            "reshard_after_forward": bool(self.cfg.reshard_after_forward),
+            "mp_policy": mixed_precision,
+            "offload_policy": offload_policy,
+            "shard_placement_fn": get_shard_placement_fn(fsdp_size=int(self.cfg.fsdp_size or 1)),
+        }
+
+    def _pick_model_class(self, cfg) -> Any:
+        if type(cfg) in AutoModelForVision2Seq._model_mapping.keys():  # assume built-in models
+            return AutoModelForVision2Seq
+        return AutoModelForCausalLM
+
+    def _apply_roll_model_patches(self, model: torch.nn.Module, cfg) -> None:
+        # Mirror the important parts of `roll.models.model_providers.load_model` that affect CP/FSDP2.
+        model_type = getattr(cfg, "model_type", None) or ""
+        ulysses_size = int(self.rank_info.cp_size if self.rank_info is not None else 1)
+        # Apply the same shared model forward patches as the main codebase.
+        from roll.models.model_providers import patch_model
+
+        patch_model(model, cfg, use_mcore=False)
+
+        if ulysses_size > 1 and getattr(cfg, "vision_config", None) is not None:
+            if model_type in ("qwen2_5_vl", "qwen3_vl"):
+                from roll.utils.context_parallel.vlm_cp_patch import find_vlm_text_decoder, patch_vlm_decoder_for_cp
+
+                decoder = find_vlm_text_decoder(model)
+                if decoder is not None:
+                    patch_vlm_decoder_for_cp(decoder, name=f"{model_type}.text_decoder")
+
+        if getattr(cfg, "vision_config", None) is not None:
+            # Ensure vision tower blocks do not cast forward inputs under FSDP2.
+            from roll.models.model_providers import get_vl_model_vision_tower_blocks
+
+            vision_tower_blocks = get_vl_model_vision_tower_blocks(model)
+            if vision_tower_blocks is not None:
+                for block in vision_tower_blocks:
+                    block._fsdp2_cast_forward_inputs = False
+
+    def initialize(self):
+        self._init_dist_if_needed()
+        self._setup_device()
+        info = self._setup_rank_info()
+
+        world_size = dist.get_world_size()
+
+        fsdp_size = int(self.cfg.fsdp_size or 1)
+        if info.cp_size > 1 and (fsdp_size <= 1 or fsdp_size >= world_size):
+            fsdp_size = world_size // info.cp_size
+            self.cfg.fsdp_size = fsdp_size
+
+        if info.cp_size > 1:
+            set_upg_manager(ulysses_size=info.cp_size, rank=dist.get_rank(), world_size=world_size)
+
+        self.device_mesh = create_device_mesh_with_ulysses(world_size=world_size, fsdp_size=fsdp_size)
+
+        hf_cfg = AutoConfig.from_pretrained(self.cfg.model_name_or_path, trust_remote_code=self.cfg.trust_remote_code)
+        self.config = hf_cfg
+        if info.cp_size > 1:
+            _validate_ulysses_compat(hf_cfg, info.cp_size)
+
+        if getattr(hf_cfg, "vision_config", None) is not None:
+            vc = hf_cfg.vision_config
+            setattr(vc, "_attn_implementation", "sdpa")
+            setattr(vc, "attn_implementation", "sdpa")
+
+        setattr(hf_cfg, "use_cache", not bool(self.cfg.is_trainable))
+
+        use_meta_tensor = not getattr(hf_cfg, "tie_word_embeddings", False)
+        init_context = get_init_weight_context_manager(use_meta_tensor=use_meta_tensor, mesh=self.device_mesh)
+
+        model_cls = self._pick_model_class(hf_cfg)
+        with init_context():
+            model = model_cls.from_pretrained(
+                self.cfg.model_name_or_path,
+                config=hf_cfg,
+                trust_remote_code=self.cfg.trust_remote_code,
+                low_cpu_mem_usage=False,
+            )
+
+        self._apply_roll_model_patches(model, hf_cfg)
+        is_lora = getattr(model, "peft_config", None) is not None
+
+        full_state = model.state_dict()
+
+        self.setup_fsdp2_configuration()
+        assert self.fsdp_config is not None
+        # `apply_fsdp2()` needs a wrap policy list. Most HF models expose `_no_split_modules`,
+        # but some custom models may not; fall back to a conservative module-level wrap.
+        wrap_list = getattr(model, "_no_split_modules", None)
+        if not wrap_list:
+            wrap_list = ["Linear"]
+        strategy_cfg = {"wrap_policy": {"transformer_layer_cls_to_wrap": wrap_list}}
+        apply_fsdp2(model, self.fsdp_config, config=strategy_cfg, is_lora=is_lora)
+
+        fsdp2_load_full_state_dict(
+            model=model,
+            full_state=full_state,
+            device_mesh=self.device_mesh,
+            cpu_offload=self.fsdp_config["offload_policy"],
+        )
+
+        self.model = model
+        dist.barrier()
+
+    def unwrap_model(self):
+        if self.model is None:
+            return None
+        return getattr(self.model, "module", self.model)
+
+    def get_feature_on_cp_rank(
+        self,
+        input_ids: torch.Tensor,
+        attention_mask: torch.Tensor = None,
+        position_ids: torch.Tensor = None,
+    ):
+        assert self.rank_info is not None
+        seqlens_in_batch = input_ids.size(1)
+        assert (
+            seqlens_in_batch % self.rank_info.cp_size == 0
+        ), f"input_length={seqlens_in_batch} not divisible by cp_size={self.rank_info.cp_size}"
+        cp_middle_rank_len = seqlens_in_batch // self.rank_info.cp_size
+        start_index = cp_middle_rank_len * self.rank_info.cp_rank
+        end_index = cp_middle_rank_len * (self.rank_info.cp_rank + 1)
+
+        result = {"input_ids": input_ids[:, start_index:end_index]}
+        if attention_mask is not None:
+            result["attention_mask"] = attention_mask[:, start_index:end_index]
+        if position_ids is not None:
+            if position_ids.dim() == 3:
+                result["position_ids"] = position_ids[:, :, start_index:end_index]
+            else:
+                result["position_ids"] = position_ids[:, start_index:end_index]
+        return result
+
+    def fsdp2_forward(
+        self,
+        *,
+        input_ids: torch.Tensor,
+        attention_mask: torch.Tensor,
+        position_ids: torch.Tensor,
+        forward_args: Optional[Dict[str, Any]] = None,
+    ) -> torch.Tensor:
+        """
+        Mirrors `FSDP2InferStrategy._fsdp2_forward`.
+        Returns logits (possibly CP-sliced then gathered/padded back to keep downstream shape consistent).
+        """
+        assert self.model is not None
+        assert self.rank_info is not None
+        forward_args = dict(forward_args or {})
+
+        cp_size = self.rank_info.cp_size
+        cp_rank = self.rank_info.cp_rank
+
+        underlying = self.unwrap_model()
+        model_type = getattr(getattr(underlying, "config", None), "model_type", "") or ""
+        is_vlm = getattr(getattr(underlying, "config", None), "vision_config", None) is not None
+        is_supported_vlm = is_vlm and model_type in ("qwen2_5_vl", "qwen2_vl", "qwen3_vl", "qwen3_vl_moe")
+
+        if "use_cache" not in forward_args:
+            forward_args["use_cache"] = False
+
+        # Remove padding + CP path
+        if cp_size > 1 and self.cfg.use_remove_padding:
+            try:
+                from flash_attn.bert_padding import index_first_axis, pad_input, rearrange, unpad_input
+            except Exception as e:
+                raise RuntimeError("use_remove_padding=True requires flash_attn installed.") from e
+
+            input_ids_rmpad, indices, *_ = unpad_input(input_ids.unsqueeze(-1), attention_mask)
+            input_ids_rmpad = input_ids_rmpad.transpose(0, 1)  # (1, total_nnz)
+
+            if position_ids is None:
+                raise RuntimeError("remove_padding path requires position_ids.")
+
+            if position_ids.dim() == 3:
+                position_ids_rmpad = (
+                    index_first_axis(
+                        rearrange(position_ids, "c b s ... -> (b s) c ..."),
+                        indices,
+                    )
+                    .transpose(0, 1)
+                    .unsqueeze(1)
+                )  # (C, 1, total_nnz)
+            else:
+                position_ids_rmpad = index_first_axis(
+                    rearrange(position_ids.unsqueeze(-1), "b s ... -> (b s) ..."),
+                    indices,
+                ).transpose(0, 1)
+
+            if is_supported_vlm:
+                input_ids_rmpad, position_ids_rmpad, pad_size = ulysses_pad_inputs(
+                    input_ids_rmpad,
+                    position_ids_rmpad,
+                    cp_size=cp_size,
+                )
+            else:
+                input_ids_rmpad, position_ids_rmpad, pad_size = ulysses_pad_and_slice_inputs(
+                    input_ids_rmpad,
+                    position_ids_rmpad,
+                    cp_size=cp_size,
+                    cp_rank=cp_rank,
+                )
+
+            output = self.model(
+                input_ids=input_ids_rmpad,
+                attention_mask=None,
+                position_ids=position_ids_rmpad,
+                **forward_args,
+            )
+            logits_rmpad = output.logits  # (1, local_tokens, vocab)
+
+            logits_rmpad = gather_outputs_and_unpad(
+                logits_rmpad,
+                gather_dim=1,
+                unpad_dim=1,
+                padding_size=pad_size,
+                group=get_ulysses_group(),
+            )
+
+            logits = pad_input(
+                hidden_states=logits_rmpad.squeeze(0).unsqueeze(-1),
+                indices=indices,
+                batch=input_ids.size(0),
+                seqlen=input_ids.size(1),
+            ).squeeze(-1)
+
+            features = self.get_feature_on_cp_rank(logits)
+            return features["input_ids"]
+
+        # CP slicing path (non-rmpad)
+        if cp_size > 1 and (not is_supported_vlm):
+            feats = self.get_feature_on_cp_rank(input_ids, attention_mask, position_ids)
+            input_ids = feats["input_ids"]
+            attention_mask = feats["attention_mask"]
+            position_ids = feats["position_ids"]
+
+        if not self.cfg.use_remove_padding:
+            if cp_size > 1 and is_supported_vlm:
+                assert (
+                    input_ids.size(1) % cp_size == 0
+                ), f"input_length={input_ids.size(1)} not divisible by cp_size={cp_size} for VLM non-rmpad CP"
+                logits_local = self.model(
+                    input_ids=input_ids,
+                    attention_mask=attention_mask,
+                    position_ids=position_ids,
+                    **forward_args,
+                ).logits  # (bs, local_seq, vocab)
+                logits_full = gather_outputs_and_unpad(
+                    logits_local,
+                    gather_dim=1,
+                    unpad_dim=None,
+                    padding_size=0,
+                    group=get_ulysses_group(),
+                )
+                features = self.get_feature_on_cp_rank(logits_full)
+                return features["input_ids"]
+
+            return self.model(
+                input_ids=input_ids,
+                attention_mask=attention_mask,
+                position_ids=position_ids,
+                **forward_args,
+            ).logits
+
+        # remove-padding without CP (or cp_size==1)
+        try:
+            from flash_attn.bert_padding import index_first_axis, pad_input, rearrange, unpad_input
+        except Exception as e:
+            raise RuntimeError("use_remove_padding=True requires flash_attn installed.") from e
+
+        input_ids_rmpad, indices, *_ = unpad_input(input_ids.unsqueeze(-1), attention_mask)
+        input_ids_rmpad = input_ids_rmpad.transpose(0, 1)
+
+        if position_ids is None:
+            raise RuntimeError("remove_padding path requires position_ids.")
+
+        if position_ids.dim() == 3:
+            position_ids_rmpad = (
+                index_first_axis(
+                    rearrange(position_ids, "c b s ... -> (b s) c ..."),
+                    indices,
+                )
+                .transpose(0, 1)
+                .unsqueeze(1)
+            )
+        else:
+            position_ids_rmpad = index_first_axis(
+                rearrange(position_ids.unsqueeze(-1), "b s ... -> (b s) ..."),
+                indices,
+            ).transpose(0, 1)
+
+        output = self.model(
+            input_ids=input_ids_rmpad,
+            attention_mask=None,
+            position_ids=position_ids_rmpad,
+            **forward_args,
+        )
+        logits = pad_input(
+            hidden_states=output.logits.squeeze(0).unsqueeze(-1),
+            indices=indices,
+            batch=input_ids.size(0),
+            seqlen=input_ids.size(1),
+        ).squeeze(-1)
+        return logits
+
+    def compute_log_probs(
+        self,
+        *,
+        logits: torch.Tensor,
+        input_ids: torch.Tensor,
+        attention_mask: torch.Tensor,
+    ) -> torch.Tensor:
+        """
+        Mirrors `FSDP2InferStrategy.op_compute_log_probs`.
+        Returns per-token logprobs aligned to `attention_mask[:, 1:]` (shifted labels).
+        """
+        assert self.rank_info is not None
+
+        labels = input_ids[:, 1:].clone()
+        labels[attention_mask[:, 1:] == 0] = 0
+
+        if self.rank_info.cp_size > 1:
+            labels = torch.cat([labels, torch.zeros_like(labels[:, :1])], dim=1)
+            labels = self.get_feature_on_cp_rank(labels)["input_ids"]
+
+            log_probs = log_probs_from_logits(logits, labels)
+            log_probs = ulysses_gather(
+                log_probs,
+                gather_dim=1,
+                group=get_ulysses_group(),
+                grad_scaler=True,
+            )
+            log_probs = log_probs[:, :-1] * attention_mask[:, 1:]
+        else:
+            labels = torch.cat([labels, torch.zeros_like(labels[:, :1])], dim=1)
+            log_probs = log_probs_from_logits(logits, labels)
+            log_probs = log_probs[:, :-1] * attention_mask[:, 1:]
+
+        return log_probs
+
+    @contextlib.contextmanager
+    def autocast(self):
+        if current_platform.device_type == "cpu":
+            yield
+            return
+        with torch.autocast(device_type=current_platform.device_type, dtype=self.param_dtype):
+            yield
diff --git a/tests/distributed/strategy/standalone/run_fsdp2_standalone.py b/tests/distributed/strategy/standalone/run_fsdp2_standalone.py
new file mode 100644
index 000000000..d1d462899
--- /dev/null
+++ b/tests/distributed/strategy/standalone/run_fsdp2_standalone.py
@@ -0,0 +1,114 @@
+import argparse
+import os
+from typing import Any, Dict, Optional
+
+import torch
+import torch.distributed as dist
+from transformers import AutoTokenizer
+
+from tests.distributed.strategy.standalone.fsdp2_standalone_strategy import (
+    StandaloneFSDP2Config,
+    StandaloneFSDP2Strategy,
+)
+
+
+def _build_text_batch(
+    *,
+    tokenizer,
+    prompt: str,
+    response: str,
+    device: torch.device,
+    max_length: int,
+    model_name_or_path: str,
+):
+    if tokenizer.pad_token is None:
+        tokenizer.pad_token = tokenizer.eos_token
+    text = prompt + response
+    enc = tokenizer(
+        [text],
+        return_tensors="pt",
+        padding="max_length",
+        truncation=True,
+        max_length=max_length,
+    )
+    input_ids = enc["input_ids"].to(device)
+    attention_mask = enc["attention_mask"].to(device)
+
+    bsz, seqlen = input_ids.shape
+    position_ids = torch.arange(seqlen, dtype=torch.long, device=device).unsqueeze(0).expand(bsz, -1)
+    position_ids = position_ids.masked_fill(attention_mask == 0, 0)
+    return input_ids, attention_mask, position_ids
+
+
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--model", required=True, help="Local model path (preferred for standalone runs).")
+    parser.add_argument("--prompt", default="Hello", help="Prompt text.")
+    parser.add_argument("--response", default=" world", help="Response text (appended to prompt).")
+    parser.add_argument("--max-length", type=int, default=128)
+    parser.add_argument("--cp-size", type=int, default=1)
+    parser.add_argument("--fsdp-size", type=int, default=1)
+    parser.add_argument("--param-dtype", default="bf16", choices=["bf16", "fp16", "fp32"])
+    parser.add_argument("--reduce-dtype", default="fp32", choices=["bf16", "fp16", "fp32"])
+    parser.add_argument("--reshard-after-forward", type=int, default=1, choices=[0, 1])
+    parser.add_argument("--cpu-offload", type=int, default=0, choices=[0, 1])
+    parser.add_argument("--use-remove-padding", type=int, default=0, choices=[0, 1])
+    args = parser.parse_args()
+
+    cfg = StandaloneFSDP2Config(
+        model_name_or_path=args.model,
+        is_trainable=False,
+        ulysses_size=int(args.cp_size),
+        fsdp_size=int(args.fsdp_size),
+        param_dtype=args.param_dtype,
+        reduce_dtype=args.reduce_dtype,
+        reshard_after_forward=bool(args.reshard_after_forward),
+        cpu_offload=bool(args.cpu_offload),
+        use_remove_padding=bool(args.use_remove_padding),
+    )
+    strat = StandaloneFSDP2Strategy(cfg)
+    strat.initialize()
+
+    rank = dist.get_rank()
+    device = (
+        torch.device("cuda", int(os.environ.get("LOCAL_RANK", "0")))
+        if torch.cuda.is_available()
+        else torch.device("cpu")
+    )
+
+    tokenizer = AutoTokenizer.from_pretrained(
+        args.model, local_files_only=True, trust_remote_code=True, padding_side="left"
+    )
+    input_ids, attention_mask, position_ids = _build_text_batch(
+        tokenizer=tokenizer,
+        prompt=args.prompt,
+        response=args.response,
+        device=device,
+        max_length=int(args.max_length),
+        model_name_or_path=args.model,
+    )
+
+    with torch.no_grad(), strat.autocast():
+        logits = strat.fsdp2_forward(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            forward_args={"use_cache": False},
+        )
+        log_probs = strat.compute_log_probs(logits=logits, input_ids=input_ids, attention_mask=attention_mask)
+
+    scalar = log_probs.sum()
+    dist.all_reduce(scalar)
+    if rank == 0:
+        print(
+            f"[standalone fsdp2] world_size={dist.get_world_size()} cp_size={strat.rank_info.cp_size} "
+            f"fsdp_size={cfg.fsdp_size} remove_padding={cfg.use_remove_padding} "
+            f"log_probs_sum(all_reduce)={scalar.item():.4f}"
+        )
+
+    dist.barrier()
+    dist.destroy_process_group()
+
+
+if __name__ == "__main__":
+    main()
diff --git a/tests/distributed/strategy/test_fsdp_strategy_collection.py b/tests/distributed/strategy/test_fsdp_strategy_collection.py
new file mode 100644
index 000000000..f9f539e58
--- /dev/null
+++ b/tests/distributed/strategy/test_fsdp_strategy_collection.py
@@ -0,0 +1,973 @@
+import os
+import random
+import socket
+from types import SimpleNamespace
+
+import numpy as np
+import pytest
+import torch
+import torch.distributed as dist
+import torch.multiprocessing as mp
+from tensordict import TensorDict
+from torch.distributed.fsdp import CPUOffloadPolicy, MixedPrecisionPolicy
+from torch.distributed.tensor import DTensor
+
+from roll.distributed.scheduler.protocol import DataProto
+from roll.distributed.strategy import fsdp2_strategy
+from roll.distributed.strategy.fsdp2_strategy import (
+    FSDP2InferStrategy, FSDP2StrategyBase, FSDP2TrainStrategy,
+    create_device_mesh_with_ulysses)
+from roll.platforms import current_platform
+from roll.utils.fsdp_utils import (apply_fsdp2, fsdp2_load_full_state_dict,
+                                   get_shard_placement_fn)
+from roll.utils.offload_states import OffloadStateType
+
+
+class _PlatformStub:
+    def __init__(self, device_type="cpu", backend=None):
+        self.device_type = device_type
+        if backend is None:
+            backend = "nccl" if device_type == "cuda" else "gloo"
+        self.communication_backend = backend
+
+    def current_device(self):
+        if self.device_type == "cuda":
+            current = (
+                torch.cuda.current_device()
+                if torch.cuda.is_available()
+                else 0
+            )
+            return torch.device("cuda", current)
+        return "cpu"
+
+    def apply_ulysses_patch(self):
+        return None
+
+    def empty_cache(self):
+        if self.device_type == "cuda":
+            torch.cuda.empty_cache()
+
+    def get_rng_state(self):
+        if self.device_type == "cuda":
+            return torch.cuda.get_rng_state()
+        return torch.get_rng_state()
+
+    def set_rng_state(self, state):
+        if self.device_type == "cuda":
+            torch.cuda.set_rng_state(state)
+        else:
+            torch.set_rng_state(state)
+
+
+def _accelerator_device_count() -> int:
+    if current_platform.device_type == "cpu":
+        return 0
+    device_count = getattr(current_platform, "device_count", None)
+    if not callable(device_count):
+        return 0
+    return int(device_count())
+
+
+def _has_accelerator_devices(min_devices: int = 1) -> bool:
+    if current_platform.device_type == "cpu":
+        return False
+    is_available = getattr(current_platform, "is_available", None)
+    return (
+        callable(is_available)
+        and bool(is_available())
+        and _accelerator_device_count() >= min_devices
+    )
+
+
+def _distributed_backend_for_current_platform() -> str:
+    if current_platform.device_type == "cpu":
+        return "gloo"
+    return f"cpu:gloo,{current_platform.device_type}:{current_platform.communication_backend}"
+
+
+def _device_from_current_platform_device(device_id) -> torch.device:
+    if isinstance(device_id, torch.device):
+        return device_id
+    return torch.device(current_platform.device_type, int(device_id))
+
+
+def _current_test_device() -> torch.device:
+    if current_platform.device_type == "cpu":
+        return torch.device("cpu")
+    current_device = getattr(current_platform, "current_device", None)
+    if callable(current_device):
+        return _device_from_current_platform_device(current_device())
+    return torch.device(current_platform.device_type)
+
+
+def _set_test_device_for_rank(rank: int) -> torch.device:
+    if current_platform.device_type == "cpu":
+        return torch.device("cpu")
+    device_index = rank % _accelerator_device_count()
+    set_device = getattr(current_platform, "set_device", None)
+    if callable(set_device):
+        set_device(device_index)
+    return torch.device(current_platform.device_type, device_index)
+
+
+def _mixed_precision_policy_for_current_platform():
+    if current_platform.device_type == "cpu":
+        return None
+    param_dtype = torch.float16 if current_platform.device_type == "cuda" else torch.bfloat16
+    return MixedPrecisionPolicy(
+        param_dtype=param_dtype,
+        reduce_dtype=torch.float32,
+        cast_forward_inputs=True,
+    )
+
+
+def _cpu_offload_policy_for_current_platform():
+    if current_platform.device_type == "cpu":
+        return None
+    return CPUOffloadPolicy(pin_memory=current_platform.is_cuda())
+
+
+class DummyTrainingArgs:
+    def __init__(self):
+        self.per_device_train_batch_size = 2
+        self.gradient_accumulation_steps = 1
+        self.learning_rate = 3e-4
+        self.adam_beta1 = 0.9
+        self.adam_beta2 = 0.95
+        self.weight_decay = 0.01
+        self.lr_scheduler_type = "linear"
+        self.max_steps = 10
+
+    def get_warmup_steps(self, max_steps):
+        return 1
+
+
+class DummyModelArgs:
+    def __init__(self, ulysses_size=1):
+        self.ulysses_size = ulysses_size
+        self.model_name_or_path = "dummy-model"
+        self.model_config_kwargs = {}
+        self.lora_target = None
+
+
+def make_worker(
+    strategy_config=None, use_remove_padding=False, ulysses_size=1
+):
+    worker_config = SimpleNamespace(
+        name="dummy_worker",
+        training_args=DummyTrainingArgs(),
+        model_args=DummyModelArgs(ulysses_size=ulysses_size),
+        strategy_args=SimpleNamespace(
+            strategy_config=strategy_config or {}
+        ),
+        use_remove_padding=use_remove_padding,
+        checkpoint_config=None,
+        offload_nccl=False,
+        apply_loss_scale=False,
+    )
+    worker = SimpleNamespace(
+        worker_config=worker_config,
+        pipeline_config=SimpleNamespace(seed=0, max_grad_norm=1.0),
+        rank_info=SimpleNamespace(
+            dp_rank=0,
+            dp_size=1,
+            cp_rank=0,
+            cp_size=1,
+            tp_rank=0,
+            pp_rank=0,
+        ),
+        world_size=1,
+        rank=0,
+    )
+    return worker
+
+
+@pytest.fixture
+def worker_factory():
+    def _factory(
+        strategy_config=None, use_remove_padding=False, ulysses_size=1
+    ):
+        return make_worker(
+            strategy_config=strategy_config,
+            use_remove_padding=use_remove_padding,
+            ulysses_size=ulysses_size,
+        )
+
+    return _factory
+
+
+@pytest.fixture
+def strategy_factory(worker_factory):
+    strategies = []
+
+    def _factory(strategy_cls, **worker_kwargs):
+        worker = worker_factory(**worker_kwargs)
+        strategy = strategy_cls(worker)
+        strategies.append(strategy)
+        return strategy
+
+    yield _factory
+
+    for strategy in strategies:
+        strategy.thread_executor.shutdown(wait=True)
+
+
+@pytest.fixture
+def platform_stub():
+    return _PlatformStub()
+
+
+@pytest.fixture(autouse=True)
+def _patch_platform(monkeypatch, platform_stub):
+    monkeypatch.setattr(fsdp2_strategy, "current_platform", platform_stub)
+
+
+class DummyCheckpointManager:
+    def __init__(self, checkpoint_config=None):
+        self.checkpoint_config = checkpoint_config
+        self.upload_calls = []
+
+    def upload(self, *args, **kwargs):
+        self.upload_calls.append((args, kwargs))
+
+
+@pytest.fixture(autouse=True)
+def patch_checkpoint_manager(monkeypatch):
+    monkeypatch.setattr(
+        fsdp2_strategy, "CheckpointManager", DummyCheckpointManager
+    )
+
+
+class DummyForwardModel(torch.nn.Module):
+    def __init__(self, logits):
+        super().__init__()
+        self.kwargs = None
+        self._ret = SimpleNamespace(logits=logits)
+
+    def forward(self, **kwargs):
+        self.kwargs = kwargs
+        return self._ret
+
+
+class MockModel:
+    def __init__(self):
+        self.to_calls = []
+        self.cpu_called = False
+
+    def to(self, device, non_blocking=False):
+        self.to_calls.append((device, non_blocking))
+        return self
+
+    def cpu(self):
+        self.cpu_called = True
+        return self
+
+
+def test_create_device_mesh_with_ulysses_global_mesh(
+    monkeypatch, platform_stub
+):
+    """1D global mesh"""
+    captured = {}
+
+    def fake_init(device_type, mesh_shape, mesh_dim_names):
+        captured["device_type"] = device_type
+        captured["mesh_shape"] = mesh_shape
+        captured["mesh_dim_names"] = mesh_dim_names
+        return "mesh"
+
+    monkeypatch.setattr(fsdp2_strategy, "init_device_mesh", fake_init)
+
+    mesh = create_device_mesh_with_ulysses(world_size=4, fsdp_size=1)
+
+    assert mesh == "mesh"
+    assert captured["device_type"] == platform_stub.device_type
+    assert captured["mesh_shape"] == (4,)
+    assert captured["mesh_dim_names"] == ["fsdp"]
+
+
+def test_create_device_mesh_with_ulysses_hsdp_mesh(monkeypatch):
+    """2D HSDP mesh"""
+    captured = {}
+
+    def fake_init(device_type, mesh_shape, mesh_dim_names):
+        captured["mesh_shape"] = mesh_shape
+        captured["mesh_dim_names"] = mesh_dim_names
+        return "mesh"
+
+    monkeypatch.setattr(fsdp2_strategy, "init_device_mesh", fake_init)
+
+    mesh = create_device_mesh_with_ulysses(world_size=8, fsdp_size=4)
+
+    assert mesh == "mesh"
+    assert captured["mesh_shape"] == (2, 4)
+    assert captured["mesh_dim_names"] == ["ddp", "fsdp"]
+
+
+def test_build_checkpoint_paths_uses_rank_and_world(strategy_factory):
+    """Test that the checkpoint paths are built correctly"""
+    strategy = strategy_factory(FSDP2StrategyBase)
+    model_path, optim_path, extra_path = strategy._build_checkpoint_paths(
+        "/tmp/ckpts", world_size=2, dp_rank=1
+    )
+    assert model_path.endswith("model_world_size_2_rank_1.pt")
+    assert optim_path.endswith("optim_world_size_2_rank_1.pt")
+    assert extra_path.endswith("extra_state_world_size_2_rank_1.pt")
+
+
+def test_copy_weight_to_param(strategy_factory):
+    """Test that the weight is copied to the parameter correctly"""
+    strategy = strategy_factory(FSDP2StrategyBase)
+    param = torch.nn.Parameter(torch.zeros(3))
+    weight = torch.arange(3).float()
+
+    strategy._copy_weight_to_param(param, weight)
+
+    assert torch.allclose(param.detach(), weight)
+
+
+def test_gather_full_tensor_returns_clone(strategy_factory):
+    strategy = strategy_factory(FSDP2StrategyBase)
+    param = torch.nn.Parameter(torch.tensor([1.0, 2.0]))
+
+    gathered = strategy._gather_full_tensor(param)
+    assert torch.allclose(gathered, param.detach())
+
+    # _gather_full_tensor needs to return a detached clone of the parameter;
+    gathered += 1
+    assert torch.allclose(param.detach(), torch.tensor([1.0, 2.0]))
+
+
+def test_move_optimizer_states_respects_target_device(
+    strategy_factory, monkeypatch
+):
+    """
+    Make sure that the optimizer states are moved to the correct device after load/offload.
+    """
+    strategy = strategy_factory(FSDP2StrategyBase)
+
+    class FakeTensor:
+        def __init__(self):
+            self.device = "cpu"
+
+        def to(self, device, non_blocking=False):
+            self.device = device
+            return self
+
+    fake_tensor = FakeTensor()
+    strategy.optimizer = SimpleNamespace(
+        state={"p": {"momentum": fake_tensor}}
+    )
+
+    orig_is_tensor = fsdp2_strategy.torch.is_tensor
+    monkeypatch.setattr(
+        fsdp2_strategy.torch,
+        "is_tensor",
+        lambda obj: isinstance(obj, FakeTensor) or orig_is_tensor(obj),
+    )
+
+    strategy._move_optimizer_states("meta")
+
+    assert fake_tensor.device == "meta"
+
+
+def test_get_broadcast_tensor_returns_cpu_view(strategy_factory):
+    strategy = strategy_factory(FSDP2StrategyBase)
+    weight_cpu = torch.ones(5)
+
+    result = strategy._get_broadcast_tensor(weight_cpu)
+
+    assert result is weight_cpu
+
+
+def test_get_feature_on_cp_rank_slices_correct_window(strategy_factory):
+    strategy = strategy_factory(FSDP2InferStrategy)
+    strategy.worker.rank_info.cp_size = 2
+    strategy.worker.rank_info.cp_rank = 1
+
+    input_ids = torch.arange(8).view(1, 8)
+    attention_mask = torch.ones_like(input_ids)
+    position_ids = torch.arange(16).view(2, 1, 8)
+
+    features = strategy.get_feature_on_cp_rank(
+        input_ids, attention_mask, position_ids
+    )
+
+    expected_ids = torch.arange(4, 8).view(1, 4)
+    assert torch.equal(features["input_ids"], expected_ids)
+    assert torch.equal(
+        features["attention_mask"], torch.ones_like(expected_ids)
+    )
+    assert torch.equal(
+        features["position_ids"],
+        torch.tensor(
+            [[[4, 5, 6, 7]], [[12, 13, 14, 15]]], dtype=position_ids.dtype
+        ),
+    )
+
+
+def test_op_compute_log_probs_matches_manual(strategy_factory):
+    strategy = strategy_factory(FSDP2InferStrategy)
+    logits = torch.tensor([[[0.0, 1.0], [1.0, 0.0], [0.5, -0.5]]])
+    input_ids = torch.tensor([[0, 1, 0]])
+    attention_mask = torch.tensor([[1, 1, 0]])
+
+    result = strategy.op_compute_log_probs(
+        logits, input_ids, attention_mask
+    )
+
+    labels = input_ids[:, 1:].clone()
+    labels[attention_mask[:, 1:] == 0] = 0
+    labels = torch.cat([labels, torch.zeros_like(labels[:, :1])], dim=1)
+    log_probs = (
+        torch.nn.functional.log_softmax(logits.float(), dim=-1)
+        .gather(dim=-1, index=labels.unsqueeze(-1))
+        .squeeze(-1)
+    )
+    expected = log_probs[:, :-1] * attention_mask[:, 1:]
+
+    assert torch.allclose(result, expected)
+
+
+def test_op_compute_entropy_masks_prompt(strategy_factory):
+    strategy = strategy_factory(FSDP2InferStrategy)
+    logits = torch.tensor(
+        [[[0.0, 1.0], [1.5, 0.5], [0.3, 0.7], [1.2, 0.2]]]
+    )
+    attention_mask = torch.tensor([[1, 1, 1, 0]])
+
+    result = strategy.op_compute_entropy(logits, attention_mask)
+
+    probs = torch.softmax(logits.float(), dim=-1)
+    manual_entropy = torch.logsumexp(logits.float(), dim=-1) - (
+        probs * logits
+    ).sum(dim=-1)
+    expected = manual_entropy[:, :-1] * attention_mask[:, 1:]
+
+    assert torch.allclose(result, expected)
+
+
+def test_setup_fsdp2_configuration_respects_strategy_config(
+    strategy_factory,
+):
+    strategy_config = {
+        "param_dtype": torch.float16,
+        "reduce_dtype": torch.float32,
+        "reshard_after_forward": False,
+        "offload_policy": True,
+        "fsdp_size": 2,
+    }
+    strategy = strategy_factory(
+        FSDP2InferStrategy, strategy_config=strategy_config
+    )
+    strategy.device_mesh = "mesh-handle"
+
+    strategy.setup_fsdp2_configuration()
+
+    cfg = strategy.fsdp_config
+    assert cfg["mesh"] == "mesh-handle"
+    assert cfg["reshard_after_forward"] is False
+    assert cfg["offload_policy"] is not False
+    assert cfg["mp_policy"].param_dtype == torch.float16
+    assert callable(cfg["shard_placement_fn"])
+
+
+def test_clip_grad_norm_cpu_offload_uses_dummy_helper(
+    strategy_factory, monkeypatch
+):
+    strategy = strategy_factory(FSDP2TrainStrategy)
+    strategy.model = torch.nn.Linear(2, 2, bias=False)
+    expected_params = list(strategy.model.parameters())
+
+    for param in expected_params:
+        param.grad = torch.ones_like(param)
+
+    strategy.cpu_offload_enabled = True
+
+    recorded = {}
+
+    def fake_get_total_norm(grads, norm_type, error_if_nonfinite, foreach):
+        recorded["total_norm_args"] = (
+            list(grads),
+            norm_type,
+            error_if_nonfinite,
+            foreach,
+        )
+        return torch.tensor(2.0)
+
+    def fake_clip_grads_with_norm_(parameters, max_norm, total_norm, foreach):
+        recorded["clip_args"] = (
+            list(parameters),
+            max_norm,
+            total_norm.clone(),
+            foreach,
+        )
+
+    monkeypatch.setattr(
+        fsdp2_strategy, "_get_total_norm", fake_get_total_norm
+    )
+    monkeypatch.setattr(
+        fsdp2_strategy, "_clip_grads_with_norm_", fake_clip_grads_with_norm_
+    )
+
+    returned_norm = strategy._clip_grad_norm(max_norm=1.0)
+
+    assert "total_norm_args" in recorded
+    grads_arg, norm_type, err_flag, foreach_flag = recorded["total_norm_args"]
+    assert grads_arg == [param.grad for param in expected_params]
+    assert norm_type == 2.0
+    assert err_flag is False
+    assert foreach_flag is None
+
+    assert "clip_args" in recorded
+    clip_params, clip_max_norm, clip_total_norm, clip_foreach = recorded[
+        "clip_args"
+    ]
+    assert clip_params == expected_params
+    assert clip_max_norm == 1.0
+    assert clip_foreach is None
+    assert clip_total_norm.item() == pytest.approx(2.0)
+
+    assert returned_norm.item() == pytest.approx(2.0)
+
+
+def _fsdp2_cpu_offload_grad_clip_worker(rank, world_size, port):
+    backend = _distributed_backend_for_current_platform()
+    fsdp2_strategy.current_platform = current_platform
+    os.environ["MASTER_ADDR"] = "127.0.0.1"
+    os.environ["MASTER_PORT"] = str(port)
+    os.environ["RANK"] = str(rank)
+    os.environ["WORLD_SIZE"] = str(world_size)
+    dist.init_process_group(
+        backend=backend,
+        rank=rank,
+        world_size=world_size,
+    )
+    try:
+        device = _set_test_device_for_rank(rank)
+
+        model = _TinyMLP(input_dim=4, hidden_dim=4, output_dim=2).to(device)
+        mesh = create_device_mesh_with_ulysses(
+            world_size=world_size, fsdp_size=world_size
+        )
+        mp_policy = _mixed_precision_policy_for_current_platform()
+        offload_policy = _cpu_offload_policy_for_current_platform()
+        fsdp_kwargs = {
+            "mesh": mesh,
+            "reshard_after_forward": True,
+            "mp_policy": mp_policy,
+            "offload_policy": offload_policy,
+            "shard_placement_fn": get_shard_placement_fn(world_size),
+        }
+        full_state = model.state_dict()
+        apply_fsdp2(model, fsdp_kwargs, {"fsdp_size": world_size})
+        fsdp2_load_full_state_dict(model, full_state, mesh, offload_policy)
+
+        features = torch.randn(2, 4, device=device, requires_grad=False)
+        targets = torch.randn(2, 2, device=device, requires_grad=False)
+        loss = model(features, targets)
+        loss.backward()
+
+        strategy = FSDP2TrainStrategy.__new__(FSDP2TrainStrategy)
+        strategy.model = model
+        strategy.cpu_offload_enabled = offload_policy is not None
+
+        total_norm = strategy._clip_grad_norm(max_norm=0.5)
+        scalar_norm = (
+            total_norm.to_local() if hasattr(total_norm, "to_local") else total_norm
+        )
+        scalar_norm = float(scalar_norm.detach().cpu().item())
+        gathered = [0.0 for _ in range(world_size)]
+        dist.all_gather_object(gathered, scalar_norm)
+
+        if rank == 0:
+            baseline = gathered[0]
+            print(f"Gathered norms: {gathered}")
+            for idx, other in enumerate(gathered[1:], start=1):
+                print(f"Rank 0 norm: {baseline}, Rank {idx} norm: {other}, diff: {abs(baseline - other)}")
+                assert other > 0, f"Rank {idx} returned zero/negative norm"
+    finally:
+        dist.destroy_process_group()
+
+
+@pytest.mark.skipif(
+    fsdp2_strategy.MixedPrecisionPolicy is None,
+    reason="FSDP2 requires torch>=2.4",
+)
+@pytest.mark.skipif(
+    not dist.is_available(),
+    reason="torch.distributed is not available",
+)
+@pytest.mark.skipif(
+    not _has_accelerator_devices(),
+    reason="CPU-offload grad clip test requires an accelerator",
+)
+def test_fsdp2_cpu_offload_grad_clip_distributed():
+    world_size = min(2, _accelerator_device_count())
+    port = _find_free_port()
+    mp.spawn(
+        _fsdp2_cpu_offload_grad_clip_worker,
+        args=(world_size, port),
+        nprocs=world_size,
+        join=True,
+    )
+
+
+def test_fsdp2_forward_without_remove_padding(strategy_factory):
+    strategy = strategy_factory(
+        FSDP2TrainStrategy, use_remove_padding=False
+    )
+    strategy.worker.rank_info.cp_size = 1
+    logits = torch.randn(1, 2, 4)
+    strategy.model = DummyForwardModel(logits=logits)
+
+    input_ids = torch.ones(1, 2, dtype=torch.long)
+    attention_mask = torch.ones_like(input_ids)
+    position_ids = torch.zeros_like(input_ids)
+
+    output = strategy._fsdp2_forward(
+        input_ids=input_ids,
+        attention_mask=attention_mask,
+        position_ids=position_ids,
+        forward_args={"foo": torch.tensor(1)},
+    )
+
+    assert torch.equal(output, logits)
+    assert strategy.model.kwargs["input_ids"] is input_ids
+    assert strategy.model.kwargs["attention_mask"] is attention_mask
+    assert strategy.model.kwargs["position_ids"] is position_ids
+
+
+def test_fsdp2_forward_slices_cp_inputs(strategy_factory):
+    strategy = strategy_factory(
+        FSDP2TrainStrategy, use_remove_padding=False
+    )
+    strategy.worker.rank_info.cp_size = 2
+    strategy.worker.rank_info.cp_rank = 1
+    logits = torch.randn(1, 2, 4)
+    strategy.model = DummyForwardModel(logits=logits)
+    strategy.param_dtype = torch.float32
+
+    input_ids = torch.arange(0, 4).view(1, 4).long()
+    attention_mask = torch.ones_like(input_ids)
+    position_ids = torch.zeros_like(input_ids)
+
+    strategy._fsdp2_forward(
+        input_ids=input_ids,
+        attention_mask=attention_mask,
+        position_ids=position_ids,
+        forward_args={},
+    )
+
+    expected_slice = input_ids[:, 2:]
+    assert torch.equal(strategy.model.kwargs["input_ids"], expected_slice)
+    assert torch.equal(
+        strategy.model.kwargs["attention_mask"], attention_mask[:, 2:]
+    )
+    assert torch.equal(
+        strategy.model.kwargs["position_ids"], position_ids[:, 2:]
+    )
+
+
+def test_forward_step_uses_cp_slice(strategy_factory):
+    strategy = strategy_factory(
+        FSDP2InferStrategy, use_remove_padding=False
+    )
+    strategy.worker.rank_info.cp_size = 2
+    strategy.worker.rank_info.cp_rank = 1
+    logits = torch.zeros(1, 2, 3)
+    strategy.model = DummyForwardModel(logits=logits)
+    strategy.param_dtype = torch.float32
+    strategy._get_batch_num_tokens = lambda batch: {}
+    strategy._get_global_valid_samples = lambda batch: {}
+
+    seq_len = 4
+    batch = TensorDict(
+        {
+            "input_ids": torch.arange(seq_len).view(1, seq_len),
+            "attention_mask": torch.ones(1, seq_len, dtype=torch.long),
+            "position_ids": torch.zeros(1, seq_len, dtype=torch.long),
+            "response_mask": torch.ones(1, seq_len, dtype=torch.long),
+        },
+        batch_size=[1],
+    )
+    data = DataProto(
+        batch=batch,
+        meta_info={"micro_batch_size": 1, "loss_mask_keys": []},
+    )
+
+    def dummy_forward_func(local_data, output_tensor):
+        zeros = torch.zeros_like(local_data.batch["input_ids"]).float()
+        return output_tensor.sum(), {"log_probs": zeros, "entropy": zeros}
+
+    results = strategy.forward_step(
+        batch=data,
+        forward_func=dummy_forward_func,
+    )
+
+    assert "log_probs" in results and "entropy" in results
+    expected_slice = torch.arange(seq_len).view(1, seq_len)[:, seq_len // 2 :]
+    assert torch.equal(strategy.model.kwargs["input_ids"], expected_slice)
+
+
+def test_load_states_moves_model_and_optimizer(
+    strategy_factory, monkeypatch
+):
+    strategy = strategy_factory(FSDP2StrategyBase)
+    strategy.model = MockModel()
+
+    captured = {}
+
+    def fake_move(self, device, non_blocking=False):
+        captured["device"] = device
+        captured["non_blocking"] = non_blocking
+
+    monkeypatch.setattr(
+        FSDP2StrategyBase, "_move_optimizer_states", fake_move
+    )
+
+    strategy.load_states(
+        include=[
+            OffloadStateType.model_params,
+            OffloadStateType.optimizer_states,
+        ],
+        non_blocking=True,
+    )
+
+    assert strategy.model.to_calls == [("cpu", True)]
+    assert captured["device"] == "cpu"
+    assert captured["non_blocking"] is True
+
+
+def test_offload_states_moves_to_cpu_and_clears_cuda_cache(
+    strategy_factory, monkeypatch, platform_stub
+):
+    strategy = strategy_factory(FSDP2StrategyBase)
+    strategy.model = MockModel()
+    platform_stub.device_type = "cuda"
+
+    captured = {}
+
+    def fake_move(self, device, non_blocking=False):
+        captured["device"] = device
+        captured["non_blocking"] = non_blocking
+
+    monkeypatch.setattr(
+        FSDP2StrategyBase, "_move_optimizer_states", fake_move
+    )
+
+    cache_cleared = {"flag": False}
+    monkeypatch.setattr(
+        fsdp2_strategy.torch.cuda,
+        "empty_cache",
+        lambda: cache_cleared.__setitem__("flag", True),
+    )
+
+    strategy.offload_states(
+        include=[
+            OffloadStateType.model_params,
+            OffloadStateType.optimizer_states,
+        ],
+        non_blocking=True,
+    )
+
+    assert strategy.model.to_calls == [("cpu", True)]
+    assert captured == {}
+    assert cache_cleared["flag"] is True
+
+
+def test_rng_state_roundtrip(monkeypatch, platform_stub):
+    platform_stub.device_type = "cuda"
+    cpu_state = torch.arange(4, dtype=torch.uint8)
+    cuda_state = torch.arange(5, dtype=torch.uint8)
+    numpy_state = ("MT19937", np.arange(624, dtype=np.uint32), 0, 0, 0.0)
+    random_state = (3, (1, 2, 3), None)
+
+    monkeypatch.setattr(torch, "get_rng_state", lambda: cpu_state.clone())
+    monkeypatch.setattr(
+        torch.cuda, "get_rng_state", lambda: cuda_state.clone()
+    )
+
+    captured = {}
+    monkeypatch.setattr(
+        torch,
+        "set_rng_state",
+        lambda state: captured.__setitem__("cpu", state.clone()),
+    )
+    monkeypatch.setattr(
+        torch.cuda,
+        "set_rng_state",
+        lambda state: captured.__setitem__("cuda", state.clone()),
+    )
+    monkeypatch.setattr(np.random, "get_state", lambda: numpy_state)
+    monkeypatch.setattr(
+        np.random,
+        "set_state",
+        lambda state: captured.__setitem__("numpy", state),
+    )
+    monkeypatch.setattr(random, "getstate", lambda: random_state)
+    monkeypatch.setattr(
+        random,
+        "setstate",
+        lambda state: captured.__setitem__("random", state),
+    )
+
+    rng_state = FSDP2StrategyBase.get_rng_state()
+    FSDP2StrategyBase.load_rng_state(rng_state)
+
+    assert torch.equal(rng_state["cpu"], cpu_state)
+    assert torch.equal(captured["cpu"], cpu_state)
+    assert torch.equal(rng_state["device"], cuda_state)
+    assert torch.equal(captured["cuda"], cuda_state)
+    assert rng_state["numpy"] == numpy_state
+    assert captured["numpy"] == numpy_state
+    assert rng_state["random"] == random_state
+    assert captured["random"] == random_state
+
+
+class _TinyMLP(torch.nn.Module):
+    _no_split_modules = ["Linear"]
+
+    def __init__(self, input_dim=8, hidden_dim=16, output_dim=2):
+        super().__init__()
+        self.layers = torch.nn.Sequential(
+            torch.nn.Linear(input_dim, hidden_dim),
+            torch.nn.ReLU(),
+            torch.nn.Linear(hidden_dim, output_dim),
+        )
+        self.config = SimpleNamespace(tie_word_embeddings=False)
+        self.loss_fn = torch.nn.MSELoss()
+
+    def forward(self, inputs, targets):
+        outputs = self.layers(inputs)
+        return self.loss_fn(outputs.float(), targets.float())
+
+
+def _find_free_port():
+    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as sock:
+        sock.bind(("", 0))
+        return sock.getsockname()[1]
+
+
+def _generate_synthetic_batches(steps, batch_size, input_dim, output_dim):
+    generator = torch.Generator().manual_seed(2024)
+    features = torch.randn(
+        steps, batch_size, input_dim, generator=generator
+    )
+    targets = torch.randn(
+        steps, batch_size, output_dim, generator=generator
+    )
+    return features, targets
+
+
+def _collect_full_state(model):
+    state = {}
+    for name, param in model.named_parameters():
+        tensor = param.detach()
+        if DTensor is not None and isinstance(tensor, DTensor):
+            if tensor.device.type == "cpu" and _has_accelerator_devices():
+                tensor = tensor.to(_current_test_device())
+            tensor = tensor.full_tensor()
+        state[name] = tensor.cpu().numpy()
+    return state
+
+
+def _fsdp2_training_worker(rank, world_size, port, steps):
+    backend = _distributed_backend_for_current_platform()
+    fsdp2_strategy.current_platform = current_platform
+    os.environ["MASTER_ADDR"] = "127.0.0.1"
+    os.environ["MASTER_PORT"] = str(port)
+    os.environ["RANK"] = str(rank)
+    os.environ["WORLD_SIZE"] = str(world_size)
+    dist.init_process_group(
+        backend=backend, rank=rank, world_size=world_size
+    )
+    try:
+        device = _set_test_device_for_rank(rank)
+        torch.manual_seed(0)
+        np.random.seed(0)
+        random.seed(0)
+
+        model = _TinyMLP().to(device)
+        model.train()
+        mesh = create_device_mesh_with_ulysses(
+            world_size=world_size, fsdp_size=world_size
+        )
+        mp_policy = _mixed_precision_policy_for_current_platform()
+        offload_policy = (
+            _cpu_offload_policy_for_current_platform()
+            if current_platform.is_cuda()
+            else None
+        )
+        fsdp_kwargs = {
+            "mesh": mesh,
+            "reshard_after_forward": True,
+            "mp_policy": mp_policy,
+            "offload_policy": offload_policy,
+            "shard_placement_fn": get_shard_placement_fn(world_size),
+        }
+        strategy_config = {
+            "fsdp_size": world_size,
+        }
+        full_state = model.state_dict()
+        apply_fsdp2(model, fsdp_kwargs, strategy_config)
+        fsdp2_load_full_state_dict(model, full_state, mesh, offload_policy)
+
+        optimizer = torch.optim.AdamW(model.parameters(), lr=0.01)
+        inputs, targets = _generate_synthetic_batches(
+            steps, batch_size=4, input_dim=8, output_dim=2
+        )
+
+        for step in range(steps):
+            optimizer.zero_grad()
+            batch_inputs = inputs[step].to(device)
+            batch_targets = targets[step].to(device)
+            loss = model(batch_inputs, batch_targets)
+            print("Output Device:", loss.device)
+            print("Target Device:", batch_targets.device)
+            print("Output Dtype:", loss.dtype)
+            print("Target Dtype:", batch_targets.dtype)
+            print("Output Shape:", loss.shape)
+            print("Target Shape:", batch_targets.shape)
+            loss.backward()
+            optimizer.step()
+
+        dist.barrier()
+        local_state = _collect_full_state(model)
+        gathered = [None] * world_size if rank == 0 else None
+        dist.gather_object(local_state, gathered, dst=0)
+        if rank == 0:
+            baseline = gathered[0]
+            for idx, other in enumerate(gathered[1:], start=1):
+                for key in baseline.keys():
+                    np.testing.assert_allclose(
+                        baseline[key],
+                        other[key],
+                        atol=1e-6,
+                        err_msg=f"Parameter {key} mismatch between ranks 0 and {idx}",
+                    )
+        dist.barrier()
+    finally:
+        dist.destroy_process_group()
+
+
+@pytest.mark.skipif(
+    fsdp2_strategy.MixedPrecisionPolicy is None,
+    reason="FSDP2 requires torch>=2.4",
+)
+@pytest.mark.skipif(
+    not dist.is_available(),
+    reason="torch.distributed is not available",
+)
+@pytest.mark.skipif(
+    not _has_accelerator_devices(2),
+    reason="FSDP2 distributed training sync test requires >=2 accelerator devices",
+)
+def test_fsdp2_distributed_training_keeps_states_in_sync():
+    world_size = 2
+    port = _find_free_port()
+    mp.spawn(
+        _fsdp2_training_worker,
+        args=(world_size, port, 3),
+        nprocs=world_size,
+        join=True,
+    )
diff --git a/tests/distributed/strategy/test_vllm_strategy_beam_search.py b/tests/distributed/strategy/test_vllm_strategy_beam_search.py
index 317799279..d172f31bb 100644
--- a/tests/distributed/strategy/test_vllm_strategy_beam_search.py
+++ b/tests/distributed/strategy/test_vllm_strategy_beam_search.py
@@ -1,18 +1,11 @@
+import asyncio
+import importlib
+import sys
+from types import ModuleType
+from unittest.mock import MagicMock, Mock, patch
+
 import pytest
 import torch
-import sys
-from unittest.mock import Mock, patch, MagicMock
-
-# Mock vllm modules before importing
-mock_vllm = Mock()
-mock_vllm.__version__ = "0.8.4"
-sys.modules['vllm'] = mock_vllm
-sys.modules['vllm.sampling_params'] = Mock()
-sys.modules['vllm.beam_search'] = Mock()
-sys.modules['vllm.lora'] = Mock()
-sys.modules['vllm.lora.request'] = Mock()
-sys.modules['vllm.utils'] = Mock()
-sys.modules['roll.third_party.vllm'] = Mock()
 
 # Create mock classes
 class MockRequestOutput:
@@ -53,20 +46,64 @@ def __init__(self, **kwargs):
         for k, v in kwargs.items():
             setattr(self, k, v)
 
-# Set up the mocks
-sys.modules['vllm'].RequestOutput = MockRequestOutput
-sys.modules['vllm'].SamplingParams = MockSamplingParams
-sys.modules['vllm.sampling_params'].RequestOutputKind = Mock()
-sys.modules['vllm.sampling_params'].BeamSearchParams = MockBeamSearchParams
-sys.modules['vllm.beam_search'].BeamSearchOutput = MockBeamSearchOutput
-sys.modules['vllm.beam_search'].BeamSearchSequence = MockBeamSearchSequence
-sys.modules['vllm.lora.request'].LoRARequest = MockLoRARequest
-sys.modules['vllm.utils'].random_uuid = Mock(return_value="test_uuid")
-
-# Now import the actual modules
+class MockTokensPrompt(dict):
+    pass
+
+
 from roll.distributed.scheduler.protocol import DataProto
-from roll.distributed.strategy.vllm_strategy import VllmStrategy
-from roll.distributed.executor.worker import Worker
+
+
+def _install_mock_vllm_modules(monkeypatch):
+    mock_vllm = ModuleType("vllm")
+    mock_vllm.__path__ = []
+    mock_vllm.__version__ = "0.8.4"
+    mock_vllm.RequestOutput = MockRequestOutput
+    mock_vllm.SamplingParams = MockSamplingParams
+
+    sampling_params = ModuleType("vllm.sampling_params")
+    sampling_params.RequestOutputKind = Mock()
+    sampling_params.BeamSearchParams = MockBeamSearchParams
+
+    beam_search = ModuleType("vllm.beam_search")
+    beam_search.BeamSearchOutput = MockBeamSearchOutput
+    beam_search.BeamSearchSequence = MockBeamSearchSequence
+
+    lora = ModuleType("vllm.lora")
+    lora.__path__ = []
+    lora_request = ModuleType("vllm.lora.request")
+    lora_request.LoRARequest = MockLoRARequest
+
+    inputs = ModuleType("vllm.inputs")
+    inputs.__path__ = []
+    inputs_data = ModuleType("vllm.inputs.data")
+    inputs_data.TokensPrompt = MockTokensPrompt
+
+    utils = ModuleType("vllm.utils")
+    utils.random_uuid = Mock(return_value="test_uuid")
+
+    monkeypatch.setitem(sys.modules, "vllm", mock_vllm)
+    monkeypatch.setitem(sys.modules, "vllm.sampling_params", sampling_params)
+    monkeypatch.setitem(sys.modules, "vllm.beam_search", beam_search)
+    monkeypatch.setitem(sys.modules, "vllm.lora", lora)
+    monkeypatch.setitem(sys.modules, "vllm.lora.request", lora_request)
+    monkeypatch.setitem(sys.modules, "vllm.inputs", inputs)
+    monkeypatch.setitem(sys.modules, "vllm.inputs.data", inputs_data)
+    monkeypatch.setitem(sys.modules, "vllm.utils", utils)
+    monkeypatch.setitem(sys.modules, "roll.third_party.vllm", Mock())
+
+
+@pytest.fixture
+def vllm_strategy_module(monkeypatch):
+    module_name = "roll.distributed.strategy.vllm_strategy"
+    original_module = sys.modules.pop(module_name, None)
+    _install_mock_vllm_modules(monkeypatch)
+    module = importlib.import_module(module_name)
+    try:
+        yield module
+    finally:
+        sys.modules.pop(module_name, None)
+        if original_module is not None:
+            sys.modules[module_name] = original_module
 
 
 class TestVllmStrategyBeamSearch:
@@ -75,7 +112,7 @@ class TestVllmStrategyBeamSearch:
     @pytest.fixture
     def mock_worker(self):
         """Create a mock worker for testing."""
-        worker = Mock(spec=Worker)
+        worker = Mock()
         worker.pipeline_config = Mock()
         worker.pipeline_config.seed = 42
         worker.worker_config = Mock()
@@ -94,9 +131,9 @@ def mock_worker(self):
         return worker
 
     @pytest.fixture
-    def vllm_strategy(self, mock_worker):
+    def vllm_strategy(self, vllm_strategy_module, mock_worker):
         """Create VllmStrategy instance for testing."""
-        strategy = VllmStrategy(mock_worker)
+        strategy = vllm_strategy_module.VllmStrategy(mock_worker)
 
         # Mock the model and tokenizer
         strategy.model = Mock()
@@ -146,47 +183,40 @@ def test_should_use_beam_search_detection(self, vllm_strategy):
     def test_generate_with_beam_search_success(self, vllm_strategy, sample_batch):
         """Test successful beam search generation."""
         generation_config = {"num_beams": 3, "max_new_tokens": 50}
-
-        # Create mock beam search outputs
         beam_width = 3
         batch_size = 2
 
-        beam_search_outputs = []
-        for batch_idx in range(batch_size):
-            sequences = []
+        # Mock beam_search as an async generator that yields RequestOutput-like objects
+        # _generate_with_beam_search accesses .outputs[].token_ids, not .sequences[]
+        async def mock_beam_search(prompt, request_id, params):
+            output = MagicMock()
+            output.outputs = []
             for beam_idx in range(beam_width):
-                # Include prompt + generated tokens
-                prompt_length = 10
-                generated_tokens = [100 + beam_idx, 200 + beam_idx, 300 + beam_idx]
-                full_tokens = list(range(prompt_length)) + generated_tokens
+                completion = MagicMock()
+                completion.token_ids = [100 + beam_idx, 200 + beam_idx, 300 + beam_idx]
+                output.outputs.append(completion)
+            yield output
 
-                sequence = MockBeamSearchSequence(
-                    tokens=full_tokens,
-                    logprobs=[],
-                    cum_logprob=-1.0 * beam_idx
-                )
-                sequences.append(sequence)
-
-            output = MockBeamSearchOutput(sequences=sequences)
-            beam_search_outputs.append(output)
-
-        # Mock the beam_search method
-        vllm_strategy.model.beam_search = Mock(return_value=beam_search_outputs)
+        vllm_strategy.model.beam_search = Mock(side_effect=mock_beam_search)
 
         # Mock breakpoint to avoid actual debugging
         with patch('builtins.breakpoint'):
-            result = vllm_strategy.generate(sample_batch, generation_config)
+            result = asyncio.run(
+                vllm_strategy.generate(sample_batch, generation_config)
+            )
 
-        # Verify beam_search was called
-        vllm_strategy.model.beam_search.assert_called_once()
+        # beam_search is called once per prompt via asyncio.gather
+        assert vllm_strategy.model.beam_search.call_count == batch_size
 
-        # Check result shape
+        # Check result shape: (batch_size * beam_width, prompt_len + max_output_len)
         assert result.shape[0] == batch_size * beam_width  # 2 * 3 = 6
-        assert result.shape[1] >= 13  # prompt_length + generated_tokens
+        assert result.shape[1] >= 13  # prompt_length (10) + generated_tokens (3)
 
     def test_generate_with_beam_search_multimodal(self, vllm_strategy):
         """Test beam search generation with multimodal data."""
         generation_config = {"num_beams": 2, "max_new_tokens": 30}
+        beam_width = 2
+        batch_size = 2
 
         # Create multimodal batch
         multimodal_data = [
@@ -207,36 +237,32 @@ def test_generate_with_beam_search_multimodal(self, vllm_strategy):
         })
         batch.non_tensor_batch["multi_modal_data"] = multimodal_data
 
-        # Create mock beam search outputs
-        beam_search_outputs = []
-        for batch_idx in range(2):
-            sequences = []
-            for beam_idx in range(2):
-                prompt_length = 5
-                generated_tokens = [100 + beam_idx, 200 + beam_idx]
-                full_tokens = multimodal_data[batch_idx]["prompt_token_ids"] + generated_tokens
-
-                sequence = MockBeamSearchSequence(
-                    tokens=full_tokens,
-                    logprobs=[],
-                    cum_logprob=-1.0 * beam_idx
-                )
-                sequences.append(sequence)
-
-            output = MockBeamSearchOutput(sequences=sequences)
-            beam_search_outputs.append(output)
+        # Mock beam_search as an async generator that yields RequestOutput-like objects
+        async def mock_beam_search(prompt, request_id, params):
+            output = MagicMock()
+            output.outputs = []
+            for beam_idx in range(beam_width):
+                completion = MagicMock()
+                completion.token_ids = [100 + beam_idx, 200 + beam_idx]
+                output.outputs.append(completion)
+            yield output
 
-        # Mock the beam_search method
-        vllm_strategy.model.beam_search = Mock(return_value=beam_search_outputs)
+        vllm_strategy.model.beam_search = Mock(side_effect=mock_beam_search)
 
         # Mock breakpoint to avoid actual debugging
         with patch('builtins.breakpoint'):
-            result = vllm_strategy.generate(batch, generation_config)
+            result = asyncio.run(
+                vllm_strategy.generate(batch, generation_config)
+            )
+
+        # beam_search is called once per prompt via asyncio.gather
+        assert vllm_strategy.model.beam_search.call_count == batch_size
 
-        # Verify beam_search was called with correct prompts
-        vllm_strategy.model.beam_search.assert_called_once()
-        call_args = vllm_strategy.model.beam_search.call_args
-        assert call_args[1]['prompts'] == multimodal_data
+        # Verify each multimodal prompt was passed to beam_search
+        calls = vllm_strategy.model.beam_search.call_args_list
+        actual_prompts = [call[1]['prompt'] for call in calls]
+        for prompt in multimodal_data:
+            assert prompt in actual_prompts
 
-        # Check result shape
-        assert result.shape[0] == 4  # batch_size * beam_width
+        # Check result shape: (batch_size * beam_width, ...)
+        assert result.shape[0] == batch_size * beam_width  # 2 * 2 = 4
diff --git a/tests/models/cuda_mem/test_mca_model_forward.py b/tests/models/cuda_mem/test_mca_model_forward.py
index 5570b746e..dbd9c95d4 100644
--- a/tests/models/cuda_mem/test_mca_model_forward.py
+++ b/tests/models/cuda_mem/test_mca_model_forward.py
@@ -130,7 +130,7 @@ def forward_step_func(data_iterator, module):
 
 time.sleep(600)
 """
-RANK=0 WORLD_SIZE=1 MASTER_ADDR='127.0.0.1' MASTER_PORT=54893 python tests/models/cuda_mem/test_turbo_model_forward.py
+RANK=0 WORLD_SIZE=1 MASTER_ADDR='127.0.0.1' MASTER_PORT=54893 python tests/models/cuda_mem/test_mca_model_forward.py
 
-torchrun --standalone --nnodes=1 --nproc-per-node=2 tests/models/cuda_mem/test_turbo_model_forward.py
+torchrun --standalone --nnodes=1 --nproc-per-node=2 tests/models/cuda_mem/test_mca_model_forward.py
 """
diff --git a/tests/models/load_utils.py b/tests/models/load_utils.py
index 893a26f78..618c11e6c 100644
--- a/tests/models/load_utils.py
+++ b/tests/models/load_utils.py
@@ -7,6 +7,14 @@
 from roll.models.model_providers import default_tokenizer_provider
 
 
+def get_model_input_device(model):
+    if hasattr(model, "get_input_embeddings"):
+        input_embeddings = model.get_input_embeddings()
+        if input_embeddings is not None:
+            return input_embeddings.weight.device
+    return next(model.parameters()).device
+
+
 def get_mock_dataloader(model_args: ModelArguments, data_args: DataArguments, batch_size: int = 4):
 
     tokenizer = default_tokenizer_provider(model_args=model_args)
@@ -15,6 +23,9 @@ def get_mock_dataloader(model_args: ModelArguments, data_args: DataArguments, ba
         tokenizer=tokenizer,
         data_args=data_args,
     )
+    dataset = dataset.remove_columns(
+        [col for col in dataset.column_names if col not in ("input_ids", "attention_mask")]
+    )
     collate_fn = DataCollatorWithPadding(tokenizer=tokenizer)
     sampler = DistributedSampler(
         dataset=dataset,
diff --git a/tests/models/test_hf_multi_gpus.py b/tests/models/test_hf_multi_gpus.py
index 7d1520387..0f65eab63 100644
--- a/tests/models/test_hf_multi_gpus.py
+++ b/tests/models/test_hf_multi_gpus.py
@@ -1,11 +1,13 @@
 import json
 import os
 
+import pytest
 from accelerate import cpu_offload_with_hook
 
 from roll.configs import ModelArguments, DataArguments, TrainingArguments
+from roll.platforms import current_platform
 from roll.utils.offload_states import offload_hf_model, load_hf_model
-from tests.models.load_utils import get_mock_dataloader
+from tests.models.load_utils import get_mock_dataloader, get_model_input_device
 
 os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"
 
@@ -16,28 +18,38 @@
 model_name = "Qwen/Qwen2.5-0.5B-Instruct"
 data_filename = "data/comparison_gpt4_data_zh.json"
 
-model_args: ModelArguments = ModelArguments(model_name_or_path=model_name, attn_implementation="fa2", dtype="bf16")
+attn_implementation = "sdpa" if current_platform.is_npu() else "fa2"
+model_args: ModelArguments = ModelArguments(
+    model_name_or_path=model_name,
+    attn_implementation=attn_implementation,
+    dtype="bf16",
+)
 data_args: DataArguments = DataArguments(
     template="qwen2_5",
     file_name=data_filename,
     prompt="instruction",
 )
+test_batch_size = int(os.environ.get("ROLL_TEST_MODEL_BATCH_SIZE", "1"))
+test_max_batches = int(os.environ.get("ROLL_TEST_MAX_MODEL_BATCHES", "1"))
+test_max_new_tokens = int(os.environ.get("ROLL_TEST_MAX_NEW_TOKENS", "8"))
 
 
+@pytest.mark.skipif(current_platform.is_npu(), reason="accelerate.cpu_offload_with_hook requires CUDA")
 def test_hf_multi_gpus_cpu_offload_with_hook():
-    dataloader, tokenizer = get_mock_dataloader(model_args=model_args, data_args=data_args, batch_size=4)
+    dataloader, tokenizer = get_mock_dataloader(model_args=model_args, data_args=data_args, batch_size=test_batch_size)
     model = default_actor_model_provider(tokenizer, model_args, TrainingArguments(),  False)
 
     hook = None
     for i, batch in tqdm(enumerate(dataloader)):
         print(f"step: {i}")
 
-        input_ids = batch["input_ids"].to("cuda")
-        attention_mask = batch["attention_mask"].to("cuda")
+        input_device = get_model_input_device(model)
+        input_ids = batch["input_ids"].to(input_device)
+        attention_mask = batch["attention_mask"].to(input_device)
         output = model.generate(
             input_ids,
             attention_mask=attention_mask,
-            max_new_tokens=64,
+            max_new_tokens=test_max_new_tokens,
             do_sample=False,
             eos_token_id=[tokenizer.eos_token_id] + tokenizer.additional_special_tokens_ids,
             pad_token_id=tokenizer.pad_token_id,
@@ -49,10 +61,13 @@ def test_hf_multi_gpus_cpu_offload_with_hook():
             model, hook = cpu_offload_with_hook(model)
         print(f"after offload, hf_device_map: {model.hf_device_map}")
         print(f"after offload: {i}")
+        input_device = get_model_input_device(model)
+        input_ids = input_ids.to(input_device)
+        attention_mask = attention_mask.to(input_device)
         output = model.generate(
             input_ids,
             attention_mask=attention_mask,
-            max_new_tokens=64,
+            max_new_tokens=test_max_new_tokens,
             do_sample=False,
             eos_token_id=[tokenizer.eos_token_id] + tokenizer.additional_special_tokens_ids,
             pad_token_id=tokenizer.pad_token_id,
@@ -60,22 +75,26 @@ def test_hf_multi_gpus_cpu_offload_with_hook():
 
         output_str = tokenizer.batch_decode(output, skip_special_tokens=True)
         print(output_str)
+        if i + 1 >= test_max_batches:
+            break
 
 
+@pytest.mark.skipif(current_platform.is_npu(), reason="multi-GPU HF offload test assumes CUDA device maps")
 def test_hf_multi_gpus_cpu_offload_hf_device_map():
-    dataloader, tokenizer = get_mock_dataloader(model_args=model_args, data_args=data_args, batch_size=4)
+    dataloader, tokenizer = get_mock_dataloader(model_args=model_args, data_args=data_args, batch_size=test_batch_size)
     model = default_actor_model_provider(tokenizer, model_args, TrainingArguments(), False)
 
     hook = None
     for i, batch in tqdm(enumerate(dataloader)):
         print(f"step: {i}")
 
-        input_ids = batch["input_ids"].to("cuda")
-        attention_mask = batch["attention_mask"].to("cuda")
+        input_device = get_model_input_device(model)
+        input_ids = batch["input_ids"].to(input_device)
+        attention_mask = batch["attention_mask"].to(input_device)
         output = model.generate(
             input_ids,
             attention_mask=attention_mask,
-            max_new_tokens=64,
+            max_new_tokens=test_max_new_tokens,
             do_sample=False,
             eos_token_id=[tokenizer.eos_token_id] + tokenizer.additional_special_tokens_ids,
             pad_token_id=tokenizer.pad_token_id,
@@ -89,10 +108,13 @@ def test_hf_multi_gpus_cpu_offload_hf_device_map():
         print(f"after offload: {i}")
         load_hf_model(model=model)
 
+        input_device = get_model_input_device(model)
+        input_ids = input_ids.to(input_device)
+        attention_mask = attention_mask.to(input_device)
         output = model.generate(
             input_ids,
             attention_mask=attention_mask,
-            max_new_tokens=64,
+            max_new_tokens=test_max_new_tokens,
             do_sample=False,
             eos_token_id=[tokenizer.eos_token_id] + tokenizer.additional_special_tokens_ids,
             pad_token_id=tokenizer.pad_token_id,
@@ -100,6 +122,8 @@ def test_hf_multi_gpus_cpu_offload_hf_device_map():
 
         output_str = tokenizer.batch_decode(output, skip_special_tokens=True)
         print(output_str)
+        if i + 1 >= test_max_batches:
+            break
 
 
 if __name__ == "__main__":
diff --git a/tests/models/test_load_generate.py b/tests/models/test_load_generate.py
index 6c9e4aabc..929feb600 100644
--- a/tests/models/test_load_generate.py
+++ b/tests/models/test_load_generate.py
@@ -11,7 +11,8 @@
 from tqdm import tqdm
 
 from roll.models.model_providers import default_actor_model_provider
-from tests.models.load_utils import get_mock_dataloader
+from roll.platforms import current_platform
+from tests.models.load_utils import get_mock_dataloader, get_model_input_device
 
 
 def test_load_generate():
@@ -19,31 +20,40 @@ def test_load_generate():
     random.seed(seed)
     np.random.seed(seed)
     torch.manual_seed(seed)
-    torch.cuda.manual_seed_all(seed)
-    device = "cuda"
+    if torch.cuda.is_available():
+        torch.cuda.manual_seed_all(seed)
+    test_batch_size = int(os.environ.get("ROLL_TEST_MODEL_BATCH_SIZE", "1"))
+    test_max_batches = int(os.environ.get("ROLL_TEST_MAX_MODEL_BATCHES", "1"))
+    test_max_new_tokens = int(os.environ.get("ROLL_TEST_MAX_NEW_TOKENS", "8"))
 
     model_name = "Qwen/Qwen2.5-0.5B-Instruct"
     data_filename = "data/comparison_gpt4_data_zh.json"
 
-    model_args: ModelArguments = ModelArguments(model_name_or_path=model_name, attn_implementation="fa2", dtype="bf16")
+    attn_implementation = "sdpa" if current_platform.is_npu() else "fa2"
+    model_args: ModelArguments = ModelArguments(
+        model_name_or_path=model_name,
+        attn_implementation=attn_implementation,
+        dtype="bf16",
+    )
     data_args: DataArguments = DataArguments(
         template="qwen2_5",
         file_name=data_filename,
         prompt="instruction",
     )
 
-    dataloader, tokenizer = get_mock_dataloader(model_args=model_args, data_args=data_args, batch_size=4)
+    dataloader, tokenizer = get_mock_dataloader(model_args=model_args, data_args=data_args, batch_size=test_batch_size)
 
     model = default_actor_model_provider(tokenizer, model_args, TrainingArguments(), False)
 
     results = []
     for batch in tqdm(dataloader):
-        input_ids = batch["input_ids"].to(device)
-        attention_mask = batch["attention_mask"].to(device)
+        input_device = get_model_input_device(model)
+        input_ids = batch["input_ids"].to(input_device)
+        attention_mask = batch["attention_mask"].to(input_device)
         output = model.generate(
             input_ids,
             attention_mask=attention_mask,
-            max_new_tokens=64,
+            max_new_tokens=test_max_new_tokens,
             do_sample=False,
             eos_token_id=[tokenizer.eos_token_id] + tokenizer.additional_special_tokens_ids,
             pad_token_id=tokenizer.pad_token_id,
@@ -54,6 +64,8 @@ def test_load_generate():
 
         with open("generate_res.json", "w") as f:
             json.dump(results, f, ensure_ascii=False, indent=2)
+        if len(results) >= test_max_batches:
+            break
 
 
 if __name__ == "__main__":
diff --git a/tests/pipeline/Distill/test_distill_on_prompt.py b/tests/pipeline/Distill/test_distill_on_prompt.py
index db6892ba2..716bc97ea 100644
--- a/tests/pipeline/Distill/test_distill_on_prompt.py
+++ b/tests/pipeline/Distill/test_distill_on_prompt.py
@@ -23,17 +23,17 @@ def test_preprocess_dataset_with_real_data():
     # ===== 2. 创建DistillConfig对象 =====
     local_or_mirror_model_path = "Qwen/Qwen2.5-0.5B-Instruct"
 
-    student_cfg = WorkerConfig(data_args=DataArguments(preprocessing_num_workers=16))
+    student_cfg = WorkerConfig(data_args=DataArguments(preprocessing_num_workers=1))
     student_cfg.model_args.model_name_or_path = local_or_mirror_model_path
 
-    teacher_cfg = WorkerConfig(data_args=DataArguments(preprocessing_num_workers=16))
+    teacher_cfg = WorkerConfig(data_args=DataArguments(preprocessing_num_workers=1))
     teacher_cfg.model_args.model_name_or_path = local_or_mirror_model_path
 
     pipeline_config = DistillConfig(
         student=student_cfg,
         teacher=teacher_cfg,
-        query_key="question_zh",
-        response_key="answer_zh",
+        question_key="question_zh",
+        answer_key="answer_zh",
         distill_on_prompt=True,
         sequence_length=256
     )
diff --git a/tests/pipeline/agentic_pipeline_config.yaml b/tests/pipeline/agentic_pipeline_config.yaml
index f09699ef8..f63875b7c 100644
--- a/tests/pipeline/agentic_pipeline_config.yaml
+++ b/tests/pipeline/agentic_pipeline_config.yaml
@@ -166,4 +166,4 @@ val_env_manager:
   group_size: 1
   max_env_num_per_worker: 1
   tags: [ "SimpleSokoban", "FrozenLake"]
-  num_groups_partition: [ 2, 2 ] # If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
+  num_groups_partition: [ 1, 1 ] # If not set, all env names divide nums equally. Under the same group, the env config and env seed (prompt) are equal in each generation
diff --git a/tests/pipeline/test_agentic_pipeline.py b/tests/pipeline/test_agentic_pipeline.py
index 5ca6c511c..44853101a 100644
--- a/tests/pipeline/test_agentic_pipeline.py
+++ b/tests/pipeline/test_agentic_pipeline.py
@@ -3,6 +3,7 @@
 import os
 from dataclasses import asdict
 
+import pytest
 from dacite import from_dict
 from hydra import compose, initialize
 from omegaconf import OmegaConf
@@ -10,20 +11,21 @@
 from roll.distributed.scheduler.initialize import init
 from roll.pipeline.agentic.agentic_config import AgenticConfig
 
-parser = argparse.ArgumentParser(description="PPO Configuration")
 
-parser.add_argument(
-    "--config_name", type=str, default="agentic_pipeline_config", help="Name of the PPO configuration."
-)
-args = parser.parse_args()
+DEFAULT_CONFIG_NAME = "agentic_pipeline_config"
+
+
+def parse_args(argv=None):
+    parser = argparse.ArgumentParser(description="PPO Configuration")
+    parser.add_argument("--config_name", type=str, default=DEFAULT_CONFIG_NAME, help="Name of the PPO configuration.")
+    return parser.parse_args(argv)
 
 
-def make_ppo_config():
+def make_ppo_config(config_name=DEFAULT_CONFIG_NAME):
     config_path = "."
-    config_name = args.config_name
 
-    initialize(config_path=config_path)
-    cfg = compose(config_name=config_name)
+    with initialize(config_path=config_path, version_base=None):
+        cfg = compose(config_name=config_name)
     print(cfg)
     ppo_config = from_dict(data_class=AgenticConfig, data=OmegaConf.to_container(cfg, resolve=True))
     return ppo_config
@@ -34,9 +36,14 @@ def test_make_ppo_config():
     print(ppo_config)
 
 
-def test_ppo_pipeline():
+@pytest.mark.skipif(
+    os.environ.get("RUN_PIPELINE_INTEGRATION") != "1",
+    reason="Full pipeline integration run is disabled by default.",
+)
+def test_ppo_pipeline(config_name=DEFAULT_CONFIG_NAME):
     from roll.pipeline.agentic.agentic_pipeline import AgenticPipeline
-    ppo_config = make_ppo_config()
+
+    ppo_config = make_ppo_config(config_name)
 
     init()
 
@@ -50,4 +57,5 @@ def test_ppo_pipeline():
 
 
 if __name__ == "__main__":
-    test_ppo_pipeline()
+    cli_args = parse_args()
+    test_ppo_pipeline(cli_args.config_name)
diff --git a/tests/pipeline/test_rlvr_pipeline.py b/tests/pipeline/test_rlvr_pipeline.py
index 86ce7d9df..93e953d01 100644
--- a/tests/pipeline/test_rlvr_pipeline.py
+++ b/tests/pipeline/test_rlvr_pipeline.py
@@ -1,27 +1,29 @@
 import argparse
+import os
 
+import pytest
 from dacite import from_dict
-from hydra.experimental import compose, initialize
+from hydra import compose, initialize
 from omegaconf import OmegaConf
 
 from roll.distributed.scheduler.initialize import init
 from roll.pipeline.rlvr.rlvr_config import RLVRConfig
 
-parser = argparse.ArgumentParser(description="PPO Configuration")
 
-parser.add_argument(
-    "--config_name", type=str, default="rlvr_megatron_config", help="Name of the PPO configuration."
-)
-args = parser.parse_args()
+DEFAULT_CONFIG_NAME = "rlvr_megatron_config"
+
 
+def parse_args(argv=None):
+    parser = argparse.ArgumentParser(description="PPO Configuration")
+    parser.add_argument("--config_name", type=str, default=DEFAULT_CONFIG_NAME, help="Name of the PPO configuration.")
+    return parser.parse_args(argv)
 
-def make_ppo_config():
 
+def make_ppo_config(config_name=DEFAULT_CONFIG_NAME):
     config_path = "."
-    config_name = args.config_name
 
-    initialize(config_path=config_path)
-    cfg = compose(config_name=config_name)
+    with initialize(config_path=config_path, version_base=None):
+        cfg = compose(config_name=config_name)
     ppo_config = from_dict(data_class=RLVRConfig, data=OmegaConf.to_container(cfg, resolve=True))
 
     return ppo_config
@@ -32,9 +34,13 @@ def test_make_ppo_config():
     print(ppo_config)
 
 
-def test_ppo_pipeline():
+@pytest.mark.skipif(
+    os.environ.get("RUN_PIPELINE_INTEGRATION") != "1",
+    reason="Full pipeline integration run is disabled by default.",
+)
+def test_ppo_pipeline(config_name=DEFAULT_CONFIG_NAME):
 
-    ppo_config = make_ppo_config()
+    ppo_config = make_ppo_config(config_name)
 
     init()
 
@@ -45,4 +51,5 @@ def test_ppo_pipeline():
 
 
 if __name__ == "__main__":
-    test_ppo_pipeline()
+    cli_args = parse_args()
+    test_ppo_pipeline(cli_args.config_name)
diff --git a/tests/pytest.ini b/tests/pytest.ini
index eea2c1802..43c929715 100644
--- a/tests/pytest.ini
+++ b/tests/pytest.ini
@@ -1 +1,6 @@
 [pytest]
+markers =
+    gpu: mark test as requiring GPU (CUDA or NPU)
+    distributed: mark test as requiring distributed setup (multi-process)
+    slow: mark test as slow running
+    npu: mark test as requiring Ascend NPU
diff --git a/tests/test_ref_worker_type_consistency.py b/tests/test_ref_worker_type_consistency.py
new file mode 100644
index 000000000..6abddf7f0
--- /dev/null
+++ b/tests/test_ref_worker_type_consistency.py
@@ -0,0 +1,65 @@
+"""Test that reference log prob computation uses Cluster (not WorkerConfig) for dp_size.
+
+Bug: In RLVRPipeline._train, when use_ref_model=False:
+
+    worker_config = self.pipeline_config.reference if self.use_ref_model else self.pipeline_config.actor_train
+    worker = self.reference if self.use_ref_model else self.pipeline_config.actor_train  # BUG
+
+The `worker` variable is set to `self.pipeline_config.actor_train` (a WorkerConfig),
+but it should be `self.actor_train` (a Cluster). WorkerConfig has no `dp_size` attribute,
+so `worker.dp_size` on line 548 raises AttributeError.
+
+Fix: Change `self.pipeline_config.actor_train` to `self.actor_train` on that line.
+"""
+
+import ast
+import inspect
+import textwrap
+
+
+def test_ref_worker_uses_cluster_not_config():
+    """When use_ref_model=False, `worker` must be `self.actor_train` (Cluster), not `self.pipeline_config.actor_train` (WorkerConfig)."""
+    import roll.pipeline.rlvr.rlvr_pipeline as mod
+
+    source = inspect.getsource(mod.RLVRPipeline)
+
+    # The buggy pattern: `self.pipeline_config.actor_train` used where `self.actor_train` is needed
+    # The fix ensures `worker = ... else self.actor_train` (without pipeline_config prefix)
+    #
+    # We check: in the line that assigns `worker = ...`, the else-branch must NOT
+    # reference `self.pipeline_config.actor_train`
+    tree = ast.parse(textwrap.dedent(source))
+
+    found_worker_assign = False
+    for node in ast.walk(tree):
+        if not isinstance(node, ast.Assign):
+            continue
+        # Look for: worker = <ternary>
+        for target in node.targets:
+            if isinstance(target, ast.Name) and target.id == "worker":
+                if isinstance(node.value, ast.IfExp):
+                    found_worker_assign = True
+                    # Check the orelse (else branch) of the ternary
+                    orelse = node.value.orelse
+                    # It should be self.actor_train, NOT self.pipeline_config.actor_train
+                    source_segment = ast.dump(orelse)
+                    assert "pipeline_config" not in source_segment, (
+                        "Bug: `worker` assignment else-branch references "
+                        "`self.pipeline_config.actor_train` (WorkerConfig) instead of "
+                        "`self.actor_train` (Cluster). WorkerConfig has no `dp_size` property."
+                    )
+
+    assert found_worker_assign, (
+        "Could not find `worker = ... if ... else ...` ternary assignment in RLVRPipeline. "
+        "The code structure may have changed."
+    )
+
+
+def test_worker_config_has_no_dp_size():
+    """WorkerConfig should NOT have dp_size - it's only on Cluster."""
+    from roll.configs.worker_config import WorkerConfig
+
+    assert not hasattr(WorkerConfig, "dp_size"), (
+        "WorkerConfig should not have dp_size attribute; "
+        "dp_size is a property of Cluster, not WorkerConfig."
+    )
diff --git a/tests/third_party/deepspeed/test_offload_states.py b/tests/third_party/deepspeed/test_offload_states.py
index 9d5fa1dfd..3b6ad8cd9 100644
--- a/tests/third_party/deepspeed/test_offload_states.py
+++ b/tests/third_party/deepspeed/test_offload_states.py
@@ -25,6 +25,30 @@
 from tests.third_party.deepspeed.simple_model import random_dataloader, SimpleModel
 
 
+ROLL_NPU_CI = os.environ.get("ROLL_NPU_CI") == "1"
+OFFLOAD_STATE_CASES = (
+    [OffloadStateTypeEnum.lp_params]
+    if ROLL_NPU_CI
+    else [
+        OffloadStateTypeEnum.hp_params,
+        OffloadStateTypeEnum.lp_params,
+        OffloadStateTypeEnum.optim_states,
+        OffloadStateTypeEnum.lp_grads,
+        OffloadStateTypeEnum.contiguous_grad_buffer,
+        None,
+    ]
+)
+INFER_OFFLOAD_STATE_CASES = [OffloadStateTypeEnum.lp_params]
+PIN_MEMORY_CASES = [False] if ROLL_NPU_CI else [False, True]
+PIN_MEMORY_CASES_TRUE_FIRST = [False] if ROLL_NPU_CI else [True, False]
+NON_BLOCKING_CASES = [False] if ROLL_NPU_CI else [False, True]
+NON_BLOCKING_CASES_TRUE_FIRST = [False] if ROLL_NPU_CI else [True, False]
+ZERO_STAGE_CASES = [3] if ROLL_NPU_CI else [1, 2, 3]
+PARTIAL_PARAM_CASES = [False] if ROLL_NPU_CI else [True, False]
+OPTIMIZER_OFFLOAD_CASES = [True] if ROLL_NPU_CI else [True, False]
+WITH_OPTIM_PARAMS_CASES = [False] if ROLL_NPU_CI else [True, False]
+
+
 def validate_device(model, device: torch.device, include) -> None:
 
     def compare_device(state) -> bool:
@@ -299,22 +323,12 @@ class TestOffloadStates(DistributedTest):
     # Need multiple gpus to test possible hanging
     world_size = 2
 
-    @pytest.mark.parametrize(
-        "included_state",
-        [
-            OffloadStateTypeEnum.hp_params,
-            OffloadStateTypeEnum.lp_params,
-            OffloadStateTypeEnum.optim_states,
-            OffloadStateTypeEnum.lp_grads,
-            OffloadStateTypeEnum.contiguous_grad_buffer,
-            None,
-        ],
-    )
-    @pytest.mark.parametrize("pin_memory", [False, True])
-    @pytest.mark.parametrize("non_blocking", [False, True])
-    @pytest.mark.parametrize("stage", [1, 2, 3])
-    @pytest.mark.parametrize("partial_param", [True, False])
-    @pytest.mark.parametrize("optimizer_offload", [True, False])
+    @pytest.mark.parametrize("included_state", OFFLOAD_STATE_CASES)
+    @pytest.mark.parametrize("pin_memory", PIN_MEMORY_CASES)
+    @pytest.mark.parametrize("non_blocking", NON_BLOCKING_CASES)
+    @pytest.mark.parametrize("stage", ZERO_STAGE_CASES)
+    @pytest.mark.parametrize("partial_param", PARTIAL_PARAM_CASES)
+    @pytest.mark.parametrize("optimizer_offload", OPTIMIZER_OFFLOAD_CASES)
     def test_offload_states(self, included_state, pin_memory, non_blocking, stage, optimizer_offload, partial_param):
         if optimizer_offload:
             if included_state in [
@@ -359,9 +373,9 @@ def test_offload_states(self, included_state, pin_memory, non_blocking, stage, o
         else:
             run_model_stage_1_2(model, config_dict, hidden_dim, torch.bfloat16, include, pin_memory, non_blocking)
 
-    @pytest.mark.parametrize("included_state", [OffloadStateTypeEnum.lp_params])
-    @pytest.mark.parametrize("pin_memory", [False, True])
-    @pytest.mark.parametrize("non_blocking", [False, True])
+    @pytest.mark.parametrize("included_state", INFER_OFFLOAD_STATE_CASES)
+    @pytest.mark.parametrize("pin_memory", PIN_MEMORY_CASES)
+    @pytest.mark.parametrize("non_blocking", NON_BLOCKING_CASES)
     def test_offload_states_with_zero3_infer_only(self, included_state, pin_memory, non_blocking):
         hidden_dim = 1024
 
@@ -384,23 +398,13 @@ def test_offload_states_with_zero3_infer_only(self, included_state, pin_memory,
         include = None if included_state is None else [included_state]
         run_model_infer(model, config_dict, hidden_dim, torch.bfloat16, include, pin_memory, non_blocking)
 
-    @pytest.mark.parametrize(
-        "included_state",
-        [
-            OffloadStateTypeEnum.hp_params,
-            OffloadStateTypeEnum.lp_params,
-            OffloadStateTypeEnum.optim_states,
-            OffloadStateTypeEnum.lp_grads,
-            OffloadStateTypeEnum.contiguous_grad_buffer,
-            None,
-        ],
-    )
-    @pytest.mark.parametrize("pin_memory", [True, False])
-    @pytest.mark.parametrize("non_blocking", [True, False])
-    @pytest.mark.parametrize("stage", [1, 2, 3])
-    @pytest.mark.parametrize("optimizer_offload", [True, False])
-    @pytest.mark.parametrize("partial_param", [True, False])
-    @pytest.mark.parametrize("with_optim_params", [True, False])
+    @pytest.mark.parametrize("included_state", OFFLOAD_STATE_CASES)
+    @pytest.mark.parametrize("pin_memory", PIN_MEMORY_CASES_TRUE_FIRST)
+    @pytest.mark.parametrize("non_blocking", NON_BLOCKING_CASES_TRUE_FIRST)
+    @pytest.mark.parametrize("stage", ZERO_STAGE_CASES)
+    @pytest.mark.parametrize("optimizer_offload", OPTIMIZER_OFFLOAD_CASES)
+    @pytest.mark.parametrize("partial_param", PARTIAL_PARAM_CASES)
+    @pytest.mark.parametrize("with_optim_params", WITH_OPTIM_PARAMS_CASES)
     def test_offload_states_zero(
         self, included_state, pin_memory, non_blocking, stage, optimizer_offload, partial_param, with_optim_params
     ):
@@ -479,6 +483,7 @@ def test_offload_states_zero(
             )
 
     # NOTE: 只forward 没有[OffloadStateTypeEnum.optim_states, OffloadStateTypeEnum.lp_grads]
+    @pytest.mark.skipif(ROLL_NPU_CI, reason="CUDA memory snapshot APIs are not available in NPU CI.")
     @pytest.mark.parametrize(
         "included_state",
         [
diff --git a/tests/third_party/megatron/test_offload_states.py b/tests/third_party/megatron/test_offload_states.py
index 5044ad396..cb6416ed9 100644
--- a/tests/third_party/megatron/test_offload_states.py
+++ b/tests/third_party/megatron/test_offload_states.py
@@ -34,7 +34,7 @@
 from roll.third_party.megatron.optimizer import get_megatron_optimizer
 
 
-class TurboModelCreator:
+class McaModelCreator:
 
     def __init__(self, optimizer_type, model_name="/data/cpfs_0/common/models/Qwen2.5-0.5B-Instruct"):
         self.model_name = model_name
@@ -222,7 +222,7 @@ def test_megatron_init_memory():
         max_entries=MAX_NUM_OF_MEM_EVENTS_PER_SNAPSHOT,
     )
 
-    mca_model = TurboModelCreator(optimizer_type="dist_optimizer")
+    mca_model = McaModelCreator(optimizer_type="dist_optimizer")
 
     # buffer_data = []
     # for buffer in mca_model.optimizer.buffers:
@@ -259,7 +259,7 @@ def test_megatron_init_ddp_memory():
         max_entries=MAX_NUM_OF_MEM_EVENTS_PER_SNAPSHOT,
     )
 
-    mca_model = TurboModelCreator(optimizer_type=None)
+    mca_model = McaModelCreator(optimizer_type=None)
 
     offload_megatron_no_grad_module(model_chunks=mca_model.model.get_models())
 
@@ -287,7 +287,7 @@ def check_tensors(expected_tensors: List[torch.Tensor], tensors: List[torch.Tens
         assert torch.equal(tensor_expected, tensor_restored)
 
 
-def run_model_infer(mca_model: TurboModelCreator, included_state, pin_memory, non_blocking):
+def run_model_infer(mca_model: McaModelCreator, included_state, pin_memory, non_blocking):
     with torch.no_grad():
         for batch in mca_model.data_loader:
             input_ids, attention_mask = batch
@@ -325,7 +325,7 @@ def run_model_infer(mca_model: TurboModelCreator, included_state, pin_memory, no
             )
 
 
-def run_model_dist_optimizer(mca_model: TurboModelCreator, included_state, pin_memory, non_blocking):
+def run_model_dist_optimizer(mca_model: McaModelCreator, included_state, pin_memory, non_blocking):
     assert isinstance(mca_model.optimizer, DistributedOptimizer)
 
     for batch in mca_model.data_loader:
@@ -530,7 +530,7 @@ def run_model_dist_optimizer(mca_model: TurboModelCreator, included_state, pin_m
             )
 
 
-def run_model_fp16_optimizer(mca_model: TurboModelCreator, included_state, pin_memory, non_blocking):
+def run_model_fp16_optimizer(mca_model: McaModelCreator, included_state, pin_memory, non_blocking):
     assert isinstance(mca_model.optimizer, Float16OptimizerWithFloat16Params)
 
     for batch in mca_model.data_loader:
@@ -706,7 +706,7 @@ def run_model_fp16_optimizer(mca_model: TurboModelCreator, included_state, pin_m
             )
 
 
-def run_model_fp32_optimizer(mca_model: TurboModelCreator, included_state, pin_memory, non_blocking):
+def run_model_fp32_optimizer(mca_model: McaModelCreator, included_state, pin_memory, non_blocking):
     assert isinstance(mca_model.optimizer, FP32Optimizer)
 
     for batch in mca_model.data_loader:
@@ -895,7 +895,7 @@ def test_megatron_offload_states(included_state, pin_memory, non_blocking, optim
     #     stacks='python'
     # )
 
-    mca_model = TurboModelCreator(optimizer_type=optimizer_type)
+    mca_model = McaModelCreator(optimizer_type=optimizer_type)
 
     include = None if included_state is None else [included_state]
     if optimizer_type is None:
diff --git a/tests/third_party/sglang/conftest.py b/tests/third_party/sglang/conftest.py
new file mode 100644
index 000000000..746248e0b
--- /dev/null
+++ b/tests/third_party/sglang/conftest.py
@@ -0,0 +1,10 @@
+import os
+
+
+if os.environ.get("ROLL_NPU_CI") == "1":
+    collect_ignore = [
+        "test_abort.py",
+        "test_abort_grpc.py",
+        "test_abort_http.py",
+        "test_fp8.py",
+    ]
diff --git a/tests/third_party/sglang/test_abort.py b/tests/third_party/sglang/test_abort.py
new file mode 100644
index 000000000..f867fad05
--- /dev/null
+++ b/tests/third_party/sglang/test_abort.py
@@ -0,0 +1,117 @@
+import asyncio
+import uuid
+
+from transformers import AutoTokenizer
+
+from sglang.srt.managers.io_struct import GenerateReqInput
+from sglang import __version__ as version
+
+from roll.third_party.sglang import patch as sglang_patch
+from roll.utils.checkpoint_manager import download_model
+
+def chat_format(prompt):
+    system = "Please reason step by step, and put your final answer within \\boxed{}."
+    return f"<|im_start|>system\n{system}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
+
+async def generate(model, obj):
+    generator = model.tokenizer_manager.generate_request(obj, None)
+    chunks = None
+    async for chunks in generator:
+        chunks = chunks
+    chunks = chunks if isinstance(chunks, list) else [chunks]
+    return chunks
+
+async def test_sampling_n(model, input_ids):
+    sampling_params = {
+        'temperature': 0.8,
+        'min_new_tokens': 128,
+        'max_new_tokens': 128,
+        'n': 3,
+    }
+    obj = GenerateReqInput(
+        input_ids=input_ids[0],
+        sampling_params=sampling_params,
+        rid=None,
+        return_logprob=True,
+    )
+    chunks = await generate(model, obj)
+    assert all(chunk is not None for chunk in chunks)
+    assert all(chunk["meta_info"]["finish_reason"]["type"] == "length" for chunk in chunks)
+
+async def test_abort_all(model, input_ids):
+    sampling_params = {
+        'temperature': 0.8,
+        'min_new_tokens': 8192,
+        'max_new_tokens': 8192,
+        'n': 3,
+    }
+    obj1 = GenerateReqInput(
+        rid=None if version < '0.5' and sampling_params["n"] > 1 else str(uuid.uuid4().hex),
+        input_ids=input_ids[0],
+        sampling_params=sampling_params,
+        return_logprob=True,
+    )
+    obj2 = GenerateReqInput(
+        rid=None if version < '0.5' and sampling_params["n"] > 1 else str(uuid.uuid4().hex),
+        input_ids=input_ids[0],
+        sampling_params=sampling_params,
+        return_logprob=True,
+    )
+    tasks = [asyncio.create_task(generate(model, obj1)), asyncio.create_task(generate(model, obj2))]
+    await asyncio.sleep(1)
+    for rid in model.tokenizer_manager.rid_to_state:
+        model.tokenizer_manager.abort_request(rid)
+    responses = await asyncio.gather(*tasks)
+    assert all(isinstance(response, list) and len(response) > 0 for response in responses) # assume at least generate one iter
+    assert all(resp["meta_info"]["finish_reason"]["type"] == "abort" for response in responses for resp in response)
+
+async def test_abort(model, input_ids):
+    sampling_params = {
+        'temperature': 0.8,
+        'min_new_tokens': 8192,
+        'max_new_tokens': 8192,
+        'n': 1,
+    }
+    rid = uuid.uuid4().hex
+    obj = GenerateReqInput(
+        input_ids=input_ids[0],
+        sampling_params=sampling_params,
+        rid=rid,
+        return_logprob=True,
+    )
+    task = asyncio.create_task(generate(model, obj))
+    await asyncio.sleep(1)
+    model.tokenizer_manager.abort_request(rid)
+    response = await task
+    assert response is not None and len(response) == 1 # assume at least generate one iter
+    assert response[0]["meta_info"]["finish_reason"]["type"] == "abort"
+
+async def main():
+    model_path = "Qwen/Qwen2.5-7B-Instruct"
+    model_path = download_model(model_path)
+
+    tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
+    prompts = [
+        "类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞,生成一段文案",
+        "根据关键词描述生成女装/女士精品行业连衣裙品类的发在淘宝的小红书风格的推送配文，包括标题和内容。关键词：pe。要求:1. 推送标题要体现关键词和品类特点，语言通顺，有吸引力，约10个字；2. 推送内容要语言通顺，突出关键词和品类特点，对目标受众有吸引力，长度约30字。标题:",
+        "100.25和90.75谁更大？",
+    ]
+    prompts = [chat_format(prompt) for prompt in prompts]
+    input_ids = tokenizer(prompts)["input_ids"]
+
+    model = sglang_patch.engine.engine_module.Engine(
+        model_path=model_path,
+        enable_memory_saver= True,
+        skip_tokenizer_init=False, # to use min_new_tokens
+        dtype="bfloat16",
+        tp_size=1,
+        mem_fraction_static= 0.6,
+        disable_custom_all_reduce=True,
+    )
+
+    await test_sampling_n(model, input_ids)
+    await test_abort_all(model, input_ids)
+    await test_abort(model, input_ids)
+
+if __name__ == "__main__":
+    asyncio.run(main())
diff --git a/tests/third_party/sglang/test_abort_grpc.py b/tests/third_party/sglang/test_abort_grpc.py
new file mode 100644
index 000000000..173a2c4a0
--- /dev/null
+++ b/tests/third_party/sglang/test_abort_grpc.py
@@ -0,0 +1,254 @@
+import asyncio
+import atexit
+import grpc
+import uuid
+import httpx
+import multiprocessing
+
+from transformers import AutoTokenizer
+
+from sglang_router.launch_router import RouterArgs, launch_router
+from sglang.srt.grpc import sglang_scheduler_pb2, sglang_scheduler_pb2_grpc
+from sglang import __version__ as version
+
+from roll.distributed.scheduler.router import wait_sglang_router_ready, wait_sglang_router_workflow
+from roll.distributed.strategy.sglang_strategy import SglangGrpcEngine, shutdown
+from roll.distributed.executor.worker import Worker
+from roll.utils.checkpoint_manager import download_model
+from roll.utils.logging import get_logger
+
+
+logger = get_logger()
+
+def chat_format(prompt):
+    system = "Please reason step by step, and put your final answer within \\boxed{}."
+    return f"<|im_start|>system\n{system}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
+
+async def generate(client, url, payload):
+    response = await client.post(f"{url}/generate", json=payload)
+    response.raise_for_status()
+    response = response.json()
+    response = response if isinstance(response, list) else [response]
+    return response
+
+async def test_sampling_n_grpc(
+    url,
+    client,
+    stub,
+    input_ids,
+):
+    request = sglang_scheduler_pb2.GenerateRequest(
+        tokenized=sglang_scheduler_pb2.TokenizedInput(
+            input_ids=input_ids[0]
+        ),
+        sampling_params=sglang_scheduler_pb2.SamplingParams(
+            temperature=0.8,
+            max_new_tokens=128,
+            n=3,
+        ),
+        return_logprob=True,
+        stream=False,
+    )
+    responses = []
+    async for response in stub.Generate(request):
+        assert not response.HasField("error")
+        assert response.HasField("complete")
+        responses.append(response)
+    assert len(responses) == 3
+    for response in responses:
+        # print(f"{response.complete.finish_reason=} {list(response.complete.output_ids)=}")
+        assert response.complete.finish_reason == "length"
+    print(">>>>>>>>>>>>>>>>>>>>>>> TEST_sampling_n_grpc passed")
+
+async def test_sampling_n(
+    url,
+    client,
+    stub,
+    input_ids,
+):
+    payload = {
+        "rid": uuid.uuid4().hex,
+        "input_ids": input_ids[0],
+        "sampling_params": {
+            'temperature': 0.8,
+            'max_new_tokens': 128,
+            'n': 3,
+        },
+        "return_logprob": True,
+    }
+    response = await generate(client, url, payload)
+    assert len(response) == payload["sampling_params"]["n"]
+    assert all(resp["meta_info"]["finish_reason"]["type"] == "length" for resp in response)
+    print(">>>>>>>>>>>>>>>>>>>>>>> TEST_sampling_n passed")
+
+async def test_abort_all(
+    url,
+    client, 
+    stub,
+    input_ids,
+    worker_url,
+):
+    payload1 = {
+        "rid": uuid.uuid4().hex,
+        "input_ids": input_ids[0],
+        "sampling_params": {
+            'temperature': 0.8,
+            'max_new_tokens': 8192,
+            'n': 1 if version < '0.5' else 3,
+        },
+        "return_logprob": True,
+    }
+    payload2 = {
+        "rid": uuid.uuid4().hex,
+        "input_ids": input_ids[0],
+        "sampling_params": {
+            'temperature': 0.8,
+            'max_new_tokens': 8192,
+            'n': 1 if version < '0.5' else 3,
+        },
+        "return_logprob": True,
+    }
+    tasks = [asyncio.create_task(generate(client, url, payload1)), asyncio.create_task(generate(client, url, payload2))]
+    await asyncio.sleep(1)
+
+    # sglang grpc do not support abort all now
+    responses = await asyncio.gather(
+        stub.Abort(sglang_scheduler_pb2.AbortRequest(request_id=payload1["rid"])),
+        stub.Abort(sglang_scheduler_pb2.AbortRequest(request_id=payload2["rid"])),
+    )
+    for response in responses:
+        assert response.success
+
+    responses = await asyncio.gather(*tasks)
+    assert all(isinstance(response, list) and len(response) > 0 for response in responses) # assume at least generate one iter
+    for response in responses:
+        for resp in response:
+            finish_reason = resp["meta_info"]["finish_reason"]
+            if isinstance(finish_reason, dict):
+                assert finish_reason["type"] in ["abort", "length", "stop"]
+            else:
+                assert finish_reason in ["abort", "length", "stop"]
+    print(">>>>>>>>>>>>>>>>>>>>>>> TEST_abort_all passed")
+
+async def test_abort(
+    url,
+    client,
+    stub,
+    input_ids,
+    worker_url,
+):
+    payload = {
+        "rid": uuid.uuid4().hex,
+        "input_ids": input_ids[0],
+        "sampling_params": {
+            'temperature': 0.8,
+            'max_new_tokens': 8192,
+            'n': 1,
+        },
+        "return_logprob": True,
+    }
+    task = asyncio.create_task(generate(client, url, payload))
+    await asyncio.sleep(1)
+
+    response = await stub.Abort(sglang_scheduler_pb2.AbortRequest(request_id=payload["rid"]))
+    assert response.success
+
+    # will stuck if abort manually https://github.com/sgl-project/sglang/issues/14338
+    response = await task
+    assert response is not None and len(response) == 1 # assume at least generate one iter
+    assert response[0]["meta_info"]["finish_reason"]["type"] in ["abort", "length"]
+    print(">>>>>>>>>>>>>>>>>>>>>>> TEST_abort passed")
+
+def start_router(model_path, worker_urls):
+    # assert sgl-router.__version__ == '0.2.1'
+    # newer version of sglang-router need to download openai harmony encoding
+    # https://github.com/sgl-project/sglang/issues/14340
+    router_config = {
+        "host": Worker.get_node_ip(),
+        "port": Worker.get_free_port(),
+        "log_level": "debug",
+        "enable_igw": False, # required by grpc_mode
+        "model_path": model_path, # required by grpc_mode
+        "worker_urls": worker_urls, # must provide at least one url at router init for grpc
+        "dp_aware": False,
+    }
+
+    router_args = RouterArgs(**router_config)
+    router_process = multiprocessing.Process(
+        target=launch_router,
+        args=(router_args,),
+        daemon=True
+    )
+    router_process.start()
+    logger.info(f"Launch sglang-router {router_args=}")
+    return router_process, router_config["host"], router_config["port"]
+
+def start_server(model_path):
+    sglang_config = {
+        "model_path": model_path,
+        "enable_memory_saver": True,
+        "skip_tokenizer_init": False, # must
+        "mem_fraction_static": 0.8,
+        "trust_remote_code": True,
+        "tp_size": 1,
+        "log_level": "debug",
+        "disable_custom_all_reduce": True,
+        "host": Worker.get_node_ip(),
+        "port": Worker.get_free_port(),
+        "grpc_mode": True, # must
+    }
+    worker_process = multiprocessing.Process(
+        target=SglangGrpcEngine.launch_server,
+        args=(sglang_config,),
+    )
+    worker_process.start()
+    worker_url = f"grpc://{sglang_config['host']}:{sglang_config['port']}"
+    logger.info(f"start sglang server url={worker_url}")
+    return worker_process, sglang_config["host"], sglang_config["port"] 
+
+async def main():
+    multiprocessing.set_start_method("spawn")
+    atexit.register(shutdown)
+
+    model_path = "Qwen/Qwen2.5-7B-Instruct"
+    model_path = download_model(model_path)
+
+    tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
+    prompts = [
+        "类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞,生成一段文案",
+        "根据关键词描述生成女装/女士精品行业连衣裙品类的发在淘宝的小红书风格的推送配文，包括标题和内容。关键词：pe。要求:1. 推送标题要体现关键词和品类特点，语言通顺，有吸引力，约10个字；2. 推送内容要语言通顺，突出关键词和品类特点，对目标受众有吸引力，长度约30字。标题:",
+        "100.25和90.75谁更大？",
+    ]
+    prompts = [chat_format(prompt) for prompt in prompts]
+    input_ids = tokenizer(prompts)["input_ids"]
+
+    client = httpx.AsyncClient(timeout=httpx.Timeout(None))
+
+    worker_process, worker_ip, worker_port = start_server(model_path)
+    worker_url = f"grpc://{worker_ip}:{worker_port}"
+
+    channel = grpc.aio.insecure_channel(
+        f"{worker_ip}:{worker_port}",
+        options=[
+            ("grpc.max_send_message_length", 1024 * 1024 * 256),
+            ("grpc.max_receive_message_length", 1024 * 1024 * 256),
+        ],
+    )
+    stub = sglang_scheduler_pb2_grpc.SglangSchedulerStub(channel)
+
+    await SglangGrpcEngine.wait_worker_healthy(worker_process, url=worker_url, client=stub)
+
+    router_process, router_ip, router_port = start_router(model_path=model_path, worker_urls=[worker_url])
+    await wait_sglang_router_ready(router_process, f"http://{router_ip}:{router_port}")
+    # response = await client.post(f"http://{router_ip}:{router_port}/workers", json={"url": worker_url})
+    # response.raise_for_status()
+    url = f"http://{router_ip}:{router_port}"
+    await wait_sglang_router_workflow(f"http://{router_ip}:{router_port}", [worker_url])
+
+    await test_sampling_n_grpc(url, client, stub, input_ids)
+    await test_sampling_n(url, client, stub, input_ids)
+    await test_abort_all(url, client, stub, input_ids, worker_url)
+    await test_abort(url, client, stub, input_ids, worker_url)
+
+if __name__ == "__main__":
+    asyncio.run(main())
diff --git a/tests/third_party/sglang/test_abort_http.py b/tests/third_party/sglang/test_abort_http.py
new file mode 100644
index 000000000..325d0f32f
--- /dev/null
+++ b/tests/third_party/sglang/test_abort_http.py
@@ -0,0 +1,223 @@
+import asyncio
+import atexit
+import uuid
+import httpx
+import multiprocessing
+from urllib.parse import quote
+
+from transformers import AutoTokenizer
+
+from sglang_router.launch_router import RouterArgs, launch_router
+from sglang import __version__ as version
+
+from roll.distributed.scheduler.router import wait_sglang_router_ready, wait_sglang_router_workflow, raise_for_status
+from roll.distributed.strategy.sglang_strategy import SglangHttpEngine, shutdown
+from roll.distributed.executor.worker import Worker
+from roll.utils.checkpoint_manager import download_model
+from roll.utils.logging import get_logger
+
+
+logger = get_logger()
+
+def chat_format(prompt):
+    system = "Please reason step by step, and put your final answer within \\boxed{}."
+    return f"<|im_start|>system\n{system}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
+
+async def generate(client, url, payload):
+    response = await client.post(f"{url}/generate", json=payload)
+    response.raise_for_status()
+    response = response.json()
+    response = response if isinstance(response, list) else [response]
+    return response
+
+async def test_sampling_n(
+    url,
+    client: httpx.AsyncClient,
+    input_ids,
+):
+    payload = {
+        "rid": None,
+        "input_ids": input_ids[0],
+        "sampling_params": {
+            'temperature': 0.8,
+            'min_new_tokens': 128,
+            'max_new_tokens': 128,
+            'n': 3,
+        },
+        "return_logprob": True,
+    }
+    response = await generate(client, url, payload)
+    assert len(response) == payload["sampling_params"]["n"]
+    assert all(resp["meta_info"]["finish_reason"]["type"] == "length" for resp in response)
+    print(">>>>>>>>>>>>>>>>>>>>>>> TEST_sampling_n passed")
+
+async def test_abort_all(
+    url,
+    client: httpx.AsyncClient,
+    input_ids,
+    worker_url,
+):
+    payload1 = {
+        "rid": uuid.uuid4().hex,
+        "input_ids": input_ids[0],
+        "sampling_params": {
+            'temperature': 0.8,
+            'min_new_tokens': 8192,
+            'max_new_tokens': 8192,
+            'n': 1 if version < '0.5' else 3,
+        },
+        "return_logprob": True,
+    }
+    payload2 = {
+        "rid": uuid.uuid4().hex,
+        "input_ids": input_ids[0],
+        "sampling_params": {
+            'temperature': 0.8,
+            'min_new_tokens': 8192,
+            'max_new_tokens': 8192,
+            'n': 1 if version < '0.5' else 3,
+        },
+        "return_logprob": True,
+    }
+    tasks = [asyncio.create_task(generate(client, url, payload1)), asyncio.create_task(generate(client, url, payload2))]
+    await asyncio.sleep(1)
+
+    if version < '0.5':
+        response = await asyncio.gather(
+            client.post(f"{worker_url}/abort_request", json={"rid": payload1["rid"]}),
+            client.post(f"{worker_url}/abort_request", json={"rid": payload2["rid"]}),
+        )
+        for resp in response:
+            resp.raise_for_status()
+    else:
+        response = await client.post(f"{worker_url}/abort_request", json={"abort_all": True})
+        response.raise_for_status()
+
+    responses = await asyncio.gather(*tasks)
+    assert all(isinstance(response, list) and len(response) > 0 for response in responses) # assume at least generate one iter
+    assert all(resp["meta_info"]["finish_reason"]["type"] == "abort" for response in responses for resp in response)
+    print(">>>>>>>>>>>>>>>>>>>>>>> TEST_abort_all passed")
+
+async def test_abort(
+    url,
+    client: httpx.AsyncClient,
+    input_ids,
+    worker_url,
+):
+    payload = {
+        "rid": uuid.uuid4().hex,
+        "input_ids": input_ids[0],
+        "sampling_params": {
+            'temperature': 0.8,
+            'min_new_tokens': 8192,
+            'max_new_tokens': 8192,
+            'n': 1,
+        },
+        "return_logprob": True,
+    }
+    task = asyncio.create_task(generate(client, url, payload))
+    await asyncio.sleep(1)
+
+    response = await client.post(f"{worker_url}/abort_request", json={"rid": payload["rid"]})
+    response.raise_for_status()
+
+    response = await task
+    assert response is not None and len(response) == 1 # assume at least generate one iter
+    assert response[0]["meta_info"]["finish_reason"]["type"] == "abort"
+    print(">>>>>>>>>>>>>>>>>>>>>>> TEST_abort passed")
+
+def start_router():
+    router_config = {
+        "host": Worker.get_node_ip(),
+        "port": Worker.get_free_port(),
+        "prometheus_port": Worker.get_free_port(),
+        # "health_check_endpoint": "/dummy_health",
+    }
+
+    router_args = RouterArgs(**router_config)
+    router_process = multiprocessing.Process(
+        target=launch_router,
+        args=(router_args,),
+        daemon=True
+    )
+    router_process.start()
+    logger.info(f"Launch sglang-router {router_args=}")
+    return router_process, router_config["host"], router_config["port"]
+
+def start_server(model_path):
+    sglang_config = {
+        "model_path": model_path,
+        "enable_memory_saver": True,
+        "skip_tokenizer_init": False, # to use min_new_tokens
+        "mem_fraction_static": 0.8,
+        "trust_remote_code": True,
+        "tp_size": 1,
+        "log_level": "info",
+        "disable_custom_all_reduce": True,
+        "host": Worker.get_node_ip(),
+        "port": Worker.get_free_port(),
+    }
+    worker_process = multiprocessing.Process(
+        target=SglangHttpEngine.launch_server,
+        args=(sglang_config,),
+    )
+    worker_process.start()
+    worker_url = f"http://{sglang_config['host']}:{sglang_config['port']}"
+    logger.info(f"start sglang server url={worker_url}")
+    return worker_process, worker_url 
+
+async def main():
+    multiprocessing.set_start_method("spawn")
+    atexit.register(shutdown)
+
+    model_path = "Qwen/Qwen2.5-7B-Instruct"
+    model_path = download_model(model_path)
+
+    tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
+    prompts = [
+        "类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞,生成一段文案",
+        "根据关键词描述生成女装/女士精品行业连衣裙品类的发在淘宝的小红书风格的推送配文，包括标题和内容。关键词：pe。要求:1. 推送标题要体现关键词和品类特点，语言通顺，有吸引力，约10个字；2. 推送内容要语言通顺，突出关键词和品类特点，对目标受众有吸引力，长度约30字。标题:",
+        "100.25和90.75谁更大？",
+    ]
+    prompts = [chat_format(prompt) for prompt in prompts]
+    input_ids = tokenizer(prompts)["input_ids"]
+
+    client = httpx.AsyncClient(timeout=httpx.Timeout(None))
+
+    worker_process, worker_url = start_server(model_path)
+    await SglangHttpEngine.wait_worker_healthy(worker_process=worker_process, url=worker_url, client=client)
+
+    response = await client.post(f"{worker_url}/release_memory_occupation", json={})
+    response.raise_for_status()
+
+    enable_router = True
+    if enable_router:
+        router_process, router_ip, router_port = start_router()
+        await wait_sglang_router_ready(router_process, f"http://{router_ip}:{router_port}")
+
+        response = await client.post(f"http://{router_ip}:{router_port}/workers", json={"url": worker_url})
+        response.raise_for_status()
+        url = f"http://{router_ip}:{router_port}"
+        await wait_sglang_router_workflow(f"http://{router_ip}:{router_port}", [worker_url])
+
+        encoded_url = quote(worker_url, safe="")
+        response = await client.delete(f"http://{router_ip}:{router_port}/workers/{encoded_url}")
+        raise_for_status(response)
+        await wait_sglang_router_workflow(f"http://{router_ip}:{router_port}", [])
+
+        response = await client.post(f"http://{router_ip}:{router_port}/workers", json={"url": worker_url})
+        response.raise_for_status()
+        url = f"http://{router_ip}:{router_port}"
+        await wait_sglang_router_workflow(f"http://{router_ip}:{router_port}", [worker_url])
+    else:
+        url = worker_url
+
+    response = await client.post(f"{worker_url}/resume_memory_occupation", json={})
+    response.raise_for_status()
+
+    await test_sampling_n(url, client, input_ids)
+    await test_abort_all(url, client, input_ids, worker_url)
+    await test_abort(url, client, input_ids, worker_url)
+
+if __name__ == "__main__":
+    asyncio.run(main())
diff --git a/tests/third_party/sglang/test_fp8.py b/tests/third_party/sglang/test_fp8.py
new file mode 100644
index 000000000..c9ec986d2
--- /dev/null
+++ b/tests/third_party/sglang/test_fp8.py
@@ -0,0 +1,68 @@
+import json
+from tqdm import tqdm
+
+from transformers import AutoModelForCausalLM
+
+from roll.utils.checkpoint_manager import download_model
+
+if False:
+    from sglang.srt.entrypoints.engine import Engine
+else:
+    from roll.third_party.sglang import patch as sglang_patch
+    Engine = sglang_patch.engine.engine_module.Engine
+
+
+def chat_format(prompt):
+    system = "Please reason step by step, and put your final answer within \\boxed{}."
+    return f"<|im_start|>system\n{system}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
+
+def main():
+    model_path = "Qwen/Qwen2.5-0.5B-Instruct"
+    model_path = "Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8"
+    model_path = "Qwen/Qwen3-Coder-30B-A3B-Instruct"
+    model_path = download_model(model_path)
+
+    model = Engine(
+        model_path=model_path,
+        skip_tokenizer_init=False,
+        trust_remote_code=True,
+        tp_size=1,
+        load_format="auto",
+        disable_cuda_graph=False,
+        disable_custom_all_reduce=True,
+        sampling_backend="pytorch", 
+        mem_fraction_static=0.6,
+        max_total_tokens=2048,
+        max_running_requests=2,
+        enable_memory_saver=True,
+        quantization="fp8",
+        json_model_override_args=
+          json.dumps({
+            "quantization_config":
+            {
+              "activation_scheme": "dynamic",
+              "weight_block_size": [128, 128],
+            }
+          }),
+    )
+
+    prompts = ["类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞,生成一段文案"]
+    prompts = [chat_format(prompt) for prompt in prompts]
+
+    sampling_params = {
+        'min_new_tokens': 128,
+        'max_new_tokens': 128,
+    }
+
+    output = model.generate(prompt=prompts, sampling_params=sampling_params)
+    print(output)
+
+    train_model = AutoModelForCausalLM.from_pretrained(model_path, dtype="auto")
+    for name, param in tqdm(iterable=train_model.named_parameters()):
+        model.update_weights_from_tensor(named_tensors=[(name, param)])
+
+    output = model.generate(prompt=prompts, sampling_params=sampling_params)
+    print(output)
+
+if __name__ == "__main__":
+    main()
diff --git a/tests/third_party/sglang/test_npu_import.py b/tests/third_party/sglang/test_npu_import.py
new file mode 100644
index 000000000..af66cdf95
--- /dev/null
+++ b/tests/third_party/sglang/test_npu_import.py
@@ -0,0 +1,90 @@
+import asyncio
+import importlib.util
+import os
+import sys
+from types import SimpleNamespace
+import uuid
+
+import pytest
+
+from roll.platforms import current_platform
+
+
+def _require_module(module_name: str) -> None:
+    try:
+        module_spec = importlib.util.find_spec(module_name)
+    except ValueError:
+        module_spec = None
+
+    available = module_spec is not None or module_name in sys.modules
+    if not available and not current_platform.is_npu():
+        pytest.skip(f"{module_name} is not installed in this environment.")
+    assert available, f"{module_name} must be installed for NPU SGLang tests."
+
+
+class _CapturingScheduler:
+    def __init__(self):
+        self.messages = []
+
+    def send_pyobj(self, obj):
+        self.messages.append(obj)
+
+
+def test_sglang_import_available():
+    _require_module("sglang")
+    import sglang
+
+    assert sglang.__version__
+
+
+def _run_npu_sglang_abort_smoke():
+    _require_module("sglang")
+    _require_module("sgl_kernel_npu")
+
+    from sglang.srt.managers.tokenizer_manager import ReqState, TokenizerManager
+
+    request_id = uuid.uuid4().hex
+    manager = TokenizerManager.__new__(TokenizerManager)
+    manager.rid_to_state = {}
+    manager.send_to_scheduler = _CapturingScheduler()
+    manager.enable_metrics = False
+
+    request = SimpleNamespace(
+        rid=request_id,
+        stream=False,
+        return_logprob=False,
+        top_logprobs_num=0,
+        token_ids_logprob=[],
+        return_text_in_logprobs=False,
+    )
+    state = ReqState([], False, asyncio.Event(), request, created_time=0.0)
+    state.output_ids = [101, 102, 103]
+    state.text = "partial output"
+    manager.rid_to_state[request_id] = state
+
+    manager.abort_request(request_id)
+
+    assert len(manager.send_to_scheduler.messages) == 1
+    abort_req = manager.send_to_scheduler.messages[0]
+    assert abort_req.rid == request_id
+    assert not abort_req.abort_all
+
+    manager._handle_abort_req(abort_req)
+
+    assert state.finished
+    assert state.event.is_set()
+    assert state.out_list
+    output = state.out_list[-1]
+    assert output["text"] == "partial output"
+    assert output["output_ids"] == [101, 102, 103]
+    assert output["meta_info"]["id"] == request_id
+    assert output["meta_info"]["finish_reason"]["type"] == "abort"
+
+
+def test_npu_sglang_abort_smoke():
+    if not current_platform.is_npu():
+        pytest.skip("NPU SGLang abort smoke only applies on Ascend NPU.")
+    if os.environ.get("ROLL_NPU_SGLANG_ABORT_SMOKE", "1") == "0":
+        pytest.skip("ROLL_NPU_SGLANG_ABORT_SMOKE=0")
+
+    _run_npu_sglang_abort_smoke()
diff --git a/tests/third_party/vllm/conftest.py b/tests/third_party/vllm/conftest.py
new file mode 100644
index 000000000..4d7036e81
--- /dev/null
+++ b/tests/third_party/vllm/conftest.py
@@ -0,0 +1,18 @@
+import os
+
+
+if os.environ.get("ROLL_NPU_CI") == "1":
+    collect_ignore = [
+        "test_abort.py",
+        "test_add_requests.py",
+        "test_collective_rpc.py",
+        "test_fp8.py",
+        "test_fp8_perf.py",
+        "test_model_update.py",
+        "test_sleep_level.py",
+        "test_vllm_local.py",
+        "test_vllm_local_actor.py",
+        "test_vllm_local_async.py",
+        "test_vllm_mem_oom.py",
+        "vllm_generate_test.py",
+    ]
diff --git a/tests/third_party/vllm/test_abort.py b/tests/third_party/vllm/test_abort.py
new file mode 100644
index 000000000..f8d7dc527
--- /dev/null
+++ b/tests/third_party/vllm/test_abort.py
@@ -0,0 +1,146 @@
+import ray
+import asyncio
+import pytest
+from packaging.version import Version
+
+import vllm
+from vllm import SamplingParams
+from vllm.sampling_params import RequestOutputKind
+from vllm.utils import random_uuid
+
+from roll.distributed.scheduler.resource_manager import ResourceManager
+from roll.third_party.vllm import create_async_llm
+from roll.utils.checkpoint_manager import download_model
+from utils import chat_prompts, print_request_output
+
+
+# vLLM 0.8.4 has bug when using n_sample with output_kind other than RequestOutputKind.FINAL_ONLY
+# https://github.com/vllm-project/vllm/pull/16863
+
+async def test_vllm_sampling_n(model):
+    print(">>>>>>>>>>>>>>> test_vllm_sampling_n")
+    sampling_params = SamplingParams(
+        temperature=0.1,
+        top_p=0.99,
+        top_k=100,
+        min_tokens=8192,
+        max_tokens=8192,
+        n=3,
+        output_kind=RequestOutputKind.FINAL_ONLY,
+    )
+
+    async def generate(prompt):
+        request_id = random_uuid()
+        result_generator = model.generate(prompt=prompt, sampling_params=sampling_params, request_id=request_id)
+        output = None
+        async for request_output in result_generator:
+            output = request_output
+        assert output is not None
+        return output
+
+    output = await generate(chat_prompts[0])
+    assert len(output.outputs) == 3
+    # print_request_output(output)
+
+# The semantics of AsyncLLMEngine.abort for v1 and v0 are not aligned (see 
+# https://github.com/vllm-project/vllm/blob/main/tests/async_engine/test_async_llm_engine.py#L350 and
+# https://github.com/vllm-project/vllm/blob/main/tests/v1/engine/test_async_llm.py#L185 for difference).
+#
+# What we want is the semantic of v0 that raise asyncio.CancelledError in
+# AsyncLLMEngine.generate when request is aborted rather than rely on cancel of async task to abort request.
+async def test_vllm_abort(model):
+    print(">>>>>>>>>>>>>>> test_vllm_abort")
+    sampling_params = SamplingParams(
+        temperature=0.1,
+        min_tokens=8192,
+        max_tokens=8192,
+        n=3,
+        output_kind=RequestOutputKind.FINAL_ONLY,
+    )
+
+    request_id = random_uuid()
+    async def generate():
+        output = None
+        if Version(vllm.__version__) >= Version("0.10.2"):
+            async for request_output in model.generate(chat_prompts[0], sampling_params, request_id=request_id):
+                output = request_output
+        else:
+            with pytest.raises(asyncio.CancelledError): # we patch older version vllm
+                async for request_output in model.generate(chat_prompts[0], sampling_params, request_id=request_id):
+                    output = request_output
+        return output
+
+    task = asyncio.create_task(generate())
+    await asyncio.sleep(1)
+    await model.abort(request_id)
+    output = await task
+    # assume generate is longer than 1s
+    if Version(vllm.__version__) >= Version("0.10.2"):
+        assert output is not None and output.finished
+        assert len(output.outputs) == 3
+        assert all(out.finish_reason == "abort" for out in output.outputs)
+    else:
+        assert output is None
+
+async def test_vllm_abort_cumulative(model):
+    print(">>>>>>>>>>>>>>> test_vllm_abort_cumulative")
+    sampling_params = SamplingParams(
+        temperature=0.1,
+        min_tokens=8192,
+        max_tokens=8192,
+        n=3, # the behaviour of n sample before 0.10.2 is the same as sglang, we must store output by index
+        output_kind=RequestOutputKind.CUMULATIVE,
+    )
+
+    request_id = random_uuid()
+    async def generate():
+        output = None
+        if Version(vllm.__version__) >= Version("0.10.2"):
+            async for request_output in model.generate(chat_prompts[0], sampling_params, request_id=request_id):
+                output = request_output
+        else:
+            with pytest.raises(asyncio.CancelledError): # we patch older version vllm
+                async for request_output in model.generate(chat_prompts[0], sampling_params, request_id=request_id):
+                    output = request_output
+        return output
+
+    task = asyncio.create_task(generate())
+    await asyncio.sleep(1)
+    await model.abort(request_id)
+    output = await task
+    # assume at least generate one iter and generate is longer than 1s
+    if Version(vllm.__version__) >= Version("0.10.2"):
+        assert output is not None and output.finished
+        assert len(output.outputs) == 3
+        assert all(out.finish_reason == "abort" for out in output.outputs)
+    else:
+        assert output is not None and not output.finished
+        assert len(output.outputs) == 1 # does match sampling_params.n
+
+async def main():
+    model_path = "Qwen/Qwen2.5-7B-Instruct"
+    model_path = download_model(model_path)
+
+    resource_manager = ResourceManager(2, 1)
+    placement_groups = resource_manager.allocate_placement_group(world_size=1, device_mapping=[0, 1])
+    sampling_params = SamplingParams(temperature=0.0, top_p=0.99, top_k=100, max_tokens=512)
+
+    model = await create_async_llm(
+        resource_placement_groups=placement_groups[0],
+        model=model_path,
+        block_size=16,
+        dtype="bfloat16",
+        gpu_memory_utilization=0.8,
+        tensor_parallel_size=2,
+        distributed_executor_backend="ray",
+        disable_custom_all_reduce=True,
+        enable_sleep_mode=True,
+        enforce_eager=False,
+    )
+
+    await test_vllm_sampling_n(model)
+    await test_vllm_abort(model)
+    await test_vllm_abort_cumulative(model)
+
+if __name__ == "__main__":
+    asyncio.run(main())
diff --git a/tests/third_party/vllm/test_collective_rpc.py b/tests/third_party/vllm/test_collective_rpc.py
new file mode 100644
index 000000000..4ee1b2a32
--- /dev/null
+++ b/tests/third_party/vllm/test_collective_rpc.py
@@ -0,0 +1,83 @@
+import ray
+import asyncio
+import torch
+import pytest
+from tqdm import tqdm
+from transformers import AutoModelForCausalLM
+
+from roll.distributed.scheduler.resource_manager import ResourceManager
+from roll.third_party.vllm import create_async_llm
+from roll.third_party.vllm.worker_helper import WorkerHelper
+from roll.utils.checkpoint_manager import download_model
+
+
+def load_weight_tensor(self, name, param):
+    self.load_weights([(name, param)])
+WorkerHelper.load_weight_tensor = load_weight_tensor
+
+def load_weight_numpy(self, name, param):
+    param = torch.from_numpy(param)
+    self.load_weights([(name, param)])
+WorkerHelper.load_weight_numpy = load_weight_numpy
+
+def load_weight_list(self, name, dtype, buffer):
+    weight = torch.tensor(buffer, dtype=dtype).cuda()
+    self.load_weights([(name, weight)])
+WorkerHelper.load_weight_list = load_weight_list
+
+async def test_vllm_collective_rpc():
+    ray.init()
+    resource_manager = ResourceManager(1, 1)
+    placement_groups = resource_manager.allocate_placement_group(world_size=1, device_mapping=[0])
+
+    model_path = "Qwen/Qwen2.5-7B-Instruct"
+    model_path = download_model(model_path)
+    model = await create_async_llm(
+        resource_placement_groups=placement_groups[0],
+        model=model_path,
+        load_format="auto",
+        block_size=16,
+        dtype="bfloat16",
+        gpu_memory_utilization=0.8,
+        tensor_parallel_size=1,
+        disable_custom_all_reduce=True,
+        enable_sleep_mode=True,
+        enforce_eager=False,
+    )
+
+    train_model = AutoModelForCausalLM.from_pretrained(model_path)
+
+    print(">>>>>>>>>>>>>>> test_vllm_rpc: tensor(cuda)")
+    with pytest.raises(Exception):
+        try:
+            for name, param in tqdm(list(train_model.named_parameters()), desc="Updating parameter", unit="param"):
+                await model.engine_core.collective_rpc_async(method="load_weight_tensor", args=(name, param.detach().cuda()))
+        except Exception as e:
+            print("<<<<<<<<<<<<<<< exception: ", e)
+            raise
+
+    print(">>>>>>>>>>>>>>> test_vllm_rpc: tensor(cpu)")
+    with pytest.raises(Exception):
+        try:
+            for name, param in tqdm(list(train_model.named_parameters()), desc="Updating parameter", unit="param"):
+                await model.engine_core.collective_rpc_async(method="load_weight_tensor", args=(name, param.detach().cpu()))
+        except Exception as e:
+            print("<<<<<<<<<<<<<<< exception: ", e)
+            raise
+
+    print(">>>>>>>>>>>>>>> test_vllm_rpc: numpy")
+    with pytest.raises(Exception):
+        try:
+            for name, param in tqdm(list(train_model.named_parameters()), desc="Updating parameter", unit="param"):
+                await model.engine_core.collective_rpc_async(method="load_weight_numpy", args=(name, param.detach().numpy()))
+        except Exception as e:
+            print("<<<<<<<<<<<<<<< exception: ", e)
+            raise
+
+    print(">>>>>>>>>>>>>>> test_vllm_rpc: list")
+    for name, p in tqdm(list(train_model.named_parameters()), desc="Updating parameter", unit="param"):
+        await model.engine_core.collective_rpc_async(method="load_weight_list", args=(name, p.dtype, p.tolist()))
+
+if __name__ == "__main__":
+    loop = asyncio.get_event_loop()
+    loop.run_until_complete(test_vllm_collective_rpc())
diff --git a/tests/third_party/vllm/test_fp8.py b/tests/third_party/vllm/test_fp8.py
index de1bf9554..6b5383115 100644
--- a/tests/third_party/vllm/test_fp8.py
+++ b/tests/third_party/vllm/test_fp8.py
@@ -1,47 +1,45 @@
-import gc
 import os
-import uuid
-from contextlib import contextmanager
-
+import asyncio
 import ray
-import torch
 from tqdm import tqdm
 
 from roll.platforms import current_platform
 
 from transformers import AutoModelForCausalLM
 from vllm import SamplingParams
-from vllm.utils import GiB_bytes
 
 from roll.distributed.scheduler.resource_manager import ResourceManager
-from roll.third_party.vllm import LLM
-from roll.third_party.vllm.worker_helper import WorkerHelper
+from roll.third_party.vllm import create_async_llm
+from roll.third_party.vllm.worker import WorkerV1
 from roll.utils.checkpoint_manager import download_model
+from utils import generate_batch, chat_format, print_current_mem_usage, mem_usage, print_request_output
 
-USE_CUSTOME_MODEL_UPDATE = True
 
-def print_current_mem_usage(tag):
-    current_platform.empty_cache()
-    gc.collect()
-    free_bytes, total = current_platform.mem_get_info()
-    print(f"[mem_usage] {tag} | current used: {(total - free_bytes) / GiB_bytes}")
+class Fp8Worker(WorkerV1):
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
 
-def custom_wakeup(self):
-    print_current_mem_usage("before_wakeup")
+    def custom_wakeup(self):
+        print_current_mem_usage("before_wakeup")
+        self.wake_up(["weights"])
+        print_current_mem_usage("after_wakeup")
 
-    self.wake_up(["weights"])
-    print_current_mem_usage("after_wakeup")
+    def custom_load_model(self, model_path, zero=False):
+        train_model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype="auto")
+        for param_name, param in tqdm(iterable=train_model.named_parameters(), total=len(list(train_model.named_parameters()))):
+            if zero:
+                param = param.data.clone().cuda().zero_()
+            else:
+                param = param.data.clone().cuda()
+            self.load_weights([(param_name, param)])
 
-WorkerHelper.custom_wakeup = custom_wakeup
+async def test_fp8_mem_usage():
+    os.environ["VLLM_USE_V1"] = "1"
 
-def test_fp8_mem():
-    ray.init()
-    resource_manager = ResourceManager(1, 1)
-    placement_groups = resource_manager.allocate_placement_group(world_size=1, device_mapping=[0])
     model_path = "Qwen/Qwen2.5-7B-Instruct"
     model_path = download_model(model_path)
-    model = LLM(
-        resource_placement_groups=placement_groups[0],
+    model = await create_async_llm(
+        resource_placement_groups=[[0]],
         model=model_path,
         load_format="auto",
         block_size=16,
@@ -51,52 +49,12 @@ def test_fp8_mem():
         enable_sleep_mode=True,
         enforce_eager=False,
         quantization="fp8",
+        worker_extension_cls="tests.third_party.vllm.test_fp8.Fp8Worker"
     )
-    model.collective_rpc(method="offload_states", args=(1,))
-    model.collective_rpc(method="custom_wakeup")
-
-
-@contextmanager
-def mem_usage(mem_profile=False):
-    free_bytes, total = current_platform.mem_get_info()
-    used_bytes_before = total - free_bytes
-    MAX_NUM_OF_MEM_EVENTS_PER_SNAPSHOT: int = 100000
-    if mem_profile:
-        torch.cuda.memory._record_memory_history(max_entries=MAX_NUM_OF_MEM_EVENTS_PER_SNAPSHOT, stacks="python")
-    try:
-        yield
-    finally:
-        torch.cuda.empty_cache()
-        gc.collect()
-        dump_file = ""
-        if mem_profile:
-            dump_file = f"/tmp/{uuid.uuid4()}.pickle"
-            os.makedirs(os.path.dirname(dump_file), exist_ok=True)
-            torch.cuda.memory._dump_snapshot(dump_file)
-            # print(f"{torch.cuda.memory._snapshot()}")
-            torch.cuda.memory._record_memory_history(enabled=None)
-        free_bytes, total = current_platform.mem_get_info()
-        used_bytes_after = total - free_bytes
-        print(
-            f"[mem_usage] before {used_bytes_before / GiB_bytes} after {used_bytes_after / GiB_bytes}, dump to file {dump_file}"
-        )
-
-def custom_load_model(self, model_path, zero=False):
-    train_model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype="auto")
-    for param_name, param in tqdm(iterable=train_model.named_parameters(), total=len(list(train_model.named_parameters()))):
-        if zero:
-            param = param.data.clone().cuda().zero_()
-        else:
-            param = param.data.clone().cuda()
-        self.load_weights([(param_name, param)])
-
-WorkerHelper.custom_load_model = custom_load_model
-
-def chat_format(prompt):
-    system = "Please reason step by step, and put your final answer within \\boxed{}."
-    return f"<|im_start|>system\n{system}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
-
-def test_fp8():
+    await model.offload_states(level=1)
+    await model.engine_core.collective_rpc_async("custom_wakeup")
+
+async def test_fp8():
     os.environ["VLLM_USE_DEEP_GEMM"] = "1"
 
     ray.init()
@@ -107,7 +65,7 @@ def test_fp8():
     model_path = "Qwen/Qwen3-30B-A3B-Instruct-2507"
     model_path = "Qwen/Qwen3-32B"
     model_path = download_model(model_path)
-    model = LLM(
+    model = await create_async_llm(
         resource_placement_groups=placement_groups[0],
         model=model_path,
         load_format="auto",
@@ -115,37 +73,40 @@ def test_fp8():
         dtype="bfloat16",
         gpu_memory_utilization=0.8,
         tensor_parallel_size=2,
+        disable_custom_all_reduce=True,
         enable_sleep_mode=True,
         enforce_eager=False,
         quantization="fp8",
+        worker_extension_cls="tests.third_party.vllm.worker.Fp8Worker"
     )
 
-    prompts = [
-        "类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞,生成一段文案",
-    ]
-    chat_prompts = []
-    for prompt in prompts:
-        chat_prompts.append(chat_format(prompt))
+    prompts = ["类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞,生成一段文案"]
+    chat_prompts = [chat_format(prompt) for prompt in prompts]
+
     sampling_params = SamplingParams(temperature=0.0, top_p=0.99, top_k=100, max_tokens=512)
 
-    vllm_outputs = model.generate(prompts=chat_prompts, sampling_params=sampling_params)
-    print(vllm_outputs)
+    vllm_outputs = await generate_batch(model, chat_prompts, sampling_params)
+    print_request_output(vllm_outputs)
 
-    model.offload_states()
-    model.collective_rpc("custom_load_model", args=(model_path, True))
+    await model.offload_states()
+    await model.engine_core.collective_rpc_async("custom_load_model", args=(model_path, True))
     with mem_usage():
-        model.load_states()
+        await model.load_states()
 
-    vllm_outputs = model.generate(prompts=chat_prompts, sampling_params=sampling_params)
-    print(vllm_outputs)
+    vllm_outputs = await generate_batch(model, chat_prompts, sampling_params)
+    print_request_output(vllm_outputs)
 
-    model.offload_states()
-    model.collective_rpc("custom_load_model", args=(model_path, False))
+    await model.offload_states()
+    await model.engine_core.collective_rpc_async("custom_load_model", args=(model_path, False))
     with mem_usage():
-        model.load_states()
+        await model.load_states()
+
+    vllm_outputs = await generate_batch(model, chat_prompts, sampling_params)
+    print_request_output(vllm_outputs)
 
-    vllm_outputs = model.generate(prompts=chat_prompts, sampling_params=sampling_params)
-    print(vllm_outputs)
+async def main():
+    await test_fp8_mem_usage()
+    await test_fp8()
 
 if __name__ == "__main__":
-    test_fp8()
+    asyncio.run(main())
diff --git a/tests/third_party/vllm/test_fp8_perf.py b/tests/third_party/vllm/test_fp8_perf.py
index 02b6c107f..ac095b5da 100644
--- a/tests/third_party/vllm/test_fp8_perf.py
+++ b/tests/third_party/vllm/test_fp8_perf.py
@@ -3,18 +3,15 @@
 import time
 import itertools
 
+import asyncio
 import ray
 from vllm import SamplingParams
 from roll.distributed.scheduler.resource_manager import ResourceManager
-from roll.third_party.vllm import LLM
+from roll.third_party.vllm import create_async_llm
 from roll.utils.checkpoint_manager import download_model
-import nvtx
+from utils import generate_batch, chat_format
 
 
-def chat_format(prompt):
-    system = "Please reason step by step, and put your final answer within \\boxed{}."
-    return f"<|im_start|>system\n{system}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
-
 def print_speed_metrics(outputs, start_time):
     now = time.time()
     print(f"total time cost: {now - start_time}s")
@@ -29,10 +26,10 @@ def print_speed_metrics(outputs, start_time):
     print(f"mean prompt len: {sum([len(o.prompt_token_ids) for o in outputs]) / len(outputs)}")
     print(f"min prompt len: {min([len(o.prompt_token_ids) for o in outputs])}")
 
-def generate(model, prompts, sampling_params):
+async def generate(model, prompts, sampling_params):
     print(f"Begin generate for {len(prompts)} prompts")
     start_time = time.time()
-    outputs = model.generate(prompts, sampling_params)
+    outputs = await generate_batch(model, prompts, sampling_params)
     print("<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<")
     print_speed_metrics(outputs, start_time)
     print("<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<")
@@ -70,19 +67,21 @@ def get_sampling_param_max(limit, num):
         sampling_params.append(sampling_param)
     return sampling_params, num_tokens
 
-def test_uniform(model, chat_prompts, limit, num):
+async def test_uniform(model, chat_prompts, limit, num):
     print(f">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> TEST UNIFORM {limit} {num}")
     sampling_params, num_tokens = get_sampling_param_uniform(limit, num)
     prompts = list(itertools.islice(itertools.cycle(chat_prompts), len(sampling_params)))
-    generate(model, prompts, sampling_params)
+    await generate(model, prompts, sampling_params)
+    await model.do_log_stats()
 
-def test_max(model, chat_prompts, limit, num):
+async def test_max(model, chat_prompts, limit, num):
     print(f">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> TEST MAX {limit} {num}")
     sampling_params, num_tokens = get_sampling_param_max(limit, num)
     prompts = list(itertools.islice(itertools.cycle(chat_prompts), len(sampling_params)))
-    generate(model, prompts, sampling_params)
+    await generate(model, prompts, sampling_params)
+    await model.do_log_stats()
 
-if __name__ == "__main__":
+async def main():
     os.environ["VLLM_USE_DEEP_GEMM"] = "1"
     os.environ["NCCL_NVLS_ENABLE"] = "0"
 
@@ -98,7 +97,7 @@ def test_max(model, chat_prompts, limit, num):
     model_path = "/data/cpfs_0/common/models/Qwen3-32B"
     model_path = "/data/cpfs_0/common/models/Qwen3-30B-A3B"
     model_path = download_model(model_path)
-    model = LLM(
+    model = await create_async_llm(
         resource_placement_groups=placement_groups[0],
         model=model_path,
         tensor_parallel_size=2,
@@ -112,7 +111,7 @@ def test_max(model, chat_prompts, limit, num):
         #                     "activation_scheme": "dynamic",
         #                     "fmt": "e4m3",
         #                     "quant_method": "fp8",
-        #                     "weight_block_size": [64, 64],
+        #                     "weight_block_size": [128, 128],
         #                 }
         #              },
     )
@@ -130,16 +129,19 @@ def test_max(model, chat_prompts, limit, num):
 
     # nsys profile --trace-fork-before-exec=true --cuda-graph-trace=node
     #with nvtx.annotate("generate"):
-    #    test_max(model, chat_prompts, 4096, 32)
-
-    test_max(model, chat_prompts, 4096, 32)
-    test_max(model, chat_prompts, 4096, 16)
-    test_max(model, chat_prompts, 4096, 8)
-    test_max(model, chat_prompts, 4096, 4)
-    test_max(model, chat_prompts, 4096, 1)
-
-    test_uniform(model, chat_prompts, 4096, 32)
-    test_uniform(model, chat_prompts, 4096, 16)
-    test_uniform(model, chat_prompts, 4096, 8)
-    test_uniform(model, chat_prompts, 4096, 4)
-    test_uniform(model, chat_prompts, 4096, 1)
+    #    await test_max(model, chat_prompts, 4096, 32)
+
+    await test_max(model, chat_prompts, 4096, 32)
+    await test_max(model, chat_prompts, 4096, 16)
+    await test_max(model, chat_prompts, 4096, 8)
+    await test_max(model, chat_prompts, 4096, 4)
+    await test_max(model, chat_prompts, 4096, 1)
+
+    await test_uniform(model, chat_prompts, 4096, 32)
+    await test_uniform(model, chat_prompts, 4096, 16)
+    await test_uniform(model, chat_prompts, 4096, 8)
+    await test_uniform(model, chat_prompts, 4096, 4)
+    await test_uniform(model, chat_prompts, 4096, 1)
+
+if __name__ == "__main__":
+    asyncio.run(main())
\ No newline at end of file
diff --git a/tests/third_party/vllm/test_model_update.py b/tests/third_party/vllm/test_model_update.py
index 3358c87b6..cbce8c9d1 100644
--- a/tests/third_party/vllm/test_model_update.py
+++ b/tests/third_party/vllm/test_model_update.py
@@ -1,93 +1,77 @@
-import pytest
+import os
 import ray
-import torch
+import asyncio
 from tqdm import tqdm
 from transformers import AutoModelForCausalLM
 from vllm import SamplingParams
 
 from roll.distributed.scheduler.resource_manager import ResourceManager
-from roll.third_party.vllm import LLM
-from roll.third_party.vllm.worker_helper import WorkerHelper
+from roll.third_party.vllm import create_async_llm
+from roll.third_party.vllm.worker import WorkerV1
 from roll.utils.checkpoint_manager import download_model
-
-
-def load_weight_tensor(self, name, param):
-    self.load_weights([(name, param)])
-
-WorkerHelper.load_weight_tensor = load_weight_tensor
-
-def load_weights_tensor(self, model):
-    for name, param in tqdm(list(model.named_parameters()), desc="Updating parameter", unit="param"):
-        self.collective_rpc(method="load_weight_tensor", args=(name, param.detach().cuda()))
-
-LLM.load_weights_tensor = load_weights_tensor
-
-
-def load_weight_numpy(self, name, param):
-    param = torch.from_numpy(param)
-    self.load_weights([(name, param)])
-
-WorkerHelper.load_weight_numpy = load_weight_numpy
-
-def load_weights_numpy(self, model):
-    for name, param in tqdm(list(model.named_parameters()), desc="Updating parameter", unit="param"):
-        self.collective_rpc(method="load_weight_numpy", args=(name, param.detach().numpy()))
-
-LLM.load_weights_numpy = load_weights_numpy
-
-
-def load_weight_list(self, name, dtype, buffer):
-    weight = torch.tensor(buffer, dtype=dtype).cuda()
-    self.load_weights([(name, weight)])
-
-WorkerHelper.load_weight_list = load_weight_list
-
-def load_weights_list(self, model):
-    for name, p in tqdm(list(model.named_parameters()), desc="Updating parameter", unit="param"):
-        self.collective_rpc(method="load_weight_list", args=(name, p.dtype, p.tolist()))
-
-LLM.load_weights_list = load_weights_list
-
-
-def test_model_update_single_gpu():
-    model_path = "Qwen/Qwen2.5-0.5B-Instruct"
-    model_path = download_model(model_path)
-
+from utils import generate_batch, chat_prompts, print_request_output
+
+class ModelUpdateWorker(WorkerV1):
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+
+    def load_full_model(self, model_path, zero=False):
+        train_model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype="auto")
+        for param_name, param in tqdm(iterable=train_model.named_parameters(), total=len(list(train_model.named_parameters()))):
+            if zero:
+                param = param.data.clone().cuda().zero_()
+            else:
+                param = param.data.clone().cuda()
+            self.load_weights([(param_name, param)])
+
+async def test_vllm_offload():
+    os.environ["VLLM_USE_V1"] = "1"
     ray.init()
-    resource_manager = ResourceManager(1, 1)
-    placement_groups = resource_manager.allocate_placement_group(world_size=1, device_mapping=[0])
+    resource_manager = ResourceManager(2, 1)
+    placement_groups = resource_manager.allocate_placement_group(world_size=1, device_mapping=[0,1])
 
-    model = LLM(
+    model_path = "Qwen/Qwen2.5-7B-Instruct"
+    model_path = download_model(model_path)
+    model = await create_async_llm(
         resource_placement_groups=placement_groups[0],
         model=model_path,
+        load_format="auto",
         block_size=16,
         dtype="bfloat16",
         gpu_memory_utilization=0.8,
-        tensor_parallel_size=1,
-        trust_remote_code=True,
+        tensor_parallel_size=2,
         disable_custom_all_reduce=True,
-        enforce_eager=True,
         enable_sleep_mode=True,
+        enforce_eager=False,
+        worker_extension_cls="tests.third_party.vllm.test_model_update.ModelUpdateWorker",
     )
 
-    train_model = AutoModelForCausalLM.from_pretrained(model_path)
-
-    with pytest.raises(Exception):
-        try:
-            model.load_weights_tensor(train_model)
-        except Exception as e:
-            print("load_weights_tensor exception: ", e)
-            raise
-
-    with pytest.raises(Exception):
-        try:
-            model.load_weights_numpy(train_model)
-        except Exception as e:
-            print("load_weights_numpy exception: ", e)
-            raise
-
-    model.load_weights_list(train_model)
-
+    # test offload/onload and sleep_level
+    sampling_params = SamplingParams(temperature=0.0, top_p=0.99, top_k=100, max_tokens=512)
+
+    print(">>>>>>>>>>>>>>> test_vllm_load_offload: base")
+    vllm_outputs = await generate_batch(model=model, prompts=chat_prompts, sampling_params=sampling_params)
+    assert len(vllm_outputs) == len(chat_prompts)
+    print_request_output(vllm_outputs)
+
+    print(">>>>>>>>>>>>>>> test_vllm_load_offload: offload states sleep_level_1")
+    await model.offload_states(1)
+    await model.load_states()
+    vllm_outputs = await generate_batch(model=model, prompts=chat_prompts, sampling_params=sampling_params)
+    print_request_output(vllm_outputs)
+
+    print(">>>>>>>>>>>>>>> test_vllm_load_offload: offload states sleep_level_2")
+    await model.offload_states(2)
+    await model.load_states()
+    vllm_outputs = await generate_batch(model=model, prompts=chat_prompts, sampling_params=sampling_params)
+    print_request_output(vllm_outputs)
+
+    print(">>>>>>>>>>>>>>> test_vllm_load_offload: offload states sleep_level_2 + reload")
+    await model.offload_states(2)
+    await model.engine_core.collective_rpc_async("load_full_model", args=(model_path,))
+    await model.load_states()
+    vllm_outputs = await generate_batch(model=model, prompts=chat_prompts, sampling_params=sampling_params)
+    print_request_output(vllm_outputs)
 
 if __name__ == "__main__":
-    test_model_update_single_gpu()
+    asyncio.run(test_vllm_offload())
diff --git a/tests/third_party/vllm/test_npu_import.py b/tests/third_party/vllm/test_npu_import.py
new file mode 100644
index 000000000..75db1b7e6
--- /dev/null
+++ b/tests/third_party/vllm/test_npu_import.py
@@ -0,0 +1,215 @@
+import asyncio
+import gc
+import importlib.util
+import inspect
+import os
+import sys
+
+# The single-device smoke uses TP=1; force this before vLLM-Ascend imports
+# can cache FlashComm settings from the environment.
+os.environ["VLLM_ASCEND_ENABLE_FLASHCOMM"] = "0"
+
+import pytest
+
+from roll.platforms import current_platform
+
+
+def _require_module(module_name: str) -> bool:
+    """Check that *module_name* is importable.
+
+    On CPU environments the test is skipped when the module is missing.
+    On NPU environments the module is expected to be present.
+    """
+    try:
+        module_spec = importlib.util.find_spec(module_name)
+    except ValueError:
+        # Python 3.11+ raises ValueError when a module that is already imported
+        # has ``__spec__`` set to ``None`` (an edge case in certain packaging).
+        # Check ``sys.modules`` as a fallback.
+        module_spec = None
+
+    available = module_spec is not None or module_name in sys.modules
+    if not available and not current_platform.is_npu():
+        pytest.skip(f"{module_name} is not installed in this environment.")
+    assert available, f"{module_name} must be installed for NPU vLLM tests."
+    return available
+
+
+def test_vllm_imports_available():
+    _require_module("vllm")
+    if current_platform.is_npu():
+        _require_module("vllm_ascend")
+
+
+def test_vllm_npu_worker_class_resolves():
+    if not current_platform.is_npu():
+        pytest.skip("NPU worker resolution only applies on Ascend NPU.")
+
+    worker_cls = current_platform.get_vllm_worker_class()
+    assert worker_cls is not None
+    assert worker_cls.__name__.endswith("Worker")
+
+
+def test_roll_vllm_ray_executor_resolves():
+    if not current_platform.is_npu():
+        pytest.skip("ROLL vLLM Ray executor resolution only applies on Ascend NPU.")
+
+    import roll.third_party.vllm as roll_vllm
+    import vllm
+
+    assert roll_vllm.ray_executor_class_v1 is not None, (
+        f"ROLL must resolve a vLLM V1 Ray executor for NPU CI; vllm={vllm.__version__}"
+    )
+
+
+async def _shutdown_async_llm(model):
+    for method_name in ("shutdown", "close"):
+        method = getattr(model, method_name, None)
+        if method is None:
+            continue
+        result = method()
+        if inspect.isawaitable(result):
+            await result
+        return
+
+
+async def _run_with_npu_vllm_smoke_model(callback, **model_kwargs):
+    import ray
+
+    from roll.distributed.scheduler.initialize import init
+    from roll.distributed.scheduler.resource_manager import ResourceManager
+    from roll.third_party.vllm import create_async_llm
+    from roll.utils import checkpoint_manager
+
+    init()
+
+    model = None
+    resource_manager = None
+    try:
+        model_name_or_path = os.environ.get("ROLL_NPU_VLLM_SMOKE_MODEL", "Qwen/Qwen2.5-0.5B-Instruct")
+        model_path = checkpoint_manager.download_model(model_name_or_path)
+
+        resource_manager = ResourceManager(num_gpus_per_node=1, num_nodes=1)
+        placement_groups = resource_manager.allocate_placement_group(world_size=1, device_mapping=[0])
+
+        kwargs = dict(
+            dtype="bfloat16",
+            gpu_memory_utilization=0.35,
+            max_model_len=512,
+            max_num_batched_tokens=512,
+            max_num_seqs=1,
+            tensor_parallel_size=1,
+            distributed_executor_backend="ray",
+            disable_custom_all_reduce=True,
+            enforce_eager=True,
+            trust_remote_code=True,
+        )
+        kwargs.update(model_kwargs)
+
+        model = await create_async_llm(
+            resource_placement_groups=placement_groups[0],
+            model=model_path,
+            **kwargs,
+        )
+
+        return await callback(model)
+    finally:
+        if model is not None:
+            try:
+                await _shutdown_async_llm(model)
+            except Exception as e:
+                print(f"Failed to shut down vLLM smoke model cleanly: {e}")
+        if resource_manager is not None:
+            resource_manager.destroy_placement_group()
+        if ray.is_initialized():
+            ray.shutdown()
+        checkpoint_manager.shared_storage = None
+        gc.collect()
+        empty_cache = getattr(current_platform, "empty_cache", None)
+        if empty_cache is not None:
+            empty_cache()
+
+
+async def _run_npu_vllm_generate_smoke():
+    from vllm import SamplingParams
+    from vllm.utils import random_uuid
+
+    async def generate(model):
+        sampling_params = SamplingParams(temperature=0.0, max_tokens=4, min_tokens=1)
+        result_generator = model.generate(
+            prompt="Write one short greeting.",
+            sampling_params=sampling_params,
+            request_id=random_uuid(),
+        )
+
+        output = None
+        async for request_output in result_generator:
+            output = request_output
+
+        assert output is not None
+        assert output.finished
+        assert len(output.outputs) == 1
+        assert output.outputs[0].token_ids
+
+    await _run_with_npu_vllm_smoke_model(generate)
+
+
+async def _run_npu_vllm_abort_smoke():
+    from vllm import SamplingParams
+    from vllm.sampling_params import RequestOutputKind
+    from vllm.utils import random_uuid
+
+    async def abort(model):
+        request_id = random_uuid()
+        sampling_params = SamplingParams(
+            temperature=0.0,
+            min_tokens=512,
+            max_tokens=512,
+            output_kind=RequestOutputKind.FINAL_ONLY,
+        )
+
+        async def collect_output():
+            output = None
+            async for request_output in model.generate(
+                prompt="Count upward and keep going.",
+                sampling_params=sampling_params,
+                request_id=request_id,
+            ):
+                output = request_output
+            return output
+
+        task = asyncio.create_task(collect_output())
+        await asyncio.sleep(float(os.environ.get("ROLL_NPU_VLLM_ABORT_DELAY", "0.2")))
+        result = model.abort(request_id)
+        if inspect.isawaitable(result):
+            await result
+
+        output = await asyncio.wait_for(task, timeout=120)
+        assert output is not None
+        assert output.finished
+        assert output.outputs
+        assert all(completion.finish_reason == "abort" for completion in output.outputs)
+
+    await _run_with_npu_vllm_smoke_model(
+        abort,
+        max_model_len=1024,
+        max_num_batched_tokens=1024,
+    )
+
+
+def test_npu_vllm_generate_smoke():
+    if not current_platform.is_npu():
+        pytest.skip("NPU vLLM generate smoke only applies on Ascend NPU.")
+    if os.environ.get("ROLL_NPU_VLLM_GENERATE_SMOKE", "1") == "0":
+        pytest.skip("ROLL_NPU_VLLM_GENERATE_SMOKE=0")
+
+    asyncio.run(_run_npu_vllm_generate_smoke())
+
+
+def test_npu_vllm_abort_smoke():
+    if not current_platform.is_npu():
+        pytest.skip("NPU vLLM abort smoke only applies on Ascend NPU.")
+    if os.environ.get("ROLL_NPU_VLLM_ABORT_SMOKE", "1") == "0":
+        pytest.skip("ROLL_NPU_VLLM_ABORT_SMOKE=0")
+
+    asyncio.run(_run_npu_vllm_abort_smoke())
diff --git a/tests/third_party/vllm/test_vllm_local_actor.py b/tests/third_party/vllm/test_vllm_local_actor.py
index a8ca661f8..010da06d0 100644
--- a/tests/third_party/vllm/test_vllm_local_actor.py
+++ b/tests/third_party/vllm/test_vllm_local_actor.py
@@ -9,29 +9,14 @@
 from vllm import SamplingParams
 
 from roll.distributed.scheduler.resource_manager import ResourceManager
-from roll.third_party.vllm import LLM
+from roll.third_party.vllm import create_async_llm
+from utils import chat_prompts, generate_batch
 
 
 model_path = "Qwen/Qwen2.5-7B-Instruct"
 
-prompts = [
-    "类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞,生成一段文案",
-    "根据关键词描述生成女装/女士精品行业连衣裙品类的发在淘宝的小红书风格的推送配文，包括标题和内容。关键词：pe。要求:1. 推送标题要体现关键词和品类特点，语言通顺，有吸引力，约10个字；2. 推送内容要语言通顺，突出关键词和品类特点，对目标受众有吸引力，长度约30字。标题:",
-    "100.25和90.75谁更大？",
-]
-
-
-def chat_format(prompt):
-    system = "Please reason step by step, and put your final answer within \\boxed{}."
-    return f"<|im_start|>system\n{system}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
-
-
 tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
 
-chat_prompts = []
-for prompt in prompts:
-    chat_prompts.append(chat_format(prompt))
-
 # os.environ["RAY_DEBUG"] = "legacy"
 
 # breakpoint()
@@ -51,8 +36,8 @@ def chat_format(prompt):
 
 @ray.remote
 class TestActor:
-    def __init__(self, placement_groups):
-        self.model = LLM(
+    async def initialize(self, placement_groups):
+        self.model = await create_async_llm(
             resource_placement_groups=placement_groups[0],
             model=model_path,
             block_size=16,
@@ -65,9 +50,9 @@ def __init__(self, placement_groups):
             enable_sleep_mode=True,
         )
 
-    def run(self):
+    async def run(self):
         sampling_params = SamplingParams(temperature=0.0, top_p=0.99, top_k=100, max_tokens=512)
-        self.model.offload_states()
+        await self.model.offload_states()
         import torch
 
         print(f"memory allocated: {torch.cuda.memory_allocated() / 1024 ** 3}")
@@ -78,9 +63,10 @@ def run(self):
 
         pdb.set_trace()
 
-        self.model.load_states()
+        await self.model.load_states()
 
-        vllm_outputs = self.model.generate(
+        vllm_outputs = await generate_batch(
+            self.model,
             sampling_params=sampling_params,
             prompts=chat_prompts,
         )
@@ -109,7 +95,8 @@ def run(self):
     runtime_env=runtime_env,
     num_cpus=0.01,
     num_gpus=0.01,
-).remote(placement_groups=placement_groups)
+).remote()
+ray.get(actor.initialize.remote(placement_groups=placement_groups))
 ray.get(actor.run.remote())
 
 ray.shutdown()
diff --git a/tests/third_party/vllm/test_vllm_mem_oom.py b/tests/third_party/vllm/test_vllm_mem_oom.py
index 0e1aa9546..3eaa28c59 100644
--- a/tests/third_party/vllm/test_vllm_mem_oom.py
+++ b/tests/third_party/vllm/test_vllm_mem_oom.py
@@ -1,101 +1,88 @@
-import os
-import time
-
+import asyncio
 import ray
 from transformers import AutoTokenizer
 from vllm import SamplingParams
 
 from roll.distributed.scheduler.resource_manager import ResourceManager
-from roll.third_party.vllm import LLM
+from roll.third_party.vllm import create_async_llm
 from roll.utils.context_managers import cpu_memory_info
 from roll.utils.logging import get_logger
+from utils import generate_batch, chat_prompts
 
 logger = get_logger()
 
-
-model_path = "Qwen/Qwen2.5-7B-Instruct"
-
-prompts = [
-    "类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞,生成一段文案",
-    "根据关键词描述生成女装/女士精品行业连衣裙品类的发在淘宝的小红书风格的推送配文，包括标题和内容。关键词：pe。要求:1. 推送标题要体现关键词和品类特点，语言通顺，有吸引力，约10个字；2. 推送内容要语言通顺，突出关键词和品类特点，对目标受众有吸引力，长度约30字。标题:",
-    "100.25和90.75谁更大？",
-]
-
-
-def chat_format(prompt):
-    system = "Please reason step by step, and put your final answer within \\boxed{}."
-    return f"<|im_start|>system\n{system}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
-
-
-tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
-
-chat_prompts = []
-for prompt in prompts:
-    chat_prompts.append(chat_format(prompt))
-
-# os.environ["RAY_DEBUG"] = "legacy"
-
-ray.init()
-resource_manager = ResourceManager()
-placement_groups = resource_manager.allocate_placement_group(world_size=1, device_mapping=list(range(1)))
-sampling_params = SamplingParams(temperature=0.0, top_p=0.99, top_k=100, max_tokens=1024)
-
-model = LLM(
-    resource_placement_groups=placement_groups[0],
-    model=model_path,
-    block_size=16,
-    dtype="bfloat16",
-    gpu_memory_utilization=0.8,
-    tensor_parallel_size=1,
-    trust_remote_code=True,
-    load_format="dummy",
-)
-
-
-from memory_profiler import profile
-import tracemalloc
-
-# tracemalloc.start()
-
-snapshot_1 = None
-snapshot_last = None
-
-
-# @profile
-def generate_memory():
-    global snapshot_1, snapshot_last
-    for _ in range(20):
-        model.load_states()
-        model.generate(
-            sampling_params=sampling_params,
-            prompts=chat_prompts,
-            use_tqdm=False,
-        )
-        model.offload_states()
-        rss = cpu_memory_info().rss / 1024**2
-        logger.info(f"rss: {rss}")
-        # snapshot_last = tracemalloc.take_snapshot()
-        # if snapshot_1 is None:
-        #     snapshot_1 = snapshot_last
-
-
-generate_memory()
-
-# tracemalloc.stop()
-
-# snapshot.dump(f"mem_dump.pickle")
-ray.shutdown()
-
-# https://www.datacamp.com/tutorial/memory-profiling-python
-#
-# stats_1 = snapshot_1.compare_to(snapshot_last, 'lineno')
-#
-# with open('memory_leak_analysis.txt', 'w') as f:
-#     f.write("[ Memory usage increase from snapshot 1 to snapshot 2 ]\n")
-#     for stat in stats_1[:10]:
-#         f.write(f"{stat}\n")
-#
-#     # Detailed traceback for the top memory consumers
-#     f.write("\n[ Detailed traceback for the top memory consumers ]\n")
-#     for stat in stats_1[:-1]:
-#         f.write('\n'.join(stat.traceback.format()) + '\n\n\n')
+async def main():
+    model_path = "Qwen/Qwen2.5-7B-Instruct"
+
+    tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
+
+    # os.environ["RAY_DEBUG"] = "legacy"
+
+    ray.init()
+    resource_manager = ResourceManager()
+    placement_groups = resource_manager.allocate_placement_group(world_size=1, device_mapping=list(range(1)))
+    sampling_params = SamplingParams(temperature=0.0, top_p=0.99, top_k=100, max_tokens=1024)
+
+    model = await create_async_llm(
+        resource_placement_groups=placement_groups[0],
+        model=model_path,
+        block_size=16,
+        dtype="bfloat16",
+        gpu_memory_utilization=0.8,
+        tensor_parallel_size=1,
+        trust_remote_code=True,
+        load_format="dummy",
+    )
+
+
+    from memory_profiler import profile
+    import tracemalloc
+
+    # tracemalloc.start()
+
+    snapshot_1 = None
+    snapshot_last = None
+
+
+    # @profile
+    async def generate_memory():
+        global snapshot_1, snapshot_last
+        for _ in range(20):
+            await model.load_states()
+            await generate_batch(
+                model,
+                sampling_params=sampling_params,
+                prompts=chat_prompts,
+                use_tqdm=False,
+            )
+            model.offload_states()
+            rss = cpu_memory_info().rss / 1024**2
+            logger.info(f"rss: {rss}")
+            # snapshot_last = tracemalloc.take_snapshot()
+            # if snapshot_1 is None:
+            #     snapshot_1 = snapshot_last
+
+
+    await generate_memory()
+
+    # tracemalloc.stop()
+
+    # snapshot.dump(f"mem_dump.pickle")
+    ray.shutdown()
+
+    # https://www.datacamp.com/tutorial/memory-profiling-python
+    #
+    # stats_1 = snapshot_1.compare_to(snapshot_last, 'lineno')
+    #
+    # with open('memory_leak_analysis.txt', 'w') as f:
+    #     f.write("[ Memory usage increase from snapshot 1 to snapshot 2 ]\n")
+    #     for stat in stats_1[:10]:
+    #         f.write(f"{stat}\n")
+    #
+    #     # Detailed traceback for the top memory consumers
+    #     f.write("\n[ Detailed traceback for the top memory consumers ]\n")
+    #     for stat in stats_1[:-1]:
+    #         f.write('\n'.join(stat.traceback.format()) + '\n\n\n')
+
+if __name__ == "__main__":
+    asyncio.run(main())
diff --git a/tests/third_party/vllm/utils.py b/tests/third_party/vllm/utils.py
new file mode 100644
index 000000000..445319e3c
--- /dev/null
+++ b/tests/third_party/vllm/utils.py
@@ -0,0 +1,87 @@
+import asyncio
+import os
+import gc
+import torch
+from contextlib import contextmanager
+
+from vllm.sampling_params import SamplingParams
+from vllm.utils import random_uuid
+from vllm.utils.mem_constants import GiB_bytes
+from vllm.outputs import RequestOutput
+
+from roll.platforms import current_platform
+
+
+# helper function to generate batch of requests with the same sampling_params
+async def generate_batch(model, prompts, sampling_params):
+    assert isinstance(sampling_params, SamplingParams)
+    async def generate(prompt):
+        request_id = random_uuid()
+        result_generator = model.generate(prompt=prompt, sampling_params=sampling_params, request_id=request_id)
+        output = None
+        async for request_output in result_generator:
+            output = request_output
+        assert output is not None
+        return output
+    return await asyncio.gather(*[generate(prompt) for prompt in prompts])
+
+def print_request_output(vllm_output: RequestOutput):
+    def _print(output):
+        print(f"[request] {output.request_id}")
+        print(f"[prompt] {repr(output.prompt)}")
+        for text in output.outputs:
+            print(f"[text] {repr(text.text)}")
+
+    if vllm_output is None:
+        print(f"[output is None]")
+    elif isinstance(vllm_output, list):
+        for output in vllm_output:
+            _print(output)
+    else:
+        assert isinstance(vllm_output, RequestOutput)
+        _print(vllm_output)
+
+
+def chat_format(prompt):
+    system = "Please reason step by step, and put your final answer within \\boxed{}."
+    return f"<|im_start|>system\n{system}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
+
+prompts = [
+    "类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞,生成一段文案",
+    "根据关键词描述生成女装/女士精品行业连衣裙品类的发在淘宝的小红书风格的推送配文，包括标题和内容。关键词：pe。要求:1. 推送标题要体现关键词和品类特点，语言通顺，有吸引力，约10个字；2. 推送内容要语言通顺，突出关键词和品类特点，对目标受众有吸引力，长度约30字。标题:",
+    "100.25和90.75谁更大？",
+]
+
+chat_prompts = [chat_format(prompt) for prompt in prompts]
+
+
+def print_current_mem_usage(tag):
+    current_platform.empty_cache()
+    gc.collect()
+    free_bytes, total = current_platform.mem_get_info()
+    print(f"[mem_usage] {tag} | current used: {(total - free_bytes) / GiB_bytes}")
+
+@contextmanager
+def mem_usage(mem_profile=False):
+    free_bytes, total = torch.cuda.mem_get_info()
+    used_bytes_before = total - free_bytes
+    MAX_NUM_OF_MEM_EVENTS_PER_SNAPSHOT: int = 100000
+    if mem_profile:
+        torch.cuda.memory._record_memory_history(max_entries=MAX_NUM_OF_MEM_EVENTS_PER_SNAPSHOT, stacks="python")
+    try:
+        yield
+    finally:
+        torch.cuda.empty_cache()
+        gc.collect()
+        dump_file = ""
+        if mem_profile:
+            dump_file = f"/tmp/{random_uuid()}.pickle"
+            os.makedirs(os.path.dirname(dump_file), exist_ok=True)
+            torch.cuda.memory._dump_snapshot(dump_file)
+            # print(f"{torch.cuda.memory._snapshot()}")
+            torch.cuda.memory._record_memory_history(enabled=None)
+        free_bytes, total = torch.cuda.mem_get_info()
+        used_bytes_after = total - free_bytes
+        print(
+            f"[mem_usage] before {used_bytes_before / GiB_bytes} after {used_bytes_after / GiB_bytes}, dump to file {dump_file}"
+        )
diff --git a/tests/utils/test_action_parser.py b/tests/utils/test_action_parser.py
new file mode 100644
index 000000000..dbed14136
--- /dev/null
+++ b/tests/utils/test_action_parser.py
@@ -0,0 +1,24 @@
+import re
+
+import pytest
+
+from roll.pipeline.agentic.tools.action_parser import Qwen3CoderActionParser
+
+
+def test_qwen3coder_action_parser_parse_action_single_call():
+    tool = Qwen3CoderActionParser()
+    response = (
+        "Let me check the current directory."
+        "<tool_call><function=list_directory><parameter=path>.</parameter></function></tool_call>"
+    )
+
+    ok, actions = tool.parse_action(response=response)
+
+    assert ok is True
+    assert isinstance(actions, list)
+    assert len(actions) == 1
+
+    action = actions[0]
+    assert action["type"] == "function"
+    assert action["function"]["name"] == "list_directory"
+    assert action["function"]["arguments"] == '{"path": "."}'
diff --git a/tests/utils/test_cp_rmpad_ulysses_utils.py b/tests/utils/test_cp_rmpad_ulysses_utils.py
new file mode 100644
index 000000000..dada4b234
--- /dev/null
+++ b/tests/utils/test_cp_rmpad_ulysses_utils.py
@@ -0,0 +1,48 @@
+import pytest
+import torch
+
+
+def test_ulysses_pad_and_slice_inputs_divisible():
+    from roll.utils.context_parallel.rmpad_ulysses import ulysses_pad_and_slice_inputs
+
+    input_ids = torch.arange(10, dtype=torch.long).unsqueeze(0)  # [1, 10]
+    pos = torch.arange(10, dtype=torch.long).unsqueeze(0)  # [1, 10]
+
+    # cp_size=2 => no padding needed
+    x0, p0, pad0 = ulysses_pad_and_slice_inputs(input_ids, pos, cp_size=2, cp_rank=0)
+    x1, p1, pad1 = ulysses_pad_and_slice_inputs(input_ids, pos, cp_size=2, cp_rank=1)
+
+    assert pad0 == 0 and pad1 == 0
+    assert x0.shape == (1, 5) and x1.shape == (1, 5)
+    assert torch.equal(torch.cat([x0, x1], dim=1), input_ids)
+    assert torch.equal(torch.cat([p0, p1], dim=1), pos)
+
+
+def test_ulysses_pad_and_slice_inputs_with_padding():
+    from roll.utils.context_parallel.rmpad_ulysses import ulysses_pad_and_slice_inputs
+
+    input_ids = torch.arange(11, dtype=torch.long).unsqueeze(0)  # [1, 11]
+    pos = torch.arange(11, dtype=torch.long).unsqueeze(0)  # [1, 11]
+
+    # cp_size=4 => pad to 12
+    parts = []
+    pads = []
+    for r in range(4):
+        x, p, pad = ulysses_pad_and_slice_inputs(input_ids, pos, cp_size=4, cp_rank=r)
+        parts.append(x)
+        pads.append(pad)
+        assert x.shape == (1, 3)
+        assert p is not None and p.shape == (1, 3)
+
+    assert all(p == 1 for p in pads)
+    full = torch.cat(parts, dim=1)
+    assert full.shape == (1, 12)
+    assert torch.equal(full[:, :11], input_ids)
+
+
+def test_gather_outputs_and_unpad_no_group_is_noop():
+    from roll.utils.context_parallel.rmpad_ulysses import gather_outputs_and_unpad
+
+    x = torch.randn(1, 8, 3)
+    y = gather_outputs_and_unpad(x, gather_dim=1, unpad_dim=1, padding_size=2, group=None)
+    assert torch.equal(y, x[:, :6])
diff --git a/tests/utils/test_dynamic_batching.py b/tests/utils/test_dynamic_batching.py
index bd4946570..d89cec60c 100644
--- a/tests/utils/test_dynamic_batching.py
+++ b/tests/utils/test_dynamic_batching.py
@@ -1,11 +1,9 @@
-import sys
-sys.path.insert(0, "/home/wenxuan.jwx/ScaleAligner")
-
 import torch
 
 from roll.distributed.scheduler.protocol import DataProto
 from roll.utils.dynamic_batching import *
 
+
 def test_dynamic_batching():
     dp_size = 2
     num_seq = 6
@@ -40,5 +38,33 @@ def test_dynamic_batching():
     assert tuple(micro_batch0.batch["input_ids"].shape) == (2,4)
 
 
+def test_dynamic_batching_with_vpp():
+    torch.manual_seed(42)
+    dp_size = 4
+    num_seq = 256
+    max_seq_len = 8192
+    seqs_len = torch.randint(low=128, high=8192, size=(256,)).tolist()
+    input_ids = torch.arange(num_seq).unsqueeze(1).expand(num_seq, max_seq_len)
+    attention_mask = (torch.arange(max_seq_len) < torch.tensor(seqs_len)[:, None]).int()
+    data = DataProto.from_dict(
+        tensors={
+            "input_ids": input_ids,
+            "attention_mask": attention_mask,
+        }
+    )
+    max_tokens_per_microbatch = 8192
+    sequence_length_round = 128
+
+    # test dynamic_batching_shard
+    pipeline_model_parallel_size = 4
+    virtual_pipeline_model_size = 2
+    data, _ = dynamic_batching_shard(data, dp_size, max_tokens_per_microbatch, sequence_length_round, 
+                                     pipeline_model_parallel_size=pipeline_model_parallel_size,
+                                     virtual_pipeline_model_parallel_size=virtual_pipeline_model_size)
+    assert data.meta_info["global_micro_batch_indices"].__len__() % pipeline_model_parallel_size == 0
+    assert data.meta_info["global_micro_batch_lengths"].__len__() == data.meta_info["global_micro_batch_indices"].__len__()
+
+
 if __name__ == "__main__":
-    test_dynamic_batching()
\ No newline at end of file
+    # test_dynamic_batching()
+    test_dynamic_batching_with_vpp()
diff --git a/tests/utils/test_sequence_packing.py b/tests/utils/test_sequence_packing.py
new file mode 100644
index 000000000..d2e461847
--- /dev/null
+++ b/tests/utils/test_sequence_packing.py
@@ -0,0 +1,248 @@
+import torch
+import numpy as np
+from dataclasses import dataclass
+from typing import Dict
+from tensordict import TensorDict
+from roll.distributed.scheduler.protocol import DataProto
+
+
+def test_load_balance_packer():
+    """测试 LoadBalancePacker 并展示哪些样本被打包到一起"""
+
+    # 导入必要的类
+    from roll.utils.sequence_packing import LoadBalancePacker, SequencePackingConfig
+
+    # 创建配置
+    config = SequencePackingConfig(
+        algorithm="load_balance",
+        max_packed_sequence_length_forward=4096,
+        max_packed_sequence_length_train=4096,
+    )
+
+    # 创建 packer
+    packer = LoadBalancePacker(config)
+
+    # 创建测试数据 - 10个样本，不同的序列长度
+    batch_size = 10
+    max_seq_len = 2048
+
+    # 创建不同长度的序列
+    sequence_lengths = [512, 1024, 256, 2048, 128, 768, 1536, 384, 896, 640]
+    print(f"\n{'=' * 80}")
+    print(f"原始数据:")
+    print(f"{'=' * 80}")
+    print(f"总样本数: {batch_size}")
+    print(f"最大序列长度配置: {config.max_packed_sequence_length_forward}")
+    print(f"\n各样本的序列长度:")
+    for idx, length in enumerate(sequence_lengths):
+        print(f"  样本 {idx}: {length} tokens")
+
+    # 创建 attention_mask 来模拟真实的序列长度
+    attention_masks = []
+    input_ids_list = []
+
+    for seq_len in sequence_lengths:
+        # 创建 attention_mask: 前 seq_len 个位置为 1，其余为 0
+        mask = torch.zeros(max_seq_len, dtype=torch.long)
+        mask[:seq_len] = 1
+        attention_masks.append(mask)
+
+        # 创建假的 input_ids
+        input_ids = torch.randint(0, 1000, (max_seq_len,), dtype=torch.long)
+        input_ids_list.append(input_ids)
+
+    # 堆叠成批次
+    attention_mask = torch.stack(attention_masks)
+    input_ids = torch.stack(input_ids_list)
+
+    # 创建 TensorDict
+    batch_dict = TensorDict(
+        source={
+            "input_ids": input_ids,
+            "attention_mask": attention_mask,
+        },
+        batch_size=(batch_size,)
+    )
+
+    # 创建 DataProto
+    mini_batch = DataProto(
+        batch=batch_dict,
+        non_tensor_batch={},
+        meta_info={}
+    )
+
+    # 设置参数
+    tp_size = 1
+    cp_size = 1
+    vp_size = 1
+
+    # 创建一个假的 dp_group（对于测试，我们可以传 None）
+    class FakeDPGroup:
+        pass
+
+    dp_group = FakeDPGroup()
+
+    # 调用 packer
+    print(f"\n{'=' * 80}")
+    print(f"开始打包...")
+    print(f"{'=' * 80}")
+
+    micro_batches = list(packer.make_micro_batch_iter_for_sequence_packing(
+        mini_batch=mini_batch,
+        tp_size=tp_size,
+        cp_size=cp_size,
+        vp_size=vp_size,
+        dp_group=dp_group,
+        micro_batch_size=None  # LoadBalancePacker 会自动计算
+    ))
+
+    # 展示结果
+    print(f"\n{'=' * 80}")
+    print(f"打包结果:")
+    print(f"{'=' * 80}")
+    print(f"总共生成了 {len(micro_batches)} 个 micro batches\n")
+
+    print(f"partition_indices_list:   {micro_batches[0].meta_info['partition_indices_list']}")
+
+    total_workload = 0
+    for micro_idx, micro_batch in enumerate(micro_batches):
+        partition_indices = micro_batch.meta_info.get('partition_indices', [])
+
+        # 获取这个 micro batch 中的序列长度
+        batch_seq_lens = []
+        for idx in partition_indices:
+            seq_len = sequence_lengths[idx]
+            batch_seq_lens.append(seq_len)
+
+        # 计算总长度和工作负载
+        total_seq_len = sum(batch_seq_lens)
+        workload = sum(packer.calculate_workload(seq_len) for seq_len in batch_seq_lens)
+        total_workload += workload
+
+        print(f"Micro Batch {micro_idx}:")
+        print(f"  包含样本: {partition_indices}")
+        print(f"  样本数量: {len(partition_indices)}")
+        print(f"  各样本长度: {batch_seq_lens}")
+        print(f"  总序列长度: {total_seq_len} tokens")
+        print(f"  工作负载: {workload:,.0f}")
+        print(f"  平均长度: {total_seq_len / len(partition_indices):.1f} tokens")
+        print()
+
+    # 计算负载均衡统计
+    workloads = []
+    seq_lengths = []
+    for micro_batch in micro_batches:
+        partition_indices = micro_batch.meta_info.get('partition_indices', [])
+        batch_seq_lens = [sequence_lengths[idx] for idx in partition_indices]
+        workload = sum(packer.calculate_workload(seq_len) for seq_len in batch_seq_lens)
+        workloads.append(workload)
+        seq_lengths.append(sum(batch_seq_lens))
+
+    print(f"{'=' * 80}")
+    print(f"负载均衡统计:")
+    print(f"{'=' * 80}")
+    print(f"工作负载分布:")
+    print(f"  最大: {max(workloads):,.0f}")
+    print(f"  最小: {min(workloads):,.0f}")
+    print(f"  平均: {np.mean(workloads):,.0f}")
+    print(f"  标准差: {np.std(workloads):,.0f}")
+    print(f"  不平衡度: {(max(workloads) - min(workloads)) / np.mean(workloads) * 100:.2f}%")
+    print()
+    print(f"序列长度分布:")
+    print(f"  最大: {max(seq_lengths)} tokens")
+    print(f"  最小: {min(seq_lengths)} tokens")
+    print(f"  平均: {np.mean(seq_lengths):.1f} tokens")
+    print(f"  标准差: {np.std(seq_lengths):.1f} tokens")
+
+    # 可视化（简单的文本条形图）
+    print(f"\n{'=' * 80}")
+    print(f"工作负载可视化:")
+    print(f"{'=' * 80}")
+    max_workload = max(workloads)
+    bar_width = 50
+    for i, workload in enumerate(workloads):
+        bar_len = int((workload / max_workload) * bar_width)
+        bar = '█' * bar_len
+        print(f"Batch {i}: {bar} {workload:,.0f}")
+
+    print(f"\n{'=' * 80}")
+
+    # ============ 测试 restore_results_order ============
+    print(f"\n{'=' * 80}")
+    print(f"测试 restore_results_order:")
+    print(f"{'=' * 80}")
+
+    # 1. 模拟计算结果（已经按照打乱的顺序 concat 在一起）
+    # 计算总样本数
+    total_samples = sum(len(mb.meta_info['partition_indices']) for mb in micro_batches)
+
+    # 创建模拟的计算结果（按照打乱的顺序）
+    shuffled_results = {
+        'logits': torch.arange(total_samples).float().unsqueeze(1),  # [total_samples, 1]
+        'loss': torch.arange(total_samples).float() * 10,  # [total_samples]
+    }
+
+    print(f"模拟计算结果（打乱顺序）:")
+    print(f"  logits shape: {shuffled_results['logits'].shape}")
+    print(f"  loss shape: {shuffled_results['loss'].shape}")
+    print(f"  logits 前5个值: {shuffled_results['logits'][:5].squeeze().tolist()}")
+    print(f"  loss 前5个值: {shuffled_results['loss'][:5].tolist()}")
+
+    # 2. 获取 partition_indices_list
+    partition_indices_list = mini_batch.meta_info['partition_indices_list']
+    print(f"\npartition_indices_list: {partition_indices_list}")
+
+    # 3. 还原顺序
+    restored_results = LoadBalancePacker.restore_results_order(
+        shuffled_results,
+        partition_indices_list
+    )
+
+    print(f"\n还原后的结果（原始顺序）:")
+    print(f"  logits shape: {restored_results['logits'].shape}")
+    print(f"  loss shape: {restored_results['loss'].shape}")
+    print(f"  logits 前5个值: {restored_results['logits'][:5].squeeze().tolist()}")
+    print(f"  loss 前5个值: {restored_results['loss'][:5].tolist()}")
+
+    # 4. 验证还原是否正确
+    # 由于我们的模拟数据是 [0, 1, 2, 3, ...] 按打乱顺序排列
+    # 还原后应该对应原始索引的顺序
+    print(f"\n验证还原正确性:")
+
+    # 构建期望的结果（按原始顺序）
+    current_idx = 0
+    expected_order = []
+    for partition in partition_indices_list:
+        for _ in partition:
+            expected_order.append(current_idx)
+            current_idx += 1
+
+    # 将期望顺序映射回原始索引
+    original_order = [0] * total_samples
+    current_idx = 0
+    for partition in partition_indices_list:
+        for orig_idx in partition:
+            original_order[orig_idx] = expected_order[current_idx]
+            current_idx += 1
+
+    print(f"  期望的 logits 值（前10个）: {original_order}")
+    print(f"  实际的 logits 值（前10个）: {restored_results['logits'][:10].squeeze().tolist()}")
+
+    # 检查是否完全匹配
+    is_correct = torch.allclose(
+        restored_results['logits'].squeeze(),
+        torch.tensor(original_order, dtype=torch.float)
+    )
+    print(f"  还原结果{'✓ 正确' if is_correct else '✗ 错误'}")
+
+    print(f"\n{'=' * 80}\n")
+
+
+
+
+if __name__ == "__main__":
+    # 设置随机种子以便复现
+    torch.manual_seed(42)
+    np.random.seed(42)
+
+    test_load_balance_packer()
diff --git a/tests/utils/test_taskgroups.py b/tests/utils/test_taskgroups.py
new file mode 100644
index 000000000..165ed9132
--- /dev/null
+++ b/tests/utils/test_taskgroups.py
@@ -0,0 +1,123 @@
+import asyncio
+import pytest
+
+from roll.utils.taskgroups import TaskGroup
+
+pytestmark = pytest.mark.anyio
+
+
+@pytest.fixture
+def anyio_backend():
+    return "asyncio"
+
+
+async def test_base():
+    async def foo(result, index):
+        result[index] = 2333
+
+    result = [None] * 4
+    async with TaskGroup() as tg:
+        for i in range(4):
+            tg.create_task(foo(result, i))
+    assert result == [2333, 2333, 2333, 2333]
+
+async def test_cancel_parent():
+    async def foo(result, index):
+        result[index] = 2333
+
+    async def tg_task(expected):
+        result = [None] * 4
+        try:
+            async with TaskGroup() as tg:
+                for i in range(4):
+                    await asyncio.sleep(2)
+                    tg.create_task(foo(result, i))
+        except asyncio.CancelledError:
+            assert result == expected
+            raise
+
+    task = asyncio.create_task(tg_task(expected=[None, None, None, None]))
+    await asyncio.sleep(1)
+    task.cancel()
+    with pytest.raises(asyncio.CancelledError):
+        await task
+
+    task = asyncio.create_task(tg_task([2333, None, None, None]))
+    await asyncio.sleep(3)
+    task.cancel()
+    with pytest.raises(asyncio.CancelledError):
+        await task
+
+async def test_parent_exception():
+    async def foo(result, index, sleep_time=0):
+        await asyncio.sleep(sleep_time)
+        result[index] = 2333
+
+    async def tg_task():
+        result = [None] * 4
+        try:
+            async with TaskGroup() as tg:
+                tg.create_task(foo(result, 0, sleep_time=0))
+                tg.create_task(foo(result, 1, sleep_time=0))
+                tg.create_task(foo(result, 2, sleep_time=2))
+                tg.create_task(foo(result, 3, sleep_time=2))
+                await asyncio.sleep(1)
+                raise RuntimeError
+        except RuntimeError:
+            assert result == [2333, 2333, None, None]
+            raise
+
+    with pytest.raises(RuntimeError):
+        await asyncio.create_task(tg_task())
+
+async def test_tg_exception():
+    async def foo(result, index, sleep_time=0, raise_exception=False):
+        await asyncio.sleep(sleep_time)
+        if raise_exception:
+            raise RuntimeError
+        result[index] = 2333
+
+    async def tg_task():
+        result = [None] * 4
+        try:
+            async with TaskGroup() as tg:
+                tg.create_task(foo(result, 0, sleep_time=0, raise_exception=False))
+                tg.create_task(foo(result, 1, sleep_time=0, raise_exception=False))
+                tg.create_task(foo(result, 2, sleep_time=0, raise_exception=True))
+                tg.create_task(foo(result, 3, sleep_time=2, raise_exception=False))
+                # dead loop to test whether TaskGroup can propragate exception
+                while True:
+                    await asyncio.sleep(1)
+        except RuntimeError:
+            assert result == [2333, 2333, None, None]
+            raise
+
+    with pytest.raises(RuntimeError):
+        await asyncio.create_task(tg_task())
+
+async def test_cancel_tg():
+    async def foo(result, index, cancel=False):
+        await asyncio.sleep(1)
+        result[index] = 2333
+
+    async def tg_task():
+        result = [None] * 4
+        async with TaskGroup() as tg:
+            tg.create_task(foo(result, 0))
+            tg.create_task(foo(result, 1))
+            task = tg.create_task(foo(result, 2))
+            task.cancel()
+            tg.create_task(foo(result, 3))
+        assert result == [2333, 2333, None, 2333]
+
+    await asyncio.create_task(tg_task())
+
+async def main():
+    await asyncio.create_task(test_base())
+    await asyncio.create_task(test_cancel_parent())
+    await asyncio.create_task(test_parent_exception())
+    await asyncio.create_task(test_tg_exception())
+    await asyncio.create_task(test_cancel_tg())
+
+if __name__ == "__main__":
+    asyncio.run(main())