diff --git a/csrc/config.hpp b/csrc/config.hpp
index 0e4f5b06..c67ba936 100644
--- a/csrc/config.hpp
+++ b/csrc/config.hpp
@@ -133,8 +133,9 @@ struct LowLatencyLayout {
         return reinterpret_cast<out_ptr_t>(reinterpret_cast<count_ptr_t>(ptr) + count);
     }
 
-    LowLatencyLayout(void* rdma_buffer, int num_max_dispatch_tokens_per_rank, int hidden, int num_ranks, int num_experts) {
-        const int num_scales = hidden / 128;
+    LowLatencyLayout(void* rdma_buffer, int num_max_dispatch_tokens_per_rank, int hidden, int num_ranks, int num_experts,
+                     int quant_group_size = 128) {
+        const int num_scales = hidden / quant_group_size;
 
         // Dispatch and combine layout:
         //  - 2 symmetric odd/even send buffer
@@ -143,7 +144,7 @@ struct LowLatencyLayout {
 
         // Message sizes
         // NOTES: you should add a control `int4` for combine messages if you want to do data transformation
-        // NOTES: `num_scales * sizeof(nv_bfloat162)` means the per-128-channel min/max
+        // NOTES: `num_scales * sizeof(nv_bfloat162)` means the per-channel min/max
         EP_HOST_ASSERT(num_scales * sizeof(float) <= hidden);
         size_t num_bytes_per_dispatch_msg = sizeof(int4) + std::max(hidden * sizeof(nv_bfloat16), hidden + num_scales * sizeof(float));
         size_t num_bytes_per_combine_msg = num_scales * sizeof(nv_bfloat162) + hidden * sizeof(nv_bfloat16);
@@ -187,8 +188,9 @@ struct LowLatencyLayout {
     }
 };
 
-size_t get_low_latency_rdma_size_hint(int num_max_dispatch_tokens_per_rank, int hidden, int num_ranks, int num_experts) {
-    auto num_bytes = LowLatencyLayout(nullptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts).total_bytes;
+size_t get_low_latency_rdma_size_hint(int num_max_dispatch_tokens_per_rank, int hidden, int num_ranks, int num_experts,
+                                      int quant_group_size = 128) {
+    auto num_bytes = LowLatencyLayout(nullptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts, quant_group_size).total_bytes;
     return ((num_bytes + NUM_BUFFER_ALIGNMENT_BYTES) / NUM_BUFFER_ALIGNMENT_BYTES) * NUM_BUFFER_ALIGNMENT_BYTES;
 }
 
diff --git a/csrc/deep_ep.cpp b/csrc/deep_ep.cpp
index 0c6108c9..a1c8f473 100644
--- a/csrc/deep_ep.cpp
+++ b/csrc/deep_ep.cpp
@@ -151,7 +151,7 @@ Buffer::Buffer(int rank,
               place, phi::distributed::CommType::ALLTOALL);
           calc_ctx = reinterpret_cast<phi::GPUContext*>(
               reinterpret_cast<paddle::distributed::ProcessGroupNCCL*>(pg)->GetDeviceContext(place, true));
-          return at::cuda::getStreamFromExternal(comm_ctx->GetStream(), device_id);
+          return at::cuda::CUDAStream(comm_ctx->GetStream());
       }()),
       shared_memory_allocator(use_fabric) {
     // Metadata memory
@@ -409,7 +409,7 @@ Buffer::get_dispatch_layout(
 
     // Allocate all tensors on comm stream if set
     // NOTES: do not allocate tensors upfront!
-    auto compute_stream = at::cuda::getStreamFromExternal(calc_ctx->stream(), device_id);
+    auto compute_stream = at::cuda::CUDAStream(calc_ctx->stream());
     if (allocate_on_comm_stream) {
         EP_HOST_ASSERT(previous_event.has_value() and async);
         deep_ep::SetAllocatorStreamForGPUContext(comm_stream, calc_ctx);
@@ -476,6 +476,8 @@ std::tuple<torch::Tensor,
            torch::Tensor,
            torch::Tensor,
            torch::Tensor,
+           std::optional<torch::Tensor>,
+           std::optional<torch::Tensor>,
            std::optional<EventHandle>>
 Buffer::intranode_dispatch(const torch::Tensor& x,
                            const std::optional<torch::Tensor>& x_scales,
@@ -493,7 +495,10 @@ Buffer::intranode_dispatch(const torch::Tensor& x,
                            std::optional<EventHandle>& previous_event,
                            bool async,
                            bool allocate_on_comm_stream,
-                           bool skip_x_record_stream) {
+                           bool skip_x_record_stream,
+                           int quant_group_size,
+                           bool use_mask_prmt,
+                           int max_tokens_per_expert) {
     bool cached_mode = cached_rank_prefix_matrix.has_value();
 
     // One channel use two blocks, even-numbered blocks for sending, odd-numbered blocks for receiving.
@@ -538,6 +543,15 @@ Buffer::intranode_dispatch(const torch::Tensor& x,
     auto num_tokens = static_cast<int>(x.size(0)), hidden = static_cast<int>(x.size(1));
     auto num_experts = cached_mode ? 0 : static_cast<int>(num_tokens_per_expert->size(0)), num_local_experts = num_experts / num_ranks;
 
+    // use_mask_prmt checks
+    if (use_mask_prmt) {
+        EP_HOST_ASSERT(quant_group_size == 32);
+        EP_HOST_ASSERT(x_scales.has_value());
+        EP_HOST_ASSERT(topk_idx.has_value());
+        EP_HOST_ASSERT(max_tokens_per_expert > 0);
+        EP_HOST_ASSERT(num_local_experts > 0);
+    }
+
     // Top-k checks
     int num_topk = 0;
     topk_idx_t* topk_idx_ptr = nullptr;
@@ -556,22 +570,23 @@ Buffer::intranode_dispatch(const torch::Tensor& x,
     }
 
     // FP8 scales checks
-    float* x_scales_ptr = nullptr;
+    void* x_scales_ptr = nullptr;
     int num_scales = 0, scale_token_stride = 0, scale_hidden_stride = 0;
     if (x_scales.has_value()) {
         EP_HOST_ASSERT(x.element_size() == 1);
-        EP_HOST_ASSERT(x_scales->scalar_type() == torch::kFloat32 or x_scales->scalar_type() == torch::kInt);
+        EP_HOST_ASSERT(x_scales->scalar_type() == torch::kFloat32 or x_scales->scalar_type() == torch::kInt or
+                        x_scales->scalar_type() == torch::kByte);
         EP_HOST_ASSERT(x_scales->dim() == 2);
         EP_HOST_ASSERT(x_scales->size(0) == num_tokens);
         num_scales = x_scales->dim() == 1 ? 1 : static_cast<int>(x_scales->size(1));
-        x_scales_ptr = static_cast<float*>(x_scales->data_ptr());
+        x_scales_ptr = x_scales->data_ptr();
         scale_token_stride = static_cast<int>(x_scales->stride(0));
         scale_hidden_stride = static_cast<int>(x_scales->stride(1));
     }
 
     // Allocate all tensors on comm stream if set
     // NOTES: do not allocate tensors upfront!
-    auto compute_stream = at::cuda::getStreamFromExternal(calc_ctx->stream(), device_id);
+    auto compute_stream = at::cuda::CUDAStream(calc_ctx->stream());
     if (allocate_on_comm_stream) {
         EP_HOST_ASSERT(previous_event.has_value() && async);
         deep_ep::SetAllocatorStreamForGPUContext(comm_stream, calc_ctx);
@@ -664,17 +679,24 @@ Buffer::intranode_dispatch(const torch::Tensor& x,
     }
 
     // Allocate new tensors
-    auto recv_x = torch::empty({num_recv_tokens, hidden}, x.options());
+    // When use_mask_prmt: recv_x is [E*M, hidden], recv_x_scales is [E, M, kb_dim] uint8 (SfAtom layout)
+    auto recv_x = use_mask_prmt
+                      ? torch::empty({num_local_experts * max_tokens_per_expert, hidden}, x.options())
+                      : torch::empty({num_recv_tokens, hidden}, x.options());
     auto recv_src_idx = torch::empty({num_recv_tokens}, dtype(torch::kInt32).device(torch::kCUDA));
     auto recv_topk_idx = std::optional<torch::Tensor>(), recv_topk_weights = std::optional<torch::Tensor>(),
          recv_x_scales = std::optional<torch::Tensor>();
     auto recv_channel_prefix_matrix = torch::empty({num_ranks, num_channels}, dtype(torch::kInt32).device(torch::kCUDA));
     auto send_head = torch::empty({num_tokens, num_ranks}, dtype(torch::kInt32).device(torch::kCUDA));
 
+    // Mask PMRT additional tensors
+    auto permuted_indice_map_tensor = std::optional<torch::Tensor>();
+    auto token_nums_per_expert_tensor = std::optional<torch::Tensor>();
+
     // Assign pointers
     topk_idx_t* recv_topk_idx_ptr = nullptr;
     float* recv_topk_weights_ptr = nullptr;
-    float* recv_x_scales_ptr = nullptr;
+    void* recv_x_scales_ptr = nullptr;
     if (topk_idx.has_value()) {
         recv_topk_idx = torch::empty({num_recv_tokens, num_topk}, topk_idx->options());
         recv_topk_weights = torch::empty({num_recv_tokens, num_topk}, topk_weights->options());
@@ -682,12 +704,25 @@ Buffer::intranode_dispatch(const torch::Tensor& x,
         recv_topk_weights_ptr = recv_topk_weights->data_ptr<float>();
     }
     if (x_scales.has_value()) {
-        recv_x_scales = x_scales->dim() == 1 ? torch::empty({num_recv_tokens}, x_scales->options())
-                                             : torch::empty({num_recv_tokens, num_scales}, x_scales->options());
-        recv_x_scales_ptr = static_cast<float*>(recv_x_scales->data_ptr());
+        if (use_mask_prmt) {
+            // SfAtom layout: output_scale [E, M, kb_dim] as uint8
+            int hidden_scale = static_cast<int>(x_scales->size(1)) / 4;
+            int kb_dim_val = hidden_scale * 4;
+            recv_x_scales = torch::empty({num_local_experts, max_tokens_per_expert, kb_dim_val},
+                                          dtype(torch::kByte).device(torch::kCUDA));
+        } else {
+            recv_x_scales = x_scales->dim() == 1 ? torch::empty({num_recv_tokens}, x_scales->options())
+                                                 : torch::empty({num_recv_tokens, num_scales}, x_scales->options());
+        }
+        recv_x_scales_ptr = recv_x_scales->data_ptr();
+    }
+    if (use_mask_prmt) {
+        permuted_indice_map_tensor = torch::full({num_recv_tokens, num_topk}, -1, dtype(torch::kInt32).device(torch::kCUDA));
+        token_nums_per_expert_tensor = torch::zeros({num_local_experts}, dtype(torch::kInt32).device(torch::kCUDA));
     }
 
     // Dispatch
+    int scale_elem_size = (quant_group_size == 32) ? sizeof(uint8_t) : sizeof(float);
     EP_HOST_ASSERT(
         num_ranks * num_ranks * sizeof(int) +                                                                     // Size prefix matrix
             num_channels * num_ranks * sizeof(int) +                                                              // Channel start offset
@@ -697,8 +732,15 @@ Buffer::intranode_dispatch(const torch::Tensor& x,
             num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * sizeof(int) +                     // Source index buffer
             num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * num_topk * sizeof(topk_idx_t) +   // Top-k index buffer
             num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * num_topk * sizeof(float) +        // Top-k weight buffer
-            num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * sizeof(float) * num_scales        // FP8 scale buffer
+            num_channels * num_ranks * config.num_max_nvl_chunked_recv_tokens * scale_elem_size * num_scales      // FP8 scale buffer
         <= num_nvl_bytes);
+    // Compute hidden_scale and kb_dim for mask_pmrt
+    int hidden_scale = 0, kb_dim = 0;
+    if (use_mask_prmt) {
+        hidden_scale = static_cast<int>(x_scales->size(1)) / 4;
+        kb_dim = hidden_scale * 4;
+    }
+
     intranode::dispatch(recv_x.data_ptr(),
                         recv_x_scales_ptr,
                         recv_src_idx.data_ptr<int>(),
@@ -726,7 +768,15 @@ Buffer::intranode_dispatch(const torch::Tensor& x,
                         comm_stream,
                         config.num_sms,
                         config.num_max_nvl_chunked_send_tokens,
-                        config.num_max_nvl_chunked_recv_tokens);
+                        config.num_max_nvl_chunked_recv_tokens,
+                        quant_group_size,
+                        use_mask_prmt,
+                        use_mask_prmt ? permuted_indice_map_tensor->data_ptr<int32_t>() : nullptr,
+                        use_mask_prmt ? token_nums_per_expert_tensor->data_ptr<int32_t>() : nullptr,
+                        max_tokens_per_expert,
+                        num_local_experts,
+                        hidden_scale,
+                        kb_dim);
 
     // Wait streams
     std::optional<EventHandle> event;
@@ -758,7 +808,9 @@ Buffer::intranode_dispatch(const torch::Tensor& x,
                          cached_rank_prefix_matrix,
                          recv_topk_idx,
                          recv_topk_weights,
-                         recv_x_scales}) {
+                         recv_x_scales,
+                         permuted_indice_map_tensor,
+                         token_nums_per_expert_tensor}) {
             to.has_value() ? to->record_stream(comm_stream) : void();
             if (allocate_on_comm_stream)
                 to.has_value() ? to->record_stream(compute_stream) : void();
@@ -783,6 +835,8 @@ Buffer::intranode_dispatch(const torch::Tensor& x,
             recv_channel_prefix_matrix,
             recv_src_idx,
             send_head,
+            permuted_indice_map_tensor,
+            token_nums_per_expert_tensor,
             event};
 }
 
@@ -822,7 +876,7 @@ std::tuple<torch::Tensor, std::optional<torch::Tensor>, std::optional<EventHandl
 
     // Allocate all tensors on comm stream if set
     // NOTES: do not allocate tensors upfront!
-    auto compute_stream = at::cuda::getStreamFromExternal(calc_ctx->stream(), device_id);
+    auto compute_stream = at::cuda::CUDAStream(calc_ctx->stream());
     if (allocate_on_comm_stream) {
         EP_HOST_ASSERT(previous_event.has_value() && async);
         deep_ep::SetAllocatorStreamForGPUContext(comm_stream, calc_ctx);
@@ -1064,7 +1118,7 @@ Buffer::internode_dispatch(const torch::Tensor& x,
 
     // Allocate all tensors on comm stream if set
     // NOTES: do not allocate tensors upfront!
-    auto compute_stream = at::cuda::getStreamFromExternal(calc_ctx->stream(), device_id);
+    auto compute_stream = at::cuda::CUDAStream(calc_ctx->stream());
     if (allocate_on_comm_stream) {
         EP_HOST_ASSERT(previous_event.has_value() && async);
         deep_ep::SetAllocatorStreamForGPUContext(comm_stream, calc_ctx);
@@ -1382,7 +1436,7 @@ std::tuple<torch::Tensor, std::optional<torch::Tensor>, std::optional<EventHandl
 
     // Allocate all tensors on comm stream if set
     // NOTES: do not allocate tensors upfront!
-    auto compute_stream = at::cuda::getStreamFromExternal(calc_ctx->stream(), device_id);
+    auto compute_stream = at::cuda::CUDAStream(calc_ctx->stream());
     if (allocate_on_comm_stream) {
         EP_HOST_ASSERT(previous_event.has_value() && async);
         deep_ep::SetAllocatorStreamForGPUContext(comm_stream, calc_ctx);
@@ -1567,14 +1621,15 @@ Buffer::low_latency_dispatch(const torch::Tensor& x,
                              bool round_scale,
                              bool use_ue8m0,
                              bool async,
-                             bool return_recv_hook) {
+                             bool return_recv_hook,
+                             int quant_group_size) {
 #ifndef DISABLE_NVSHMEM
     EP_HOST_ASSERT(low_latency_mode);
 
     // Tensor checks
     // By default using `ptp128c` FP8 cast
     EP_HOST_ASSERT(x.dim() == 2 and x.is_contiguous() and x.scalar_type() == torch::kBFloat16);
-    EP_HOST_ASSERT(x.size(1) % sizeof(int4) == 0 and x.size(1) % 128 == 0);
+    EP_HOST_ASSERT(x.size(1) % sizeof(int4) == 0 and x.size(1) % quant_group_size == 0);
     EP_HOST_ASSERT(topk_idx.dim() == 2 and topk_idx.is_contiguous());
     EP_HOST_ASSERT(x.size(0) == topk_idx.size(0) and x.size(0) <= num_max_dispatch_tokens_per_rank);
     EP_HOST_ASSERT(topk_idx.scalar_type() == c10::CppTypeToScalarType<topk_idx_t>::value);
@@ -1597,7 +1652,7 @@ Buffer::low_latency_dispatch(const torch::Tensor& x,
     auto num_local_experts = num_experts / num_ranks;
 
     // Buffer control
-    LowLatencyLayout layout(rdma_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts);
+    LowLatencyLayout layout(rdma_buffer_ptr, num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts, quant_group_size);
     EP_HOST_ASSERT(layout.total_bytes <= num_rdma_bytes);
     auto buffer = layout.buffers[low_latency_buffer_idx];
     auto next_buffer = layout.buffers[low_latency_buffer_idx ^= 1];
@@ -1625,16 +1680,28 @@ Buffer::low_latency_dispatch(const torch::Tensor& x,
 
     if (use_fp8) {
         // TODO: support unaligned cases
-        EP_HOST_ASSERT(hidden % 512 == 0);
-        if (not use_ue8m0) {
-            packed_recv_x_scales = torch::empty({num_local_experts, hidden / 128, num_ranks * num_max_dispatch_tokens_per_rank},
+        EP_HOST_ASSERT(hidden % quant_group_size == 0);
+        const auto num_scales = hidden / quant_group_size;
+        const auto mn_dim = num_ranks * num_max_dispatch_tokens_per_rank;
+
+        if (quant_group_size != 128 and use_ue8m0) {
+            // CUTLASS SfAtom layout: pad token dim to 128-tile boundary, store as flat uint8
+            EP_HOST_ASSERT(round_scale);
+            EP_HOST_ASSERT(num_scales % 4 == 0 and "CUTLASS SfAtom requires num_scales to be multiple of 4");
+            const auto padded_mn = ((mn_dim + 127) / 128) * 128;
+            packed_recv_x_scales = torch::empty({num_local_experts, padded_mn, num_scales},
+                                                torch::dtype(torch::kByte).device(torch::kCUDA));
+            // No transpose - kernel writes directly in CUTLASS SfAtom order
+        } else if (not use_ue8m0) {
+            packed_recv_x_scales = torch::empty({num_local_experts, num_scales, mn_dim},
                                                 torch::dtype(torch::kFloat32).device(torch::kCUDA));
+            packed_recv_x_scales = torch::transpose(packed_recv_x_scales.value(), 1, 2);
         } else {
             EP_HOST_ASSERT(round_scale);
-            packed_recv_x_scales = torch::empty({num_local_experts, hidden / 512, num_ranks * num_max_dispatch_tokens_per_rank},
+            packed_recv_x_scales = torch::empty({num_local_experts, num_scales / 4, mn_dim},
                                                 torch::dtype(torch::kInt).device(torch::kCUDA));
+            packed_recv_x_scales = torch::transpose(packed_recv_x_scales.value(), 1, 2);
         }
-        packed_recv_x_scales = torch::transpose(packed_recv_x_scales.value(), 1, 2);
         packed_recv_x_scales_ptr = packed_recv_x_scales->data_ptr();
     }
 
@@ -1667,6 +1734,7 @@ Buffer::low_latency_dispatch(const torch::Tensor& x,
             use_fp8,
             round_scale,
             use_ue8m0,
+            quant_group_size,
             workspace,
             num_device_sms,
             launch_stream.stream(),
@@ -1900,7 +1968,7 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
         .def("get_comm_stream",
            [](deep_ep::Buffer &self) {
              int device_id = self.get_local_device_id();
-                         cudaStream_t comm_stream = at::cuda::CUDAStream(self.get_comm_stream()).stream();
+             cudaStream_t comm_stream = self.get_comm_stream().stream();
              auto s = phi::Stream(reinterpret_cast<phi::StreamId>(comm_stream));
 #if defined(PADDLE_WITH_CUDA)
              return phi::CUDAStream(phi::GPUPlace(device_id), s);
diff --git a/csrc/deep_ep.hpp b/csrc/deep_ep.hpp
index 426ce042..5fd88c52 100644
--- a/csrc/deep_ep.hpp
+++ b/csrc/deep_ep.hpp
@@ -150,7 +150,7 @@ struct Buffer {
 
     torch::Tensor get_local_buffer_tensor(const pybind11::object& dtype, int64_t offset, bool use_rdma_buffer) const;
 
-    torch::Stream get_comm_stream() const {
+    at::cuda::CUDAStream get_comm_stream() const {
         return comm_stream;
     }
     
@@ -177,6 +177,8 @@ struct Buffer {
                torch::Tensor,
                torch::Tensor,
                torch::Tensor,
+               std::optional<torch::Tensor>,
+               std::optional<torch::Tensor>,
                std::optional<EventHandle>>
     intranode_dispatch(const torch::Tensor& x,
                        const std::optional<torch::Tensor>& x_scales,
@@ -194,7 +196,10 @@ struct Buffer {
                        std::optional<EventHandle>& previous_event,
                        bool async,
                        bool allocate_on_comm_stream,
-                       bool skip_x_record_stream = false);
+                       bool skip_x_record_stream = false,
+                       int quant_group_size = 128,
+                       bool use_mask_prmt = false,
+                       int max_tokens_per_expert = 0);
 
     std::tuple<torch::Tensor, std::optional<torch::Tensor>, std::optional<EventHandle>> intranode_combine(
         const torch::Tensor& x,
@@ -283,7 +288,8 @@ struct Buffer {
                          bool round_scale,
                          bool use_ue8m0,
                          bool async,
-                         bool return_recv_hook);
+                         bool return_recv_hook,
+                         int quant_group_size = 128);
 
     std::tuple<torch::Tensor, std::optional<EventHandle>, std::optional<std::function<void()>>> low_latency_combine(
         const torch::Tensor& x,
diff --git a/csrc/event.hpp b/csrc/event.hpp
index c4138e38..4cd7994b 100644
--- a/csrc/event.hpp
+++ b/csrc/event.hpp
@@ -12,32 +12,35 @@ struct EventHandle {
 
     EventHandle() {
         event = std::make_shared<torch::Event>(torch::kCUDA);
-        event->record(at::cuda::getCurrentCUDAStream());
+        event->record(at::cuda::getCurrentCUDAStream().stream());
     }
 
     explicit EventHandle(const at::cuda::CUDAStream& stream) {
         event = std::make_shared<torch::Event>(torch::kCUDA);
-        event->record(stream);
+        event->record(stream.stream());
     }
 
     EventHandle(const EventHandle& other) = default;
 
-    void current_stream_wait() const { at::cuda::getCurrentCUDAStream().unwrap().wait(*event); }
+    void current_stream_wait() const {
+        C10_CUDA_CHECK(cudaStreamWaitEvent(at::cuda::getCurrentCUDAStream().stream(), event->cuda_event()));
+    }
 };
 
 torch::Event create_event(const at::cuda::CUDAStream& s) {
     auto event = torch::Event(torch::kCUDA);
-    event.record(s);
+    event.record(s.stream());
     return event;
 }
 
 void stream_wait(const at::cuda::CUDAStream& s_0, const at::cuda::CUDAStream& s_1) {
     EP_HOST_ASSERT(s_0.id() != s_1.id());
-    s_0.unwrap().wait(create_event(s_1));
+    auto ev = create_event(s_1);
+    C10_CUDA_CHECK(cudaStreamWaitEvent(s_0.stream(), ev.cuda_event()));
 }
 
 void stream_wait(const at::cuda::CUDAStream& s, const EventHandle& event) {
-    s.unwrap().wait(*event.event);
+    C10_CUDA_CHECK(cudaStreamWaitEvent(s.stream(), event.event->cuda_event()));
 }
 
 }  // namespace deep_ep
diff --git a/csrc/kernels/api.cuh b/csrc/kernels/api.cuh
index 9bbe096a..439dfe9f 100644
--- a/csrc/kernels/api.cuh
+++ b/csrc/kernels/api.cuh
@@ -76,14 +76,14 @@ void cached_notify_dispatch(const int* rank_prefix_matrix,
                             cudaStream_t stream);
 
 void dispatch(void* recv_x,
-              float* recv_x_scales,
+              void* recv_x_scales,
               int* recv_src_idx,
               topk_idx_t* recv_topk_idx,
               float* recv_topk_weights,
               int* recv_channel_offset,
               int* send_head,
               const void* x,
-              const float* x_scales,
+              const void* x_scales,
               const topk_idx_t* topk_idx,
               const float* topk_weights,
               const bool* is_token_in_rank,
@@ -102,7 +102,15 @@ void dispatch(void* recv_x,
               cudaStream_t stream,
               int num_sms,
               int num_max_send_tokens,
-              int num_recv_buffer_tokens);
+              int num_recv_buffer_tokens,
+              int quant_group_size,
+              bool use_mask_prmt = false,
+              int32_t* permuted_indice_map = nullptr,
+              int32_t* token_nums_per_expert = nullptr,
+              int max_tokens_per_expert = 0,
+              int num_local_experts = 0,
+              int hidden_scale = 0,
+              int kb_dim = 0);
 
 void cached_notify_combine(void** buffer_ptrs,
                            int* send_head,
@@ -307,6 +315,7 @@ void dispatch(void* packed_recv_x,
               bool use_fp8,
               bool round_scale,
               bool use_ue8m0,
+              int quant_group_size,
               void* workspace,
               int num_device_sms,
               cudaStream_t stream,
diff --git a/csrc/kernels/internode_ll.cu b/csrc/kernels/internode_ll.cu
index e9fd473b..2f366a86 100644
--- a/csrc/kernels/internode_ll.cu
+++ b/csrc/kernels/internode_ll.cu
@@ -126,7 +126,7 @@ void clean_low_latency_buffer(int* clean_0,
                   sync_buffer_ptr);
 }
 
-template <bool kUseFP8, bool kUseUE8M0, int kHidden>
+template <bool kUseFP8, bool kUseUE8M0, int kHidden, int kQuantGroupSize = 128>
 __global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
                                                     void* packed_recv_x_scales,
                                                     int* packed_recv_src_info,
@@ -169,16 +169,20 @@ __global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
     using packed_t = std::conditional_t<kUseUE8M0, uint32_t, float>;
     EP_STATIC_ASSERT(sizeof(packed_t) % sizeof(scale_t) == 0, "Invalid vector length");
 
+    // CUTLASS SfAtom layout for small group sizes with UE8M0
+    constexpr bool kUseCutlassSfLayout = kUseFP8 && kUseUE8M0 && (kQuantGroupSize != 128);
+
     // FP8 staffs
-    constexpr int kNumPerChannels = 128;
-    const int num_scales = kHidden / kNumPerChannels;
+    const int num_scales = kHidden / kQuantGroupSize;
     const size_t hidden_bytes = kHidden * (kUseFP8 ? sizeof(__nv_fp8_storage_t) : sizeof(nv_bfloat16));
     const size_t hidden_int4 = hidden_bytes / sizeof(int4);
 
     // Message package: index at source (int), 3 reserved int fields, hidden data, FP8 scales
     // NOTES: currently we have 3 reserved int fields for future use
+    // For UE8M0 with non-128 group size, pack scales as uint8 to reduce RDMA transfer
     using vec_t = std::conditional_t<kUseFP8, int2, int4>;
-    const size_t num_bytes_per_msg = sizeof(int4) + (kUseFP8 ? (kHidden + num_scales * sizeof(float)) : (kHidden * sizeof(nv_bfloat16)));
+    constexpr size_t kScaleElemBytes = kUseCutlassSfLayout ? sizeof(uint8_t) : sizeof(float);
+    const size_t num_bytes_per_msg = sizeof(int4) + (kUseFP8 ? (kHidden + num_scales * kScaleElemBytes) : (kHidden * sizeof(nv_bfloat16)));
     const size_t num_int4_per_msg = num_bytes_per_msg / sizeof(int4);
     EP_DEVICE_ASSERT(num_bytes_per_msg % sizeof(int4) == 0);
 
@@ -196,7 +200,8 @@ __global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
     if (warp_id < num_warps - 1) {
         constexpr int kNumElemsPerRead = sizeof(int4) / sizeof(nv_bfloat16);
         EP_STATIC_ASSERT(kHidden % (32 * kNumElemsPerRead) == 0, "Invalid hidden");
-        EP_STATIC_ASSERT(kNumElemsPerRead * 32 % kNumPerChannels == 0, "Invalid vectorization");
+        EP_STATIC_ASSERT(kNumElemsPerRead * 32 % kQuantGroupSize == 0, "Invalid vectorization");
+        constexpr int kNumLanesPerGroup = kQuantGroupSize / kNumElemsPerRead;
         const auto num_threads = (num_warps - 1) * 32;
         const size_t hidden_bf16_int4 = kHidden / kNumElemsPerRead;
 
@@ -204,7 +209,7 @@ __global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
             const auto x_int4 = static_cast<const int4*>(x) + token_idx * hidden_bf16_int4;
             const auto rdma_x_src_idx = reinterpret_cast<int*>(static_cast<uint8_t*>(rdma_x) + token_idx * num_bytes_per_msg);
             const auto rdma_x_vec = reinterpret_cast<vec_t*>(reinterpret_cast<uint8_t*>(rdma_x_src_idx) + sizeof(int4));
-            const auto rdma_x_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(rdma_x_vec) + hidden_bytes);
+            const auto rdma_x_scales_area = reinterpret_cast<uint8_t*>(rdma_x_vec) + hidden_bytes;
 
             // Overlap top-k index read and source token index writes
             auto dst_expert_idx = warp_id < num_topk ? static_cast<int>(__ldg(topk_idx + token_idx * num_topk + warp_id)) : -1;
@@ -229,11 +234,17 @@ __global__ __launch_bounds__(1024, 1) void dispatch(void* packed_recv_x,
                     }
 
                     // Reduce amax and scale
-                    EP_STATIC_ASSERT(kNumElemsPerRead * 32 / kNumPerChannels == 2, "Invalid vectorization");
-                    amax = warp_reduce_max<16>(amax);
+                    amax = warp_reduce_max<kNumLanesPerGroup>(amax);
                     calculate_fp8_scales(amax, scale, scale_inv, round_scale);
-                    if (lane_id == 0 or lane_id == 16)
-                        rdma_x_scales[i * kNumElemsPerRead / 128] = scale_inv;
+                    if (lane_id % kNumLanesPerGroup == 0) {
+                        const auto scale_idx = i * kNumElemsPerRead / kQuantGroupSize;
+                        if constexpr (kUseCutlassSfLayout) {
+                            // Pack as uint8 in RDMA message to reduce transfer size
+                            rdma_x_scales_area[scale_idx] = extract_required_scale_format<true>(scale_inv);
+                        } else {
+                            reinterpret_cast<float*>(rdma_x_scales_area)[scale_idx] = scale_inv;
+                        }
+                    }
 
                     // Cast into send buffer
                     vec_t int2_value;
@@ -371,8 +382,13 @@ LOW_LATENCY_DISPATCH_RECV:
         const auto recv_src_info = packed_recv_src_info + local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank;
         const auto recv_range = packed_recv_layout_range + local_expert_idx * num_ranks;
         const auto num_aligned_scales = align_up<int>(num_scales, sizeof(float) / sizeof(scale_t));
+        // For CUTLASS SfAtom layout (kQuantGroupSize != 128 with UE8M0), pad token dim to 128
+        constexpr bool kUseCutlassSfLayout = (kQuantGroupSize != 128) && kUseUE8M0;
+        const auto scale_mn_dim = kUseCutlassSfLayout ?
+            ((num_ranks * num_max_dispatch_tokens_per_rank + 127) & ~127) :
+            num_ranks * num_max_dispatch_tokens_per_rank;
         const auto recv_x_scales = static_cast<scale_t*>(packed_recv_x_scales) +
-            local_expert_idx * num_ranks * num_max_dispatch_tokens_per_rank * num_aligned_scales;
+            local_expert_idx * scale_mn_dim * num_aligned_scales;
 
         // Shared between sub-warps in warp groups
         __shared__ int shared_num_recv_tokens[kNumMaxWarpGroups], shared_recv_token_begin_idx[kNumMaxWarpGroups];
@@ -422,7 +438,6 @@ LOW_LATENCY_DISPATCH_RECV:
         recv_token_begin_idx = shared_recv_token_begin_idx[warp_group_id];
 
         // Copy tokens
-        EP_DEVICE_ASSERT(num_scales <= 64);
         for (int i = sub_warp_id; i < num_recv_tokens; i += num_warps_per_group) {
             // Copy source info
             const auto src_src_idx = reinterpret_cast<int*>(rdma_recv_x_uint8 + i * num_bytes_per_msg);
@@ -438,24 +453,41 @@ LOW_LATENCY_DISPATCH_RECV:
 
             // Copy scales
             if constexpr (kUseFP8) {
-                // Equivalent CuTe layout:
-                //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
-                const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + hidden_bytes);
-                const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
                 const auto token_idx = recv_token_begin_idx + i;
-                const auto token_stride = num_elems_per_pack;
-                const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
-                if (lane_id < num_scales) {
-                    const auto pack_idx = lane_id / num_elems_per_pack;
-                    const auto elem_idx = lane_id % num_elems_per_pack;
-                    auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id));
-                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
-                }
-                if (lane_id + 32 < num_scales) {
-                    const auto pack_idx = (lane_id + 32) / num_elems_per_pack;
-                    const auto elem_idx = (lane_id + 32) % num_elems_per_pack;
-                    auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + lane_id + 32));
-                    recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+
+                if constexpr (kUseCutlassSfLayout) {
+                    // CUTLASS SfAtom interleaved layout with packed uint8 scales in message
+                    //   Atom shape: ((32, 4), (SFVecSize, 4)), stride: ((16, 4), (0, 1))
+                    //   Physical atom size: 128 MN x 4 K = 512 bytes
+                    const auto src_scales_u8 = reinterpret_cast<uint8_t*>(src_data) + hidden_bytes;
+                    const auto kb_dim = num_aligned_scales;
+                    const auto num_k_tiles = kb_dim / 4;
+                    const int n_tile = token_idx / 128;
+                    const int n_local = token_idx % 128;
+                    const int mn_i = n_local % 32;
+                    const int mn_j = n_local / 32;
+                    const int base_offset = n_tile * num_k_tiles * 512 + mn_i * 16 + mn_j * 4;
+                    // Vectorized: each lane handles one k_tile (4 uint8 scales)
+                    // Read 4 consecutive uint8 as uint32 from packed message, write 4 bytes at once
+                    #pragma unroll 1
+                    for (int k = lane_id; k < num_k_tiles; k += 32) {
+                        uint32_t packed = ld_nc_global(reinterpret_cast<const int*>(src_scales_u8 + k * 4));
+                        *reinterpret_cast<uint32_t*>(recv_x_scales + base_offset + k * 512) = packed;
+                    }
+                } else {
+                    // Original CuTe interleaved layout with float scales in message
+                    //   (num_tokens, (num_packed, num_elems_per_pack)):(num_elems_per_pack, (num_tokens * num_elems_per_pack, 1))
+                    const auto src_scales = reinterpret_cast<float*>(reinterpret_cast<uint8_t*>(src_data) + hidden_bytes);
+                    const auto num_elems_per_pack = static_cast<int>(sizeof(packed_t) / sizeof(scale_t));
+                    const auto token_stride = num_elems_per_pack;
+                    const auto pack_stride = num_ranks * num_max_dispatch_tokens_per_rank * num_elems_per_pack;
+                    #pragma unroll 1
+                    for (int s = lane_id; s < num_scales; s += 32) {
+                        const auto pack_idx = s / num_elems_per_pack;
+                        const auto elem_idx = s % num_elems_per_pack;
+                        auto scale = extract_required_scale_format<kUseUE8M0>(ld_nc_global(src_scales + s));
+                        recv_x_scales[token_idx * token_stride + pack_idx * pack_stride + elem_idx] = scale;
+                    }
                 }
             }
         }
@@ -487,6 +519,7 @@ void dispatch(void* packed_recv_x,
               bool use_fp8,
               bool round_scale,
               bool use_ue8m0,
+              int quant_group_size,
               void* workspace,
               int num_device_sms,
               cudaStream_t stream,
@@ -509,44 +542,53 @@ void dispatch(void* packed_recv_x,
     // FP8 checks
     if (use_ue8m0)
         EP_HOST_ASSERT(round_scale and "UE8M0 SF requires `round_scale=True`");
-
-#define DISPATCH_LAUNCH_CASE(hidden)                         \
-    {                                                        \
-        auto dispatch_func = dispatch<false, false, hidden>; \
-        if (use_fp8 and not use_ue8m0)                       \
-            dispatch_func = dispatch<true, false, hidden>;   \
-        if (use_fp8 and use_ue8m0)                           \
-            dispatch_func = dispatch<true, true, hidden>;    \
-        LAUNCH_KERNEL(&cfg,                                  \
-                      dispatch_func,                         \
-                      packed_recv_x,                         \
-                      packed_recv_x_scales,                  \
-                      packed_recv_src_info,                  \
-                      packed_recv_layout_range,              \
-                      packed_recv_count,                     \
-                      mask_buffer_ptr,                       \
-                      cumulative_local_expert_recv_stats,    \
-                      dispatch_wait_recv_cost_stats,         \
-                      rdma_recv_x,                           \
-                      rdma_recv_count,                       \
-                      rdma_x,                                \
-                      x,                                     \
-                      topk_idx,                              \
-                      atomic_counter_per_expert,             \
-                      atomic_finish_counter_per_expert,      \
-                      next_clean,                            \
-                      num_next_clean_int,                    \
-                      num_tokens,                            \
-                      num_max_dispatch_tokens_per_rank,      \
-                      num_topk,                              \
-                      num_experts,                           \
-                      rank,                                  \
-                      num_ranks,                             \
-                      num_warp_groups,                       \
-                      num_warps_per_group,                   \
-                      round_scale,                           \
-                      phases);                               \
-    }                                                        \
+    if (use_fp8)
+        EP_HOST_ASSERT((quant_group_size == 128 or quant_group_size == 32 or quant_group_size == 16) and
+                       "quant_group_size must be 128, 32, or 16");
+
+#define DISPATCH_LAUNCH_CASE(hidden)                                                              \
+    {                                                                                             \
+        auto dispatch_func = dispatch<false, false, hidden, 128>;                                 \
+        if (use_fp8 and not use_ue8m0) {                                                          \
+            if (quant_group_size == 128) dispatch_func = dispatch<true, false, hidden, 128>;\
+            if (quant_group_size == 32)  dispatch_func = dispatch<true, false, hidden, 32>; \
+            if (quant_group_size == 16)  dispatch_func = dispatch<true, false, hidden, 16>; \
+        }                                                                                         \
+        if (use_fp8 and use_ue8m0) {                                                              \
+            if (quant_group_size == 128) dispatch_func = dispatch<true, true, hidden, 128>; \
+            if (quant_group_size == 32)  dispatch_func = dispatch<true, true, hidden, 32>;  \
+            if (quant_group_size == 16)  dispatch_func = dispatch<true, true, hidden, 16>;  \
+        }                                                                                         \
+        LAUNCH_KERNEL(&cfg,                                                                       \
+                      dispatch_func,                                                              \
+                      packed_recv_x,                                                              \
+                      packed_recv_x_scales,                                                       \
+                      packed_recv_src_info,                                                       \
+                      packed_recv_layout_range,                                                   \
+                      packed_recv_count,                                                          \
+                      mask_buffer_ptr,                                                            \
+                      cumulative_local_expert_recv_stats,                                         \
+                      dispatch_wait_recv_cost_stats,                                              \
+                      rdma_recv_x,                                                                \
+                      rdma_recv_count,                                                            \
+                      rdma_x,                                                                     \
+                      x,                                                                          \
+                      topk_idx,                                                                   \
+                      atomic_counter_per_expert,                                                  \
+                      atomic_finish_counter_per_expert,                                           \
+                      next_clean,                                                                 \
+                      num_next_clean_int,                                                         \
+                      num_tokens,                                                                 \
+                      num_max_dispatch_tokens_per_rank,                                           \
+                      num_topk,                                                                   \
+                      num_experts,                                                                \
+                      rank,                                                                       \
+                      num_ranks,                                                                  \
+                      num_warp_groups,                                                            \
+                      num_warps_per_group,                                                        \
+                      round_scale,                                                                \
+                      phases);                                                                    \
+    }                                                                                             \
     break
 
     SETUP_LAUNCH_CONFIG(num_sms, num_warps * 32, stream);
diff --git a/csrc/kernels/intranode.cu b/csrc/kernels/intranode.cu
index 44b0cef0..02e0a1b9 100644
--- a/csrc/kernels/intranode.cu
+++ b/csrc/kernels/intranode.cu
@@ -8,6 +8,13 @@ namespace deep_ep {
 
 namespace intranode {
 
+// Scale type selection based on quantization group size
+template <int kQuantGroupSize> struct ScaleType;
+template <> struct ScaleType<128> { using type = float; };
+template <> struct ScaleType<32> { using type = uint8_t; };
+template <int kQuantGroupSize>
+using scale_t = typename ScaleType<kQuantGroupSize>::type;
+
 template <int kNumRanks>
 __global__ void notify_dispatch(const int* num_tokens_per_rank,
                                 int* moe_recv_counter_mapped,
@@ -194,16 +201,16 @@ void cached_notify_dispatch(const int* rank_prefix_matrix,
 #undef CACHED_NOTIFY_DISPATCH_LAUNCH_CASE
 }
 
-template <int kNumRanks, int kNumThreads, int kNumTMABytesPerWarp>
+template <int kNumRanks, int kNumThreads, int kNumTMABytesPerWarp, int kQuantGroupSize = 128, bool kUseMaskPmrt = false>
 __global__ void __launch_bounds__(kNumThreads, 1) dispatch(int4* recv_x,
-                                                           float* recv_x_scales,
+                                                           scale_t<kQuantGroupSize>* recv_x_scales,
                                                            int* recv_src_idx,
                                                            topk_idx_t* recv_topk_idx,
                                                            float* recv_topk_weights,
                                                            int* recv_channel_offset,
                                                            int* send_head,
                                                            const int4* x,
-                                                           const float* x_scales,
+                                                           const scale_t<kQuantGroupSize>* x_scales,
                                                            const topk_idx_t* topk_idx,
                                                            const float* topk_weights,
                                                            const bool* is_token_in_rank,
@@ -219,11 +226,26 @@ __global__ void __launch_bounds__(kNumThreads, 1) dispatch(int4* recv_x,
                                                            void** buffer_ptrs,
                                                            int rank,
                                                            int num_max_send_tokens,
-                                                           int num_recv_buffer_tokens) {
+                                                           int num_recv_buffer_tokens,
+                                                           int32_t* permuted_indice_map = nullptr,
+                                                           int32_t* token_nums_per_expert = nullptr,
+                                                           int max_tokens_per_expert = 0,
+                                                           int num_local_experts = 0,
+                                                           int hidden_scale = 0,
+                                                           int kb_dim = 0) {
     const auto num_sms = static_cast<int>(gridDim.x), sm_id = static_cast<int>(blockIdx.x);
     const auto thread_id = static_cast<int>(threadIdx.x), lane_id = get_lane_id();
     const bool is_sender = sm_id % 2 == 0;
     EP_DEVICE_ASSERT(num_sms % 2 == 0);
+    if constexpr (kUseMaskPmrt) {
+        EP_DEVICE_ASSERT(kQuantGroupSize == 32);
+        EP_DEVICE_ASSERT(permuted_indice_map != nullptr);
+        EP_DEVICE_ASSERT(token_nums_per_expert != nullptr);
+        EP_DEVICE_ASSERT(max_tokens_per_expert > 0);
+        EP_DEVICE_ASSERT(num_local_experts > 0);
+        EP_DEVICE_ASSERT(hidden_scale > 0);
+        EP_DEVICE_ASSERT(kb_dim > 0);
+    }
 
     // Several warps are response for a single rank
     const auto num_threads_per_rank = kNumThreads / kNumRanks;
@@ -264,7 +286,7 @@ __global__ void __launch_bounds__(kNumThreads, 1) dispatch(int4* recv_x,
     // `src_idx_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * sizeof(int)
     // `topk_idx_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * num_topk * sizeof(topk_idx_t)
     // `topk_weights_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * num_topk * sizeof(float)
-    // `x_scales_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * num_scales * sizeof(float)
+    // `x_scales_buffers`: kNumChannels * kNumRanks * num_recv_buffer_tokens * num_scales * sizeof(scale_t<kQuantGroupSize>)
     auto channel_x_buffers = Buffer<int4>(
         ptr, num_channels_total * num_recv_buffer_tokens * hidden_int4, channel_rank_offset * num_recv_buffer_tokens * hidden_int4);
     auto channel_src_idx_buffers =
@@ -273,7 +295,7 @@ __global__ void __launch_bounds__(kNumThreads, 1) dispatch(int4* recv_x,
         ptr, num_channels_total * num_recv_buffer_tokens * num_topk, channel_rank_offset * num_recv_buffer_tokens * num_topk);
     auto channel_topk_weights_buffers =
         Buffer<float>(ptr, num_channels_total * num_recv_buffer_tokens * num_topk, channel_rank_offset * num_recv_buffer_tokens * num_topk);
-    auto channel_x_scales_buffers = Buffer<float>(
+    auto channel_x_scales_buffers = Buffer<scale_t<kQuantGroupSize>>(
         ptr, num_channels_total * num_recv_buffer_tokens * num_scales, channel_rank_offset * num_recv_buffer_tokens * num_scales);
 
     // TMA stuffs
@@ -458,25 +480,28 @@ __global__ void __launch_bounds__(kNumThreads, 1) dispatch(int4* recv_x,
 
             // Copy data
             int num_recv_tokens = cached_channel_tail_idx - cached_channel_head_idx;
-            for (int chunk_idx = recv_warp_id_in_rank; chunk_idx < num_recv_tokens; chunk_idx += num_recv_warps_per_rank) {
-                int token_idx_in_buffer = (cached_channel_head_idx + chunk_idx) % num_recv_buffer_tokens;
-                auto shifted_buffer_x_int4 = channel_x_buffers.buffer() + token_idx_in_buffer * hidden_int4;
-                auto shifted_recv_x_int4 = recv_x + static_cast<int64_t>(total_offset + chunk_idx) * hidden_int4;
+            if constexpr (!kUseMaskPmrt) {
+                // Normal path: copy x data to flat [num_recv_tokens, hidden] layout
+                for (int chunk_idx = recv_warp_id_in_rank; chunk_idx < num_recv_tokens; chunk_idx += num_recv_warps_per_rank) {
+                    int token_idx_in_buffer = (cached_channel_head_idx + chunk_idx) % num_recv_buffer_tokens;
+                    auto shifted_buffer_x_int4 = channel_x_buffers.buffer() + token_idx_in_buffer * hidden_int4;
+                    auto shifted_recv_x_int4 = recv_x + static_cast<int64_t>(total_offset + chunk_idx) * hidden_int4;
 #ifndef DISABLE_SM90_FEATURES
-                #pragma unroll
-                for (int i = 0; i < 2; ++i) {
-                    tma_store_wait<0>();
-                    if (elect_one_sync()) {
-                        tma_load_1d(tma_buffer, shifted_buffer_x_int4 + i * half_hidden_int4, tma_mbarrier, half_hidden_bytes);
-                        mbarrier_arrive_and_expect_tx(tma_mbarrier, half_hidden_bytes);
-                        mbarrier_wait(tma_mbarrier, tma_phase);
-                        tma_store_1d(tma_buffer, shifted_recv_x_int4 + i * half_hidden_int4, half_hidden_bytes, false);
+                    #pragma unroll
+                    for (int i = 0; i < 2; ++i) {
+                        tma_store_wait<0>();
+                        if (elect_one_sync()) {
+                            tma_load_1d(tma_buffer, shifted_buffer_x_int4 + i * half_hidden_int4, tma_mbarrier, half_hidden_bytes);
+                            mbarrier_arrive_and_expect_tx(tma_mbarrier, half_hidden_bytes);
+                            mbarrier_wait(tma_mbarrier, tma_phase);
+                            tma_store_1d(tma_buffer, shifted_recv_x_int4 + i * half_hidden_int4, half_hidden_bytes, false);
+                        }
                     }
-                }
-                __syncwarp();
+                    __syncwarp();
 #else
-                UNROLLED_WARP_COPY(5, lane_id, hidden_int4, shifted_recv_x_int4, shifted_buffer_x_int4, ld_nc_global, st_na_global);
+                    UNROLLED_WARP_COPY(5, lane_id, hidden_int4, shifted_recv_x_int4, shifted_buffer_x_int4, ld_nc_global, st_na_global);
 #endif
+                }
             }
 
             // Copy `src_idx`
@@ -487,23 +512,94 @@ __global__ void __launch_bounds__(kNumThreads, 1) dispatch(int4* recv_x,
                     ld_nc_global(channel_src_idx_buffers.buffer() + chunk_idx % num_recv_buffer_tokens);
 
             // Copy `topk_idx` and `topk_weights`
-            #pragma unroll 4
-            for (int idx = recv_thread_id_in_rank; idx < num_recv_tokens * num_topk; idx += 32 * num_recv_warps_per_rank) {
-                int chunk_idx = idx / num_topk, token_topk_idx = idx % num_topk;
-                int token_idx_in_buffer = (cached_channel_head_idx + chunk_idx) % num_recv_buffer_tokens;
-                auto recv_idx = static_cast<int64_t>(total_offset + chunk_idx) * num_topk + token_topk_idx;
-                auto buffer_idx = token_idx_in_buffer * num_topk + token_topk_idx;
-                recv_topk_idx[recv_idx] = ld_nc_global(channel_topk_idx_buffers.buffer() + buffer_idx);
-                recv_topk_weights[recv_idx] = ld_nc_global(channel_topk_weights_buffers.buffer() + buffer_idx);
+            if constexpr (kUseMaskPmrt) {
+                // Fused permute path: consume topk_idx to determine expert,
+                // allocate slot via atomicAdd, write permuted_indice_map,
+                // copy x to [E, M, hidden] layout, write scales to SfAtom layout
+                //
+                // Each warp processes one token at a time. Lane i reads topk_idx[k=i],
+                // performs atomicAdd, and writes permuted_indice_map. Then we iterate
+                // over k slots, broadcasting via shfl for warp-cooperative x copy.
+                for (int chunk_idx = recv_warp_id_in_rank; chunk_idx < num_recv_tokens; chunk_idx += num_recv_warps_per_rank) {
+                    int token_idx_in_buffer = (cached_channel_head_idx + chunk_idx) % num_recv_buffer_tokens;
+                    auto recv_token_idx = total_offset + chunk_idx;
+
+                    // Step 1: Each lane reads its own topk_idx[k] entry (lane_id < num_topk)
+                    int32_t my_expert_idx = -1, my_flat_idx = -1, my_slot = -1;
+                    if (lane_id < num_topk) {
+                        auto buffer_idx = token_idx_in_buffer * num_topk + lane_id;
+                        auto idx_value = ld_nc_global(channel_topk_idx_buffers.buffer() + buffer_idx);
+                        my_expert_idx = idx_value;
+
+                        if (idx_value >= 0) {
+                            my_slot = atomicAdd(&token_nums_per_expert[idx_value], 1);
+                            my_flat_idx = idx_value * max_tokens_per_expert + my_slot;
+                        }
+                        permuted_indice_map[recv_token_idx * num_topk + lane_id] = my_flat_idx;
+
+                        // Copy topk_weights
+                        recv_topk_weights[recv_token_idx * num_topk + lane_id] =
+                            ld_nc_global(channel_topk_weights_buffers.buffer() + buffer_idx);
+                    }
+
+                    // Step 2: Copy x data for each valid k slot
+                    // For each k, broadcast expert_idx and flat_idx via shfl so all threads agree.
+                    auto src_x = channel_x_buffers.buffer() + token_idx_in_buffer * hidden_int4;
+                    auto src_scale_base = channel_x_scales_buffers.buffer() + token_idx_in_buffer * num_scales;
+                    auto output_scale = reinterpret_cast<uint8_t*>(recv_x_scales);
+
+                    for (int k = 0; k < num_topk; k++) {
+                        // Broadcast from the lane that read this k slot
+                        int32_t k_expert_idx = __shfl_sync(0xffffffff, my_expert_idx, k);
+                        int32_t k_flat_idx = __shfl_sync(0xffffffff, my_flat_idx, k);
+                        int32_t k_slot = __shfl_sync(0xffffffff, my_slot, k);
+
+                        if (k_expert_idx >= 0) {
+                            // Warp-cooperative x data copy
+                            auto dst_x = recv_x + static_cast<int64_t>(k_flat_idx) * hidden_int4;
+                            UNROLLED_WARP_COPY(5, lane_id, hidden_int4, dst_x, src_x, ld_nc_global, st_na_global);
+
+                            // Write scales to SfAtom layout
+                            int n_tile = k_slot / 128;
+                            int pos = k_slot % 128;
+                            int64_t scale_e_off = static_cast<int64_t>(k_expert_idx) * max_tokens_per_expert * kb_dim;
+                            int64_t tile_base = static_cast<int64_t>(n_tile) * hidden_scale * 512;
+                            int lane_s = 4 * (pos % 32) + pos / 32;
+
+                            for (int s = lane_id / 4; s < hidden_scale; s += 32 / 4) {
+                                int b = lane_id % 4;
+                                int rem = s * 4 + b;
+                                uint32_t expanded = reinterpret_cast<const uint32_t*>(src_scale_base)[rem];
+                                int64_t s_offset = static_cast<int64_t>(s) << 11;
+                                int64_t block_base = scale_e_off + tile_base + s_offset;
+                                auto addr = reinterpret_cast<uint32_t*>(output_scale + block_base) + b * 128 + lane_s;
+                                asm volatile("st.global.cg.b32 [%0], %1;" :: "l"(addr), "r"(expanded));
+                            }
+                        }
+                    }
+                }
+            } else {
+                // Normal path: copy topk_idx and topk_weights
+                #pragma unroll 4
+                for (int idx = recv_thread_id_in_rank; idx < num_recv_tokens * num_topk; idx += 32 * num_recv_warps_per_rank) {
+                    int chunk_idx = idx / num_topk, token_topk_idx = idx % num_topk;
+                    int token_idx_in_buffer = (cached_channel_head_idx + chunk_idx) % num_recv_buffer_tokens;
+                    auto recv_idx = static_cast<int64_t>(total_offset + chunk_idx) * num_topk + token_topk_idx;
+                    auto buffer_idx = token_idx_in_buffer * num_topk + token_topk_idx;
+                    recv_topk_idx[recv_idx] = ld_nc_global(channel_topk_idx_buffers.buffer() + buffer_idx);
+                    recv_topk_weights[recv_idx] = ld_nc_global(channel_topk_weights_buffers.buffer() + buffer_idx);
+                }
             }
 
             // Copy `x_scales`
-            #pragma unroll 4
-            for (int i = recv_thread_id_in_rank; i < num_recv_tokens * num_scales; i += 32 * num_recv_warps_per_rank) {
-                int chunk_idx = i / num_scales, scales_idx = i % num_scales;
-                int token_idx_in_buffer = (cached_channel_head_idx + chunk_idx) % num_recv_buffer_tokens;
-                recv_x_scales[static_cast<int64_t>(total_offset + chunk_idx) * num_scales + scales_idx] =
-                    ld_nc_global(channel_x_scales_buffers.buffer() + token_idx_in_buffer * num_scales + scales_idx);
+            if constexpr (!kUseMaskPmrt) {
+                #pragma unroll 4
+                for (int i = recv_thread_id_in_rank; i < num_recv_tokens * num_scales; i += 32 * num_recv_warps_per_rank) {
+                    int chunk_idx = i / num_scales, scales_idx = i % num_scales;
+                    int token_idx_in_buffer = (cached_channel_head_idx + chunk_idx) % num_recv_buffer_tokens;
+                    recv_x_scales[static_cast<int64_t>(total_offset + chunk_idx) * num_scales + scales_idx] =
+                        ld_nc_global(channel_x_scales_buffers.buffer() + token_idx_in_buffer * num_scales + scales_idx);
+                }
             }
 
             // Move queue
@@ -518,7 +614,7 @@ __global__ void __launch_bounds__(kNumThreads, 1) dispatch(int4* recv_x,
         }
     }
 
-    // Clean unused `recv_topk_idx` as -1
+    // Clean unused entries as -1
     if (num_worst_tokens > 0) {
         auto rank_prefix_matrix = static_cast<int*>(buffer_ptrs[rank]);
         const auto num_recv_tokens = rank_prefix_matrix[(kNumRanks - 1) * kNumRanks + rank];
@@ -526,20 +622,24 @@ __global__ void __launch_bounds__(kNumThreads, 1) dispatch(int4* recv_x,
         const auto clean_end = num_worst_tokens * num_topk;
         const auto clean_stride = num_sms * kNumThreads;
         #pragma unroll
-        for (int i = clean_start + thread_id; i < clean_end; i += clean_stride)
-            recv_topk_idx[i] = -1;
+        for (int i = clean_start + thread_id; i < clean_end; i += clean_stride) {
+            if constexpr (kUseMaskPmrt)
+                permuted_indice_map[i] = -1;
+            else
+                recv_topk_idx[i] = -1;
+        }
     }
 }
 
 void dispatch(void* recv_x,
-              float* recv_x_scales,
+              void* recv_x_scales,
               int* recv_src_idx,
               topk_idx_t* recv_topk_idx,
               float* recv_topk_weights,
               int* recv_channel_offset,
               int* send_head,
               const void* x,
-              const float* x_scales,
+              const void* x_scales,
               const topk_idx_t* topk_idx,
               const float* topk_weights,
               const bool* is_token_in_rank,
@@ -558,7 +658,15 @@ void dispatch(void* recv_x,
               cudaStream_t stream,
               int num_sms,
               int num_max_send_tokens,
-              int num_recv_buffer_tokens) {
+              int num_recv_buffer_tokens,
+              int quant_group_size,
+              bool use_mask_prmt,
+              int32_t* permuted_indice_map,
+              int32_t* token_nums_per_expert,
+              int max_tokens_per_expert,
+              int num_local_experts,
+              int hidden_scale,
+              int kb_dim) {
     constexpr int kNumThreads = 768;
     constexpr int kNumTMABytesPerWarp = 8192;
 #ifndef DISABLE_SM90_FEATURES
@@ -567,46 +675,78 @@ void dispatch(void* recv_x,
 
     // Make sure never OOB
     EP_HOST_ASSERT(static_cast<int64_t>(num_scales) * scale_hidden_stride < std::numeric_limits<int>::max());
+    if (use_mask_prmt) {
+        EP_HOST_ASSERT(quant_group_size == 32);
+        EP_HOST_ASSERT(permuted_indice_map != nullptr);
+        EP_HOST_ASSERT(token_nums_per_expert != nullptr);
+        EP_HOST_ASSERT(max_tokens_per_expert > 0);
+        EP_HOST_ASSERT(num_local_experts > 0);
+        EP_HOST_ASSERT(hidden_scale > 0);
+        EP_HOST_ASSERT(kb_dim > 0);
+    }
 
-#define DISPATCH_LAUNCH_CASE(ranks)                                      \
-    {                                                                    \
-        auto kernel = dispatch<ranks, kNumThreads, kNumTMABytesPerWarp>; \
-        SET_SHARED_MEMORY_FOR_TMA(kernel);                               \
-        LAUNCH_KERNEL(&cfg,                                              \
-                      kernel,                                            \
-                      reinterpret_cast<int4*>(recv_x),                   \
-                      recv_x_scales,                                     \
-                      recv_src_idx,                                      \
-                      recv_topk_idx,                                     \
-                      recv_topk_weights,                                 \
-                      recv_channel_offset,                               \
-                      send_head,                                         \
-                      reinterpret_cast<const int4*>(x),                  \
-                      x_scales,                                          \
-                      topk_idx,                                          \
-                      topk_weights,                                      \
-                      is_token_in_rank,                                  \
-                      channel_prefix_matrix,                             \
-                      num_tokens,                                        \
-                      num_worst_tokens,                                  \
-                      hidden_int4,                                       \
-                      num_topk,                                          \
-                      num_experts,                                       \
-                      num_scales,                                        \
-                      scale_token_stride,                                \
-                      scale_hidden_stride,                               \
-                      buffer_ptrs,                                       \
-                      rank,                                              \
-                      num_max_send_tokens,                               \
-                      num_recv_buffer_tokens);                           \
-    }                                                                    \
+#define DISPATCH_LAUNCH_CASE(group_size, use_pmrt, ranks)                                        \
+    {                                                                                            \
+        auto kernel = dispatch<ranks, kNumThreads, kNumTMABytesPerWarp, group_size, use_pmrt>;   \
+        SET_SHARED_MEMORY_FOR_TMA(kernel);                                                       \
+        LAUNCH_KERNEL(&cfg,                                                                      \
+                      kernel,                                                                    \
+                      reinterpret_cast<int4*>(recv_x),                                           \
+                      reinterpret_cast<scale_t<group_size>*>(recv_x_scales),                     \
+                      recv_src_idx,                                                              \
+                      recv_topk_idx,                                                             \
+                      recv_topk_weights,                                                         \
+                      recv_channel_offset,                                                       \
+                      send_head,                                                                 \
+                      reinterpret_cast<const int4*>(x),                                          \
+                      reinterpret_cast<const scale_t<group_size>*>(x_scales),                    \
+                      topk_idx,                                                                  \
+                      topk_weights,                                                              \
+                      is_token_in_rank,                                                          \
+                      channel_prefix_matrix,                                                     \
+                      num_tokens,                                                                \
+                      num_worst_tokens,                                                          \
+                      hidden_int4,                                                               \
+                      num_topk,                                                                  \
+                      num_experts,                                                               \
+                      num_scales,                                                                \
+                      scale_token_stride,                                                        \
+                      scale_hidden_stride,                                                       \
+                      buffer_ptrs,                                                               \
+                      rank,                                                                      \
+                      num_max_send_tokens,                                                       \
+                      num_recv_buffer_tokens,                                                    \
+                      permuted_indice_map,                                                       \
+                      token_nums_per_expert,                                                     \
+                      max_tokens_per_expert,                                                     \
+                      num_local_experts,                                                         \
+                      hidden_scale,                                                              \
+                      kb_dim);                                                                   \
+    }                                                                                            \
     break
 
+#define DISPATCH_LAUNCH_CASE_128(ranks) DISPATCH_LAUNCH_CASE(128, false, ranks)
+#define DISPATCH_LAUNCH_CASE_32(ranks)  DISPATCH_LAUNCH_CASE(32, false, ranks)
+#define DISPATCH_LAUNCH_CASE_32_PMRT(ranks) DISPATCH_LAUNCH_CASE(32, true, ranks)
+
     // Even-numbered blocks for sending, odd-numbered blocks for receiving.
     EP_HOST_ASSERT(num_sms % 2 == 0);
     SETUP_LAUNCH_CONFIG(num_sms, kNumThreads, stream);
-    SWITCH_RANKS(DISPATCH_LAUNCH_CASE);
+
+    if (use_mask_prmt) {
+        SWITCH_RANKS(DISPATCH_LAUNCH_CASE_32_PMRT);
+    } else if (quant_group_size == 128) {
+        SWITCH_RANKS(DISPATCH_LAUNCH_CASE_128);
+    } else if (quant_group_size == 32) {
+        SWITCH_RANKS(DISPATCH_LAUNCH_CASE_32);
+    } else {
+        EP_HOST_ASSERT(false and "Unsupported quant_group_size for intranode dispatch");
+    }
+
 #undef DISPATCH_LAUNCH_CASE
+#undef DISPATCH_LAUNCH_CASE_128
+#undef DISPATCH_LAUNCH_CASE_32
+#undef DISPATCH_LAUNCH_CASE_32_PMRT
 }
 
 template <int kNumRanks>
diff --git a/deep_ep/buffer.py b/deep_ep/buffer.py
index aaa958e5..fa0824a7 100644
--- a/deep_ep/buffer.py
+++ b/deep_ep/buffer.py
@@ -176,7 +176,7 @@ def capture() -> EventOverlap:
         return EventOverlap(EventHandle())
 
     @staticmethod
-    def get_low_latency_rdma_size_hint(num_max_dispatch_tokens_per_rank: int, hidden: int, num_ranks: int, num_experts: int) -> int:
+    def get_low_latency_rdma_size_hint(num_max_dispatch_tokens_per_rank: int, hidden: int, num_ranks: int, num_experts: int, quant_group_size: int = 128) -> int:
         """
         Get a minimum size requirement for the RDMA buffer. The size calculation will be done with BF16.
 
@@ -189,7 +189,7 @@ def get_low_latency_rdma_size_hint(num_max_dispatch_tokens_per_rank: int, hidden
         Returns:
             size: the RDMA buffer size recommended.
         """
-        return deep_ep_cpp.get_low_latency_rdma_size_hint(num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts)
+        return deep_ep_cpp.get_low_latency_rdma_size_hint(num_max_dispatch_tokens_per_rank, hidden, num_ranks, num_experts, quant_group_size)
 
     def get_comm_stream(self) -> torch.Stream:
         """
@@ -331,9 +331,13 @@ def dispatch(self, x: Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]],
                  config: Optional[Config] = None,
                  previous_event: Optional[EventOverlap] = None, async_finish: bool = False,
                  allocate_on_comm_stream: bool = False,
-                 skip_x_record_stream: bool = False) -> \
+                 skip_x_record_stream: bool = False,
+                 quant_group_size: int = 128,
+                 use_mask_prmt: bool = False,
+                 max_tokens_per_expert: int = 0) -> \
                  Tuple[Union[Tuple[torch.Tensor, torch.Tensor], torch.Tensor], Optional[torch.Tensor],
-                    Optional[torch.Tensor], List[int], Tuple, EventOverlap]:
+                    Optional[torch.Tensor], List[int], Tuple, EventOverlap,
+                    Optional[torch.Tensor], Optional[torch.Tensor]]:
         """
         Dispatch tokens to different ranks, both intranode and internode settings are supported.
         Intranode kernels require all the ranks should be visible via NVLink.
@@ -388,24 +392,24 @@ def dispatch(self, x: Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]],
             assert topk_idx is None and topk_weights is None
             rank_prefix_matrix, channel_prefix_matrix, recv_channel_prefix_matrix, recv_src_idx, is_token_in_rank, send_head = handle
             num_recv_tokens = recv_src_idx.size(0)
-            recv_x, recv_x_scales, _, _, _, _, _, _, _, _, event = self.runtime.intranode_dispatch(
+            recv_x, recv_x_scales, _, _, _, _, _, _, _, _, _, _, event = self.runtime.intranode_dispatch(
                 x, x_scales, None, None, None, is_token_in_rank, None, num_recv_tokens, rank_prefix_matrix, channel_prefix_matrix,
                 expert_alignment, num_worst_tokens, config, getattr(previous_event, 'event', None), async_finish, allocate_on_comm_stream,
-                skip_x_record_stream)
-            return (recv_x, recv_x_scales) if x_scales is not None else recv_x, None, None, None, None, EventOverlap(event)
+                skip_x_record_stream, quant_group_size, use_mask_prmt, max_tokens_per_expert)
+            return (recv_x, recv_x_scales) if x_scales is not None else recv_x, None, None, None, None, EventOverlap(event), None, None
         else:
             assert num_tokens_per_rank is not None and is_token_in_rank is not None and num_tokens_per_expert is not None
-            recv_x, recv_x_scales, recv_topk_idx, recv_topk_weights, num_recv_tokens_per_expert_list, rank_prefix_matrix, channel_prefix_matrix, recv_channel_prefix_matrix, recv_src_idx, send_head, event = \
+            recv_x, recv_x_scales, recv_topk_idx, recv_topk_weights, num_recv_tokens_per_expert_list, rank_prefix_matrix, channel_prefix_matrix, recv_channel_prefix_matrix, recv_src_idx, send_head, permuted_indice_map, token_nums_per_expert, event = \
                 self.runtime.intranode_dispatch(x, x_scales, topk_idx, topk_weights,
                                                 num_tokens_per_rank, is_token_in_rank, num_tokens_per_expert, 0, None, None,
                                                 expert_alignment, num_worst_tokens, config,
                                                 getattr(previous_event, 'event', None), async_finish, allocate_on_comm_stream,
-                                                skip_x_record_stream)
+                                                skip_x_record_stream, quant_group_size, use_mask_prmt, max_tokens_per_expert)
             handle = (rank_prefix_matrix, channel_prefix_matrix, recv_channel_prefix_matrix, recv_src_idx, is_token_in_rank, send_head)
             return (
                 recv_x, recv_x_scales
             ) if x_scales is not None else recv_x, recv_topk_idx, recv_topk_weights, num_recv_tokens_per_expert_list, handle, EventOverlap(
-                event)
+                event), permuted_indice_map, token_nums_per_expert
 
     # noinspection PyTypeChecker
     def combine(self, x: torch.Tensor, handle: Tuple,
@@ -560,7 +564,8 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                              cumulative_local_expert_recv_stats: Optional[torch.Tensor] = None,
                              dispatch_wait_recv_cost_stats: Optional[torch.Tensor] = None,
                              use_fp8: bool = True, round_scale: bool = False, use_ue8m0: bool = False,
-                             async_finish: bool = False, return_recv_hook: bool = False) -> \
+                             async_finish: bool = False, return_recv_hook: bool = False,
+                             quant_group_size: int = 128) -> \
             Tuple[Tuple[torch.Tensor, torch.Tensor], torch.Tensor, Tuple, EventOverlap, Callable]:
         """
         A low-latency implementation for dispatching with IBGDA.
@@ -585,6 +590,9 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
             use_fp8: whether to enable FP8 casting, with this, the received data will be a tuple of FP8 tensor and scaling factors.
             round_scale: whether round the scaling factors into power of 2.
             use_ue8m0: whether use UE8M0 as scaling factor format (available only with `round_scale=True`).
+            quant_group_size: the number of channels per quantization group for FP8 scaling factors.
+                Supported values: 128 (default), 32, 16. Smaller values provide finer quantization granularity
+                at the cost of more scaling factors (more communication overhead).
             async_finish: the current stream will not wait for the communication kernels to be finished if set.
             return_recv_hook: return a receiving hook if set. If set, the kernel will just do the RDMA request issues,
                 but **without actually receiving the data**. You must call the received hook to make sure the data's arrival.
@@ -595,9 +603,9 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                 With `use_fp8=True`: the first element is a `torch.Tensor` shaped as
                 `[num_local_experts, num_max_dispatch_tokens_per_rank * num_ranks, hidden]` with `torch.float8_e4m3fn`.
                 The second tensor is the corresponding scales for the first element with shape
-                `[num_local_experts, num_max_dispatch_tokens_per_rank * num_ranks, hidden // 128]` with `torch.float`,
+                `[num_local_experts, num_max_dispatch_tokens_per_rank * num_ranks, hidden // quant_group_size]` with `torch.float`,
                 if `use_ue8m0=False`. With `use_ue8m0=True`, the second one is packed and shaped as
-                `[num_local_experts, num_max_dispatch_tokens_per_rank * num_ranks, hidden // 512]` with type `torch.int`.
+                `[num_local_experts, num_max_dispatch_tokens_per_rank * num_ranks, hidden // (quant_group_size * 4)]` with type `torch.int`.
                 Notice that, the last-two-dimension of the scaling tensors are in column-major for TMA compatibility.
                 With `use_fp8=False`, the result would be a tensor shaped as
                 `[num_local_experts, num_max_dispatch_tokens_per_rank * num_ranks, hidden]` with `torch.bfloat16`.
@@ -616,7 +624,8 @@ def low_latency_dispatch(self, x: torch.Tensor, topk_idx: torch.Tensor,
                                               dispatch_wait_recv_cost_stats,
                                               num_max_dispatch_tokens_per_rank, num_experts,
                                               use_fp8, round_scale, use_ue8m0,
-                                              async_finish, return_recv_hook)
+                                              async_finish, return_recv_hook,
+                                              quant_group_size)
         handle = (packed_recv_src_info, packed_recv_layout_range, num_max_dispatch_tokens_per_rank, x.size(1), num_experts)
         tensors_to_record = (x, topk_idx, packed_recv_x, packed_recv_x_scales, packed_recv_count, packed_recv_src_info,
                              packed_recv_layout_range, cumulative_local_expert_recv_stats)
diff --git a/tests/test_deepep.py b/tests/test_deepep.py
new file mode 100644
index 00000000..62973c73
--- /dev/null
+++ b/tests/test_deepep.py
@@ -0,0 +1,720 @@
+
+
+import paddle
+import fastdeploy
+from fastdeploy import envs
+from fastdeploy.config import MoEPhase
+from fastdeploy.utils import singleton
+from typing import Optional
+import paddle.distributed as dist
+from paddle.distributed import fleet
+import traceback
+from abc import abstractmethod
+from fastdeploy.utils import singleton
+import numpy as np
+
+def uniform_int_tensor_no_repeat(M, K, E, dtype='int64'):
+    """生成 [M, K] 整数 tensor，满足：
+    1. M*K 个值绝对均匀分布在 [0, E)（每个值出现次数完全相同）
+    2. 每行的 K 个数互不重复
+    约束：K <= E 且 (M * K) % E == 0
+    """
+    assert K <= E, f'K={K} must be <= E={E}'
+    assert (M * K) % E == 0, f'Total M*K={M*K} must be divisible by E={E}'
+
+    per_value = (M * K) // E
+
+    # 构造有序序列：[0,..,0, 1,..,1, ..., E-1,..,E-1]，每个值出现 per_value 次
+    ordered = paddle.arange(E, dtype=dtype).reshape([-1, 1]).expand([E, per_value]).reshape([-1])
+
+    # 全局随机打乱
+    shuffled = paddle.index_select(ordered, paddle.randperm(ordered.shape[0])).numpy()
+    matrix = shuffled.reshape([M, K])
+
+    # 修复行内重复：贪心交换
+    for _ in range(M * K):
+        fixed_any = False
+        for i in range(M):
+            row = matrix[i]
+            vals, cnts = np.unique(row, return_counts=True)
+            if len(vals) == K:
+                continue
+            # 找重复值和缺失值
+            dup_val = vals[cnts > 1][0]
+            dup_pos = np.where(row == dup_val)[0][1]
+            row_set = set(row.tolist())
+            missing = [v for v in range(E) if v not in row_set]
+            # 与其他行交换
+            for replace_val in missing:
+                for i2 in range(M):
+                    if i2 == i:
+                        continue
+                    if replace_val in matrix[i2] and dup_val not in matrix[i2]:
+                        pos2 = np.where(matrix[i2] == replace_val)[0][0]
+                        matrix[i, dup_pos] = replace_val
+                        matrix[i2, pos2] = dup_val
+                        fixed_any = True
+                        break
+                else:
+                    continue
+                break
+        if not fixed_any:
+            break
+
+    return paddle.to_tensor(matrix, dtype=dtype)
+
+def load_deep_ep():
+    """
+    Load DeepEP module according to FastDeploy env switch.
+
+    Returns:
+        Imported deep_ep module object.
+    """
+
+    try:
+        # Enable torch proxy before importing deep_ep (required by PFCC/PaddleFleet variants)
+        paddle.compat.enable_torch_proxy(scope={"deep_ep"})
+
+        import deep_ep  # type: ignore
+
+        print("FD use PFCCLab/DeepEP now.")
+        return deep_ep
+    except Exception as e:
+        print(
+            f"import deep_ep failed! type={type(e).__name__}, err={e}"
+        )
+        print(f"Traceback:{traceback.format_exc()}")
+        raise
+
+
+deep_ep = load_deep_ep()
+
+
+def init_distributed_environment(seed: int = 20):
+    """Initialize Paddle Fleet and get rank of worker"""
+    # Global rank
+    ranks = dist.get_world_size()
+    dist_strategy = fleet.DistributedStrategy()
+    if ranks > 0:
+        dist_strategy.hybrid_configs = {
+            "dp_degree": 1,
+            "mp_degree": ranks,
+            "pp_degree": 1,
+            "sharding_degree": 1,
+        }
+
+        # Set control in tensor parallel
+        dist_strategy.tensor_parallel_configs = {"tensor_init_seed": seed}
+        fleet.init(is_collective=True, strategy=dist_strategy)
+        # _log_mem("after_fleet_init")
+
+        # Local rank
+        local_rank = fleet.worker_index()
+    else:
+        local_rank = 0
+    return ranks, local_rank
+
+ranks, local_rank = init_distributed_environment()
+
+
+
+class DeepEPBuffer:
+    """
+    Encapsulates DeepEP buffer creation, management and cleanup.
+    """
+
+    def __init__(
+        self,
+        group,
+        hidden_size: int,
+        num_experts: int,
+        ep_size: int,
+        num_max_dispatch_tokens_per_rank: int,
+        moe_phase="decode",
+        use_internode_ll_two_stage: bool = False,
+        top_k: int = 8,
+        quant_group_size: int = 128,
+    ):
+        self.group = group
+        self.hidden_size = hidden_size
+        self.num_experts = num_experts
+        self.ep_size = ep_size
+        self.num_max_dispatch_tokens_per_rank = num_max_dispatch_tokens_per_rank
+        self.moe_phase = moe_phase
+        self.use_internode_ll_two_stage = use_internode_ll_two_stage
+        self.top_k = top_k
+
+        self.deepep_buffer = None
+        self.num_nvl_bytes = 0
+        self.num_rdma_bytes = 0
+
+        # Precompute buffer sizes
+        self._compute_buffer_sizes(quant_group_size=quant_group_size)
+
+    def _compute_buffer_sizes(self, param_bytes: int = 2, quant_group_size=128):
+        hidden_bytes = self.hidden_size * param_bytes  # bf16 or fp16
+
+        for config in (
+            deep_ep.Buffer.get_dispatch_config(self.group.world_size),
+            deep_ep.Buffer.get_combine_config(self.group.world_size),
+        ):
+            self.num_nvl_bytes = max(
+                config.get_nvl_buffer_size_hint(hidden_bytes, self.group.world_size), self.num_nvl_bytes
+            )
+            self.num_rdma_bytes = max(
+                config.get_rdma_buffer_size_hint(hidden_bytes, self.group.world_size), self.num_rdma_bytes
+            )
+
+        if not self.use_internode_ll_two_stage:
+            num_rdma_bytes = deep_ep.Buffer.get_low_latency_rdma_size_hint(
+                self.num_max_dispatch_tokens_per_rank,
+                self.hidden_size,
+                self.ep_size,
+                self.num_experts,
+                quant_group_size
+            )
+        else:
+            num_rdma_bytes = deep_ep.Buffer.get_low_latency_rdma_size_hint_two_stage(
+                self.num_max_dispatch_tokens_per_rank, self.hidden_size, self.ep_size, self.num_experts, self.top_k
+            )
+            num_nvl_bytes = deep_ep.Buffer.get_low_latency_nvl_size_hint_two_stage(
+                self.num_max_dispatch_tokens_per_rank,
+                self.hidden_size,
+                self.ep_size,
+                self.num_experts,
+                self.top_k,
+                True,  # just supports dispatch_use_fp8 = True now!
+            )
+            self.num_nvl_bytes = max(self.num_nvl_bytes, num_nvl_bytes)
+        self.num_rdma_bytes = max(self.num_rdma_bytes, num_rdma_bytes)
+
+        print(f"DeepEP num nvl bytes : {self.num_nvl_bytes}, num rdma bytes : {self.num_rdma_bytes}")
+
+    def create_buffer(self):
+        """Create or recreate buffer based on role and phase."""
+        if self.deepep_buffer is not None:
+            self.clear_buffer()
+
+        num_qps_per_rank = max(24, self.num_experts // self.ep_size)
+        
+        if self.moe_phase == "decode":
+            self._create_low_latency_buffer()
+        elif self.moe_phase == "prefill":
+            print("Initializing High Throughput Buffer for prefill phase.")
+            self.deepep_buffer = deep_ep.Buffer(
+                self.group,
+                self.num_nvl_bytes,
+                self.num_rdma_bytes,
+                low_latency_mode=True,
+                num_qps_per_rank=num_qps_per_rank,
+            )
+        else:
+            raise ValueError(f"Unknown generation phase: {self.moe_phase}")
+
+        print("DeepEP buffer created successfully.")
+
+    def _create_low_latency_buffer(self):
+        if self.deepep_buffer is None:
+            assert self.num_experts % self.ep_size == 0
+            num_qps_per_rank_now = self.num_experts // self.ep_size
+            
+            self.deepep_buffer = deep_ep.Buffer(
+                self.group,
+                self.num_nvl_bytes,
+                self.num_rdma_bytes,
+                low_latency_mode=True,
+                num_qps_per_rank=num_qps_per_rank_now,
+            )
+
+    def clear_buffer(self):
+        """Clear buffer and free memory."""
+        if self.deepep_buffer is not None:
+            del self.deepep_buffer
+            self.deepep_buffer = None
+            print("DeepEP buffer cleared.")
+
+    def get_buffer(self):
+        return self.deepep_buffer
+
+    def clean_low_latency_buffer(self):
+        if self.deepep_buffer is not None:
+            if not self.use_internode_ll_two_stage:
+                self.deepep_buffer.clean_low_latency_buffer(
+                    self.num_max_dispatch_tokens_per_rank,
+                    self.hidden_size,
+                    self.num_experts,
+                )
+            else:
+                self.deepep_buffer.clean_low_latency_two_stage_buffer(
+                    self.num_max_dispatch_tokens_per_rank,
+                    self.hidden_size,
+                    self.num_experts,
+                    self.top_k,
+                    self.ep_size,
+                    True,  # just supports dispatch_use_fp8 = True now!
+                )
+
+    def barrier_all(self):
+        if self.deepep_buffer is not None:
+            self.deepep_buffer.barrier_all()
+
+
+class DeepEPBufferManager:
+    _engine: Optional["DeepEPEngine"] = None
+
+    @classmethod
+    def set_engine(cls, engine: "DeepEPEngine"):
+        cls._engine = engine
+
+    @classmethod
+    def clear_buffer(cls):
+        if cls._engine:
+            cls._engine.clear_deep_ep_buffer()
+
+    @classmethod
+    def recreate_buffer(cls):
+        if cls._engine:
+            cls._engine.create_deep_ep_buffer()
+
+@singleton
+class DeepEPEngine:
+    """
+    A wrapper class for DeepEP engine.
+    Manages buffer lifecycle based on role and phase.
+    """
+
+    def __init__(
+        self,
+        num_max_dispatch_tokens_per_rank: int,
+        hidden_size: int,
+        num_experts: int,
+        ep_size: int,
+        ep_rank: int,
+        moe_phase="decode",
+        async_finish: bool = True,
+        group=None,
+        use_internode_ll_two_stage: bool = False,
+        top_k: int = 8,
+        quant_group_size: int = 128,
+    ):
+        if group is None:
+            group = paddle.distributed.new_group(range(ep_size))
+        self.group = group
+        self.ep_size = ep_size
+        self.rank_id = ep_rank
+        self.hidden_size = hidden_size
+        self.num_experts = num_experts
+        self.num_local_experts = num_experts // ep_size
+        self.top_k = top_k
+        self.async_finish = async_finish
+
+        self.ep_config = None
+
+        # Store phase and role for buffer management
+        self._moe_phase = moe_phase
+
+        # Initialize buffer manager
+        self.buffer = DeepEPBuffer(
+            group=self.group,
+            hidden_size=hidden_size,
+            num_experts=num_experts,
+            ep_size=ep_size,
+            num_max_dispatch_tokens_per_rank=num_max_dispatch_tokens_per_rank,
+            moe_phase=moe_phase,
+            use_internode_ll_two_stage=use_internode_ll_two_stage,
+            top_k=self.top_k,
+            quant_group_size=quant_group_size
+        )
+        self.buffer.create_buffer()
+
+        # Register for global buffer management
+        DeepEPBufferManager.set_engine(self)
+
+    @property
+    def deepep_engine(self):
+        """Backward compatibility alias."""
+        return self.buffer.get_buffer()
+
+    def clear_deep_ep_buffer(self):
+        self.buffer.clear_buffer()
+
+    def create_deep_ep_buffer(self):
+        self.buffer.create_buffer()
+
+    def low_latency_dispatch(
+        self,
+        hidden_states: paddle.Tensor,
+        topk_idx: paddle.Tensor,
+        expertwise_scale,
+        use_fp8: bool = False,
+        quant_group_size: int = 128,
+        use_ue8m0: bool = False,
+    ):
+        if self.deepep_engine is None:
+            raise RuntimeError("DeepEP buffer not initialized!")
+
+        (
+            packed_recv_x,
+            recv_expert_count,
+            handle,
+            _,
+            dispatch_hook,
+        ) = self.deepep_engine.low_latency_dispatch(
+            hidden_states,
+            topk_idx,
+            self.buffer.num_max_dispatch_tokens_per_rank,
+            self.num_experts,
+            use_fp8=use_fp8,
+            async_finish=False,
+            return_recv_hook=True,
+            round_scale=use_ue8m0,
+            quant_group_size=quant_group_size,
+            use_ue8m0=use_ue8m0,
+        )
+        
+
+        return packed_recv_x, recv_expert_count, handle, dispatch_hook
+
+    def low_latency_dispatch_two_stage(
+        self,
+        hidden_states: paddle.Tensor,
+        topk_idx: paddle.Tensor,
+        topk_weights: paddle.Tensor,
+        expertwise_scale,
+        use_fp8: bool = False,
+        quant_group_size: int = 128,
+    ):
+        if self.deepep_engine is None:
+            raise RuntimeError("DeepEP buffer not initialized!")
+
+        (
+            packed_recv_x,
+            packed_recv_count,
+            _,
+            handle,
+            _,
+            dispatch_hook,
+        ) = self.deepep_engine.low_latency_dispatch_two_stage(
+            hidden_states,
+            topk_idx,
+            topk_weights,
+            self.buffer.num_max_dispatch_tokens_per_rank,
+            self.num_experts,
+            use_fp8=use_fp8,
+            async_finish=False,
+            return_recv_hook=True,
+            num_per_channel=quant_group_size,
+        )
+
+        return packed_recv_x, packed_recv_count, handle, dispatch_hook
+
+    def low_latency_combine(
+        self,
+        hidden_states: paddle.Tensor,
+        topk_idx: paddle.Tensor,
+        topk_weights: paddle.Tensor,
+        handle,
+    ):
+        if paddle.__version__ != "0.0.0" and paddle.__version__ <= "3.1.0":
+            # TODO(@wanglongzhi): Delete them when deepep in PaddlePaddle is fixed
+            # and when the default recommended version of PaddlePaddle is greater than 3.1.0
+            src_info, layout_range, num_max_dispatch_tokens_per_rank, num_experts = handle
+            handle = (src_info, layout_range, num_max_dispatch_tokens_per_rank, None, num_experts)
+
+        if self.deepep_engine is None:
+            raise RuntimeError("DeepEP buffer not initialized!")
+
+        combined_hidden_states, _, combine_hook = self.deepep_engine.low_latency_combine(
+            hidden_states,
+            topk_idx,
+            topk_weights,
+            handle,
+            async_finish=False,
+            return_recv_hook=True,
+        )
+        return combined_hidden_states, combine_hook
+
+    def low_latency_combine_two_stage(
+        self,
+        hidden_states: paddle.Tensor,
+        topk_idx: paddle.Tensor,
+        topk_weights: paddle.Tensor,
+        dispatch_use_fp8: bool,
+        quant_group_size: int,
+        handle,
+    ):
+        if self.deepep_engine is None:
+            raise RuntimeError("DeepEP buffer not initialized!")
+
+        combined_hidden_states, _, combine_hook = self.deepep_engine.low_latency_combine_two_stage(
+            hidden_states,
+            topk_idx,
+            topk_weights,
+            handle,
+            async_finish=False,
+            dispatch_use_fp8=dispatch_use_fp8,
+            return_recv_hook=True,
+            num_per_channel=quant_group_size,
+        )
+        return combined_hidden_states, combine_hook
+
+    def clean_low_latency_buffer(self):
+        self.buffer.clean_low_latency_buffer()
+
+    def barrier_all(self):
+        self.buffer.barrier_all()
+
+
+class EPRunner:
+    """
+    EPRunnerBase
+    """
+
+    def __init__(
+        self,
+        top_k: int,
+        hidden_size: int,
+        num_experts: int,
+        moe_phase="decode",
+        num_max_dispatch_tokens_per_rank: int = 1,
+        ep_size: int = 1,
+        ep_rank: int = 0,
+        redundant_experts_num: int = 0,
+        ep_group=None,
+        use_internode_ll_two_stage: bool = False,
+        quant_group_size: int = 128,
+    ):
+        self.top_k = top_k
+        self.num_experts = num_experts
+        self.redundant_experts_num = redundant_experts_num
+        self.use_internode_ll_two_stage = use_internode_ll_two_stage
+        self.ep_engine = DeepEPEngine(
+            num_max_dispatch_tokens_per_rank=num_max_dispatch_tokens_per_rank,
+            hidden_size=hidden_size,
+            num_experts=num_experts + redundant_experts_num,
+            ep_size=ep_size,
+            ep_rank=ep_rank,
+            moe_phase=moe_phase,
+            group=ep_group,
+            use_internode_ll_two_stage=self.use_internode_ll_two_stage,
+            top_k=self.top_k,
+            quant_group_size=quant_group_size,
+        )
+
+    @abstractmethod
+    def dispatch(self, *args, **kwargs):
+        raise NotImplementedError
+
+    @abstractmethod
+    def combine(self, *args, **kwargs):
+        raise NotImplementedError
+
+    def clean_low_latency_buffer(self):
+        self.ep_engine.clean_low_latency_buffer()
+
+    def clear_deep_ep_buffer(self):
+        self.ep_engine.clear_deep_ep_buffer()
+
+    def create_deep_ep_buffer(self):
+        self.ep_engine.create_deep_ep_buffer()
+
+
+class EPDecoderRunner(EPRunner):
+    """
+    EPDecoderRunner
+    """
+
+    def __init__(
+        self,
+        top_k: int,
+        hidden_size: int,
+        num_experts: int,
+        num_max_dispatch_tokens_per_rank: int,
+        ep_size: int = 1,
+        ep_rank: int = 0,
+        redundant_experts_num: int = 0,
+        ep_group=None,
+        moe_phase="decode",
+        use_internode_ll_two_stage: bool = False,
+        quant_group_size: int = 128,
+    ):
+        super().__init__(
+            top_k,
+            hidden_size,
+            num_experts,
+            moe_phase,
+            num_max_dispatch_tokens_per_rank,
+            ep_size=ep_size,
+            ep_rank=ep_rank,
+            redundant_experts_num=redundant_experts_num,
+            ep_group=ep_group,
+            use_internode_ll_two_stage=use_internode_ll_two_stage,
+            quant_group_size=quant_group_size,
+        )
+
+    def dispatch(
+        self,
+        x: paddle.Tensor,
+        topk_idx: paddle.Tensor,
+        topk_weights: paddle.Tensor,
+        *args,
+        **kwargs,
+    ):
+        expertwise_scale = kwargs.get("expertwise_scale", None)
+        use_fp8 = kwargs.get("use_fp8", False)
+        quant_group_size = kwargs.get("quant_group_size", 128)
+        use_ue8m0 = kwargs.get("use_ue8m0", False)
+        if not self.use_internode_ll_two_stage:
+            recv_hidden_states, recv_expert_count, handle, dispatch_hook = self.ep_engine.low_latency_dispatch(
+                x, topk_idx, expertwise_scale, use_fp8, quant_group_size, use_ue8m0
+            )
+        else:
+            # just supports dispatch_use_fp8 = True now!
+            assert use_fp8 is True
+            recv_hidden_states, recv_expert_count, handle, dispatch_hook = (
+                self.ep_engine.low_latency_dispatch_two_stage(
+                    x, topk_idx, topk_weights, expertwise_scale, use_fp8, quant_group_size
+                )
+            )
+        if dispatch_hook is not None:
+            dispatch_hook()
+
+        return recv_hidden_states, recv_expert_count, handle
+
+    def combine(self, ffn_out, topk_idx, topk_weights, handle, **kwargs):
+        quant_group_size = kwargs.get("quant_group_size", 128)
+        if not self.use_internode_ll_two_stage:
+            combined_hidden_states, combine_hook = self.ep_engine.low_latency_combine(
+                ffn_out, topk_idx, topk_weights, handle
+            )
+        else:
+            combined_hidden_states, combine_hook = self.ep_engine.low_latency_combine_two_stage(
+                ffn_out,
+                topk_idx,
+                topk_weights,
+                True,
+                quant_group_size,
+                handle,  # just supports dispatch_use_fp8 = True now!
+            )
+        if combine_hook is not None:
+            combine_hook()
+
+        return combined_hidden_states
+
+
+class DeepEPMOE:
+    def __init__(self, ):
+        self.top_k  = 4
+        self.token_num = 160
+        self.hidden_size = 7168
+        self.num_experts = 160
+        self.num_max_dispatch_tokens_per_rank = 512
+        self.ep_size = 8
+        self.ep_rank = local_rank
+        self.redundant_experts_num = 0
+        self.moe_phase = "decode"
+        self.use_internode_ll_two_stage = False
+        self.quant_group_size = 32
+
+
+    def init_ep(self) -> None:
+        """
+        Initialize EP (Expert Parallel) related modules.
+        """
+        if self.ep_size <= 1:
+            return
+        self.ep_group = dist.new_group(range(self.ep_size))
+
+
+        # Common arguments for both runners
+        common_args = {
+            "top_k": self.top_k,
+            "hidden_size": self.hidden_size,
+            "num_experts": self.num_experts,
+            "num_max_dispatch_tokens_per_rank": self.num_max_dispatch_tokens_per_rank,
+            "ep_size": self.ep_size,
+            "ep_rank": self.ep_rank,
+            "redundant_experts_num": self.redundant_experts_num,
+            "ep_group": self.ep_group,
+        }
+
+
+        # prefill_num_worst_tokens = 0
+        # prefill_num_worst_tokens = (
+        #     self.max_num_batched_tokens
+        #     // self.tensor_parallel_size
+        #     * self.ep_size
+        #     * self.top_k
+        # )
+
+        # self.ep_prefill_runner = EPPrefillRunner(
+        #     **common_args,
+        #     use_internode_ll_two_stage=self.use_internode_ll_two_stage,
+        #     prefill_num_worst_tokens=prefill_num_worst_tokens,
+        # )
+        self.ep_decoder_runner = EPDecoderRunner(
+            **common_args,
+            use_internode_ll_two_stage=self.use_internode_ll_two_stage,
+            quant_group_size=self.quant_group_size,
+        )
+
+    def init_prefill_input(self, ):
+        # x_fp8:paddle.Size([107, 7168]), paddle.float8_e4m3fn
+        # topk_idx:paddle.Size([107, 4]), paddle.int64
+        # topk_weights:paddle.Size([107, 4]), paddle.float32
+        # x_scale_tensor:paddle.Size([107, 14]), paddle.int32
+        x_fp8 = paddle.rand([self.token_num, self.hidden_size], dtype=paddle.float8_e4m3fn)
+        topk_idx = paddle.randint(0, self.num_experts,[self.token_num, self.top_k], dtype=paddle.int64)
+        topk_weights = paddle.rand([self.token_num, self.top_k], dtype=paddle.float32)
+        x_scale_tensor = paddle.rand([self.token_num, self.hidden_size // self.group_size // 4], dtype=paddle.int32) if self.group_size == 128 else paddle.rand([self.token_num, self.hidden_size // self.group_size], dtype=paddle.uint8)
+        return (x_fp8, topk_idx, topk_weights, x_scale_tensor)
+
+    def apply_ep_prefill(
+        self,
+    ):
+        (
+            recv_x,
+            recv_topk_idx,
+            recv_topk_weights,
+            recv_num_tokens_per_expert_list,
+            handle,
+            event,
+        ) = self.ep_prefill_runner.dispatch(
+            x_fp8, topk_idx, topk_weights, x_scale_tensor=x_scale_tensor, expert_alignment=128, previous_event=event
+        )
+
+
+    def init_decode_input(self):
+        # x:paddle.Size([6, 7168]), paddle.bfloat16
+        # topk_idx:paddle.Size([6, 4]), paddle.int64
+        # topk_weights:paddle.Size([6, 4]), paddle.float32
+        x = paddle.rand([self.token_num, self.hidden_size], dtype=paddle.bfloat16)
+        # topk_idx = paddle.randint(0, self.num_experts, [self.token_num, self.top_k], dtype=paddle.int32).astype(paddle.int64)
+        topk_idx = uniform_int_tensor_no_repeat(self.token_num, self.top_k, self.num_experts)
+        topk_weights = paddle.rand([self.token_num, self.top_k], dtype=paddle.float32)
+        return (x, topk_idx, topk_weights)
+
+    def apply_ep_decode(
+        self,
+        x,
+        topk_idx,
+        topk_weights
+    ):
+        # 2. EP Dispatch
+        print(f"dispatch start")
+        permute_input, token_nums_per_expert, handle = self.ep_decoder_runner.dispatch(
+            x, topk_idx, topk_weights, use_fp8=True, use_ue8m0=True, quant_group_size=self.quant_group_size
+        )
+        print(f"x_fp8:{permute_input[0]}")
+        print(f"scale:{permute_input[1]}")
+        print(f"token_nums_per_expert:{token_nums_per_expert}")
+
+print(f"apply_ep_decode start")
+ep = DeepEPMOE()
+print(f"create DeepEPMOE end")
+ep.init_ep()
+print(f"init_ep end")
+x, topk_idx, topk_weights = ep.init_decode_input()
+print(f"init_decode_input end")
+ep.apply_ep_decode(x, topk_idx, topk_weights)
+print(f"apply_ep_decode end")