remove old

sgl-project · merrymercy · Jan 19, 2024 · Jan 18, 2024 · Jan 18, 2024 · Jan 18, 2024
commit ae2d1625de883479b550dc48d1a2021f32181443
diff --git a/python/sglang/srt/managers/router/infer_batch.py b/python/sglang/srt/managers/router/infer_batch.py
@@ -246,11 +246,6 @@ def suspend_for_decode(self):
  reverse=True,
  )
 
- for i in range(len(self.reqs)):
- print(
- f"input: {len(self.reqs[i].input_ids)}, output: {len(self.reqs[i].output_ids)}"
- )
-
  suspended_reqs = []
  seq_lens_np = self.seq_lens.cpu().numpy()
  req_pool_indices_np = self.req_pool_indices.cpu().numpy()
@@ -289,13 +284,9 @@ def prepare_for_decode(self, input_ids=None):
  self.out_cache_loc = self.token_to_kv_pool.alloc(bs)
 
  if self.out_cache_loc is None:
- self.tree_cache.evict(bs, self.token_to_kv_pool.free)
- self.out_cache_loc = self.token_to_kv_pool.alloc(bs)
-
- if self.out_cache_loc is None:
- print("Decode out of memory.")
- self.tree_cache.pretty_print()
- exit()
+ print("Decode out of memory. This should nerver happen.")
+ self.tree_cache.pretty_print()
+ exit()
 
  self.out_cache_cont_start = None
  self.out_cache_cont_end = None