浏览代码

Update utils_llama.py

Allen 1 年之前
父节点
当前提交
1bd6480c57
共有 1 个文件被更改,包括 3 次插入0 次删除
  1. 3 0
      research/long-context-llama/H2O/utils_llama.py

+ 3 - 0
research/long-context-llama/H2O/utils_llama.py

@@ -227,6 +227,9 @@ class H2OLlamaAttention(nn.Module):
     ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
         bsz, q_len, _ = hidden_states.size()
 
+        if self.layer_idx == 0:
+            import pdb; pdb.set_trace()
+
         if self.config.pretraining_tp > 1:
             key_value_slicing = (self.num_key_value_heads * self.head_dim) // self.config.pretraining_tp
             query_slices = self.q_proj.weight.split(