2 rokov pred · d824099012
--- a/configs/fsdp.py
+++ b/configs/fsdp.py
@@ -16,6 +16,7 @@ class fsdp_config:
 
																     pure_bf16: bool = False
															
 
																     optimizer: str= "AdamW"
															
 
																     optimizer_overlap: bool=False
															
 
																+    profile_mem: bool=False
															
--- a/llama_finetuning.py
+++ b/llama_finetuning.py
@@ -216,37 +216,37 @@ def main(**kwargs):
 
																             collate_fn=default_data_collator,
															
 
																         )
															
 
																-    # Initialize the optimizer and learning rate scheduler
															
 
																-    # if fsdp_config.pure_bf16 and fsdp_config.optimizer == "anyprecision":
															
 
																-    #     optimizer = AnyPrecisionAdamW(
															
 
																-    #         model.parameters(),
															
 
																-    #         lr=train_config.lr,
															
 
																-    #         momentum_dtype=torch.bfloat16,
															
 
																-    #         variance_dtype=torch.bfloat16,
															
 
																-    #         use_kahan_summation=False,
															
 
																-    #     )
															
 
																-    # else:
															
 
																-    #     optimizer = optim.AdamW(
															
 
																-    #         model.parameters(),
															
 
																-    #         lr=train_config.lr,
															
 
																-    #         weight_decay=0.0,
															
 
																-    #     )
															
 
																-    if fsdp_config.optimizer_overlap:
															
 
																-        print("we are hereeeeeeeee**************************************")
															
 
																-        optim_kwargs = {"lr": train_config.lr}
															
 
																-        _apply_optimizer_in_backward(
															
 
																-            optimizer_class=optim.AdamW,
															
 
																-            params=model.parameters(),
															
 
																-            optimizer_kwargs=optim_kwargs,
															
 
																-            register_hook=False,
															
 
																+    #Initialize the optimizer and learning rate scheduler
															
 
																+    if fsdp_config.pure_bf16 and fsdp_config.optimizer == "anyprecision":
															
 
																+        optimizer = AnyPrecisionAdamW(
															
 
																+            model.parameters(),
															
 
																+            lr=train_config.lr,
															
 
																+            momentum_dtype=torch.bfloat16,
															
 
																+            variance_dtype=torch.bfloat16,
															
 
																+            use_kahan_summation=False,
															
 
																         )
															
 
																-        for p in model.parameters():
															
 
																-            assert hasattr(p, "_in_backward_optimizers")
															
 
																-        optim_kwargs = {"lr": train_config.lr, "weight_decay":0.0}
															
 
																+    else:
															
 
																         optimizer = optim.AdamW(
															
 
																             model.parameters(),
															
 
																-            **optim_kwargs
															
 
																+            lr=train_config.lr,
															
 
																+            weight_decay=0.0,
															
 
																         )
															
 
																+    # if fsdp_config.optimizer_overlap:
															
 
																+    #     print("we are hereeeeeeeee**************************************")
															
 
																+    #     optim_kwargs = {"lr": train_config.lr}
															
 
																+    #     _apply_optimizer_in_backward(
															
 
																+    #         optimizer_class=optim.AdamW,
															
 
																+    #         params=model.parameters(),
															
 
																+    #         optimizer_kwargs=optim_kwargs,
															
 
																+    #         register_hook=False,
															
 
																+    #     )
															
 
																+    #     for p in model.parameters():
															
 
																+    #         assert hasattr(p, "_in_backward_optimizers")
															
 
																+    #     optim_kwargs = {"lr": train_config.lr, "weight_decay":0.0}
															
 
																+    #     optimizer = optim.AdamW(
															
 
																+    #         model.parameters(),
															
 
																+    #         **optim_kwargs
															
 
																+    #     )
															
 
																     scheduler = StepLR(optimizer, step_size=1, gamma=train_config.gamma)
															
--- a/utils/train_utils.py
+++ b/utils/train_utils.py
@@ -3,7 +3,7 @@
 
																 import os
															
 
																 import sys
															
 
																-from typing import List
															
 
																+from typing import List, Optional
															
 
																 import yaml
															
 
																 import fire
															
@@ -36,6 +36,9 @@ from torch.distributed.fsdp.sharded_grad_scaler import ShardedGradScaler
 
																 from pathlib import Path
															
 
																 sys.path.append(str(Path(__file__).resolve().parent.parent))
															
 
																 from policies import bfSixteen, fpSixteen,bfSixteen_mixed, get_llama_wrapper
															
 
																+import torch.autograd.profiler as profiler
															
 
																+from torch.cuda._memory_viz import profile_plot
															
 
																+from pickle import dump
															
 
																 def set_tokenizer_params(tokenizer: LlamaTokenizer):
															
 
																     tokenizer.pad_token_id = 0
															
@@ -64,6 +67,13 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
																     Returns: results dictionary containing average training and validation perplexity and loss
															
 
																     """
															
 
																     # Create a gradient scaler for fp16
															
 
																+    torch.cuda.memory._record_memory_history(True,
															
 
																+        # keep 100,000 alloc/free events from before the snapshot
															
 
																+        trace_alloc_max_entries=100000,
															
 
																+
															
 
																+        # record stack information for the trace events
															
 
																+        trace_alloc_record_context=True)
															
 
																+    
															
 
																     if train_config.use_fp16 and train_config.enable_fsdp:
															
 
																         scaler = ShardedGradScaler()
															
 
																     elif train_config.use_fp16 and not train_config.enable_fsdp:
															
@@ -82,7 +92,18 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
																         with MemoryTrace() as memtrace:  # track the memory usage
															
 
																             model.train()
															
 
																             total_loss = 0.0
															
 
																+            # if fsdp_config.profile_mem:
															
 
																+            #     with torch.profiler.profile(
															
 
																+            #     schedule=torch.profiler.schedule(wait=1, warmup=1, active=3, repeat=1),
															
 
																+            #     activities=[profiler.ProfilerActivity.CPU, profiler.ProfilerActivity.CUDA],
															
 
																+            #     on_trace_ready=torch.profiler.tensorboard_trace_handler('./log/llama2-7b'),
															
 
																+            #     record_shapes=True,
															
 
																+            #     profile_memory=True,
															
 
																+            #     with_stack=True,
															
 
																+            #     ) as prof:
															
 
																             for step, batch in enumerate(tqdm(train_dataloader,colour="blue", desc=f"Training Epoch{epoch}")):
															
 
																+                if step >10:
															
 
																+                    break
															
 
																                 for key in batch.keys():
															
 
																                     if train_config.enable_fsdp:
															
 
																                         batch[key] = batch[key].to(local_rank)
															
@@ -104,8 +125,14 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
																                     if (step + 1) % gradient_accumulation_steps == 0 or step == len(train_dataloader) - 1:
															
 
																                         optimizer.step()
															
 
																                         optimizer.zero_grad()
															
 
																+                if step == 4:
															
 
																+                    if rank==0:
															
 
																+                        snapshot = torch.cuda.memory._snapshot()
															
 
																+                        with open('snapshot.pickle', 'wb') as f:
															
 
																+                            dump(snapshot, f)
															
 
																                 print(f"\n step {step} is completed and loss is {loss.detach().float()}")
															
 
																+                    
															
 
																         end_epoch = time.perf_counter()
															
 
																         epoch_time = end_epoch- start_epoch
															
 
																         print(f"epoch time is {epoch_time}")
															
@@ -235,6 +262,8 @@ def evaluation(model,train_config, eval_dataloader, local_rank, tokenizer):
 
																     eval_loss = 0.0  # Initialize evaluation loss
															
 
																     with MemoryTrace() as memtrace:
															
 
																         for step, batch in enumerate(tqdm(eval_dataloader,colour="green", desc="evaluating Epoch")):
															
 
																+            if step>6:
															
 
																+                break
															
 
																             for key in batch.keys():
															
 
																                 if train_config.enable_fsdp:
															
 
																                     batch[key] = batch[key].to(local_rank)
															
@@ -409,4 +438,27 @@ def save_train_params(train_config, fsdp_config, rank):
 
																         with open(file_name, 'w') as f:
															
 
																             f.write(config_yaml)
															
 
																         if rank==0:
															
 
																-            print(f"training params are saved in {file_name}")
															
 
																+            print(f"training params are saved in {file_name}")
															
 
																+
															
 
																+
															
 
																+def export_memory_timeline(path: str, device: Optional[str] = None) -> None:
															
 
																+    try:
															
 
																+        from torch.profiler._memory_profiler import MemoryProfile, MemoryProfileTimeline
															
 
																+    except ImportError:
															
 
																+        # Handle the ImportError here, such as providing an alternative implementation or an error message.
															
 
																+        print("The required module 'MemoryProfileTimeline' is not available.")
															
 
																+    
															
 
																+
															
 
																+def _memory_profile():
															
 
																+    try:
															
 
																+        from torch.profiler._memory_profiler import MemoryProfile, MemoryProfileTimeline
															
 
																+    except ImportError:
															
 
																+        # Handle the ImportError here, such as providing an alternative implementation or an error message.
															
 
																+        print("The required module 'MemoryProfileTimeline' is not available.")
															
 
																+    required = ("record_shapes", "profile_memory", "with_stack")
															
 
																+    missing = [f"{i}=True" for i in required if not getattr(self, i)]
															
 
																+    if missing:
															
 
																+        raise ValueError(f"{', '.join(missing)} required for memory profiling.")
															
 
																+
															
 
																+    assert self.profiler is not None and self.profiler.kineto_results is not None
															
 
																+    return MemoryProfile(self.profiler.kineto_results)