provide option to l2norm the output of the diffusion prior

mixed precision for training diffusion prior + save optimizer and scaler states
fix issue with mixed precision and gradient clipping
2026-02-12 11:34:29 +01:00 · 2022-05-02 09:41:03 -07:00 · 2022-05-02 09:31:04 -07:00 · 2022-05-02 09:20:19 -07:00 · 2022-05-02 08:51:41 -07:00
4 changed files with 50 additions and 16 deletions
--- a/dalle2_pytorch/dalle2_pytorch.py
+++ b/dalle2_pytorch/dalle2_pytorch.py
@@ -29,6 +29,9 @@ from x_clip import CLIP
 def exists(val):
    return val is not None

+def identity(t, *args, **kwargs):
+    return t
+
 def default(val, d):
    if exists(val):
        return val
@@ -635,12 +638,14 @@ class DiffusionPriorNetwork(nn.Module):
        self,
        dim,
        num_timesteps = None,
+        l2norm_output = False,  # whether to restrict image embedding output with l2norm at the end (may make it easier to learn?)
        **kwargs
    ):
        super().__init__()
        self.time_embeddings = nn.Embedding(num_timesteps, dim) if exists(num_timesteps) else nn.Sequential(Rearrange('b -> b 1'), MLP(1, dim)) # also offer a continuous version of timestep embeddings, with a 2 layer MLP
        self.learned_query = nn.Parameter(torch.randn(dim))
        self.causal_transformer = CausalTransformer(dim = dim, **kwargs)
+        self.l2norm_output = l2norm_output

    def forward_with_cond_scale(
        self,
@@ -719,7 +724,8 @@ class DiffusionPriorNetwork(nn.Module):

        pred_image_embed = tokens[..., -1, :]

-        return pred_image_embed
+        output_fn = l2norm if self.l2norm_output else identity
+        return output_fn(pred_image_embed)

 class DiffusionPrior(BaseGaussianDiffusion):
    def __init__(
--- a/dalle2_pytorch/train.py
+++ b/dalle2_pytorch/train.py
@@ -159,12 +159,13 @@ class DecoderTrainer(nn.Module):
        index = unet_number - 1
        unet = self.decoder.unets[index]

-        if exists(self.max_grad_norm):
-            nn.utils.clip_grad_norm_(unet.parameters(), self.max_grad_norm)
-
        optimizer = getattr(self, f'optim{index}')
        scaler = getattr(self, f'scaler{index}')

+        if exists(self.max_grad_norm):
+            scaler.unscale_(optimizer)
+            nn.utils.clip_grad_norm_(unet.parameters(), self.max_grad_norm)
+
        scaler.step(optimizer)
        scaler.update()
        optimizer.zero_grad()
--- a/setup.py
+++ b/setup.py
@@ -10,7 +10,7 @@ setup(
      'dream = dalle2_pytorch.cli:dream'
    ],
  },
-  version = '0.0.89',
+  version = '0.0.91',
  license='MIT',
  description = 'DALL-E 2',
  author = 'Phil Wang',
--- a/train_diffusion_prior.py
+++ b/train_diffusion_prior.py
@@ -17,16 +17,26 @@ os.environ["WANDB_SILENT"] = "true"
 def eval_model(model,device,image_reader,text_reader,start,end,batch_size,loss_type,phase="Validation"):
    model.eval()
    with torch.no_grad():
-        for emb_images,emb_text in zip(image_reader(batch_size=batch_size, start=start, end=end),
+        total_loss = 0.
+        total_samples = 0.
+
+        for emb_images, emb_text in zip(image_reader(batch_size=batch_size, start=start, end=end),
                text_reader(batch_size=batch_size, start=start, end=end)):
+
            emb_images_tensor = torch.tensor(emb_images[0]).to(device)
            emb_text_tensor = torch.tensor(emb_text[0]).to(device)
+
+            batches = emb_images_tensor.shape[0]
+
            loss = model(text_embed = emb_text_tensor, image_embed = emb_images_tensor)

-            # Log to wandb
-            wandb.log({f'{phase} {loss_type}': loss})
+            total_loss += loss.item() * batches
+            total_samples += batches

-def save_model(save_path,state_dict):
+        avg_loss = (total_loss / total_samples)
+        wandb.log({f'{phase} {loss_type}': avg_loss})
+
+def save_model(save_path, state_dict):
    # Saving State Dict
    print("====================================== Saving checkpoint ======================================")
    torch.save(state_dict, save_path+'/'+str(time.time())+'_saved_model.pth')
@@ -52,7 +62,8 @@ def train(image_embed_dim,
          device,
          learning_rate=0.001,
          max_grad_norm=0.5,
-          weight_decay=0.01):
+          weight_decay=0.01,
+          amp=False):

    # DiffusionPriorNetwork 
    prior_network = DiffusionPriorNetwork( 
@@ -82,6 +93,7 @@ def train(image_embed_dim,
        os.makedirs(save_path)

    ### Training code ###
+    scaler = GradScaler(enabled=amp)
    optimizer = get_optimizer(diffusion_prior.net.parameters(), wd=weight_decay, lr=learning_rate)
    epochs = num_epochs

@@ -98,23 +110,33 @@ def train(image_embed_dim,
                text_reader(batch_size=batch_size, start=0, end=train_set_size)):
            emb_images_tensor = torch.tensor(emb_images[0]).to(device)
            emb_text_tensor = torch.tensor(emb_text[0]).to(device)
-            optimizer.zero_grad()
-            loss = diffusion_prior(text_embed = emb_text_tensor,image_embed = emb_images_tensor)
-            loss.backward()
+
+            with autocast(enabled=amp):
+                loss = diffusion_prior(text_embed = emb_text_tensor,image_embed = emb_images_tensor)
+                scaler.scale(loss).backward()
+
            # Samples per second
            step+=1
            samples_per_sec = batch_size*step/(time.time()-t)
            # Save checkpoint every save_interval minutes
            if(int(time.time()-t) >= 60*save_interval):
                t = time.time()
-                save_model(save_path,diffusion_prior.state_dict())
+
+                save_model(
+                    save_path,
+                    dict(model=diffusion_prior.state_dict(), optimizer=optimizer.state_dict(), scaler=scaler.state_dict()))
+
            # Log to wandb
            wandb.log({"Training loss": loss.item(),
                        "Steps": step,
                        "Samples per second": samples_per_sec})

+            scaler.unscale_(optimizer)
            nn.init.clip_grad_norm_(diffusion_prior.parameters(), max_grad_norm)
-            optimizer.step()
+
+            scaler.step(optimizer)
+            scaler.update()
+            optimizer.zero_grad()

        ### Evaluate model(validation run) ###
        start = train_set_size
@@ -161,12 +183,15 @@ def main():
    parser.add_argument("--dp-cond-drop-prob", type=float, default=0.2)
    parser.add_argument("--dp-loss-type", type=str, default="l2")
    parser.add_argument("--clip", type=str, default=None)
+    parser.add_argument("--amp", type=bool, default=False)
    # Model checkpointing interval(minutes)
    parser.add_argument("--save-interval", type=int, default=30)
    parser.add_argument("--save-path", type=str, default="./diffusion_prior_checkpoints")

    args = parser.parse_args()
+
    print("Setting up wandb logging... Please wait...")
+
    wandb.init(
      entity=args.wandb_entity,
      project=args.wandb_project,
@@ -176,6 +201,7 @@ def main():
      "dataset": args.wandb_dataset,
      "epochs": args.num_epochs,
      })
+
    print("wandb logging setup done!")
    # Obtain the utilized device.

@@ -206,7 +232,8 @@ def main():
          device,
          args.learning_rate,
          args.max_grad_norm,
-          args.weight_decay)
+          args.weight_decay,
+          args.amp)

 if __name__ == "__main__":
  main()
Author	SHA1	Message	Date
Phil Wang	0fc6c9cdf3	provide option to l2norm the output of the diffusion prior	2022-05-02 09:41:03 -07:00
Phil Wang	7ee0ecc388	mixed precision for training diffusion prior + save optimizer and scaler states	2022-05-02 09:31:04 -07:00
Phil Wang	1924c7cc3d	fix issue with mixed precision and gradient clipping	2022-05-02 09:20:19 -07:00
Phil Wang	f7df3caaf3	address not calculating average eval / test loss when training diffusion prior https://github.com/lucidrains/DALLE2-pytorch/issues/49	2022-05-02 08:51:41 -07:00