allow for division of loss prior to scaling, for gradient accumulation purposes

2025-12-19 17:54:20 +01:00 · 2022-04-30 12:56:47 -07:00
parent a2ef69af66
commit 63195cc2cb
2 changed files with 10 additions and 3 deletions
--- a/dalle2_pytorch/train.py
+++ b/dalle2_pytorch/train.py
@@ -169,7 +169,14 @@ class DecoderTrainer(nn.Module):
            ema_unet = self.ema_unets[index]
            ema_unet.update()

-    def forward(self, x, *, unet_number, **kwargs):
+    def forward(
+        self,
+        x,
+        *,
+        unet_number,
+        divisor = 1,
+        **kwargs
+    ):
        with autocast(enabled = self.amp):
            loss = self.decoder(x, unet_number = unet_number, **kwargs)
-        return self.scale(loss, unet_number = unet_number)
+        return self.scale(loss / divisor, unet_number = unet_number)
--- a/setup.py
+++ b/setup.py
@@ -10,7 +10,7 @@ setup(
      'dream = dalle2_pytorch.cli:dream'
    ],
  },
-  version = '0.0.79',
+  version = '0.0.80',
  license='MIT',
  description = 'DALL-E 2',
  author = 'Phil Wang',