patch

Fixed non deterministic optimizer creation (#130 )
add packaging package
2026-02-13 03:54:35 +01:00 · 2022-05-31 09:03:43 -07:00 · 2022-05-31 09:03:20 -07:00 · 2022-05-30 11:45:00 -07:00 · 2022-05-30 11:06:34 -07:00 · 2022-05-30 10:06:48 -07:00
6 changed files with 20 additions and 13 deletions
--- a/dalle2_pytorch/init.py
+++ b/dalle2_pytorch/init.py
@@ -1,3 +1,4 @@
+from dalle2_pytorch.version import __version__
 from dalle2_pytorch.dalle2_pytorch import DALLE2, DiffusionPriorNetwork, DiffusionPrior, Unet, Decoder
 from dalle2_pytorch.dalle2_pytorch import OpenAIClipAdapter
 from dalle2_pytorch.trainer import DecoderTrainer, DiffusionPriorTrainer
--- a/dalle2_pytorch/dalle2_pytorch.py
+++ b/dalle2_pytorch/dalle2_pytorch.py
@@ -1347,7 +1347,7 @@ class Unet(nn.Module):
        init_dim = None,
        init_conv_kernel_size = 7,
        resnet_groups = 8,
-        num_resnet_blocks = 1,
+        num_resnet_blocks = 2,
        init_cross_embed_kernel_sizes = (3, 7, 15),
        cross_embed_downsample = False,
        cross_embed_downsample_kernel_sizes = (2, 4),
--- a/dalle2_pytorch/optimizer.py
+++ b/dalle2_pytorch/optimizer.py
@@ -1,8 +1,10 @@
 from torch.optim import AdamW, Adam

 def separate_weight_decayable_params(params):
-    no_wd_params = set([param for param in params if param.ndim < 2])
-    wd_params = set(params) - no_wd_params
+    wd_params, no_wd_params = [], []
+    for param in params:
+        param_list = no_wd_params if param.ndim < 2 else wd_params
+        param_list.append(param)
    return wd_params, no_wd_params

 def get_optimizer(
@@ -25,8 +27,8 @@ def get_optimizer(
        wd_params, no_wd_params = separate_weight_decayable_params(params)

        params = [
-            {'params': list(wd_params)},
-            {'params': list(no_wd_params), 'weight_decay': 0},
+            {'params': wd_params},
+            {'params': no_wd_params, 'weight_decay': 0},
        ]

    return AdamW(params, lr = lr, weight_decay = wd, betas = betas, eps = eps)
--- a/dalle2_pytorch/trainer.py
+++ b/dalle2_pytorch/trainer.py
@@ -11,6 +11,8 @@ from torch.cuda.amp import autocast, GradScaler

 from dalle2_pytorch.dalle2_pytorch import Decoder, DiffusionPrior
 from dalle2_pytorch.optimizer import get_optimizer
+from dalle2_pytorch.version import __version__
+from packaging import version

 import numpy as np

@@ -57,8 +59,7 @@ def num_to_groups(num, divisor):
    return arr

 def get_pkg_version():
-    from pkg_resources import get_distribution
-    return get_distribution('dalle2_pytorch').version
+    return __version__

 # decorators

@@ -299,7 +300,7 @@ class DiffusionPriorTrainer(nn.Module):
            scaler = self.scaler.state_dict(),
            optimizer = self.optimizer.state_dict(),
            model = self.diffusion_prior.state_dict(),
-            version = get_pkg_version(),
+            version = __version__,
            step = self.step.item(),
            **kwargs
        )
@@ -315,8 +316,8 @@ class DiffusionPriorTrainer(nn.Module):

        loaded_obj = torch.load(str(path))

-        if get_pkg_version() != loaded_obj['version']:
-            print(f'loading saved diffusion prior at version {loaded_obj["version"]} but current package version is at {get_pkg_version()}')
+        if version.parse(__version__) != loaded_obj['version']:
+            print(f'loading saved diffusion prior at version {loaded_obj["version"]} but current package version is at {__version__}')

        self.diffusion_prior.load_state_dict(loaded_obj['model'], strict = strict)
        self.step.copy_(torch.ones_like(self.step) * loaded_obj['step'])
@@ -463,7 +464,7 @@ class DecoderTrainer(nn.Module):

        save_obj = dict(
            model = self.decoder.state_dict(),
-            version = get_pkg_version(),
+            version = __version__,
            step = self.step.item(),
            **kwargs
        )
@@ -486,7 +487,7 @@ class DecoderTrainer(nn.Module):

        loaded_obj = torch.load(str(path))

-        if get_pkg_version() != loaded_obj['version']:
+        if version.parse(__version__) != loaded_obj['version']:
            print(f'loading saved decoder at version {loaded_obj["version"]}, but current package version is {get_pkg_version()}')

        self.decoder.load_state_dict(loaded_obj['model'], strict = strict)
--- a/dalle2_pytorch/version.py
+++ b/dalle2_pytorch/version.py
@@ -0,0 +1 @@
+__version__ = '0.6.4'
--- a/setup.py
+++ b/setup.py
@@ -1,4 +1,5 @@
 from setuptools import setup, find_packages
+exec(open('dalle2_pytorch/version.py').read())

 setup(
  name = 'dalle2-pytorch',
@@ -10,7 +11,7 @@ setup(
      'dream = dalle2_pytorch.cli:dream'
    ],
  },
-  version = '0.6.0',
+  version = __version__,
  license='MIT',
  description = 'DALL-E 2',
  author = 'Phil Wang',
@@ -31,6 +32,7 @@ setup(
    'embedding-reader',
    'kornia>=0.5.4',
    'numpy',
+    'packaging',
    'pillow',
    'pydantic',
    'resize-right>=0.0.2',
Author	SHA1	Message	Date
Phil Wang	3df899f7a4	patch	2022-05-31 09:03:43 -07:00
Aidan Dempster	09534119a1	Fixed non deterministic optimizer creation (#130 )	2022-05-31 09:03:20 -07:00
Phil Wang	6f8b90d4d7	add packaging package	2022-05-30 11:45:00 -07:00
Phil Wang	b588286288	fix version	2022-05-30 11:06:34 -07:00
Phil Wang	b693e0be03	default number of resnet blocks per layer in unet to 2 (in imagen it was 3 for base 64x64)	2022-05-30 10:06:48 -07:00