revert restriction for classifier free guidance for diffusion prior, given @crowsonkb advice

Additional image_embed metric (#75 )
Added metric to track image_embed vs predicted_image_embed
2026-02-12 19:44:26 +01:00 · 2022-05-07 20:55:41 -07:00 · 2022-05-07 14:32:33 -07:00
3 changed files with 6 additions and 2 deletions
--- a/dalle2_pytorch/dalle2_pytorch.py
+++ b/dalle2_pytorch/dalle2_pytorch.py
@@ -834,7 +834,7 @@ class DiffusionPrior(BaseGaussianDiffusion):
        self.image_embed_dim = default(image_embed_dim, lambda: clip.dim_latent)
        self.channels = default(image_channels, lambda: clip.image_channels)

-        self.cond_drop_prob = cond_drop_prob if not predict_x_start else 0.
+        self.cond_drop_prob = cond_drop_prob
        self.condition_on_text_encodings = condition_on_text_encodings

        # in paper, they do not predict the noise, but predict x0 directly for image embedding, claiming empirically better results. I'll just offer both.
--- a/setup.py
+++ b/setup.py
@@ -10,7 +10,7 @@ setup(
      'dream = dalle2_pytorch.cli:dream'
    ],
  },
-  version = '0.1.9',
+  version = '0.1.10',
  license='MIT',
  description = 'DALL-E 2',
  author = 'Phil Wang',
--- a/train_diffusion_prior.py
+++ b/train_diffusion_prior.py
@@ -93,6 +93,8 @@ def report_cosine_sims(diffusion_prior, image_reader, text_reader, train_set_siz
            text_embed, predicted_image_embeddings).cpu().numpy()
        unrelated_similarity = cos(
            text_embed, predicted_unrelated_embeddings).cpu().numpy()
+        predicted_img_similarity = cos(
+            test_image_embeddings, predicted_image_embeddings).cpu().numpy()

        wandb.log(
            {"CosineSimilarity(text_embed,image_embed)": np.mean(original_similarity)})
@@ -100,6 +102,8 @@ def report_cosine_sims(diffusion_prior, image_reader, text_reader, train_set_siz
            predicted_similarity)})
        wandb.log({"CosineSimilarity(text_embed,predicted_unrelated_embed)": np.mean(
            unrelated_similarity)})
+        wandb.log({"CosineSimilarity(image_embed,predicted_image_embed)": np.mean(
+            predicted_img_similarity)})

    return np.mean(predicted_similarity - original_similarity)
Author	SHA1	Message	Date
Phil Wang	dde51fd362	revert restriction for classifier free guidance for diffusion prior, given @crowsonkb advice	2022-05-07 20:55:41 -07:00
Nasir Khalid	2eac7996fa	Additional image_embed metric (#75 ) Added metric to track image_embed vs predicted_image_embed	2022-05-07 14:32:33 -07:00