complete the main contribution of the paper, the diffusion prior network, minus the diffusion training setup

2025-12-20 02:04:19 +01:00 · 2022-04-12 11:43:59 -07:00
parent 83aabd42ca
commit fd38eb83c4
2 changed files with 51 additions and 0 deletions
--- a/dalle2_pytorch/dalle2_pytorch.py
+++ b/dalle2_pytorch/dalle2_pytorch.py
@@ -149,6 +149,56 @@ class Transformer(nn.Module):

        return self.norm(x)

+class PriorNetwork(nn.Module):
+    def __init__(
+        self,
+        dim,
+        num_timesteps = 1000,
+        **kwargs
+    ):
+        super().__init__()
+        self.time_embeddings = nn.Embedding(num_timesteps, dim)  # also offer a continuous version of timestep embeddings, with a 2 layer MLP
+        self.learned_query = nn.Parameter(torch.randn(dim))
+        self.causal_transformer = Transformer(**kwargs)
+
+    def forward(
+        self,
+        image_embed,
+        *,
+        diffusion_timesteps,
+        text_encodings,
+        text_embed,
+        mask = None,
+    ):
+        batch = image_embed.shape[0]
+
+        # in section 2.2, last paragraph
+        # "... consisting of encoded text, CLIP text embedding, diffusion timestep embedding, noised CLIP image embedding, final embedding for prediction"
+
+        text_embed, image_embed = rearrange_many((text_embed, image_embed), 'b d -> b 1 d')
+
+        if exists(mask):
+            mask = F.pad(mask, (0, 4), value = True) # extend mask for text embedding, noised image embedding, time step embedding, and learned query
+
+        time_embed = self.time_embeddings(diffusion_timesteps)
+
+        learned_queries = repeat(self.learned_query, 'd -> b 1 d', b = batch)
+
+        tokens = torch.cat((
+            text_encodings,
+            text_embed,
+            time_embed,
+            learned_queries
+        ), dim = -2)
+
+        tokens = self.causal_transformer(tokens, mask = mask)
+
+        # get learned query, which should predict the image embedding (per DDPM timestep)
+
+        pred_image_embed = tokens[..., -1, :]
+
+        return pred_image_embed
+
 class DiffusionPrior(nn.Module):
    def __init__(
        self,
--- a/setup.py
+++ b/setup.py
@@ -28,6 +28,7 @@ setup(
    'pillow',
    'torch>=1.10',
    'torchvision',
+    'tqdm',
    'x-clip>=0.4.1',
    'youtokentome'
  ],