Do the reverse embedding in the same dtype as the input embedding (keras-team#1548)

mattdangerw · web-flow · commit ab649f570435 · 2024-04-10T14:35:17.000-07:00
diff --git a/keras_nlp/layers/modeling/reversible_embedding.py b/keras_nlp/layers/modeling/reversible_embedding.py
@@ -48,8 +48,7 @@ class ReversibleEmbedding(keras.layers.Embedding):
         mask_zero: Boolean, whether or not the input value 0 is a special
             "padding" value that should be masked out.
         reverse_dtype: The dtype for the reverse projection computation.
-            For stability, it is usually best to use full precision even when
-            working with half or mixed precision training.
+            Defaults to the `compute_dtype` of the layer.
         **kwargs: other keyword arguments passed to `keras.layers.Embedding`,
             including `name`, `trainable`, `dtype` etc.
 
@@ -90,7 +89,7 @@ def __init__(
         embeddings_regularizer=None,
         embeddings_constraint=None,
         mask_zero=False,
-        reverse_dtype="float32",
+        reverse_dtype=None,
         **kwargs,
     ):
         super().__init__(
@@ -122,8 +121,9 @@ def call(self, inputs, reverse=False):
                 kernel = ops.transpose(ops.convert_to_tensor(self.embeddings))
             else:
                 kernel = self.reverse_embeddings
-            inputs = ops.cast(inputs, self.reverse_dtype)
-            kernel = ops.cast(kernel, self.reverse_dtype)
+            if self.reverse_dtype is not None:
+                inputs = ops.cast(inputs, self.reverse_dtype)
+                kernel = ops.cast(kernel, self.reverse_dtype)
             return ops.matmul(inputs, kernel)
 
         return super().call(inputs)
diff --git a/keras_nlp/models/llama/llama_backbone.py b/keras_nlp/models/llama/llama_backbone.py
@@ -109,7 +109,6 @@ def __init__(
             tie_weights=False,
             embeddings_initializer=_llama_kernel_initializer(stddev=0.01),
             dtype=dtype,
-            reverse_dtype=dtype,
             name="token_embedding",
         )
         self.transformer_layers = []
diff --git a/keras_nlp/models/mistral/mistral_backbone.py b/keras_nlp/models/mistral/mistral_backbone.py
@@ -121,7 +121,6 @@ def __init__(
             tie_weights=False,
             embeddings_initializer=_mistral_kernel_initializer(stddev=0.01),
             dtype=dtype,
-            reverse_dtype=dtype,
             name="token_embedding",
         )
         self.transformer_layers = []
diff --git a/keras_nlp/samplers/sampler.py b/keras_nlp/samplers/sampler.py
@@ -145,10 +145,8 @@ def compute_probabilities(self, logits):
         This will always be done in full precision, regardless of dtype, and
         scale by `temperature`.
         """
-        logits_dtype = logits.dtype
         logits = ops.cast(logits, "float32")
-        probs = keras.activations.softmax(logits / self.temperature)
-        return ops.cast(probs, logits_dtype)
+        return keras.activations.softmax(logits / self.temperature)
 
     def run_loop(
         self, cond, body, model=None, loop_vars=None, maximum_iterations=None

Original file line number	Diff line number	Diff line change
`@@ -109,7 +109,6 @@ def __init__(`
`109`	`109`	`tie_weights=False,`
`110`	`110`	`embeddings_initializer=_llama_kernel_initializer(stddev=0.01),`
`111`	`111`	`dtype=dtype,`
`112`		`- reverse_dtype=dtype,`
`113`	`112`	`name="token_embedding",`
`114`	`113`	`)`
`115`	`114`	`self.transformer_layers = []`
Original file line number	Diff line number	Diff line change
`@@ -121,7 +121,6 @@ def __init__(`
`121`	`121`	`tie_weights=False,`
`122`	`122`	`embeddings_initializer=_mistral_kernel_initializer(stddev=0.01),`
`123`	`123`	`dtype=dtype,`
`124`		`- reverse_dtype=dtype,`
`125`	`124`	`name="token_embedding",`
`126`	`125`	`)`
`127`	`126`	`self.transformer_layers = []`