ludwig-ai · Infernaught · Sep 12, 2023 · Sep 12, 2023 · Sep 12, 2023
@@ -6,6 +6,8 @@
 from bitsandbytes.nn.modules import Embedding
 from transformers import (
     AutoModelForCausalLM,
+    CodeLlamaTokenizer,
+    CodeLlamaTokenizerFast,
     GPT2Tokenizer,
     GPT2TokenizerFast,
     LlamaTokenizer,
@@ -40,7 +42,17 @@ def set_pad_token(tokenizer: PreTrainedTokenizer):
     # These recommend using eos tokens instead
     # https://github.com/huggingface/transformers/issues/2648#issuecomment-616177044
     # https://github.com/huggingface/transformers/issues/2630#issuecomment-1290809338
-    if any(isinstance(tokenizer, t) for t in [GPT2Tokenizer, GPT2TokenizerFast, LlamaTokenizer, LlamaTokenizerFast]):
+    if any(
+        isinstance(tokenizer, t)
+        for t in [
+            GPT2Tokenizer,
+            GPT2TokenizerFast,
+            LlamaTokenizer,
+            LlamaTokenizerFast,
+            CodeLlamaTokenizer,
+            CodeLlamaTokenizerFast,
+        ]
+    ):
         tokenizer.pad_token = tokenizer.eos_token
         tokenizer.pad_token_id = tokenizer.eos_token_id
 

@@ -810,7 +810,14 @@ def get_unk_token(self) -> str:
     def _set_pad_token(self) -> None:
         """Sets the pad token and pad token ID for the tokenizer."""
 
-        from transformers import GPT2Tokenizer, GPT2TokenizerFast, LlamaTokenizer, LlamaTokenizerFast
+        from transformers import (
+            CodeLlamaTokenizer,
+            CodeLlamaTokenizerFast,
+            GPT2Tokenizer,
+            GPT2TokenizerFast,
+            LlamaTokenizer,
+            LlamaTokenizerFast,
+        )
 
         # Tokenizers might have the pad token id attribute since they tend to use the same base class, but
         # it can be set to None so we check for this explicitly.
@@ -822,7 +829,14 @@ def _set_pad_token(self) -> None:
         # https://github.com/huggingface/transformers/issues/2648#issuecomment-616177044
         if any(
             isinstance(self.tokenizer, t)
-            for t in [GPT2Tokenizer, GPT2TokenizerFast, LlamaTokenizer, LlamaTokenizerFast]
+            for t in [
+                GPT2Tokenizer,
+                GPT2TokenizerFast,
+                LlamaTokenizer,
+                LlamaTokenizerFast,
+                CodeLlamaTokenizer,
+                CodeLlamaTokenizerFast,
+            ]
         ):
             if hasattr(self.tokenizer, "eos_token") and self.tokenizer.eos_token is not None:
                 logger.warning("No padding token id found. Using eos_token as pad_token.")