chore: Add pre tokenizers and include enum mappings

2024-05-27 03:11:40 -04:00 · 2024-05-27 03:11:40 -04:00 · 0a478c048a
commit 0a478c048a
parent 215394947e
1 changed files with 39 additions and 0 deletions
--- a/gguf-py/gguf/constants.py
+++ b/gguf-py/gguf/constants.py
@ -988,6 +988,12 @@ VOCAB_TYPE_NAMES: dict[VocabType, str] = {
    VocabType.WPM: "WPM",
 }
 VOCAB_TYPE_MAP: dict[str, VocabType] = {
    "SPM": VocabType.SPM,
    "BPE": VocabType.BPE,
    "WPM": VocabType.WPM,
 }
 #
 # Model File Types
@ -1013,6 +1019,39 @@ MODEL_FILE_TYPE_NAMES: dict[ModelFileType, str] = {
    ModelFileType.GGUF:        ".gguf",
 }
 MODEL_FILE_TYPE_MAP: dict[ModelFileType, str] = {
    ".pt": ModelFileType.PT,
    ".pth": ModelFileType.PTH,
    ".bin": ModelFileType.BIN,
    ".safetensors": ModelFileType.SAFETENSORS,
    ".json": ModelFileType.JSON,
    ".model": ModelFileType.MODEL,
    ".gguf": ModelFileType.GGUF,
 }
 class PreTokenizerType(IntEnum):
    NON                = auto()
    BYTE_LEVEL         = auto()
    BERT_PRE_TOKENIZER = auto()
    METASPACE          = auto()
    SEQUENCE           = auto()
 PRE_TOKENIZER_TYPE_NAMES: dict[PreTokenizerType, str] = {
    PreTokenizerType.BYTE_LEVEL: "ByteLevel",
    PreTokenizerType.BERT_PRE_TOKENIZER: "BertPreTokenizer",
    PreTokenizerType.METASPACE: "Metaspace",
    PreTokenizerType.SEQUENCE: "Sequence",
 }
 PRE_TOKENIZER_TYPE_MAP: dict[PreTokenizerType, str] = {
    "ByteLevel": PreTokenizerType.BYTE_LEVEL,
    "BertPreTokenizer": PreTokenizerType.BERT_PRE_TOKENIZER,
    "Metaspace": PreTokenizerType.METASPACE,
    "Sequence": PreTokenizerType.SEQUENCE,
 }
 #
 # HF Vocab Files
 #