support bpe tokenizer in convert

Signed-off-by: ldwang <ftgreat@gmail.com>
2023-07-15 14:14:00 +08:00 · 2023-07-15 14:14:00 +08:00 · ee6bc1426e
commit ee6bc1426e
parent d7aab2e900
1 changed files with 2 additions and 6 deletions
--- a/convert.py
+++ b/convert.py
@ -242,12 +242,8 @@ class SentencePieceVocab:
          byte_decoder = {v: k for k, v in byte_encoder.items()}
          for i, item in enumerate(tokenizer):
            text: bytes
-            if i == 0:
+            text = b''.join([x.to_bytes(1, byteorder='big') for x in [byte_decoder[y] for y in item]])
-                text = " \u2047 ".encode("utf-8")
+            score: float = -i
                score = 0.0
            else:
                text = b''.join([x.to_bytes(1, byteorder='big') for x in [byte_decoder[y] for y in item]])
                score: float = -i
            yield text, score
        else:
          for i in range(tokenizer.vocab_size()):