support bpe tokenizer in convert

Signed-off-by: ldwang <ftgreat@gmail.com>
2023-07-15 14:14:00 +08:00 · 2023-07-15 14:14:00 +08:00 · ee6bc1426e
commit ee6bc1426e
parent d7aab2e900
1 changed files with 2 additions and 6 deletions
--- a/convert.py
+++ b/convert.py
@ -242,10 +242,6 @@ class SentencePieceVocab:
          byte_decoder = {v: k for k, v in byte_encoder.items()}
          for i, item in enumerate(tokenizer):
            text: bytes
-            if i == 0:
-                text = " \u2047 ".encode("utf-8")
-                score = 0.0
-            else:
            text = b''.join([x.to_bytes(1, byteorder='big') for x in [byte_decoder[y] for y in item]])
            score: float = -i
            yield text, score