Fixing missing direction in TruncationParams. (#868)

2025-08-22 16:25:30 +00:00 · 2022-01-04 14:21:46 +01:00
parent 7069988ffe
commit 4122a33f09
2 changed files with 23 additions and 14 deletions
--- a/bindings/python/test.py
+++ b/bindings/python/test.py
@ -1,12 +0,0 @@
-from tokenizers import ByteLevelBPETokenizer
-from tokenizers import pre_tokenizers, models, Tokenizer, trainers
-
-tokenizer = Tokenizer(models.Unigram())
-tokenizer.pre_tokenizer = pre_tokenizers.WhitespaceSplit()
-trainer = trainers.UnigramTrainer(
-        vocab_size=400000000,
-                         show_progress=True,
-                         special_tokens=["<s>", "<pad>", "</s>", "<unk>", "mask"]
-                         )
-tokenizer.train(["data/big.txt"], trainer)
-