Python - Make the trainer optional on Tokenizer.train

2025-08-22 16:25:30 +00:00 · 2020-10-07 21:25:32 -04:00
parent c230183cf6
commit 224862fe0c
7 changed files with 15 additions and 12 deletions
--- a/bindings/python/README.md
+++ b/bindings/python/README.md
@ -138,11 +138,11 @@ tokenizer.post_processor = processors.ByteLevel(trim_offsets=True)

 # And then train
 trainer = trainers.BpeTrainer(vocab_size=20000, min_frequency=2)
-tokenizer.train(trainer, [
+tokenizer.train([
 	"./path/to/dataset/1.txt",
 	"./path/to/dataset/2.txt",
 	"./path/to/dataset/3.txt"
-])
+], trainer=trainer)

 # And Save it
 tokenizer.save("byte-level-bpe.tokenizer.json", pretty=True)