Python - Make the trainer optional on Tokenizer.train

2025-12-08 05:38:23 +00:00 · 2020-10-07 21:25:32 -04:00
parent c230183cf6
commit 224862fe0c
7 changed files with 15 additions and 12 deletions
--- a/bindings/python/py_src/tokenizers/implementations/bert_wordpiece.py
+++ b/bindings/python/py_src/tokenizers/implementations/bert_wordpiece.py
@@ -115,4 +115,4 @@ class BertWordPieceTokenizer(BaseTokenizer):
        )
        if isinstance(files, str):
            files = [files]
-        self._tokenizer.train(trainer, files)
+        self._tokenizer.train(files, trainer=trainer)
--- a/bindings/python/py_src/tokenizers/implementations/byte_level_bpe.py
+++ b/bindings/python/py_src/tokenizers/implementations/byte_level_bpe.py
@@ -101,4 +101,4 @@ class ByteLevelBPETokenizer(BaseTokenizer):
        )
        if isinstance(files, str):
            files = [files]
-        self._tokenizer.train(trainer, files)
+        self._tokenizer.train(files, trainer=trainer)
--- a/bindings/python/py_src/tokenizers/implementations/char_level_bpe.py
+++ b/bindings/python/py_src/tokenizers/implementations/char_level_bpe.py
@@ -123,4 +123,4 @@ class CharBPETokenizer(BaseTokenizer):
        )
        if isinstance(files, str):
            files = [files]
-        self._tokenizer.train(trainer, files)
+        self._tokenizer.train(files, trainer=trainer)
--- a/bindings/python/py_src/tokenizers/implementations/sentencepiece_bpe.py
+++ b/bindings/python/py_src/tokenizers/implementations/sentencepiece_bpe.py
@@ -74,4 +74,4 @@ class SentencePieceBPETokenizer(BaseTokenizer):
        )
        if isinstance(files, str):
            files = [files]
-        self._tokenizer.train(trainer, files)
+        self._tokenizer.train(files, trainer=trainer)
--- a/bindings/python/py_src/tokenizers/implementations/sentencepiece_unigram.py
+++ b/bindings/python/py_src/tokenizers/implementations/sentencepiece_unigram.py
@@ -75,7 +75,7 @@ class SentencePieceUnigramTokenizer(BaseTokenizer):

        if isinstance(files, str):
            files = [files]
-        self._tokenizer.train(trainer, files)
+        self._tokenizer.train(files, trainer=trainer)

    @staticmethod
    def from_spm(filename: str):