Python - Add train_from_iterator to implementations

2025-12-09 14:18:30 +00:00 · 2021-01-06 17:07:56 -05:00
parent 817c5ad317
commit d94fa220b6
9 changed files with 166 additions and 7 deletions
--- a/bindings/python/tests/implementations/test_char_bpe.py
+++ b/bindings/python/tests/implementations/test_char_bpe.py
@@ -4,7 +4,7 @@ from ..utils import data_dir, openai_files, multiprocessing_with_parallelism
 from tokenizers import CharBPETokenizer


-class TestBertWordPieceBPE:
+class TestCharBPETokenizer:
    def test_basic_encode(self, openai_files):
        tokenizer = CharBPETokenizer.from_file(openai_files["vocab"], openai_files["merges"])

@@ -53,3 +53,11 @@ class TestBertWordPieceBPE:
        tokenizer = CharBPETokenizer.from_file(openai_files["vocab"], openai_files["merges"])
        multiprocessing_with_parallelism(tokenizer, False)
        multiprocessing_with_parallelism(tokenizer, True)
+
+    def test_train_from_iterator(self):
+        text = ["A first sentence", "Another sentence", "And a last one"]
+        tokenizer = CharBPETokenizer()
+        tokenizer.train_from_iterator(text, show_progress=False)
+
+        output = tokenizer.encode("A sentence")
+        assert output.tokens == ["A</w>", "sentence</w>"]