Python - Test Normalizers

2025-12-06 20:58:22 +00:00 · 2020-03-31 16:14:38 -04:00
parent 3264ffe235
commit d6692d4072
1 changed files with 82 additions and 0 deletions
--- a/bindings/python/tests/bindings/test_normalizers.py
+++ b/bindings/python/tests/bindings/test_normalizers.py
@@ -0,0 +1,82 @@
+from tokenizers import Tokenizer
+from tokenizers.models import BPE
+from tokenizers.normalizers import BertNormalizer, Sequence, Lowercase, Strip
+
+
+class TestBertNormalizer:
+    def test_strip_accents(self):
+        tokenizer = Tokenizer(BPE.empty())
+        tokenizer.normalizer = BertNormalizer(
+            strip_accents=True, lowercase=False, handle_chinese_chars=False, clean_text=False
+        )
+
+        output = tokenizer.normalize("Héllò")
+        assert output == "Hello"
+
+    def test_handle_chinese_chars(self):
+        tokenizer = Tokenizer(BPE.empty())
+        tokenizer.normalizer = BertNormalizer(
+            strip_accents=False, lowercase=False, handle_chinese_chars=True, clean_text=False
+        )
+
+        output = tokenizer.normalize("你好")
+        assert output == " 你  好 "
+
+    def test_clean_text(self):
+        tokenizer = Tokenizer(BPE.empty())
+        tokenizer.normalizer = BertNormalizer(
+            strip_accents=False, lowercase=False, handle_chinese_chars=False, clean_text=True
+        )
+
+        output = tokenizer.normalize("\ufeffHello")
+        assert output == "Hello"
+
+    def test_lowercase(self):
+        tokenizer = Tokenizer(BPE.empty())
+        tokenizer.normalizer = BertNormalizer(
+            strip_accents=False, lowercase=True, handle_chinese_chars=False, clean_text=False
+        )
+
+        output = tokenizer.normalize("Héllò")
+        assert output == "héllò"
+
+
+class TestSequence:
+    def test_can_make_sequences(self):
+        tokenizer = Tokenizer(BPE.empty())
+        tokenizer.normalizer = Sequence([Lowercase(), Strip()])
+
+        output = tokenizer.normalize("  HELLO  ")
+        assert output == "hello"
+
+
+class TestLowercase:
+    def test_lowercase(self):
+        tokenizer = Tokenizer(BPE.empty())
+        tokenizer.normalizer = Lowercase()
+
+        output = tokenizer.normalize("HELLO")
+        assert output == "hello"
+
+
+class TestStrip:
+    def test_left_strip(self):
+        tokenizer = Tokenizer(BPE.empty())
+        tokenizer.normalizer = Strip(left=True, right=False)
+
+        output = tokenizer.normalize("  hello  ")
+        assert output == "hello  "
+
+    def test_right_strip(self):
+        tokenizer = Tokenizer(BPE.empty())
+        tokenizer.normalizer = Strip(left=False, right=True)
+
+        output = tokenizer.normalize("  hello  ")
+        assert output == "  hello"
+
+    def test_full_strip(self):
+        tokenizer = Tokenizer(BPE.empty())
+        tokenizer.normalizer = Strip(left=True, right=True)
+
+        output = tokenizer.normalize("  hello  ")
+        assert output == "hello"