Python - Add bindings for NormalizedString

2025-12-05 20:28:22 +00:00 · 2020-09-18 14:52:58 -04:00
parent e4b10e0fd9
commit fce6998dcf
9 changed files with 537 additions and 1 deletions
--- a/bindings/python/py_src/tokenizers/init.py
+++ b/bindings/python/py_src/tokenizers/init.py
@@ -14,7 +14,7 @@ PreTokenizedEncodeInput = Union[
 InputSequence = Union[TextInputSequence, PreTokenizedInputSequence]
 EncodeInput = Union[TextEncodeInput, PreTokenizedEncodeInput]

-from .tokenizers import Tokenizer, Encoding, AddedToken
+from .tokenizers import Tokenizer, Encoding, AddedToken, Regex, NormalizedString
 from .tokenizers import decoders
 from .tokenizers import models
 from .tokenizers import normalizers
--- a/bindings/python/py_src/tokenizers/init.pyi
+++ b/bindings/python/py_src/tokenizers/init.pyi
@@ -26,6 +26,13 @@ PreTokenizedEncodeInput = Union[
 InputSequence = Union[TextInputSequence, PreTokenizedInputSequence]
 EncodeInput = Union[TextEncodeInput, PreTokenizedEncodeInput]

+class Regex:
+    """ A Regex """
+
+    def __new__(pattern: str) -> Regex:
+        """ Instantiate a new Regex with the given pattern """
+        pass
+
 class Encoding:
    """ An Encoding as returned by the Tokenizer """