Split Pre-Tokenizer (#542)

* start playing around * make a first version * refactor * apply make format * add python bindings * add some python binding tests * correct pre-tokenizers * update auto-generated bindings * lint python bindings * add code node * add split to docs * refactor python binding a bit * cargo fmt * clippy and fmt in node * quick updates and fixes * Oops * Update node typings * Update changelog Co-authored-by: Anthony MOI <m.anthony.moi@gmail.com>
2025-08-22 16:25:30 +00:00 · 2020-11-27 23:07:03 +01:00
parent 58e1d8de67
commit dd399d2ad0
17 changed files with 494 additions and 2 deletions
--- a/bindings/node/lib/bindings/pre-tokenizers.d.ts
+++ b/bindings/node/lib/bindings/pre-tokenizers.d.ts
@ -39,6 +39,24 @@ export function whitespacePreTokenizer(): PreTokenizer;
 */
 export function whitespaceSplitPreTokenizer(): PreTokenizer;
 /**
 * Returns a Split PreTokenizer
 * This versatile pre-tokenizer splits using the provided pattern and
 * according to the provided behavior. The pattern can be inverted by
 * making use of the invert flag.
 *
 * @param [pattern] A pattern used to split the string. Usually a string or a Regex.
 * @param [behavior] The behavior to use when splitting.
 * Choices: "removed", "isolated", "mergedWithPrevious", "mergedWithNext",
 * "contiguous".
 * @param [invert=false] Whether to invert the pattern.
 */
 export function splitPreTokenizer(
  pattern?: string,
  behavior?: string,
  invert?: boolean
 ): PreTokenizer;
 /**
 * Returns a new Bert PreTokenizer.
 * This pre-tokenizer splits tokens on spaces, and also on punctuation.
--- a/bindings/node/lib/bindings/pre-tokenizers.js
+++ b/bindings/node/lib/bindings/pre-tokenizers.js
@ -11,4 +11,5 @@ module.exports = {
  punctuationPreTokenizer: native.pre_tokenizers_Punctuation,
  sequencePreTokenizer: native.pre_tokenizers_Sequence,
  digitsPreTokenizer: native.pre_tokenizers_Digits,
  splitPreTokenizer: native.pre_tokenizers_Split,
 };
--- a/bindings/node/lib/bindings/pre-tokenizers.test.ts
+++ b/bindings/node/lib/bindings/pre-tokenizers.test.ts
@ -3,6 +3,7 @@ import {
  metaspacePreTokenizer,
  punctuationPreTokenizer,
  sequencePreTokenizer,
  splitPreTokenizer,
  whitespaceSplitPreTokenizer,
 } from "./pre-tokenizers";
@ -44,6 +45,13 @@ describe("punctuationPreTokenizer", () => {
  });
 });
 describe("splitPreTokenizer", () => {
  it("instantiates correctly with invert parameter", () => {
    const processor = splitPreTokenizer(" ", "mergedWithPrevious", false);
    expect(processor.constructor.name).toEqual("PreTokenizer");
  });
 });
 describe("sequencePreTokenizer", () => {
  it("instantiates correctly", () => {
    const punctuation = punctuationPreTokenizer();
--- a/bindings/node/native/src/pre_tokenizers.rs
+++ b/bindings/node/native/src/pre_tokenizers.rs
@ -5,9 +5,38 @@ use neon::prelude::*;
 use std::sync::Arc;
 use serde::{ser::SerializeStruct, Serialize, Serializer};
 use tk::normalizer::SplitDelimiterBehavior;
 use tk::pre_tokenizers::PreTokenizerWrapper;
 use tk::PreTokenizedString;
 #[derive(Clone)]
 struct JsSplitDelimiterBehavior(SplitDelimiterBehavior);
 impl FromJsValue for JsSplitDelimiterBehavior {
    fn from_value<'c, C: Context<'c>>(from: Handle<'c, JsValue>, _cx: &mut C) -> LibResult<Self> {
        let s = from.downcast::<JsString>()?.value();
        Ok(Self(match s.as_ref() {
            "removed" => Ok(SplitDelimiterBehavior::Removed),
            "isolated" => Ok(SplitDelimiterBehavior::Isolated),
            "mergedWithPrevious" => Ok(SplitDelimiterBehavior::MergedWithPrevious),
            "mergedWithNext" => Ok(SplitDelimiterBehavior::MergedWithNext),
            "contiguous" => Ok(SplitDelimiterBehavior::Contiguous),
            _ => Err(Error(
                "Wrong value for SplitDelimiterBehavior, expected one of: \
                 `removed, isolated, mergedWithPrevious, mergedWithNext, contiguous`"
                    .into(),
            )),
        }?))
    }
 }
 impl<'s> From<JsSplitDelimiterBehavior> for SplitDelimiterBehavior {
    fn from(v: JsSplitDelimiterBehavior) -> Self {
        v.0
    }
 }
 #[derive(Clone, Debug, Deserialize)]
 #[serde(untagged)]
 pub enum JsPreTokenizerWrapper {
@ -156,6 +185,22 @@ fn metaspace(mut cx: FunctionContext) -> JsResult<JsPreTokenizer> {
    Ok(pretok)
 }
 /// split(invert: bool = false)
 fn split(mut cx: FunctionContext) -> JsResult<JsPreTokenizer> {
    let pattern: String = cx.extract::<String>(0)?;
    let behavior: JsSplitDelimiterBehavior = cx.extract::<JsSplitDelimiterBehavior>(1)?;
    let invert: bool = cx.extract_opt::<bool>(2)?.unwrap_or(false);
    let mut pretok = JsPreTokenizer::new::<_, JsPreTokenizer, _>(&mut cx, vec![])?;
    let guard = cx.lock();
    pretok.borrow_mut(&guard).pretok = Some(
        tk::pre_tokenizers::split::Split::new(pattern, behavior.into(), invert)
            .map_err(|e| Error(e.to_string()))?
            .into(),
    );
    Ok(pretok)
 }
 /// punctuation()
 fn punctuation(mut cx: FunctionContext) -> JsResult<JsPreTokenizer> {
    let mut pretok = JsPreTokenizer::new::<_, JsPreTokenizer, _>(&mut cx, vec![])?;
@ -231,6 +276,7 @@ pub fn register(m: &mut ModuleContext, prefix: &str) -> NeonResult<()> {
    m.export_function(&format!("{}_WhitespaceSplit", prefix), whitespace_split)?;
    m.export_function(&format!("{}_BertPreTokenizer", prefix), bert_pre_tokenizer)?;
    m.export_function(&format!("{}_Metaspace", prefix), metaspace)?;
    m.export_function(&format!("{}_Split", prefix), split)?;
    m.export_function(
        &format!("{}_CharDelimiterSplit", prefix),
        char_delimiter_split,
--- a/bindings/python/CHANGELOG.md
+++ b/bindings/python/CHANGELOG.md
@ -4,6 +4,11 @@ All notable changes to this project will be documented in this file.
 The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.0.0/),
 and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0.html).
 ## [Unreleased]
 ### Added
 - [#542]: Add Split pre-tokenizer to easily split using a pattern
 ## [0.9.4]
 ### Fixed
@ -270,6 +275,7 @@ delimiter (Works like `.split(delimiter)`)
 - Fix a bug that was causing crashes in Python 3.5
 [#542]: https://github.com/huggingface/tokenizers/pull/542
 [#506]: https://github.com/huggingface/tokenizers/pull/506
 [#500]: https://github.com/huggingface/tokenizers/pull/500
 [#498]: https://github.com/huggingface/tokenizers/pull/498
--- a/bindings/python/py_src/tokenizers/pre_tokenizers/init.py
+++ b/bindings/python/py_src/tokenizers/pre_tokenizers/init.py
@ -9,6 +9,7 @@ Digits = pre_tokenizers.Digits
 Metaspace = pre_tokenizers.Metaspace
 Punctuation = pre_tokenizers.Punctuation
 Sequence = pre_tokenizers.Sequence
 Split = pre_tokenizers.Split
 UnicodeScripts = pre_tokenizers.UnicodeScripts
 Whitespace = pre_tokenizers.Whitespace
 WhitespaceSplit = pre_tokenizers.WhitespaceSplit
--- a/bindings/python/py_src/tokenizers/pre_tokenizers/init.pyi
+++ b/bindings/python/py_src/tokenizers/pre_tokenizers/init.pyi
@ -392,6 +392,40 @@ class Sequence(PreTokenizer):
        """
        pass
 class Split(PreTokenizer):
    """
    Split PreTokenizer
    This versatile pre-tokenizer splits using the provided pattern and
    according to the provided behavior. The pattern can be inverted by
    making use of the invert flag.
    Args:
        pattern (:obj:`str` or :class:`~tokenizers.Regex`):
            A pattern used to split the string. Usually a string or a Regex
        behavior (:class:`~tokenizers.SplitDelimiterBehavior`):
            The behavior to use when splitting.
            Choices: "removed", "isolated", "merged_with_previous", "merged_with_next",
            "contiguous"
        invert (:obj:`bool`, `optional`, defaults to :obj:`False`):
            Whether to invert the pattern.
    """
    def __init__(self, pattern, behavior, invert=False):
        pass
    def pre_tokenize(self, pretok):
        """
        Pre tokenize the given PreTokenizedString in-place
        """
        pass
    def pre_tokenize_str(self, sequence):
        """
        Pre tokenize the given sequence
        """
        pass
 class UnicodeScripts(PreTokenizer):
    """
    This pre-tokenizer splits on characters that belong to different language family
--- a/bindings/python/pyproject.toml
+++ b/bindings/python/pyproject.toml
@ -1,5 +1,6 @@
 [build-system]
 requires = ["setuptools", "wheel", "setuptools-rust"]
 build-backend = "setuptools.build_meta"
 [tool.black]
 target-version = ['py35']
--- a/bindings/python/src/lib.rs
+++ b/bindings/python/src/lib.rs
@ -67,6 +67,7 @@ fn pre_tokenizers(_py: Python, m: &PyModule) -> PyResult<()> {
    m.add_class::<pre_tokenizers::PyByteLevel>()?;
    m.add_class::<pre_tokenizers::PyWhitespace>()?;
    m.add_class::<pre_tokenizers::PyWhitespaceSplit>()?;
    m.add_class::<pre_tokenizers::PySplit>()?;
    m.add_class::<pre_tokenizers::PyBertPreTokenizer>()?;
    m.add_class::<pre_tokenizers::PyMetaspace>()?;
    m.add_class::<pre_tokenizers::PyCharDelimiterSplit>()?;
--- a/bindings/python/src/pre_tokenizers.rs
+++ b/bindings/python/src/pre_tokenizers.rs
@ -12,6 +12,7 @@ use tk::pre_tokenizers::delimiter::CharDelimiterSplit;
 use tk::pre_tokenizers::digits::Digits;
 use tk::pre_tokenizers::metaspace::Metaspace;
 use tk::pre_tokenizers::punctuation::Punctuation;
 use tk::pre_tokenizers::split::Split;
 use tk::pre_tokenizers::unicode_scripts::UnicodeScripts;
 use tk::pre_tokenizers::whitespace::{Whitespace, WhitespaceSplit};
 use tk::pre_tokenizers::PreTokenizerWrapper;
@ -53,6 +54,7 @@ impl PyPreTokenizer {
                    PreTokenizerWrapper::Whitespace(_) => {
                        Py::new(py, (PyWhitespace {}, base))?.into_py(py)
                    }
                    PreTokenizerWrapper::Split(_) => Py::new(py, (PySplit {}, base))?.into_py(py),
                    PreTokenizerWrapper::Punctuation(_) => {
                        Py::new(py, (PyPunctuation {}, base))?.into_py(py)
                    }
@ -238,6 +240,48 @@ impl PyWhitespaceSplit {
    }
 }
 /// Split PreTokenizer
 ///
 /// This versatile pre-tokenizer splits using the provided pattern and
 /// according to the provided behavior. The pattern can be inverted by
 /// making use of the invert flag.
 ///
 /// Args:
 ///     pattern (:obj:`str` or :class:`~tokenizers.Regex`):
 ///         A pattern used to split the string. Usually a string or a Regex
 ///
 ///     behavior (:class:`~tokenizers.SplitDelimiterBehavior`):
 ///         The behavior to use when splitting.
 ///         Choices: "removed", "isolated", "merged_with_previous", "merged_with_next",
 ///         "contiguous"
 ///
 ///     invert (:obj:`bool`, `optional`, defaults to :obj:`False`):
 ///         Whether to invert the pattern.
 #[pyclass(extends=PyPreTokenizer, module = "tokenizers.pre_tokenizers", name=Split)]
 #[text_signature = "(self, pattern, behavior, invert=False)"]
 pub struct PySplit {}
 #[pymethods]
 impl PySplit {
    #[new]
    #[args(invert = false)]
    fn new(
        pattern: PyPattern,
        behavior: PySplitDelimiterBehavior,
        invert: bool,
    ) -> PyResult<(Self, PyPreTokenizer)> {
        Ok((
            PySplit {},
            ToPyResult(Split::new(pattern, behavior.into(), invert))
                .into_py()?
                .into(),
        ))
    }
    fn __getnewargs__<'p>(&self, py: Python<'p>) -> PyResult<&'p PyTuple> {
        Ok(PyTuple::new(py, &[" ", "removed"]))
    }
 }
 /// This pre-tokenizer simply splits on the provided char. Works like `.split(delimiter)`
 ///
 /// Args:
--- a/bindings/python/src/utils/normalization.rs
+++ b/bindings/python/src/utils/normalization.rs
@ -8,6 +8,7 @@ use pyo3::{PyMappingProtocol, PyObjectProtocol};
 use tk::normalizer::{char_to_bytes, NormalizedString, Range, SplitDelimiterBehavior};
 use tk::pattern::Pattern;
 /// Represents a Pattern as used by `NormalizedString`
 #[derive(Clone, FromPyObject)]
 pub enum PyPattern<'p> {
    #[pyo3(annotation = "str")]
@ -44,6 +45,15 @@ impl From<PyPattern<'_>> for tk::normalizers::replace::ReplacePattern {
    }
 }
 impl From<PyPattern<'_>> for tk::pre_tokenizers::split::SplitPattern {
    fn from(pattern: PyPattern<'_>) -> Self {
        match pattern {
            PyPattern::Str(s) => Self::String(s.to_owned()),
            PyPattern::Regex(r) => Python::with_gil(|py| Self::Regex(r.borrow(py).pattern.clone())),
        }
    }
 }
 #[derive(Debug, Clone, FromPyObject)]
 pub enum PyRange<'s> {
    #[pyo3(annotation = "int")]
--- a/bindings/python/tests/bindings/test_pre_tokenizers.py
+++ b/bindings/python/tests/bindings/test_pre_tokenizers.py
@ -13,6 +13,7 @@ from tokenizers.pre_tokenizers import (
    Sequence,
    Digits,
    UnicodeScripts,
    Split,
 )
@ -30,6 +31,22 @@ class TestByteLevel:
        assert len(ByteLevel.alphabet()) == 256
 class TestSplit:
    def test_instantiate(self):
        pre_tokenizer = Split(pattern=" ", behavior="removed")
        assert pre_tokenizer is not None
        assert isinstance(pre_tokenizer, PreTokenizer)
        assert isinstance(pre_tokenizer, Split)
        assert isinstance(pickle.loads(pickle.dumps(Split(" ", "removed"))), Split)
        # test with invert=True
        pre_tokenizer_with_invert = Split(pattern=" ", behavior="isolated", invert=True)
        assert pre_tokenizer_with_invert is not None
        assert isinstance(pre_tokenizer_with_invert, PreTokenizer)
        assert isinstance(pre_tokenizer_with_invert, Split)
        assert isinstance(pickle.loads(pickle.dumps(Split(" ", "removed", True))), Split)
 class TestWhitespace:
    def test_instantiate(self):
        assert Whitespace() is not None
--- a/docs/source/components.rst
+++ b/docs/source/components.rst
@ -21,6 +21,16 @@ to customize its behavior. This page lists most provided components.
        ``Sequence([NFKC(), Lowercase()])``
    PreTokenizer.Sequence
        ``Sequence([Punctuation(), WhitespaceSplit()])``
    SplitDelimiterBehavior.removed
        :obj:`removed`
    SplitDelimiterBehavior.isolated
        :obj:`isolated`
    SplitDelimiterBehavior.merged_with_previous
        :obj:`merged_with_previous`
    SplitDelimiterBehavior.merged_with_next
        :obj:`merged_with_next`
    SplitDelimiterBehavior.contiguous
        :obj:`contiguous`
 .. entities:: rust
@ -36,6 +46,16 @@ to customize its behavior. This page lists most provided components.
        ``Sequence::new(vec![NFKC, Lowercase])``
    PreTokenizer.Sequence
        ``Sequence::new(vec![Punctuation, WhitespaceSplit])``
    SplitDelimiterBehavior.removed
        :obj:`Removed`
    SplitDelimiterBehavior.isolated
        :obj:`Isolated`
    SplitDelimiterBehavior.merged_with_previous
        :obj:`MergedWithPrevious`
    SplitDelimiterBehavior.merged_with_next
        :obj:`MergedWithNext`
    SplitDelimiterBehavior.contiguous
        :obj:`Contiguous`
 .. entities:: node
@ -51,6 +71,16 @@ to customize its behavior. This page lists most provided components.
        ..
    PreTokenizer.Sequence
        ..
    SplitDelimiterBehavior.removed
        :obj:`removed`
    SplitDelimiterBehavior.isolated
        :obj:`isolated`
    SplitDelimiterBehavior.merged_with_previous
        :obj:`mergedWithPrevious`
    SplitDelimiterBehavior.merged_with_next
        :obj:`mergedWithNext`
    SplitDelimiterBehavior.contiguous
        :obj:`contiguous`
 Normalizers
 ----------------------------------------------------------------------------------------------------
@ -203,6 +233,27 @@ the ByteLevel)
       Output: ```"Hello", "123", "there"```
   * - Split
     - Versatile pre-tokenizer that splits on provided pattern and according to provided behavior.
       The pattern can be inverted if necessary.
         - pattern should be either a custom string or regexp.
         - behavior should be one of:
            * :entity:`SplitDelimiterBehavior.removed`
            * :entity:`SplitDelimiterBehavior.isolated`
            * :entity:`SplitDelimiterBehavior.merged_with_previous`
            * :entity:`SplitDelimiterBehavior.merged_with_next`
            * :entity:`SplitDelimiterBehavior.contiguous`
         - invert should be a boolean flag.
     - Example with `pattern` = :obj:`" "`, `behavior` = :obj:`"isolated"`, `invert` = :obj:`False`:
        Input: ``"Hello, how are you?"``
        Output: ```"Hello,", " ", "how", " ", "are", " ", "you?"```
   * - Sequence
     - Lets you compose multiple ``PreTokenizer`` that will be run in the given order
     - :entity:`PreTokenizer.Sequence`
--- a/tokenizers/src/normalizers/replace.rs
+++ b/tokenizers/src/normalizers/replace.rs
@ -21,7 +21,7 @@ impl From<&str> for ReplacePattern {
    }
 }
-/// We use this custom deserializer to provided the value for `regex` for `Replace`
+/// We use this custom deserializer to provide the value for `regex` for `Replace`
 #[doc(hidden)]
 #[derive(Deserialize)]
 #[serde(tag = "type")]
--- a/tokenizers/src/pre_tokenizers/mod.rs
+++ b/tokenizers/src/pre_tokenizers/mod.rs
@ -5,6 +5,7 @@ pub mod digits;
 pub mod metaspace;
 pub mod punctuation;
 pub mod sequence;
 pub mod split;
 pub mod unicode_scripts;
 pub mod whitespace;
@ -17,6 +18,7 @@ use crate::pre_tokenizers::digits::Digits;
 use crate::pre_tokenizers::metaspace::Metaspace;
 use crate::pre_tokenizers::punctuation::Punctuation;
 use crate::pre_tokenizers::sequence::Sequence;
 use crate::pre_tokenizers::split::Split;
 use crate::pre_tokenizers::unicode_scripts::UnicodeScripts;
 use crate::pre_tokenizers::whitespace::{Whitespace, WhitespaceSplit};
 use crate::{PreTokenizedString, PreTokenizer};
@ -30,6 +32,7 @@ pub enum PreTokenizerWrapper {
    Metaspace(Metaspace),
    Whitespace(Whitespace),
    Sequence(Sequence),
    Split(Split),
    Punctuation(Punctuation),
    WhitespaceSplit(WhitespaceSplit),
    Digits(Digits),
@ -46,6 +49,7 @@ impl PreTokenizer for PreTokenizerWrapper {
            PreTokenizerWrapper::Whitespace(wspt) => wspt.pre_tokenize(normalized),
            PreTokenizerWrapper::Punctuation(tok) => tok.pre_tokenize(normalized),
            PreTokenizerWrapper::Sequence(tok) => tok.pre_tokenize(normalized),
            PreTokenizerWrapper::Split(tok) => tok.pre_tokenize(normalized),
            PreTokenizerWrapper::WhitespaceSplit(wspt) => wspt.pre_tokenize(normalized),
            PreTokenizerWrapper::Digits(wspt) => wspt.pre_tokenize(normalized),
            PreTokenizerWrapper::UnicodeScripts(us) => us.pre_tokenize(normalized),
@ -59,6 +63,7 @@ impl_enum_from!(CharDelimiterSplit, PreTokenizerWrapper, Delimiter);
 impl_enum_from!(Whitespace, PreTokenizerWrapper, Whitespace);
 impl_enum_from!(Punctuation, PreTokenizerWrapper, Punctuation);
 impl_enum_from!(Sequence, PreTokenizerWrapper, Sequence);
 impl_enum_from!(Split, PreTokenizerWrapper, Split);
 impl_enum_from!(Metaspace, PreTokenizerWrapper, Metaspace);
 impl_enum_from!(WhitespaceSplit, PreTokenizerWrapper, WhitespaceSplit);
 impl_enum_from!(Digits, PreTokenizerWrapper, Digits);
--- a/tokenizers/src/pre_tokenizers/split.rs
+++ b/tokenizers/src/pre_tokenizers/split.rs
@ -0,0 +1,247 @@
 use onig::Regex;
 use serde::{Deserialize, Serialize};
 use crate::tokenizer::{
    pattern::Invert, PreTokenizedString, PreTokenizer, Result, SplitDelimiterBehavior,
 };
 /// Represents the different patterns that `Split` can use
 #[derive(Debug, Clone, PartialEq, Serialize, Deserialize)]
 pub enum SplitPattern {
    String(String),
    Regex(String),
 }
 impl From<String> for SplitPattern {
    fn from(v: String) -> Self {
        SplitPattern::String(v)
    }
 }
 impl From<&str> for SplitPattern {
    fn from(v: &str) -> Self {
        SplitPattern::String(v.to_owned())
    }
 }
 /// We use this custom deserializer to provide the value for `regex` for `Split`
 #[doc(hidden)]
 #[derive(Deserialize)]
 #[serde(tag = "type")]
 struct SplitDeserializer {
    pattern: SplitPattern,
    behavior: SplitDelimiterBehavior,
    invert: bool,
 }
 impl std::convert::TryFrom<SplitDeserializer> for Split {
    type Error = Box<dyn std::error::Error + Send + Sync>;
    fn try_from(v: SplitDeserializer) -> Result<Self> {
        Split::new(v.pattern, v.behavior, v.invert)
    }
 }
 #[derive(Debug, Serialize, Deserialize)]
 #[serde(tag = "type", try_from = "SplitDeserializer")]
 pub struct Split {
    pattern: SplitPattern,
    #[serde(skip)]
    regex: Regex,
    behavior: SplitDelimiterBehavior,
    invert: bool,
 }
 impl Clone for Split {
    fn clone(&self) -> Self {
        Split::new(self.pattern.clone(), self.behavior, self.invert).unwrap()
    }
 }
 impl PartialEq for Split {
    fn eq(&self, other: &Split) -> bool {
        self.pattern == other.pattern
            && self.behavior == other.behavior
            && self.invert == other.invert
    }
 }
 impl Split {
    pub fn new<I: Into<SplitPattern>>(
        pattern: I,
        behavior: SplitDelimiterBehavior,
        invert: bool,
    ) -> Result<Self> {
        let pattern: SplitPattern = pattern.into();
        let regex = match &pattern {
            SplitPattern::String(s) => Regex::new(&regex::escape(s))?,
            SplitPattern::Regex(r) => Regex::new(r)?,
        };
        Ok(Self {
            pattern,
            regex,
            behavior,
            invert,
        })
    }
 }
 impl PreTokenizer for Split {
    fn pre_tokenize(&self, pretokenized: &mut PreTokenizedString) -> Result<()> {
        if self.invert {
            pretokenized.split(|_, normalized| normalized.split(Invert(&self.regex), self.behavior))
        } else {
            pretokenized.split(|_, normalized| normalized.split(&self.regex, self.behavior))
        }
    }
 }
 #[cfg(test)]
 mod tests {
    use super::*;
    use crate::{OffsetReferential, OffsetType, PreTokenizer};
    use SplitDelimiterBehavior::*;
    #[test]
    fn basic() {
        let tests = vec![
            (
                Removed,
                "How are you doing?",
                vec![
                    ("How", (0, 3)),
                    ("are", (4, 7)),
                    ("you", (8, 11)),
                    ("doing", (12, 17)),
                    ("?", (17, 18)),
                ],
            ),
            (
                Isolated,
                "How are you doing?",
                vec![
                    ("How", (0, 3)),
                    (" ", (3, 4)),
                    ("are", (4, 7)),
                    (" ", (7, 8)),
                    ("you", (8, 11)),
                    (" ", (11, 12)),
                    ("doing", (12, 17)),
                    ("?", (17, 18)),
                ],
            ),
            (
                MergedWithPrevious,
                "How are you doing?",
                vec![
                    ("How ", (0, 4)),
                    ("are ", (4, 8)),
                    ("you ", (8, 12)),
                    ("doing", (12, 17)),
                    ("?", (17, 18)),
                ],
            ),
            (
                MergedWithNext,
                "How are you doing?",
                vec![
                    ("How", (0, 3)),
                    (" are", (3, 7)),
                    (" you", (7, 11)),
                    (" doing", (11, 17)),
                    ("?", (17, 18)),
                ],
            ),
            (
                Contiguous,
                "How are you doing?",
                vec![
                    ("How", (0, 3)),
                    (" ", (3, 4)),
                    ("are", (4, 7)),
                    (" ", (7, 8)),
                    ("you", (8, 11)),
                    (" ", (11, 12)),
                    ("doing?", (12, 18)),
                ],
            ),
        ];
        // use whitespace regex
        let regex = SplitPattern::Regex(r"\w+|[^\w\s]+".into());
        for (behavior, s, res) in tests {
            let mut pretokenized = PreTokenizedString::from(s);
            let pretok = Split::new(regex.clone(), behavior, true).unwrap();
            pretok.pre_tokenize(&mut pretokenized).unwrap();
            assert_eq!(
                pretokenized
                    .get_splits(OffsetReferential::Original, OffsetType::Byte)
                    .into_iter()
                    .map(|(s, o, _)| (s, o))
                    .collect::<Vec<_>>(),
                res
            );
        }
    }
    #[test]
    fn regex_string() {
        let mut pretok_str_for_regex = PreTokenizedString::from("Hey, man!");
        let mut pretok_str_for_string = pretok_str_for_regex.clone();
        // pre-tokenizer splits on " " - one from Regex, one from string
        let pretokenizer_regex = Split::new(
            SplitPattern::Regex(r"\s+".into()),
            SplitDelimiterBehavior::Removed,
            false,
        )
        .unwrap();
        let pretokenizer_string = Split::new(" ", SplitDelimiterBehavior::Removed, false).unwrap();
        pretokenizer_regex
            .pre_tokenize(&mut pretok_str_for_regex)
            .unwrap();
        pretokenizer_string
            .pre_tokenize(&mut pretok_str_for_string)
            .unwrap();
        assert_eq!(pretok_str_for_regex, pretok_str_for_string);
    }
    #[test]
    fn invert() {
        let mut pretok_str = PreTokenizedString::from("Hello Hello Hello");
        let mut pretok_str_for_invert = pretok_str.clone();
        // one pre-tokenizer splits on " " - one splits inverted on "Hello"
        let pretokenizer = Split::new(" ", SplitDelimiterBehavior::Removed, false).unwrap();
        let pretokenizer_invert =
            Split::new("Hello", SplitDelimiterBehavior::Removed, true).unwrap();
        pretokenizer.pre_tokenize(&mut pretok_str).unwrap();
        pretokenizer_invert
            .pre_tokenize(&mut pretok_str_for_invert)
            .unwrap();
        assert_eq!(pretok_str, pretok_str_for_invert);
    }
    #[test]
    fn serialization() {
        use SplitDelimiterBehavior::*;
        let split = Split::new("Hello", Removed, true).unwrap();
        let split_s =
            r#"{"type":"Split","pattern":{"String":"Hello"},"behavior":"Removed","invert":true}"#;
        assert_eq!(serde_json::to_string(&split).unwrap(), split_s);
        assert_eq!(serde_json::from_str::<Split>(split_s).unwrap(), split);
        let split = Split::new(SplitPattern::Regex(r"\s+".into()), Isolated, false).unwrap();
        let split_s =
            r#"{"type":"Split","pattern":{"Regex":"\\s+"},"behavior":"Isolated","invert":false}"#;
        assert_eq!(serde_json::to_string(&split).unwrap(), split_s);
        assert_eq!(serde_json::from_str::<Split>(split_s).unwrap(), split);
    }
 }
--- a/tokenizers/src/tokenizer/normalizer.rs
+++ b/tokenizers/src/tokenizer/normalizer.rs
@ -3,6 +3,8 @@ use crate::{Offsets, Result};
 use std::ops::{Bound, RangeBounds};
 use unicode_normalization_alignments::UnicodeNormalization;
 use serde::{Deserialize, Serialize};
 /// Add or Substract a signed isize on a usize. Makes sure of avoiding
 /// any substraction overflow, flooring at 0.
 macro_rules! apply_signed {
@ -89,7 +91,7 @@ where
 ///  - MergedWithPrevious => `[ "the-", "final-", "-", "countdown" ]`
 ///  - MergedWithNext => `[ "the", "-final", "-", "-countdown" ]`
 ///  - Contiguous => `[ "the", "-", "final", "--", "countdown" ]`
-#[derive(Debug, Clone, PartialEq)]
+#[derive(Debug, Clone, Copy, PartialEq, Serialize, Deserialize)]
 pub enum SplitDelimiterBehavior {
    Removed,
    Isolated,