Addressing comments:

- Remote Deduplication in favor of WhitespaceSplit. - Updated comments
2025-12-07 05:08:24 +00:00 · 2020-08-22 10:04:53 +02:00
parent 1f65b4393c
commit 857948e5b8
6 changed files with 5 additions and 73 deletions
--- a/bindings/python/py_src/tokenizers/pre_tokenizers/init.pyi
+++ b/bindings/python/py_src/tokenizers/pre_tokenizers/init.pyi
@@ -108,20 +108,10 @@ class CharDelimiterSplit(PreTokenizer):
        """
        pass

-class Deduplication(PreTokenizer):
-    """ Deduplication PreTokenizer
-
-    This pre-tokenizer simply splits using the following regex: `\w+|[^\w\s]+`
-    """
-
-    def __init__(self) -> None:
-        """ Instantiate a new Deduplication PreTokenizer """
-        pass
-
 class Punctuation(PreTokenizer):
    """ Punctuation PreTokenizer

-    This pre-tokenizer simply splits using the following regex: `\w+|[^\w\s]+`
+    This pre-tokenizer simply splits on punctuation as individual characters.`
    """

    def __init__(self) -> None:
@@ -131,7 +121,7 @@ class Punctuation(PreTokenizer):
 class Sequence(PreTokenizer):
    """ Sequence PreTokenizer

-    This pre-tokenizer simply splits using the following regex: `\w+|[^\w\s]+`
+    This pre-tokenizer composes other pre_tokenizers and applies them in sequence`
    """

    def __init__(self) -> None:
--- a/bindings/python/src/pre_tokenizers.rs
+++ b/bindings/python/src/pre_tokenizers.rs
@@ -8,11 +8,9 @@ use serde::{Deserialize, Deserializer, Serialize, Serializer};

 use tk::pre_tokenizers::bert::BertPreTokenizer;
 use tk::pre_tokenizers::byte_level::ByteLevel;
-use tk::pre_tokenizers::deduplication::Deduplication;
 use tk::pre_tokenizers::delimiter::CharDelimiterSplit;
 use tk::pre_tokenizers::metaspace::Metaspace;
 use tk::pre_tokenizers::punctuation::Punctuation;
-// use tk::pre_tokenizers::sequence::Sequence;
 use tk::pre_tokenizers::whitespace::{Whitespace, WhitespaceSplit};
 use tk::pre_tokenizers::PreTokenizerWrapper;
 use tk::tokenizer::Offsets;
@@ -47,9 +45,6 @@ impl PyPreTokenizer {
                PreTokenizerWrapper::Whitespace(_) => {
                    Py::new(py, (PyWhitespace {}, base)).map(Into::into)
                }
-                PreTokenizerWrapper::Deduplication(_) => {
-                    Py::new(py, (PyDeduplication {}, base)).map(Into::into)
-                }
                PreTokenizerWrapper::Punctuation(_) => {
                    Py::new(py, (PyPunctuation {}, base)).map(Into::into)
                }
@@ -217,16 +212,6 @@ impl PyBertPreTokenizer {
    }
 }

-#[pyclass(extends=PyPreTokenizer, module = "tokenizers.pre_tokenizers", name=Deduplication)]
-pub struct PyDeduplication {}
-#[pymethods]
-impl PyDeduplication {
-    #[new]
-    fn new() -> PyResult<(Self, PyPreTokenizer)> {
-        Ok((PyDeduplication {}, Deduplication.into()))
-    }
-}
-
 #[pyclass(extends=PyPreTokenizer, module = "tokenizers.pre_tokenizers", name=Punctuation)]
 pub struct PyPunctuation {}
 #[pymethods]
--- a/tokenizers/src/pre_tokenizers/deduplication.rs
+++ b/tokenizers/src/pre_tokenizers/deduplication.rs
@@ -1,38 +0,0 @@
-use crate::tokenizer::{PreTokenizedString, PreTokenizer, Result, SplitDelimiterBehavior};
-
-#[derive(Copy, Clone, Debug)]
-pub struct Deduplication;
-impl_serde_unit_struct!(DeduplicationVisitor, Deduplication);
-
-impl PreTokenizer for Deduplication {
-    fn pre_tokenize(&self, pretokenized: &mut PreTokenizedString) -> Result<()> {
-        pretokenized.split(|_, s| s.split(char::is_whitespace, SplitDelimiterBehavior::Removed))
-    }
-}
-
-#[cfg(test)]
-mod tests {
-    use super::*;
-    use crate::OffsetReferential;
-
-    #[test]
-    fn deduplication_basic() {
-        let pretok = Deduplication;
-        let mut pretokenized: PreTokenizedString = "Hey friend!     How are you?!?".into();
-        pretok.pre_tokenize(&mut pretokenized).unwrap();
-        assert_eq!(
-            pretokenized
-                .get_splits(OffsetReferential::Original)
-                .into_iter()
-                .map(|(s, o, _)| (s, o))
-                .collect::<Vec<_>>(),
-            vec![
-                ("Hey", (0, 3)),
-                ("friend!", (4, 11)),
-                ("How", (16, 19)),
-                ("are", (20, 23)),
-                ("you?!?", (24, 30)),
-            ]
-        );
-    }
-}
--- a/tokenizers/src/pre_tokenizers/mod.rs
+++ b/tokenizers/src/pre_tokenizers/mod.rs
@@ -1,6 +1,5 @@
 pub mod bert;
 pub mod byte_level;
-pub mod deduplication;
 pub mod delimiter;
 pub mod metaspace;
 pub mod punctuation;
@@ -11,7 +10,6 @@ use serde::{Deserialize, Serialize};

 use crate::pre_tokenizers::bert::BertPreTokenizer;
 use crate::pre_tokenizers::byte_level::ByteLevel;
-use crate::pre_tokenizers::deduplication::Deduplication;
 use crate::pre_tokenizers::delimiter::CharDelimiterSplit;
 use crate::pre_tokenizers::metaspace::Metaspace;
 use crate::pre_tokenizers::punctuation::Punctuation;
@@ -28,7 +26,6 @@ pub enum PreTokenizerWrapper {
    Metaspace(Metaspace),
    Whitespace(Whitespace),
    Sequence(Sequence),
-    Deduplication(Deduplication),
    Punctuation(Punctuation),
    WhitespaceSplit(WhitespaceSplit),
 }
@@ -41,7 +38,6 @@ impl PreTokenizer for PreTokenizerWrapper {
            PreTokenizerWrapper::Delimiter(dpt) => dpt.pre_tokenize(normalized),
            PreTokenizerWrapper::Metaspace(mspt) => mspt.pre_tokenize(normalized),
            PreTokenizerWrapper::Whitespace(wspt) => wspt.pre_tokenize(normalized),
-            PreTokenizerWrapper::Deduplication(tok) => tok.pre_tokenize(normalized),
            PreTokenizerWrapper::Punctuation(tok) => tok.pre_tokenize(normalized),
            PreTokenizerWrapper::Sequence(tok) => tok.pre_tokenize(normalized),
            PreTokenizerWrapper::WhitespaceSplit(wspt) => wspt.pre_tokenize(normalized),
@@ -53,7 +49,6 @@ impl_enum_from!(BertPreTokenizer, PreTokenizerWrapper, BertPreTokenizer);
 impl_enum_from!(ByteLevel, PreTokenizerWrapper, ByteLevel);
 impl_enum_from!(CharDelimiterSplit, PreTokenizerWrapper, Delimiter);
 impl_enum_from!(Whitespace, PreTokenizerWrapper, Whitespace);
-impl_enum_from!(Deduplication, PreTokenizerWrapper, Deduplication);
 impl_enum_from!(Punctuation, PreTokenizerWrapper, Punctuation);
 impl_enum_from!(Sequence, PreTokenizerWrapper, Sequence);
 impl_enum_from!(Metaspace, PreTokenizerWrapper, Metaspace);
--- a/tokenizers/src/pre_tokenizers/punctuation.rs
+++ b/tokenizers/src/pre_tokenizers/punctuation.rs
@@ -11,7 +11,7 @@ impl_serde_unit_struct!(PunctuationVisitor, Punctuation);

 impl PreTokenizer for Punctuation {
    fn pre_tokenize(&self, pretokenized: &mut PreTokenizedString) -> Result<()> {
-        pretokenized.split(|_, s| s.split(is_bert_punc, SplitDelimiterBehavior::Isolated))
+        pretokenized.split(|_, s| s.split(is_punc, SplitDelimiterBehavior::Isolated))
    }
 }

--- a/tokenizers/src/pre_tokenizers/sequence.rs
+++ b/tokenizers/src/pre_tokenizers/sequence.rs
@@ -26,13 +26,13 @@ impl PreTokenizer for Sequence {
 #[cfg(test)]
 mod tests {
    use super::*;
-    use crate::pre_tokenizers::{deduplication::Deduplication, punctuation::Punctuation};
+    use crate::pre_tokenizers::{punctuation::Punctuation, whitespace::WhitespaceSplit};
    use crate::OffsetReferential;

    #[test]
    fn sequence_basic() {
        let pretokenizers = vec![
-            PreTokenizerWrapper::Deduplication(Deduplication),
+            PreTokenizerWrapper::WhitespaceSplit(WhitespaceSplit),
            PreTokenizerWrapper::Punctuation(Punctuation),
        ];
        let pretok = Sequence::new(pretokenizers);