Adding Replace to decoder (to undo the Replace Normalizer for (#1195)

Metaspace split).
2025-08-22 16:25:30 +00:00 · 2023-03-23 23:43:47 +01:00
parent 178e294a6a
commit 250d46c676
10 changed files with 135 additions and 1 deletions
--- a/bindings/node/lib/bindings/decoders.d.ts
+++ b/bindings/node/lib/bindings/decoders.d.ts
@ -12,6 +12,13 @@ interface Decoder {
 */
 export function byteLevelDecoder(): Decoder;
 /**
 * Instantiate a new Replace Decoder
 * @param [pattern] The pattern to replace
 * @param [content] The replacement.
 */
 export function replaceDecoder(pattern: string, content: string): Decoder;
 /**
 * Instantiate a new WordPiece Decoder
 * @param [prefix='##'] The prefix to use for subwords that are not a beginning-of-word
--- a/bindings/node/lib/bindings/decoders.js
+++ b/bindings/node/lib/bindings/decoders.js
@ -2,6 +2,7 @@ const native = require("./native");
 module.exports = {
  byteLevelDecoder: native.decoders_ByteLevel,
  replaceDecoder: native.decoders_Replace,
  wordPieceDecoder: native.decoders_WordPiece,
  byteFallbackDecoder: native.decoders_ByteFallback,
  metaspaceDecoder: native.decoders_Metaspace,
--- a/bindings/node/lib/bindings/decoders.test.ts
+++ b/bindings/node/lib/bindings/decoders.test.ts
@ -3,6 +3,7 @@ import {
  byteFallbackDecoder,
  ctcDecoder,
  metaspaceDecoder,
  replaceDecoder,
  sequenceDecoder,
  wordPieceDecoder,
 } from "./decoders";
@ -44,6 +45,12 @@ describe("byteFallbackDecoder", () => {
  });
 });
 describe("replaceDecoder", () => {
  it("can decode arrays of strings", () => {
    expect(replaceDecoder("_", " ").decode(["Hello", "_Hello"])).toEqual("Hello Hello");
  });
 });
 describe("metaspaceDecoder", () => {
  it("accepts `undefined` as first parameter", () => {
    expect(metaspaceDecoder(undefined)).toBeDefined();
--- a/bindings/node/native/src/decoders.rs
+++ b/bindings/node/native/src/decoders.rs
@ -57,6 +57,20 @@ fn byte_level(mut cx: FunctionContext) -> JsResult<JsDecoder> {
    Ok(decoder)
 }
 /// replace()
 fn replace(mut cx: FunctionContext) -> JsResult<JsDecoder> {
    let pattern: String = cx.extract::<String>(0)?;
    let content: String = cx.extract::<String>(1)?;
    let mut decoder = JsDecoder::new::<_, JsDecoder, _>(&mut cx, vec![])?;
    let guard = cx.lock();
    decoder.borrow_mut(&guard).decoder = Some(Arc::new(
        tk::normalizers::replace::Replace::new(pattern, content)
            .map_err(|e| Error(e.to_string()))?
            .into(),
    ));
    Ok(decoder)
 }
 /// wordpiece(prefix: String = "##", cleanup: bool)
 fn wordpiece(mut cx: FunctionContext) -> JsResult<JsDecoder> {
    let prefix = cx
@ -156,6 +170,7 @@ fn sequence(mut cx: FunctionContext) -> JsResult<JsDecoder> {
 /// Register everything here
 pub fn register(m: &mut ModuleContext, prefix: &str) -> NeonResult<()> {
    m.export_function(&format!("{}_ByteLevel", prefix), byte_level)?;
    m.export_function(&format!("{}_Replace", prefix), replace)?;
    m.export_function(&format!("{}_WordPiece", prefix), wordpiece)?;
    m.export_function(&format!("{}_ByteFallback", prefix), byte_fallback)?;
    m.export_function(&format!("{}_Metaspace", prefix), metaspace)?;
--- a/bindings/python/py_src/tokenizers/decoders/init.py
+++ b/bindings/python/py_src/tokenizers/decoders/init.py
@ -3,6 +3,7 @@ from .. import decoders
 Decoder = decoders.Decoder
 ByteLevel = decoders.ByteLevel
 Replace = decoders.Replace
 WordPiece = decoders.WordPiece
 ByteFallback = decoders.ByteFallback
 Metaspace = decoders.Metaspace
--- a/bindings/python/py_src/tokenizers/decoders/init.pyi
+++ b/bindings/python/py_src/tokenizers/decoders/init.pyi
@ -150,6 +150,29 @@ class Metaspace(Decoder):
        """
        pass
 class Replace(Decoder):
    """
    Replace Decoder
    This decoder is to be used in tandem with the :class:`~tokenizers.pre_tokenizers.Replace`
    :class:`~tokenizers.pre_tokenizers.PreTokenizer`.
    """
    def __init__(self, pattern, content):
        pass
    def decode(self, tokens):
        """
        Decode the given list of tokens to a final string
        Args:
            tokens (:obj:`List[str]`):
                The list of tokens to decode
        Returns:
            :obj:`str`: The decoded string
        """
        pass
 class Sequence(Decoder):
    """
    Sequence Decoder
--- a/bindings/python/src/decoders.rs
+++ b/bindings/python/src/decoders.rs
@ -1,6 +1,7 @@
 use std::sync::{Arc, RwLock};
 use crate::utils::PyChar;
 use crate::utils::PyPattern;
 use pyo3::exceptions;
 use pyo3::prelude::*;
 use pyo3::types::*;
@ -14,6 +15,7 @@ use tk::decoders::metaspace::Metaspace;
 use tk::decoders::sequence::Sequence;
 use tk::decoders::wordpiece::WordPiece;
 use tk::decoders::DecoderWrapper;
 use tk::normalizers::replace::Replace;
 use tk::Decoder;
 use tokenizers as tk;
@ -46,6 +48,7 @@ impl PyDecoder {
                    Py::new(py, (PyByteFallbackDec {}, base))?.into_py(py)
                }
                DecoderWrapper::ByteLevel(_) => Py::new(py, (PyByteLevelDec {}, base))?.into_py(py),
                DecoderWrapper::Replace(_) => Py::new(py, (PyReplaceDec {}, base))?.into_py(py),
                DecoderWrapper::BPE(_) => Py::new(py, (PyBPEDecoder {}, base))?.into_py(py),
                DecoderWrapper::CTC(_) => Py::new(py, (PyCTCDecoder {}, base))?.into_py(py),
                DecoderWrapper::Sequence(_) => {
@ -159,6 +162,24 @@ impl PyByteLevelDec {
    }
 }
 /// Replace Decoder
 ///
 /// This decoder is to be used in tandem with the :class:`~tokenizers.pre_tokenizers.Replace`
 /// :class:`~tokenizers.pre_tokenizers.PreTokenizer`.
 #[pyclass(extends=PyDecoder, module = "tokenizers.decoders", name = "Replace")]
 #[pyo3(text_signature = "(self, pattern, content)")]
 pub struct PyReplaceDec {}
 #[pymethods]
 impl PyReplaceDec {
    #[new]
    fn new(pattern: PyPattern, content: String) -> PyResult<(Self, PyDecoder)> {
        Ok((
            PyReplaceDec {},
            ToPyResult(Replace::new(pattern, content)).into_py()?.into(),
        ))
    }
 }
 /// WordPiece Decoder
 ///
 /// Args:
@ -473,6 +494,7 @@ impl Decoder for PyDecoderWrapper {
 pub fn decoders(_py: Python, m: &PyModule) -> PyResult<()> {
    m.add_class::<PyDecoder>()?;
    m.add_class::<PyByteLevelDec>()?;
    m.add_class::<PyReplaceDec>()?;
    m.add_class::<PyWordPieceDec>()?;
    m.add_class::<PyByteFallbackDec>()?;
    m.add_class::<PyMetaspaceDec>()?;
--- a/bindings/python/tests/bindings/test_decoders.py
+++ b/bindings/python/tests/bindings/test_decoders.py
@ -3,7 +3,17 @@ import pickle
 import pytest
-from tokenizers.decoders import CTC, BPEDecoder, ByteLevel, Decoder, Metaspace, Sequence, WordPiece, ByteFallback
+from tokenizers.decoders import (
    CTC,
    BPEDecoder,
    ByteLevel,
    Decoder,
    Metaspace,
    Sequence,
    WordPiece,
    ByteFallback,
    Replace,
 )
 class TestByteLevel:
@ -24,6 +34,18 @@ class TestByteLevel:
        assert isinstance(reloaded, ByteLevel)
 class TestReplace:
    def test_instantiate(self):
        assert Replace("_", " ") is not None
        assert isinstance(Replace("_", " "), Decoder)
        assert isinstance(Replace("_", " "), Replace)
        # assert isinstance(pickle.loads(pickle.dumps(Replace("_", " "))), Replace)
    def test_decoding(self):
        decoder = Replace("_", " ")
        assert decoder.decode(["My", "_name", "_is", "_John"]) == "My name is John"
 class TestWordPiece:
    def test_instantiate(self):
        assert WordPiece() is not None
--- a/tokenizers/src/decoders/mod.rs
+++ b/tokenizers/src/decoders/mod.rs
@ -15,6 +15,7 @@ use crate::decoders::byte_fallback::ByteFallback;
 use crate::decoders::ctc::CTC;
 use crate::decoders::sequence::Sequence;
 use crate::decoders::wordpiece::WordPiece;
 use crate::normalizers::replace::Replace;
 use crate::pre_tokenizers::byte_level::ByteLevel;
 use crate::pre_tokenizers::metaspace::Metaspace;
 use crate::{Decoder, Result};
@ -28,6 +29,7 @@ pub enum DecoderWrapper {
    Metaspace(Metaspace),
    CTC(CTC),
    Sequence(Sequence),
    Replace(Replace),
    // XXX: This is an untagged enum, which unfortunately means order
    // is **CRITICAL**. We absolutely need to make sure order is correct.
    // Since byte fallback is parameter free, is **has** to be last, and will
@ -44,6 +46,7 @@ impl Decoder for DecoderWrapper {
            Self::WordPiece(wp) => wp.decode_chain(tokens),
            Self::CTC(ctc) => ctc.decode_chain(tokens),
            Self::Sequence(seq) => seq.decode_chain(tokens),
            Self::Replace(seq) => seq.decode_chain(tokens),
            Self::ByteFallback(bf) => bf.decode_chain(tokens),
        }
    }
@ -56,6 +59,7 @@ impl_enum_from!(Metaspace, DecoderWrapper, Metaspace);
 impl_enum_from!(WordPiece, DecoderWrapper, WordPiece);
 impl_enum_from!(CTC, DecoderWrapper, CTC);
 impl_enum_from!(Sequence, DecoderWrapper, Sequence);
 impl_enum_from!(Replace, DecoderWrapper, Replace);
 #[cfg(test)]
 mod tests {
--- a/tokenizers/src/normalizers/replace.rs
+++ b/tokenizers/src/normalizers/replace.rs
@ -1,3 +1,5 @@
 use crate::tokenizer::pattern::Pattern;
 use crate::tokenizer::Decoder;
 use crate::tokenizer::{NormalizedString, Normalizer, Result};
 use crate::utils::SysRegex;
 use serde::{Deserialize, Serialize};
@ -83,6 +85,26 @@ impl Normalizer for Replace {
    }
 }
 impl Decoder for Replace {
    fn decode_chain(&self, tokens: Vec<String>) -> Result<Vec<String>> {
        tokens
            .into_iter()
            .map(|token| -> Result<String> {
                let mut new_token = "".to_string();
                for ((start, stop), is_match) in (&self.regex).find_matches(&token)? {
                    if is_match {
                        new_token.push_str(&self.content);
                    } else {
                        new_token.push_str(&token[start..stop]);
                    }
                }
                Ok(new_token)
            })
            .collect()
    }
 }
 #[cfg(test)]
 mod tests {
    use super::*;
@ -124,4 +146,14 @@ mod tests {
        assert_eq!(serde_json::to_string(&replace).unwrap(), replace_s);
        assert_eq!(serde_json::from_str::<Replace>(replace_s).unwrap(), replace);
    }
    #[test]
    fn test_replace_decode() {
        let original = vec!["hello".to_string(), "_hello".to_string()];
        let replace = Replace::new("_", " ").unwrap();
        assert_eq!(
            replace.decode_chain(original).unwrap(),
            vec!["hello", " hello"]
        );
    }
 }