Models handles offsets

2025-08-22 16:25:30 +00:00 · 2019-12-28 15:21:29 -05:00
parent 839239d3b4
commit 5d9848ad6c
1 changed files with 2 additions and 1 deletions
--- a/tokenizers/src/tokenizer/mod.rs
+++ b/tokenizers/src/tokenizer/mod.rs
@ -32,6 +32,7 @@ pub type Result<T> = std::result::Result<T, Box<dyn std::error::Error + Send + S
 pub trait Normalizer {
    fn normalize(&self, s: String) -> Result<String>;
 }
+pub type Offsets = (usize, usize);

 /// A PreTokenizer takes care of pre-tokenizing strings before this goes to the model
 pub trait PreTokenizer {
@ -41,7 +42,7 @@ pub trait PreTokenizer {

 /// Represents a `Model` used during Tokenization (Like BPE or Word or Unigram)
 pub trait Model {
-    fn tokenize(&self, tokens: Vec<String>) -> Result<Vec<Token>>;
+    fn tokenize(&self, tokens: Vec<(String, Offsets)>) -> Result<Vec<Token>>;
    fn token_to_id(&self, token: &str) -> Option<u32>;
    fn id_to_token(&self, id: u32) -> Option<String>;
    fn get_vocab_size(&self) -> usize;