Add tests for from_pretrained

2025-08-22 16:25:30 +00:00 · 2021-08-24 11:08:07 +02:00
parent ad7090a5c7
commit 35c96e5e3f
4 changed files with 93 additions and 1 deletions
--- a/bindings/node/lib/bindings/tokenizer.d.ts
+++ b/bindings/node/lib/bindings/tokenizer.d.ts
@ -7,6 +7,19 @@ import { PreTokenizer } from "./pre-tokenizers";
 import { RawEncoding } from "./raw-encoding";
 import { Trainer } from "./trainers";
 export interface FromPretrainedOptions {
  /**
   * The revision to download
   * @default "main"
   */
  revision?: string;
  /**
   * The auth token to use to access private repositories on the Hugging Face Hub
   * @default undefined
   */
  authToken?: string;
 }
 export interface TruncationOptions {
  /**
   * The length of the previous sequence to be included in the overflowing sequence
@ -128,8 +141,9 @@ export class Tokenizer {
   * Hugging Face Hub. Any model repo containing a `tokenizer.json`
   * can be used here.
   * @param identifier A model identifier on the Hub
   * @param options Additional options
   */
-  static fromPretrained(s: string): Tokenizer;
+  static fromPretrained(s: string, options?: FromPretrainedOptions): Tokenizer;
  /**
   * Add the given tokens to the vocabulary
--- a/bindings/node/lib/bindings/tokenizer.test.ts
+++ b/bindings/node/lib/bindings/tokenizer.test.ts
@ -95,6 +95,33 @@ describe("Tokenizer", () => {
    expect(typeof tokenizer.train).toBe("function");
  });
  it("can be instantiated from the hub", async () => {
    let tokenizer: Tokenizer;
    let encode: (
      sequence: InputSequence,
      pair?: InputSequence | null,
      options?: EncodeOptions | null
    ) => Promise<RawEncoding>;
    let output: RawEncoding;
    tokenizer = Tokenizer.fromPretrained("bert-base-cased");
    encode = promisify(tokenizer.encode.bind(tokenizer));
    output = await encode("Hey there dear friend!", null, { addSpecialTokens: false });
    expect(output.getTokens()).toEqual(["Hey", "there", "dear", "friend", "!"]);
    tokenizer = Tokenizer.fromPretrained("anthony/tokenizers-test");
    encode = promisify(tokenizer.encode.bind(tokenizer));
    output = await encode("Hey there dear friend!", null, { addSpecialTokens: false });
    expect(output.getTokens()).toEqual(["hey", "there", "dear", "friend", "!"]);
    tokenizer = Tokenizer.fromPretrained("anthony/tokenizers-test", {
      revision: "gpt-2",
    });
    encode = promisify(tokenizer.encode.bind(tokenizer));
    output = await encode("Hey there dear friend!", null, { addSpecialTokens: false });
    expect(output.getTokens()).toEqual(["Hey", "Ġthere", "Ġdear", "Ġfriend", "!"]);
  });
  describe("addTokens", () => {
    it("accepts a list of string as new tokens when initial model is empty", () => {
      const model = BPE.empty();
--- a/bindings/python/tests/bindings/test_tokenizer.py
+++ b/bindings/python/tests/bindings/test_tokenizer.py
@ -392,3 +392,17 @@ class TestTokenizer:
        tokenizer = Tokenizer(BPE())
        multiprocessing_with_parallelism(tokenizer, False)
        multiprocessing_with_parallelism(tokenizer, True)
    def test_from_pretrained(self):
        tokenizer = Tokenizer.from_pretrained("bert-base-cased")
        output = tokenizer.encode("Hey there dear friend!", add_special_tokens=False)
        assert output.tokens == ["Hey", "there", "dear", "friend", "!"]
    def test_from_pretrained_revision(self):
        tokenizer = Tokenizer.from_pretrained("anthony/tokenizers-test")
        output = tokenizer.encode("Hey there dear friend!", add_special_tokens=False)
        assert output.tokens == ["hey", "there", "dear", "friend", "!"]
        tokenizer = Tokenizer.from_pretrained("anthony/tokenizers-test", revision="gpt-2")
        output = tokenizer.encode("Hey there dear friend!", add_special_tokens=False)
        assert output.tokens == ["Hey", "Ġthere", "Ġdear", "Ġfriend", "!"]
--- a/tokenizers/tests/from_pretrained.rs
+++ b/tokenizers/tests/from_pretrained.rs
@ -0,0 +1,37 @@
 use tokenizers::{FromPretrainedParameters, Result, Tokenizer};
 #[test]
 fn test_from_pretrained() -> Result<()> {
    let tokenizer = Tokenizer::from_pretrained("bert-base-cased", None)?;
    let encoding = tokenizer.encode("Hey there dear friend!", false)?;
    assert_eq!(
        encoding.get_tokens(),
        &["Hey", "there", "dear", "friend", "!"]
    );
    Ok(())
 }
 #[test]
 fn test_from_pretrained_revision() -> Result<()> {
    let tokenizer = Tokenizer::from_pretrained("anthony/tokenizers-test", None)?;
    let encoding = tokenizer.encode("Hey there dear friend!", false)?;
    assert_eq!(
        encoding.get_tokens(),
        &["hey", "there", "dear", "friend", "!"]
    );
    let tokenizer = Tokenizer::from_pretrained(
        "anthony/tokenizers-test",
        Some(FromPretrainedParameters {
            revision: "gpt-2".to_string(),
            ..Default::default()
        }),
    )?;
    let encoding = tokenizer.encode("Hey there dear friend!", false)?;
    assert_eq!(
        encoding.get_tokens(),
        &["Hey", "Ġthere", "Ġdear", "Ġfriend", "!"]
    );
    Ok(())
 }