Python - Bump version for dev4 release

2025-12-07 21:28:19 +00:00 · 2020-09-24 10:16:18 -04:00
parent a410903051
commit 171a042ee0
6 changed files with 43 additions and 5 deletions
--- a/bindings/python/CHANGELOG.md
+++ b/bindings/python/CHANGELOG.md
@@ -4,7 +4,7 @@ All notable changes to this project will be documented in this file.
 The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.0.0/),
 and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0.html).

-## [0.9.0-dev1]
+## [0.9.0-dev4]

 ### Fixed
 - [#362]: Fix training deadlock with Python components.
--- a/bindings/python/Cargo.lock
+++ b/bindings/python/Cargo.lock
@@ -890,7 +890,7 @@ dependencies = [

 [[package]]
 name = "tokenizers-python"
-version = "0.9.0-dev1"
+version = "0.9.0-dev4"
 dependencies = [
 "env_logger 0.7.1 (registry+https://github.com/rust-lang/crates.io-index)",
 "libc 0.2.77 (registry+https://github.com/rust-lang/crates.io-index)",
--- a/bindings/python/Cargo.toml
+++ b/bindings/python/Cargo.toml
@@ -1,6 +1,6 @@
 [package]
 name = "tokenizers-python"
-version = "0.9.0-dev1"
+version = "0.9.0-dev4"
 authors = ["Anthony MOI <m.anthony.moi@gmail.com>"]
 edition = "2018"

--- a/bindings/python/examples/test.py
+++ b/bindings/python/examples/test.py
@@ -0,0 +1,38 @@
+# from tokenizers import Tokenizer
+# from tokenizers.models import BPE
+# from tokenizers.pre_tokenizers import ByteLevel
+# from tokenizers.normalizers import NFKC, NFC, Lowercase, Sequence
+#
+# tok = Tokenizer(BPE("../../data/roberta-base-vocab.json", "../../data/roberta-base-merges.txt"))
+# tok.pre_tokenizer = ByteLevel()
+# tok.normalizer = Sequence([NFC(), NFKC()])
+#
+# tok.save("THE_TEST.tokenizer.json", pretty=True)
+# print(tok.encode("𝕿𝖍𝖊 𝖖𝖚𝖎𝖈𝖐, 𝖇𝖗𝖔𝖜𝖓 🦊 𝖏𝖚𝖒𝖕𝖘 𝖔𝖛𝖊𝖗 𝖙𝖍𝖊 𝖑𝖆𝖟𝖞 🐶").tokens)
+#
+# tok = Tokenizer.from_file("THE_TEST.tokenizer.json")
+# # with open("THE_TEST.tokenizer.json", "r") as f:
+# #     t = f.read()
+# #     tok = Tokenizer.from_str(t)
+# print(tok.encode("𝕿𝖍𝖊 𝖖𝖚𝖎𝖈𝖐, 𝖇𝖗𝖔𝖜𝖓 🦊 𝖏𝖚𝖒𝖕𝖘 𝖔𝖛𝖊𝖗 𝖙𝖍𝖊 𝖑𝖆𝖟𝖞 🐶").tokens)
+
+from tokenizers import Tokenizer
+from tokenizers.implementations import BaseTokenizer
+from transformers import PreTrainedTokenizerFast, LineByLineTextDataset
+
+# tokenizer = Tokenizer(
+#     BPE("../../data/roberta-base-vocab.json", "../../data/roberta-base-merges.txt")
+# )
+tokenizer = Tokenizer.from_file("../../data/roberta-tok.tokenizer")
+print(tokenizer.encode("Hello there!").tokens)
+
+tok_transformers = PreTrainedTokenizerFast(BaseTokenizer(tokenizer))
+print(tok_transformers.tokenize("Hello there!"))
+
+dataset = LineByLineTextDataset(tokenizer=tok_transformers, file_path="../../data/botchan.txt", block_size=12)
+
+
+# tokenizer = ByteLevelBPETokenizer.from_files(
+#     "../../data/roberta-base-vocab.json", "../../data/roberta-base-merges.txt"
+# )
+# print(tokenizer.encode("Hello there!").tokens)
--- a/bindings/python/py_src/tokenizers/init.py
+++ b/bindings/python/py_src/tokenizers/init.py
@@ -1,4 +1,4 @@
-__version__ = "0.9.0.dev1"
+__version__ = "0.9.0.dev4"

 from typing import Tuple, Union, Tuple, List
 from enum import Enum
--- a/bindings/python/setup.py
+++ b/bindings/python/setup.py
@@ -6,7 +6,7 @@ extras["testing"] = ["pytest"]

 setup(
    name="tokenizers",
-    version="0.9.0.dev3",
+    version="0.9.0.dev4",
    description="Fast and Customizable Tokenizers",
    long_description=open("README.md", "r", encoding="utf-8").read(),
    long_description_content_type="text/markdown",