English | 简体中文 | 繁體中文 | 한국어 | Español | 日本語 | हिन्दी | Русский | Рortuguês | తెలుగు | Français | Deutsch | Tiếng Việt | العربية | اردو |
🤗 Transformers 提供了數以千計的預訓練模型,支援 100 多種語言的文本分類、資訊擷取、問答、摘要、翻譯、文本生成。它的宗旨是讓最先進的 NLP 技術人人易用。
🤗 Transformers 提供了便於快速下載和使用的API,讓你可以將預訓練模型用在給定文本、在你的資料集上微調然後經由 model hub 與社群共享。同時,每個定義的 Python 模組架構均完全獨立,方便修改和快速研究實驗。
🤗 Transformers 支援三個最熱門的深度學習函式庫: Jax, PyTorch 以及 TensorFlow — 並與之完美整合。你可以直接使用其中一個框架訓練你的模型,然後用另一個載入和推論。
你可以直接在 model hub 上測試大多數的模型。我們也提供了 私有模型託管、模型版本管理以及推論API。
這裡是一些範例:
- 用 BERT 做遮蓋填詞
- 用 Electra 做專有名詞辨識
- 用 GPT-2 做文本生成
- 用 RoBERTa 做自然語言推論
- 用 BART 做文本摘要
- 用 DistilBERT 做問答
- 用 T5 做翻譯
Write With Transformer,由 Hugging Face 團隊所打造,是一個文本生成的官方 demo。
我們為快速使用模型提供了 pipeline
API。 Pipeline 包含了預訓練模型和對應的文本預處理。下面是一個快速使用 pipeline 去判斷正負面情緒的例子:
>>> from transformers import pipeline
# 使用情緒分析 pipeline
>>> classifier = pipeline('sentiment-analysis')
>>> classifier('We are very happy to introduce pipeline to the transformers repository.')
[{'label': 'POSITIVE', 'score': 0.9996980428695679}]
第二行程式碼下載並快取 pipeline 使用的預訓練模型,而第三行程式碼則在給定的文本上進行了評估。這裡的答案“正面” (positive) 具有 99.97% 的信賴度。
許多的 NLP 任務都有隨選即用的預訓練 pipeline
。例如,我們可以輕鬆地從給定文本中擷取問題答案:
>>> from transformers import pipeline
# 使用問答 pipeline
>>> question_answerer = pipeline('question-answering')
>>> question_answerer({
... 'question': 'What is the name of the repository ?',
... 'context': 'Pipeline has been included in the huggingface/transformers repository'
... })
{'score': 0.30970096588134766, 'start': 34, 'end': 58, 'answer': 'huggingface/transformers'}
除了提供問題解答,預訓練模型還提供了對應的信賴度分數以及解答在 tokenized 後的文本中開始和結束的位置。你可以從這個教學了解更多 pipeline
API支援的任務。
要在你的任務中下載和使用任何預訓練模型很簡單,只需三行程式碼。這裡是 PyTorch 版的範例:
>>> from transformers import AutoTokenizer, AutoModel
>>> tokenizer = AutoTokenizer.from_pretrained("google-bert/bert-base-uncased")
>>> model = AutoModel.from_pretrained("google-bert/bert-base-uncased")
>>> inputs = tokenizer("Hello world!", return_tensors="pt")
>>> outputs = model(**inputs)
這裡是對應的 TensorFlow 程式碼:
>>> from transformers import AutoTokenizer, TFAutoModel
>>> tokenizer = AutoTokenizer.from_pretrained("google-bert/bert-base-uncased")
>>> model = TFAutoModel.from_pretrained("google-bert/bert-base-uncased")
>>> inputs = tokenizer("Hello world!", return_tensors="tf")
>>> outputs = model(**inputs)
Tokenizer 為所有的預訓練模型提供了預處理,並可以直接轉換單一字串(比如上面的例子)或串列 (list)。它會輸出一個的字典 (dict) 讓你可以在下游程式碼裡使用或直接藉由 **
運算式傳給模型。
模型本身是一個常規的 Pytorch nn.Module
或 TensorFlow tf.keras.Model
(取決於你的後端),可依常規方式使用。 這個教學解釋了如何將這樣的模型整合到一般的 PyTorch 或 TensorFlow 訓練迴圈中,或是如何使用我們的 Trainer
API 在一個新的資料集上快速進行微調。
-
便於使用的先進模型:
- NLU 和 NLG 上性能卓越
- 對教學和實作友好且低門檻
- 高度抽象,使用者只須學習 3 個類別
- 對所有模型使用的制式化API
-
更低的運算成本,更少的碳排放:
- 研究人員可以分享已訓練的模型而非每次從頭開始訓練
- 工程師可以減少計算時間以及生產成本
- 數十種模型架構、兩千多個預訓練模型、100多種語言支援
-
對於模型生命週期的每一個部分都面面俱到:
- 訓練先進的模型,只需 3 行程式碼
- 模型可以在不同深度學習框架之間任意轉換
- 為訓練、評估和生產選擇最適合的框架,並完美銜接
-
為你的需求輕鬆客製化專屬模型和範例:
- 我們為每種模型架構提供了多個範例來重現原論文結果
- 一致的模型內部架構
- 模型檔案可單獨使用,便於修改和快速實驗
- 本函式庫並不是模組化的神經網絡工具箱。模型文件中的程式碼並未做額外的抽象封裝,以便研究人員快速地翻閱及修改程式碼,而不會深陷複雜的類別包裝之中。
Trainer
API 並非相容任何模型,它只為本函式庫中的模型最佳化。對於一般的機器學習用途,請使用其他函式庫。- 儘管我們已盡力而為,examples 目錄中的腳本也僅為範例而已。對於特定問題,它們並不一定隨選即用,可能需要修改幾行程式碼以符合需求。
這個 Repository 已在 Python 3.9+、Flax 0.4.1+、PyTorch 2.0+ 和 TensorFlow 2.6+ 下經過測試。
你可以在虛擬環境中安裝 🤗 Transformers。如果你還不熟悉 Python 的虛擬環境,請閱此使用者指引。
首先,用你打算使用的版本的 Python 創建一個虛擬環境並進入。
然後,你需要安裝 Flax、PyTorch 或 TensorFlow 其中之一。對於該如何在你使用的平台上安裝這些框架,請參閱 TensorFlow 安裝頁面, PyTorch 安裝頁面 或 Flax 安裝頁面。
當其中一個後端安裝成功後,🤗 Transformers 可依此安裝:
pip install transformers
如果你想要試試範例或者想在正式發布前使用最新開發中的程式碼,你必須從原始碼安裝。
🤗 Transformers 可以藉由 conda 依此安裝:
conda install conda-forge::transformers
筆記: 從
huggingface
頻道安裝transformers
已被淘汰。
要藉由 conda 安裝 Flax、PyTorch 或 TensorFlow 其中之一,請參閱它們各自安裝頁面的說明。
🤗 Transformers 支援的所有的模型檢查點,由使用者和組織上傳,均與 huggingface.co model hub 完美結合。
🤗 Transformers 目前支援以下的架構: 模型概覽請參閱這裡.
要檢查某個模型是否已有 Flax、PyTorch 或 TensorFlow 的實作,或其是否在🤗 Tokenizers 函式庫中有對應的 tokenizer,敬請參閱此表。
這些實作均已於多個資料集測試(請參閱範例腳本)並應與原版實作表現相當。你可以在範例文件的此節中了解實作的細節。
章節 | 描述 |
---|---|
文件 | 完整的 API 文件和教學 |
任務概覽 | 🤗 Transformers 支援的任務 |
預處理教學 | 使用 Tokenizer 來為模型準備資料 |
訓練和微調 | 使用 PyTorch/TensorFlow 的內建的訓練方式或於 Trainer API 中使用 🤗 Transformers 提供的模型 |
快速上手:微調和範例腳本 | 為各種任務提供的範例腳本 |
模型分享和上傳 | 上傳並與社群分享你微調的模型 |
遷移 | 從 pytorch-transformers 或 pytorch-pretrained-bert 遷移到 🤗 Transformers |
我們已將此函式庫的論文正式發表。如果你使用了 🤗 Transformers 函式庫,可以引用:
@inproceedings{wolf-etal-2020-transformers,
title = "Transformers: State-of-the-Art Natural Language Processing",
author = "Thomas Wolf and Lysandre Debut and Victor Sanh and Julien Chaumond and Clement Delangue and Anthony Moi and Pierric Cistac and Tim Rault and Rémi Louf and Morgan Funtowicz and Joe Davison and Sam Shleifer and Patrick von Platen and Clara Ma and Yacine Jernite and Julien Plu and Canwen Xu and Teven Le Scao and Sylvain Gugger and Mariama Drame and Quentin Lhoest and Alexander M. Rush",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
month = oct,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-demos.6",
pages = "38--45"
}