メインコンテンツへスキップ
Hugging Face AutoTrain は、自然言語処理 (NLP) 、コンピュータビジョン (CV) 、音声、さらにはテーブルデータタスクのための最先端のモデルをトレーニングできるノーコード ツールです。 W&B は Hugging Face AutoTrain に直接統合されており、 実験管理 と構成管理(config management)機能を提供します。 CLI コマンドに引数を 1 つ追加するだけで、簡単に実験を開始できます。
Experiment metrics logging

事前準備

autotrain-advancedwandb をインストールします。
pip install --upgrade autotrain-advanced wandb
これらの変更を実演するために、このページでは数学の データセット を使用して LLM をファインチューニングし、 GSM8k Benchmarkspass@1 で SoTA(State-of-the-Art)の結果を出す手順を説明します。

データセットの準備

Hugging Face AutoTrain でカスタムの CSV データセット を適切に動作させるには、特定のフォーマットにする必要があります。
  • トレーニングファイルには、トレーニングに使用する text カラムが含まれている必要があります。最良の結果を得るには、 text カラムのデータが ### Human: Question?### Assistant: Answer. という形式に従っている必要があります。 優れた例として timdettmers/openassistant-guanaco を参考にしてください。 一方、 MetaMathQA dataset には queryresponsetype というカラムが含まれています。まず、この データセット を前処理します。 type カラムを削除し、 queryresponse カラムの内容を組み合わせて、 ### Human: Query?### Assistant: Response. 形式の新しい text カラムを作成します。トレーニングには、この結果として得られた データセット rishiraj/guanaco-style-metamath を使用します。

autotrain を使用したトレーニング

コマンドラインまたは ノートブック から autotrain advanced を使用してトレーニングを開始できます。 --log 引数 を使用するか、 --log wandb を使用して、結果を W&B Run に ログ 記録します。
autotrain llm \
    --train \
    --model HuggingFaceH4/zephyr-7b-alpha \
    --project-name zephyr-math \
    --log wandb \
    --data-path data/ \
    --text-column text \
    --lr 2e-5 \
    --batch-size 4 \
    --epochs 3 \
    --block-size 1024 \
    --warmup-ratio 0.03 \
    --lora-r 16 \
    --lora-alpha 32 \
    --lora-dropout 0.05 \
    --weight-decay 0.0 \
    --gradient-accumulation 4 \
    --logging_steps 10 \
    --fp16 \
    --use-peft \
    --use-int4 \
    --merge-adapter \
    --push-to-hub \
    --token <huggingface-token> \
    --repo-id <huggingface-repository-address>
Experiment config saving

その他のリソース