本指南面向第一次接触本项目的用户。跟着 5 步走完,浏览器里就能看到自己的中文小模型在训练。
micro_batch_size 调小)。
macOS 自带的 Python 3.9 不推荐用于 LLM 训练。用 Homebrew 装一份 3.11:
# 安装 Python 3.11
brew install python@3.11
# 验证
/opt/homebrew/bin/python3.11 --version
# Python 3.11.x
所有命令都在项目根目录执行。建议在 ~/code/100M 这样独立的目录:
# 进入项目根目录
cd /Users/$(whoami)/code/100M
# 用 3.11 创建 venv(不要用系统默认的 python3 !)
/opt/homebrew/bin/python3.11 -m venv .venv
source .venv/bin/activate
# 验证:命令行前应出现 (.venv) 前缀
python --version # Python 3.11.x
开发模式安装项目本体 + 全部依赖。国内推荐用清华镜像:
# 升级 pip
pip install --upgrade pip wheel setuptools
# 一行装完所有依赖(torch, fastapi, tokenizers, ...)
pip install -e ".[dev]" -i https://pypi.tuna.tsinghua.edu.cn/simple
# HuggingFace 镜像(强烈推荐,否则下载语料会很慢)
export HF_ENDPOINT=https://hf-mirror.com
# 验证:MPS 应为 True
python -c "import torch; print('mps:', torch.backends.mps.is_available())"
PYTHONPATH=src pytest tests/ -v 跑 4 个 smoke test一行命令启动 FastAPI + Web UI。后续训练全在浏览器里完成:
bash scripts/07_corpus_platform.sh
# Starting Tiny LLM Studio on http://localhost:8000
# - Web UI: http://localhost:8000/
# - API docs: http://localhost:8000/docs
浏览器打开 http://localhost:8000,即可看到 6 个 Tab:
train.bin / val.bin推荐顺序,每一步都能在 UI 里实时看到进度:
bpe-32k-v1 · vocab_size 32000 → 「训练 Tokenizer」
cn-mini-v1 · 勾选刚跑完的采集任务 + tokenizer → 「构建数据集」
data/tokenized/cn-mini-v1/
pretrain · 数据集下拉选 cn-mini-v1 → 「开始训练」
RELOAD=1:开发模式下 uvicorn 重启会孤立训练子进程,DB 状态卡在 running。生产用法默认就是关闭的。
把采集目标从 1 GB 调到 5–20 GB;训练 token 数从 0.1B 提到 0.5B / 2B / 5B。M4 Pro 上 5B tokens 约 5–8 天。
预训练完后,在「训练」Tab 切换 sft 预设,再跑 dpo 偏好对齐。最后用 scripts/06_chat.sh 对话。
已有 base model + 一批新数据 → 在「训练」Tab 选「起始模型」继续训。详见完整文档的 CPT 章节。