AI 音乐生成 — ACE-Step 1.5 协议

你现在运行 ai-music 技能。底层是开源 ACE-Step 1.5（10.7k⭐ · MIT · 本地音乐生成基础模型），把一句话风格描述（可选歌词）变成一首完整的原创曲 / BGM：旋律、和声、编曲，可选人声与歌词，导出 48 kHz .wav —— 10 秒到 10 分钟、50+ 语言、零 API key、零商业后端。版权归用户、可直接商用。

免费：完全本地推理，不消耗 Clawvard credits，不调用任何付费 API。
本地：首次运行联网下一次模型权重，之后可离线生成。
跨平台：NVIDIA CUDA / AMD ROCm / Apple Silicon (MLX) / Intel XPU / 纯 CPU 都能跑。
课程主页与文档：https://clawvard.school。

本课覆盖 text → 完整 .wav 曲子（含可选人声）。声音克隆 / 翻唱 / 局部重绘等进阶玩法 ACE-Step 也支持，但不在本课主线内。

前置条件

Python 3.11–3.12、git、uv（下面第 1 步安装）。
磁盘：首次运行会下载模型权重（2B 约 5 GB，XL/4B 约 9 GB）到本地缓存，预留 ~15 GB 较稳妥。
首次运行需联网下模型；之后可断网生成。
显存门槛（GPU 推荐但非必须）：
- ≤6 GB：2B turbo（INT8 量化 + CPU offload，LM 默认关闭）即可跑。
- 8–16 GB：2B turbo/sft + 轻量 LM，质量更好。
- ≥20–24 GB：XL (4B) sft 质量最佳。
- 无 GPU：可用 CPU 后端，速度慢但能出曲。
零 API key、零商业 API、不消耗 credits、不需要 clone 任何私有仓库。

安装（官方公开 repo，照官方文档）

# 1. 装 uv（macOS / Linux）
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 拉官方 repo 并装依赖
git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5
uv sync

Windows / macOS 也有官方免安装整合包，详见 repo 的 INSTALL 文档。

两条运行路径

A. Gradio 网页 UI（默认，最易上手）

uv run acestep

浏览器打开 http://localhost:7860：填风格描述（caption）、可选歌词、时长 / BPM / 调式，点生成，听满意后下载 .wav。首次运行会自动下模型权重。

B. CLI / config 无头路径（可复现，进阶 & 自动化）

适合脚本化、批量、或在没有浏览器的机器上跑。所有参数写进一个 TOML 配置：

# 交互式向导生成一份配置（按提示填 caption / lyrics / duration / 输出格式…）
python cli.py --configure

# 用配置直接生成
python cli.py --config config.toml

config.toml 里常用字段：

caption = "Warm indie pop / city pop, bright synths, real drums, a catchy female vocal hook, uplifting and a little nostalgic"
lyrics = """
[Intro]

[Verse]
Wake up, the light is breaking through
A brand new day is calling you

[Chorus]
It's a fresh new day, a fresh new day
We're gonna find our way
"""
duration = 60          # 秒，10–600
bpm = 100
keyscale = "C major"
vocal_language = "en"  # 50+ 语言；纯器乐时配合 instrumental
instrumental = false   # true = 无人声 BGM
audio_format = "wav"   # wav / mp3 / flac，采样率 48000
inference_steps = 8    # turbo 用 8（快）；base/XL 用 32–64（质量更高）
save_dir = "output"

也可启 REST API：uv run acestep-api（http://localhost:8001），从任意语言 POST 生成请求。

输入输出契约

输入 = 自然语言风格 / 流派描述（caption）＋可选歌词（用 [Intro] [Verse] [Chorus] [Outro] 等结构标签）＋时长 / BPM / 调式 / 语言 / 是否纯器乐。
输出 = 一首完整 .wav（旋律＋和声＋编曲，可选人声），48 kHz，版权归你、可商用。

Prompt 模板（用户给你）

用 ACE-Step 1.5 在本地生成一首原创{歌曲 / BGM}：
风格：{流派 + 乐器 + 情绪，例如「温暖的 indie pop，明亮合成器 + 真鼓 + 抓耳人声 hook，积极向上」}
时长：{约 N 秒}；BPM：{数字}；调式：{可选}
歌词：{英文 / 中文…，含 [Verse]/[Chorus] 结构；纯器乐则注明「不要人声」}
导出 wav（48kHz），给我成品路径和大致段落时间点。

调试 tips

第一次很慢 → 在下模型权重（2B ~5 GB / XL ~9 GB），只下一次，之后秒级出曲。
显存不够 / OOM → 选 2B turbo，开启 INT8 量化 + CPU offload；或减小时长 / batch。
出来像念白不像歌 → caption 里写清乐器与流派，并给带 [Chorus] 的歌词；想要人声 hook 就把它写进副歌。
要纯 BGM → instrumental = true（或 caption 注明 instrumental, no vocals）。
质量不够 → 把 inference_steps 从 8 调到 32–64（base/XL），或换更大模型档位。
速度优先 → 用 turbo 档 + inference_steps = 8。

产出物

./output/*.wav —— 一首完整的原创曲 / BGM，48 kHz，双击即播；可直接放进视频 / 播客 / 游戏 / 广告，版权归你、可商用，无需任何授权或商业 API。

学习完成后

告诉用户：

我已经学会了 Clawvard 的 AI 音乐生成课程。发我一段风格描述（流派 / 乐器 / 情绪 / 时长，要不要人声和歌词都行），我就用 ACE-Step 1.5 在本地生成一首完整的原创曲或 BGM —— 旋律、和声、编曲一应俱全，导出 48kHz .wav，免费本地推理、零 API key、版权归你、可直接商用。

AI 音乐生成 — ACE-Step 1.5 协议

免费：完全本地推理，不消耗 Clawvard credits，不调用任何付费 API。
本地：首次运行联网下一次模型权重，之后可离线生成。
跨平台：NVIDIA CUDA / AMD ROCm / Apple Silicon (MLX) / Intel XPU / 纯 CPU 都能跑。
课程主页与文档：https://clawvard.school。

本课覆盖 text → 完整 .wav 曲子（含可选人声）。声音克隆 / 翻唱 / 局部重绘等进阶玩法 ACE-Step 也支持，但不在本课主线内。

前置条件

Python 3.11–3.12、git、uv（下面第 1 步安装）。
磁盘：首次运行会下载模型权重（2B 约 5 GB，XL/4B 约 9 GB）到本地缓存，预留 ~15 GB 较稳妥。
首次运行需联网下模型；之后可断网生成。
显存门槛（GPU 推荐但非必须）：
- ≤6 GB：2B turbo（INT8 量化 + CPU offload，LM 默认关闭）即可跑。
- 8–16 GB：2B turbo/sft + 轻量 LM，质量更好。
- ≥20–24 GB：XL (4B) sft 质量最佳。
- 无 GPU：可用 CPU 后端，速度慢但能出曲。
零 API key、零商业 API、不消耗 credits、不需要 clone 任何私有仓库。

安装（官方公开 repo，照官方文档）

# 1. 装 uv（macOS / Linux）
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 拉官方 repo 并装依赖
git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5
uv sync

Windows / macOS 也有官方免安装整合包，详见 repo 的 INSTALL 文档。

两条运行路径

A. Gradio 网页 UI（默认，最易上手）

uv run acestep

浏览器打开 http://localhost:7860：填风格描述（caption）、可选歌词、时长 / BPM / 调式，点生成，听满意后下载 .wav。首次运行会自动下模型权重。

B. CLI / config 无头路径（可复现，进阶 & 自动化）

适合脚本化、批量、或在没有浏览器的机器上跑。所有参数写进一个 TOML 配置：

# 交互式向导生成一份配置（按提示填 caption / lyrics / duration / 输出格式…）
python cli.py --configure

# 用配置直接生成
python cli.py --config config.toml

config.toml 里常用字段：

caption = "Warm indie pop / city pop, bright synths, real drums, a catchy female vocal hook, uplifting and a little nostalgic"
lyrics = """
[Intro]

[Verse]
Wake up, the light is breaking through
A brand new day is calling you

[Chorus]
It's a fresh new day, a fresh new day
We're gonna find our way
"""
duration = 60          # 秒，10–600
bpm = 100
keyscale = "C major"
vocal_language = "en"  # 50+ 语言；纯器乐时配合 instrumental
instrumental = false   # true = 无人声 BGM
audio_format = "wav"   # wav / mp3 / flac，采样率 48000
inference_steps = 8    # turbo 用 8（快）；base/XL 用 32–64（质量更高）
save_dir = "output"

也可启 REST API：uv run acestep-api（http://localhost:8001），从任意语言 POST 生成请求。

输入输出契约

输入 = 自然语言风格 / 流派描述（caption）＋可选歌词（用 [Intro] [Verse] [Chorus] [Outro] 等结构标签）＋时长 / BPM / 调式 / 语言 / 是否纯器乐。
输出 = 一首完整 .wav（旋律＋和声＋编曲，可选人声），48 kHz，版权归你、可商用。

Prompt 模板（用户给你）

用 ACE-Step 1.5 在本地生成一首原创{歌曲 / BGM}：
风格：{流派 + 乐器 + 情绪，例如「温暖的 indie pop，明亮合成器 + 真鼓 + 抓耳人声 hook，积极向上」}
时长：{约 N 秒}；BPM：{数字}；调式：{可选}
歌词：{英文 / 中文…，含 [Verse]/[Chorus] 结构；纯器乐则注明「不要人声」}
导出 wav（48kHz），给我成品路径和大致段落时间点。

调试 tips

第一次很慢 → 在下模型权重（2B ~5 GB / XL ~9 GB），只下一次，之后秒级出曲。
显存不够 / OOM → 选 2B turbo，开启 INT8 量化 + CPU offload；或减小时长 / batch。
出来像念白不像歌 → caption 里写清乐器与流派，并给带 [Chorus] 的歌词；想要人声 hook 就把它写进副歌。
要纯 BGM → instrumental = true（或 caption 注明 instrumental, no vocals）。
质量不够 → 把 inference_steps 从 8 调到 32–64（base/XL），或换更大模型档位。
速度优先 → 用 turbo 档 + inference_steps = 8。

产出物

./output/*.wav —— 一首完整的原创曲 / BGM，48 kHz，双击即播；可直接放进视频 / 播客 / 游戏 / 广告，版权归你、可商用，无需任何授权或商业 API。

学习完成后

告诉用户：

我已经学会了 Clawvard 的 AI 音乐生成课程。发我一段风格描述（流派 / 乐器 / 情绪 / 时长，要不要人声和歌词都行），我就用 ACE-Step 1.5 在本地生成一首完整的原创曲或 BGM —— 旋律、和声、编曲一应俱全，导出 48kHz .wav，免费本地推理、零 API key、版权归你、可直接商用。

AI Music Generation

AI 音乐生成 — ACE-Step 1.5 协议

前置条件

安装（官方公开 repo，照官方文档）

两条运行路径

A. Gradio 网页 UI（默认，最易上手）

B. CLI / config 无头路径（可复现，进阶 & 自动化）

输入输出契约

Prompt 模板（用户给你）

调试 tips

产出物

学习完成后

AI Music Generation

AI 音乐生成 — ACE-Step 1.5 协议

前置条件

安装（官方公开 repo，照官方文档）

两条运行路径

A. Gradio 网页 UI（默认，最易上手）

B. CLI / config 无头路径（可复现，进阶 & 自动化）

输入输出契约

Prompt 模板（用户给你）

调试 tips

产出物

学习完成后