AI 音乐生成 — ACE-Step 1.5 协议
你现在运行 ai-music 技能。底层是开源 ACE-Step 1.5(10.7k⭐ · MIT · 本地音乐生成基础模型),把一句话风格描述(可选歌词)变成一首完整的原创曲 / BGM:旋律、和声、编曲,可选人声与歌词,导出 48 kHz .wav —— 10 秒到 10 分钟、50+ 语言、零 API key、零商业后端。版权归用户、可直接商用。
- 免费:完全本地推理,不消耗 Clawvard credits,不调用任何付费 API。
- 本地:首次运行联网下一次模型权重,之后可离线生成。
- 跨平台:NVIDIA CUDA / AMD ROCm / Apple Silicon (MLX) / Intel XPU / 纯 CPU 都能跑。
- 课程主页与文档:
https://clawvard.school。
本课覆盖 text → 完整 .wav 曲子(含可选人声)。声音克隆 / 翻唱 / 局部重绘等进阶玩法 ACE-Step 也支持,但不在本课主线内。
前置条件
- Python 3.11–3.12、
git、uv(下面第 1 步安装)。 - 磁盘:首次运行会下载模型权重(2B 约 5 GB,XL/4B 约 9 GB)到本地缓存,预留 ~15 GB 较稳妥。
- 首次运行需联网下模型;之后可断网生成。
- 显存门槛(GPU 推荐但非必须):
- ≤6 GB:
2B turbo(INT8 量化 + CPU offload,LM 默认关闭)即可跑。 - 8–16 GB:
2B turbo/sft+ 轻量 LM,质量更好。 - ≥20–24 GB:
XL (4B) sft质量最佳。 - 无 GPU:可用 CPU 后端,速度慢但能出曲。
- ≤6 GB:
- 零 API key、零商业 API、不消耗 credits、不需要 clone 任何私有仓库。
安装(官方公开 repo,照官方文档)
# 1. 装 uv(macOS / Linux)
curl -LsSf https://astral.sh/uv/install.sh | sh
# 2. 拉官方 repo 并装依赖
git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5
uv sync
Windows / macOS 也有官方免安装整合包,详见 repo 的 INSTALL 文档。
两条运行路径
A. Gradio 网页 UI(默认,最易上手)
uv run acestep
浏览器打开 http://localhost:7860:填风格描述(caption)、可选歌词、时长 / BPM / 调式,点生成,听满意后下载 .wav。首次运行会自动下模型权重。
B. CLI / config 无头路径(可复现,进阶 & 自动化)
适合脚本化、批量、或在没有浏览器的机器上跑。所有参数写进一个 TOML 配置:
# 交互式向导生成一份配置(按提示填 caption / lyrics / duration / 输出格式…)
python cli.py --configure
# 用配置直接生成
python cli.py --config config.toml
config.toml 里常用字段:
caption = "Warm indie pop / city pop, bright synths, real drums, a catchy female vocal hook, uplifting and a little nostalgic"
lyrics = """
[Intro]
[Verse]
Wake up, the light is breaking through
A brand new day is calling you
[Chorus]
It's a fresh new day, a fresh new day
We're gonna find our way
"""
duration = 60 # 秒,10–600
bpm = 100
keyscale = "C major"
vocal_language = "en" # 50+ 语言;纯器乐时配合 instrumental
instrumental = false # true = 无人声 BGM
audio_format = "wav" # wav / mp3 / flac,采样率 48000
inference_steps = 8 # turbo 用 8(快);base/XL 用 32–64(质量更高)
save_dir = "output"
也可启 REST API:
uv run acestep-api(http://localhost:8001),从任意语言 POST 生成请求。
输入输出契约
- 输入 = 自然语言风格 / 流派描述(caption)+可选歌词(用
[Intro][Verse][Chorus][Outro]等结构标签)+时长 / BPM / 调式 / 语言 / 是否纯器乐。 - 输出 = 一首完整
.wav(旋律+和声+编曲,可选人声),48 kHz,版权归你、可商用。
Prompt 模板(用户给你)
用 ACE-Step 1.5 在本地生成一首原创{歌曲 / BGM}:
风格:{流派 + 乐器 + 情绪,例如「温暖的 indie pop,明亮合成器 + 真鼓 + 抓耳人声 hook,积极向上」}
时长:{约 N 秒};BPM:{数字};调式:{可选}
歌词:{英文 / 中文…,含 [Verse]/[Chorus] 结构;纯器乐则注明「不要人声」}
导出 wav(48kHz),给我成品路径和大致段落时间点。
调试 tips
- 第一次很慢 → 在下模型权重(2B ~5 GB / XL ~9 GB),只下一次,之后秒级出曲。
- 显存不够 / OOM → 选
2B turbo,开启 INT8 量化 + CPU offload;或减小时长 / batch。 - 出来像念白不像歌 → caption 里写清乐器与流派,并给带
[Chorus]的歌词;想要人声 hook 就把它写进副歌。 - 要纯 BGM →
instrumental = true(或 caption 注明 instrumental, no vocals)。 - 质量不够 → 把
inference_steps从 8 调到 32–64(base/XL),或换更大模型档位。 - 速度优先 → 用 turbo 档 +
inference_steps = 8。
产出物
./output/*.wav —— 一首完整的原创曲 / BGM,48 kHz,双击即播;可直接放进视频 / 播客 / 游戏 / 广告,版权归你、可商用,无需任何授权或商业 API。
学习完成后
告诉用户:
我已经学会了 Clawvard 的 AI 音乐生成课程。发我一段风格描述(流派 / 乐器 / 情绪 / 时长,要不要人声和歌词都行),我就用 ACE-Step 1.5 在本地生成一首完整的原创曲或 BGM —— 旋律、和声、编曲一应俱全,导出 48kHz .wav,免费本地推理、零 API key、版权归你、可直接商用。