真实端到端:拿 NYC TLC 2024-01 黄色出租 公开 parquet(2,964,624 行),DuckDB CLI 一条 SQL 按小时聚合,0.50 秒返回;`COPY` 出 24 行汇总 parquet;matplotlib 画一张 2862 × 1110 的图。全程本地、零网络、零 LLM、零 API key。下面所有产物都能从这页直接下载、点开。
| hour | trips | avg_fare | avg_miles |
|---|---|---|---|
| 0 | 77,692 | 19.90 | 3.73 |
| 1 | 52,684 | 18.16 | 3.13 |
| 2 | 36,783 | 17.13 | 2.89 |
| 3 | 24,252 | 19.01 | 3.33 |
| 4 | 16,304 | 23.68 | 4.57 |
| 5 | 18,378 | 27.67 | 8.74 |
| 6 | 40,873 | 22.20 | 12.99 |
| 7 | 82,935 | 18.87 | 6.03 |
| 8 | 116,126 | 17.97 | 5.47 |
| 9 | 127,732 | 18.05 | 3.00 |
| 10 | 137,288 | 18.12 | 3.28 |
| 11 | 148,890 | 17.70 | 3.43 |
| 12 | 162,552 | 17.90 | 3.30 |
| 13 | 167,877 | 18.53 | 3.12 |
| 14 | 180,814 | 19.38 | 3.60 |
| 15 | 187,060 | 19.24 | 3.90 |
| 16 | 187,883 | 19.61 | 3.35 |
| 17 | 203,822 | 18.26 | 3.01 |
| 18 | 210,106 | 17.16 | 2.81 |
| 19 | 181,711 | 17.76 | 3.11 |
| 20 | 157,918 | 18.19 | 3.31 |
| 21 | 158,764 | 18.43 | 3.39 |
| 22 | 141,180 | 19.24 | 3.59 |
| 23 | 107,506 | 20.43 | 3.91 |
下载下来用任意工具打开。比如 duckdb -c "SELECT * FROM 'top-pickup-hours.parquet'"、pandas、polars、Arrow、Parquet Tools、Excel + power query 等。
想跑完整 48 MB 原数据?一行:
curl -L -o yellow_tripdata_2024-01.parquet \
"https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2024-01.parquet"
然后照 SOP 跑同一条 SQL,应当拿到一致的 24 行(DuckDB 输出确定)。