Files
unifolm-world-model-action/README.md
olivame 25de36b9bc 添加当前优化说明
相关参数改动和效果
2026-01-19 16:58:37 +08:00

30 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# World Model Interaction 混合精度加速记录case1
## 变更位置
- 脚本路径:`/home/dyz/unifolm-world-model-action/unitree_g1_pack_camera/case1/run_world_model_interaction.sh`
- 当前状态:已修改了部分原本不建议修改/需要谨慎修改的参数(后续会在确认最优后固化为默认)。
## 新增参数(确认最优后可变为默认)
- `--diffusion_dtype {fp32,bf16}`Diffusion 权重与前向 dtype默认 `fp32`
- `--projector_mode {fp32,autocast,bf16_full}`Projector 精度策略,默认 `fp32`
- `--encoder_mode {fp32,autocast,bf16_full}`Encoder 精度策略,默认 `fp32`
- `--vae_dtype {fp32,bf16}`VAE 权重与前向 dtype默认 `fp32`
- `--export_casted_ckpt <path>`:按当前精度设置导出 ckpt用于离线导出混合精度权重
- `--export_only`:只导出 ckpt 后退出,默认关闭
### 参数语义约定
- `fp32`:权重 + 前向均使用 fp32
- `autocast`:权重保持 fp32forward 在 `torch.autocast` 下运行(算子级混精)
- `bf16_full`:权重显式转换为 bf16forward 也以 bf16 为主
## 当前最优配置与结果
### 配置
- 除 VAE 模块外,其它模块全部 bf16
- 模型离线导出混合精度 ckpt使用 `--export_casted_ckpt`
### 结果
- 耗时:从 `15m6s` 降到 `7m5s`
- PSNR下降不到 `4``35 -> 31`
- 显存:占用降到原本约 `50%`