World Model Interaction 混合精度加速记录(case1)
变更位置
- 脚本路径:
/home/dyz/unifolm-world-model-action/unitree_g1_pack_camera/case1/run_world_model_interaction.sh - 当前状态:已修改了部分原本不建议修改/需要谨慎修改的参数(后续会在确认最优后固化为默认)。
新增参数(确认最优后可变为默认)
--diffusion_dtype {fp32,bf16}:Diffusion 权重与前向 dtype,默认fp32--projector_mode {fp32,autocast,bf16_full}:Projector 精度策略,默认fp32--encoder_mode {fp32,autocast,bf16_full}:Encoder 精度策略,默认fp32--vae_dtype {fp32,bf16}:VAE 权重与前向 dtype,默认fp32--export_casted_ckpt <path>:按当前精度设置导出 ckpt(用于离线导出混合精度权重)--export_only:只导出 ckpt 后退出,默认关闭
参数语义约定
fp32:权重 + 前向均使用 fp32autocast:权重保持 fp32,forward 在torch.autocast下运行(算子级混精)bf16_full:权重显式转换为 bf16,forward 也以 bf16 为主
当前最优配置与结果
配置
- 除 VAE 模块外,其它模块全部 bf16
- 模型离线导出混合精度 ckpt(使用
--export_casted_ckpt)
结果
- 耗时:从
15m6s降到7m5s - PSNR:下降不到
4(35 -> 31) - 显存:占用降到原本约
50%
Description
Languages
Python
96.1%
Shell
3.9%