olivame 25de36b9bc 添加当前优化说明
相关参数改动和效果
2026-01-19 16:58:37 +08:00
2026-01-18 00:30:10 +08:00
2026-01-18 00:30:10 +08:00
2026-01-18 00:30:10 +08:00
2026-01-18 00:30:10 +08:00
2026-01-18 00:30:10 +08:00
2026-01-18 00:30:10 +08:00
2026-01-18 00:31:39 +08:00
2026-01-18 00:31:39 +08:00
2026-01-18 00:30:10 +08:00
2026-01-18 00:30:10 +08:00
2026-01-18 00:30:10 +08:00
2026-01-18 00:30:10 +08:00
2026-01-18 00:30:10 +08:00
2026-01-19 16:58:37 +08:00
2026-01-18 00:30:10 +08:00

World Model Interaction 混合精度加速记录case1

变更位置

  • 脚本路径:/home/dyz/unifolm-world-model-action/unitree_g1_pack_camera/case1/run_world_model_interaction.sh
  • 当前状态:已修改了部分原本不建议修改/需要谨慎修改的参数(后续会在确认最优后固化为默认)。

新增参数(确认最优后可变为默认)

  • --diffusion_dtype {fp32,bf16}Diffusion 权重与前向 dtype默认 fp32
  • --projector_mode {fp32,autocast,bf16_full}Projector 精度策略,默认 fp32
  • --encoder_mode {fp32,autocast,bf16_full}Encoder 精度策略,默认 fp32
  • --vae_dtype {fp32,bf16}VAE 权重与前向 dtype默认 fp32
  • --export_casted_ckpt <path>:按当前精度设置导出 ckpt用于离线导出混合精度权重
  • --export_only:只导出 ckpt 后退出,默认关闭

参数语义约定

  • fp32:权重 + 前向均使用 fp32
  • autocast:权重保持 fp32forward 在 torch.autocast 下运行(算子级混精)
  • bf16_full:权重显式转换为 bf16forward 也以 bf16 为主

当前最优配置与结果

配置

  • 除 VAE 模块外,其它模块全部 bf16
  • 模型离线导出混合精度 ckpt使用 --export_casted_ckpt

结果

  • 耗时:从 15m6s 降到 7m5s
  • PSNR下降不到 435 -> 31
  • 显存:占用降到原本约 50%
Description
No description provided
Readme CC-BY-SA-4.0 2.1 GiB
Languages
Python 96.1%
Shell 3.9%