Commit Graph

  • ef56e5dcdb Revert "tensorRT engines尝试精度没过,暂时先提交代码,后续再继续调试" tensorrt-debug qhy 2026-02-19 20:22:19 +08:00
  • 43ab0f71b0 优化写入后新的所有结果 qhy4 qhy 2026-02-19 20:18:31 +08:00
  • 68d695d81d 保存的优化 trt-replacement qhy 2026-02-19 15:35:09 +08:00
  • 65788be1b3 成功的尝试 qhy 2026-02-18 19:14:55 +08:00
  • e1f8a83648 tensorRT engines尝试精度没过,暂时先提交代码,后续再继续调试 qhy 2026-02-18 18:22:12 +08:00
  • 5e0e21d91b 复原sh为原始版本 qhy 2026-02-18 14:11:55 +08:00
  • 5863fbb656 第一次baseline测试,补充psnr测定 qhy5 qhy 2026-02-12 10:53:05 +08:00
  • d9d9537d33 baseline qhy 2026-02-12 10:47:21 +08:00
  • 202062a647 init qhy 2026-02-11 19:48:14 +08:00
  • d5bec53f61 优化后的全部结果 qhy 2026-02-11 19:21:06 +08:00
  • 508b91f5a2 延迟 decode,只解码 CLIP 需要的 1 帧 qhy 2026-02-11 17:07:33 +08:00
  • 3101252c25 速度变化不明显psnr显著提升 qhy 2026-02-11 16:38:21 +08:00
  • f386a5810b 补充上次提交 qhy 2026-02-11 16:24:40 +08:00
  • 352a79035f 主干部分fp16,最敏感psnr=25.21,可以考虑对主干部分太敏感的部分回退fp32 qhy 2026-02-11 16:23:21 +08:00
  • 25c6a328ef 结果 third olivame 2026-02-11 07:12:16 +00:00
  • 1d23e5d36d Layer 3: 延迟 decode,只解码 CLIP 需要的 1 帧 olivame 2026-02-11 07:11:55 +00:00
  • 9a08e27a19 KV 融合实现完成。改动总结: 速度微弱提升psnr略微上升 attention.py — 3处改动: 1. __init__ 添加 _kv_fused = False 标志 2.新增 fuse_kv() 方法:将 to_k + to_v → to_kv,同时处理 _ip/_as/_aa 辅助 KV 对 2. bmm_forward 两个分支加_kv_fused 判断,用to_kv().chunk(2, dim=-1) 替代分别调用 qhy6 qhy 2026-02-11 12:36:38 +08:00
  • 57ba85d147 KV 融合实现完成。改动总结: 速度微弱提升psnr略微上升 attention.py — 3处改动: 1. __init__ 添加 _kv_fused = False 标志 2.新增 fuse_kv() 方法:将 to_k + to_v → to_kv,同时处理 _ip/_as/_aa 辅助 KV 对 2. bmm_forward 两个分支加_kv_fused 判断,用to_kv().chunk(2, dim=-1) 替代分别调用 second olivame 2026-02-10 18:07:23 +00:00
  • b558856e1e fix bugs qhy 2026-02-10 22:35:45 +08:00
  • dcbcb2c377 - state_unet 放到一个独立的 CUDA stream 上执行 - action_unet 在默认 stream 上同时执行 - 用 wait_stream 确保两者都完成后再返回 两个 1D UNet 输入完全独立,共享的 hs_a 和 context_action 都是只读的。GPU 利用率只有 ~31%,小张量 kernel 不会打满 GPU,两个 stream 可以真正并行。 qhy 2026-02-10 21:41:48 +08:00
  • 2cef3e9e45 ├─────┼─────────────────────────────────┼───────────────────────┼───────────────────┤ │ 1 │ CUDA Stream 预创建 │ wma_model.py │ 50次 → 0次 │ ├─────┼─────────────────────────────────┼───────────────────────┼───────────────────┤ │ 2 │ noise buffer 预分配 │ ddim.py │ 50次 alloc → 0次 │ ├─────┼─────────────────────────────────┼───────────────────────┼───────────────────┤ │ 3 │ global_feature expand提到循环外 │ conditional_unet1d.py │ ~700次 → ~100次 │ ├─────┼─────────────────────────────────┼───────────────────────┼───────────────────┤ │ 4 │ alpha/sigma dtype 预转换 │ ddim.py │ 200次 .to() → 0次 │ 效果不算特别明显 olivame 2026-02-10 13:40:52 +00:00
  • ff43432ef9 结果 qhy 2026-02-10 20:01:25 +08:00
  • afa12ba031 每步迭代保存异步 qhy 2026-02-10 19:54:53 +08:00
  • bf4d66c874 跳过模型加载 qhy 2026-02-10 19:36:17 +08:00
  • a09d35ae5b - state_unet 放到一个独立的 CUDA stream 上执行 - action_unet 在默认 stream 上同时执行 - 用 wait_stream 确保两者都完成后再返回 两个 1D UNet 输入完全独立,共享的 hs_a 和 context_action 都是只读的。GPU 利用率只有 ~31%,小张量 kernel 不会打满 GPU,两个 stream 可以真正并行。 olivame 2026-02-10 10:47:10 +00:00
  • 9347a4ebe5 实现了Context 预计算和缓存功能,提升了采样效率。 psnr不下降 qhy3 qhy 2026-02-10 17:47:46 +08:00
  • 223a50f9e0 添加CrossAttention kv缓存,减少重复计算,提升性能,psnr=25.1201dB qhy 2026-02-10 17:35:03 +08:00
  • 2a6068f9e4 减少了一路视频vae解码 qhy 2026-02-10 17:13:45 +08:00
  • 91a9b0febc DDIM loop 内小张量分配优化,attention mask 缓存到 GPU qhy 2026-02-10 16:53:00 +08:00
  • ed637c972b tf32推理 qhy 2026-02-10 16:39:14 +08:00
  • db848bca01 profile 结果 olivame 2026-02-10 07:02:20 +00:00
  • 3069666a15 脚本修改 qhy2 qhy-merged qhy 2026-02-10 14:49:26 +08:00
  • 68369cc15f 合并后测试 qhy 2026-02-10 14:45:14 +08:00
  • b0ebb7006e 添加三层迭代级性能分析工具 profile_iteration.py olivame 2026-02-10 05:42:11 +00:00
  • bb274870c2 整理代码 qhy qhy 2026-02-10 12:46:12 +08:00
  • f1f92072e6 remove profile qhy 2026-02-10 11:28:26 +08:00
  • ff920b85a2 理论性能分析 qhy 2026-02-10 10:10:09 +08:00
  • 125b85ce68 实现fs_embed 缓存,收益不明显,精度不降低 olivame 2026-02-09 18:49:44 +00:00
  • 0b3b0e534a 复用 DDIMSampler + make_schedule微弱提升 olivame 2026-02-09 18:26:39 +00:00
  • 6dca3696d8 实现了Context 预计算和缓存功能,提升了采样效率。 psnr不下降 olivame 2026-02-09 17:42:47 +00:00
  • f192c8aca9 添加CrossAttention kv缓存,减少重复计算,提升性能,psnr=31.8022 dB olivame 2026-02-09 17:04:23 +00:00
  • 4288c9d8c9 减少了一路视频vae解码 olivame 2026-02-09 16:48:16 +00:00
  • 6630952d2b 异步保存结果 qhy 2026-02-09 21:23:00 +08:00
  • a2cd34dd51 1. einsum('b i d, b j d -> b i j') → torch.bmm(q, k.transpose(-1,-2)) — 直接映射 rocBLAS batched GEMM 2. baddbmm 把 scale 融合进 GEMM,少一次 kernel launch 3. 第二个 einsum 同理换torch.bm 每一轮加速1到两秒 olivame 2026-02-08 18:54:48 +00:00
  • 7338cc384a ddim.py — torch.float16 → torch.bfloat16,修复 dtype 不匹配 attention.py — 4 处 softmax 都包裹了 torch.amp.autocast('cuda', enabled=False),阻止 autocast 将 bf16 提升到 fp32 olivame 2026-02-08 17:02:05 +00:00
  • f86ab51a04 全链路 bf16 混合精度修正与 UNet FLOPS profiling olivame 2026-02-08 16:01:30 +00:00
  • 75c798ded0 DDIM loop 内小张量分配优化,attention mask 缓存到 GPU olivame 2026-02-08 14:20:48 +00:00
  • e588182642 修复混合精度vae相关的配置错误,确保在推理阶段正确使用了混合精度模型,并且导出了正确精度的检查点文件。 olivame 2026-02-08 12:35:59 +00:00
  • e6c55a648c 所有case的baseline,amd版本的ground truth都上传了 olivame 2026-02-08 09:42:14 +00:00
  • fffc5a9956 init olivame 2026-02-08 03:29:15 +00:00
  • bc78815acf 脚本参数暂时修改 qhy 2026-02-07 21:28:54 +08:00
  • d5f6577fa8 复制模型对象,跳过加载模型 qhy 2026-02-07 19:18:49 +08:00
  • 7dcf9e8b89 VAE优化,模型直接加载至GPU qhy 2026-02-07 17:36:00 +08:00
  • aba2a90045 算子融合 qhy 2026-02-07 16:40:33 +08:00
  • 25de36b9bc 添加当前优化说明 olivame 2026-01-19 16:58:37 +08:00
  • 2fdcec6da0 Delete README.md olivame 2026-01-19 16:39:49 +08:00
  • 7e501b17fd 把混和精度模型权重导出至本地文件,减少dtype开销 olivame 2026-01-19 15:14:01 +08:00
  • cb334f308b DDIM loop 内小张量分配优化,attention mask 缓存到 GPU,加速30s左右 olivame 2026-01-18 22:37:55 +08:00
  • a90efc6718 VAE 也做 BF16 olivame 2026-01-18 21:14:55 +08:00
  • e1b029201e 权重改为fp32, 其他部分保持bf16 olivame 2026-01-18 20:24:37 +08:00
  • 44379f3e31 embedder权重改成bf16 olivame 2026-01-18 19:03:21 +08:00
  • fde3c7445d 轻量投影/MLP BF16 微调 olivame 2026-01-18 18:38:47 +08:00
  • 3c0f409fcf 轻量投影/MLP BF16 olivame 2026-01-18 18:26:37 +08:00
  • 2b634cde90 对扩散主干做 BF16 olivame 2026-01-18 17:14:16 +08:00
  • 7b499284bf 打印推理权重精度信息 olivame 2026-01-18 11:19:10 +08:00
  • c86c2be5ff 性能剖析 olivame 2026-01-18 00:31:39 +08:00
  • 25c6fc04db 第一次完整测例跑完 olivame 2026-01-18 00:30:10 +08:00
  • ca15cc593b Add files via upload ASC-Competition 2026-01-12 14:07:31 +08:00
  • fbe2a47a8f Add files via upload ASC-Competition 2026-01-12 14:07:13 +08:00
  • bfa393b287 Add files via upload ASC-Competition 2026-01-12 14:06:22 +08:00
  • 3549dfde29 Add files via upload ASC-Competition 2026-01-12 14:05:26 +08:00
  • ea25330ae1 Add files via upload ASC-Competition 2026-01-12 14:04:17 +08:00
  • 4841f15f9a Add files via upload ASC-Competition 2026-01-12 14:03:05 +08:00
  • cbaebc016f Update README.md main UniGen-X 2025-10-01 10:13:04 +08:00
  • 05d2d82236 update readme hengguo 2025-09-23 16:57:54 +08:00
  • 50e8c3ed55 update readme_cn yuchen-x 2025-09-23 16:15:59 +08:00
  • ddb5848d86 Merge branch 'main' of github.com:unitreerobotics/unifolm-world-model-action yuchen-x 2025-09-23 16:11:47 +08:00
  • cb0cf4a353 updata readme_cn yuchen-x 2025-09-23 16:11:29 +08:00
  • 54f61a4336 update readme_cn hengguo 2025-09-23 16:00:53 +08:00
  • 118ada7c35 update readme yuchen-x 2025-09-23 15:22:27 +08:00
  • 8d5546d322 update readme yuchen-x 2025-09-23 15:21:12 +08:00
  • eccd1680c1 update readme yuchen-x 2025-09-23 15:19:02 +08:00
  • f12b478265 upload real-robot deployment code yuchen-x 2025-09-23 15:13:22 +08:00
  • 5dcd1ca503 fix a typo on COLUMNS definition yuchen-x 2025-09-22 17:33:28 +08:00
  • 7b4d383611 Update README.md UniGen-X 2025-09-21 17:34:40 +08:00
  • 733e228bb8 Update README.md UniGen-X 2025-09-21 17:19:28 +08:00
  • e9c60f6e62 Update README_cn.md UniGen-X 2025-09-19 10:18:38 +08:00
  • 2d4d79ab3a Update README.md UniGen-X 2025-09-19 10:18:07 +08:00
  • 1f21fe7fd8 Update README.md UniGen-X 2025-09-19 10:16:58 +08:00
  • a57037ab03 Update README_cn.md UniGen-X 2025-09-17 11:45:09 +08:00
  • be43dfef9d Update README.md UniGen-X 2025-09-17 11:44:32 +08:00
  • 884dcce130 Update README_cn.md UniGen-X 2025-09-17 10:49:42 +08:00
  • 29f3101a1f Update README.md UniGen-X 2025-09-17 10:49:20 +08:00
  • 712a289c28 Update README_cn.md UniGen-X 2025-09-17 10:44:52 +08:00
  • c0fad43420 Update README.md UniGen-X 2025-09-17 10:44:30 +08:00
  • 3b83374922 Merge pull request #8 from hu-po/patch-1 UniGen-X 2025-09-17 10:31:31 +08:00
  • 6a33fddb99 Update README_cn.md UniGen-X 2025-09-17 10:29:47 +08:00
  • a0010c4036 Update README.md UniGen-X 2025-09-17 10:27:02 +08:00
  • a1f6430c38 Update README.md UniGen-X 2025-09-17 10:26:51 +08:00
  • ee45fe75e2 Fix typo in Acknowledgement section of README hu-po 2025-09-16 13:22:33 -05:00