unifolm-world-model-action

olivame/unifolm-world-model-action

Fork 0

Commit Graph

Select branches

Hide Pull Requests

dyz-try1

main

qhy

qhy-merged

qhy2

qhy3

qhy4

qhy5

qhy6

second

tensorrt-debug

third

trt-replacement

afd90e59fe 多卡流水导出 dyz-try1 qhy 2026-05-17 15:05:30 +08:00
9d2d57d96b 保存结果一次 qhy 2026-03-18 20:52:13 +08:00
8ca159d375 video_backbone剖析 qhy 2026-03-16 10:30:54 +08:00
7e45eba18b 早停特征验证，早停不通 qhy 2026-03-15 12:41:53 +08:00
db9cc5766d chore: commit current changes qhy 2026-03-14 14:21:13 +08:00
ef56e5dcdb Revert "tensorRT engines尝试精度没过，暂时先提交代码，后续再继续调试" tensorrt-debug qhy 2026-02-19 20:22:19 +08:00
43ab0f71b0 优化写入后新的所有结果 qhy4 qhy 2026-02-19 20:18:31 +08:00
68d695d81d 保存的优化 trt-replacement qhy 2026-02-19 15:35:09 +08:00
65788be1b3 成功的尝试 qhy 2026-02-18 19:14:55 +08:00
e1f8a83648 tensorRT engines尝试精度没过，暂时先提交代码，后续再继续调试 qhy 2026-02-18 18:22:12 +08:00
5e0e21d91b 复原sh为原始版本 qhy 2026-02-18 14:11:55 +08:00
5863fbb656 第一次baseline测试，补充psnr测定 qhy5 qhy 2026-02-12 10:53:05 +08:00
d9d9537d33 baseline qhy 2026-02-12 10:47:21 +08:00
202062a647 init qhy 2026-02-11 19:48:14 +08:00
d5bec53f61 优化后的全部结果 qhy 2026-02-11 19:21:06 +08:00
508b91f5a2 延迟 decode，只解码 CLIP 需要的 1 帧 qhy 2026-02-11 17:07:33 +08:00
3101252c25 速度变化不明显psnr显著提升 qhy 2026-02-11 16:38:21 +08:00
f386a5810b 补充上次提交 qhy 2026-02-11 16:24:40 +08:00
352a79035f 主干部分fp16,最敏感psnr=25.21,可以考虑对主干部分太敏感的部分回退fp32 qhy 2026-02-11 16:23:21 +08:00
25c6a328ef 结果 third olivame 2026-02-11 07:12:16 +00:00
1d23e5d36d Layer 3: 延迟 decode，只解码 CLIP 需要的 1 帧 olivame 2026-02-11 07:11:55 +00:00
9a08e27a19 KV 融合实现完成。改动总结：速度微弱提升psnr略微上升 attention.py — 3处改动： 1. __init__ 添加 _kv_fused = False 标志 2.新增 fuse_kv() 方法：将 to_k + to_v → to_kv，同时处理 _ip/_as/_aa 辅助 KV 对 2. bmm_forward 两个分支加_kv_fused 判断，用to_kv().chunk(2, dim=-1) 替代分别调用 qhy6 qhy 2026-02-11 12:36:38 +08:00
57ba85d147 KV 融合实现完成。改动总结：速度微弱提升psnr略微上升 attention.py — 3处改动： 1. __init__ 添加 _kv_fused = False 标志 2.新增 fuse_kv() 方法：将 to_k + to_v → to_kv，同时处理 _ip/_as/_aa 辅助 KV 对 2. bmm_forward 两个分支加_kv_fused 判断，用to_kv().chunk(2, dim=-1) 替代分别调用 second olivame 2026-02-10 18:07:23 +00:00
b558856e1e fix bugs qhy 2026-02-10 22:35:45 +08:00
dcbcb2c377 - state_unet 放到一个独立的 CUDA stream 上执行 - action_unet 在默认 stream 上同时执行 - 用 wait_stream 确保两者都完成后再返回两个 1D UNet 输入完全独立，共享的 hs_a 和 context_action 都是只读的。GPU 利用率只有 ~31%，小张量 kernel 不会打满 GPU，两个 stream 可以真正并行。 qhy 2026-02-10 21:41:48 +08:00
2cef3e9e45 ├─────┼─────────────────────────────────┼───────────────────────┼───────────────────┤ │ 1 │ CUDA Stream 预创建 │ wma_model.py │ 50次 → 0次 │ ├─────┼─────────────────────────────────┼───────────────────────┼───────────────────┤ │ 2 │ noise buffer 预分配 │ ddim.py │ 50次 alloc → 0次 │ ├─────┼─────────────────────────────────┼───────────────────────┼───────────────────┤ │ 3 │ global_feature expand提到循环外 │ conditional_unet1d.py │ ~700次 → ~100次 │ ├─────┼─────────────────────────────────┼───────────────────────┼───────────────────┤ │ 4 │ alpha/sigma dtype 预转换 │ ddim.py │ 200次 .to() → 0次 │ 效果不算特别明显 olivame 2026-02-10 13:40:52 +00:00
ff43432ef9 结果 qhy 2026-02-10 20:01:25 +08:00
afa12ba031 每步迭代保存异步 qhy 2026-02-10 19:54:53 +08:00
bf4d66c874 跳过模型加载 qhy 2026-02-10 19:36:17 +08:00
a09d35ae5b - state_unet 放到一个独立的 CUDA stream 上执行 - action_unet 在默认 stream 上同时执行 - 用 wait_stream 确保两者都完成后再返回两个 1D UNet 输入完全独立，共享的 hs_a 和 context_action 都是只读的。GPU 利用率只有 ~31%，小张量 kernel 不会打满 GPU，两个 stream 可以真正并行。 olivame 2026-02-10 10:47:10 +00:00
9347a4ebe5 实现了Context 预计算和缓存功能，提升了采样效率。 psnr不下降 qhy3 qhy 2026-02-10 17:47:46 +08:00
223a50f9e0 添加CrossAttention kv缓存，减少重复计算，提升性能，psnr=25.1201dB qhy 2026-02-10 17:35:03 +08:00
2a6068f9e4 减少了一路视频vae解码 qhy 2026-02-10 17:13:45 +08:00
91a9b0febc DDIM loop 内小张量分配优化，attention mask 缓存到 GPU qhy 2026-02-10 16:53:00 +08:00
ed637c972b tf32推理 qhy 2026-02-10 16:39:14 +08:00
db848bca01 profile 结果 olivame 2026-02-10 07:02:20 +00:00
3069666a15 脚本修改 qhy2 qhy-merged qhy 2026-02-10 14:49:26 +08:00
68369cc15f 合并后测试 qhy 2026-02-10 14:45:14 +08:00
b0ebb7006e 添加三层迭代级性能分析工具 profile_iteration.py olivame 2026-02-10 05:42:11 +00:00
bb274870c2 整理代码 qhy qhy 2026-02-10 12:46:12 +08:00
f1f92072e6 remove profile qhy 2026-02-10 11:28:26 +08:00
ff920b85a2 理论性能分析 qhy 2026-02-10 10:10:09 +08:00
125b85ce68 实现fs_embed 缓存，收益不明显，精度不降低 olivame 2026-02-09 18:49:44 +00:00
0b3b0e534a 复用 DDIMSampler + make_schedule微弱提升 olivame 2026-02-09 18:26:39 +00:00
6dca3696d8 实现了Context 预计算和缓存功能，提升了采样效率。 psnr不下降 olivame 2026-02-09 17:42:47 +00:00
f192c8aca9 添加CrossAttention kv缓存，减少重复计算，提升性能，psnr=31.8022 dB olivame 2026-02-09 17:04:23 +00:00
4288c9d8c9 减少了一路视频vae解码 olivame 2026-02-09 16:48:16 +00:00
6630952d2b 异步保存结果 qhy 2026-02-09 21:23:00 +08:00
a2cd34dd51 1. einsum('b i d, b j d -> b i j') → torch.bmm(q, k.transpose(-1,-2)) — 直接映射 rocBLAS batched GEMM 2. baddbmm 把 scale 融合进 GEMM，少一次 kernel launch 3. 第二个 einsum 同理换torch.bm 每一轮加速1到两秒 olivame 2026-02-08 18:54:48 +00:00
7338cc384a ddim.py — torch.float16 → torch.bfloat16，修复 dtype 不匹配 attention.py — 4 处 softmax 都包裹了 torch.amp.autocast('cuda', enabled=False)，阻止 autocast 将 bf16 提升到 fp32 olivame 2026-02-08 17:02:05 +00:00
f86ab51a04 全链路 bf16 混合精度修正与 UNet FLOPS profiling olivame 2026-02-08 16:01:30 +00:00
75c798ded0 DDIM loop 内小张量分配优化，attention mask 缓存到 GPU olivame 2026-02-08 14:20:48 +00:00
e588182642 修复混合精度vae相关的配置错误，确保在推理阶段正确使用了混合精度模型，并且导出了正确精度的检查点文件。 olivame 2026-02-08 12:35:59 +00:00
e6c55a648c 所有case的baseline，amd版本的ground truth都上传了 olivame 2026-02-08 09:42:14 +00:00
fffc5a9956 init olivame 2026-02-08 03:29:15 +00:00
bc78815acf 脚本参数暂时修改 qhy 2026-02-07 21:28:54 +08:00
d5f6577fa8 复制模型对象，跳过加载模型 qhy 2026-02-07 19:18:49 +08:00
7dcf9e8b89 VAE优化，模型直接加载至GPU qhy 2026-02-07 17:36:00 +08:00
aba2a90045 算子融合 qhy 2026-02-07 16:40:33 +08:00
25de36b9bc 添加当前优化说明 olivame 2026-01-19 16:58:37 +08:00
2fdcec6da0 Delete README.md olivame 2026-01-19 16:39:49 +08:00
7e501b17fd 把混和精度模型权重导出至本地文件，减少dtype开销 olivame 2026-01-19 15:14:01 +08:00
cb334f308b DDIM loop 内小张量分配优化，attention mask 缓存到 GPU，加速30s左右 olivame 2026-01-18 22:37:55 +08:00
a90efc6718 VAE 也做 BF16 olivame 2026-01-18 21:14:55 +08:00
e1b029201e 权重改为fp32, 其他部分保持bf16 olivame 2026-01-18 20:24:37 +08:00
44379f3e31 embedder权重改成bf16 olivame 2026-01-18 19:03:21 +08:00
fde3c7445d 轻量投影/MLP BF16 微调 olivame 2026-01-18 18:38:47 +08:00
3c0f409fcf 轻量投影/MLP BF16 olivame 2026-01-18 18:26:37 +08:00
2b634cde90 对扩散主干做 BF16 olivame 2026-01-18 17:14:16 +08:00
7b499284bf 打印推理权重精度信息 olivame 2026-01-18 11:19:10 +08:00
c86c2be5ff 性能剖析 olivame 2026-01-18 00:31:39 +08:00
25c6fc04db 第一次完整测例跑完 olivame 2026-01-18 00:30:10 +08:00
ca15cc593b Add files via upload ASC-Competition 2026-01-12 14:07:31 +08:00
fbe2a47a8f Add files via upload ASC-Competition 2026-01-12 14:07:13 +08:00
bfa393b287 Add files via upload ASC-Competition 2026-01-12 14:06:22 +08:00
3549dfde29 Add files via upload ASC-Competition 2026-01-12 14:05:26 +08:00
ea25330ae1 Add files via upload ASC-Competition 2026-01-12 14:04:17 +08:00
4841f15f9a Add files via upload ASC-Competition 2026-01-12 14:03:05 +08:00
cbaebc016f Update README.md main UniGen-X 2025-10-01 10:13:04 +08:00
05d2d82236 update readme hengguo 2025-09-23 16:57:54 +08:00
50e8c3ed55 update readme_cn yuchen-x 2025-09-23 16:15:59 +08:00
ddb5848d86 Merge branch 'main' of github.com:unitreerobotics/unifolm-world-model-action yuchen-x 2025-09-23 16:11:47 +08:00
cb0cf4a353 updata readme_cn yuchen-x 2025-09-23 16:11:29 +08:00
54f61a4336 update readme_cn hengguo 2025-09-23 16:00:53 +08:00
118ada7c35 update readme yuchen-x 2025-09-23 15:22:27 +08:00
8d5546d322 update readme yuchen-x 2025-09-23 15:21:12 +08:00
eccd1680c1 update readme yuchen-x 2025-09-23 15:19:02 +08:00
f12b478265 upload real-robot deployment code yuchen-x 2025-09-23 15:13:22 +08:00
5dcd1ca503 fix a typo on COLUMNS definition yuchen-x 2025-09-22 17:33:28 +08:00
7b4d383611 Update README.md UniGen-X 2025-09-21 17:34:40 +08:00
733e228bb8 Update README.md UniGen-X 2025-09-21 17:19:28 +08:00
e9c60f6e62 Update README_cn.md UniGen-X 2025-09-19 10:18:38 +08:00
2d4d79ab3a Update README.md UniGen-X 2025-09-19 10:18:07 +08:00
1f21fe7fd8 Update README.md UniGen-X 2025-09-19 10:16:58 +08:00
a57037ab03 Update README_cn.md UniGen-X 2025-09-17 11:45:09 +08:00
be43dfef9d Update README.md UniGen-X 2025-09-17 11:44:32 +08:00
884dcce130 Update README_cn.md UniGen-X 2025-09-17 10:49:42 +08:00
29f3101a1f Update README.md UniGen-X 2025-09-17 10:49:20 +08:00
712a289c28 Update README_cn.md UniGen-X 2025-09-17 10:44:52 +08:00
c0fad43420 Update README.md UniGen-X 2025-09-17 10:44:30 +08:00

1 2

Commit Graph Select branches Hide Pull Requests dyz-try1 main qhy qhy-merged qhy2 qhy3 qhy4 qhy5 qhy6 second tensorrt-debug third trt-replacement Mono Color

Commit Graph

Select branches

Hide Pull Requests

dyz-try1

main

qhy

qhy-merged

qhy2

qhy3

qhy4

qhy5

qhy6

second

tensorrt-debug

third

trt-replacement