unifolm-world-model-action

Author	SHA1	Message	Date
olivame	a2cd34dd51	1. einsum('b i d, b j d -> b i j') → torch.bmm(q, k.transpose(-1,-2)) — 直接映射 rocBLAS batched GEMM 2. baddbmm 把 scale 融合进 GEMM，少一次 kernel launch 3. 第二个 einsum 同理换torch.bm 每一轮加速1到两秒	2026-02-08 18:54:48 +00:00
olivame	7338cc384a	ddim.py — torch.float16 → torch.bfloat16，修复 dtype 不匹配 attention.py — 4 处 softmax 都包裹了 torch.amp.autocast('cuda', enabled=False)，阻止 autocast 将 bf16 提升到 fp32	2026-02-08 17:02:05 +00:00
olivame	f86ab51a04	全链路 bf16 混合精度修正与 UNet FLOPS profiling - GroupNorm/LayerNorm bypass autocast，消除 bf16→fp32→bf16 转换开销 - DDIM 调度系数 cast 到输入 dtype，attention mask 直接用 bf16 分配 - alphas_cumprod 提升到 float64 保证数值精度 - SinusoidalPosEmb 输出 dtype跟随模型精度 - 新增 profile_unet.py 脚本及FLOPS 分析结果 - 启用 TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL - case1 PSNR: 30.45 → 30.24（bf16 精度预期内波动）	2026-02-08 16:01:30 +00:00
olivame	e588182642	修复混合精度vae相关的配置错误，确保在推理阶段正确使用了混合精度模型，并且导出了正确精度的检查点文件。	2026-02-08 12:35:59 +00:00
yuchen-x	f12b478265	upload real-robot deployment code	2025-09-23 15:13:22 +08:00
yuchen-x	9c9942f1d4	upload eval_utils.py file	2025-09-16 21:48:15 +08:00
yuchen-x	d7be60f9fe	init commit	2025-09-12 21:53:41 +08:00