Merge branch 'backend-O1' into deploy-20250819

2025-08-19 20:05:59 +08:00
parent 71d08850df ef68235446
commit 54fec11184
16 changed files with 481 additions and 276 deletions
--- a/doc/CompilerDesign.md
+++ b/doc/CompilerDesign.md
@@ -0,0 +1,266 @@
+# 编译器核心技术与优化详解
+
+本文档深入剖析 mysysy 编译器的内部实现，重点阐述其在前端、中端和后端所采用的核心编译技术及优化算法，并结合具体实现函数进行说明。
+
+## 1. 编译器整体架构
+
+本编译器采用经典的三段式架构，将编译过程清晰地划分为前端、中端和后端三个主要部分。每个部分处理不同的抽象层级，并通过定义良好的接口（AST, IR）进行通信，实现了高度的模块化。
+
+```mermaid
+graph TD
+    A[源代码 .sy] --> B{前端 Frontend};
+    B --> C[抽象语法树 AST];
+    C --> D{中端 Midend};
+    D --> E[SSA-based IR];
+    E -- 优化 --> F[优化后的 IR];
+    F --> G{后端 Backend};
+    G --> H[目标机代码 MachineInstr];
+    H --> I[RISC-V 64 汇编代码 .s];
+
+    subgraph 前端
+        B
+    end
+    subgraph 中端
+        D
+    end
+    subgraph 后端
+        G
+    end
+```
+
+- **前端 (Frontend)**：负责词法、语法、语义分析，将 SysY 源代码解析为抽象语法树 (AST)。
+- **中端 (Midend)**：基于 AST 生成与具体机器无关的中间表示 (IR)，并在此基础上进行深入的分析和优化。
+- **后端 (Backend)**：将优化后的 IR 翻译成目标平台（RISC-V 64）的汇编代码。
+
+---
+
+## 2. 前端技术 (Frontend)
+
+前端的核心任务是进行语法和语义的分析与验证，其工作流程如下：
+
+```mermaid
+graph TD
+    subgraph "前端处理流程"
+        Source["源文件 (.sy)"] --> Lexer["词法分析器 (SysYLexer)"];
+        Lexer --> TokenStream["Token 流"];
+        TokenStream --> Parser["语法分析器 (SysYParser)"];
+        Parser --> ParseTree["解析树"];
+        ParseTree --> Visitor["AST构建 (SysYVisitor)"];
+        Visitor --> AST[抽象语法树];
+    end
+```
+
+- **词法与语法分析**:
+  - **技术**: 采用 **ANTLR (ANother Tool for Language Recognition)** 框架。通过在 `frontend/SysY.g4` 文件中定义的上下文无关文法，ANTLR 能够自动生成高效的 LL(*) 词法分析器 (`SysYLexer.cpp`) 和语法分析器 (`SysYParser.cpp`)。
+  - **实现**: 词法分析器将字符流转换为记号 (Token) 流，语法分析器则根据文法规则将记号流组织成一棵解析树 (Parse Tree)。这棵树精确地反映了源代码的语法结构。
+
+- **AST 构建**:
+  - **技术**: 应用 **访问者 (Visitor) 设计模式** 遍历 ANTLR 生成的解析树。该模式将数据结构（解析树）与作用于其上的操作（AST构建逻辑）解耦。
+  - **实现**: `frontend/SysYVisitor.cpp` 中定义了具体的遍历逻辑。在遍历过程中，会构建一个比解析树更抽象、更面向编译需求的**抽象语法树 (Abstract Syntax Tree, AST)**。AST 忽略了纯粹的语法细节（如括号、分号），只保留了核心的语义结构，是前端传递给中端的接口。
+
+---
+
+## 3. 中端技术与优化 (Midend)
+
+中端是编译器的核心，所有与目标机器无关的分析和优化都在此阶段完成。
+
+### 3.1. 中间表示 (IR) 及设计要点
+
+- **技术**: 设计了一种三地址码（Three-Address Code）风格的中间表示，其形式和设计哲学深受 **LLVM IR** 的启发。IR 的核心特征是采用了**静态单赋值 (Static Single Assignment, SSA)** 形式。
+- **实现**: `midend/IR.cpp` 定义了 IR 的核心数据结构，如 `Instruction`, `BasicBlock`, `Function` 和 `Module`。`midend/SysYIRGenerator.cpp` 负责将前端的 AST 转换为这种 IR。在 SSA 形式下，每个变量只被赋值一次，使得变量的定义-使用关系（Def-Use Chain）变得异常清晰，极大地简化了后续的优化算法。通过继承并重写 SysYBaseVisitor 类，遍历 AST 节点生成自定义 IR，并在 IR 生成阶段实现了简单的常量传播和公共子表达式消除（CSE）。
+- **设计要点**：
+  - **`alloca` 指令集中管理**：  
+  所有 `alloca` 指令统一放置在入口基本块，并与实际计算指令分离。这有助于后续指令调度器专注于优化计算密集型指令的执行顺序，避免内存分配指令的干扰。
+  - **消除 `fallthrough` 现象**：  
+  通过确保所有基本块均以终结指令结尾，消除基本块间的 `fallthrough`，简化了控制流图（CFG）的构建和分析。这一做法提升了编译器整体质量，使中端各类 Pass 的编写和维护更加规范和高效。
+
+### 3.2. 核心优化详解
+
+编译器的分析和优化被组织成一系列独立的“遍”（Pass）。每个 Pass 都是一个独立的算法模块，对 IR 进行特定的分析或变换。这种设计具有高度的模块化和可扩展性。
+
+#### 3.2.1. SSA 构建与解构
+
+- **Mem2Reg (`Mem2Reg.cpp`)**:
+  - **目标**: 将对栈内存 (`alloca`) 的 `load`/`store` 操作，提升为对虚拟寄存器的直接操作，并构建 SSA 形式。
+  - **技术**: 该过程是实现 SSA 的关键。它依赖于**支配树 (Dominator Tree)** 分析，通过寻找变量定义块的**支配边界 (Dominance Frontier)** 来确定在何处插入 **Φ (Phi) 函数**。
+  - **实现**: `Mem2RegContext::run` 驱动此过程。首先调用 `isPromotableAlloca` 识别所有仅被 `load`/`store` 使用的标量 `alloca`。然后，`insertPhis` 根据支配边界信息在必要的控制流汇合点插入 `phi` 指令。最后，`renameVariables` 递归地遍历支配树，用一个模拟的值栈来将 `load` 替换为栈顶的 SSA 值，将 `store` 视为对栈的一次 `push` 操作，从而完成重命名。值得一提的是，由于我们在IR生成阶段就将所有alloca指令统一放置在入口块，极大地简化了Mem2Reg遍的实现和支配树分析的计算。
+
+- **Reg2Mem (`Reg2Mem.cpp`)**:
+  - **目标**: 执行 `Mem2Reg` 的逆操作，将程序从 SSA 形式转换回基于内存的表示。这通常是为不支持 SSA 的后端做准备的**SSA解构 (SSA Destruction)** 步骤。
+  - **技术**: 为每个 SSA 值（指令结果、函数参数）在函数入口创建一个 `alloca` 栈槽。然后，在每个 SSA 值的定义点之后插入一个 `store` 将其存入对应的栈槽；在每个使用点之前插入一个 `load` 从栈槽中取出值。
+  - **实现**: `Reg2MemContext::run` 驱动此过程。`allocateMemoryForSSAValues` 为所有需要转换的 SSA 值创建 `alloca` 指令。`rewritePhis` 特殊处理 `phi` 指令，在每个前驱块的末尾插入 `store`。`insertLoadsAndStores` 则处理所有非 `phi` 指令的定义和使用，插入相应的 `store` 和 `load`。虽然
+
+#### 3.2.2. 常量与死代码优化
+
+- **SCCP (`SCCP.cpp`)**:
+  - **目标**: 稀疏条件常量传播。在编译期计算常量表达式，并利用分支条件为常数的信息来消除死代码，比简单的常量传播更强大。
+  - **技术**: 这是一种基于数据流分析的格理论（Lattice Theory）的优化。它为每个变量维护一个值状态，可能为 `Top` (未定义), `Constant` (某个常量值), 或 `Bottom` (非常量)。同时，它跟踪基本块的可达性，如果一个分支的条件被推断为常量，则其不可达的后继分支在分析中会被直接忽略。
+  - **实现**: `SCCPContext::run` 驱动整个分析过程。它维护一个指令工作列表和一个边工作列表。`ProcessInstruction` 和 `ProcessEdge` 函数交替执行，不断地从 IR 中传播常量和可达性信息，直到达到不动点为止。最后，`PropagateConstants` 和 `SimplifyControlFlow` 将推断出的常量替换到代码中，并移除死块。
+
+- **DCE (`DCE.cpp`)**:
+  - **目标**: 简单死代码消除。移除那些计算结果对程序输出没有贡献的指令。
+  - **技术**: 采用**标记-清除 (Mark and Sweep)** 算法。从具有副作用的指令（如 `store`, `call`, `return`）开始，反向追溯其操作数，标记所有相关的指令为“活跃”。
+  - **实现**: `DCEContext::run` 实现了此算法。第一次遍历时，通过 `isAlive` 函数识别出具有副作用的“根”指令，然后调用 `addAlive` 递归地将所有依赖的指令加入 `alive_insts` 集合。第二次遍历时，所有未被标记为活跃的指令都将被删除。
+  - **未来规划**: 后续开发更多分析遍会为DCE收集更多的IR信息，能够迭代出更健壮的DEC遍。
+
+#### 3.2.3. 控制流图 (CFG) 优化
+
+- **实现**: `SysYIRCFGOpt.cpp` 中定义了一系列用于清理和简化控制流图的 Pass。
+  - **`SysYDelInstAfterBrPass`**: 删除分支指令后的死代码。
+  - **`SysYDelNoPreBLockPass`**: 通过从入口块开始的图遍历（BFS），识别并删除所有不可达的基本块。
+  - **`SysYDelEmptyBlockPass`**: 识别并删除仅包含一条无条件跳转指令的空块，将其前驱直接重定向到其后继。
+  - **`SysYBlockMergePass`**: 如果一个块 A 只有一个后继 B，且 B 只有一个前驱 A，则将 A 和 B 合并为一个块。
+  - **`SysYCondBr2BrPass`**: 如果一个条件分支的条件是常量，则将其转换为一个无条件分支。
+  - **`SysYAddReturnPass`**: 确保所有没有终结指令的函数出口路径都有一个 `return` 指令，以保证 CFG 的完整性。
+
+#### 3.2.4. 其他优化
+
+#### 3.3. 核心分析遍
+
+  为了为优化遍收集信息，最大程度发掘程序优化潜力，我们目前设计并实现了以下关键的分析遍：
+
+- **支配树分析 (Dominator Tree Analysis)**:
+  - **技术**: 通过计算每个基本块的支配节点，构建出一棵支配树结构。我们在计算支配节点时采用了**逆后序遍历（RPO, Reverse Post Order）**，以保证数据流分析的收敛速度和正确性。在计算直接支配者（Idom, Immediate Dominator）时，采用了经典的**Lengauer-Tarjan（LT）算法**，该算法以高效的并查集和路径压缩技术著称，能够在线性时间内准确计算出每个基本块的直接支配者关系。
+  - **实现**: `Dom.cpp` 实现了支配树分析。该分析为每个基本块分配其直接支配者，并递归构建整棵支配树。支配树是许多高级优化（尤其是 SSA 形式下的优化）的基础。例如，Mem2Reg 需要依赖支配树来正确插入 Phi 指令，并在变量重命名阶段高效遍历控制流图。此外，循环相关优化（如循环不变量外提）也依赖于支配树信息来识别循环头和循环体的关系。
+
+- **活跃性分析 (Liveness Analysis)**:
+  - **技术**: 活跃性分析用于确定在程序的某一特定点上，哪些变量的值在未来会被用到。我们采用**经典的不动点迭代算法**，在数据流分析框架下，逆序遍历基本块，迭代计算每个基本块的 `live-in` 和 `live-out` 集合，直到收敛为止。这种方法简单且易于实现，能够满足大多数编译优化的需求。
+  - **未来规划**: 若后续对分析效率有更高要求，可考虑引入如**工作列表算法**或者**转化为基于SSA的图可达性分析**等更高效的算法，以进一步提升大型函数或复杂控制流下的分析性能。
+  - **实现**: `Liveness.cpp` 提供了活跃性分析。该分析采用经典的数据流分析框架，迭代计算每个基本块的 `live-in` 和 `live-out` 集合。活跃性信息是死代码消除（DCE）、寄存器分配等优化的必要前置步骤。通过准确的活跃性分析，可以识别出无用的变量和指令，从而为后续优化遍提供坚实的数据基础。
+
+### 3.4. 未来的规划
+
+基于现有的成果，我们规划将中端能力进一步扩展，近期我们重点将放在循环相关的分析和函数内联的实现，以期大幅提升最终程序的性能。
+
+- **循环优化**:
+  我们正在开发一个健壮的分析遍来准确识别程序中的循环结构，并通过对已识别的循环进行规范化的转换遍，为后续的向量化、并行化工作做铺垫。并通过循环不变量提升、循环归纳变量分析与强度削减等优化提升循环相关代码的执行效率。
+- **函数内联**:
+  函数内联能够将简单函数（可能需要收集更多信息）内联到call指令相应位置，减少栈空间相关变动，并且为其他遍发掘优化空间。
+- **`LLVM IR`格式化**:
+  我们将为所有的IR设计并实现通用的打印器方法，使得IR能够显式化为可编译运行的LLVM IR，通过编排脚本和调用llvm相关工具链，我们能够绕过后端编译运行中间代码，为验证中端正确性提供系统化的方法，同时减轻后端开发bug溯源的压力。
+
+---
+
+## 4. 后端技术与优化 (Backend)
+
+后端负责将经过优化的、与机器无关的 IR 转换为针对 RISC-V 64 位架构的汇编代码。
+
+### 4.1. 栈帧布局 (Stack Frame Layout)
+
+在函数调用发生时，后端需要在栈上创建一个**栈帧 (Stack Frame)** 来存储局部变量、传递参数和保存寄存器。本编译器采用的栈帧布局遵循 RISC-V 调用约定，结构如下：
+
+```
+高地址  +-----------------------------+
+        |       ...                   |
+        |       函数参数 (8+)         |  <-- 调用者传入的、放不进寄存器的参数
+        +-----------------------------+
+        |       返回地址 (ra)         |  <-- sp 在函数入口指向的位置
+        +-----------------------------+
+        |       旧的帧指针 (s0/fp)    |
+        +-----------------------------+  <-- s0/fp 在函数序言后指向的位置
+        |       被调用者保存的寄存器  |
+        |       (Callee-Saved Regs)   |
+        +-----------------------------+
+        |       局部变量 (Alloca)     |
+        +-----------------------------+
+        |       寄存器溢出区域        |
+        |       (Spill Slots)         |
+        +-----------------------------+
+        |       为调用其他函数预留的  |
+        |       出参空间 (Out-Args)   |
+低地址  +-----------------------------+  <-- sp 在函数序言后指向的位置
+```
+
+- **实现**: `PrologueEpilogueInsertion.h` 和 `EliminateFrameIndices.h` 中的 Pass 负责生成函数序言（prologue）和尾声（epilogue）代码，来构建和销毁上述栈帧。`EliminateFrameIndices` 会将所有对抽象栈槽（如局部变量、溢出槽）的访问，替换为对帧指针 `s0` 或栈指针 `sp` 的、带有具体偏移量的访问。
+
+### 4.2. 指令选择 (Instruction Selection)
+
+- **目标**: 将抽象的 IR 指令高效地翻译成具体的目标机指令序列。
+- **技术**: 采用 **基于 DAG (Directed Acyclic Graph) 的模式匹配** 算法。
+- **实现**: `RISCv64ISel.cpp` 中的 `RISCv64ISel::select()` 驱动此过程。`selectBasicBlock()` 为每个基本块调用 `build_dag()` 来构建一个操作的 DAG，然后通过 `select_recursive()` 对 DAG 进行自底向上的遍历和匹配。在 `selectNode()` 函数中，通过一个大的 `switch` 语句，为不同类型的 DAG 节点（如 `BINARY`, `LOAD`, `STORE`）匹配最优的指令序列。例如，一个 IR 的加法指令，如果其中一个操作数是小常数，会被直接匹配为一条 `ADDIW` 指令，而不是 `LI` 和 `ADDW` 两条指令。
+
+### 4.3. 寄存器分配 (Register Allocation)
+
+- **目标**: 将无限的虚拟寄存器映射到有限的物理寄存器上，并优雅地处理寄存器不足（溢出）的情况。
+- **技术**: 实现了经典的**基于图着色 (Graph Coloring) 的全局寄存器分配算法**，这是一种强大但复杂的全局优化方法。
+- **实现**: `RISCv64RegAlloc.cpp` 中的 `RISCv64RegAlloc::run()` 是主入口。它在一个循环中执行分配，直到没有寄存器需要溢出为止。其内部流程极其精密，如下图所示：
+
+```mermaid
+graph TD
+    subgraph "寄存器分配主循环 (RISCv64RegAlloc::run)"
+        direction LR
+        Start((Start)) --> Liveness[1. 活跃性分析 LivenessAnalysis]
+        Liveness --> Build[2. 构建冲突图 Build]
+        Build --> Worklist[3. 创建工作表 MakeWorklist]
+        Worklist --> Loop{Main Loop}
+        Loop -- simplifyWorklist 非空 --> Simplify[4a. 简化 Simplify]
+        Simplify --> Loop
+        Loop -- worklistMoves 非空 --> Coalesce[4b. 合并 Coalesce]
+        Coalesce --> Loop
+        Loop -- freezeWorklist 非空 --> Freeze[4c. 冻结 Freeze]
+        Freeze --> Loop
+        Loop -- spillWorklist 非空 --> Spill[4d. 选择溢出 SelectSpill]
+        Spill --> Loop
+        Loop -- 所有工作表为空 --> Assign[5. 分配颜色 AssignColors]
+        Assign --> CheckSpill{有溢出?}
+        CheckSpill -- Yes --> Rewrite[6. 重写代码 RewriteProgram]
+        Rewrite --> Liveness
+        CheckSpill -- No --> Finish((Finish))
+    end
+```
+
+  1. **`analyzeLiveness()`**: 对机器指令进行数据流分析，计算出每个虚拟寄存器的活跃范围。
+  2. **`build()`**: 根据活跃性信息构建**冲突图 (Interference Graph)**。如果两个虚拟寄存器同时活跃，则它们冲突，在图中连接一条边。
+  3. **`makeWorklist()`**: 将图节点（虚拟寄存器）根据其度数放入不同的工作列表，为着色做准备。
+  4. **核心着色阶段 (The Loop)**:
+      - **`simplify()`**: 贪心地移除图中度数小于物理寄存器数量的节点，并将其压入栈中。这些节点保证可以被成功着色。
+      - **`coalesce()`**: 尝试将传送指令 (`MV`) 的源和目标节点合并，以消除这条指令。合并的条件基于 **Briggs** 或 **George** 启发式，以避免使图变得不可着色。
+      - **`freeze()`**: 当一个与传送指令相关的节点无法合并也无法简化时，放弃对该传送指令的合并希望，将其“冻结”为一个普通节点。
+      - **`selectSpill()`**: 当所有节点都无法进行上述操作时（即图中只剩下高度数的节点），必须选择一个节点进行**溢出 (Spill)**，即决定将其存放在内存中。
+  5. **`assignColors()`**: 在所有节点都被处理后，从栈中依次弹出节点，并根据其已着色邻居的颜色，为它选择一个可用的物理寄存器。
+  6. **`rewriteProgram()`**: 如果 `assignColors()` 阶段发现有节点被标记为溢出，此函数会被调用。它会修改机器指令，为溢出的虚拟寄存器插入从内存加载（`lw`/`ld`）和存入内存（`sw`/`sd`）的代码。然后，整个分配过程从步骤 1 重新开始。
+
+### 4.4. 后端特定优化
+
+在寄存器分配前后，后端还会进行一系列针对目标机（RISC-V）特性的优化。
+
+#### 4.4.1. 指令调度 (Instruction Scheduling)
+
+- **寄存器分配前调度 (`PreRA_Scheduler.cpp`)**:
+  - **目标**: 在寄存器分配前，通过重排指令来提升性能。主要目标是**隐藏加载延迟 (Load Latency)**，即尽早发出 `load` 指令，使其结果能在需要时及时准备好，避免流水线停顿。同时，由于此时使用的是无限的虚拟寄存器，调度器有较大的自由度，但也可能因为过度重排而延长虚拟寄存器的生命周期，从而增加寄存器压力。
+  - **实现**: `scheduleBlock()` 函数会识别出基本块内的调度边界（如 `call` 或终结指令），然后在每个独立的区域内调用 `scheduleRegion()`。当前的实现是一种简化的列表调度，它会优先尝试将加载指令 (`LW`, `LD` 等) 在不违反数据依赖的前提下，尽可能地向前移动。
+
+- **寄存器分配后调度 (`PostRA_Scheduler.cpp`)**:
+  - **目标**: 在寄存器分配完成之后，对指令序列进行最后一轮微调。此阶段调度的主要目标与分配前不同，它旨在解决由寄存器分配过程本身引入的性能问题，例如：
+    - **缓解溢出代价**: 将因溢出（Spill）而产生的 `load` 指令（从栈加载）尽可能地提前，远离其使用点；将 `store` 指令（存入栈）尽可能地推后，远离其定义点。
+    - **消除伪依赖**: 寄存器分配器可能会为两个原本不相关的虚拟寄存器分配同一个物理寄存器，从而引入了虚假的写后读（WAR）或写后写（WAW）依赖。Post-RA 调度可以尝试解开这些伪依赖，为指令重排提供更多自由度。
+  - **实现**: `scheduleBlock()` 函数实现了此调度器。它采用了一种非常保守的**局部交换 (Local Swapping)** 策略。它迭代地检查相邻的两条指令，在 `canSwapInstructions()` 函数确认交换不会违反任何数据依赖（RAW, WAR, WAW）或内存依赖后，才执行交换。这种方法虽然不如全局列表调度强大，但在严格的 Post-RA 约束下是一种安全有效的优化手段。
+
+#### 4.4.2. 强度削减 (Strength Reduction)
+
+- **除法强度削减 (`DivStrengthReduction.cpp`)**:
+  - **目标**: 将机器指令中昂贵的 `DIV` 或 `DIVW` 指令（当除数为编译期常量时）替换为一系列更快、计算成本更低的指令组合。
+  - **技术**: 基于数论中的**乘法逆元 (Multiplicative Inverse)** 思想。对于一个整数除法 `x / d`，可以找到一个“魔数” `m` 和一个移位数 `s`，使得该除法可以被近似替换为 `(x * m) >> s`。这个过程需要处理复杂的符号、取整和溢出问题。
+  - **实现**: `runOnMachineFunction()` 实现了此优化。它会遍历机器指令，寻找以常量为除数的 `DIV`/`DIVW` 指令。`computeMagic()` 函数负责计算出对应的魔数和移位数。然后，根据除数是 2 的幂、1、-1 还是其他普通数字，生成不同的指令序列，包括 `MULH` (取高位乘积), `SRAI` (算术右移), `ADD`, `SUB` 等，来精确地模拟定点数除法的效果。
+
+#### 4.4.3. 窥孔优化 (Peephole Optimization)
+
+- **目标**: 在生成最终汇编代码之前，对相邻的机器指令序列进行局部优化，以消除冗余操作和利用目标机特性。
+- **技术**: 窥孔优化是一种简单而高效的局部优化技术。它通过一个固定大小的“窥孔”（通常是 2-3 条指令）来扫描指令序列，寻找可以被更优指令序列替换的模式。
+- **实现**: `PeepholeOptimizer::runOnMachineFunction()` 实现了此 Pass。它包含了一系列模式匹配和替换规则，主要包括：
+  - **冗余移动消除**: `mv x, y` 后跟着一条使用 `x` 的指令 `op z, x, ...`，如果 `x` 之后不再活跃，则将 `op` 的操作数直接替换为 `y`，并移除 `mv` 指令。
+  - **冗余加载消除**: `sw r1, mem; lw r2, mem` -> `sw r1, mem; mv r2, r1`。如果 `r1` 和 `r2` 是同一个寄存器，则直接移除 `lw`。
+  - **地址计算优化**: `addi t1, base, imm1; lw t2, imm2(t1)` -> `lw t2, (imm1+imm2)(base)`。将两条指令合并为一条，减少了指令数量和中间寄存器的使用。
+  - **指令合并**: `addi t1, t0, imm1; addi t2, t1, imm2` -> `addi t2, t0, (imm1+imm2)`。合并连续的立即数加法。
+
+### 4.5. 局限性与未来工作
+
+根据项目中的 `TODO` 列表和源代码分析，当前实现存在一些可改进之处：
+
+- **寄存器分配**:
+  - **`CALL` 指令处理**: 当前对 `CALL` 指令的 `use`/`def` 分析不完整，没有将所有调用者保存的寄存器标记为 `def`，这可能导致跨函数调用的值被错误破坏。
+  - **溢出处理**: 当前所有溢出的虚拟寄存器都被简单地映射到同一个物理寄存器 `t6` 上，这会引入大量不必要的 `load`/`store`，并可能导致 `t6` 成为性能瓶颈。
+- **IR 设计**:
+  - 随着 SSA 的引入，IR 中某些冗余信息（如基本块的 `args` 参数）可以被移除，以简化设计。
+- **优化**:
+  - 当前的优化主要集中在标量上。可以引入更多面向循环的优化（如循环不变代码外提 LICM、归纳变量分析 IndVar）和过程间优化来进一步提升性能。
--- a/lib/libsysy_riscv.a
+++ b/lib/libsysy_riscv.a
--- a/script/runit-single.sh
+++ b/script/runit-single.sh
@@ -20,18 +20,19 @@ QEMU_RISCV64="qemu-riscv64"

 # --- 初始化变量 ---
 EXECUTE_MODE=false
-IR_EXECUTE_MODE=false # 新增
+IR_EXECUTE_MODE=false
 CLEAN_MODE=false
 OPTIMIZE_FLAG=""
 SYSYC_TIMEOUT=30
-LLC_TIMEOUT=10 # 新增
+LLC_TIMEOUT=10
 GCC_TIMEOUT=10
 EXEC_TIMEOUT=30
 MAX_OUTPUT_LINES=20
+MAX_OUTPUT_CHARS=1000
 SY_FILES=()
 PASSED_CASES=0
 FAILED_CASES_LIST=""
-INTERRUPTED=false # 新增
+INTERRUPTED=false

 # =================================================================
 # --- 函数定义 ---
@@ -50,22 +51,31 @@ show_help() {
    echo "  -gct N                   设置 gcc 交叉编译超时为 N 秒 (默认: 10)。"
    echo "  -et N                    设置 qemu 自动化执行超时为 N 秒 (默认: 30)。"
    echo "  -ml N, --max-lines N     当输出对比失败时，最多显示 N 行内容 (默认: 20)。"
+    echo "  -mc N, --max-chars N     当输出对比失败时，最多显示 N 个字符 (默认: 1000)。"
    echo "  -h, --help               显示此帮助信息并退出。"
    echo ""
    echo "可在任何时候按 Ctrl+C 来中断测试并显示当前已完成的测例总结。"
 }

+# 显示文件内容并根据行数和字符数截断的函数
 display_file_content() {
    local file_path="$1"
    local title="$2"
    local max_lines="$3"
+    local max_chars="$4" # 新增参数
    if [ ! -f "$file_path" ]; then return; fi
    echo -e "$title"
    local line_count
+    local char_count
    line_count=$(wc -l < "$file_path")
+    char_count=$(wc -c < "$file_path")
+
    if [ "$line_count" -gt "$max_lines" ]; then
        head -n "$max_lines" "$file_path"
-        echo -e "\e[33m[... 输出已截断，共 ${line_count} 行 ...]\e[0m"
+        echo -e "\e[33m[... 输出因行数过多 (共 ${line_count} 行) 而截断 ...]\e[0m"
+    elif [ "$char_count" -gt "$max_chars" ]; then
+        head -c "$max_chars" "$file_path"
+        echo -e "\n\e[33m[... 输出因字符数过多 (共 ${char_count} 字符) 而截断 ...]\e[0m"
    else
        cat "$file_path"
    fi
@@ -131,6 +141,7 @@ while [[ "$#" -gt 0 ]]; do
        -gct) if [[ -n "$2" && "$2" =~ ^[0-9]+$ ]]; then GCC_TIMEOUT="$2"; shift 2; else echo "错误: -gct 需要一个正整数参数。" >&2; exit 1; fi ;;
        -et) if [[ -n "$2" && "$2" =~ ^[0-9]+$ ]]; then EXEC_TIMEOUT="$2"; shift 2; else echo "错误: -et 需要一个正整数参数。" >&2; exit 1; fi ;;
        -ml|--max-lines) if [[ -n "$2" && "$2" =~ ^[0-9]+$ ]]; then MAX_OUTPUT_LINES="$2"; shift 2; else echo "错误: --max-lines 需要一个正整数参数。" >&2; exit 1; fi ;;
+        -mc|--max-chars) if [[ -n "$2" && "$2" =~ ^[0-9]+$ ]]; then MAX_OUTPUT_CHARS="$2"; shift 2; else echo "错误: --max-chars 需要一个正整数参数。" >&2; exit 1; fi ;;
        -h|--help) show_help; exit 0 ;;
        -*) echo "未知选项: $1"; show_help; exit 1 ;;
        *)
@@ -180,6 +191,8 @@ TOTAL_CASES=${#SY_FILES[@]}
 echo "SysY 单例测试运行器启动..."
 if [ -n "$OPTIMIZE_FLAG" ]; then echo "优化等级: ${OPTIMIZE_FLAG}"; fi
 echo "超时设置: sysyc=${SYSYC_TIMEOUT}s, llc=${LLC_TIMEOUT}s, gcc=${GCC_TIMEOUT}s, qemu=${EXEC_TIMEOUT}s"
+echo "失败输出最大行数: ${MAX_OUTPUT_LINES}"
+echo "失败输出最大字符数: ${MAX_OUTPUT_CHARS}"
 echo ""

 for sy_file in "${SY_FILES[@]}"; do
@@ -260,8 +273,8 @@ for sy_file in "${SY_FILES[@]}"; do
                        out_ok=1
                        if ! diff -q <(tr -d '[:space:]' < "${output_actual_file}") <(tr -d '[:space:]' < "${EXPECTED_STDOUT_FILE}") >/dev/null 2>&1; then
                            echo -e "\e[31m  标准输出测试失败。\e[0m"; out_ok=0
-                            display_file_content "${EXPECTED_STDOUT_FILE}" "    \e[36m--- 期望输出 ---\e[0m" "${MAX_OUTPUT_LINES}"
-                            display_file_content "${output_actual_file}" "    \e[36m--- 实际输出 ---\e[0m" "${MAX_OUTPUT_LINES}"
+                            display_file_content "${EXPECTED_STDOUT_FILE}" "    \e[36m--- 期望输出 ---\e[0m" "${MAX_OUTPUT_LINES}" "${MAX_OUTPUT_CHARS}"
+                            display_file_content "${output_actual_file}" "    \e[36m--- 实际输出 ---\e[0m" "${MAX_OUTPUT_LINES}" "${MAX_OUTPUT_CHARS}"
                        fi

                        if [ "$ret_ok" -eq 1 ] && [ "$out_ok" -eq 1 ]; then echo -e "\e[32m  返回码与标准输出测试成功。\e[0m"; else is_passed=0; fi
@@ -271,8 +284,8 @@ for sy_file in "${SY_FILES[@]}"; do
                            echo -e "\e[32m  标准输出测试成功。\e[0m"
                        else
                            echo -e "\e[31m  标准输出测试失败。\e[0m"; is_passed=0
-                            display_file_content "${output_reference_file}" "    \e[36m--- 期望输出 ---\e[0m" "${MAX_OUTPUT_LINES}"
-                            display_file_content "${output_actual_file}" "    \e[36m--- 实际输出 ---\e[0m" "${MAX_OUTPUT_LINES}"
+                            display_file_content "${output_reference_file}" "    \e[36m--- 期望输出 ---\e[0m" "${MAX_OUTPUT_LINES}" "${MAX_OUTPUT_CHARS}"
+                            display_file_content "${output_actual_file}" "    \e[36m--- 实际输出 ---\e[0m" "${MAX_OUTPUT_LINES}" "${MAX_OUTPUT_CHARS}"
                        fi
                    fi
                else
@@ -301,4 +314,4 @@ for sy_file in "${SY_FILES[@]}"; do
 done

 # --- 打印最终总结 ---
-print_summary
+print_summary
--- a/script/runit.sh
+++ b/script/runit.sh
@@ -27,11 +27,12 @@ LLC_TIMEOUT=10
 GCC_TIMEOUT=10
 EXEC_TIMEOUT=30
 MAX_OUTPUT_LINES=20
+MAX_OUTPUT_CHARS=1000
 TEST_SETS=()
 TOTAL_CASES=0
 PASSED_CASES=0
 FAILED_CASES_LIST=""
-INTERRUPTED=false # 新增：用于标记是否被中断
+INTERRUPTED=false

 # =================================================================
 # --- 函数定义 ---
@@ -53,6 +54,7 @@ show_help() {
    echo "  -gct N                   设置 gcc 交叉编译超时为 N 秒 (默认: 10)。"
    echo "  -et N                    设置 qemu 执行超时为 N 秒 (默认: 30)。"
    echo "  -ml N, --max-lines N     当输出对比失败时，最多显示 N 行内容 (默认: 20)。"
+    echo "  -mc N, --max-chars N     当输出对比失败时，最多显示 N 个字符 (默认: 1000)。"
    echo "  -h, --help               显示此帮助信息并退出。"
    echo ""
    echo "注意: 默认行为 (无 -e 或 -eir) 是将 .sy 文件同时编译为 .s (汇编) 和 .ll (IR)，不执行。"
@@ -60,18 +62,25 @@ show_help() {
 }


-# 显示文件内容并根据行数截断的函数
+# 显示文件内容并根据行数和字符数截断的函数
 display_file_content() {
    local file_path="$1"
    local title="$2"
    local max_lines="$3"
+    local max_chars="$4" # 新增参数
    if [ ! -f "$file_path" ]; then return; fi
    echo -e "$title"
    local line_count
+    local char_count
    line_count=$(wc -l < "$file_path")
+    char_count=$(wc -c < "$file_path")
+
    if [ "$line_count" -gt "$max_lines" ]; then
        head -n "$max_lines" "$file_path"
-        echo -e "\e[33m[... 输出已截断，共 ${line_count} 行 ...]\e[0m"
+        echo -e "\e[33m[... 输出因行数过多 (共 ${line_count} 行) 而截断 ...]\e[0m"
+    elif [ "$char_count" -gt "$max_chars" ]; then
+        head -c "$max_chars" "$file_path"
+        echo -e "\n\e[33m[... 输出因字符数过多 (共 ${char_count} 字符) 而截断 ...]\e[0m"
    else
        cat "$file_path"
    fi
@@ -151,6 +160,7 @@ while [[ "$#" -gt 0 ]]; do
        -gct) if [[ -n "$2" && "$2" =~ ^[0-9]+$ ]]; then GCC_TIMEOUT="$2"; shift 2; else echo "错误: -gct 需要一个正整数参数。" >&2; exit 1; fi ;;
        -et) if [[ -n "$2" && "$2" =~ ^[0-9]+$ ]]; then EXEC_TIMEOUT="$2"; shift 2; else echo "错误: -et 需要一个正整数参数。" >&2; exit 1; fi ;;
        -ml|--max-lines) if [[ -n "$2" && "$2" =~ ^[0-9]+$ ]]; then MAX_OUTPUT_LINES="$2"; shift 2; else echo "错误: --max-lines 需要一个正整数参数。" >&2; exit 1; fi ;;
+        -mc|--max-chars) if [[ -n "$2" && "$2" =~ ^[0-9]+$ ]]; then MAX_OUTPUT_CHARS="$2"; shift 2; else echo "错误: --max-chars 需要一个正整数参数。" >&2; exit 1; fi ;;
        -h|--help) show_help; exit 0 ;;
        *) echo "未知选项: $1"; show_help; exit 1 ;;
    esac
@@ -204,6 +214,7 @@ echo "运行模式: ${RUN_MODE_INFO}"
 echo "${TIMEOUT_INFO}"
 if ${EXECUTE_MODE} || ${IR_EXECUTE_MODE}; then
    echo "失败输出最大行数: ${MAX_OUTPUT_LINES}"
+    echo "失败输出最大字符数: ${MAX_OUTPUT_CHARS}"
 fi
 echo ""

@@ -298,8 +309,8 @@ while IFS= read -r sy_file; do
                             [ "$test_logic_passed" -eq 1 ] && echo -e "\e[32m  标准输出测试成功\e[0m"
                        else
                            echo -e "\e[31m  标准输出测试失败\e[0m"
-                            display_file_content "${EXPECTED_STDOUT_FILE}" "    \e[36m---------- 期望输出 ----------\e[0m" "${MAX_OUTPUT_LINES}"
-                            display_file_content "${output_actual_file_from_ir}" "    \e[36m---------- 实际输出 ----------\e[0m" "${MAX_OUTPUT_LINES}"
+                            display_file_content "${EXPECTED_STDOUT_FILE}" "    \e[36m---------- 期望输出 ----------\e[0m" "${MAX_OUTPUT_LINES}" "${MAX_OUTPUT_CHARS}"
+                            display_file_content "${output_actual_file_from_ir}" "    \e[36m---------- 实际输出 ----------\e[0m" "${MAX_OUTPUT_LINES}" "${MAX_OUTPUT_CHARS}"
                            test_logic_passed=0
                        fi
                    else
@@ -308,8 +319,8 @@ while IFS= read -r sy_file; do
                            echo -e "\e[32m  成功: 输出与参考输出匹配\e[0m"
                        else
                            echo -e "\e[31m  失败: 输出不匹配\e[0m"
-                            display_file_content "${output_reference_file}" "    \e[36m---------- 期望输出 ----------\e[0m" "${MAX_OUTPUT_LINES}"
-                            display_file_content "${output_actual_file_from_ir}" "    \e[36m---------- 实际输出 ----------\e[0m" "${MAX_OUTPUT_LINES}"
+                            display_file_content "${output_reference_file}" "    \e[36m---------- 期望输出 ----------\e[0m" "${MAX_OUTPUT_LINES}" "${MAX_OUTPUT_CHARS}"
+                            display_file_content "${output_actual_file_from_ir}" "    \e[36m---------- 实际输出 ----------\e[0m" "${MAX_OUTPUT_LINES}" "${MAX_OUTPUT_CHARS}"
                            test_logic_passed=0
                        fi
                    fi
@@ -375,8 +386,8 @@ while IFS= read -r sy_file; do
                            [ "$test_logic_passed" -eq 1 ] && echo -e "\e[32m  标准输出测试成功\e[0m"
                        else
                            echo -e "\e[31m  标准输出测试失败\e[0m"
-                            display_file_content "${EXPECTED_STDOUT_FILE}" "    \e[36m---------- 期望输出 ----------\e[0m" "${MAX_OUTPUT_LINES}"
-                            display_file_content "${output_actual_file_S}" "    \e[36m---------- 实际输出 ----------\e[0m" "${MAX_OUTPUT_LINES}"
+                            display_file_content "${EXPECTED_STDOUT_FILE}" "    \e[36m---------- 期望输出 ----------\e[0m" "${MAX_OUTPUT_LINES}" "${MAX_OUTPUT_CHARS}"
+                            display_file_content "${output_actual_file_S}" "    \e[36m---------- 实际输出 ----------\e[0m" "${MAX_OUTPUT_LINES}" "${MAX_OUTPUT_CHARS}"
                            test_logic_passed=0
                        fi
                    else
@@ -385,8 +396,8 @@ while IFS= read -r sy_file; do
                            echo -e "\e[32m  成功: 输出与参考输出匹配\e[0m"
                        else
                            echo -e "\e[31m  失败: 输出不匹配\e[0m"
-                            display_file_content "${output_reference_file}" "    \e[36m---------- 期望输出 ----------\e[0m" "${MAX_OUTPUT_LINES}"
-                            display_file_content "${output_actual_file_S}" "    \e[36m---------- 实际输出 ----------\e[0m" "${MAX_OUTPUT_LINES}"
+                            display_file_content "${output_reference_file}" "    \e[36m---------- 期望输出 ----------\e[0m" "${MAX_OUTPUT_LINES}" "${MAX_OUTPUT_CHARS}"
+                            display_file_content "${output_actual_file_S}" "    \e[36m---------- 实际输出 ----------\e[0m" "${MAX_OUTPUT_LINES}" "${MAX_OUTPUT_CHARS}"
                            test_logic_passed=0
                        fi
                    fi
--- a/src/backend/RISCv64/RISCv64ISel.cpp
+++ b/src/backend/RISCv64/RISCv64ISel.cpp
@@ -103,6 +103,60 @@ void RISCv64ISel::select() {
        }
    }

+    if (optLevel > 0) {
+        if (F && !F->getBasicBlocks().empty()) {
+            // 定位到第一个MachineBasicBlock，也就是函数入口
+            BasicBlock* first_ir_block = F->getBasicBlocks_NoRange().front().get();
+            CurMBB = bb_map.at(first_ir_block);
+
+            int int_arg_idx = 0;
+            int fp_arg_idx = 0;
+
+            for (Argument* arg : F->getArguments()) {
+                Type* arg_type = arg->getType();
+
+                // --- 处理整数/指针参数 ---
+                if (!arg_type->isFloat() && int_arg_idx < 8) {
+                    // 1. 获取参数原始的、将被预着色为 a0-a7 的 vreg
+                    unsigned original_vreg = getVReg(arg);
+
+                    // 2. 创建一个新的、安全的 vreg 来持有参数的值
+                    unsigned saved_vreg = getNewVReg(arg_type);
+
+                    // 3. 生成 mv saved_vreg, original_vreg 指令
+                    auto mv = std::make_unique<MachineInstr>(RVOpcodes::MV);
+                    mv->addOperand(std::make_unique<RegOperand>(saved_vreg));
+                    mv->addOperand(std::make_unique<RegOperand>(original_vreg));
+                    CurMBB->addInstruction(std::move(mv));
+
+                    // 4.【关键】更新vreg映射表，将arg的vreg指向新的、安全的vreg
+                    //    这样，后续所有对该参数的 getVReg(arg) 调用都会自动获得 saved_vreg，
+                    //    使得函数体内的代码都使用这个被保存过的值。
+                    vreg_map[arg] = saved_vreg;
+
+                    int_arg_idx++;
+                }
+                // --- 处理浮点参数 ---
+                else if (arg_type->isFloat() && fp_arg_idx < 8) {
+                    unsigned original_vreg = getVReg(arg);
+                    unsigned saved_vreg = getNewVReg(arg_type);
+
+                    // 对于浮点数，使用 fmv.s 指令
+                    auto fmv = std::make_unique<MachineInstr>(RVOpcodes::FMV_S);
+                    fmv->addOperand(std::make_unique<RegOperand>(saved_vreg));
+                    fmv->addOperand(std::make_unique<RegOperand>(original_vreg));
+                    CurMBB->addInstruction(std::move(fmv));
+
+                    // 同样更新映射
+                    vreg_map[arg] = saved_vreg;
+
+                    fp_arg_idx++;
+                }
+                // 对于栈传递的参数，则无需处理
+            }
+        }
+    }
+
    // 遍历基本块，进行指令选择
    for (const auto& bb_ptr : F->getBasicBlocks()) {
        selectBasicBlock(bb_ptr.get());
--- a/src/backend/RISCv64/RISCv64RegAlloc.cpp
+++ b/src/backend/RISCv64/RISCv64RegAlloc.cpp
@@ -127,20 +127,46 @@ void RISCv64RegAlloc::precolorByCallingConvention() {
    int int_arg_idx = 0;
    int float_arg_idx = 0;

-    for (Argument* arg : F->getArguments()) {
-        unsigned vreg = ISel->getVReg(arg);
-        
-        if (arg->getType()->isFloat()) {
-            if (float_arg_idx < 8) { // fa0-fa7
-                auto preg = static_cast<PhysicalReg>(static_cast<int>(PhysicalReg::F10) + float_arg_idx);
-                color_map[vreg] = preg;
-                float_arg_idx++;
+    if (optLevel > 0)
+    {
+        for (const auto& pair : vreg_to_value_map) {
+            unsigned vreg = pair.first;
+            Value* val = pair.second;
+
+            // 检查这个 Value* 是不是一个 Argument 对象
+            if (auto arg = dynamic_cast<Argument*>(val)) {
+                // 如果是，那么 vreg 就是最初分配给这个参数的 vreg
+                int arg_idx = arg->getIndex();
+
+                if (arg->getType()->isFloat()) {
+                    if (arg_idx < 8) { // fa0-fa7
+                        auto preg = static_cast<PhysicalReg>(static_cast<int>(PhysicalReg::F10) + arg_idx);
+                        color_map[vreg] = preg;
+                    }
+                } else { // 整数或指针
+                    if (arg_idx < 8) { // a0-a7
+                        auto preg = static_cast<PhysicalReg>(static_cast<int>(PhysicalReg::A0) + arg_idx);
+                        color_map[vreg] = preg;
+                    }
+                }
            }
-        } else { // 整数或指针
-            if (int_arg_idx < 8) { // a0-a7
-                auto preg = static_cast<PhysicalReg>(static_cast<int>(PhysicalReg::A0) + int_arg_idx);
-                color_map[vreg] = preg;
-                int_arg_idx++;
+        }
+    } else {
+        for (Argument* arg : F->getArguments()) {
+            unsigned vreg = ISel->getVReg(arg);
+            
+            if (arg->getType()->isFloat()) {
+                if (float_arg_idx < 8) { // fa0-fa7
+                    auto preg = static_cast<PhysicalReg>(static_cast<int>(PhysicalReg::F10) + float_arg_idx);
+                    color_map[vreg] = preg;
+                    float_arg_idx++;
+                }
+            } else { // 整数或指针
+                if (int_arg_idx < 8) { // a0-a7
+                    auto preg = static_cast<PhysicalReg>(static_cast<int>(PhysicalReg::A0) + int_arg_idx);
+                    color_map[vreg] = preg;
+                    int_arg_idx++;
+                }
            }
        }
    }
@@ -477,16 +503,18 @@ void RISCv64RegAlloc::coalesce() {
    unsigned x = getAlias(*def.begin());
    unsigned y = getAlias(*use.begin());
    unsigned u, v;
-    if (precolored.count(y)) { u = y; v = x; } else { u = x; v = y; }
+
+    // 进一步修正：标准化u和v的逻辑，必须同时考虑物理寄存器和已预着色的虚拟寄存器。
+    // 目标是确保如果两个操作数中有一个是预着色的，它一定会被赋给 u。
+    if (precolored.count(y) || coloredNodes.count(y)) { 
+        u = y; v = x; 
+    } else { 
+        u = x; v = y; 
+    }
    
    // 防御性检查，处理物理寄存器之间的传送指令
    if (precolored.count(u) && precolored.count(v)) {
-        // 如果 u 和 v 都是物理寄存器，我们不能合并它们。
-        // 这通常是一条寄存器拷贝指令，例如 `mv a2, a1`。
-        // 把它加入 constrainedMoves 列表，然后直接返回，不再处理。
        constrainedMoves.insert(move);
-        // addWorklist(u) 和 addWorklist(v) 在这里也不需要调用，
-        // 因为它们只对虚拟寄存器有意义。
        return;
    }

@@ -498,7 +526,7 @@ void RISCv64RegAlloc::coalesce() {
        if (DEEPERDEBUG) std::cerr << "  -> Trivial coalesce (u == v).\n";
        coalescedMoves.insert(move);
        addWorklist(u);
-        return; // 处理完毕，提前返回
+        return;
    }

    if (isFPVReg(u) != isFPVReg(v)) {
@@ -508,10 +536,13 @@ void RISCv64RegAlloc::coalesce() {
        constrainedMoves.insert(move);
        addWorklist(u);
        addWorklist(v);
-        return; // 立即返回，不再进行后续检查
+        return;
    }
    
-    bool pre_interfere = adjList.at(v).count(u);
+    // 注意：如果v已经是u的邻居， pre_interfere 会为true。
+    // 但如果v不在adjList中（例如v是预着色节点），我们需要检查u是否在v的邻居中。
+    // 为了简化，我们假设adjList包含了所有虚拟寄存器。对于(Phys, Virt)对，冲突信息存储在Virt节点的邻接表中。
+    bool pre_interfere = (adjList.count(v) && adjList.at(v).count(u)) || (adjList.count(u) && adjList.at(u).count(v));
    
    if (pre_interfere) {
        if (DEEPERDEBUG) std::cerr << "  -> Constrained (nodes already interfere).\n";
@@ -521,63 +552,50 @@ void RISCv64RegAlloc::coalesce() {
        return;
    }

-    bool is_u_precolored = precolored.count(u);
+    // 考虑物理寄存器和已预着色的虚拟寄存器
+    bool u_is_effectively_precolored = precolored.count(u) || coloredNodes.count(u);
    bool can_coalesce = false;
    
-    if (is_u_precolored) {
-        // --- 场景1：u是物理寄存器，使用 George 启发式 ---
-        if (DEEPERDEBUG) std::cerr << "  -> Trying George Heuristic (u is precolored)...\n";
+    if (u_is_effectively_precolored) {
+        // --- 场景1：u是物理寄存器或已预着色虚拟寄存器，使用 George 启发式 ---
+        if (DEEPERDEBUG) std::cerr << "  -> Trying George Heuristic (u is effectively precolored)...\n";
        
-        // 步骤 1: 独立调用 adjacent(v) 获取邻居集合
        VRegSet neighbors_of_v = adjacent(v);
        if (DEEPERDEBUG) {
            std::cerr << "      - Neighbors of " << regIdToString(v) << " to check are (" << neighbors_of_v.size() << "): { ";
            for (unsigned id : neighbors_of_v) std::cerr << regIdToString(id) << " ";
            std::cerr << "}\n";
        }
-
-        // 步骤 2: 使用显式的 for 循环来代替 std::all_of
-        bool george_ok = true; // 默认假设成功，任何一个邻居失败都会将此设为 false
+        
+        bool george_ok = true;
        for (unsigned t : neighbors_of_v) {
-            if (DEEPERDEBUG) {
-                std::cerr << "      - Checking neighbor " << regIdToString(t) << ":\n";
-            }
+            if (DEEPERDEBUG) std::cerr << "      - Checking neighbor " << regIdToString(t) << ":\n";

-            // 步骤 3: 独立调用启发式函数
-            bool heuristic_result = georgeHeuristic(t, u);
+            unsigned u_phys_id = precolored.count(u) ? u : (static_cast<unsigned>(PhysicalReg::PHYS_REG_START_ID) + static_cast<unsigned>(color_map.at(u)));
+            bool heuristic_result = georgeHeuristic(t, u_phys_id);
            
            if (DEEPERDEBUG) {
-                std::cerr << "          - georgeHeuristic(" << regIdToString(t) << ", " << regIdToString(u) << ") -> " << (heuristic_result ? "OK" : "FAIL") << "\n";
+                std::cerr << "          - georgeHeuristic(" << regIdToString(t) << ", " << regIdToString(u_phys_id) << ") -> " << (heuristic_result ? "OK" : "FAIL") << "\n";
            }

            if (!heuristic_result) {
-                george_ok = false; // 只要有一个邻居不满足条件，整个检查就失败
-                break;             // 并且可以立即停止检查其他邻居
+                george_ok = false;
+                break;
            }
        }
        
-        if (DEEPERDEBUG) {
-             std::cerr << "  -> George Heuristic final result: " << (george_ok ? "OK" : "FAIL") << "\n";
-        }
-
-        if (george_ok) {
-            can_coalesce = true;
-        }
+        if (DEEPERDEBUG) std::cerr << "  -> George Heuristic final result: " << (george_ok ? "OK" : "FAIL") << "\n";
+        if (george_ok) can_coalesce = true;

    } else {
-        // --- 场景2：u和v都是虚拟寄存器，使用 Briggs 启发式 ---
+        // --- 场景2：u和v都是未着色的虚拟寄存器，使用 Briggs 启发式 ---
        if (DEEPERDEBUG) std::cerr << "  -> Trying Briggs Heuristic (u and v are virtual)...\n";
        
        bool briggs_ok = briggsHeuristic(u, v);
        if (DEEPERDEBUG) std::cerr << "      - briggsHeuristic(" << regIdToString(u) << ", " << regIdToString(v) << ") -> " << (briggs_ok ? "OK" : "FAIL") << "\n";
-
-        if (briggs_ok) {
-            can_coalesce = true;
-        }
+        if (briggs_ok) can_coalesce = true;
    }

-    // --- 根据启发式结果进行最终决策 ---
-    
    if (can_coalesce) {
        if (DEEPERDEBUG) std::cerr << "  -> Heuristic OK. Combining " << regIdToString(v) << " into " << regIdToString(u) << ".\n";
        coalescedMoves.insert(move);
@@ -1133,7 +1151,7 @@ unsigned RISCv64RegAlloc::getAlias(unsigned n) {
 }

 void RISCv64RegAlloc::addWorklist(unsigned u) {
-    if (precolored.count(u)) return;
+    if (precolored.count(u) || color_map.count(u)) return;

    int K = isFPVReg(u) ? K_fp : K_int;
    if (!moveRelated(u) && degree.at(u) < K) {
@@ -1208,8 +1226,12 @@ bool RISCv64RegAlloc::georgeHeuristic(unsigned t, unsigned u) {
    }
    
    int K = isFPVReg(t) ? K_fp : K_int;
-    // adjList.at(t) 现在是安全的，因为 degree.count(t) > 0 保证了 adjList.count(t) > 0
-    return degree.at(t) < K || precolored.count(u) || adjList.at(t).count(u);
+    
+    // 缺陷 #2 修正: 移除了致命的 || precolored.count(u) 条件。
+    // 在此函数的上下文中，u 总是预着色的物理寄存器ID，导致旧的条件永远为true，使整个启发式失效。
+    // 正确的逻辑是检查：邻居t的度数是否小于K，或者t是否已经与u冲突。
+    // return degree.at(t) < K || adjList.at(t).count(u);
+    return degree.at(t) < K || !adjList.at(t).count(u);
 }

 void RISCv64RegAlloc::combine(unsigned u, unsigned v) {
@@ -1257,7 +1279,7 @@ void RISCv64RegAlloc::freezeMoves(unsigned u) {
        activeMoves.erase(move);
        frozenMoves.insert(move);

-        if (!precolored.count(v_alias) && nodeMoves(v_alias).empty() && degree.at(v_alias) < (isFPVReg(v_alias) ? K_fp : K_int)) {
+        if (!precolored.count(v_alias) && !coloredNodes.count(v_alias) && nodeMoves(v_alias).empty() && degree.at(v_alias) < (isFPVReg(v_alias) ? K_fp : K_int)) {
            freezeWorklist.erase(v_alias);
            simplifyWorklist.insert(v_alias);
            if (DEEPERDEBUG) {
--- a/src/include/backend/RISCv64/RISCv64ISel.h
+++ b/src/include/backend/RISCv64/RISCv64ISel.h
@@ -11,6 +11,7 @@ namespace sysy {

 extern int DEBUG;
 extern int DEEPDEBUG;
+extern int optLevel;

 namespace sysy {

--- a/src/include/backend/RISCv64/RISCv64RegAlloc.h
+++ b/src/include/backend/RISCv64/RISCv64RegAlloc.h
@@ -12,6 +12,7 @@ extern int DEBUG;
 extern int DEEPDEBUG;
 extern int DEBUGLENGTH; // 用于限制调试输出的长度
 extern int DEEPERDEBUG; // 用于更深层次的调试输出
+extern int optLevel;

 namespace sysy {

--- a/src/include/midend/Pass/Optimize/LargeArrayToGlobal.h
+++ b/src/include/midend/Pass/Optimize/LargeArrayToGlobal.h
@@ -1,24 +0,0 @@
-#pragma once
-
-#include "../Pass.h"
-
-namespace sysy {
-
-class LargeArrayToGlobalPass : public OptimizationPass {
-public:
-    static void *ID;
-
-    LargeArrayToGlobalPass() : OptimizationPass("LargeArrayToGlobal", Granularity::Module) {}
-
-    bool runOnModule(Module *M, AnalysisManager &AM) override;
-    void *getPassID() const override {
-        return &ID;
-    }
-
-private:
-    unsigned calculateTypeSize(Type *type);
-    void convertAllocaToGlobal(AllocaInst *alloca, Function *F, Module *M);
-    std::string generateUniqueGlobalName(AllocaInst *alloca, Function *F);
-};
-
-} // namespace sysy
--- a/src/include/midend/SysYIRGenerator.h
+++ b/src/include/midend/SysYIRGenerator.h
@@ -51,6 +51,7 @@ public:
                         Module *pModule, IRBuilder *pBuilder);

  static void initExternalFunction(Module *pModule, IRBuilder *pBuilder);
+  static void modify_timefuncname(Module *pModule);
 };

 class SysYIRGenerator : public SysYBaseVisitor {
--- a/src/midend/CMakeLists.txt
+++ b/src/midend/CMakeLists.txt
@@ -24,7 +24,6 @@ add_library(midend_lib STATIC
    Pass/Optimize/InductionVariableElimination.cpp
    Pass/Optimize/GlobalStrengthReduction.cpp
    Pass/Optimize/BuildCFG.cpp
-    Pass/Optimize/LargeArrayToGlobal.cpp
    Pass/Optimize/TailCallOpt.cpp
 )

--- a/src/midend/Pass/Optimize/LargeArrayToGlobal.cpp
+++ b/src/midend/Pass/Optimize/LargeArrayToGlobal.cpp
@@ -1,145 +0,0 @@
-#include "../../include/midend/Pass/Optimize/LargeArrayToGlobal.h"
-#include "../../IR.h"
-#include <unordered_map>
-#include <sstream>
-#include <string>
-
-namespace sysy {
-
-// Helper function to convert type to string
-static std::string typeToString(Type *type) {
-    if (!type) return "null";
-    
-    switch (type->getKind()) {
-        case Type::kInt:
-            return "int";
-        case Type::kFloat:
-            return "float";
-        case Type::kPointer:
-            return "ptr";
-        case Type::kArray: {
-            auto *arrayType = type->as<ArrayType>();
-            return "[" + std::to_string(arrayType->getNumElements()) + " x " + 
-                   typeToString(arrayType->getElementType()) + "]";
-        }
-        default:
-            return "unknown";
-    }
-}
-
-void *LargeArrayToGlobalPass::ID = &LargeArrayToGlobalPass::ID;
-
-bool LargeArrayToGlobalPass::runOnModule(Module *M, AnalysisManager &AM) {
-        bool changed = false;
-        
-        if (!M) {
-            return false;
-        }
-
-        // Collect all alloca instructions from all functions
-        std::vector<std::pair<AllocaInst*, Function*>> allocasToConvert;
-        
-        for (auto &funcPair : M->getFunctions()) {
-            Function *F = funcPair.second.get();
-            if (!F || F->getBasicBlocks().begin() == F->getBasicBlocks().end()) {
-                continue;
-            }
-            
-            for (auto &BB : F->getBasicBlocks()) {
-                for (auto &inst : BB->getInstructions()) {
-                    if (auto *alloca = dynamic_cast<AllocaInst*>(inst.get())) {
-                        Type *allocatedType = alloca->getAllocatedType();
-                        
-                        // Calculate the size of the allocated type
-                        unsigned size = calculateTypeSize(allocatedType);
-                        if(DEBUG){
-                            // Debug: print size information
-                             std::cout << "LargeArrayToGlobalPass: Found alloca with size " << size 
-                                  << " for type " << typeToString(allocatedType) << std::endl;
-                        }
-                        
-                        // Convert arrays of 1KB (1024 bytes) or larger to global variables
-                        if (size >= 1024) {
-                            if(DEBUG)
-                                std::cout << "LargeArrayToGlobalPass: Converting array of size " << size << " to global" << std::endl;
-                            allocasToConvert.emplace_back(alloca, F);
-                        }
-                    }
-                }
-            }
-        }
-
-        // Convert the collected alloca instructions to global variables
-        for (auto [alloca, F] : allocasToConvert) {
-            convertAllocaToGlobal(alloca, F, M);
-            changed = true;
-        }
-
-return changed;
-    }
-
-unsigned LargeArrayToGlobalPass::calculateTypeSize(Type *type) {
-    if (!type) return 0;
-
-    switch (type->getKind()) {
-        case Type::kInt:
-        case Type::kFloat:
-            return 4;
-        case Type::kPointer:
-            return 8;
-        case Type::kArray: {
-            auto *arrayType = type->as<ArrayType>();
-            return arrayType->getNumElements() * calculateTypeSize(arrayType->getElementType());
-        }
-        default:
-            return 0;
-    }
-}
-
-void LargeArrayToGlobalPass::convertAllocaToGlobal(AllocaInst *alloca, Function *F, Module *M) {
-    Type *allocatedType = alloca->getAllocatedType();
-    
-    // Create a unique name for the global variable
-    std::string globalName = generateUniqueGlobalName(alloca, F);
-    
-    // Create the global variable - GlobalValue expects pointer type
-    Type *pointerType = Type::getPointerType(allocatedType);
-    GlobalValue *globalVar = M->createGlobalValue(globalName, pointerType);
-    
-    if (!globalVar) {
-        return;
-    }
-    
-    // Replace all uses of the alloca with the global variable
-    alloca->replaceAllUsesWith(globalVar);
-    
-    // Remove the alloca instruction from its basic block
-    for (auto &BB : F->getBasicBlocks()) {
-        auto &instructions = BB->getInstructions();
-        for (auto it = instructions.begin(); it != instructions.end(); ++it) {
-            if (it->get() == alloca) {
-                instructions.erase(it);
-                break;
-            }
-        }
-    }
-}
-
-std::string LargeArrayToGlobalPass::generateUniqueGlobalName(AllocaInst *alloca, Function *F) {
-    std::string baseName = alloca->getName();
-    if (baseName.empty()) {
-        baseName = "array";
-    }
-    
-    // Ensure uniqueness by appending function name and counter
-    static std::unordered_map<std::string, int> nameCounter;
-    std::string key = F->getName() + "." + baseName;
-    
-    int counter = nameCounter[key]++;
-    std::ostringstream oss;
-    oss << key << "." << counter;
-    
-    return oss.str();
-}
-
-} // namespace sysy
--- a/src/midend/Pass/Optimize/Reg2Mem.cpp
+++ b/src/midend/Pass/Optimize/Reg2Mem.cpp
@@ -70,20 +70,20 @@ void Reg2MemContext::allocateMemoryForSSAValues(Function *func) {

  // 1. 为函数参数分配内存
  builder->setPosition(entryBlock, entryBlock->begin()); // 确保在入口块的开始位置插入
-  for (auto arg : func->getArguments()) {
-    // 默认情况下，将所有参数是提升到内存
-    if (isPromotableToMemory(arg)) {
-      // 参数的类型就是 AllocaInst 需要分配的类型
-      AllocaInst *alloca = builder->createAllocaInst(Type::getPointerType(arg->getType()), arg->getName() + ".reg2mem");
-      // 将参数值 store 到 alloca 中 (这是 Mem2Reg 逆转的关键一步)
-      valueToAllocaMap[arg] = alloca;
+  // for (auto arg : func->getArguments()) {
+  //   // 默认情况下，将所有参数是提升到内存
+  //   if (isPromotableToMemory(arg)) {
+  //     // 参数的类型就是 AllocaInst 需要分配的类型
+  //     AllocaInst *alloca = builder->createAllocaInst(Type::getPointerType(arg->getType()), arg->getName() + ".reg2mem");
+  //     // 将参数值 store 到 alloca 中 (这是 Mem2Reg 逆转的关键一步)
+  //     valueToAllocaMap[arg] = alloca;

-      // 确保 alloca 位于入口块的顶部，但在所有参数的 store 指令之前
-      // 通常 alloca 都在 entry block 的最开始
-      // 这里我们只是创建，并让 builder 决定插入位置 (通常在当前插入点)
-      // 如果需要严格控制顺序，可能需要手动 insert 到 instruction list
-    }
-  }
+  //     // 确保 alloca 位于入口块的顶部，但在所有参数的 store 指令之前
+  //     // 通常 alloca 都在 entry block 的最开始
+  //     // 这里我们只是创建，并让 builder 决定插入位置 (通常在当前插入点)
+  //     // 如果需要严格控制顺序，可能需要手动 insert 到 instruction list
+  //   }
+  // }

  // 2. 为指令结果分配内存
  // 遍历所有基本块和指令，找出所有需要分配 Alloca 的指令结果
@@ -123,11 +123,11 @@ void Reg2MemContext::allocateMemoryForSSAValues(Function *func) {
  }

  // 插入所有参数的初始 Store 指令
-  for (auto arg : func->getArguments()) {
-      if (valueToAllocaMap.count(arg)) { // 检查是否为其分配了 alloca
-          builder->createStoreInst(arg, valueToAllocaMap[arg]);
-      }
-  }
+  // for (auto arg : func->getArguments()) {
+  //     if (valueToAllocaMap.count(arg)) { // 检查是否为其分配了 alloca
+  //         builder->createStoreInst(arg, valueToAllocaMap[arg]);
+  //     }
+  // }
  
  builder->setPosition(entryBlock, entryBlock->terminator());
 }
--- a/src/midend/Pass/Pass.cpp
+++ b/src/midend/Pass/Pass.cpp
@@ -13,7 +13,6 @@
 #include "GVN.h"
 #include "SCCP.h"
 #include "BuildCFG.h"
-#include "LargeArrayToGlobal.h"
 #include "LoopNormalization.h"
 #include "LICM.h"
 #include "LoopStrengthReduction.h"
@@ -61,8 +60,6 @@ void PassManager::runOptimizationPipeline(Module* moduleIR, IRBuilder* builderIR

    // 注册优化遍
    registerOptimizationPass<BuildCFG>();
-    registerOptimizationPass<LargeArrayToGlobalPass>();
-
    registerOptimizationPass<GVN>();
    
    registerOptimizationPass<SysYDelInstAfterBrPass>();
@@ -98,7 +95,6 @@ void PassManager::runOptimizationPipeline(Module* moduleIR, IRBuilder* builderIR

      this->clearPasses();
      this->addPass(&BuildCFG::ID);
-      this->addPass(&LargeArrayToGlobalPass::ID);
      this->run();

      this->clearPasses(); 
@@ -185,19 +181,19 @@ void PassManager::runOptimizationPipeline(Module* moduleIR, IRBuilder* builderIR
        printPasses();
      }
      
-      this->clearPasses();
-      this->addPass(&LoopStrengthReduction::ID);
-      this->run();
+      // this->clearPasses();
+      // this->addPass(&LoopStrengthReduction::ID);
+      // this->run();

      if(DEBUG) {
        std::cout << "=== IR After Loop Normalization, and Strength Reduction Optimizations ===\n";
        printPasses();
      }

-      // 全局强度削弱优化，包括代数优化和魔数除法
-      this->clearPasses();
-      this->addPass(&GlobalStrengthReduction::ID);
-      this->run();
+      // // 全局强度削弱优化，包括代数优化和魔数除法
+      // this->clearPasses();
+      // this->addPass(&GlobalStrengthReduction::ID);
+      // this->run();

      if(DEBUG) {
        std::cout << "=== IR After Global Strength Reduction Optimizations ===\n";
--- a/src/midend/SysYIRGenerator.cpp
+++ b/src/midend/SysYIRGenerator.cpp
@@ -674,6 +674,8 @@ std::any SysYIRGenerator::visitCompUnit(SysYParser::CompUnitContext *ctx) {
  pModule->enterNewScope();
  visitChildren(ctx);
  pModule->leaveScope();
+
+  Utils::modify_timefuncname(pModule);
  return pModule;
 }

@@ -2403,4 +2405,12 @@ void Utils::initExternalFunction(Module *pModule, IRBuilder *pBuilder) {

 }

+void Utils::modify_timefuncname(Module *pModule){
+  auto starttimeFunc = pModule->getExternalFunction("starttime");
+  auto stoptimeFunc = pModule->getExternalFunction("stoptime");
+  starttimeFunc->setName("_sysy_starttime");
+  stoptimeFunc->setName("_sysy_stoptime");
+
+}
+
 } // namespace sysy
--- a/src/sysyc.cpp
+++ b/src/sysyc.cpp
@@ -28,7 +28,7 @@ static string argStopAfter;
 static string argInputFile;
 static bool argFormat = false; // 目前未使用，但保留
 static string argOutputFilename;
-static int optLevel = 0; // 优化级别，默认为0 (不加-O参数时)
+int optLevel = 0; // 优化级别，默认为0 (不加-O参数时)

 void usage(int code) {
  const char *msg = "Usage: sysyc [options] inputfile\n\n"