P5课上题目（T3）回忆

三题仍然为互相独立的添加指令题，但是这次我只写T3的回忆。

准确来说，我只想写这次上机里有含金量的题，T1和T2T3相比有含金量的部分几乎为0，T2又只有一个清空延迟槽可以说道说道，于是我只想完整回忆T3，至于清空延迟槽，我会在写T3正解前先写一下大概内容。

T3添加指令为 lwoc，I型指令。具体操作为，从DM中读取起始地址为 $GPR_{base}+\text{sign\_ext}(offset<<2 || 0^2)$ 的一整个字，若该结果小于无符号32位整数 0x80000000，则取该结果的低4位进行零扩展后作为写入 GRF 的地址，否则取指令中的 rt 为写入 GRF 的地址，写入数据均为该结果。

对CPU模块编写的几点建议

尽可能让主模块仅起到连接各模块的作用（除转发和阻塞信号对各级流水线寄存器的控制外），这样在对电路进行修改时，我们可以把精力只放在对各个模块内部的修改，而无需过度置疑CPU连接的正确性。
课下的时候控制信号请务必集成到控制器里（包括Tuse和Tnew），能不新开模块就别新开模块生成控制信号。
转发和阻塞的判断请务必使用各类控制信号和rs/rt/写入地址等等进行判断，而不使用完整的指令在内部做判断。（除非你是临时加指令）
为了防止Verilog的特性导致产生笔误，从而在无意中创造出一个和你预期的信号不同的wire型变量，建议在每个模块名前加上``default_nettype none`。
实现时务必注意IM和DM的数据大小。

清空延迟槽

这一部分主要是对课程组未提及（或者提及了但是没细说导致我没看到）的内容进行补充。

首先，我们说一下清空延迟槽是个啥意思。首先，你已经知道了在处理分支跳转类型的指令时，我们会把这条指令的后一条指令放入延迟槽中，并且在课下内容里这条指令一定会被执行。那么，假如我们新加入的指令里有不希望这条指令执行的情况呢？我们会选择把刚刚进入F级的这条指令从CPU扔出去。这就是清空延迟槽了。

那么，我们应该如何把这条指令扔出去呢？

实际上我们只需要做两件事：

不让这条指令流到D级，而是让一个气泡流入D级，也就是发一个清空信号到F级到D级的流水寄存器。
让D级进入一条新的指令，即维持PC继续变化。（其实这个不会被显式的做出来）

结束了吗？还没完呢。

实际上，有些指令是需要根据跳转条件的结果来决定是否清空延迟槽的，这就产生了一个问题：如果这条分支跳转指令被阻塞了，那么这个周期实际上没法判断延迟槽是否清空，所以此时我们肯定会保留延迟槽的指令，等到我们可以判断跳转条件是否成立的时候再做决断。

所以，对于这种情况，我们需要额外判断一件事：仅当当前周期阻塞信号为0时，我们才尝试清空延迟槽。

好了，这就是T2最有含金量的内容了。

LWOC 题目分析

想一步到位直接AC这题很困难（能预知未来的就别发话了），我会把自己A这题的过程分为三部分细说。

为了防止大家看不懂所以把我课下设计的模块放上来

程序计数器（PC）：记录程序当前运行的指令所在存储器位置。
指令存储器（IM）：根据PC的值，从ROM中读出指令。
控制器（Controller）：确定CPU各模块写入使能和写入/运算数据源。
通用寄存器组（GRF）：读取最多两个寄存器的值，向最多一个寄存器写入值。
分支控制器（BranchController）：计算并选择分支跳转的目标地址。
ALU立即数扩展（ALUExt）：确定ALU立即数扩展方式，对立即数进行扩展。
ALU运算数选择器（ALUMux）：根据ALU操作数源，选择ALU的操作数。
算数逻辑单元（ALU）：对ALU操作数进行运算。
PC写入值选择器（PCMux）：选择下一周期PC的值。
数据内存（DM）：进行内存读写。
GRF写入地址选择器（GRFAddrMux）：选择下一周期写入的寄存器。
GRF写入值选择器（GRFMux）：选择下一周期写入寄存器的值。
还有各级流水线寄存器，不过我似乎在这篇文章里没有用到。

如何做对这题（但是CPU跑不快）

首先，我们会发现一个很悲伤的事情：直到我们读出DM的数据之前，我们甚至都不知道自己要写哪个寄存器，那么当这条指令进入E级与M级中时，我们压根都不知道是否应该对之前的指令进行转发或者阻塞，仅在W级的时候才能知道这一点。

所以一个很自然的想法就是，只要在E级或者M级出现了这条指令，那么我们就认为需要对D级进行阻塞。而具体W级的时候处理出具体写了哪个寄存器，那就在GRFAddrMux里加点逻辑就行了。

如果你的课下实现正确，并且课上按照这个思路实现也没错，那么恭喜你！

你做对了，但是你做错了。

你AC了九个点，这题一共十个点，那个没过的点会说：你TLE了。

如何让CPU跑快（但是这题做不对）

于是你会思考如何修改一下暴力阻塞，使之更聪明。

原题目里其实强调了一件事情：

由于是取该结果的低4位进行零扩展，所以此种条件下可能会被写入的寄存器只有 GPR[0] 到 GPR[15] 这16个寄存器。

于是你大喜过望，这不就是在暗示你可能被写入的寄存器只有这16个外加一个 rt 嘛！

也就是说，如果这条新指令出现在了E级或者M级，但是D级的指令并不涉及对以上涉及的寄存器的读入，那么我们依然是可以让这条新指令流入E级的。

于是我们会修改控制阻塞信号的单元，把上一部分提到的暴力阻塞改成这种“这条指令出现在E级/M级且(D级某个要读的寄存器是 GPR[0]-GPR[15] 中的某一个或要读的寄存器是GPR[rt])”的时候就阻塞。

然后你把这个写法提交上去，再次恭喜你！

那个TLE的点你过了，但是同时你实打实的WA了一堆点。

而且你会发现，这些WA的点不约而同的指向了同一个问题：你尝试往 $31 写入一个值，而评测机希望的是往不知道哪个寄存器里写入一个什么值，总之不是 $31 就对了。

最终版本——问题还是阻塞条件！

然后你就会联想到，会不会是一个 jal 跟一个 lwoc 就会触发这个问题呢？于是你写了一组样例，发现：

还真是。

并且具体表现是，你的阻塞信号莫名奇妙的变成了一个 x！

好，把上面所有的主语“你”换成“我”就是我跟这道题缠斗了1h的结果。

在我完成的CPU中，由于这条新指令在E级/M级时我并不能确定写入了哪个寄存器，所以我在把这个信息传入阻塞单元的时候，传入的实际结果是一串 x。（下面为了叙述方便，我只举E级的例子，M级同理）

然而，在原先对E级的阻塞中，我并未考虑传入结果是 x 或者 z 的情况。这也就是说，如果我在此时判断D级要读的寄存器是否为E级要写入的寄存器，那么判断结果就会是单个 x，于是这个 x 就会一连串的传导到阻塞信号，并最终酿成大祸。

解决方法……很简单。而且有两种。

我们采用 === 替代 ==。=== 是Verilog中针对四态值的判断，会对 x 和 z 也正确的进行判等比较，而 == 在遇到比较内容为 x 和 z 的时候，会无脑产生一个 x 出来，最终导致上述结果的产生。
（考场思路，不是很好，大家自行考量）我们选择在遇到这条特殊指令的时候，直接不采用课下写的阻塞的结果，转而新开一个判断条件得出阻塞结果。