📄 chapter4.htm
字号:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<!-- saved from url=(0036)http://www.xtrj.org/smr/chapter4.htm -->
<HTML><HEAD><TITLE>第四章 Cache for MIPS 没有Cache的MIPSCPU不能称为真正的RISC</TITLE><!-- http://www.xtrj.org/smr/chapter4.htm -->
<META content="MSHTML 6.00.2900.2180" name=GENERATOR>
<META content=FrontPage.Editor.Document name=ProgId>
<META http-equiv=Content-Type content="text/html; charset=gb2312"></HEAD>
<BODY>
<P>第四章 Cache for MIPS
<BR>没有Cache的MIPSCPU不能称为真正的RISC。可能这样说不公平。但为了一些特殊的目的,你可以设计一个含有小而紧密内存的MIPSCPU,而这些内存只需要固定个数的流水线步骤(最好是一个)就可以被访问到。但绝大部分MIPS
CPU都是含有cache的。
<BR>这一章将介绍MIPS的cache怎样工作和软件应该怎么做才能使它可以被使用而且是可靠的。MIPSCPU重新启动后,cache的状态是不确定的,所以软件必须非常小心。你有一些线索知道cache的大小(如果你直接知道cache的大小后去初始化,这是一个不好的软件习惯。)。对于诊断程序员,我们将讨论怎样测试cache和获取特殊入口。
<BR>对于实时应用程序的程序员,希望在CPU运行时能够正确地控制cache。我们也将讨论怎么做,虽然我对使用一些窍门方式有怀疑。
<BR>当然这些也随着MIPSCPU的发展而进步。对于早期的32位MIPS处理器,初始化cache或者使其无效,首先让cache进入一种特殊的状态,然后通过普通的读写操作来完成。对于后来的处理器,一些特殊的指令被定义出来做这些相关的操作。
<BR><BR>4.1 cache和cache的管理
<BR>cache的工作就是将内存中的一部分数据在cache中保留一个备份,使这些数据能一个固定的极短的时间内被快速的存取并返回给CPU,这样能保证流水线的连续运行。
<BR>绝大部分MIPSCPU针对指令和数据有其各自的cache(分别称为Icache和Dcache),这样读一条指令和一个数据的读操作或者写操作就能同时发生。
<BR>老的CPU家族(象x86)为了保证被写入CPU的代码的一致性,所以没有cache。现在的x86芯片拥有更灵活的硬件设计,从而保证软件没有必要从更本上了解cache(如果你正在装一台机器跑MS/DOS,它将在本质上提供一致性)。
<BR>但因为MIPS机器有各自的cache,所以就没有必要那么灵活。cache对于应用程序来说必须是透明的,除了除了能感觉到运行速度的增加。但对于系统程序或者驱动程序,拥有cache的MIPSCPU并没有尝试cache对它们也是透明的。cache仅仅使CPU跑得更快,而不能给系统程序员有所帮助。在象Unix一类的操作系统中,操作系统能对应用程序完全隐藏cache,当然对于更多不能的胜任的操作系统,其也能很好的隐藏大部分cache的处理,但你可能必须知道在什么时候需要调用适当的子程序来对cache做一些必要操作。
<BR><BR>4.2 cache怎样工作 <BR>从概念上讲,cache是一个相连内存(associative
memory),当数据被写入时用数据的一部分作为关键字来标志的一块存储区域。在cache中,关键字是整个内存的地址。提供一个相同的关键字给相连内存,你将得到相同的数据。一个真实的相连内存在存入条目时,将完全按照它们的关键字,除非它已经满了。然而,由于需要这个当前的关键字必须和所有被存的关键字同时比较,因此任何大小的真实相连内存不是效率低或速度慢,或者就是两者都有。
<BR>怎样我们才能设计有用的高速缓存,使其不仅效率高而且速度快呢?图4.1展示了一种最简单高速缓存的基本设计方案,直接映射(direct-mapped)高速缓存。它被1992年以前的MIPSCPU广泛使用。
<BR>直接映射cache由许多块简单的高速缓存排列构成(通常每一块称之为一line),通过地址低位在整个范围内做索引。cache的每一条line都包含一个字或者几个字的数据和一个标签(tag)区域,tag记录着数据所在内存的地址。
<BR>当一个读操作时,每一条line都可以被访问到,tag将和内存地址的高位做比较;如果匹配的话,我们知道是找到正确的数据了,这被称之为命中(hit)。如果在这一块中有超过一个字的数据,对应的那个字的数据通过地址的最低几位来选择出来。
<BR>如果tag没有匹配,这称之为没有命中(miss),那么数据需要从内存中读入,然后复制到cache对应的line中。这对应line中原来的数据将会被抛弃,如果CPU又需要被抛弃的数据时,需要再次从内存中取得。
<BR>这样的直接映射cache有一个特征,就是对于任何一个内存地址,在高速缓存中只有唯一的一条line可以用来保存其数据。这样有好处也有坏处。好处就是这样的架构简单,可以使CPU跑得更快。但简单也有其不好的一面:如果你的程序要不停地交替使用两个数据,而它们刚好要对应高速缓存中的同一块(可能是它们对应内存地址的低位刚好一样),这样这两个数据就会不停的将对方替换出高速缓存,以至高速缓存的效率被彻底的降下来。
<BR>而真正的相连内存将不会遇到这样的折腾,但对于任何合理大小,它将是难以想象的复杂、昂贵和速度缓慢。 <BR>折衷的办法就是使用two-way
set-associative cache,其实就是两个direct-mapped
cache并联,在它们中同时匹配内存位置。如图4.2。这时对应一个地址将有两次机会命中。Four-way set-associative cache
(就是有四个直接映射的子高速缓存)在cache的设计中也是很平常的。但是这是有惩罚的。一个set-associate
cache比起直接映射cache来需要更多的总线连接,所以cache太大以至于很难在一块芯片上构造直接映射。
<BR>不过也有巧妙的地方,由于直接映射cache对于你需要的数据只有唯一的候选者,所以把一些东西放到tag匹配前运行是可能的(只要CPU不做和着个数据有关的操作)。这样可以提高每一个时钟利用率。
<BR>由于当运行一段时间后cache会被装满,所以当再次存放从内存读来的数据时,就会抛弃一些cache内原有的数据。如果你知道这些数据在cache和内存中是一致的,那么你可以直接把cache中的备份抛弃;但如果cache中的数据更新的话,你就需要首先把这些数据存回到内存中。
<BR>这就给我们带来一个问题,cache怎样处理写操作? <BR><BR>4.3 Write-Through Caches in Early MIPS
CPUs
<BR>CPU不能仅仅是读数据(就象上面的讨论),它们也要写数据。由于cache只是将主存中的一部分数据做一个备份,所以有一个显而易见的方法来处理CPU的写操作,被称之为Write-Through
cache。 <BR>对于Write-Through
cache,写操作时CPU总是将数据直接写到主存中去;如果对应主存位置的数据在cache中有一个备份,那么cache中的那个备份也要被更新。如果我们总是这样做的,那么cache中的任何数据将和主存中的保持一致,所以只要我们需要我们就可以抛弃任何一条cahce
line的数据,并且除了消耗时间不会丢失任何东西。
<BR>当然这也是有危险的,当我们让处理器等待写操作结束时,处理器的运行速度将彻底的降下来,不过我们能修复这个问题。可以将要写入主存的数据及其地址先保存在另一边,然后有主存控制器自己取得这些数据并完成写操作。这个临时保存写操作内容的地方被称之为写操作缓冲区
(write buffer),它是先入先出的(FIFO)。 <BR>早期的MIPS CPU有一个直接映射的write-through
cache和一个写操作缓冲区,还有一个R3000的激发设置。它在同一芯片上构造cache控制器,但需要额外的高速存贮器芯片来存贮tag和数据。只有CPU跑一些特殊的程序很平均地产生的写操作,主存系统在这种工作方式下才能很好的消化这些写操作并工作的很好。
<BR>但CPU运行速度的增长比存贮器块得多。某些时候当32位的MIPS让位给64位R4000后,MIPS的速度就已经超过存贮器系统可以合理消化所有写操作的临界点了。
<BR><BR>4.4 Write-Bach Cache in Recent MIPS CPUs <BR>早期的MIPS CPU
使用简单的write-through cache。后来的MIPS CPU由于速度太快而不能适用这种方法,它们会陷入存储系统的写操作中,速度慢得像爬行。
<BR>解决的方法就是把要写的数据保留在cache中。要写的数据只写到cache中,并且对应的那条cahce
line要做一个标记,使我们肯定不会忘记在某个时候把它回写到内存中(一条line需要回写,称之为dirty)。 <BR>Write-back
cache还可以分成几种不同的子处理方式。如果当前cache中没有要写地址所对应的数据,我们可以直接写到主存中而不管cache,或者可以用特殊的方式把数据读入cache,然后再直接写cache,后面这种方式被称之为写分配(write
allocate)。用一种自私的观点来看一个程序运行在一个CPU上,写分配(write-allocate)看起来象浪费时间;但是它可以使整个系统的设计变得简单,因为在程序运行时读写内存都读或者写都是以一条cache
line大小为单位的块进行操作。 <BR>从MIPS R4000 开始,MIPS
CPU在芯片内拥有cache,而且都支持write-through和write-allocate两种工作模式,line的大小也是支持16byte和32byte两种。
<BR>MIPS cache的这些工作模式可以被应用到使用sillicon
Graphics设计R4000和其他大型CPU,其他计算机系统也因为多处理器系统而被这些cache工作模式影响到。 <BR><BR>4.5
Cache设计的其他选择 <BR>在上个世纪八十和九十年代针对怎样设计cache,做了很多工作和研究。所以下面还有许多其它的设计选择。
<BR>Physically addressed/virtually addressed:
<BR>当CPU在运行成熟的操作系统时,数据和指令在程序中的地址(程序地址或虚拟地址)会被转换成系统内存使用的物理地址。
<BR>如果cache纯粹地在物理地址方式下工作,将很容易被管理(我们将在后面讨论为什么)。但合法的虚拟地址可以让cache更早地开始查询匹配工作,这样可以使系统跑的稍微块一点。
<BR>但虚拟地址有什么问题呢?它们不是唯一的;当许多不同的程序在CPU不同的地址空间中运行,它们可能会共享同样的虚拟地址而使用不同的数据。当我们切换不同的地址空间时,每次都需要重新初始化cache;这种方式在很多年前被使用,可以作为针对非常小的cache的一种合理解决方法。但针对大的cahce这种方式不仅可笑而且效率低下,我们需要一块区域来辨别cache
tag中的地址空间,以至我们不被它们混淆。
<BR>这儿还有其它关于虚拟地址更细致的问题:相同的物理地址可以在不同的任务中被不同的虚拟地址描述。这就会导致相同物理地址的内容会被映射到不同的cache条目中(因为它们对应不同的虚拟地址,所以会被不同的索引所选中)。这样的情况必须被操作系统的内存管理所避免掉。详细的情况将在4.14.2节介绍。
<BR>从R4000起,MIPS的主cache都使用虚拟地址索引,从而提供快速的cache索引。但对于作为标记符来标记每一个cache-line,物理地址比虚拟地址更好。物理地址是唯一的而且效率更高,因为这样的设计显示出CPU在做cache索引的同时可以把虚拟地址转换成物理地址。
<BR><BR>line大小的选择(Choice of line size):
<BR>line的大小是对应每一个tag可以存贮多少字的数据。早期的MIPS的cache对应一个tag只能存贮一个字的数据。但对应一个tag能存贮多个字的数据更好,尤其是内存系统支持快速的burst
read。现代的MIPS cache趋向于使用四个或者八个字大小的line,并且更大的第二层和第三层cache使用更大的line。 <BR>当cache
miss发生时,整个一条line的数据都要从内存中获得。但很可能会取来几line的数据;一个字的cache line的MIPS
CPU经常是一次就取多个字的数据。 <BR><BR>分开/统一(Split/unified):
<BR>MIPS的主cache总是分成I-cache和D-cache,取指令时察看I-cache,读写数据时察看D-cache。(顺便说一下,如果你想执行CPU刚刚拷贝到内存的代码,你必须不仅仅要是D-cache一部分无效使这些代码数据在D-cache中不再存在,而且还要保证它们被装入I-cache)
<BR>但是不在同一块芯片上的第二层cache很少也按这种方式来分成两块。这样就没有什么真的优势可言了。除非你能针对两种cache提供分开的数据总线,但这又会需要太多的管脚。
<BR><BR>4.6 Cache管理(Magaging Caches)
<BR>Cache系统在系统软件的帮助下,必须保证任何应用程序数据的一致性,和它们在没有cache的系统下一样,尤其是DMA
I/O控制器(直接从内存中取得数据)取得程序认为已经写过的数据。 <BR>对于CISC
CPU,通常都不需要系统软件对cache的帮助;因为它会花费额外的内存空间、silicon area、时钟周期来使得cache变得真正的透明。
<BR>在系统启动的时候MIPS
CPU需要初始化它的cache;这是一个十分复杂的过程,下面有关于它的几点建议。但当系统启动后运行到三种情况CPU必须加以干涉。
<BR><BR><BR>.在DMA设备从内存取数据之前:
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -