找回密码
 注册
关于网站域名变更的通知
12
返回列表 发新帖
楼主: House
打印 上一主题 下一主题

转——每个程序员都应该了解的内存知识 第2节: CPU的高速缓存

[复制链接]

该用户从未签到

16#
 楼主| 发表于 2019-4-10 17:02 | 只看该作者
. W+ Q7 j+ B4 U$ y* j
再来看图3.25,它来自同一颗处理器,只是运行双线程,每个线程分别运行在处理器的一个超线程上。
1 d0 w' q4 w! Z% O
- x7 K6 S2 Q' I6 h; d$ D8 o, I2 b图3.25: P4开启两个超线程时的带宽表现
9 x5 q- r, x; W" }! p) M图3.25采用了与图3.24相同的刻度,以方便比较两者的差异。图3.25中的曲线抖动更多,是由于采用双线程的缘故。结果正如我们预期,由于超线程共享着几乎所有资源(仅除寄存器外),所以每个超线程只能得到一半的缓存和带宽。所以,即使每个线程都要花上许多时间等待内存,从而把执行时间让给另一个线程,也是无济于事——因为另一个线程也同样需要等待。这里恰恰展示了使用超线程时可能出现的最坏情况。 ! x# z; ]" N3 z4 T6 ^1 l7 Q

, V, g+ @) r- G6 ~' s5 `/ ~4 J# p图3.26: Core 2的带宽表现
" Q2 C, ?; T) r! k6 t再来看Core 2处理器的情况。看看图3.26和图3.27,再对比下P4的图3.24和3.25,可以看出不小的差异。Core 2是一颗双核处理器,有着共享的L2,容量是P4 L2的4倍。但更大的L2只能解释写操作的性能下降出现较晚的现象。 9 U" S7 V( d) [' @$ i  ]6 V5 B/ b
  当然还有更大的不同。可以看到,读操作的性能在整个工作集范围内一直稳定在16字节/周期左右,在220处的下降同样是由于DTLB的耗尽引起。能够达到这么高的数字,不但表明处理器能够预取数据,并且按时完成传输,而且还意味着,预取的数据是被装入L1d的。 : c' S+ }( i" B$ \

$ f7 u) g3 f. M4 S, u1 n6 n写/复制操作的性能与P4相比,也有很大差异。处理器没有采用写通策略,写入的数据留在L1d中,只在必要时才逐出。这使得写操作的速度可以逼近16字节/周期。一旦工作集超过L1d,性能即飞速下降。由于Core 2读操作的性能非常好,所以两者的差值显得特别大。当工作集超过L2时,两者的差值甚至超过20倍!但这并不表示Core 2的性能不好,相反,Core 2永远都比Netburst强。
% s4 h# p! N% e$ B( G  l
$ b+ B; w; }% c' X/ o  }6 J& g" Q
- [  z+ N+ D4 I/ H, ~4 \图3.27: Core 2运行双线程时的带宽表现3 I5 u' ?" X- G* V/ V! s: @9 x$ l

' B4 W. p# z0 m  z5 t在图3.27中,启动双线程,各自运行在Core 2的一个核心上。它们访问相同的内存,但不需要完美同步。从结果上看,读操作的性能与单线程并无区别,只是多了一些多线程情况下常见的抖动。
; I7 d. v/ x/ [3 q; o+ H8 S" s. f2 j) x& B% ~
有趣的地方来了——当工作集小于L1d时,写操作与复制操作的性能很差,就好像数据需要从内存读取一样。两个线程彼此竞争着同一个内存位置,于是不得不频频发送RFO消息。问题的根源在于,虽然两个核心共享着L2,但无法以L2的速度处理RFO请求。而当工作集超过L1d后,性能出现了迅猛提升。这是因为,由于L1d容量不足,于是将被修改的条目刷新到共享的L2。由于L1d的未命中可以由L2满足,只有那些尚未刷新的数据才需要RFO,所以出现了这样的现象。这也是这些工作集情况下速度下降一半的原因。这种渐进式的行为也与我们期待的一致: 由于每个核心共享着同一条FSB,每个核心只能得到一半的FSB带宽,因此对于较大的工作集来说,每个线程的性能大致相当于单线程时的一半。
, G, ^& F$ f) h' o& X# x6 |6 ]由于同一个厂商的不同处理器之间都存在着巨大差异,我们没有理由不去研究一下其它厂商处理器的性能。图3.28展示了AMD家族10h Opteron处理器的性能。这颗处理器有64kB的L1d、512kB的L2和2MB的L3,其中L3缓存由所有核心所共享。 9 Y# Q) }0 r  j) q( a; k( R

0 o: o9 c4 g; L$ x: c* P7 X' s
7 Q5 A+ u4 R' B& Z图3.28: AMD家族10h Opteron的带宽表现
" ]5 W: _1 W# v5 ]' A* C1 m# q
8 A" S# g+ t6 n; d# k& h$ \大家首先应该会注意到,在L1d缓存足够的情况下,这个处理器每个周期能处理两条指令。读操作的性能超过了32字节/周期,写操作也达到了18.7字节/周期。但是,不久,读操作的曲线就急速下降,跌到2.3字节/周期,非常差。处理器在这个测试中并没有预取数据,或者说,没有有效地预取数据。 : e9 C( W# W8 z: A8 a
! p! l! }) _+ H7 C3 {2 u
另一方面,写操作的曲线随几级缓存的容量而流转。在L1d阶段达到最高性能,随后在L2阶段下降到6字节/周期,在L3阶段进一步下降到2.8字节/周期,最后,在工作集超过L3后,降到0.5字节/周期。它在L1d阶段超过了Core 2,在L2阶段基本相当(Core 2的L2更大一些),在L3及主存阶段比Core 2慢。 * R, F* h# p$ e0 e" A
  复制的性能既无法超越读操作的性能,也无法超越写操作的性能。因此,它的曲线先是被读性能压制,随后又被写性能压制。
; ?& W  a, D+ [: I8 i+ K. J/ y- M# N; i
图3.29显示的是Opteron处理器在多线程时的性能表现。3 U, I, `: T8 q; H/ J
- |; X' Z+ T5 M: F, \1 n' W9 y; K5 }
图3.29: AMD Fam 10h在双线程时的带宽表现
2 V* d* x, ]# \. b1 q7 T( m: ]  l* z# @" U
读操作的性能没有受到很大的影响。每个线程的L1d和L2表现与单线程下相仿,L3的预取也依然表现不佳。两个线程并没有过渡争抢L3。问题比较大的是写操作的性能。两个线程共享的所有数据都需要经过L3,而这种共享看起来却效率很差。即使是在L3足够容纳整个工作集的情况下,所需要的开销仍然远高于L3的访问时间。再来看图3.27,可以发现,在一定的工作集范围内,Core 2处理器能以共享的L2缓存的速度进行处理。而Opteron处理器只能在很小的一个范围内实现相似的性能,而且,它仅仅只能达到L3的速度,无法与Core 2的L2相比。

2 j( h: @: z" V/ V4 M

该用户从未签到

17#
 楼主| 发表于 2019-4-10 17:03 | 只看该作者
8 K! ~7 R  M: t5 I
3.5.2 关键字加载
4 [# W' M4 }, J( [  内存以比缓存线还小的块从主存储器向缓存传送。如今64位可一次性传送,缓存线的大小为64或128比特。这意味着每个缓存线需要8或16次传送。 ! A4 ^1 p# Z5 a6 Y- p
  DRAM芯片可以以触发模式传送这些64位的块。这使得不需要内存控制器的进一步指令和可能伴随的延迟,就可以将缓存线充满。如果处理器预取了缓存,这有可能是最好的操作方式。
5 o8 x0 l) h: v) E5 g
' i' q; m( `+ K4 {$ [: Y$ V. ~如果程序在访问数据或指令缓存时没有命中(这可能是强制性未命中或容量性未命中,前者是由于数据第一次被使用,后者是由于容量限制而将缓存线逐出),情况就不一样了。程序需要的并不总是缓存线中的第一个字,而数据块的到达是有先后顺序的,即使是在突发模式和双倍传输率下,也会有明显的时间差,一半在4个CPU周期以上。举例来说,如果程序需要缓存线中的第8个字,那么在首字抵达后它还需要额外等待30个周期以上。
& ?5 y( H* w2 U4 u+ N
+ ^9 ^7 x  l! \5 O- @0 D7 D  l当然,这样的等待并不是必需的。事实上,内存控制器可以按不同顺序去请求缓存线中的字。当处理器告诉它,程序需要缓存中具体某个字,即「关键字(critical word)」时,内存控制器就会先请求这个字。一旦请求的字抵达,虽然缓存线的剩余部分还在传输中,缓存的状态还没有达成一致,但程序已经可以继续运行。这种技术叫做关键字优先及较早重启(Critical Word First & Early Restart)。 - J+ ?  I8 ]" z+ K  S

& Q) S8 ~& H& d" [: _6 F. W2 w现在的处理器都已经实现了这一技术,但有时无法运用。比如,预取操作的时候,并不知道哪个是关键字。如果在预取的中途请求某条缓存线,处理器只能等待,并不能更改请求的顺序。 9 L3 J4 N7 U$ ^$ j

. L/ V: Q2 E8 j3 a) e , |! a, b6 X2 m* h' H
图3.30: 关键字位于缓存线尾时的表现4 @( @1 T5 B7 A7 Y3 O: d. i, S

6 m7 X# ~, ^, e5 U7 b8 D在关键字优先技术生效的情况下,关键字的位置也会影响结果。图3.30展示了下一个测试的结果,图中表示的是关键字分别在线首和线尾时的性能对比情况。元素大小为64字节,等于缓存线的长度。图中的噪声比较多,但仍然可以看出,当工作集超过L2后,关键字处于线尾情况下的性能要比线首情况下低0.7%左右。而顺序访问时受到的影响更大一些。这与我们前面提到的预取下条线时可能遇到的问题是相符的。
% @: m; q4 D* q0 Q

该用户从未签到

18#
 楼主| 发表于 2019-4-10 17:03 | 只看该作者

" ^6 ~/ g! |8 V$ j$ y0 Z- e
3.5.3 缓存设定 0 C8 @) E2 d9 s. ^6 f7 w' D0 }
  缓存放置的位置与超线程,内核和处理器之间的关系,不在程序员的控制范围之内。但是程序员可以决定线程执行的位置,接着高速缓存与使用的CPU的关系将变得非常重要。
5 @5 A6 @5 u" ^% S  这里我们将不会深入(探讨)什么时候选择什么样的内核以运行线程的细节。我们仅仅描述了在设置关联线程的时候,程序员需要考虑的系统结构的细节。
; g$ y+ b1 l. J# B# a- B& t2 Q5 P/ [/ z& E: M
超线程,通过定义,共享除去寄存器集以外的所有数据。包括 L1 缓存。这里没有什么可以多说的。多核处理器的独立核心带来了一些乐趣。每个核心都至少拥有自己的 L1 缓存。除此之外,下面列出了一些不同的特性:
7 F$ ~! m3 B! _. j1 ~
  • 早期多核心处理器有独立的 L2 缓存且没有更高层级的缓存。
  • 之后英特尔的双核心处理器模型拥有共享的L2 缓存。对四核处理器,则分对拥有独立的L2 缓存,且没有更高层级的缓存。
  • AMD 家族的 10h 处理器有独立的 L2 缓存以及一个统一的L3 缓存。, P1 h; g# N8 R/ I1 @$ J
' T5 Q8 ^9 U2 l! R; C% l" y
关于各种处理器模型的优点,已经在它们各自的宣传手册里写得够多了。在每个核心的工作集互不重叠的情况下,独立的L2拥有一定的优势,单线程的程序可以表现优良。考虑到目前实际环境中仍然存在大量类似的情况,这种方法的表现并不会太差。不过,不管怎样,我们总会遇到工作集重叠的情况。如果每个缓存都保存着某些通用运行库的常用部分,那么很显然是一种浪费。 & \3 {6 W& h# O( D
  如果像Intel的双核处理器那样,共享除L1外的所有缓存,则会有一个很大的优点。如果两个核心的工作集重叠的部分较多,那么综合起来的可用缓存容量会变大,从而允许容纳更大的工作集而不导致性能的下降。如果两者的工作集并不重叠,那么则是由Intel的高级智能缓存管理(Advanced Smart Cache management)发挥功用,防止其中一个核心垄断整个缓存。
9 X4 v1 S% ]* t
8 a7 D& d1 j" q3 j) r即使每个核心只使用一半的缓存,也会有一些摩擦。缓存需要不断衡量每个核心的用量,在进行逐出操作时可能会作出一些比较差的决定。我们来看另一个测试程序的结果。 $ t6 g* G* a% b7 C8 _2 k* g

1 @7 U8 B& Q" _' Y7 P$ n2 e+ k+ C
2 x% n/ K: i2 |& X, I4 q+ o5 N% A& R图3.31: 两个进程的带宽表现
4 y& N- F3 L/ I* r3 q! h' }7 e4 P+ ]8 y: ~- h
这次,测试程序两个进程,第一个进程不断用SSE指令读/写2MB的内存数据块,选择2MB,是因为它正好是Core 2处理器L2缓存的一半,第二个进程则是读/写大小变化的内存区域,我们把这两个进程分别固定在处理器的两个核心上。图中显示的是每个周期读/写的字节数,共有4条曲线,分别表示不同的读写搭配情况。例如,标记为读/写(read/write)的曲线代表的是后台进程进行写操作(固定2MB工作集),而被测量进程进行读操作(工作集从小到大)。 0 g7 E1 o* [, S  d
. X. C. I0 }4 O4 B/ |" d
图中最有趣的是220到223之间的部分。如果两个核心的L2是完全独立的,那么所有4种情况下的性能下降均应发生在221到222之间,也就是L2缓存耗尽的时候。但从图上来看,实际情况并不是这样,特别是背景进程进行写操作时尤为明显。当工作集达到1MB(220)时,性能即出现恶化,两个进程并没有共享内存,因此并不会产生RFO消息。所以,完全是缓存逐出操作引起的问题。目前这种智能的缓存处理机制有一个问题,每个核心能实际用到的缓存更接近1MB,而不是理论上的2MB。如果未来的处理器仍然保留这种多核共享缓存模式的话,我们唯有希望厂商会把这个问题解决掉。$ L5 W% d) T. w- B6 ~
推出拥有双L2缓存的4核处理器仅仅只是一种临时措施,是开发更高级缓存之前的替代方案。与独立插槽及双核处理器相比,这种设计并没有带来多少性能提升。两个核心是通过同一条总线(被外界看作FSB)进行通信,并没有什么特别快的数据交换通道。
0 }* X3 Y7 x1 {  未来,针对多核处理器的缓存将会包含更多层次。AMD的10h家族是一个开始,至于会不会有更低级共享缓存的出现,还需要我们拭目以待。我们有必要引入更多级别的缓存,因为频繁使用的高速缓存不可能被许多核心共用,否则会对性能造成很大的影响。我们也需要更大的高关联性缓存,它们的数量、容量和关联性都应该随着共享核心数的增长而增长。巨大的L3和适度的L2应该是一种比较合理的选择。L3虽然速度较慢,但也较少使用。 3 q+ p. R  X  N* I3 `5 g# G0 j
  对于程序员来说,不同的缓存设计就意味着调度决策时的复杂性。为了达到最高的性能,我们必须掌握工作负载的情况,必须了解机器架构的细节。好在我们在判断机器架构时还是有一些支援力量的,我们会在后面的章节介绍这些接口。

2 V. |' @0 A! G9 \; u

该用户从未签到

19#
 楼主| 发表于 2019-4-10 17:04 | 只看该作者
3 Q) h& M# W$ t
3.5.4 FSB的影响   FSB在性能中扮演了核心角色。缓存数据的存取速度受制于内存通道的速度。我们做一个测试,在两台机器上分别跑同一个程序,这两台机器除了内存模块的速度有所差异,其它完全相同。图3.32展示了Addnext0测试(将下一个元素的pad[0]加到当前元素的pad[0]上)在这两台机器上的结果(NPAD=7,64位机器)。两台机器都采用Core 2处理器,一台使用667MHz的DDR2内存,另一台使用800MHz的DDR2内存(比前一台增长20%)。
* I) ]. E9 Z" O* z
" G3 }. N1 ~; W% D* n
7 Q) J4 W  d1 j: M  Y图3.32: FSB速度的影响- c4 \1 z/ w! N2 h3 v: ^
/ u" [$ y+ T" o2 V# t; p
图上的数字表明,当工作集大到对FSB造成压力的程度时,高速FSB确实会带来巨大的优势。在我们的测试中,性能的提升达到了18.5%,接近理论上的极限。而当工作集比较小,可以完全纳入缓存时,FSB的作用并不大。当然,这里我们只测试了一个程序的情况,在实际环境中,系统往往运行多个进程,工作集是很容易超过缓存容量的。
! \0 ?" b* x* ?: Z' O) z7 r5 m' {2 _# Z4 W9 ]
如今,一些英特尔的处理器,支持前端总线(FSB)的速度高达1,333 MHz,这意味着速度有另外60%的提升。将来还会出现更高的速度。速度是很重要的,工作集会更大,快速的RAM和高FSB速度的内存肯定是值得投资的。我们必须小心使用它,因为即使处理器可以支持更高的前端总线速度,但是主板的北桥芯片可能不会。使用时,检查它的规范是至关重要的。
2 n: x" D. ?. W- K' Y/ X% D# `
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-8-11 12:59 , Processed in 0.109375 second(s), 18 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表