EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
想要提高芯片之间的通讯速度,应该怎么做呢?传统的思路是优化芯片之间的通信接口。 % J) T$ k. T8 F }
! \6 S4 x; J) R9 B G2 G& L1 w( d7 \
8 P2 N! ], V. G4 O" K
EDA365电子论坛 1 ( b }( V9 P C1 J
谷歌发布了Cloud TPU测试版,以及Google Kubernetes Engine的GPU。比如谷歌云服务中心使用的AI芯片TPU,就专门在每块芯片上都专门设计了4个用来做芯片之间通信的接口,
/ E/ z T `$ Q6 X) y但是这种思路有一个天花板,就是如今的接口技术,芯片之间的通信技术,达到每秒钟几百甚至上千GB,就已经接近极限了,再要提升,技术上可能会非常困难,这里要额外提一句,每秒钟几百GB的速度,听起来还是挺快的,但对于云计算中心而言,依然会成为制约整个系统运算性能的关键因素,那还有什么别的办法可以继续提高数据传输速度呢?
! x6 I" ]# t2 u' ]2 u/ l6 N- ?) O0 _7 _) |" |' j; B
8 H! v% \$ [) T' g' D0 G这里就要说到Cerebras这家公司的“巨无霸”芯片了,它的思路就是把很多块小芯片合在一起,做成一块大芯片,这样原来需要很多芯片之间相互通信的任务,就可以在芯片内部进行数据传输了。
3 d" I9 R$ ]# w7 Y& x要知道,芯片在自己内部传输数据的速度,是远远高于芯片之间通信的速度的,这就如同,我们左脑跟右脑互相沟通的速度,肯定比我们跟别人沟通说话的速度要快。
. o* |1 w& v% f( w; S3 M! y2 J9 |/ \% J
EDA365电子论坛 2 8 z1 v, x, R" S0 H- p+ A# j0 a! T
事实上,按照这家公司披露的数据,这块芯片内部通信网络的速度,可以达到1000PB每秒,是目前最快的芯片之间的通信接口速度的10万倍。如果未来超级计算机,都使用这种“巨无霸”芯片,那就能够很好的解决芯片间通信速度。
# p B& k6 z3 E! ?0 }) @8 H& v' z9 R
& d) S+ I& _: W; |
这个制约运算速度的瓶颈对整体性能的制约影响,那既然把计算芯片做大有那么多的好处,为什么以前就没人做呢,事实上,不是没人做,而是这件事太难了,还没有人能做到,为什么这么说呢? 8 [! }# j ^0 A$ \
问题的关键就在“可靠性”三个字上,众所周知,所有的芯片都是在一块圆形的硅片上,经过非常精细的半导体工艺加工而成的,在加工的过程中,难免会有一些加工缺陷和误差,导致硅片上局部失效。 1 D7 V4 }' x0 O, t
在过去,一片硅片上通常会切割出几百块小芯片,而这些局部工艺的误差,顶多也就是影响其中一部分芯片,我们只需要把剩下的部分完好无损的挑出来,就可以到市场上销售了。
) a9 L& t8 E( b# X7 y* P' f4 s' e& J4 z
% S2 P' A+ s! h2 e6 k D% ^
看到这里你可能已经明白了,既然加工过程中,难免会出现一些工艺缺陷,那一块芯片的面积越大,上面出现缺陷的概率就越大。
8 R+ ~0 F' L; ]' S. w$ A
" _" m' s! z9 R4 Z# QEDA365电子论坛 3
- }5 I! g& c' M6 |8 j所以想要成功的把它制造出来的难度也就越高,像这次发布的“巨无霸”芯片,面积是过去芯片的50多倍,对于工艺可靠性的要求理论上也就提高了50多个量级,这么高的可靠性要求,在过去是很难做到的,这也就是,在过去很少有这种超大型芯片的原因。
+ U. U/ A! a4 g看到这里,大家就会知道提高芯片之间通讯速度的一些可行性方法,通过对芯片的结构进行可靠性优化,比如,在芯片内部设计一些冗余和备份的结构,让硅片上即使出现一些加工缺陷,也不会影响芯片整体的正常使用。这就体现了“可靠性”的重要性。 7 {$ u2 U! O3 X; Z; ~, N
文章由巢影字幕组译制 : h4 {$ W, y$ ?+ J
, c2 y# Z" Y* T( }- @6 i2 _7 p |