EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
想要提高芯片之间的通讯速度,应该怎么做呢?传统的思路是优化芯片之间的通信接口。 ) i# y9 D/ v9 Y6 w3 y1 g; H
* I0 M$ q* U; ^5 s1 A2 m$ M# S# z8 L$ j2 W% c9 _- X% L4 U
- n. A5 \1 j9 Y: Y4 @
EDA365电子论坛 1 / C p% K5 P C9 R6 Z
谷歌发布了Cloud TPU测试版,以及Google Kubernetes Engine的GPU。比如谷歌云服务中心使用的AI芯片TPU,就专门在每块芯片上都专门设计了4个用来做芯片之间通信的接口, 3 C+ y" s/ z/ O/ h% k
但是这种思路有一个天花板,就是如今的接口技术,芯片之间的通信技术,达到每秒钟几百甚至上千GB,就已经接近极限了,再要提升,技术上可能会非常困难,这里要额外提一句,每秒钟几百GB的速度,听起来还是挺快的,但对于云计算中心而言,依然会成为制约整个系统运算性能的关键因素,那还有什么别的办法可以继续提高数据传输速度呢?
0 u% r, a+ J8 ]1 }1 Q: F/ C8 y" ~+ f4 u
3 N8 k$ B* Z: l! s5 u& V
这里就要说到Cerebras这家公司的“巨无霸”芯片了,它的思路就是把很多块小芯片合在一起,做成一块大芯片,这样原来需要很多芯片之间相互通信的任务,就可以在芯片内部进行数据传输了。 # e, d. F* ?* b4 a) _
要知道,芯片在自己内部传输数据的速度,是远远高于芯片之间通信的速度的,这就如同,我们左脑跟右脑互相沟通的速度,肯定比我们跟别人沟通说话的速度要快。
. J9 ^; T2 X7 t N* J5 ^) d9 o( l G" C2 Z. L4 e
EDA365电子论坛 2 7 Z5 d) x! `/ R' G) F2 b* L
事实上,按照这家公司披露的数据,这块芯片内部通信网络的速度,可以达到1000PB每秒,是目前最快的芯片之间的通信接口速度的10万倍。如果未来超级计算机,都使用这种“巨无霸”芯片,那就能够很好的解决芯片间通信速度。
2 g/ {3 j5 |1 F9 U& [- t$ E: B N K/ v1 V/ Y
5 u& ?7 Y, C1 P这个制约运算速度的瓶颈对整体性能的制约影响,那既然把计算芯片做大有那么多的好处,为什么以前就没人做呢,事实上,不是没人做,而是这件事太难了,还没有人能做到,为什么这么说呢? 4 W1 H" Z: P3 g& K$ ]7 |; L- m
问题的关键就在“可靠性”三个字上,众所周知,所有的芯片都是在一块圆形的硅片上,经过非常精细的半导体工艺加工而成的,在加工的过程中,难免会有一些加工缺陷和误差,导致硅片上局部失效。 . I9 O- W3 Y0 C' t" K1 Y$ D
在过去,一片硅片上通常会切割出几百块小芯片,而这些局部工艺的误差,顶多也就是影响其中一部分芯片,我们只需要把剩下的部分完好无损的挑出来,就可以到市场上销售了。 ( z0 F- f5 i3 e# L% L
9 o* M' m( l' p* u/ M9 ?8 V5 k% X$ s" |3 c5 W8 X! p
看到这里你可能已经明白了,既然加工过程中,难免会出现一些工艺缺陷,那一块芯片的面积越大,上面出现缺陷的概率就越大。
# L3 b- D, ?3 {: n% q
6 ?2 ]5 H/ ]- Y3 ~ ?# O+ q3 I0 m4 |- [EDA365电子论坛 3 - @/ _1 O: T2 v7 ?
所以想要成功的把它制造出来的难度也就越高,像这次发布的“巨无霸”芯片,面积是过去芯片的50多倍,对于工艺可靠性的要求理论上也就提高了50多个量级,这么高的可靠性要求,在过去是很难做到的,这也就是,在过去很少有这种超大型芯片的原因。
' i( c Q* ?6 e看到这里,大家就会知道提高芯片之间通讯速度的一些可行性方法,通过对芯片的结构进行可靠性优化,比如,在芯片内部设计一些冗余和备份的结构,让硅片上即使出现一些加工缺陷,也不会影响芯片整体的正常使用。这就体现了“可靠性”的重要性。
5 B: K+ H+ T; Y8 k# f9 x" S* r" b$ X文章由巢影字幕组译制 $ Z4 `( M% R5 ~' F3 `) b
$ v. R! I4 M4 ^4 Y6 Q# |- ^ |