TA的每日心情 | 怒 2019-11-19 15:34 |
|---|
签到天数: 1 天 [LV.1]初来乍到
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
- i" \& \, I& d8 q
计算密集型任务的例子包括矩阵运算、图像处理、机器学习、压缩、非对称加密、Bing 搜索的排序等。8 I+ {5 z" n6 Y9 P! v
这类任务一般是 CPU 把任务卸载(offload)给 FPGA 去执行。/ }7 O4 ?7 R: g
对这类任务,目前我们正在用的 Altera(似乎应该叫 Intel 了,我还是习惯叫 Altera……)Stratix V FPGA 的整数乘法运算性能与 20 核的 CPU 基本相当,浮点乘法运算性能与 8 核的 CPU 基本相当,而比 GPU 低一个数量级。
; Q4 X- j6 x" U" f( [我们即将用上的下一代 FPGA,Stratix 10,将配备更多的乘法器和硬件浮点运算部件,从而理论上可达到与现在的顶级 GPU 计算卡旗鼓相当的计算能力。, I" ]) t, @' z
8 \/ Q7 D% S% \4 I
5 G- p8 K( B' w- V, W5 W% n
, e( O# l" q' W7 l2 _$ V+ E▲FPGA 的整数乘法运算能力(估计值,不使用 DSP,根据逻辑资源占用量估计)
# @5 W* }+ R" S; Q8 F8 o. l7 N G; p" y- J8 Y7 g
0 s! Z: A+ O$ h% ?( s1 L7 q; G
( a8 |9 e' z2 ], q
▲FPGA 的浮点乘法运算能力(估计值,float16 用软核,float 32 用硬核)
2 T9 G. b4 u5 s) h' t; `
5 k7 _7 K) X1 g' Q0 Y在数据中心,FPGA 相比 GPU 的核心优势在于延迟。
# I0 W* M7 U# Z. H9 j2 o
% Y; F. @) K+ _) F6 I; S像 Bing 搜索排序这样的任务,要尽可能快地返回搜索结果,就需要尽可能降低每一步的延迟。6 B' ^ J, R4 H2 [
@5 V( a2 w/ X' P- |2 ?1 n
如果使用 GPU 来加速,要想充分利用 GPU 的计算能力,batch size 就不能太小,延迟将高达毫秒量级。 w( n7 h# Q! [# F9 b1 w% Z
) m; n' P; P. @
使用 FPGA 来加速的话,只需要微秒级的 PCIe 延迟(我们现在的 FPGA 是作为一块 PCIe 加速卡)。
( O4 v! N) z5 M" b9 ?2 }
+ [- D7 \8 ^% j9 W8 p未来 Intel 推出通过 QPI 连接的 Xeon + FPGA 之后,CPU 和 FPGA 之间的延迟更可以降到 100 纳秒以下,跟访问主存没什么区别了。
/ l' x& [" g6 A1 ]' Z \) [$ h# d% _% ~* c7 j9 C/ B8 {
|
|