找回密码
 注册
关于网站域名变更的通知
查看: 168|回复: 2
打印 上一主题 下一主题

专⽤数据处理器(DPU)技术⽩⽪书1:DPU技术发展概况

  [复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2022-6-13 10:24 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
1、DPU技术发展概况
" L) @2 l! i/ L1.1. 什么是DPU* A3 v- |7 @' z8 [
DPU(Data Processing Unit)是以数据为中心构造的专用处理器,采用软件定义技术路线支撑基础设施层资源虚拟化,支持存储、安全、服务质量管理等基础设施层服务。2020年NVIDIA公司发布的DPU产品战略中将其定位为数据中心继CPU和GPU之后的“第三颗主力芯片”,掀起了一波行业热潮。DPU的出现是异构计算的一个阶段性标志。与GPU的发展类似,DPU是应用驱动的体系结构设计的又一典型案例;但与GPU不同的是,DPU面向的应用更加底层。DPU要解决的核心问题是基础设施的“降本增效”,即将“CPU处理效率低下、GPU处理不了”的负载卸载到专用DPU,提升整个计算系统的效率、降低整体系统的总体拥有成本(TCO)。DPU的出现也许是体系结构朝着专用化路 线发展的又一个里程碑。
7 ~9 F( ?# L, [6 V1 N3 E) E0 T2 R$ `3 t
1.1.2. DPU的作用
2 z6 N: d8 ]! Y3 ^& W# S: r- JDPU最直接的作用是作为CPU的卸载引擎,接管网络虚拟化、硬件资源池化等基础设施层服务,释放CPU的算力到上层应用。以网络协议处理为例,要线速处理10G的网络需要的大约4个Xeon CPU的核,也就是说,单是做网络数据包处理,就可以占去一个8核高端CPU一半的算力。如果考虑40G、100G的高速网络,性能的开销就更加难以承受了。Amazon把这些开销都称之为“Datacenter Tax”,即还未运行业务程序,先接入网络数据就要占去的计算资 源。AWS Nitro产品家族旨在将数据中心开销(为虚拟机提供远程资源,加密解 密,故障跟踪,安全策略等服务程序)全部从CPU卸载到Nitro加速卡上,将给上层应用释放30%的原本用于支付“Tax” 的算力!* g: W6 _- w; r' c; ~
DPU可以成为新的数据网关,将安全隐私提升到一个新的高度。在网络环 境下,网络接口是理想的隐私的边界,但是加密、解密算法开销都很大,例如 国密标准的非对称加密算法SM2、哈希算法SM3和对称分组密码算法SM4。如果用CPU来处理,就只能做少部分数据量的加密。在未来,随着区块链承载的业务的逐渐成熟,运行共识算法POW,验签等也会消耗掉大量的CPU算力。而这些都可以通过将其固化在DPU中来实现,甚至DPU将成为一个可信根。0 e% t; J& B7 I% b( i: N- R
) V( Q8 H' C: d, G  z
1.2. DPU的发展背景1 \5 _8 R, m1 ]' o$ R1 Y0 M2 p
DPU的出现是异构计算的又一个阶段性标志。摩尔定律放缓使得通用CPU性能增长的边际成本迅速上升,数据表明现在CPU的性能年化增长(面积归一化之后)仅有3%左右1,但计算需求却是爆发性增长,这几乎是所有专用计算芯片得以发展的重要背景因素。以AI芯片为例,最新的gpt-3等千亿级参数的超 大型模型的出现,将算力需求推向了一个新的高度。DPU也不例外。随着2019年我国以信息网络等新型基础设施为代表的“新基建”战略帷幕的拉开,5G、千兆光纤网络建设发展迅速,移动互联网、工业互联网、车联网等领域发展日新月异。云计算、数据中心、智算中心等基础设施快速扩容。网络带宽从主流10G朝着25G、40G、100G、200G甚至400G发展。网络带宽和连接数的剧增使得数据的通路更宽、更密,直接将处于端、边、云各处的计算节点暴露在了剧增的数据量下,而CPU的性能增长率与数据量增长率出现了显著的“剪刀差”现象。所以,寻求效率更高的计算芯片就成为了业界的共识。DPU芯片就是在这样的趋势下提出的。
( \% R4 [+ ?4 i( h$ T- A7 [! q( t$ o" @" s
1.2.1. 带宽性能增速比(RBP)失调:
9 b! n4 ^" u( C/ G
# s' L9 h# R& @' \. S# _8 V9 V6 Y, ^3 U! D; y/ x
- B0 X% G$ F0 Z! ?/ B2 _( p6 n
1.3. DPU发展历程
% V  k. U3 U0 C( @6 }随着云平台虚拟化技术的发展,智能网卡的发展基本可以分为三个阶段(如图1-2所示):
, \0 j0 b/ o! _- t* T2 g. C, s; g6 C
9 |1 F: i' P, i& Z2 N/ h, m2 X
: V- X$ |- r: J第⼀阶段:基础功能⽹卡2 v$ B- P/ \+ y; P! F! T$ Z
基础功能网卡(即普通网卡)提供2x10G或2x25G带宽吞吐,具有较少的硬件卸载能力,主要是Checksum,LRO/LSO等,支持SR-IOV,以及有限的多队列能力。在云平台虚拟化网络中,基础功能网卡向虚拟机(VM)提供网络接入的 方式主要是有三种:由操作系统内核驱动接管网卡并向虚拟机(VM)分发网络流量;由OVS-DPDK接管网卡并向虚拟机(VM)分发网络流量;以及高性能场景下通过SR-IOV的方式向虚拟机(VM)提供网络接入能力。
- L2 T3 j# {; G! Q第⼆阶段:硬件卸载⽹卡可以认为是第一代智能网卡,具有丰富的硬件卸载能力,比较典型的有OVS Fastpath硬件卸载,基于RoCEv1和RoCEv2的RDMA网络硬件卸载,融合网络中无损网络能力(PFC,ECN,ETS等)的硬件卸载,存储领域NVMe-oF的硬件卸载,以及安全传输的数据面卸载等。这个时期的智能网卡以数据平面的卸载为主。  s5 [$ s* f1 b3 t. \/ Q
第三阶段:DPU智能⽹卡2 [4 E7 A, l$ J% w& [2 L- _
可以认为是第二代智能网卡,在第一代智能网卡基础上加入CPU,可以用来卸载控制平面的任务和一些灵活复杂的数据平面任务。目前DPU智能网卡的 特点首先是支持PCIe root Complex模式和Endpoint模式,在配置为PCIe Root Complex模式时,可以实现NVMe存储控制器,与NVMe SSD磁盘一起构建存储服务器;另外,由于大规模的数据中心网络的需要,对无损网络的要求更加严 格,需要解决数据中心网络中Incast流量、“大象”流等带来的网络拥塞和时延问题,各大公有云厂商纷纷提出自己的应对方法,比如阿里云的高精度拥塞控制(HPCC,High Precision Congestion Control),AWS的可扩展可靠数据报 (SRD,Scalable Reliable Datagram)等。DPU智能网卡在解决这类问题时将会引 入更为先进的方法,如Fungible的TrueFabric,就是在DPU智能网卡上的新式解 决方案。还有,业界提出了HypervISOr中的网络,存储和安全全栈卸载的发展方向,以Intel为代表提出了IPU,将基础设施的功能全部卸载到智能网卡中,可以全面释放之前用于Hypervisor管理的CPU算力。% q+ J+ C. }2 f7 U2 M! \

' w. ^& M* X' P' D' k9 h- u未来的DPU智能⽹卡硬件形态8 W) d/ b1 b' I) S5 q' G
随着越来越多的功能加入到智能网卡中,其功率将很难限制在75W之内,这样就需要独立的供电系统。所以,未来的智能网卡形态可能有三种形态:
' I* o6 V' [/ |(1)独立供电的智能网卡,需要考虑网卡状态与计算服务之间低层信号识别,在计算系统启动的过程中或者启动之后,智能网卡是否已经是进入服务状态,这些都需要探索和解决。
+ ]. w" o& s* s0 a; C(2)没有PCIe接口的DPU智能网卡,可以组成DPU资源池,专门负责网络功能,例如负载均衡,访问控制,防火墙设备等。管理软件可以直接通过智能 网卡管理接口定义对应的网络功能,并作为虚拟化网络功能集群提供对应网络能力,无需PCIe接口。- Y9 a# G/ r9 {* ^/ F  A3 M
(3)多PCIe接口,多网口的DPU芯片。例如Fungible F1芯片,支持16个双模PCIe控制器,可以配置为Root Complex模式或Endpoint模式,以及8x100G网络接口。通过PCIe Gen3 x8接口可以支撑8个Dual-SOCket计算服务器,网络侧提供 8x100G带宽的网口。" X% f% c0 C, ]- d; N5 }9 U
7 W' c! J$ O( d6 J2 y; D2 V
! M) K2 i4 _- y6 n9 \
DPU作为一种新型的专用处理器,随着需求侧的变化,必将在未来计算系统中成为一个重要组成部分,对于支撑下一代数据中心起到至关重要的作用。
- y) R2 a. G) M% Z$ c' {! ]) F/ f; l* r$ W  q; O
1.4. DPU与CPU、GPU的关系7 _& U! I$ U: c5 v% S
CPU是整个IT生态的定义者,无论是服务器端的x86还是移动端的ARM,都 各自是构建了稳固的生态系统,不仅形成技术生态圈,还形成了闭合价值链。
, S9 O# S1 N# S* X9 NGPU是执行规则计算的主力芯片,如图形渲染。经过NVIDIA对通用GPU(GPGPU)和CUDA编程框架的推广,GPU在数据并行的任务如图形图像、深 度学习、矩阵运算等方面成为了主力算力引擎,并且成为了高性能计算最重要 的辅助计算单元。2021年6月公布的Top500高性能计算机(超级计算机)的前10名中,有六台(第2、3、5、6、8、9名)都部署有NVIDIA的GPU。! z* C5 T+ q* Z  p' C7 Y
未来算⼒⽣态(相关⼚商为不完全列举,仅做为⽰意参考):* B! f& ~8 @& _8 _7 o0 @5 w
$ x! h, n% t6 ~1 Y; U) E! t/ A

( {5 v  ?, c( r' g3 H' `* E数据中心与超极计算机不同,后者主要面向科学计算,如大飞机研制,石油勘探、新药物研发、气象预报、电磁环境计算等应用,性能是主要指标,对接入带宽要求不高;但数据中心面向云计算商业化应用,对接入带宽,可靠性、灾备、弹性扩展等要求更高,与之相适应发展起来的虚拟机、容器云、并行编程框、内容分发网等等技术,都是为了更好的支撑上层商业应用如电商、 支付、视频流、网盘、办公OA等。但是这些IaaS和PaaS层的服务开销极大, Amazon曾公布AWS的系统开销在30%以上。如果需要实现更好的QoS,在网络、存储、安全等基础设施服务上的开销还会更高。
! E& H/ B5 o; E2 W$ b
; g  b& N# q  o6 Q: n- p
1 Q, i# K$ j7 P* G) C) q
" ?0 M1 J8 a: |

DPU-whitepaper-final-x.pdf

10.58 MB, 下载次数: 0, 下载积分: 威望 -5

该用户从未签到

2#
发表于 2022-6-13 11:19 | 只看该作者
学习学习,嘿嘿

该用户从未签到

3#
发表于 2022-6-13 14:21 | 只看该作者
需要的资料,非常实用
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-7-23 01:05 , Processed in 0.109375 second(s), 26 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表