找回密码
 注册
关于网站域名变更的通知
查看: 242|回复: 2
打印 上一主题 下一主题

RISC-V生态全景解析5——Vector向量计算技术与SIMD技术的对比

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2022-5-25 09:18 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
本帖最后由 名字好听吗 于 2022-5-25 09:22 编辑
! N9 ~* Q* o/ k! P) P; z7 `2 P6 P1 K7 H) \, ^
1、SIMD技术简介
0 Y1 i; {. r( u7 Q* Z传统的通用处理器都是标量处理器,一条指令执行只得到一个数据结果。但对于图像、信号处理等应用,存在大量的数据并行性计算操作,这个时候,提高数据的并行性从而提高运算的性能就显得尤为重要。因此,SIMD技术应运而生。
" [" z8 p( A# Q0 S( C4 SSIMD的英文全称是Single Instruction Multiple Data,即单指令流多数据技术,SIMD的概念是相对于SISD(Single Instruction Single Data,单指令流单数据)提出的。8 K; i; ?3 L% ^) w: a& I$ W
SIMD技术最初通过将64位寄存器的数据拆分成多个8位、16位、32位的形式来实现byte、half word、word类型数据的并行计算;在后续,为了进一步增加计算的并行度,SIMD技术开始通过增加寄存器位宽来满足应用对算力的需求。对于传统的SIMD技术,Intel的MMX、SSE系列、AVX系列,以及ARM的NEON架构都是其中的代表。: k* w; _2 Z0 J3 w; d; k( k3 q
, J( B) Y# o, K$ w
2、向量计算技术简介
6 @& Z9 e! |: J' L$ B; x8 P6 c" z/ s提高数据并行性的另一种方式就是向量计算技术。与传统的SIMD技术一样,其也是通过扩展寄存器位宽,来增加计算的并行度;但不同的是,向量寄存器是可变长度的寄存器,而不像SIMD那样嵌入在操作码中。矢量技术的代表就是RISC-VV扩展指令集和ARM的SVE架构。
; d9 O- U9 Z2 i2 w1 T7 k9 ^
% x" p( ~9 y5 d7 s' I3、Vector向量计算技术的优势
, r# _* h% f9 v5 S: D* }相比于传统的SIMD技术,矢量计算技术是一种硬件软件更加解耦的技术,其对编程人员更加友好,是一种软硬件协同的技术典范。
+ h- h3 _, Q( `5 }+ r2 Q9 u为何这么说呢?可以简单用下述的例子说明一下:
$ _  K$ K, ]$ ~) h0 |loop_start:
2 G7 u9 q$ F! a" fsubs x2,x2,#962 E9 ~' U) O4 l+ z& {
ldp q3,q4,[x1,#0]
3 O; U4 j7 [& J9 a8 wstp q3,q4,[x0,#0]# w, G# r/ n* a) B2 ^
ldp q3,x4,[x1,#32]
5 m) U1 d: P  T% C* h9 i1 dstp q3,x4,[x0,#32]7 s4 a3 [; \# }  s. V# ]/ n# D7 k+ N5 B
ldp q3,x4,[x1,#64]* W( T8 J( K' j* w, a9 I
stp q3,x4,[x0,#64]9 W8 V: e) h2 E# C
add x1,x1,#96
& ]' B' u' f2 l, gadd x0,x0,#96
6 y4 p9 d. G* [2 ^6 l9 Xbgt loop_start4 Z9 N( J  V0 S8 v# V" N
Loop_start:
. W8 d: \+ k/ C7 Q  Vvsetvli  t0, a2, e8, m41 R  {, |: ^% O: M# M) @
vlb.v  v0, (a1)* S0 g, t2 L8 M$ D& S. W
add    a1, a1, t00 B1 Y  C$ y; s/ W+ ^
sub    a2, a2, t0
8 e* J2 c, G7 k' N; _; X( F4 [vsb.v  v0, (a3)7 \3 G6 _% X+ u* l
add    a3, a3, t0
1 n/ e3 e) [9 Q' M8 ~* Gbnez   a2, Loop_start
0 z% R- h& N- G9 W上述代码是分别基于ARM Neon指令集和RISC-V V指令集的典型应用程序memory copy。对于ARM的代码部分,LDP和STP分别为指定为128位宽的load和store操作,每次循环操作96个字节。而对于RICS-V的代码,上述的循环控制完全通过vsetvli指令以及sub指令实现,软件不需要显示每遍循环计算了多少数据量,仅需要给出总的数据量即可。即使硬件中矢量寄存器的长度从128变为256,上述代码也不需要进行任何修改。. T3 b& ~: E7 g3 J: F0 m& c! d
从两者对比可以看出,由于指令集限定了数据操作位宽,那么每次硬件对并行度的扩展都意味着指令集的扩展以及代码的重写,这将增加更多额外劳动,对开发者也更不友好。* e* L9 p& X% F. H8 Q' _* M
然而随着处理器应用领域的不断扩大,对数据硬件并行性的需求也在不断提高,硬件架构并行度升级似乎成为一种必然趋势。纵观Intel SIMD指令集的发展,从MMX的64位,到SSE系列的128位,AVX、AVX2的256位,以及最新的AVX-512的512位,寄存器的位宽在短短20年里扩大了8倍。这对于软件的适配来说也是不小的工作。' r# P1 R4 ?# d( [

0 N+ @+ y( D) N4 E+ P, P4、Vector向量计算技术的劣势7 Y$ t2 P) K; u, z/ V0 h! `' B
RISC-V相比ARM Neon等SIMD指令架构来说,有着可变长、软件维护方便等优势。那是否就说明RISC-V 的Vector向量架构就没有任何缺点呢?
$ K$ c7 n) F* C0 l! @4 B/ _其实不然,首先,向量架构带来更灵活的使用本身也可能带来一些负面影响。由于操作数本身不指定操作数类型,需要通过vsetvli指令专门设置,则当出现频繁的数据类型切换时,必然会带来更多的指令数。6 i! i% d0 {+ ^) V, ?* [! T5 s
另外,除了操作数据类型,向量长度(VL)也是通过vsetvli指令非显示的设置的,在超标量乱序处理器中,若频繁的更改向量长度,则可能带来潜在的性能损失。除此之外,RISC-V V指令集制定时间较短,相比于ARM Neon等发展多年的SIMD指令集,在指令功能的丰富性上尚有欠缺,因此,在碰到一些特定场景时,需要使用更多的指令去实现相应的功能,进一步降低了整体的性能。1 N+ _! f/ y: o1 F0 ~
0 j: H0 ~" v% j: k9 v8 a- ]4 x7 b
虽然RISC-V矢量技术还有不完善的地方,但瑕不掩瑜,其解决了SIMD技术带来的二进制不兼容问题,使同一份代码可以跑在基于RISC-V架构的任何矢量位宽的处理器上,这意味着软件维护成本的大大降低,对其生态的建设是具有重大意义的。2 u9 t8 t% J* S* A9 V$ b
而且RISC-V是开源架构,包括我们平头哥在内的众多团体和个人都将成为架构制定的参与者,相信在大家的集思广益下,RISC-V向量架构会更加完善,并将Vector向量技术推向下一个发展高潮。

该用户从未签到

2#
发表于 2022-5-25 10:52 | 只看该作者
SIMD单指令流多数据技术,$ p, ^" J$ Q# Q& f
单个命令同时控制多个数据,显卡中大量应用。
: J' J3 q9 ?. N8 X* n+ I

该用户从未签到

3#
 楼主| 发表于 2022-5-25 17:16 | 只看该作者
很厉害的样子。୧(๑•̀◡•́๑)૭
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-9-20 09:08 , Processed in 0.140625 second(s), 26 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表