|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
高端设计工具为少有甚是没有硬件设计技术的工程师和科学家提供现场可编程门阵列(FPGA)。无论你使用图形化设计程序,ANSI C语言还是VHDL语言,如此复杂的合成工艺会不禁让人去想FPGA真实的运作情况。在这个芯片中的程序在这些可设置硅片间到底是如何工作的。本文会使非数字化设计人员明白FPGA(现场可编程门阵列)的基础知识及其工作原理。此信息在使用高端设计工具时同样十分有用,希望可以为理解这一特别技术提供一些线索。
( }# K# c2 n% k' m5 S# T( M! b: ?/ B5 \# w4 O' W" t
1. FPGA-现场可编程门阵列4 x# T8 P2 v8 c( l: J
. {6 }4 n4 A `* K/ J" y每一块FPGA芯片都是由有限多个带有可编程连接的预定义源组成来实现一种可重构数字电路。. V( S, g2 [ x ` c
' o6 ?" z" A" {) u0 G7 Z2 }8 r+ l( \/ Z0 B* c- f; i
图1.FPGA不同构成- r2 A6 c2 a5 U2 r. `5 z
5 b- o& Y* b* q
FPGA芯片说明书中,包含了可编程逻辑模块的数量、固定功能逻辑模块(如乘法器)的数目及存储器资源(如嵌入式RAM)的大小。FPGA芯片中还有很多其它的部分,但是以上指标通常是为特定应用选择和比较FPGA时,最重要的参考指标。* K3 M6 D& C: I o" T2 H' a: W
3 D2 a s' ^9 ?* T在最底层,可配置逻辑模块(如片或逻辑单元)有着两种最基本的部件:触发器和查找表(LUT)。这很重要,因为各种FPGA家族之所以各不相同,就是因为触发器和查找表组合的方式不同。例如,Virtex-II 系列的FPGA ,它的片具有两个查找表和两个触发器,而Virtex-5 FPGA的片具有4个查找表和4个触发器。查找表本身的结构也可能各不相同(4输入或6输入)。关于查找表工作原理的更多信息将在后面的章节中给出。
3 y4 u0 [ V6 j; {/ H1 M, U7 z
$ r( g g$ Y- N1 Q7 @/ G6 Z表1中列出了在NI LabVIEW FPGA硬件目标中使用的FPGA的指标。逻辑门的数量是一种将FPGA芯片与ASIC技术进行比较的传统方法,但是它并不能真实地表述FPGA内部的独立单元的数量。这就是Xilinx公司没有在新型Virtex-5系列中指定逻辑门数量的原因之一。8 Q, Q; ^( U% T
% ~7 ^2 c/ y% w, q g- d/ c
5 ^1 L( L0 G5 Y/ m" ]1 o i$ N表1.不同系列FPGA源规格
0 x8 m' \+ `7 j7 x! B `# o1 F; b; w9 ~1 u/ Y( Y. A2 ^2 h% X
为了更好地理解这些规格的意义,将编码考虑为合成的数字电路模式。对任何一段合成代码,或图形化或文本形式,都有相应的电路图反映逻辑组件该如何连线。通过一段简单布尔逻辑电路了解下相应的示意图。图2表示的是传递5个布尔信号并且可图形化计算所得的二进制值的功能组。$ s; m& _) K) H5 j" U1 d3 F3 B4 C
3 y' g& Z( f9 D
5 `* I$ U; j V( C图2.载入5个信号的简单布尔逻辑
/ Y: `/ F2 W/ q K/ P% d
2 ~' a: Y5 x6 g% o3 X在通常情况下(LabVIEW SCTL—单周期定时环路外),图2所示相应电路图同图3所示相近。+ m$ Y5 c' ]# Q" w" |9 E
1 w: }+ E9 ?( W1 m4 R' r0 B8 t0 C图3.为图2中布尔逻辑的相应电路图* u, ]9 o* A" o9 T! D
2 [& W1 } [* j# W N# z" | R) h
虽然很难明白,但是实际上这里创建了两个并行分支的电路。最上面的5条黑线被反馈到第一个分支,它在每个布尔操作间添加了触发器。最下面的5条黑线构成了第二个逻辑链。其中一支路在每步操作之间增加了同步寄存器,另一条逻辑链是确保执行数据流的。本电路图正常工作时总共需要12个触发器和12个查找表。上端分支和每个元件将在以后章节分析。
- n) Q/ \% y% I1 i, x, O9 S! B! o3 {+ T; M% L- h
2. 触发器
( `# i! L4 D* m y# j, z
, V# y; G8 p+ H: Y2 g8 K- O5 y4 T3 H! j5 h! f- M
图4.触发器符号
0 B. V( F1 F. L6 }* G B, k1 P! ]! \+ t, s$ C
触发器是二进制移位寄存器,用于同步逻辑以及保存时钟(脉冲)周期内的逻辑状态。在每个时间(脉冲)边沿,触发器在输入时锁定1(真)或0(假)值并且保存此值直到下次时钟(脉冲)边沿。在正常情况下,LabVIEW FPGA在每次操作之间都设置一个触发器,以保证有足够的时间来执行每步操作。对此律的例外只发生在SCTL结构中写代码的情况。在这个特殊的环路结构中,触发器只放置在闭环迭代的始末段,并且由编程者考虑定时因素来决定如何放置。对SCTL内代码如何同步的更多内容将在以后章节中讨论。图5表示的是图3的上端分支,触发器由红色高亮表示。3 {2 R/ s N, U6 H) y4 `" B
# _. |+ n& f/ r- ^
: C( U! J+ L, B7 z( {: l图5.绘制由红色高亮表示出触发器的电路图# `6 P" u" Q: V4 p5 y* @- l6 _
2 ^" v' x9 |+ @3. 查找表
4 r9 [$ ^* O' [+ b' e Q% Y- Q# g/ \/ j J
( i' l) e% j7 r' d ^8 u
图6.双四输入查找表
9 U- H9 w0 f/ X3 w ~; @2 v
6 |0 b. P6 `9 I) w( u- B图6所示示意图中的其他逻辑电路通过使用少量查找表形式的随机存取存储器实现。我们可以简单地假定FPGA中系统门的数量可参考与非门(NAND)以及或非门(NOR)的数量,但实际上,所有的组合逻辑(与门、或门、与非门、异或门等)都是通过查找表存储器中的真值表来实现。真值表是输出对应于每个输入值组合的预定义表(现在卡诺图的重要性在你的头脑中可能会慢慢淡化)。以下是对数字逻辑电路课程的快速回顾:比如,图7是布尔逻辑与门操作过程。
8 ~3 c; r' W" J% W
4 a5 O0 K7 i* h3 Z0 c这是对数字逻辑课程的快速回顾:! b1 `* P0 y. k
) E. {) ?$ O% p$ e$ f
例如,图7中显示了布尔型AND操作。
2 i0 Q* N$ N7 V* e: \! @
; B$ u) _+ D: j6 V* C& S& [2 a
8 o9 t" W' l. | _ ~$ I0 u图7.布尔型AND操作
5 T4 l9 k3 ^, a" M6 H2 m2 Y" r) _1 ]: k4 l/ ]% w( t# A
; d9 l3 H* a) R' S表2.布尔与门操作的真值表
! @, u9 V) `! p: a3 D: o7 F6 J6 f- w4 b. r$ M
你可以认为输入值是所有输出值的数字索引,如表3所示。% ]0 {3 M6 [9 g* W
; ], c$ P; T2 l5 E( l, i
' g5 |# c9 a- I0 Q k- ~1 ^+ d# y
表3.布尔与门擦操作的真值查找表实现
: |( I' q# b) C# G! i3 u; `& r0 p0 ]
Virtex-II和Spartan-3系列FPGA芯片有着4输入查找表来实现真正的4输入信号的16种组合。图8就是一个四输入电路实现的例子。+ F! _* r, X" {! |
" }; E6 Y5 H* f1 ~
$ I$ D" V- Y% o3 Q7 `% T图8.输入布尔逻辑的四信号电路
) p& |8 q8 J3 \! Q: i; t9 N2 P' i6 I0 w- T* D ] j
表4所示为使用双四输入查找表实现的相应的真值表。
; k, z. \1 k, A& f# Y! P) r" Q
& h7 D# `1 w8 h9 \+ l& a3 N& w5 U7 M" g6 d
表4.图8中所示相应真值表
4 H/ {2 v# Z# |5 G3 [" b& x& N. n% F6 i! g" d
Virtex-5系列的FPGA使用双六输入查找表,可以通过6个不同输入信号的64种组合来实现真值表。因为触发器之间的组合逻辑十分复杂,所以在LabVIEW FPGA中使用SCTL也越来越重要。下一节将讲述SCTL如何优化利用LabVIEW中的FPGA源。
& z/ b% E& b! J' N
2 B) ?* C6 u' t2 i, E; C" [4. SCTL8 `7 @% c! Z; ]1 z- _
5 M! J& V, o9 {" ?$ C! {上几节中使用的代码例子假定代码是设置在SCTL外部,并为保证执行同步数据量也同步了附加电路。SCTL是LabVIEW FPGA中一个特殊结构,生成一个更为优化的电路图,以期望达到在一个时钟(脉冲)周期内执行完所有逻辑电路分支。例如,若设置SCTL在40MHZ运行,则所有逻辑电路分支将在25ns内执行完毕。
5 Z" V* n0 C! w3 ]) n8 N
8 {1 L0 v0 l' C) r如果在SCTL中设置前例中同样的布尔逻辑电路(如图9所示),则生成如图10所示的相应电路示意图。1 N5 z1 N$ Q+ q
4 B4 j @: X: A$ E" j
# i V! c/ L' _, ~/ y4 a' i T* G
图9.附有STCL的简单布尔逻辑8 I: K0 l+ o. Z7 }& s
: W% C1 k/ V* m7 [. U4 o4 s
8 Q4 P+ w% l) M6 c1 a
图10.图9所示布尔逻辑相应的电路图6 e! A: A1 {. t% Z
% r. r# p4 Y |* p8 L很明显,这种实现方法简单多了。在Virtex-II或Spartan-3系列FPGA中,触发器间的逻辑需要至少2个4输入查找表,如图11所示。; R, j5 R& a: B4 y4 M8 S
0 p/ e7 \8 k2 k# u! Z u5 u
, z# c% Z& M6 K. z% ~5 S) W1 I" p8 N" h9 O
图11.图10中电路图的双四输入查找表实现( U2 b5 y* W g5 x7 E
2 c. Q0 C& U- b6 G, n由于Virtex-5系列FPGA有着6输入的查找表,用户可以在一个查找表中实现相同数量的逻辑,如图12所示。
0 R d# M$ N+ ]' M+ Y# Y- l2 p7 p0 S% K/ S1 a \ }5 n4 e- b
- r/ }( ~# {8 n/ Q8 L! o
图12.图10中双六输入查找表实
: X7 P* G+ \2 f& p# c% s/ W. i0 b4 c2 G1 V1 S
本例中使用的SCTL(如图9所示)设置在40MHZ下运行,这意味着在任意触发器之间逻辑电路必须在25ns内完成执行。电子在电路中传播的速度决定了代码执行的最大速度。关键路线是有最长传播延迟的逻辑电路分支,它决定了该部分电路中理论最大时钟速率。Virtex-5 FPGA上的双六输入查找表不仅减少实现给定逻辑电路所需要的查找表总数,而且减少电子通过逻辑电路的传播延迟(时间)。Virtex-5系列FPGA中的6输入查找表不仅可以减少实现特定逻辑而需要的查找表的数量,而且可以降低逻辑中电流的传输延时。这意味着,您可简单地通过选择一个基于Virtex-5的硬件指标设置相同的SCTL,追求更快的时间速度。5 E+ J6 j- Y7 Q1 S, R2 y% ]
6 _4 O* Z' P, }) p3 a5. 乘数器和DSP片6 ]' h" c! y& W4 ^" n2 T
) O- C: k! f. n& N1 i* h& l U! U8 e- l9 N5 x: D' S4 j' ]
图13.乘数器功能
4 M" s; o/ y: r
% {7 x! O' y# X% K5 Y看起来简单的两数相乘运算在数字电路中实现起来是十分复杂的,也是极为消耗资源的。为提供相关参考,图14所示是一种使用组合逻辑电路实现4×4字节乘数器的示意图。$ F0 R* H) r( m# A( ?
, A# q6 l" p: A. g) c+ M) l( C$ s/ D
! I" u: l( ^4 z! K6 \
图14.两个4字节输入相乘的电路图6 ]$ K/ h2 U. L& x+ Y. X
/ V! N% _; B2 h# r' C& T试想两个32字节的数字相乘要通过2000多步操作才能得到结果。因此,FPGA预设了乘数器电路,在数学和信号处理应用中保存对查找表和触发器使用。Virtex-II和Spartan-3 FPGA拥有18×18bit乘法器,所以两个32字节数字相乘的运算需要三个乘法器来实现。许多信号处理算法都包括连乘运算结果的功能,因此Virtex-5等高性能FPGA都预设被称为DSP片的乘数器累加电路.这些预设处理组件,也被称为DSP48片,包括25×18bit乘数器以及加法器电路,尽管您可单独使用乘数器功能。表5所示为不同FPGA系列DSP决策。7 a5 P3 ]( }& e2 o
: T" s" U$ \9 t9 u8 T) J9 ~$ [
% _# ~, J1 M! d2 f表5.不同FPGA的DSP源3 q. M/ Q m" C v
1 j3 m4 t3 q4 h F) J: F# p6. 块随机存取存储器(RAM)
" Z0 A! b7 \9 e( g9 n' v
2 F, J+ \; h3 u选择FPGA时,记忆源是另一个需要考虑的关键因素。嵌入FPGA芯片中的用户自定义随机存取存储器(RAM),对储存数据设置或平行环路之间传送数值很有帮助。基于FPGA系列,您可在16或36kb组件中设置板载RAM,或者使用触发器以数组来执行数据设置;然而,对于FPGA逻辑源来说,大型数组很快就变得十分“奢侈”。由100个32字节元素数组可消耗Virtex-II 1000 FPGA中超过30%的触发器,或者占用少于1%的嵌入式块RAM。DSP算法通常需要追踪整个数据块或是复杂等式的系数,而在没有板载存储器情况下,许多处理功能在FPGA芯片的硬件逻辑电路中都不适用。图16所示为使用块RAM读写存储器的图形化功能。$ B6 }, v6 c y! m6 ?
3 q2 f/ r: p' _7 N
1 s/ }2 n* a" v" F图15.用于读写存储器的块RAM函数
+ b8 s- O! T! m& c+ {+ T3 M5 B9 P3 B0 p
同样,你也可以使用内存块,将一段完整周期存储为数值和索引的顺序表,为板载信号发生器存储周期性波形数据。输出信号的最终频率由检索数值的速度决定,这样您就可用此方法动态改变输出频率,而不需要输入波形中的急剧变化。9 u+ c( g$ o& ~' e' ]' @
* W) L" V: @+ K) m. j$ c% O- [* R7 {) `, T! ^% G: H8 x/ n
图17.用于先进先出缓冲器的块RAM功能4 G5 L9 w3 ]4 D& u7 p6 f
* |2 f! ?. K% R' m3 S5 D" RFPGA固有的并行执行要求逻辑电路独立元件可在不用时间脉冲下驱动。在不同运行速度下的逻辑电路之间传递数据是很棘手的。使用先进先出(FIFO)缓冲器时,板载存储器可用来是传输更加平稳。如图16所示,用户可以将FIFO缓冲器配置成不同大小以确保数据在FPGA芯片的非同步部件间不会丢失。表6所示为嵌入不同FPGA系列的用户可设置快RAM。
4 M( x4 j! ~( E8 |5 R( G+ Q/ i! _
- R9 G* G4 @" j- t' ]( A3 z. H R% K) Q$ C! a" V' o
表6.不同FPGA的记忆源
' p! o- f5 b# n' t# P4 X
, V1 q# l$ y0 f3 z7. 总结; P4 ?' V9 ~+ @, \ W9 v/ t! U
/ l' Y4 J1 I6 u随着高端技术的发展以及新概念的深入概括,FPGA技术地采用将不断增加。然而探究FPGA其中奥秘,感叹这硅片中在方框图间汇编出的变化,也是十分重要的。在发展阶段,如果您懂得如何利用和优化资源,比较和选择触发器、查找表、乘数器和块RAM等硬件指标是十分有帮助的。 这些基本的功能块并不是包含所有资源的完整清单,而且这篇白皮书并没有包含对所有FPGA部件的讨论。* C; A( D! f% q5 q' G$ C5 B
|
|