|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
打开Matlab输入doc dendrogram,可以发现如下描述:
, c- A" k- @9 ]8 a0 K& |) h4 \' f7 r1 ^4 x7 ]1 a$ ^( I
6 b4 y+ T6 r2 c: ?, G
3 y9 X- ?. [/ u$ e$ U3 O% a& h( G- dendrogram(tree) generates a dendrogram plot of the hierarchical binary cluster tree. A dendrogram consists of many U-shaped lines that connect data points in a hierarchical tree. The height of each U represents the distance between the two data points being connected.
- If there are 30 or fewer data points in the original data set, then each leaf in the dendrogram corresponds to one data point.
- If there are more than 30 data points, then dendrogram collapses lower branches so that there are 30 leaf nodes. As a result, some leaves in the plot correspond to more than one data point.
! t$ j: z3 S& s3 G) c ; D% |/ L: t) _, q) [$ }
3 j+ J) x2 r' Z: j
根据参考文献的思路,可能下面的说法更加好理解一些。; N* x% `. [9 m9 e
; g l, k$ g8 k, {% B
在教材P301页
: Q: `# f; O2 z% p, r1)H=dendrogram(Z)/ y( r" p2 u" R$ u, a
有这么一句话,“当原始数据中观测数多于30个时,整个树形图会显得比较拥挤,可能会忽略某些底层节点,也就是说此时树形图中的某个叶节点可能对应多个观测。”
2 Y$ Z! i& q" b5 J( U( \: } 请问,可能会忽略某些底层节点是什么意思啊?某个叶节点可能对应多个观测又是什么意思呢?! V r1 S O$ F- F5 X
还有这里的底层节点和叶节点分别是什么意思啊?
; `* ?; C) i/ L5 T* G) M. h2)H=dendrogram(Z,P)) T M; \: {: f7 i
若P为正整数,并且原始数据中的观测数多于P个时,将忽略某些底层节点,使得树形图的叶节点不多于P个。若P为0,则显示全部节点,此时树形图可能会显得比较拥挤。
3 i: T; P ~4 W( W3 D, n& Z9 @% |, j* Q; b8 k7 F! \
聚类树形图上显示(注意是显示出来的)的最底层称为叶节点,当观测数目不太多时,聚类树形图能显示所有观测,此时叶节点就是各个观测;当观测过多时,聚类树形图无法显示所有观测点,也就是说某些细节会被掩盖,换句话说就是某些细小的树枝(由某些观测构成的一个小树枝)会显示为一个叶节点,此时某个叶节点可能对应多个观测。9 N( f1 x8 k: U
/ r, g" f M( U8 K; {* {. V
& ]1 a E/ q t. B$ h( Z
0 M7 \- l5 `$ o$ L |
|