|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要:网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和4 X2 M2 Y( [! |
知识过载问题。该文提出一种基于 MapReduce 的知识聚类与统计机制:首先,提出基于 MapReduce 的共现矩阵
5 }& |9 f! C1 Z* j! A6 U! {0 T% G7 a( b构建算法 MR-CoMatrix;其次,将共现矩阵与相似度系数结合构建相似度矩阵;然后,通过 Z Scores 对相似度矩) O' `- ^3 n9 j$ m4 G6 j
阵进行标准化;最后,使用离差平方和法(Ward,s method)对相似度矩阵进行聚类,生成树状的知识聚类谱系图;
L1 X: `8 S: S2 t, q( i1 N# |基于聚类结果,提出基于 MapReduce 的知识文献统计算法 MR-Statistics,对每个分类的知识属性进行统计。实验
# m% S; [# ?+ g- b/ K' t8 A" F结果表明:将 MR-CoMatrix 和 MR-Statistics 方法应用于网络文献知识库进行知识聚类和统计,达到较理想的聚0 E1 C/ l1 L# a! A
类精度和计算效率,实现了细粒度知识聚类和多维统计,同时减少了时间开销。* p3 W7 j+ e0 Y* B' E
关键词:数据挖掘;聚类;知识;共现矩阵;统计;MapReduce2 F2 G4 v' }: o* U& C! `$ R% R
1 引言- ]; e( d/ l% }4 H( H
目前国内外的网络文献知识库系统均聚集了海 G, b0 U! e8 v% A% V* M; v! K
量的知识文献,为科技工作者提供了快速查阅国内
$ s& M) R- ?5 h6 L* z外科技文献,进行高层次知识学习的平台。然而网0 u3 n; ~ h0 N5 ~- E9 B
络文献知识库中海量资源分类的粗粒度,导致学习
J. t3 u* G2 u8 \ T者容易在文献检索和阅读过程出现认知迷航, j0 e8 O! P( y
7 j2 Q) v" w% w% B# x4 u5 d
/ s4 q0 G1 ?8 V5 ^
w" Y* p( K+ D附件下载:
' X5 H6 b6 A9 R) ?" @! o0 s
0 h0 e2 f9 S6 `) x |
|