|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要:网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和5 R( `6 F0 ]6 @/ i
知识过载问题。该文提出一种基于 MapReduce 的知识聚类与统计机制:首先,提出基于 MapReduce 的共现矩阵
' Y* L3 h- p+ u9 k9 s4 ~/ V构建算法 MR-CoMatrix;其次,将共现矩阵与相似度系数结合构建相似度矩阵;然后,通过 Z Scores 对相似度矩
! s1 ]6 k- W; a' ~/ |7 O0 U# ? e! j7 W阵进行标准化;最后,使用离差平方和法(Ward,s method)对相似度矩阵进行聚类,生成树状的知识聚类谱系图;
0 E6 s5 c6 R1 e+ Z D基于聚类结果,提出基于 MapReduce 的知识文献统计算法 MR-Statistics,对每个分类的知识属性进行统计。实验
# ~* C1 W2 Q& {2 n( Y结果表明:将 MR-CoMatrix 和 MR-Statistics 方法应用于网络文献知识库进行知识聚类和统计,达到较理想的聚
0 w/ J: y$ V4 L5 c7 z: L类精度和计算效率,实现了细粒度知识聚类和多维统计,同时减少了时间开销。
4 q }1 u$ w- A1 V5 T关键词:数据挖掘;聚类;知识;共现矩阵;统计;MapReduce
9 q: E3 z! e. B3 n7 F8 G& z1 u1 引言9 F u6 @/ @- Y, {
目前国内外的网络文献知识库系统均聚集了海
6 h. n6 V9 z* L3 G* f, y量的知识文献,为科技工作者提供了快速查阅国内5 R# y1 P4 ~1 z3 k x* Q9 _
外科技文献,进行高层次知识学习的平台。然而网 G, Z9 F. }- N& z
络文献知识库中海量资源分类的粗粒度,导致学习
$ w( r* x7 c9 h者容易在文献检索和阅读过程出现认知迷航 {/ _. s& ` e! Z" h% h7 l
: e9 w0 Q* ?+ Y5 n$ ^. ?/ e
( |% u% G: G+ u* O/ Q6 T F, a. J Q
附件下载:
% Y" Z! Q9 B* P' r4 R" g. d( w5 A: Y# ^- j1 d, x8 V
|
|