|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要:网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和( F9 Z/ {4 S% j( a
知识过载问题。该文提出一种基于 MapReduce 的知识聚类与统计机制:首先,提出基于 MapReduce 的共现矩阵
) p5 @( H W4 k; B7 |$ [2 u8 M构建算法 MR-CoMatrix;其次,将共现矩阵与相似度系数结合构建相似度矩阵;然后,通过 Z Scores 对相似度矩4 M; z8 j+ I. P. ?0 i% I
阵进行标准化;最后,使用离差平方和法(Ward,s method)对相似度矩阵进行聚类,生成树状的知识聚类谱系图;! S( d, c, X8 E
基于聚类结果,提出基于 MapReduce 的知识文献统计算法 MR-Statistics,对每个分类的知识属性进行统计。实验* C$ }. Y0 n+ |9 }. L$ p$ n0 x
结果表明:将 MR-CoMatrix 和 MR-Statistics 方法应用于网络文献知识库进行知识聚类和统计,达到较理想的聚 f3 Y. T; _. I; O
类精度和计算效率,实现了细粒度知识聚类和多维统计,同时减少了时间开销。
+ a5 d5 P- U3 Y$ t7 t! M& W% j/ y关键词:数据挖掘;聚类;知识;共现矩阵;统计;MapReduce# Z# `9 @, k; B$ P" l; M9 I
1 引言
7 f& J/ J" \- E2 B, R5 Q5 m3 P目前国内外的网络文献知识库系统均聚集了海
2 d$ j8 q; O8 v4 q/ ?8 Y O量的知识文献,为科技工作者提供了快速查阅国内
" a0 l! S: N" v5 ~7 `( i8 D外科技文献,进行高层次知识学习的平台。然而网
: K# F8 s# H3 D2 H! g* ~络文献知识库中海量资源分类的粗粒度,导致学习6 { m* o- a) \) `) m9 j: o6 d
者容易在文献检索和阅读过程出现认知迷航
; P; u0 J1 | U0 n( v
; Y+ U1 r+ I: ]# \7 B1 d* e( `! _: h- u; L, X6 o% r
1 y9 p1 m/ a& z. |: ^附件下载: 5 S1 ?# T/ R5 z+ M" x9 H8 t1 x
) _/ h7 ~9 d+ |4 ~$ i) n$ M
|
|