|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘要:随着大数据时代的到来,大量的RDF 数据充斥着整个数据网络.RDF(Resource Description Framework)后台引擎管理巨大的数据集时,数据集索引不能全部加载到内存中,导致系统需要执行缓慢的磁盘访问来解决SPAR-QL查询.本文提出了一种HDVM(Header Dictionary Veclor MaIIx)压将E冉Yv糊掘重复出现的次数.允许 SPARQOL.元组关系矩阵,以主语向量、谓语向量和宾语矩阵的模型序列化存储来减少关联数据重复出现的次数,允许SPARQL.查询在压缩状态下全内存执行.实验结果表明,本文提出的模型比常用的HDT( Header-Dictionary 'Triples)压缩方式提高了3% ~20%的压缩率,同时在三元组个数达到十亿级别的数据集上平均查询时间在400ms左右.
; \# w4 e; k b4 U9 G8 x: `$ Y
% i" z! y8 x9 ]* [, J4 C0 y关键词:关系矩阵;关联数据;查询;压缩
2 d" u& D$ T. Q
$ s0 n! d- M9 U% t- d# n6 t$ l W3C最先提出将 RDF(Resource Description Frame-work) 作为处理元数据的基础,其目的在于定义一种广泛认可的资源描述机制.RDF的提出很显然是受到Web信息交换过程中以文档数据为中心观点的影响.随着RDF不断演变和进化,人们致力使RDF实现信息处理自动化,就像万维网的超链接允许数据能在自身被创建的环境外被访问和处理一样.因此,RDF成为信息自动化处理以及关联数据研究重点.2 L( e) v( [# _# O! |
. U* e& Z& D" k+ H
. U7 d0 z+ @ F: I( W
$ ~: L7 R' Y# z+ U
. l& k! Y7 R1 P1 |' ?3 Q: l9 l( H9 q8 l4 \ u& A
9 H" u+ H- L B7 n9 G6 J
; g$ h* w2 l7 u
) n- z3 d' i: q4 ]) U5 T |
|