并行计算框架 Spark的自适应缓存管理策略

mytomorrow · 发表于 2021-1-26 11:00

EDA365欢迎您登录！

您需要登录才可以下载或查看，没有帐号？注册

x

并行计算框架 Spark的自适应缓存管理策略

摘要:并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用IRU ,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略( Self-Adaptive CacheManagement,SACM),包括缓存自动选择算法( Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG( Directed Aeyclic Graph )结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明:我们的策略提高了Spark 的任务执行效率,并使内存资源得到有效利用.
关键词:并行计算;缓存管理策略;Spark ;弹性分布式数据集

1引言
利用内存的低延迟特性改进系统性能成为并行计算新的研究方向.Spark 12]是继 Hadoop之后出现的通用高性能并行计算框架,采用弹性分布式数据集( Resil-ient Distributed Datasets , RDD )[ 3]作为数据结构. Spark缓存管理策略中,程序员掌握缓存对象的选择权,增加了缓存策略的不确定性.缓存替换算法采用LRU ,未考虑RDD计算代价及容量等影响应用程序执行效率的重典型的缓存替换算法包括:FIFO、LRU、LFU、LRFU、MIN等.这些算法在并行计算框架得到广泛应用,但性能表现并不理想.另外的一些研究成果则在缓存替换算法中加入了不同的参数,文献[4]在FIFO和LRU算法的基础上进行改进,引入附加参数进行置换目标的计算,但其参数选择不适用于Spark.文献[5]提出的AWRP( Adaptive Weight Ranking Policy)算法为每

游客，如果您要查看本帖隐藏内容请回复

NNNei256 · 发表于 2021-1-26 13:10

并行计算框架 Spark的自适应缓存管理策略

帐号		自动登录	找回密码
密码			注册

[毕业设计] 并行计算框架 Spark的自适应缓存管理策略

EDA365欢迎您登录！

推荐内容 /1