找回密码
 注册
关于网站域名变更的通知
查看: 362|回复: 1
打印 上一主题 下一主题

[毕业设计] 支持可扩展的并行分布式流处理系统

[复制链接]
  • TA的每日心情
    开心
    2020-9-8 15:12
  • 签到天数: 2 天

    [LV.1]初来乍到

    跳转到指定楼层
    1#
    发表于 2021-1-12 10:43 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

    EDA365欢迎您登录!

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    摘 要: 数据流处理系统,无论是集中式还是分布式,都需要克服单点瓶颈问题.不仅如此,如果数据流处理系 统是静态配置的,那么还会出现处理节点供给不足或者过剩的情况,为此本文提出了一种支持可扩展的并行分布式数 据流处理系统—流水行云,该系统根据有状态算子将查询拓扑划分为并行处理的子查询,并且通过有状态算子的分发 器和收集器实现了数据流的保序,同时最大化减少并行处理的通信开销,不仅如此,结合负载均衡和重配置的可扩展 技术使得该系统能够根据输入负载动态调整处理节点的负载和个数.60个节点组成的集群的实验证明了该系统的可 扩展能力. " W  F9 i! T4 N
    , n4 W7 n2 [1 ]. \8 N
    关键词: 流处理系统;可扩展;有状态算子;负载均衡;重配置
    ) Q/ F8 ^0 H& f+ c1 M+ d2 ]3 B& b/ j! _! j
    # @6 m/ e! o: C6 E

    ! d+ V+ x& ]! o% E  ~1 h大数据时代已经到来,其中典型的 3个特点就是: 规模性,多样性和高速性[1],同时,大数据的处理模式也 正从批处理向流处理发生转变[2].值得注意的是,分布 式的流处理系统和集中式的流处理系统都会碰到单点 瓶颈问题,针对这个问题,不少工作已经提出了相应的 解决方案[3,4],总体来看,它们可以被分为两类,一类是 以减少时间复杂度为宗旨的解决方案,另一类是以减少 空间复杂度为宗旨的解决方案.前者的典型代表是卸载 技术[5],当节点的处理能力无法满足当前的处理负载 时,卸载技术会通过丢弃部分待处理的数据来降低这个 节点的处理负载,至于哪部分数据被丢弃则取决于该数 据对查询结果的影响度.后者的典型代表包括概要技 术,直方图技术和小波变换技术[6],这些技术通过多个 元组的聚合查询的近似结果来减少存储开销。2 c( u" h' W* r+ |' P
    ! Q+ ?! n: w( w" P$ Z3 j; ?

    . o8 ^: ^+ c- B& F* L+ Y附件下载:
    游客,如果您要查看本帖隐藏内容请回复

    / k6 W5 k  q2 Z9 k- a6 h( S
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    推荐内容上一条 /1 下一条

    EDA365公众号

    关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

    GMT+8, 2025-7-26 21:01 , Processed in 0.109375 second(s), 26 queries , Gzip On.

    深圳市墨知创新科技有限公司

    地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

    快速回复 返回顶部 返回列表