找回密码
 注册
关于网站域名变更的通知
查看: 661|回复: 3
打印 上一主题 下一主题

大数据平台的搭建都还很模糊想找人讲讲???

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2021-9-1 09:56 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
大数据平台的搭建都还很模糊想找人讲讲,很多细节自己好像注意不到
8 S- g$ c: _/ `6 c8 y' t  }

该用户从未签到

2#
发表于 2021-9-1 11:06 | 只看该作者
期待有人给你讲,我顺便沾个光

该用户从未签到

3#
发表于 2021-9-1 11:07 | 只看该作者
大数据平台的搭建步骤:
9 ^. H6 A+ a. o. S7 C
/ s5 ~: m& e& f+ ?1、linux系统安装
/ @- q: q0 L5 _一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。
/ j- y" I- u, ~2、分布式计算平台/组件安装8 S" D: \! V. @: d5 R2 f2 N; ~
国内外的分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等
( ^% n0 Y% M9 z3 o+ N* ^使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方)。2)开源组件一般免费,学习和维护相对方便。3)开源组件一般会持续更新,提供必要的更新服务『当然还需要手动做更新操作』。4)因为代码开源,若出bug可自由对源码作修改维护。
$ ?4 t" t8 ?6 R) G* ?3、数据导入, X6 q5 E0 \# v4 O* y# U
数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台『一般主要导入到Hive,也可将数据导入到Hbase』。6 k5 x2 c% o5 P, U: Z. o
4、数据分析
! }; g. W  ]8 V# V( }0 N6 ^" c0 x数据分析一般包括两个阶段:数据预处理和数据建模分析。
4 r- R# o; i& n7 `数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL,Spark QL和Impala。' K7 M1 m7 U" @6 Q6 K& I4 T
数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。这一块最好用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在ML lib里面,调用比较方便。, L. U8 m4 L) y7 s/ i" }! t$ P
5、结果可视化及输出API+ O& Q- O9 i1 |: g, K. z8 _
可视化一般式对结果或部分原始数据做展示。一般有两种情况,行数据展示,和列查找展示。要基于大数据平台做展示,会需要用到ElasticSearch和Hbase。Hbase提供快速『ms级别』的行查找。 ElasticSearch可以实现列索引,提供快速列查找。

该用户从未签到

4#
发表于 2021-9-1 11:09 | 只看该作者
大数据是个很笼统的概念,是对数据进行分析将其可视化
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-8-11 22:03 , Processed in 0.140625 second(s), 23 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表