Spark 是一个通用的大数据分析引擎,具有高性能、易用性和普遍性等特点。
Spark 架构如下图所示,基于 Spark Core 构建了 Spark SQL、Spark Streaming、MLlib 和 Graphx 四个主要编程库,分别用于离线 ETL(Extract-Transform-Load)、在线数据分析、流计算、机器学习和图计算等场景。
spark-history-server 组件依赖 hdfs,History Server 定期扫描该目录以发现新的或更新的日志文件,并进行解析。
安装应用时可使用默认配置。
安装完成,应用实例详情页可查看应用访问地址,进行更新、卸载等运维管理操作。