spark大数据分析源码解析Spark 大数据处理最佳实践

内容框架:

大数据概览如何摆脱技术小白Spark SQL 学习框架EMR Studio 上的大数据最佳实践

一、大数据概览

大数据处理 ETL (Data → Data)大数据分析 BI (Data → Dashboard)机器学习 AI (Data → Model)

图片[1]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

二、如何摆脱技术小白

什么是技术小白?

只懂表面,不懂本质

比如:只懂得参考别人的 Spark 代码,不懂得 Spark 的内在机制,不懂得如何调优 Spark Job

摆脱技术小白的药方

懂得运行机制学会配置学会看 Log

懂得运行机制:Spark SQL Architecture

图片[2]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

学会配置:如何配置 Spark App

配置 Driver

• spark.driver.memory

• spark.driver.cores

配置 Executor

• spark.executor.memory

• spark.executor.cores

配置 Runtime

• spark.files

• spark.jars

配置 DAE………….

学会看 Log:Spark Log

图片[3]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

三、Spark SQL 学习框架

Spark SQL 学习框架( 结合图形/几何)

1. Select Rows

图片[4]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客
图片[5]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

2. Select Columns

图片[6]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客
图片[7]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

3. Transform Column

图片[8]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客
图片[9]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

4. Group By / Aggregation

图片[10]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客
图片[11]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

5. Join

图片[12]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客
图片[13]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

Spark SQL 执行计划

1. Spark SQL – Where

图片[14]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

2. Spark SQL – Group By

图片[15]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

3. Spark SQL – Order by

图片[16]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

四、EMR Studio 实践

EMR Studio 特性:

兼容开源组件支持连接多个集群适配多个计算引擎交互式开发 + 作业调度无缝衔接适用多种大数据应用场景计算存储分离

1. 兼容开源组件

EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

图片[17]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

2. 支持连接多个集群

一个 EMR Studio 可以连接多个 EMR 计算集群,您可以很方便地切换计算集群,提交作业到不同的计算集群上运行。

图片[18]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

3. 适配多个计算引擎

自动适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多个计算引擎,无需复杂配置,多个计算引擎间协同工作

图片[19]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

4. 交互式开发 + 作业调度无缝衔接

Notebook + Airflow : 无缝衔接开发环节和生产调度环节

利用交互式开发模式可以快速验证作业的正确性.在 Airflow 里调度 Notebook 作业,最大程度得保证开发环境和生产环境的一致性,防止由于开发阶段和生产阶段环境不一致而导致的问题。

图片[20]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

5. 适用多种大数据应用场景

大数据处理 ETL交互式数据分析机器学习实时计算

6. 计算存储分离

所有数据都保存在 OSS 上,包括:

• 用户 Notebook 代码

• 调度作业 Log

即使集群销毁,也可以重建集群轻松恢复数据

图片[21]-spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

讲师:简锋,阿里云 EMR 数据开发平台 负责人

原文链接

本文为阿里云原创内容,未经允许不得转载。

    THE END
    喜欢就支持一下吧
    点赞13 分享
    评论 抢沙发
    头像
    欢迎您留下宝贵的见解!
    提交
    头像

    昵称

    取消
    昵称表情代码图片

      暂无评论内容