spark共74篇 第8页
Spark性能优化总结(建议收藏)-卡咪卡咪哈-一个博客

Spark性能优化总结(建议收藏)

近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05510
大数据开发之Spark 基础入门学习-卡咪卡咪哈-一个博客

大数据开发之Spark 基础入门学习

集群相关 Cluster Manager指的是在集群上获取资源的外部服务,为每个spark application在集群中调度和分配资源的组件,目前有三种类型: Standalone:Spark 原生的资源管理,由 Master 负责资源...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05512
spark SQL语法 与 DSL语法-卡咪卡咪哈-一个博客

spark SQL语法 与 DSL语法

[TOC] spark SQL语法 与 DSL语法 无论是hadoop、spark、flink其都具备一些共性的功能,都试图不断完善自己的功能。 包括:离线批处理api,离线批处理sql编写能力、DSL语法,实时处理能力 Hadoop...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0546
Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)-卡咪卡咪哈-一个博客

Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)

Spark调优之RDD算子调优 不废话,直接进入正题! 1. RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到如下...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05313
大数据技术学习之Spark技术总结-卡咪卡咪哈-一个博客

大数据技术学习之Spark技术总结

Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0529
如何应对大数据分析工程师面试Spark考察,看这一篇就够了-卡咪卡咪哈-一个博客

如何应对大数据分析工程师面试Spark考察,看这一篇就够了

作者丨斌迪、HappyMint 来源丨大数据与人工智能(ID:ai-big-data) 【导读】本篇 为什么考察Spark? Spark作为大数据组件中的执行引擎,具备以下优势特性。 高效性。内存计算下,Spark 比 MapRe...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05211