虾画怪谈的头像-卡咪卡咪哈-一个博客
管理员
这家伙很懒,什么都没有写...
spark性能优化(一)-卡咪卡咪哈-一个博客

spark性能优化(一)

本文内容说明初始化配置给rdd和dataframe带来的影响repartition的相关说明cache&persist的相关说明性能优化的说明建议以及实例配置说明 spark:2.4.0 服务器:5台(8核32G) 初始化配置项 %...
1年前
04610
spark性能调优-卡咪卡咪哈-一个博客

spark性能调优

Spark是大数据分析的利器,在工作中用到spark的地方也比较多,这篇总结是希望能将自己使用spark的一些调优经验分享出来。 一、常用参数说明 --driver-memory 4g : driver内存大小,一般没有广播...
1年前
06512
Spark性能优化总结(建议收藏)-卡咪卡咪哈-一个博客

Spark性能优化总结(建议收藏)

近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下...
1年前
05410
Spark 调优指南,8个方面-卡咪卡咪哈-一个博客

Spark 调优指南,8个方面

阅读文本大概需要 9 分钟。 之前的两篇文章 Spark 调优一瞥 | shuffle 调优​mp.weixin.qq.com/s?__biz=MzIwMjA2MTk4Ng==&mid=2247485131&idx=1&sn=2d19f77d10baa858cf0d32dfd29000...
1年前
0635
Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)-卡咪卡咪哈-一个博客

Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)

Spark调优之RDD算子调优 不废话,直接进入正题! 1. RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到如下...
1年前
05213
Java-Spark系列10-Spark性能调优概述-卡咪卡咪哈-一个博客

Java-Spark系列10-Spark性能调优概述

一.Spark 性能优化概述 首先笔者能力优先,使用Spark有一段时间,如下是笔者的工作经验的总结。 Spark任务运行图: Spark的优化思路: 一般是从3个层面进行Spark程序的优化: 1) 运行环境优化 2) R...
1年前
0478