大数据共370篇 第6页
大数据,离线计算,实时计算,流处理引擎,数仓技术
Spark 性能调优实战-卡咪卡咪哈-一个博客

Spark 性能调优实战

这年代,做数据的,没人不知道 Spark 是什么吧。作为最火的大数据计算引擎,现在基本上是各互联网大厂的标配了。 比如,字节跳动基于 Spark 构建的数据仓库,服务了几乎所有的产品线,包括抖音...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05811
spark性能优化(一)-卡咪卡咪哈-一个博客

spark性能优化(一)

本文内容说明初始化配置给rdd和dataframe带来的影响repartition的相关说明cache&persist的相关说明性能优化的说明建议以及实例配置说明 spark:2.4.0 服务器:5台(8核32G) 初始化配置项 %...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
04810
spark性能调优-卡咪卡咪哈-一个博客

spark性能调优

Spark是大数据分析的利器,在工作中用到spark的地方也比较多,这篇总结是希望能将自己使用spark的一些调优经验分享出来。 一、常用参数说明 --driver-memory 4g : driver内存大小,一般没有广播...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
06712
Spark性能优化总结(建议收藏)-卡咪卡咪哈-一个博客

Spark性能优化总结(建议收藏)

近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05510
Spark 调优指南,8个方面-卡咪卡咪哈-一个博客

Spark 调优指南,8个方面

阅读文本大概需要 9 分钟。 之前的两篇文章 Spark 调优一瞥 | shuffle 调优​mp.weixin.qq.com/s?__biz=MzIwMjA2MTk4Ng==&mid=2247485131&idx=1&sn=2d19f77d10baa858cf0d32dfd29000...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0665
Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)-卡咪卡咪哈-一个博客

Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)

Spark调优之RDD算子调优 不废话,直接进入正题! 1. RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到如下...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05313