排序
window环境下安装spark
❝ spark是大数据计算引擎,拥有Spark SQL、Spark Streaming、MLlib和GraphX四个模块。并且spark有R、python的调用接口,在R中可以用SparkR包操作spark,在python中可以使用pyspark模块操作spar...
spark driver日志(spark 查看yarn日志)基于Spark的大规模日志分析
本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】-云社区-华为云》,作者:上进小菜猪。 随着互联网的普及和应用范围的扩大,越来越多的应用场景需要...
PySpark 处理数据和数据建模
安装相关包 from pyspark.sql import SparkSession from pyspark.sql.functions import udf, when, count, countDistinct from pyspark.sql.types import IntegerType,StringType from pyspark....
spark性能调优
Spark是大数据分析的利器,在工作中用到spark的地方也比较多,这篇总结是希望能将自己使用spark的一些调优经验分享出来。 一、常用参数说明 --driver-memory 4g : driver内存大小,一般没有广播...
Spark 调优指南,8个方面
阅读文本大概需要 9 分钟。 之前的两篇文章 Spark 调优一瞥 | shuffle 调优mp.weixin.qq.com/s?__biz=MzIwMjA2MTk4Ng==&mid=2247485131&idx=1&sn=2d19f77d10baa858cf0d32dfd29000...
内存有限的情况下 Spark 如何处理 T 级别的数据?
UPDATE 1 简单起见,下述答案仅就无shuffle的单stage Spark作业做了概要解释。对于多stage任务而言,在内存的使用上还有很多其他重要问题没有覆盖。部分内容请参考评论中 @邵赛赛 给出的补充。S...