spark共74篇 第4页
window环境下安装spark-卡咪卡咪哈-一个博客

window环境下安装spark

❝ spark是大数据计算引擎,拥有Spark SQL、Spark Streaming、MLlib和GraphX四个模块。并且spark有R、python的调用接口,在R中可以用SparkR包操作spark,在python中可以使用pyspark模块操作spar...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
07010
spark driver日志(spark 查看yarn日志)基于Spark的大规模日志分析-卡咪卡咪哈-一个博客

spark driver日志(spark 查看yarn日志)基于Spark的大规模日志分析

本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】-云社区-华为云》,作者:上进小菜猪。 随着互联网的普及和应用范围的扩大,越来越多的应用场景需要...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
06913
PySpark 处理数据和数据建模-卡咪卡咪哈-一个博客

PySpark 处理数据和数据建模

安装相关包 from pyspark.sql import SparkSession from pyspark.sql.functions import udf, when, count, countDistinct from pyspark.sql.types import IntegerType,StringType from pyspark....
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
06913
spark性能调优-卡咪卡咪哈-一个博客

spark性能调优

Spark是大数据分析的利器,在工作中用到spark的地方也比较多,这篇总结是希望能将自己使用spark的一些调优经验分享出来。 一、常用参数说明 --driver-memory 4g : driver内存大小,一般没有广播...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
06712
Spark 调优指南,8个方面-卡咪卡咪哈-一个博客

Spark 调优指南,8个方面

阅读文本大概需要 9 分钟。 之前的两篇文章 Spark 调优一瞥 | shuffle 调优​mp.weixin.qq.com/s?__biz=MzIwMjA2MTk4Ng==&mid=2247485131&idx=1&sn=2d19f77d10baa858cf0d32dfd29000...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0665
内存有限的情况下 Spark 如何处理 T 级别的数据?-卡咪卡咪哈-一个博客

内存有限的情况下 Spark 如何处理 T 级别的数据?

UPDATE 1 简单起见,下述答案仅就无shuffle的单stage Spark作业做了概要解释。对于多stage任务而言,在内存的使用上还有很多其他重要问题没有覆盖。部分内容请参考评论中 @邵赛赛 给出的补充。S...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0666