大数据共370篇 第3页
大数据,离线计算,实时计算,流处理引擎,数仓技术
内存有限的情况下 Spark 如何处理 T 级别的数据?-卡咪卡咪哈-一个博客

内存有限的情况下 Spark 如何处理 T 级别的数据?

UPDATE 1 简单起见,下述答案仅就无shuffle的单stage Spark作业做了概要解释。对于多stage任务而言,在内存的使用上还有很多其他重要问题没有覆盖。部分内容请参考评论中 @邵赛赛 给出的补充。S...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0666
大数据分析工程师入门8--Spark基础-卡咪卡咪哈-一个博客

大数据分析工程师入门8–Spark基础

数据与智能 ,本公众号关注大数据与人工智能技术。由一批具备多年实战经验的技术极客参与运营管理,持续输出大数据、数据分析、推荐系统、机器学习、人工智能等方向的原创文章,每周至少输出10...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0485
万字长文+图解,带你轻松学习 Spark(文末送PDF)-卡咪卡咪哈-一个博客

万字长文+图解,带你轻松学习 Spark(文末送PDF)

大家好,我是大D。 今天给大家分享一篇 Spark 核心知识点的梳理,对知识点的讲解秉承着能用图解的就不照本宣科地陈述,力求精简、通俗易懂。希望能为新手的入门学习扫清障碍,从基础概念入手、...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
04111
pyspark处理数据基本语法-卡咪卡咪哈-一个博客

pyspark处理数据基本语法

作为一个和数据相关的专业,想学习pyspark,从而了解并学习pyspark ,以便更好的应用到工作中。 1、连接数据库 import findspark #初始化 findspark.init() import warnings warnings.filterwarn...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0598
极客时间-吴磊-Spark基础知识一(精简版)-卡咪卡咪哈-一个博客

极客时间-吴磊-Spark基础知识一(精简版)

(如需完整版,可转战吴磊老师极客时间付费课程开篇词 | 入门Spark,你需要学会“三步走”-极客时间)Spark 支持种类丰富的开发语言,如 Scala、Java、Python等,尽管不同语言的开发 API 在语法...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0605
spark知识点总结-卡咪卡咪哈-一个博客

spark知识点总结

说明:这篇文章是我的一位师兄写的,放上来只为了自己学习时参考,谢谢! 一、性能调优 1、分配资源 a、在我们在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05714