虾画怪谈的头像-卡咪卡咪哈-一个博客
管理员
这家伙很懒,什么都没有写...
PySpark 处理数据和数据建模-卡咪卡咪哈-一个博客

PySpark 处理数据和数据建模

安装相关包 from pyspark.sql import SparkSession from pyspark.sql.functions import udf, when, count, countDistinct from pyspark.sql.types import IntegerType,StringType from pyspark....
1年前
06813
内存有限的情况下 Spark 如何处理 T 级别的数据?-卡咪卡咪哈-一个博客

内存有限的情况下 Spark 如何处理 T 级别的数据?

UPDATE 1 简单起见,下述答案仅就无shuffle的单stage Spark作业做了概要解释。对于多stage任务而言,在内存的使用上还有很多其他重要问题没有覆盖。部分内容请参考评论中 @邵赛赛 给出的补充。S...
1年前
0646
大数据分析工程师入门8--Spark基础-卡咪卡咪哈-一个博客

大数据分析工程师入门8–Spark基础

数据与智能 ,本公众号关注大数据与人工智能技术。由一批具备多年实战经验的技术极客参与运营管理,持续输出大数据、数据分析、推荐系统、机器学习、人工智能等方向的原创文章,每周至少输出10...
1年前
0485
万字长文+图解,带你轻松学习 Spark(文末送PDF)-卡咪卡咪哈-一个博客

万字长文+图解,带你轻松学习 Spark(文末送PDF)

大家好,我是大D。 今天给大家分享一篇 Spark 核心知识点的梳理,对知识点的讲解秉承着能用图解的就不照本宣科地陈述,力求精简、通俗易懂。希望能为新手的入门学习扫清障碍,从基础概念入手、...
1年前
04011
pyspark处理数据基本语法-卡咪卡咪哈-一个博客

pyspark处理数据基本语法

作为一个和数据相关的专业,想学习pyspark,从而了解并学习pyspark ,以便更好的应用到工作中。 1、连接数据库 import findspark #初始化 findspark.init() import warnings warnings.filterwarn...
1年前
0588
极客时间-吴磊-Spark基础知识一(精简版)-卡咪卡咪哈-一个博客

极客时间-吴磊-Spark基础知识一(精简版)

(如需完整版,可转战吴磊老师极客时间付费课程开篇词 | 入门Spark,你需要学会“三步走”-极客时间)Spark 支持种类丰富的开发语言,如 Scala、Java、Python等,尽管不同语言的开发 API 在语法...
1年前
0595