spark共74篇 第4页
PySpark 处理数据和数据建模-卡咪卡咪哈-一个博客

PySpark 处理数据和数据建模

安装相关包 from pyspark.sql import SparkSession from pyspark.sql.functions import udf, when, count, countDistinct from pyspark.sql.types import IntegerType,StringType from pyspark....
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
06913
与 Hadoop 对比,如何看待 Spark 技术?-卡咪卡咪哈-一个博客

与 Hadoop 对比,如何看待 Spark 技术?

Hadoop 首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。HDFS,在由普通PC组成的集群上提供...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
010013
spark大数据分析源码解析Spark 大数据处理最佳实践-卡咪卡咪哈-一个博客

spark大数据分析源码解析Spark 大数据处理最佳实践

内容框架:大数据概览如何摆脱技术小白Spark SQL 学习框架EMR Studio 上的大数据最佳实践一、大数据概览大数据处理 ETL (Data → Data)大数据分析 BI (Data → Dashboard)机器学习 AI (Data → ...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05113
spark为什么这么快-卡咪卡咪哈-一个博客

spark为什么这么快

作者:张科 网上答案都是千篇一律:数据都在内存所以快,是有误区的。 聊spark必须聊rdd, rdd 全英文 Resilient Distributed Datasets,搞懂这三个单词就完事了其实。 Resilient:能复原的,弹...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
015212
spark处理大数据有什么优势(大数据 spark架构)大数据入门:Spark Streaming实际应用-卡咪卡咪哈-一个博客

spark处理大数据有什么优势(大数据 spark架构)大数据入门:Spark Streaming实际应用

作为Spark负责流计算的核心组件,Spark Streaming是整个Spark学习流程当中非常重要的一块。对于Spark Streaming,作为Spark流计算的实际承载组件,我们也需要更全面的掌握。今天的大数据入门分...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05012
spark性能调优-卡咪卡咪哈-一个博客

spark性能调优

Spark是大数据分析的利器,在工作中用到spark的地方也比较多,这篇总结是希望能将自己使用spark的一些调优经验分享出来。 一、常用参数说明 --driver-memory 4g : driver内存大小,一般没有广播...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
06712