spark共74篇 第9页
深入浅出Spark(1)什么是Spark-卡咪卡咪哈-一个博客

深入浅出Spark(1)什么是Spark

今天开始我们将一起学习Sameer Farooqui在Spark summit 2015上分享的内容。本文是“深入浅出Spark”系列文章的第一篇,通过本篇文章我们将了解: 1. Spark是什么 2. Spark生态圈 3. Spark的优点...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
06312
大数据开发之Spark 基础入门学习-卡咪卡咪哈-一个博客

大数据开发之Spark 基础入门学习

集群相关 Cluster Manager指的是在集群上获取资源的外部服务,为每个spark application在集群中调度和分配资源的组件,目前有三种类型: Standalone:Spark 原生的资源管理,由 Master 负责资源...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05512
用Spark处理复杂数据类型-卡咪卡咪哈-一个博客

用Spark处理复杂数据类型

转载 用 Spark 处理复杂数据类型(Struct、Array、Map、JSON字符串等) 处理 Structs 的方法 scala> val complexDF = df.selectExpr('struct(Description,InvoiceNo) as complex','Descripti...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
06210
大数据分析Apache Spark的有哪些应用实例?-卡咪卡咪哈-一个博客

大数据分析Apache Spark的有哪些应用实例?

  Apache Spark在实际应用中迅速获得发展。加州大学伯克利分校的AMPLab于2009年开发了Spark,并于2010年将其开源。从那时起,它已发展成为大数据领域最大的开源社区之一,拥有来自50多个组织的...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
08015
Spark 性能调优实战-卡咪卡咪哈-一个博客

Spark 性能调优实战

这年代,做数据的,没人不知道 Spark 是什么吧。作为最火的大数据计算引擎,现在基本上是各互联网大厂的标配了。 比如,字节跳动基于 Spark 构建的数据仓库,服务了几乎所有的产品线,包括抖音...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05811
大数据技术学习之Spark技术总结-卡咪卡咪哈-一个博客

大数据技术学习之Spark技术总结

Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0539