spark共74篇 第2页
Spark 性能调优实战-卡咪卡咪哈-一个博客

Spark 性能调优实战

这年代,做数据的,没人不知道 Spark 是什么吧。作为最火的大数据计算引擎,现在基本上是各互联网大厂的标配了。 比如,字节跳动基于 Spark 构建的数据仓库,服务了几乎所有的产品线,包括抖音...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05811
大数据技术学习之Spark技术总结-卡咪卡咪哈-一个博客

大数据技术学习之Spark技术总结

Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0529
spark SQL语法 与 DSL语法-卡咪卡咪哈-一个博客

spark SQL语法 与 DSL语法

[TOC] spark SQL语法 与 DSL语法 无论是hadoop、spark、flink其都具备一些共性的功能,都试图不断完善自己的功能。 包括:离线批处理api,离线批处理sql编写能力、DSL语法,实时处理能力 Hadoop...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0546
spark为什么这么快-卡咪卡咪哈-一个博客

spark为什么这么快

作者:张科 网上答案都是千篇一律:数据都在内存所以快,是有误区的。 聊spark必须聊rdd, rdd 全英文 Resilient Distributed Datasets,搞懂这三个单词就完事了其实。 Resilient:能复原的,弹...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
015212
大数据开发:Hadoop、Spark、Flink三大框架对比-卡咪卡咪哈-一个博客

大数据开发:Hadoop、Spark、Flink三大框架对比

目前来说,大数据领域最为活跃的三个计算框架,当属Hadoop、Spark以及Flink这三者。三个框架在不同的大数据处理场景当中,表现各有优势,因此也常常被拿来做比较。今天我们也来做个对比,看看Ha...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
010110
Spark流式数据处理——Spark Streaming-卡咪卡咪哈-一个博客

Spark流式数据处理——Spark Streaming

Spark Streaming简介 Spark Streaming是Spark核心API的一个扩展,可以实现实时数据的可拓展,高吞吐量,容错机制的实时流处理框架。 Spark Streaming 支持的数据输入源很多,例如:Kafka、 Flum...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0486