spark共74篇 第5页
大数据开发之Spark 基础入门学习-卡咪卡咪哈-一个博客

大数据开发之Spark 基础入门学习

集群相关 Cluster Manager指的是在集群上获取资源的外部服务,为每个spark application在集群中调度和分配资源的组件,目前有三种类型: Standalone:Spark 原生的资源管理,由 Master 负责资源...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05512
spark为什么这么快-卡咪卡咪哈-一个博客

spark为什么这么快

作者:张科 网上答案都是千篇一律:数据都在内存所以快,是有误区的。 聊spark必须聊rdd, rdd 全英文 Resilient Distributed Datasets,搞懂这三个单词就完事了其实。 Resilient:能复原的,弹...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
015212
spark处理大数据有什么优势(大数据 spark架构)大数据入门:Spark Streaming实际应用-卡咪卡咪哈-一个博客

spark处理大数据有什么优势(大数据 spark架构)大数据入门:Spark Streaming实际应用

作为Spark负责流计算的核心组件,Spark Streaming是整个Spark学习流程当中非常重要的一块。对于Spark Streaming,作为Spark流计算的实际承载组件,我们也需要更全面的掌握。今天的大数据入门分...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05012
MapReduce和Spark的区别是什么?-卡咪卡咪哈-一个博客

MapReduce和Spark的区别是什么?

 首先大数据涉及两个方面:分布式存储系统和分布式计算框架。前者的理论基础是GFS。后者的理论基础为MapReduce。MapReduce框架有两个步骤(MapReduce 框架其实包含5 个步骤:Map、Sort、Combin...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
06311
T-thinker|继MapReduce,Apache Spark之后的下一代大数据并行编程框架-卡咪卡咪哈-一个博客

T-thinker|继MapReduce,Apache Spark之后的下一代大数据并行编程框架

机器之心专栏 严达 (Daniel Yan)| yanda@uab.edu 计算机科学系助理教授 | 美国阿拉巴马大学伯明翰分校 [欢迎随时跳过文字看最后的讲座视频直接了解 T-thinker]。 什么?是不是又是一个关于设...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
03711
大数据培训如何优化HiveSQL-卡咪卡咪哈-一个博客

大数据培训如何优化HiveSQL

Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。 但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
04911