spark共74篇 第10页
大数据培训如何优化HiveSQL-卡咪卡咪哈-一个博客

大数据培训如何优化HiveSQL

Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。 但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
04911
SparkShuffle及Spark SQL图解执行流程语法-卡咪卡咪哈-一个博客

SparkShuffle及Spark SQL图解执行流程语法

1.SparkShuffle 1.1SparkShuffle概念: reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0496
spark性能优化(一)-卡咪卡咪哈-一个博客

spark性能优化(一)

本文内容说明初始化配置给rdd和dataframe带来的影响repartition的相关说明cache&persist的相关说明性能优化的说明建议以及实例配置说明 spark:2.4.0 服务器:5台(8核32G) 初始化配置项 %...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
04810
Spark流式数据处理——Spark Streaming-卡咪卡咪哈-一个博客

Spark流式数据处理——Spark Streaming

Spark Streaming简介 Spark Streaming是Spark核心API的一个扩展,可以实现实时数据的可拓展,高吞吐量,容错机制的实时流处理框架。 Spark Streaming 支持的数据输入源很多,例如:Kafka、 Flum...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0486
大数据人才需求怎么样 Spark技术是怎么回事-卡咪卡咪哈-一个博客

大数据人才需求怎么样 Spark技术是怎么回事

大数据人才需求怎么样?Spark技术是怎么回事?Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
04815
百度马小龙:Spark在百度的工程实践分享-卡咪卡咪哈-一个博客

百度马小龙:Spark在百度的工程实践分享

原标题:百度马小龙:Spark在百度的工程实践分享 2015年4月16-18日,由CSDN主办、CSDN专家顾问团支持的 OpenCloud 2015大会将在北京国家会议中心拉开帷幕。为期三天的大会,以推进行业应用中的...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
04815