spark共74篇 第11页
spark性能优化(一)-卡咪卡咪哈-一个博客

spark性能优化(一)

本文内容说明初始化配置给rdd和dataframe带来的影响repartition的相关说明cache&persist的相关说明性能优化的说明建议以及实例配置说明 spark:2.4.0 服务器:5台(8核32G) 初始化配置项 %...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
04810
Spark流式数据处理——Spark Streaming-卡咪卡咪哈-一个博客

Spark流式数据处理——Spark Streaming

Spark Streaming简介 Spark Streaming是Spark核心API的一个扩展,可以实现实时数据的可拓展,高吞吐量,容错机制的实时流处理框架。 Spark Streaming 支持的数据输入源很多,例如:Kafka、 Flum...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0486
大数据人才需求怎么样 Spark技术是怎么回事-卡咪卡咪哈-一个博客

大数据人才需求怎么样 Spark技术是怎么回事

大数据人才需求怎么样?Spark技术是怎么回事?Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
04815
大数据分析技术与实战之 Spark Streaming-卡咪卡咪哈-一个博客

大数据分析技术与实战之 Spark Streaming

Spark是基于内存的大数据综合处理引擎,具有优秀的作业调度机制和快速的分布式计算能力,使其能够更加高效地进行迭代计算,因此Spark能够在一定程度上实现大数据的流式处理。 随着信息技术的迅...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0477
大数据框架Hadoop PK Spark,赢家是?-卡咪卡咪哈-一个博客

大数据框架Hadoop PK Spark,赢家是?

全文共2601字,预计学习时长5分钟 打开凤凰新闻,查看更多高清图片 图片来源:unsplash.com/@gferla 当下,数字宇宙正以飞快的速度追赶着物理宇宙,每两年,全球数据量就会翻一番。据估计,到20...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0466
解读大数据应用潜力,医疗大数据的实践又有哪些?-卡咪卡咪哈-一个博客

解读大数据应用潜力,医疗大数据的实践又有哪些?

消费者数据将在未来两到三年内导致最大竞争差异。谁能打开海量数据并有策略地加以利用,谁就是赢家。 对于公司来说,数据的重要性并不陌生。谷歌的执行主席说过这样一个事实:从文明的黎明到2003...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
04414