虾画怪谈的头像-卡咪卡咪哈-一个博客
管理员
这家伙很懒,什么都没有写...
如何优化棘手的Spark程序性能问题?-卡咪卡咪哈-一个博客

如何优化棘手的Spark程序性能问题?

乍一看编写 Spark 程序似乎很容易,如果了解数据的要求和足够的知识,那就是读取数据集、根据键进行连接、然后做一些转换,最后便准备好了一个交付的新数据集!如果您正在使用的数据非常小并且...
1年前
05214
Spark 性能调优实战-卡咪卡咪哈-一个博客

Spark 性能调优实战

这年代,做数据的,没人不知道 Spark 是什么吧。作为最火的大数据计算引擎,现在基本上是各互联网大厂的标配了。 比如,字节跳动基于 Spark 构建的数据仓库,服务了几乎所有的产品线,包括抖音...
1年前
05411
spark性能优化(一)-卡咪卡咪哈-一个博客

spark性能优化(一)

本文内容说明初始化配置给rdd和dataframe带来的影响repartition的相关说明cache&persist的相关说明性能优化的说明建议以及实例配置说明 spark:2.4.0 服务器:5台(8核32G) 初始化配置项 %...
1年前
04410
spark性能调优-卡咪卡咪哈-一个博客

spark性能调优

Spark是大数据分析的利器,在工作中用到spark的地方也比较多,这篇总结是希望能将自己使用spark的一些调优经验分享出来。 一、常用参数说明 --driver-memory 4g : driver内存大小,一般没有广播...
1年前
06412
Spark性能优化总结(建议收藏)-卡咪卡咪哈-一个博客

Spark性能优化总结(建议收藏)

近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下...
1年前
05210
对话彭博:开源LLM「RWKV」打造AI领域的Linux和Android-卡咪卡咪哈-一个博客

对话彭博:开源LLM「RWKV」打造AI领域的Linux和Android

作者|沈筱编辑|王与桐“我们没有护城河,OpenAI也是。”近期,谷歌内部人士在Discord社区匿名共享了一份内部文件,点破了谷歌和OpenAI正面临的来自开源社区的挑战。尽管经外媒SemiAnalysis求...