spark共74篇
Spark 凭什么成为最火的大数据计算引擎?| 极客时间-卡咪卡咪哈-一个博客

Spark 凭什么成为最火的大数据计算引擎?| 极客时间

原标题:Spark 凭什么成为最火的大数据计算引擎?| 极客时间 现在,几乎所有公司都离不开推荐、广告、搜索这 3 类业务场景,因此 Spark 也相应成了大多数互联网公司的标配: 美团在 2014 年就引...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
016112
spark为什么这么快-卡咪卡咪哈-一个博客

spark为什么这么快

作者:张科 网上答案都是千篇一律:数据都在内存所以快,是有误区的。 聊spark必须聊rdd, rdd 全英文 Resilient Distributed Datasets,搞懂这三个单词就完事了其实。 Resilient:能复原的,弹...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
015212
AI大模型团队Colossal-AI破局创新,火热招募中!-卡咪卡咪哈-一个博客

AI大模型团队Colossal-AI破局创新,火热招募中!

公司简介 潞晨科技致力于解放 AI 生产力,通过高效多维并行、异构内存管理、大规模优化库、自适应任务调度等自研技术,打造面向大模型时代的通用深度学习系统 Colossal-AI ,高效促进 AI 大模型...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
01325
YARN资源分配,没有比这说的更清楚的了-卡咪卡咪哈-一个博客

YARN资源分配,没有比这说的更清楚的了

让你彻底搞明白YARN资源分配 - 知乎 (zhihu.com)本篇要解决的问题是:Container是以什么形式运行的?是单独的JVM进程吗?YARN的vcore和本机的CPU核数关系?每个Container能够使用的物理内存和虚...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
01107
高效扩展Hadoop与Spark的数据处理工具:DataFu-卡咪卡咪哈-一个博客

高效扩展Hadoop与Spark的数据处理工具:DataFu

Apache DataFu 是一个开源的 Apache 项目,它是一个用于大数据处理和数据分析的库。它提供了一组功能丰富的工具和函数,用于在 Apache Hadoop 和 Apache Spark 等分布式计算框架上进行数据转换...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
010415
大数据开发:Hadoop、Spark、Flink三大框架对比-卡咪卡咪哈-一个博客

大数据开发:Hadoop、Spark、Flink三大框架对比

目前来说,大数据领域最为活跃的三个计算框架,当属Hadoop、Spark以及Flink这三者。三个框架在不同的大数据处理场景当中,表现各有优势,因此也常常被拿来做比较。今天我们也来做个对比,看看Ha...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
010110