大数据共370篇 第18页
大数据,离线计算,实时计算,流处理引擎,数仓技术
Spark 凭什么成为最火的大数据计算引擎?| 极客时间-卡咪卡咪哈-一个博客

Spark 凭什么成为最火的大数据计算引擎?| 极客时间

原标题:Spark 凭什么成为最火的大数据计算引擎?| 极客时间 现在,几乎所有公司都离不开推荐、广告、搜索这 3 类业务场景,因此 Spark 也相应成了大多数互联网公司的标配: 美团在 2014 年就引...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈2年前
016212
京东LBS推荐算法实践-卡咪卡咪哈-一个博客

京东LBS推荐算法实践

原标题:京东LBS推荐算法实践 作者:京东零售 郑书剑 1、推荐LBS业务介绍 1.1 业务场景 现有的同城购业务围绕京东即时零售能力搭建了到店、到家两种业务场景。同城业务与现有业务进行互补,利用...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈2年前
04212
深入浅出Spark(1)什么是Spark-卡咪卡咪哈-一个博客

深入浅出Spark(1)什么是Spark

今天开始我们将一起学习Sameer Farooqui在Spark summit 2015上分享的内容。本文是“深入浅出Spark”系列文章的第一篇,通过本篇文章我们将了解: 1. Spark是什么 2. Spark生态圈 3. Spark的优点...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈2年前
06312
大数据开发之Spark 基础入门学习-卡咪卡咪哈-一个博客

大数据开发之Spark 基础入门学习

集群相关 Cluster Manager指的是在集群上获取资源的外部服务,为每个spark application在集群中调度和分配资源的组件,目前有三种类型: Standalone:Spark 原生的资源管理,由 Master 负责资源...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈2年前
05512
spark为什么这么快-卡咪卡咪哈-一个博客

spark为什么这么快

作者:张科 网上答案都是千篇一律:数据都在内存所以快,是有误区的。 聊spark必须聊rdd, rdd 全英文 Resilient Distributed Datasets,搞懂这三个单词就完事了其实。 Resilient:能复原的,弹...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈2年前
015212
如何建立Kubernetes治理战略-卡咪卡咪哈-一个博客

如何建立Kubernetes治理战略

原标题:如何建立Kubernetes治理战略 译者 | 李睿 治理可带来一致性和可重复性,以确保质量永远不会降低。制定Kubernetes治理模型有助于保持整个组织的正常运行。此外,Kubernetes治理模型中提...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈2年前
06812