大数据共370篇 第27页
大数据,离线计算,实时计算,流处理引擎,数仓技术
一套 SQL 搞定数据仓库?Flink有了新尝试-卡咪卡咪哈-一个博客

一套 SQL 搞定数据仓库?Flink有了新尝试

打开凤凰新闻,查看更多高清图片 阿里妹导读: 数据仓库是公司数据发展到一定规模后必然需要提供的一种基础服务,也是“数据智能”建设的基础环节。迅速获取数据反馈不仅有利于改善产品及用户体...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈2年前
05010
Kubernetes核心架构与高可用集群详解(含100%部署成功的方案)-卡咪卡咪哈-一个博客

Kubernetes核心架构与高可用集群详解(含100%部署成功的方案)

Kubernetes简介 Kubernetes是Google开源的一个容器编排引擎,一个可移植的、可扩展的开源平台,用于管理容器化的工作负载和服务,采用声明式配置[1],支持自动化部署、大规模可伸缩、应用容器化...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈2年前
04310
上新前夕,我们跟Flink中文社区发起人聊了聊,拿到一波官方剧透-卡咪卡咪哈-一个博客

上新前夕,我们跟Flink中文社区发起人聊了聊,拿到一波官方剧透

大数据文摘出品 作者:魏子敏、笪洁琼 Flink框架上!新!啦! 作为备受瞩目的新一代开源大数据计算引擎,Flink项目无疑已成为 Apache 基金会和 GitHub 最为活跃的项目之一。 自 2014 年正式开源...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈2年前
03410
手把手教你在本机配置spark-卡咪卡咪哈-一个博客

手把手教你在本机配置spark

本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是spark系列的第一篇文章。 最近由于一直work from home节省了很多上下班路上的时间,加上今天的LeetCode的文章篇幅较小,所以抽出了...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈2年前
06510
Spark性能优化总结(建议收藏)-卡咪卡咪哈-一个博客

Spark性能优化总结(建议收藏)

近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈2年前
05510
Hadoop环境配置(一):Pseudo-Distributed模式-卡咪卡咪哈-一个博客

Hadoop环境配置(一):Pseudo-Distributed模式

前言寒假花了很多时间在基于Giraph的PageRank这个实验上面,最终实现的效果是在服务器上的分布式环境中使用Giraph这个框架运行PageRank算法。这个系列的文章主要是把在配置Hadoop的过程中所有踩...