排序
大数据技术学习之Spark技术总结
Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数...
Ubuntu物理节点上部署Kubernets集群
译者:王乐介绍这片文档介绍了如何在Ubuntu节点上部署Kubernetes,这里我们用1个主节点和3个普通节点的安装来作为范例。你可以轻松变动设置扩展到任意数量的节点。最初的想法是受到@jainvipin的...
GitLab 13.7,增加MR审阅者,部署失败时自动回滚等功能
12月22日距离平安夜还有两天,距离新年还有一周多点,又到Gitlab发版的日子了。这次发布的版本是Gitlab 13.7,虽然和日常的功能略少点,但是也包括了45项功能和改进,详细的功能请和虫虫一道学...
批处理任务在 Kubernetes 中的调度优化
引言 群脉通过基于虚拟机自建 Kubernetes 集群进行容器(Pod)编排,从而在保证系统稳定性的前提下大大提高了运维效率。我们内部有一条运维原则,叫做“坚持混部”,即尽量把各种不同类型的业务...
Hadoop中单词统计案例
一、搭建本地环境1、下载准备两个工具Hadoop-2.7.3.tar.gzHadoop-2.7.3-winutils.exe.rar2、将Hadoop-2.7.3-winutils.exe.rar解压后,其中的两个文件进行拷贝Hadoop.dllWintuils.exe3、将Hadoop...
大数据培训|Flink各种窗口区别
Window是处理无限流的核心。Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。Flink提供了非常完美的窗口机制,这是Flink最大的亮...