排序
常用大数据引擎介绍,快速直达工具集
大数据平台是对海量结构化、非结构化、半机构化数据进行采集、存储、计算、统计、分析处理的一系列技术平台。大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无...
零基础入门hadoop大数据三—linux基础环境配置
~~~~~~~~~~~~~~~~~~~~~~~~~更新~~~~~~~~~~~~~~~~~~~~~~~~~~~本专题教程最终会以搭建4台机器(节点)的集群为教学目的,但会经历单机版(只有一台机器)、伪分布式(还是只有一台机器)、完全分...
Spark环境部署
部署预备Hadoop安装spark运行一般依赖Hadoop(也可以不需要)。关于Hadoop的安装,可以参考 使用虚拟机搭建Hadoop集群在安装Hadoop的过程中,需要同时安装jdk8。2. Scala安装解压Scala二进制包到...
如何设置具有HDFS高可用性的Hadoop集群
HDFS 2.x 高可用性集群架构 在这篇博客中,我将讨论 HDFS 2.x 高可用性集群架构以及设置 HDFS 高可用性集群的过程。这是大数据课程的重要组成部分。 本博客中涵盖主题的顺序如下: HDFS HA 架...
Hadoop环境配置(一):Pseudo-Distributed模式
前言寒假花了很多时间在基于Giraph的PageRank这个实验上面,最终实现的效果是在服务器上的分布式环境中使用Giraph这个框架运行PageRank算法。这个系列的文章主要是把在配置Hadoop的过程中所有踩...
Hadoop + Spark 完全分布式学习环境搭建(Docker版)
计算机中所有程序都要寄托一个环境运行,环境可以理解为一个程序运行所需要的条件的集合;如果只是为了写一个Java程序,它是单进程的,那么我们配置jdk、jre就可以了;如果写一个网站,有前后端...