spark-卡咪卡咪哈-一个博客

spark—实践之DataSet实战企业人员管理系统应用案例

此案例参考书籍《Spark大数据商业实战三部曲》，特做学习笔记，巩固学习过程。案例预览：给每位员工的年龄增加100给特定的员工年龄增加70，其他增加30对人员信息中的重复数据进行去重按年龄进行...

虾画怪谈1年前

0588

全文共17984字，预计学习时长30分钟或更长如今，有不少关于Spark的相关介绍，但很少有人从数据科学家的角度来解释该计算机引擎。因此，本文将试着介绍并详细阐述——如何运行Spark？一切是如何...

虾画怪谈1年前

0737

让你彻底搞明白YARN资源分配 - 知乎 (zhihu.com)本篇要解决的问题是：Container是以什么形式运行的？是单独的JVM进程吗？YARN的vcore和本机的CPU核数关系？每个Container能够使用的物理内存和虚...

虾画怪谈1年前

01107

计算机中所有程序都要寄托一个环境运行，环境可以理解为一个程序运行所需要的条件的集合；如果只是为了写一个Java程序，它是单进程的，那么我们配置jdk、jre就可以了；如果写一个网站，有前后端...

虾画怪谈1年前

07114

由于Spark是用Scala来写的，所以Spark对Scala肯定是原生态支持的，因此这里以Scala为主来介绍Spark环境的搭建，主要包括四个步骤，分别是：JDK的安装，Scala的安装，Spark的安装，Hadoop的下载...

虾画怪谈1年前

0905

部署预备Hadoop安装spark运行一般依赖Hadoop(也可以不需要)。关于Hadoop的安装，可以参考使用虚拟机搭建Hadoop集群在安装Hadoop的过程中，需要同时安装jdk8。2. Scala安装解压Scala二进制包到...

虾画怪谈1年前

0865