spark共74篇 第3页
Hadoop + Spark 完全分布式学习环境搭建(Docker版)-卡咪卡咪哈-一个博客

Hadoop + Spark 完全分布式学习环境搭建(Docker版)

计算机中所有程序都要寄托一个环境运行,环境可以理解为一个程序运行所需要的条件的集合;如果只是为了写一个Java程序,它是单进程的,那么我们配置jdk、jre就可以了;如果写一个网站,有前后端...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
07114
7个简单的Java性能调优技巧-卡咪卡咪哈-一个博客

7个简单的Java性能调优技巧

大多数开发人员都认为性能优化是一个复杂的主题,需要大量的经验和知识。优化应用程序以获得最佳性能并非易事。有几个易于遵循的建议和最佳实践可帮助你创建性能良好的应用程序,这些建议中的大...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
04114
spark大数据分析项目(spark大数据平台的基本构架)SparkSQL大数据实战:揭开Join的神秘面纱-卡咪卡咪哈-一个博客

spark大数据分析项目(spark大数据平台的基本构架)SparkSQL大数据实战:揭开Join的神秘面纱

本文来自 网易云社区 。 Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。 Join背景介绍 Join...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
06313
Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)-卡咪卡咪哈-一个博客

Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)

Spark调优之RDD算子调优 不废话,直接进入正题! 1. RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到如下...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05313
spark driver日志(spark 查看yarn日志)基于Spark的大规模日志分析-卡咪卡咪哈-一个博客

spark driver日志(spark 查看yarn日志)基于Spark的大规模日志分析

本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】-云社区-华为云》,作者:上进小菜猪。 随着互联网的普及和应用范围的扩大,越来越多的应用场景需要...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
06913
阿里面试100%问到,JVM性能调优篇-卡咪卡咪哈-一个博客

阿里面试100%问到,JVM性能调优篇

JVM 调优概述性能定义吞吐量 - 指不考虑 GC 引起的停顿时间或内存消耗,垃圾收集器能支撑应用达到的最高性能指标。延迟 - 其度量标准是缩短由于垃圾啊收集引起的停顿时间或者完全消除因垃圾收集...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
06213