FlyingMcdull


  • 首页

  • 分类

  • 归档

  • 标签

  • 关于
FlyingMcdull

Spark事件监听详解

发表于 2017-01-01 | 分类于 Spark

Spark中很多组件之间是靠事件消息实现通信的,之前分析了一下Spark中RPC机制,RPC和事件消息机制目的都是实现组件之间的通信,前者解决远程通信问题,而后者则是在本地较为高效的方式。Spark中大量采用事件监听这种方式,实现driver端的组件之间的通信。本文就来解释一下Spark中事件监听是如何实现的。本文代码全部出自于Spark-2.0.0。

阅读全文 »
FlyingMcdull

Docker Remote API

发表于 2016-12-19 | 分类于 Docker

因为项目问题,需要编程远程操作和管理容器,有幸Docker提供了Restful API,又幸亏有神奇的网友写出了不同语言绑定的API Client,不用自己去写一套。这篇文章记录如何使用Java编程来操作远程Docker容器。

阅读全文 »
FlyingMcdull

Spark RPC解读

发表于 2016-12-08 | 分类于 Spark

Spark-1.6以后RPC默认使用Netty替代Akka,在Netty上加了一层封装,为实现对Spark的定制开发,必须对RPC实现方式有比较清晰的了解,本文解读Spark RPC实现。本文代码全部出自于Spark-2.0.0。

阅读全文 »
FlyingMcdull

Spark on YARN配置日志Web UI

发表于 2016-11-07 | 分类于 Spark

Spark部署在YARN之后,从Standalone模式下的Spark Web UI直接无法看到执行过的application日志,不利于性能分析。本文记录如何配置history UI。

阅读全文 »
FlyingMcdull

Scala中下划线_用法小结

发表于 2016-07-07 | 分类于 编程

Scala函数式编程确实可以有效提高编程效率,和其祖先Java类似,Scala也有一堆通配符,而且更复杂、高级,本文对目前自己常见的下划线_的用法进行一个小结,备查。

阅读全文 »
FlyingMcdull

Spark架构之shuffle

发表于 2016-05-27 | 分类于 Spark

本文针对Spark设计中shuffle部分进行详细介绍,是一篇大牛博客的译文,翻译外文博客只是为了记录自己阅读过程并存档方便随时回顾。

阅读全文 »
FlyingMcdull

Spark内存管理

发表于 2016-05-26 | 分类于 Spark

从1.6.0开始,Spark内存管理模式就变了,旧的内存管理模式通过一个StaticMemoryManager类实现,现在被称作legacy。legacy模式默认是关闭的,这就意味着相同的代码在1.5.x版本和1.6.0版本中执行会有不同,应该当心这点。出于兼容性考虑,你可以通过spark.memory.useLegacyMode参数来开启legacy模式,默认情况下是关闭的。

阅读全文 »
FlyingMcdull

Spark Job调优(Part 2)

发表于 2016-05-11 | 分类于 Spark

这篇文章将会完成Part 1中留下的部分,我会尽力介绍更多的你关心的能加速Spark程序的东西。特别是你将会学习资源调优或者配置Spark来充分利用集群提供的所有资源。然后我们会转向并行度调优

阅读全文 »
12…6
Mcdull

Mcdull

42 日志
9 分类
19 标签
GitHub Weibo Facebook
友情链接
  • Liupeng's Blog
  • Seafooler's Blog
  • Charles's Blog
© 2014 - 2019 Mcdull
由 Hexo 强力驱动
主题 - NexT.Mist