Hadoop

  1. 安装Hadoop:参考Hadoop安装教程

    建议安装jdk<=1.8版本。

    安装Hadoop后,自带HDFS和MapReduce。

  2. 测试安装成功:

    cd /usr/local/hadoop./bin/hadoop version
  3. 伪分布式配置注意事项:

    1. 对于Hadoop 3.2版本,伪分布式下Namenode的端口从50070改成了9870。
    2. 首次运行Hadoop需要进行 NameNode 的初始化,而以后再运行 Hadoop 只需要运行 ./sbin/start-dfs.sh 就可以,无需重复初始化。
    3. Hadoop 默认不会覆盖结果文件/目录,所以必须删除输出文件/目录,否则会报错。

安装IDE:Eclipse/IDEA

安装IDEA可以参考这篇文章(也可以从软件商店安装),安装Eclipse直接从软件商店搜索即可。

安装Maven

  1. 在IDEA中安装Maven(最新3.6.0版)可以参考这篇文章
  2. 替换国内源。可以参考这篇文章

HDFS

  1. 我们使用Eclipse进行HDFS编程:参考HDFS学习指南

MySQL

  1. 安装MySQL:参考MySQL安装教程

    如果是Centos7系统,可以参考这篇文章

  2. 安装后root用户如果无法登录,可以参考这篇文章

    注:先要service mysql start,最后要flush privileges;

MapReduce

  1. 我们使用Eclipse进行MapReduce编程:参考MapReduce学习指南

    安装eclipse的方法:snap install --classic eclipse

HBase

  1. 安装HBase(最新稳定版1.4.9):参考HBase学习指南

    值得注意的是,Hadoop和HBase的不同版本兼容性有差异,详见Hadoop version support matrix

    此外,HBase和jdk版本也有兼容性问题,1.4.9版本建议使用jdk版本<=1.8。

Hive

  1. 安装Hive:参考这篇文章

Sqoop

  1. 安装Sqoop:参考这篇文章

Spark

  1. 安装Spark(2.4.0,自带Scala 2.11.12):参考Spark安装与基本使用

    这篇文章也介绍了sbt打包Scala程序的方法 和 Spark Streaming 的相关内容。

Kafka

  1. 安装Kafka(2.11_2.1.1):参考这篇文章

    需要注意,Kafka一定要与之前安装的Scala版本(2.11)匹配,所以是2.11开头。

  2. 使用Kafka需要注意:如果报错consumer zookeeper is not a recognized option,说明高版本的Kafka取消了—zookeeper命令,解决办法是将--zookeeper localhost:2181改成--bootstrap-server localhost:9092

Flume

  1. 安装Flume(1.7):参考这篇文章

需要注意,如果之前安装了HBase,需要修改配置,详见上文。

Storm

  1. 安装与基本使用:参考流计算学习指南