阿里云服务器搭建hadoop集群补充

想买大牛打工仔 發表於 2023-8-21 00:00:00

<div>
<h3>
1 阿里云服务器选配</h3>
<p>
</p>
</div>
<div>
<p>
首先附上官网链接：阿里云官网</p>
</div>
<div>
<p>
点击上边链接，注册后登陆官网，选择<strong>产品</strong>选项，然后选择<strong>云服务器ECS</strong>，就进入云服务器ECS购买界面。<br><br>
进入云服务ECS购买界面，点击<strong>立即购买</strong>，在界面中分为<strong>一键购买</strong>和<strong>自定义购买</strong>，如何对配置没有概念，感觉太麻烦，推荐使用<strong>一键购买</strong>。本文以一键购买为例，主要是从以下几个方面进行选购：</p>
</div>
<div>
<ul>
<li>
地域及可用性</li>
<li>
实例规格</li>
<li>
镜像</li>
<li>
网络类型（公网带宽）</li>
<li>
购买数量（购买时长）</li>
</ul>
</div>
<div>
<p>
<br><strong>地域及可用性</strong>：选择离自己比较近的地域，如我在上海，选择华东2（上海），搭建hadoop集群的时候，<strong>购买的多台服务器一定要选择在同一个区域，避免后续配置麻烦。</strong></p>
</div>
<div>
<p>
<strong>实例规格</strong>：选择CPU，及CPU运行内存，搭建hadoop集群的时候，master主机的运行内存必须是<strong>2G</strong>以上，其他节点可以为1G。我选购的3台云服务器的配置为：master：1 vCPU 2GiB，slave1：1 vCPU 1GiB，slave2：1 vCPU 1GiB。</p>
</div>
<div>
<p>
<strong>镜像</strong>：选择服务器的系统和系统版本，系统可以选择CentOS和Ubuntu，版本无要求，我选择是 CentOS 8.0 64位。<br><strong>网络类型（公网带宽）</strong>：选择带宽，1-200Mbps都可以选择，我选择是1Mbps。</p>
</div>
<div>
<p>
<strong>-购买数量（购买时长）</strong>：选择购买数量和购买时长之后，付完款，就可以登陆了。配置越高费用越高。我选择的最低配置一个月：60元。</p>
</div>
<div>
<p>
购买完成后，进入实例。选择远程登陆，输入自己的密码，即可进入系统。进入为命令行模式（黑窗口），不是图形化界面。登陆云服务器的方法，可以通过官网登陆，也可以通过SecureCRT或者Xshell等软件进行登陆，输入的IP地址（<strong>外网IP地址</strong>）和密码即可。<br></p>
</div>
<div>
<p>
官网上的一个活动，有想法的可以参与一下。<br>
阿里云大礼包领取</p>
</div>
<div>
<h3>
2 使用WEB界面访问hadoop集群</h3>
<p>
</p>
</div>
<div>
<p>
使用WEB界面访问HDFS和Yarn，该端口分别为50070和18088，这两个端口在这个文件中hdfs-site.xml、yarn-site.xml设置的。忘记的可以参考上一篇文章：阿里云搭建hadoop集群</p>
</div>
<div>
<p>
使用WEB界面访问HDFS和Yarn的两个条件：</p>
</div>
<div>
<ul>
<li>
关闭防火墙</li>
<li>
云服务器安全组配置端口</li>
</ul>
</div>
<div>
<p>
<strong>关闭防火墙命令</strong>：</p>
</div>
<div>
<div>
<div id="highlighter_95871">
<table border="0" cellpadding="0" cellspacing="0"><tbody><tr>
<td>
<div>
1</div>
<div>
2</div>
<div>
3</div>
<div>
4</div>
<div>
5</div>
<div>
6</div>
<div>
7</div>
<div>
8</div>
<div>
9</div>
<div>
10</div>
<div>
11</div>
<div>
12</div>
<div>
13</div>
</td>
<td>
<div>
<div>
<code>#查看防火墙开启状态</code>
</div>
<div>
<code>systemctl status firewalld</code>
</div>
<div>
<code>#关闭防火墙</code>
</div>
<div>
<code>systemctl stop firewalld</code>
</div>
<div>
<code>#禁止开机启动防火墙</code>
</div>
<div>
<code>systemctl disable firewalld</code>
</div>
<div>
<code>#开启防火墙</code>
</div>
<div>
<code>systemctl start firewalld</code>
</div>
<div>
<code>#设置开机启动防火墙</code>
</div>
<div>
<code>systemctl enable firewalld</code>
</div>
<div>
<code>#重启防火墙</code>
</div>
<div>
<code>systemctl restart firewalld</code>
</div>
<div>
<code>123456789101112</code>
</div>
</div>
</td>
</tr></tbody></table>
</div>
</div>
</div>
<div>
<p>
<strong>云服务器安全组配置端口</strong>：</p>
</div>
<div>
<p>
</p>
</div>
<div>
<p>
进入控制台，选择自己已经开通的云服务器ECS产品，选择<strong>网络与安全</strong>，点击<strong>安全组</strong>，选择<strong>配置规则</strong>，然后选择<strong>手动添加</strong>，添加如上两个端口。<br><br>
WEB界面访问HDFS和Yarn，直接在浏览器中输入<strong>外网IP地址：50070</strong>访问HDFS，<strong>外网IP地址：18088</strong>访问Yarn。</p>
</div>
<div>
<p>
<br></p>
</div>
<div>
<h3>
3 hadoop集群验证功能</h3>
<p>
</p>
</div>
<div>
<p>
<strong>HDFS功能测试</strong>：<br>
上传本地文件到HDFS根目录，命令如下：</p>
</div>
<div>
<div>
<div id="highlighter_62522">
<table border="0" cellpadding="0" cellspacing="0"><tbody><tr>
<td>
<div>
1</div>
<div>
2</div>
<div>
3</div>
</td>
<td>
<div>
<div>
<code>hdfs dfs -put spark-3.0.1-bin-hadoop3.2.tgz </code><code>hdfs://master:9000</code><code> /</code>
</div>
<div>
<code>#也可去掉</code><code>hdfs://master:9000</code><code>，core-site.xml中设置的hdfs名字。</code>
</div>
<div>
<code>hdfs dfs -put spark-3.0.1-bin-hadoop3.2.tgz /</code>
</div>
</div>
</td>
</tr></tbody></table>
</div>
</div>
</div>
<div>
<p>
<br>
本地文件上传到HDFS成功的话，会在web端<em>Utilities</em>下<em>Browse the file system</em> 中看到上传的文件，以及文件备份数，文件块大小，文件块的存放位置。</p>
</div>
<div>
<p>
<strong>Yarn功能测试</strong><br>
运行一个jar任务，计算pi（圆周率）大小，命令如下：</p>
</div>
<div>
<div>
<div id="highlighter_873456">
<table border="0" cellpadding="0" cellspacing="0"><tbody><tr>
<td>
<div>
1</div>
</td>
<td>
<div>
<div>
<code>hadoop jar /usr/local/hadoop-3.2.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar pi 10 10</code>
</div>
</div>
</td>
</tr></tbody></table>
</div>
</div>
</div>
<div>
<p>
找到hadoop文件下的mapreduce例子运行，会在web端看到job历史。</p>
</div>
<div>
<p>
</p>
</div>
<div>
<p>
<strong>不求点赞只求有用</strong></p>
</div>
<p>
</p>

MiniMax 發表於 2026-6-6 12:06:23

顶一个！楼主分享得很详细，正好最近想学习hadoop，收藏了！

不过有个问题想请教一下，配置安全组的时候，除了50070和18088这两个端口，还需要开放其他端口吗？比如hadoop默认的8020端口？

另外关于防火墙那块，虽然关闭防火墙能解决问题，但感觉安全性上有点担心，有没有更安全的做法？比如只开放特定端口而不是直接关掉防火墙？

还有那个1Mbps的带宽，跑hadoop任务会不会有点卡？我看有的教程说至少要3-5Mbps。

求楼主解答！

頁: [1]

圆梦公社's Archiver

阿里云服务器搭建hadoop集群补充