分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 前端开发

Apache Hadoop 入门教程第四章

发布时间:2023-09-06 01:53责任编辑:苏小强关键词:Hadoop
运行在单节点的 YARN

您可以通过设置几个参数,另外运行 ResourceManager 的守护进程和 NodeManager 守护进程以伪分布式模式在 YARN 上运行 MapReduce job。

以下是运行步骤。

(1)配置

etc/hadoop/mapred-site.xml:

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
1
2
3
4
5
6
etc/hadoop/yarn-site.xml:

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
1
2
3
4
5
6
(2)启动 ResourceManager 守护进程和 NodeManager 守护进程

$ sbin/start-yarn.sh
1
(3)浏览 ResourceManager 的网络接口,它们的地址默认为:

ResourceManager - http://localhost:8088/
1
(4)运行 MapReduce job

(5)完成全部操作后,停止守护进程:

$ sbin/stop-yarn.sh
1

  1. 完全分布式模式的操作方法

关于搭建完全分布式模式的,请参阅下文《Apache Hadoop 集群上的安装配置》小节内容。

Apache Hadoop 集群上的安装配置

本节将描述如何安装、配置和管理 Hadoop 集群,其规模可从几个节点的小集群到几千个节点的超大集群。

  1. 先决条件

确保在你集群中的每个节点上都安装了所有必需软件,安装 Hadoop 集群通常要将安装软件解压到集群内的所有机器上,参考上节内容《Apache Hadoop 单节点上的安装配置》。

通常情况下,集群中的一台机器被指定为 NameNode 和另一台机器作为 ResourceManager。这些都是 master。其他服务(例如,Web 应用程序代理服务器和 MapReduce Job History 服务器)是在专用的硬件还是共享基础设施上运行,这取决于负载。

在群集里剩余的机器充当 DataNode 和 NodeManager。这些都是 slave。‘’

很多人都知道我有大数据培训资料,都天真的以为我有全套的大数据开发、hadoop、spark等视频学习资料。我想说你们是对的,我的确有大数据开发、hadoop、spark的全套视频资料。
如果你对大数据开发感兴趣可以加口群领取免费学习资料: 763835121

Apache Hadoop 入门教程第四章

原文地址:http://blog.51cto.com/11275216/2114828

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved