希文的个人博客

白日依山尽,黄河入海流。欲穷千里目,更上一层楼。

0%

[TOC]

Hadoop HA 高可用

6.1 HA 概述

(1) 所谓 HA(High Availablity),即高可用(7*24 小时不中断服务)。

(2) 实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA 机制:HDFS 的 HA 和 YARN 的 HA。

(3) NameNode 主要在以下两个方面影响 HDFS 集群

  • ➢ NameNode 机器发生意外,如宕机,集群将无法使用,直到管理员重启
  • ➢ NameNode 机器需要升级,包括软件、硬件升级,此时集群也将无法使用

HDFS HA 功能通过配置多个 NameNodes(Active/Standby)实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将 NameNode 很快的切换到另外一台机器。

阅读全文 »

[TOC]

尚硅谷技术之 Zookeeper

(作者:尚硅谷研究院)

版本:V3.3

1Zookeeper 入门

1.1 概述

Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目。

image-20221102223508155

阅读全文 »

[TOC]

尚硅谷大数据技术之集群迁移(Apache和CDH)

(作者:尚硅谷大数据研发部)

版本:V1.0

第1章迁移数据

1)准备两套集群,我这使用apache集群和CDH集群。

img

阅读全文 »

[TOC]

尚硅谷大数据技术之Hadoop(HDFS)

(作者:尚硅谷大数据研发部)

版本:V3.3

第1章 HDFS概述

1.1 HDFS产出背景及定义

1)HDFS产生背景

    随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

2)HDFS定义

    HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

    HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。
阅读全文 »

[TOC]

尚硅谷大数据技术之Hadoop(入门)

(作者:尚硅谷大数据研发部)

版本:V3.3

第1章 Hadoop概述

1.1 Hadoop是什么

                             

阅读全文 »

[TOC]

尚硅谷大数据技术之Hadoop(Yarn)

(作者:尚硅谷大数据研发部)

版本:V3.3

第1章 Yarn资源调度器

思考:

1)如何管理集群资源?

2)如何给任务合理分配资源?

image-20221110134558345

阅读全文 »

[TOC]

尚硅谷大数据技术之Hadoop(生产调优手册)

(作者:尚硅谷大数据研发部)

版本:V3.3

第1章 HDFS—核心参数

1.1 NameNode内存生产配置

1)NameNode内存计算

​ 每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢?

​ 128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1亿

​ G MB KB Byte

阅读全文 »

[TOC]

尚硅谷大数据技术之Hadoop(MapReduce)

(作者:尚硅谷大数据研发部)

版本:V3.3

第1章 MapReduce概述

1.1 MapReduce定义

​ MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。

​ MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。

阅读全文 »