保障数据高可用

发布时间：2021-03-05 13:39:14 所属栏目：外闻来源：互联网

导读：里一部分数据找不到了，客服告诉你某天机房备份文件的硬盘坏了，再也找不回来，你啥感觉? 你肯定愤怒的问客服为啥不再多存几份。可如果是整个硬盘所在机架都挂了呢? 和咱们搭应用的服务一样，为了应对问题，保证高可用，除了不出现单点，还得考虑实例部署在

里一部分数据找不到了，客服告诉你某天机房备份文件的硬盘坏了，再也找不回来，你啥感觉?

你肯定愤怒的问客服为啥不再多存几份。可如果是整个硬盘所在机架都挂了呢?

和咱们搭应用的服务一样，为了应对问题，保证高可用，除了不出现单点，还得考虑实例部署在不同的机房，这样就算某个机房都出问题的时候，另一个机房也还能扛着。

对应到数据的复制和备份上，聪明的脑袋们想出了类似的思路，将备份存在不同的硬盘，不同的机架，甚至不同的机房上，像兔子一样，做到

「狡兔三窟」。 :-)

咱们一般使用网盘，云服务厂商提供的各类存储，背后都有一个分布式的存储服务，来保证应用的高可用，弹性容错等等，像咱们之前分享的神书 DDIA 里许多技术都在这些服务里有使用。

HDFS 做为Hadoop的核心存储实现，内部也支持这种更安全的多地存储备份实现。在 HDFS 中，这一技术称为 Rack Awareness。

Rack 就是机架，是在机房或者数据中心里存储着一堆的物理机，通过网络的技术来管理。

在 Hadoop 里为了在一个集群里提升网络读写 HDFS 文件的速度，管理MetaData信息的 NameNode 会根据 Rack 就近选取 DataNode去

读写。毕竟 NameNode存放着 rack id 和 DataNode 的对应信息，我们的备份数据真正写到了 DataNode里。rack id 相当于代号。

NameNode 根据 Rack id 选择一个更近的 DataNode 的过程，称之为 Rack Awareness。

默认的 Hadoop 按照所有的DataNode 属于同一个 Rack。这样就容易出问题，而打开 Awareness之后，效果类似下面这个图，

（编辑：淮南站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

阿耳忒弥斯1号登月任	世界第二高过山车将被
EDA软件突围实行中	海外版抖音TikTok如何