HDFS云存储技术可靠性分析
发布时间:2021-07-20 16:33:49 所属栏目:云计算 来源:互联网
导读:引言 随着Web2.0的发展。信息量呈爆炸性增长。数据存储逐渐成为制约企业发展的关键问题。越来越多的企业开始将数据存储分离出来作为独立的项目进行管理。高可靠性、高通用性、高扩展性、大容量。云存储以传统数据中心无法比拟的优势特性。正在成为企业实现提
引言
随着Web2.0的发展。信息量呈爆炸性增长。数据存储逐渐成为制约企业发展的关键问题。越来越多的企业开始将数据存储分离出来作为独立的项目进行管理。高可靠性、高通用性、高扩展性、大容量。云存储以传统数据中心无法比拟的优势特性。正在成为企业实现提高效率、降低成本的重要选择。HDFS是当前应用最广泛的云存储技术之一。本文详细分析HDFS云存储技术的可靠性
1、云计算技术系统结构
云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空问和信息服务。
云计算技术体系结构
图1 云计算技术体系结构
云计算技术体系结构分为4层:物理资源层、资源池层、管理中间件层和SOA构建层,如图1所示。物理资源层包括计算机、存储器、网络设施、数据库和软件等:资源池层是将大量相同类型的资源构成同构或接近同构的资源池,如计算资源池、数据资源池等。管理中间件负责对云计算的资源进行管理。并对众多应用任务进行调度,使资源能够高效、安全地为应用提供服务:S0A构建层将云计算能力封装成标准的Web Services服务,并纳入到SOA体系进行管理和使用。包括服务注册、查找、访问和构建服务工作流等。管理中间件和资源池层是云计算技术的最关键部分,SOA构建层的功能更多依靠外部设施提供。
云计算的管理中间件负责资源管理、任务管理、用户管理和安全管理等工作 资源管理负责均衡地使用云资源节点。检测节点的故障并试图恢复或屏蔽之,并对资源的使用情况进行监视统计。对云计算的可靠性有至关重要的作用 下面结合HDFS介绍云存储技术的可靠性。
[page] 2、HDFS体系结构
Hadoop是Apache基金会的一个开源项目。参考Google的GFS(Google File System)和Map/Reduce计算模型研发出HDFS(Hadoop Distributed File System)和自己的Map/Reduce框架。Hadoop主要由Yahoo开发 ,Facebook、Amazon和Last.fm公司也都在使用Hadoop。
HDFS体系结构
图2 HDFS体系结构
如图2所示。Hadoop档案系统(Hadoop DistributedFile Systern.HDFS)被设计成适合运行在通用硬件上的分布式文件系统。其具有高容错性。能提供高吞吐量的数据访问。非常适合于大规模数据集上的应用。
3、HDFS可靠性
为了保障HDFS的高可靠性。HDFS有如下5个特性。
(1)冷备机制
HDFS中Secondary NameNode对NameNode中元数据提供了冷备方案 Secondary NameNode将Na—meNode的fsimage与edit log从Namenode复制到临时目录,将fsitnage同edit log合并,并产生新的Fsimage并把产生的新的Isirnage上传给NameNode ,最后清除NameNode中的edit log
(2)租约机制
NameNode在打开或创建一个文件,准备追加写之前,会与此客户端签订一份租约。客户端会定时轮询续签租约。NameNode始终在轮询检查所有租约,查看是否有到期未续的租约。如果一切正常,该客户端完成写操作,会关闭文件,停止租约,一旦有所意外,比如文件被删除了,客户端宕机了,当超过租约期限时,NameNode就会剥夺此租约,将这个文件的享用权,分配给他人。如此,来避免由于客户端停机带来的资源被长期霸占的问题。
(3)数据的正确性与一致性
在HDFS中,为了保证数据的正确性和同一份数据的一致性,做了大量的工作。首先,每一个数据块,都有一个版本标识,一旦数据块上的数据有所变化,此版本号将向前增加。在NameNode上,保存有此时每个数据块的版本,一旦出现数据服务器上相关数据块版本与其不一致,将会触发相关的恢复流程。这样的机制保证了各个数据服务器器上的数据块,在基本大方向上都是一致的。但是,由于网络的复杂性,简单的版本信息无法保证具体内容的一致性。因此,为了保证数据内容上的一致,必须要依照内容,给出签名。
当客户端向数据服务器追加写人数据包时,每一个数据包的数据,都会切分成512字节大小的段,作为签名验证的基本单位,在HDFS中,把这个数据段称为Chunk,即传输块。在每一个数据包中,都包含若干个传输块以及每一个传输块的签名,一旦发现当前的传输块签名与在客户端中的签名不一致,整个数据包的写人被视为无效。
[page] (4)系统升级回滚
当升级某个集群的Hadoop的时候,正如任何软件的升级一样,可能会引人新的bug或者不兼容的修改导致现有的应用出现过去没有发现的问题。在所有重要的HDFS安装应用中,是不允许出现因丢失任何数据需要从零开始重启HDFS的情况。HDFS允许管理员恢复到Hadoop的早期版本,并且将集群的状态回滚到升级前。
(编辑:淮南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |