基于HDFS的云存储在高校信息资源整合中的应用
摘要:研究如何将基于HDFS的云存储应用于整合高校信息资源,旨在通过合适的构建基于HDFS的云存储服务系统,解决高校的海量数据存储问题。通过对概念的解析,结合高校信息资源存储的特点,构建了一个低成本、高效率、高安全性的分布式信息资源整合解决方案,并给出了系统结构图。
关键词:HDFS;云存储;高校;分布式
海量的高校信息资源需要整合,这是当前不争的事实,因为高校信息资源存在着资源分布不均衡、更新维护成本高、共享程度低和安全性差等一系列问题。整合需要解决的首要问题就是信息的合理存储,以便实现对其高效、安全的访问。与传统的存储方式相比,云存储很好地解决了这个问题。
云存储(Cloud Storage)是在云计算(Cloud Computing)概念上延伸和发展出来的一个新的概念,它是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。
1 存储方式的比较
高可靠性:云存储实现对信息的分布式存储,信息被切分为多个数据块分散存储在云中的节点中,实现了多副本备份机制,因此安全性要远高于传统的单一甚至带有镜像服务器的信息存储方式。
访问的高效性:云中的控制节点通过“心跳检测”不断地监视存储节点的状态,当发现存储节点已经失效时,控制节点能够将工作负载交给那些运行正常的存储节点来完成。同时,由于云中的数据是分布式的存储,能够很好地分担存储和访问的压力,这些都使得云存储具有很高访问的效率。
存储成本低:原先的信息资源的存储一般使用专业的存储设备,价格不菲,使得资源存储的成本也随之提高。而云中的存储设备都是廉价的商业机,跟单一的大容量专业存储设备相比较,存储容量更大,存储成本更低。
管理便捷:云存储能够在软件层做到自动容错而不依赖硬件本身的容错,而且将信息资源存储在云中,有利于对资源进行统一的管理,提高资源的使用率。
另外,云存储还具有超强的可扩展性、不受具体地理位置所限、基于商业组件、按照使用收费(如每G收15美分)、可跨不同应用等。所有这些充分体现了云存储这种方式的优越性。
2 基于HDFS的云存储
2.1 HDFS的引入
目前各大公司都有自己的云存储产品,如微软公司的“Windows Live Sky Drive”网络移动硬盘服务、Google公司的“Google Stora ge”的云计算存储服务、亚马逊的Amazon webservices等。
在众多的云存储产品技术中,HDFS技术可以实施运行在普通的PC集群上,有效降低存储成本,该技术是Google文件系统(GFS)的开源实现,是分布式计算开源框架Hadoop的底层实现,Hadoop是Google集群系统的一个开源项目总称,Google集群系统是使用低成本的成熟技术构建的一个稳定、高性能、高可用性、可扩展的系统。Hadoop平台虽然是一项新兴的技术,但它的发展非常迅速,已开始被应用在企业、高
校、科研机构等各个行业。文中重点研究HDFS云存储在高校信息整合中是如何应用的。
2.2 HDFS的理论剖析
Hadoop文件系统(Hadoop Distributed File System,HDFS)虽然和现有的文件系统有相似之处,也是可以运行在普通的硬件之上的分布式文件系统,但是HDFS具有高容错性,可以部署在低成本的硬件之上,可以以流的方式访问文件数据,从而高吞吐量地对应用程序进行访问,这些还是和一般的文件系统有区别的。图1是HDFS体系结构图。
研究HDFS的体系结构图可以得知,名称节点上保存这控制数据节点信息的元数据。客户端可以通过名称节点对元数据进行操作,也可以直接对数据节点进行读写。HDFS体系结构是个主从结构,这个主从结构常由单个的名称节点和多个数据节点组成,名称节点负责管理文件命名空间和客户端访问的主服务器,而数据节点则负责对存储进行管理,下面来剖析一下体系结构各部分的功能。
2.2.1 名称节点和数据节点的功能
名称节点的功能包括4个方面:一是管理元数据和文件块:二是管理文件系统的命名空间,包括记录文件系统元数据被修改的情况:三是监听客户端和数据节点请求和处理这些请求。客户端事件比较复杂,比如名字空间的创建与删除,文件的创建、删除和修改等,数据节点的事件包括文件块信息变化、心跳响应等:四是心跳检测。所谓心跳检测,就是数据节点会定期将自己的负载情况通过心跳信息向名称节点汇报。
数据节点的功能包括3个方面:一是通过自身服务进程与文件系统客户端打交道,完成数据块的读写;二是周期性的向名称节点发送信号,报告本节点的状态;三是执行数据的流水线复制。
2.2.2 元数据和数据交互
HDFS体系结构中有三种类型的元数据保存在名称节点的内存中,分别是:文件(包含目录)的名字空间、文件到文件块的映射、文件块的位置信息。这种数据结构对于数据访问的效率和安全性都有很大的帮助。
评论