Hadoop白皮書(1):分布式文件系統HDFS簡介 |
發布時間: 2012/9/8 13:47:52 |
QQ1355017510 隨著信息系統的快速發展,海量的信息需要可靠存儲的同時,還能被大量的使用者快速地訪問。傳統的存儲方案已經從構架上越來越難以適應近幾年來的信息系統業務的飛速發展,成為了業務發展的瓶頸和障礙。 HDFS 通過一個高效的分布式算法,將數據的訪問和存儲分布在大量服務器之中,在可靠地多備份存儲的同時還能將訪問分布在集群中的各個服務器之上,是傳統存儲構架的一個顛覆性的發展。HDFS 可以提供以下特性: • 可自我修復的分布式文件存儲系統 • 高可擴展性,無需停機動態擴容 • 高可靠性,數據自動檢測和復制 • 高吞吐量訪問,消除訪問瓶頸 • 使用低成本存儲和服務器構建 分布式文件系統 HDFS 特性 高吞吐量訪問 HDFS 的每個數據塊分布在不同機架的一組服務器之上,在用戶訪問時,HDFS 將會計算使用網絡最近的和訪問量最小的服務器給用戶提供訪問。由于數據塊的每個復制拷貝都能提供給用戶訪問,而不是從單數據源讀取,HDFS 對于單數據塊的訪問將是傳統存儲方案的數倍。 對于一個較大的文件,HDFS 將文件的不同部分存放于不同服務器之上。在訪問大型文件時,系統可以并行從服務器陣列中的多個服務器并行讀入,增加了大文件讀入的訪問帶寬。 通過以上實現,HDFS 通過分布式計算的算法,將數據訪問均攤到服務器陣列中的每個服務器的多個數據拷貝之上,單個硬盤或服務器的吞吐量限制都可以數倍甚至數百倍的突破,提供了極高的數據吞吐量。
無縫容量擴充 HDFS 將文件的數據塊分配信息存放在NameNode 服務器之上,文件數據塊的信息分布地存放在 DataNode 服務器上。當整個系統容量需要擴充時,只需要增加DataNode 的數量,系統會自動地實時將新的服務器匹配進整體陣列之中。之后,文件的分布算法會將數據塊搬遷到新的DataNode 之中,不需任何系統宕機維護或人工干預。通過以上實現,HDFS 可以做到在不停止服務的情況下實時地加入新的服務器作為分布式文件系統的容量升級,不需要人工干預文件的重新分布。 高度容錯 HDFS 文件系統假設系統故障(服務器、網絡、存儲故障等)是常態,而不是異常。因此通過多方面保證數據的可靠性。數據在寫入時被復制多份,并且可以通過用戶自定義的復制策略分布到物理位置不同的服務器上;數據在讀寫時將自動進行數據的校驗,一旦發現數據校驗錯誤將重新進行復制;HDFS 系統在后臺自動連續的檢測數據的一致性,并維持數據的副本數量在指定的復制水平上。
本文出自:億恩科技【www.laynepeng.cn】 |