本書結合理論和實踐,由淺入深,全方位介紹了Hadoop這一高性能的海量資料處理和分析平臺。全書5部分24章,第Ⅰ部分介紹Hadoop基礎知識,主題涉及Hadoop、MapReduce、Hadoop分散式檔系統、YARN、Hadoop的I/O操作。第Ⅱ部分介紹MapReduce,主題包括MapReduce應用開發;MapReduce的工作機制、MapReduce的類型與格式、MapReduce的特性。第Ⅲ部分介紹Hadoop的運維,主題涉及構建Hadoop集群、管理Hadoop。第Ⅳ部分介紹Hadoop相關開源專案,主題涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三個案例,分別來自醫療衛生資訊技術服務商塞納(Cerner)、微軟的人工智慧項目ADAM(一種大規模分散式深度學習框架)和開源專案Cascading(一個新的針對MapReduce的資料處理API)。本書是一本權威、全面的Hadoop參考書和工具書,闡述了Hadoop生態圈的最新發展和應用,程式師可以從中探索海量資料集的存儲和分析,管理員可以從中瞭解Hadoop集群的安裝和運維。