1.闡述大數據的重要觀念,包括正面的效用與負面的副作用,建立 讀者對大數據正確的認知。 2.說明大數據時代的因應與挑戰,其中有思維的轉變、大數據分析技術、大數據的應用模式分類,也有大數據分析的流程。 3.介紹各行各業的大數據經典應用案例,讓讀者體會大數據分析的應用精髓,有機會發揮創造力,開創自己的大數據應用。 4.介紹大數據分析工具(Hadoop和Spark)的生態系統,期使讀者能充分掌握大數據的技術發展和工具的應用藍圖。 5.透過對大數據工具的實戰演練,包括安裝、設定、指令操作等,使讀者在具備大數據概念正確理解的同時,還能擁有動手實現的功力。 6.學習大數據程式語言Scala,熟悉函數式程式設計(functional programming)的特點,以及它對於大數據的操作與處理,提升讀者對大數據分析演算法的開發能力。 7.使用Spark的機器學習程式庫(MLlib),應用在既有資料集的分析上,讓讀者迅速獲得大數據的預測能力。
1.闡述大數據的重要觀念,包括正面的效用與負面的副作用,建立 讀者對大數據正確的認知。 2.說明大數據時代的因應與挑戰,其中有思維的轉變、大數據分析技術、大數據的應用模式分類,也有大數據分析的流程。 3.介紹各行各業的大數據經典應用案例,讓讀者體會大數據分析的應用精髓,有機會發揮創造力,開創自己的大數據應用。 4.介紹大數據分析工具(Hadoop和Spark)的生態系統,期使讀者能充分掌握大數據的技術發展和工具的應用藍圖。 5.透過對大數據工具的實戰演練,包括安裝、設定、指令操作等,使讀者在具備大數據概念正確理解的同時,還能擁有動手實現的功力。 6.學習大數據程式語言Scala,熟悉函數式程式設計(functional programming)的特點,以及它對於大數據的操作與處理,提升讀者對大數據分析演算法的開發能力。 7.使用Spark的機器學習程式庫(MLlib),應用在既有資料集的分析上,讓讀者迅速獲得大數據的預測能力。 觀念篇 第1 章 進入大數據時代 1-1 大數據時代來了 1-2 「大」數據有多「大」 1-3 大數據的「大」特徵 1-4 大數據的「大」作用 1-5 大數據的「大」問題 1-6 結語 第2 章 大數據挑戰與因應 2-1 大數據的思維轉變 2-2 大數據案例 2-3 大數據的應用模式分類 2-4 大數據計畫的啟動 2-5 結語 第3 章 大數據分析技術 3-1 資料科學 3-2 資料分析工具箱 3-3 大數據分析流程 3-4 結語 工具篇 第4 章 大數據工具與生態系統 4-1 Hadoop/HDFS:分散式檔案系統 4-2 Spark:平行運算框架 4-3 NoSQL 資料庫 4-4 結語 第5 章 大數據作業系統Ubuntu 的安裝 5-1 安裝虛擬化系統工具Oracle VirtualBox 5-2 新增和設定Ubuntu 虛擬機 5-3 安裝和設定Ubuntu 作業系統 第6 章 大數據平台Hadoop 和Spark 的安裝 6-1 建立和設定master 主機 6-2 建立slave1 虛擬機 6-3 繼續master 的設定 6-4 啟動Hadoop 主機集群 6-5 試玩HDFS 6-6 試玩Spark 6-7 結束Spark 和Hadoop 第7 章 HDFS 和Spark RDD 的操作 7-1 HDFS 的操作指令 7-2 Spark RDD 的操作 第8 章 Scala—大數據的程式語言 8-1 Scala 基礎 8-2 基本的資料型態 8-3 資料集Collections 8-4 邏輯流程控制 8-5 函數 8-6 常用資料集處理方法 8-7 模式匹配Pattern Matching 應用篇 第9 章 大數據分析應用基