大數據是現在IT界人人嚷嚷上口的口頭禪,但是要如何做出和工具的使用,往往都是人人避之唯恐不及的夢靨,畢竟理論和實務大不相同;於GOOGLE尋找相關Hadoop資源時,就可以看到恆逸的課程總表裡-大數據商業智慧分析Big Data & Business Intelligence的分類裡面有相關的課程,(http://www.uuu.com.tw/Course),分別是管理者和開發者,這時就在考慮說哪個適合我去上課,而我從國外相關論壇看到網友討論開發者注重的Map Reduce雖然是Hadoop的精髓,但已經有現成套件只要參數設定,就可幫你做完這些事情;因此管理者是教你關於管理、操作、維護Hadoop叢集所需必要步驟的廣泛介紹,上完課可考取Cloudera Certified Administrator for Apache Hadoop(CCAH)認證,非常適合我的需求,所以就參與此課程。
去恆逸上課,櫃台人員服務親切,休息區的飲料吧更是讓人振奮,上課提供雙螢幕,在實作時不用和老師螢幕切來切去,學習時非常舒服;此次上課的老師為申建忠老師,申老師的口條分明,上課中遇到的問題老師都很有熱心的回覆;上課首先就提Hadoop的故事,讓大家進入Hadoop裡的精彩世界。
首先大數據指的是所涉及的資料量規模巨大到無法透過人工,在合理時間內達到擷取、管理與處理,並整理成為我們所能解讀的資訊,對大數據都有4V的共識,也就是資料量要大Volume、資料多樣性Variety和處理速度要快Velocity,得到我們想要的價值Value。為了達成處理大數據,根據Google發表的MapReduce和The Google File System的論文自行實作而成Apache Hadoop,並以Open Source的方式免費提供。
老師也提到Hadoop常常被誤認為要取代關聯式資料庫,但正確的觀念是Hadoop基底是要當Batch System,快速處理大量多樣化的數據,花費時間還是會達到20多分鐘以上與關聯式資料庫相比優秀許多;但還是會有人想將Hadoop取代現有資料庫,所以許多Hadoop相關套件形成,並可達到Interactive,甚至達到Operational。
之後就利用4個以動物當代號的VM組成Hadoop整個生態系,並一一按照章節說明並實際打CODE做出,整個Hadoop生態系,可利用周邊套件將Row Data方便載入或是可以用傳統SQL下條件將資料取出,開發人員就算不懂Java,也可以用特定Script語言來撰寫。
上完課之後就用2個月來準備CCAH證照,除了讀上課相關資料,也從系統練習CCAH練習題,來看自己對哪個部分不熟,有些問題可以從Apache Hadoop的網站找到,會有版本不同而有不同答案;考試方式也很好玩,可以在一個安靜的地方來考試,我選擇在家裡考試,考試中忽然家裡網路斷線,這時以為這樣該不會考試失敗,但又連上線時,對方考試人員說沒關係考試繼續,而且斷線會停止計時,不會影響到你作答時間,最後也順利成功考取CCAH證照,感謝恆逸和申老師的教導!!