小弟在今年七月份參加恆逸教育訓練中心舉辦的Apache Hadoop之管理者訓練課程。會想要去學Hadoop,主要是去年公司剛好有專案需求,它裡面使用技術就是Hadoop,一開始對它也是很陌生,後來藉由專案導入,慢慢地了解Hadoop功能及架構,不過那也只是停留在入門,實務上安裝及應用還是不是那麼了解,所以想要去多學習Hadoop實務上應用及操作,就報名了恆逸舉辦的Cloudera CCAH管理課程,經過四天課程,在申建忠老師精彩解說下,使得我對於Big Data有著更進一步了解,尤其它所組成Ecosystem生態體系,如:Sqoop (ETL Tools)、HBase (No SQL) 、HIVE(Datawarehouse) 、Pig(SQL-Like Language)等,裡面包含各樣各式應用,使我有著深刻印象。
由於Big Data大數據這幾年在台灣非常熱門,幾乎很多東西都會跟它有關聯,如:電信業的費率資料分析、半導體的良率資料分析等,都可以看到它的影子,尤其今年開始的工業4.0,很多應用都會跟Big Data習習相關,在資料愈來愈多情況下,以往的IT技術並無有效的Solution,但藉由Big Data技術是可以解決此問題,它算是Scale out架構,所以可以水平擴充,當節點數量不足時,可以藉由增加節點方式來進行擴充,所以當要分析資料量很大時,可以利用此特性,將資料進行切割,每一台節點只要負責一部份資料儲存及運算,就算有某一個節點壞掉,也不會影響Job的運作。另外以前讓人詬病Name Node會有SPOF(Single Point of Failure)問題,在新版Hadoop,此問題也可以解決,藉由Hadoop Name HA機制,當單一Name 節點故障時,會自動轉至另一個Standby 節點。另外在安全性及資源管控上,新MRv2可以提供功能,如:Kerberos及公平分配等新功能。
最近剛好公司指派一個工作給我,主要是關於Hadoop跟SAP結合,由於Hadoop Ecosystem有提供Sqoop工具,藉由上課中練習,使我可以快速地將Hadoop Cluster及Sqoop建置完成,可以成功將Hadoop HDFS上資料匯入SAP系統,同時也可以將SAP系統資料匯入Hadoop HDFS上,自己也感覺很有成就感,後續會規劃再去考取證照,相信對自己未來一定有加分作用。
非常感謝申建忠老師辛苦的教導,使我從入門到慢慢可以安裝Hadoop、組態及基本規劃等,並且補充很多實務上應用及最新Hadoop技術,使我獲益良多。同時也謝謝辛苦的恆逸服務人員,希望將來有更多機會來參加恆逸教育中心所舉辦的課程。