初探 Hadoop & Spark。
Hadoop
以Java撰寫的分佈,主從式計算框架,不適合即時或大量迴圈工作
- HDFS (Hadoop Distributed File System): 分佈式文件系統,能在多機器上存大量數據
- MapReduce: 分佈式計算模型,用於處理和生成大數據
- YARN (Yet Another Resource Negotiator): 管理計算資源和任務調度
Ecosystem
- Hue: Web介面整合所有Ecosystem產品
- Hive: 可用sql做MapReduce
- Pig: 可用腳本做MapReduce, 支援複雜操作
- Hbase: 用Java的NoSQL
- Spoop: 資料庫交互, RDBMS轉HDFS
- Flume: 蒐集串流資料
- Impala: 即時互動分析, 快但不容錯
- Mahout: 機器學習
- Oozie: 可管理Pig, Hive
Spark
分佈式大數據處理引擎, 在內存中處理數據. 比 Hadoop MapReduce 更快
- Spark Core: 分佈式任務調度和內存管理
- Spark SQL: 結構化數據處理模組,支持 SQL 查詢
- Spark Streaming: 低延遲和高吞吐量的即時數據處理
如果你覺得這篇文章很棒,請你不吝點讚 (゚∀゚)