Lunski's Clutter

This is a place to put my clutters, no matter you like it or not, welcome here.

0%

Hadoop && Spark

初探 Hadoop & Spark。

Hadoop

以Java撰寫的分佈,主從式計算框架,不適合即時或大量迴圈工作

  • HDFS (Hadoop Distributed File System): 分佈式文件系統,能在多機器上存大量數據
  • MapReduce: 分佈式計算模型,用於處理和生成大數據
  • YARN (Yet Another Resource Negotiator): 管理計算資源和任務調度

Ecosystem

  • Hue: Web介面整合所有Ecosystem產品
  • Hive: 可用sql做MapReduce
  • Pig: 可用腳本做MapReduce, 支援複雜操作
  • Hbase: 用Java的NoSQL
  • Spoop: 資料庫交互, RDBMS轉HDFS
  • Flume: 蒐集串流資料
  • Impala: 即時互動分析, 快但不容錯
  • Mahout: 機器學習
  • Oozie: 可管理Pig, Hive

Spark

分佈式大數據處理引擎, 在內存中處理數據. 比 Hadoop MapReduce 更快

  • Spark Core: 分佈式任務調度和內存管理
  • Spark SQL: 結構化數據處理模組,支持 SQL 查詢
  • Spark Streaming: 低延遲和高吞吐量的即時數據處理

如果你覺得這篇文章很棒,請你不吝點讚 (゚∀゚)

Welcome to my other publishing channels