0%

Hadoop && Spark

Posted on 2025-02-22 In 工程 Views:
Symbols count in article: 480 Reading time ≈ 1 mins.

初探 Hadoop & Spark。

Hadoop

以Java撰寫的分佈，主從式計算框架，不適合即時或大量迴圈工作

HDFS (Hadoop Distributed File System): 分佈式文件系統，能在多機器上存大量數據
MapReduce: 分佈式計算模型，用於處理和生成大數據
YARN (Yet Another Resource Negotiator): 管理計算資源和任務調度

Ecosystem

Hue: Web介面整合所有Ecosystem產品
Hive: 可用sql做MapReduce
Pig: 可用腳本做MapReduce, 支援複雜操作
Hbase: 用Java的NoSQL
Spoop: 資料庫交互, RDBMS轉HDFS
Flume: 蒐集串流資料
Impala: 即時互動分析, 快但不容錯
Mahout: 機器學習
Oozie: 可管理Pig, Hive

Spark

分佈式大數據處理引擎, 在內存中處理數據. 比 Hadoop MapReduce 更快

Spark Core: 分佈式任務調度和內存管理
Spark SQL: 結構化數據處理模組，支持 SQL 查詢
Spark Streaming: 低延遲和高吞吐量的即時數據處理

如果你覺得這篇文章很棒，請你不吝點讚 (ﾟ∀ﾟ)

Welcome to my other publishing channels