Hadoop 關于

2022-02-28 10:16 更新

主要記錄了Hadoop各個組件的基本原理,處理過程和關鍵的知識點等,包括HDFS、YARN、MapReduce等。

本教程內(nèi)容來源于 PennyWong

更新日期 更新內(nèi)容
2015-5-7 Hadoop文檔

鋪墊

  • 人產(chǎn)生數(shù)據(jù)的速度越來越快,機器則更加快,數(shù)據(jù)的增長速度通常比算法更快,所以需要另外的一種處理數(shù)據(jù)的方法。
  • 硬盤的容量增加了,但性能沒有跟上,解決辦法是把數(shù)據(jù)分到多塊硬盤,然后同時讀取。但帶來一些問題:

硬件問題:復制數(shù)據(jù)解決(RAID)

分析需要從不同的硬盤讀取數(shù)據(jù):MapReduce

而Hadoop提供了

1.可靠的共享存儲(分布式存儲) 2.抽象的分析接口(分布式分析)

大數(shù)據(jù)

概念

不能使用一臺機器進行處理的數(shù)據(jù)

大數(shù)據(jù)的核心是樣本=總體

特性

  • 大量性(volume): 一般在大數(shù)據(jù)里,單個文件的級別至少為幾十,幾百GB以上
  • 快速性(velocity): 反映在數(shù)據(jù)的快速產(chǎn)生及數(shù)據(jù)變更的頻率上
  • 多樣性(variety): 泛指數(shù)據(jù)類型及其來源的多樣化,進一步可以把數(shù)據(jù)結(jié)構歸納為結(jié)構化(structured),半結(jié)構化(semi-structured),和非結(jié)構化(unstructured)
  • 易變性: 伴隨數(shù)據(jù)快速性的特征,數(shù)據(jù)流還呈現(xiàn)一種波動的特征。不穩(wěn)定的數(shù)據(jù)流會隨著日,季節(jié),特定事件的觸發(fā)出現(xiàn)周期性峰值
  • 準確性: 又稱為數(shù)據(jù)保證(data assurance)。不同方式,渠道收集到的數(shù)據(jù)在質(zhì)量上會有很大差異。數(shù)據(jù)分析和輸出結(jié)果的錯誤程度和可信度在很大程度上取決于收集到的數(shù)據(jù)質(zhì)量的高低
  • 復雜性: 體現(xiàn)在數(shù)據(jù)的管理和操作上。如何抽取,轉(zhuǎn)換,加載,連接,關聯(lián)以把握數(shù)據(jù)內(nèi)蘊的有用信息已經(jīng)變得越來越有挑戰(zhàn)性

關鍵技術

1.數(shù)據(jù)分布在多臺機器

可靠性:每個數(shù)據(jù)塊都復制到多個節(jié)點

性能:多個節(jié)點同時處理數(shù)據(jù)

2.計算隨數(shù)據(jù)走

網(wǎng)絡IO速度 << 本地磁盤IO速度,大數(shù)據(jù)系統(tǒng)會盡量地將任務分配到離數(shù)據(jù)最近的機器上運行(程序運行時,將程序及其依賴包都復制到數(shù)據(jù)所在的機器運行)

代碼向數(shù)據(jù)遷移,避免大規(guī)模數(shù)據(jù)時,造成大量數(shù)據(jù)遷移的情況,盡量讓一段數(shù)據(jù)的計算發(fā)生在同一臺機器上

3.串行IO取代隨機IO

傳輸時間 << 尋道時間,一般數(shù)據(jù)寫入后不再修改


以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號