在這種方法中,企業(yè)將具有存儲(chǔ)和處理大數(shù)據(jù)的計(jì)算機(jī)。這里的數(shù)據(jù)將存儲(chǔ)在RDBMS如Oracle數(shù)據(jù)庫(kù),MS SQL Server或DB2和復(fù)雜的軟件可以寫(xiě)入與數(shù)據(jù)庫(kù)交互,處理所需的數(shù)據(jù),并將其呈現(xiàn)給用戶(hù)進(jìn)行分析。
這種方法在我們的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)服務(wù)器可以容納的數(shù)據(jù)量較少,或者正在處理數(shù)據(jù)的處理器的限制時(shí)運(yùn)行良好。但是,當(dāng)涉及到處理大量的數(shù)據(jù)時(shí),通過(guò)傳統(tǒng)的數(shù)據(jù)庫(kù)服務(wù)器處理這樣的數(shù)據(jù)真是一個(gè)單調(diào)乏味的任務(wù)。
Google使用稱(chēng)為MapReduce的算法解決了這個(gè)問(wèn)題。該算法將任務(wù)分成小部分,并將這些部分分配給通過(guò)網(wǎng)絡(luò)連接的許多計(jì)算機(jī),并收集結(jié)果以形成最終結(jié)果數(shù)據(jù)集。
上圖顯示了各種商品硬件,可能是單CPU機(jī)或具有更高容量的服務(wù)器。
Doug Cutting,Mike Cafarella和團(tuán)隊(duì)采用了Google提供的解決方案,并于2005年開(kāi)始了一個(gè)名為HADOOP的開(kāi)源項(xiàng)目,Doug在他兒子的玩具大象之后命名了它。現(xiàn)在Apache Hadoop是Apache Software Foundation的注冊(cè)商標(biāo)。
Hadoop使用MapReduce算法運(yùn)行應(yīng)用程序,其中數(shù)據(jù)在不同的CPU節(jié)點(diǎn)上并行處理。總之,Hadoop框架足以開(kāi)發(fā)能夠在計(jì)算機(jī)集群上運(yùn)行的應(yīng)用程序,并且他們可以對(duì)大量數(shù)據(jù)執(zhí)行完整的統(tǒng)計(jì)分析。
更多建議: