無論是在構(gòu)建大數(shù)據(jù)的應(yīng)用程序,還是僅僅只想從開發(fā)的移動(dòng)應(yīng)用中得到一點(diǎn)點(diǎn)啟發(fā),程序員現(xiàn)在比以往任何時(shí)候都需要數(shù)據(jù)分析工具。這絕對(duì)是一個(gè)好東西,所以很多公司從程序員的需求和技能出發(fā),構(gòu)建了一些數(shù)據(jù)分析工具。GigaOm的記者Derrick Harris列舉了幾個(gè)工具,以下是小編為你整理的大數(shù)據(jù)分析怎么自學(xué) ?
BitDeli:BitDeli是今年11月份在舊金山成立的一家初創(chuàng)公司。它能衡量出任何使用Python腳本的應(yīng)用程序的指標(biāo),聯(lián)合創(chuàng)始人兼CEO Ville Tuulos告訴Derrick,腳本可以很簡(jiǎn)單,也可以很復(fù)雜——甚至未來可以延伸到機(jī)器學(xué)習(xí)。不過和“重量級(jí)選手”Hadoop相比,BitDeli自認(rèn)為是一個(gè)輕量級(jí)的Ruby。 ?
Continuuity:Continuuity是前Yahoo首席云架構(gòu)師Todd Papaioannou和Facebook HBase的工程師Jonathan Gray的心血結(jié)晶,Continuuity想讓所有的公司都能像Yahoo、Facebook一樣運(yùn)營(yíng)。該團(tuán)隊(duì)創(chuàng)建了一個(gè)大數(shù)據(jù)工具,它可以簡(jiǎn)化Hadoop以及HBase集群的復(fù)雜性,而且包含一系列開發(fā)套件,旨在幫助程序員開發(fā)大數(shù)據(jù)應(yīng)用,該平臺(tái)采用Hadoop技術(shù),允許開發(fā)者在防火墻內(nèi)外對(duì)大數(shù)據(jù)應(yīng)用軟件進(jìn)行部署、擴(kuò)展和管理。公司聯(lián)合創(chuàng)始人兼首席執(zhí)行官Todd Papaioannou表示,作為一家初創(chuàng)企業(yè),Continuuity正在試圖掀起下一波大數(shù)據(jù)應(yīng)用軟件的浪潮,公司所提供的工具能夠大大提高處于開發(fā)狀態(tài)的軟件不同部分與階段的擴(kuò)展性。
?
Flurry:Flurry是移動(dòng)應(yīng)用統(tǒng)計(jì)分析領(lǐng)域里的標(biāo)桿,正因?yàn)樵谛袠I(yè)內(nèi)獨(dú)特的優(yōu)勢(shì),它每年的營(yíng)收高達(dá)一億美元。Flurry擁有非常全面的功能,不僅僅只是幫助開發(fā)者構(gòu)建移動(dòng)應(yīng)用,它還幫助開發(fā)者分析所有的數(shù)據(jù),進(jìn)而產(chǎn)生更大的效益。其實(shí)數(shù)據(jù)也支撐了該公司的廣告網(wǎng)絡(luò),他們通過數(shù)據(jù)分析可以幫助開發(fā)者推送準(zhǔn)確的廣告到需要的用戶面前。不過單純從移動(dòng)應(yīng)用的數(shù)據(jù)統(tǒng)計(jì)功能來看,F(xiàn)lurry絕對(duì)是處于領(lǐng)先地位。其功能模塊設(shè)置合理,分析維度全面,分析流程也易于理解。 ?
為什么你應(yīng)該關(guān)心? ?
Drill和Dremel相比Hadoop更好的分析即席查詢。Hadoop僅僅提供批量的數(shù)據(jù)處理工作流,這些也是缺點(diǎn)。 ?
Hadoop生態(tài)圈使得MapReduce作為一個(gè)很親切有利的工具應(yīng)用于廣告分析。從Sawzall到Pig到Hive,很多接口層應(yīng)用的建立使得Hadoop更為友好,更接近業(yè)務(wù),但是,像SQL體系,這些抽象層忽略一個(gè)重要的事實(shí)–MapReduce(或Hadoop)是為了系統(tǒng)化數(shù)據(jù)處理流程而存在的。如果你不擔(dān)心跑的哪些任務(wù)? 如果你不關(guān)心這些產(chǎn)生的問題和去尋求答案,那就保持沉默,保持洞察力?!凹聪剿鳌?— 如果你已經(jīng)承擔(dān)數(shù)據(jù)處理,你這么優(yōu)化處理的速度?你不應(yīng)該運(yùn)行一個(gè)新的任務(wù)或者是等待,有時(shí)候考慮的時(shí)間還不如在問個(gè)新的問題。
?
在堆對(duì)比的工作流基礎(chǔ)的方法論中,很多業(yè)務(wù)驅(qū)動(dòng)的BI和分析查詢都是很基本的和臨時(shí)交互的,低延時(shí)分析。寫Map/Reduce工作流在很多業(yè)務(wù)分析中是被禁止的。等待幾分鐘等Jobs啟動(dòng),在等幾個(gè)小時(shí)等執(zhí)行完成這些無溢于數(shù)據(jù)的交互體驗(yàn),這些對(duì)比,和縮放比較最終產(chǎn)生了基本的新的視野。一些數(shù)據(jù)科學(xué)家早已經(jīng)推測(cè)Drill和Dremel將優(yōu)于Hadoop,并達(dá)成共識(shí),也有一些還在考慮中,還有少部分的狂熱者立即擁抱變化,但是這些是主要的優(yōu)點(diǎn)在更面向查詢的和低延時(shí)的情況下。在Infochimps我們喜歡使用Elasticsearch全文索引引擎來實(shí)現(xiàn)數(shù)據(jù)庫(kù)的數(shù)據(jù)搜索,但是真的在大數(shù)據(jù)處理中我們認(rèn)為Drill將成為主流。 ?
R是開源的強(qiáng)大的統(tǒng)計(jì)編程語(yǔ)言。自1997年以來,超過200萬的統(tǒng)計(jì)分析師使用R。這是一門誕生自貝爾實(shí)驗(yàn)室的在統(tǒng)計(jì)計(jì)算領(lǐng)域的現(xiàn)代版的S語(yǔ)言并迅速地成為了新的標(biāo)準(zhǔn)的統(tǒng)計(jì)語(yǔ)言。R使得復(fù)雜的數(shù)據(jù)科學(xué)變得更廉價(jià)。R是SAS和SPASS的重要的領(lǐng)頭者,并作為*秀的統(tǒng)計(jì)師的重要工具。 ?
Yarn(分布式資源管理器) ?
YARN是下一代MapReduce,即MRv2,是在*代MapReduce基礎(chǔ)上演變而來的,主要是為了解決原始Hadoop擴(kuò)展性較差,不支持多計(jì)算框架而提出的。 ?
Yarn是下一代 Hadoop 計(jì)算平臺(tái),yarn是一個(gè)通用的運(yùn)行時(shí)框架,用戶可以編寫自己的計(jì)算框架,在該運(yùn)行環(huán)境中運(yùn)行。 ?
用于自己編寫的框架作為客戶端的一個(gè)lib,在運(yùn)用提交作業(yè)時(shí)打包即可。該框架為提供了以下幾個(gè)組件: ?
- 資源管理:包括應(yīng)用程序管理和機(jī)器資源管理 ?
- 資源雙層調(diào)度 ?
- 容錯(cuò)性:各個(gè)組件均有考慮容錯(cuò)性 ?
- 擴(kuò)展性:可擴(kuò)展到上萬個(gè)節(jié)點(diǎn) ?
Mesos(分布式資源管理器) ?
Mesos誕生于UC Berkeley的一個(gè)研究項(xiàng)目,現(xiàn)已成為Apache項(xiàng)目,當(dāng)前有一些公司使用Mesos管理集群資源,比如Twitter。 ?
與yarn類似,Mesos是一個(gè)資源統(tǒng)一管理和調(diào)度的平臺(tái),同樣支持比如MR、steaming等多種運(yùn)算框架。 ?
Tachyon(分布式內(nèi)存文件系統(tǒng)) ?
Tachyon(/'t?ki:??n/ 意為超光速粒子)是以內(nèi)存為中心的分布式文件系統(tǒng),擁有高性能和容錯(cuò)能力, ?
能夠?yàn)榧嚎蚣?如Spark、MapReduce)提供可靠的內(nèi)存級(jí)速度的文件共享服務(wù)。 ?
Tachyon誕生于UC Berkeley的AMPLab。 ?