隨著互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)、云計(jì)算等名詞也進(jìn)入我們的生活的方方面面,那么什么是大數(shù)據(jù)?什么又是云計(jì)算?下面給大家講解大數(shù)據(jù)是什么。以下是小編為你整理的怎樣學(xué)習(xí)大數(shù)據(jù) ?
大數(shù)據(jù)是什么? ?
就字面意思理解就是大量的數(shù)據(jù)的意思;深入理解大數(shù)據(jù)是對(duì)信息資源和數(shù)據(jù)的集合,利用這些數(shù)據(jù)和信息資源分析出有用的資源,這就是大數(shù)據(jù)。 ?
容量 ?
大數(shù)據(jù)作為信息的集合,它包含了很多潛在的信息,以及各個(gè)不同行業(yè)的信息,這些信息就是大數(shù)據(jù)的容量和價(jià)值。
?
種類 ?
大數(shù)據(jù)的種類有很多,因?yàn)樗且粋€(gè)信息的合集,因此它包含多種類別的分析。 ?
可變性 ?
大數(shù)據(jù)不是一成不變的,隨著時(shí)間和空間的變化,大數(shù)據(jù)也會(huì)跟著變化。 ?
復(fù)雜性 ?
由于大數(shù)數(shù)量巨大,來源的渠道有很多,因此它表現(xiàn)出很強(qiáng)的復(fù)雜性。 ?
價(jià)值 ?
利用大數(shù)據(jù)可以分析和反映一個(gè)行業(yè)或者一個(gè)市場(chǎng)的一些規(guī)律,抓住這些規(guī)律,就可以產(chǎn)生價(jià)值。 ?
? ?
大數(shù)據(jù)的用途 ?
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營(yíng)管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。 ?
物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。 ?
有些例子包括網(wǎng)絡(luò)日志,RFID,傳感器網(wǎng)絡(luò),社會(huì)網(wǎng)絡(luò),社會(huì)數(shù)據(jù)(由于數(shù)據(jù)革命的社會(huì)),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細(xì)記錄,天文學(xué),大氣科學(xué),基因組學(xué),生物地球化學(xué),生物,和其他復(fù)雜和/或跨*的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務(wù) 。 ?
? ?
Hadoop ?
這是現(xiàn)在流行的大數(shù)據(jù)處理平臺(tái)幾乎已經(jīng)成為大數(shù)據(jù)的代名詞,所以這個(gè)是必學(xué)的。Hadoop里面包括幾個(gè)組件HDFS、MapReduce和YARN,HDFS是存儲(chǔ)數(shù)據(jù)的地方就像我們電腦的硬盤一樣文件都存儲(chǔ)在這個(gè)上面,MapReduce是對(duì)數(shù)據(jù)進(jìn)行處理計(jì)算的,它有個(gè)特點(diǎn)就是不管多大的數(shù)據(jù)只要給它時(shí)間它就能把數(shù)據(jù)跑完,但是時(shí)間可能不是很快所以它叫數(shù)據(jù)的批處理。
?
YARN是體現(xiàn)Hadoop平臺(tái)概念的重要組件有了它大數(shù)據(jù)生態(tài)體系的其它軟件就能在hadoop上運(yùn)行了,這樣就能更好的利用HDFS大存儲(chǔ)的優(yōu)勢(shì)和節(jié)省更多的資源比如我們就不用再單獨(dú)建一個(gè)spark的集群了,讓它直接跑在現(xiàn)有的hadoop yarn上面就可以了。其實(shí)把Hadoop的這些組件學(xué)明白你就能做大數(shù)據(jù)的處理了,只不過你現(xiàn)在還可能對(duì)"大數(shù)據(jù)"到底有多大還沒有個(gè)太清楚的概念,聽我的別糾結(jié)這個(gè)。 ?
等以后你工作了就會(huì)有很多場(chǎng)景遇到幾十T/幾百T大規(guī)模的數(shù)據(jù),到時(shí)候你就不會(huì)覺得數(shù)據(jù)大真好,越大越有你頭疼的。當(dāng)然別怕處理這么大規(guī)模的數(shù)據(jù),因?yàn)檫@是你的價(jià)值所在,讓那些個(gè)搞Javaee的php的html5的和DBA的羨慕去吧。 ?
? ?
學(xué)了大數(shù)據(jù)能做啥 ?
故障率分析 ?
服務(wù)器故障分析對(duì)服務(wù)器的各個(gè)部件的故障率都做了分析和監(jiān)控,包括 ?
生成月度故障率報(bào)表; ?
故障率異常的實(shí)時(shí)監(jiān)控和自動(dòng)告警; ?
分析外部條件與故障率的關(guān)系; ?
與OS的軟件告警信息聯(lián)動(dòng)起來,及時(shí)發(fā)現(xiàn)服務(wù)器的亞健康狀態(tài)。 ?
服務(wù)器硬件最近幾周的故障率統(tǒng)計(jì)信息。按部件給出各個(gè)機(jī)型的故障率情況,及時(shí)發(fā)現(xiàn)批次性故障并給出告警 ?
環(huán)境監(jiān)控 ?
如果能把機(jī)房環(huán)境溫度有效的監(jiān)控起來,我們就能在發(fā)現(xiàn)異常時(shí)發(fā)出高溫告警,提前采取措施。對(duì)服務(wù)器入風(fēng)口溫度進(jìn)行采集和監(jiān)控是一個(gè)較為有效的方案。 ?
下圖顯示服務(wù)器入風(fēng)口溫度變化的異常情況,經(jīng)過數(shù)據(jù)的規(guī)整和誤差修正,產(chǎn)生了高溫告警。通過自動(dòng)化流程,及時(shí)知會(huì)到機(jī)房現(xiàn)場(chǎng)負(fù)責(zé)人。 ?