虛擬機(jī)在安裝和克隆之后,雖然能夠直接使用,但是此時(shí)虛擬機(jī)的IP是動(dòng)態(tài)生成的,在不斷的開停過程中很容易改變,非常不利于實(shí)際開發(fā);通過Hadoop01克隆的虛擬機(jī)(假設(shè)克隆了2個(gè)虛擬機(jī)Hadoop02和Hadoop03)則完全無法動(dòng)態(tài)分配到IP,直接無法使用。因此,虛擬機(jī)在安裝和克隆之后還需要對虛擬機(jī)的網(wǎng)絡(luò)都分別進(jìn)行配置。查看全文>>
Client(客戶端)對HDFS中的數(shù)據(jù)進(jìn)行讀寫操作,分別是Client從HDFS中查找數(shù)據(jù),即為Read(讀)數(shù)據(jù);Client從HDFS中存儲(chǔ)數(shù)據(jù),即為Write(寫)數(shù)據(jù)。假設(shè)有一個(gè)文件1.txt文件,大小為300M,這樣就劃分出3個(gè)數(shù)據(jù)塊,我們根據(jù)這三個(gè)模塊分別講解HDFS文件讀數(shù)據(jù)和寫數(shù)據(jù)的原理。查看全文>>
MapReduce程序運(yùn)行模式有本地運(yùn)行模式和集群運(yùn)行模式,集群運(yùn)行模式只需要將MapReduce程序打成Jar包上傳至集群即可,下面我們以詞頻統(tǒng)計(jì)為例,講解如何將MapReduce程序設(shè)置為在本地運(yùn)行模式。查看全文>>
Hadoop與Spark兩者都是大數(shù)據(jù)計(jì)算框架,但是兩者各自都有自己的優(yōu)勢,到底哪個(gè)更適合開發(fā)使用,下面對兩者做一個(gè)簡單對比:查看全文>>
?Scala算術(shù)和操Scala中算術(shù)操作符(+、-、*、/、%)的作用和Java是一樣的,位操作符(&、|、>>、<<)也是一樣的。特別強(qiáng)調(diào)的是,Scala的這些操作符其實(shí)是方法。例如,a+b其實(shí)是a.+(b)的簡寫,接下來,我們通過Scala交互式Shell編程講解操作符的使用,具體示例代碼如下。查看全文>>
使用Hadoop進(jìn)行大數(shù)據(jù)運(yùn)算,當(dāng)數(shù)據(jù)量極其大時(shí),那么對MapReduce性能的調(diào)優(yōu)重要性不言而喻,尤其是Shuffle過程中的參數(shù)配置對作業(yè)的總執(zhí)行時(shí)間影響特別大。下面總結(jié)一些和MapReduce相關(guān)的性能調(diào)優(yōu)方法,主要從五個(gè)方面考慮:數(shù)據(jù)輸入、Map階段、Reduce階段、Shuffle階段和其他調(diào)優(yōu)屬性。查看全文>>