在數(shù)據(jù)科學應用中,數(shù)據(jù)工程師可以利用Spark進行數(shù)據(jù)分析與建模,由于Spark具有良好的易用性,數(shù)據(jù)工程師只需要具備一定的SQL語言基礎、統(tǒng)計學、機器學習等方面的經(jīng)驗,以及使用Python、Matlab或者R語言的基礎編程能力,就可以使用Spark進行上述工作。查看全文>>
同一個事件類型在不同的連接狀態(tài)中代表的含義有所不同,當客戶端斷開連接,這時客戶端和服務器的連接就是Disconnected狀態(tài),說明連接失??;當客戶端和服務器的某一個節(jié)點建立連接,并完成一次version、zxid的同步,這時客戶端和服務器的連接狀態(tài)就是SyncConnected,說明連接成功;查看全文>>
Hadoop可以存儲多種文件格式。在存儲結構上,SequenceFile主要由一個Header后跟多條Record組成,Header主要包含了Key classname,value classname,存儲壓縮算法,用戶自定義元數(shù)據(jù)等信息查看全文>>
隨著Hadoop的不斷發(fā)展,Hadoop生態(tài)體系越來越完善,現(xiàn)如今已經(jīng)發(fā)展成一個龐大的生態(tài)體系,Hadoop生態(tài)體系包含了很多子系統(tǒng),下面介紹一些常見的子系統(tǒng),具體如下:查看全文>>
在Scala中,它和Java一樣也是擁有方法和函數(shù)。Scala的方法是類的一部分,而函數(shù)是一個對象可以賦值給一個變量。換句話來說,在類中定義的函數(shù)即是方法。查看全文>>
對于迭代式計算和交互式數(shù)據(jù)挖掘,RDD可以將中間計算的數(shù)據(jù)結果保存在內存中,當Spark集群中的某一個節(jié)點由于宕機導致數(shù)據(jù)丟失,就可以通過Spark中的RDD進行容錯恢復已經(jīng)丟失的數(shù)據(jù)。RDD提供了兩種故障恢復的方式,分別是血統(tǒng)(Lineage)方式和設置檢查點(checkpoint)方式。下面,我們就來介紹一下這兩種方式。查看全文>>