HBase分布式數(shù)據(jù)庫最重要的就是存儲數(shù)據(jù),下面,從四個方面詳細(xì)介紹HBase的物理存儲。查看全文>>
隨著互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的不斷增大,對文件存儲系統(tǒng)提出了更高的要求,需要更大的容量、更好的性能以及安全性更高的文件存儲系統(tǒng),與傳統(tǒng)分布式文件系統(tǒng)一樣,HDFS分布式文件系統(tǒng)也是通過計算機網(wǎng)絡(luò)與節(jié)點相連,但也有傳統(tǒng)分布式文件系統(tǒng)的優(yōu)點和缺點。查看全文>>
Spark可以從Hadoop支持的任何存儲源中加載數(shù)據(jù)去創(chuàng)建RDD,包括本地文件系統(tǒng)和HDFS等文件系統(tǒng)。我們通過Spark中的SparkContext對象調(diào)用textFile()方法加載數(shù)據(jù)創(chuàng)建RDD。這里以Linux本地系統(tǒng)和HDFS分布式文件系統(tǒng)為例,講解如何創(chuàng)建RDD。查看全文>>
數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間變化的,但信息本身相對穩(wěn)定的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理,基于數(shù)據(jù)倉庫的定義,數(shù)據(jù)倉庫此處有四個特點:查看全文>>
Sqoop是Apache旗下的一款開源工具,該項目開始于2009年,最早是作為Hadoop的一個第三方模塊存在,后來為了讓使用者能夠快速部署,也為了讓開發(fā)人員能夠更快速的迭代開發(fā),并在2013年,獨立成為Apache的一個頂級開源項目。查看全文>>
Hadoop是由Java語言開發(fā)的,Hadoop集群的使用依賴于Java環(huán)境,因此在安裝Hadoop集群前,需要先安裝并配置好JDK。 接下來,就在前面規(guī)劃的Hadoop集群主節(jié)點hadoop01機器上分步驟演示,如何安裝和配置JDK,具體如下。查看全文>>