首頁技術(shù)文章正文

Spark的框架模塊有幾種?運行模式是什么?

更新時間:2022-01-06 來源:黑馬程序員 瀏覽量:

整個Spark 框架模塊包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib,而后四項的能力都是建立在核心引擎之上。

Sparkd的框架模塊和運行模式

Spark Core:Spark的核心,Spark核心功能均由Spark Core模塊提供,是Spark運行的基礎(chǔ)。Spark Core以RDD為數(shù)據(jù)抽象,提供Python、Java、Scala、R語言的API,可以編程進(jìn)行海量離線數(shù)據(jù)批處理計算。

SparkSQL:基于SparkCore之上,提供結(jié)構(gòu)化數(shù)據(jù)的處理模塊。SparkSQL支持以SQL語言對數(shù)據(jù)進(jìn)處理,SparkSQL本身針對離線計算場景。同時基于SparkSQL,Spark提供了StructuredStreaming模塊,可以以SparkSQL為基礎(chǔ),進(jìn)行數(shù)據(jù)的流式計算。

SparkStreaming:以SparkCore為基礎(chǔ),提供數(shù)據(jù)的流式計算功能。

MLlib:以SparkCore為基礎(chǔ),進(jìn)行機(jī)器學(xué)習(xí)計算,內(nèi)置了大量的機(jī)器學(xué)習(xí)庫和API算法等。方便用戶以分布式計算的模式進(jìn)行機(jī)器學(xué)習(xí)計算。

GraphX:以SparkCore為基礎(chǔ),進(jìn)行圖計算,提供了大量的圖計算API,方便用于以分布式計算模式進(jìn)行圖計算。


Spark提供多種運行模式,包括:

  • 本地模式(單機(jī))

本地模式就是以一個獨立的進(jìn)程,通過其內(nèi)部的多個線程來模擬整個Spark運行時環(huán)境

  • Standalone模式(集群)

Spark中的各個角色以獨立進(jìn)程的形式存在,并組成Spark集群環(huán)境

  • Hadoop YARN模式(集群)

Spark中的各個角色運行在YARN的容器內(nèi)部,并組成Spark集群環(huán)境

  • Kubernetes模式(容器集群)

Spark中的各個角色運行在Kubernetes的容器內(nèi)部,并組成Spark集群環(huán)境

  • 云服務(wù)模式(運行在云平臺上)
Spark運行模式








猜你喜歡:

Spark SQL架構(gòu)的工作原理是什么?和Hive有什么不同?

Spark有哪些特點,Spark的生態(tài)系統(tǒng)包含哪些組件?

相比Hive,Spark處理數(shù)據(jù)的速度為什么更快?

在數(shù)據(jù)處理中哪些場景可以使用Spark?

黑馬程序員python+大數(shù)據(jù)開發(fā)培訓(xùn)

分享到:
在線咨詢 我要報名
和我們在線交談!