Spark會產(chǎn)生DAG圖,DAG圖會基于分區(qū)和寬窄依賴關(guān)系劃分階段。一個階段的內(nèi)部都是窄依賴,窄依賴內(nèi),如果形成前后1:1的分區(qū)對應(yīng)關(guān)系,就可以產(chǎn)生許多內(nèi)存迭代計算的管道。這些內(nèi)存迭代計算的管道查看全文>>
NoSQL是Not OnlySQL的縮寫,它的含義為“不僅僅是SQL”。NoSQL是一種非關(guān)系型、分布式、無須遵循ACID原則、不提供SQL功能的數(shù)據(jù)庫,是對關(guān)系型數(shù)據(jù)庫在靈活性和擴展性上的補充。NoSQL.的出現(xiàn)主要是解決大規(guī)模數(shù)據(jù)集合下數(shù)據(jù)種類多樣性帶來的挑戰(zhàn),尤其是大數(shù)據(jù)應(yīng)用難題。查看全文>>
WordCount算是大數(shù)據(jù)計算領(lǐng)域經(jīng)典的入門案例,相當于Hello World。雖然WordCount業(yè)務(wù)極其簡單,但是希望能夠通過案例感受背后MapReduce的執(zhí)行流程和默認的行為機制,這才是關(guān)鍵。以下是WordCount編程實現(xiàn)思路查看全文>>
工欲善其事,必先利其器。Python的學習過程少不了集成開發(fā)編輯環(huán)境(IDE)。這些Python IDE會提供插件、工具等幫助開發(fā)者加快使用Python開發(fā)的速度,提高效率。這里收集了一些對開發(fā)者非常有幫助的Python IDE這些IDE的相關(guān)介紹如下所示。查看全文>>
視圖是從數(shù)據(jù)庫的數(shù)據(jù)表中選取出來的數(shù)據(jù)組成的邏輯窗口,它是一個虛擬機表。引入視圖后,用戶可以將注意力集中在關(guān)心的數(shù)據(jù)上,如果數(shù)據(jù)來源于多個基本表結(jié)構(gòu),并且搜索條件比較復雜時,需要編寫的查詢語句就會比較煩瑣,此時可以使用視圖將數(shù)據(jù)查詢語句變得簡單可行。查看全文>>
Doris主要整合了Google Mesa(數(shù)據(jù)模型),Apache Impala(MPP Query Engine)和Apache ORCFile (存儲格式,編碼和壓縮)的技術(shù)。將這三種技術(shù)整合,Mesa可以滿足我們許多存儲需求的需求,但是Mesa本身不提供SQL查詢引擎查看全文>>