首頁最新資訊

全部 新聞動態(tài) 技術(shù)文章 常見問題 技術(shù)問答

    • 為什么要研究大數(shù)據(jù)?大數(shù)據(jù)有什么價值?

      現(xiàn)在的社會是一個高速發(fā)展的社會,科技發(fā)達(dá),信息流通,人們之間的交流也越來越密切,生活也越來越便捷,大數(shù)據(jù)就是這個高科技時代的產(chǎn)物。阿里巴巴創(chuàng)辦人馬云曾經(jīng)說過,未來的時代將不是IT時代,而是DT的時代,DT就是Data Technology,數(shù)據(jù)科技,這顯示出大數(shù)據(jù)對于阿里巴巴集團(tuán)來說是舉足輕重的。查看全文>>

      技術(shù)文章2021-02-01 |黑馬程序員 |為什么要研究大數(shù)據(jù)
    • 什么樣的數(shù)據(jù)可以稱為大數(shù)據(jù)?

      一般認(rèn)為,大數(shù)據(jù)主要具有以下4個方面的典型特征,即大量(Volume)、多樣(Variety)、高速(Velocity)和價值(Value),即所謂的4V,接下來,通過一張圖來具休描述。查看全文>>

      技術(shù)文章2021-02-01 |黑馬程序員 |什么數(shù)據(jù)是大數(shù)據(jù)
    • 大數(shù)據(jù)是什么意思?大數(shù)據(jù)有什么用?

      大數(shù)據(jù)是什么意思呢?如果從字面意思來看,大數(shù)據(jù)指的是巨量數(shù)據(jù)。那么可能有人會問,多大量級的數(shù)據(jù)才叫大數(shù)據(jù)?不同的機(jī)構(gòu)或?qū)W者有不同的理解,難以有一個非常定量的定義,只能說,大數(shù)據(jù)的計量單位已經(jīng)越過TB級別發(fā)展到PB、EB、ZB、YB甚至BB級別。查看全文>>

      技術(shù)文章2021-02-01 |黑馬程序員 |大數(shù)據(jù)是什么意思
    • RDD如何分區(qū),各種模式下的分區(qū)數(shù)目是怎樣的?

      RDD的分區(qū)原則是分區(qū)的個數(shù)盡量等于集群中的CPU核心(Core)數(shù)目。對于不同的Spark部署模式而言,都可以通過設(shè)置spark.default.prallien這個參數(shù)值來配置默認(rèn)的分區(qū)數(shù)目。一般而言,各種模式下的默認(rèn)分區(qū)數(shù)目如下。查看全文>>

      技術(shù)文章2021-01-29 |黑馬程序員 |RDD如何分區(qū)
    • Spark Mllib分層抽樣操作步驟

      分層抽樣法也叫類型抽樣法,它是先將總體樣本按照某種特征分為若干次級(層),然后再從每一一層內(nèi)進(jìn)行獨立取樣,組成一個樣本的統(tǒng)計學(xué)計算方法,接下來,通過Spark-Shell演示分層抽樣方法,具體代碼如下查看全文>>

      技術(shù)文章2021-01-29 |黑馬程序員 |Spark MLlib分層抽樣
    • Sqoop中的增量導(dǎo)入功能怎樣使用?

      當(dāng)MySQL表中的數(shù)據(jù)發(fā)生了新增或修改變化,需要更新HDFS上對應(yīng)的數(shù)據(jù)時,就可以使用Sqoop的增量導(dǎo)入功能。Sqoop目前支持兩種增量導(dǎo)入模式:append模式和lastmodified模式。其中,append模式主要針對INSERT新增數(shù)據(jù)的增量導(dǎo)入;lastmodified模式主要針對UPDATE修改數(shù)據(jù)的增量導(dǎo)入。查看全文>>

      技術(shù)文章2021-01-26 |黑馬程序員 |Sqoop增量導(dǎo)入,MySQL導(dǎo)入數(shù)據(jù)
和我們在線交談!