首頁技術(shù)文章正文

什么是數(shù)據(jù)預(yù)處理?【python數(shù)據(jù)分析】

更新時(shí)間:2022-07-27 來源:黑馬程序員 瀏覽量:

IT培訓(xùn)班

  隨著大數(shù)據(jù)技術(shù)掀起的計(jì)算機(jī)領(lǐng)域的新浪潮,無論是數(shù)據(jù)分析、數(shù)據(jù)挖掘還是機(jī)器學(xué)習(xí)、人工智能,都離不開數(shù)據(jù)這一主題。

  在實(shí)際應(yīng)用中,初始數(shù)據(jù)一般是多數(shù)據(jù)源且格式多樣化的數(shù)據(jù),這些數(shù)據(jù)的質(zhì)量通常是良莠不齊的,或多或少存在問題,不能直接被使用到數(shù)據(jù)分析或數(shù)據(jù)挖掘工作中,直接使用會造成低質(zhì)量的分析或挖掘結(jié)果。

初始數(shù)據(jù)

  初始數(shù)據(jù)在進(jìn)行分析或挖掘之前需要經(jīng)過一定的處理,調(diào)整成符合分析或挖掘需求的數(shù)據(jù)。而從初始數(shù)據(jù)到得出分析或挖掘結(jié)果的整個(gè)過程中對數(shù)據(jù)經(jīng)過的一系列操作稱為數(shù)據(jù)預(yù)處理。

  數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析或數(shù)據(jù)挖掘前的準(zhǔn)備工作,也是數(shù)據(jù)分析或數(shù)據(jù)挖掘中必不可少的一環(huán),它主要通過一系列的方法來處理“臟”數(shù)據(jù)、精準(zhǔn)地抽取數(shù)據(jù)、調(diào)整數(shù)據(jù)的格式,從而得到一組符合準(zhǔn)確、完整、簡潔等標(biāo)準(zhǔn)的高質(zhì)量數(shù)據(jù),保證該數(shù)據(jù)能更好地服務(wù)于數(shù)據(jù)分析或數(shù)據(jù)挖掘工作。

  據(jù)統(tǒng)計(jì)發(fā)現(xiàn),數(shù)據(jù)預(yù)處理的工作量占據(jù)整個(gè)數(shù)據(jù)挖掘工作的60%,由此可見,數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中扮演著舉足輕重的角色。

  舉一個(gè)簡單的例子,摩拜單車在經(jīng)過數(shù)據(jù)預(yù)處理前。戶編號、單車編號、單車類型是一些冗余的屬性,對分析目標(biāo)而言沒有任何意義;騎行時(shí)長是對分析目標(biāo)起關(guān)鍵作用的屬性,但該列中有若干個(gè)空缺。

  經(jīng)過預(yù)處理后,城市和騎行時(shí)長列的數(shù)據(jù)比較完整,也根據(jù)城市名稱進(jìn)行了歸類,方便用戶快速地得出各城市用戶的平均騎行時(shí)長。

數(shù)據(jù)預(yù)處理

  顯而易見若使用預(yù)處理前的摩拜單車數(shù)據(jù)對各城市用戶的平均騎行時(shí)長進(jìn)行分析,會導(dǎo)致分析結(jié)果存在一些偏差,相反地,使用預(yù)處理后的摩拜單車數(shù)據(jù)進(jìn)行分析,會得到一個(gè)較為準(zhǔn)確的分析結(jié)果。

分享到:
在線咨詢 我要報(bào)名
和我們在線交談!