大數(shù)據(jù)常見(jiàn)的數(shù)據(jù)清洗方法有哪些？

更新時(shí)間:2023-05-17 來(lái)源:黑馬程序員瀏覽量:

IT培訓(xùn)班

常見(jiàn)的數(shù)據(jù)質(zhì)量問(wèn)題主要包括缺失值、重復(fù)值以及錯(cuò)誤值等問(wèn)題。下面針對(duì)缺失值的清洗、重復(fù)值的清洗以及錯(cuò)誤值的清洗進(jìn)行講解。

1.缺失值的清洗

缺失值的清洗方法主a要分為兩類，即忽略缺失值數(shù)據(jù)和填充缺失值數(shù)據(jù)。

(1)忽略缺失值數(shù)據(jù)方法是直接通過(guò)刪除屬性或?qū)嵗雎匀笔е档臄?shù)據(jù)。

(2)填充缺失值數(shù)據(jù)方法是使用最接近缺失值的值替代缺失的值，包括人工填寫(xiě)缺失值，使用一個(gè)全局常量填充空缺值(即將缺失的值用同一個(gè)常量Unknown替換)以及使用屬性的平均值、中間值、最大(小)值填充缺失值，或使用最可能的值(即通過(guò)回歸、貝葉斯形式化方法的工具或決策樹(shù)歸納確定的值)填充缺失值。

2.重復(fù)值的清洗

目前清洗重復(fù)值的基本思想是“排序和合并”。清洗重復(fù)值的方法主要有相似度計(jì)算和基于基本近鄰排序算法等方法。

(1)相似度計(jì)算是通過(guò)計(jì)算記錄的個(gè)別屬性的相似度，然后考慮每個(gè)屬性的不同權(quán)重值，進(jìn)行加權(quán)平均后得到記錄的相似度，若兩個(gè)記錄相似度超過(guò)某一個(gè)閾值，則認(rèn)為兩條記錄匹配，否則認(rèn)為這兩條記錄指向不同的實(shí)體。

(2)基于基本近鄰排序算法的核心思想是為了減少記錄的比較次數(shù)，在按關(guān)鍵字排序后的數(shù)據(jù)集上移動(dòng)一個(gè)大小固定的窗口，通過(guò)檢測(cè)窗口內(nèi)的記錄判定它們是否相似，從而確定并處理重復(fù)記錄。

3.錯(cuò)誤值的清洗

錯(cuò)誤值的清洗方法主要包括使用統(tǒng)計(jì)分析的方法識(shí)別可能的錯(cuò)誤值(如偏差分析、識(shí)別不遵守分布或回歸方程的值)、使用簡(jiǎn)單規(guī)則庫(kù)(即常識(shí)性規(guī)則、業(yè)務(wù)特定規(guī)則等)檢測(cè)出錯(cuò)誤值、使用不同屬性間的約束以及使用外部的數(shù)據(jù)等方法檢測(cè)和處理錯(cuò)誤值。

上一篇：Python怎樣安裝第三方模塊？ 下一篇：Python中斷言方法舉例?