Anaconda集成了常用的擴展包,能夠方便地對這些擴展包進行管理,比如安裝和卸載包,這些操作都需要依賴conda。conda是一個在Windows、Mac OS和Linux上運行的開源軟件包管理系統(tǒng)和環(huán)境管理系統(tǒng),可以快速地安裝、運行和更新軟件包及其依賴項。查看全文>>
要想在Python項目中使用MongoDB數據庫,需要在Python標準庫的基礎上添加對MongoDB的支持。截止到目前,常用的開發(fā)MongoDB的包為PyMongo。下面將針對PyMongo的相關內容進行詳細介紹。查看全文>>
目前比較流行的ETL工具有Pantlo Kertle、Howk、lormi PowerCene及DataStage,對這些工具的介紹如下。查看全文>>
數據的清洗轉換是指將抽取到的數據源表中的數據,根據數據倉庫系統(tǒng)模型的要求進行數據的清洗、轉換等操作,保證來自不同系統(tǒng)、不同格式數據的一致性和完整性,并且要按照業(yè)務要求加載到目標表。數據的清洗轉換是ETL中最復雜的部分,主要任務是過濾掉不符合要求的數據。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類。查看全文>>
數據的加載是ETL的最后一個階段,它的主要任務是將數據從臨時數據表或文件中加載到指定的數據倉庫中。-般來說,可以通過編寫sQL語句和利用加載工具將數據加載到數據倉庫中。查看全文>>