Hive是建立在Hadoop文件系統(tǒng)上的數(shù)據(jù)倉(cāng)庫(kù),它提供了一系列工具,能夠?qū)Υ鎯?chǔ)在HDFS中的數(shù)據(jù)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的工具。查看全文>>
Tesseract是一個(gè)開(kāi)源的OCR庫(kù),是目前公認(rèn)的最優(yōu)秀、最精確的開(kāi)源OCR系統(tǒng),具有精準(zhǔn)度高、靈活性高等特點(diǎn)。它不僅可以通過(guò)訓(xùn)練識(shí)別出任何字體(只要字體的風(fēng)格保持不變即可),而且可以識(shí)別出任何Unicode字符。查看全文>>
Tesseraet是一個(gè)命令行工具,安裝后只能通過(guò)tsseraet命令在Python的外部運(yùn)行,而不能通過(guò)import語(yǔ)句引人使用。為了解決上述問(wèn)題,Python 提供了支持Tssraec-OCR引擎的Python版本的庫(kù)pytesseract。查看全文>>
Hadoop有三種運(yùn)行模式:獨(dú)立(本地)運(yùn)行模式,偽分布式模式,和完全分布式模式。三種模式的yingy9ong場(chǎng)景不同,下面我們就來(lái)詳細(xì)看一下。查看全文>>
requests是基于Python開(kāi)發(fā)的HTTP庫(kù),與urllib標(biāo)準(zhǔn)庫(kù)相比,它不僅使用方便,而且能節(jié)約大量的工作。實(shí)際上,requests是在urllib的基礎(chǔ)上進(jìn)行了高度的封裝查看全文>>
有些時(shí)候我們需要獲取某個(gè)文件夾下的所有文件的名稱(chēng),手工操作效率低下而且容易出錯(cuò),使用Python如何實(shí)現(xiàn)這個(gè)功能呢?查看全文>>