四步學(xué)懂python中的編解碼

更新時間:2018-11-26 來源:黑馬程序員瀏覽量:

　　1. 字符與字節(jié)

　　一個字符不等價于一個字節(jié)，字符是人類能夠識別的符號，而這些符號要保存到計算的存儲中就需要用計算機能夠識別的字節(jié)來表示。一個字符往往有多種表示方法，不同的表示方法會使用不同的字節(jié)數(shù)。比如字母A-Z都可以用ASCII碼表示(占用一個字節(jié))，也可以用UNICODE表示(占兩個字節(jié))，還可以用UTF-8表示(占用一個字節(jié))。字符編碼的作用就是將人類可識別的字符轉(zhuǎn)換為機器可識別的字節(jié)碼，以及反向過程。

　　UNICDOE才是真正的字符串，而用ASCII、UTF-8、GBK等字符編碼表示的是字節(jié)串。

　　我們寫代碼是寫在文件中的，而字符是以字節(jié)形式保存在文件中的，因此當(dāng)我們在文件中定義個字符串時被當(dāng)做字節(jié)串也是可以理解的。但是，我們需要的是字符串，而不是字節(jié)串。Python2把字節(jié)串當(dāng)做字符串來使用。最能說明這個問題的操作就是取一個包含中文字符的字符串的長度：

　　對字符串取長度，結(jié)果應(yīng)該是所有字符串的個數(shù)，無論中文還是英文

　　對字符串對應(yīng)的字節(jié)串取長度，就跟編碼(encode)過程使用的字符編碼有關(guān)了(比如：UTF-8編碼，一個中文字符需要用3個字節(jié)來表示;GBK編碼，一個中文字符需要2個字節(jié)來表示)

　　注意：Windows的cmd終端字符編碼默認為GBK，因此在cmd輸入的中文字符需要用兩個字節(jié)表示

　　>>> # Python2

　　>>> a = 'Hello,中國' # 字節(jié)串，長度為字節(jié)個數(shù) = len('Hello,')+len('中國') = 6+2*2 = 10

　　>>> b = u'Hello,中國' # 字符串，長度為字符個數(shù) = len('Hello,')+len('中國') = 6+2 = 8

　　>>> c = unicode(a, 'gbk') # 其實b的定義方式是c定義方式的簡寫，都是將一個GBK編碼的字節(jié)串解碼(decode)為一個Uniocde字符串

　　>>>

　　>>> print(type(a), len(a))

　　(, 10)

　　>>> print(type(b), len(b))

　　(, 8)

　　>>> print(type(c), len(c))

　　(, 8)

　　2. 編碼與解碼

　　編碼(encode)：將Unicode字符串(中的代碼點)轉(zhuǎn)換特定字符編碼對應(yīng)的字節(jié)串的過程和規(guī)則

　　解碼(decode)：將特定字符編碼的字節(jié)串轉(zhuǎn)換為對應(yīng)的Unicode字符串(中的代碼點)的過程和規(guī)則

　　可見，無論是編碼還是解碼，都需要一個重要因素，就是特定的字符編碼。因為一個字符用不同的字符編碼進行編碼后的字節(jié)值以及字節(jié)個數(shù)大部分情況下是不同的，反之亦然。

　　3、Python中的默認編碼

　　Python2和Python3的解釋器使用的默認編碼是不一樣的，我們可以通過sys.getdefaultencoding()來獲取默認編碼：

　　>>> # Python2

　　>>> import sys

　　>>> sys.getdefaultencoding()

　　'ascii'

　　>>> # Python3

　　>>> import sys

　　>>> sys.getdefaultencoding()

　　'utf-8'

　　因此，對于Python2來講，Python解釋器在讀取到中文字符的字節(jié)碼嘗試解碼操作時，會先查看當(dāng)前代碼文件頭部是否有指明當(dāng)前代碼文件中保存的字節(jié)碼對應(yīng)的字符編碼是什么。如果沒有指定則使用默認字符編碼"ASCII"進行解碼導(dǎo)致解碼失敗，導(dǎo)致如下錯誤：

　　SyntaxError: Non-ASCII character '\xc4' in file xxx.py on line 11, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

　　對于Python3來講，執(zhí)行過程是一樣的，只是Python3的解釋器以"UTF-8"作為默認編碼，但是這并不表示可以完全兼容中文問題。比如我們在Windows上進行開發(fā)時，Python工程及代碼文件都使用的是默認的GBK編碼，也就是說Python代碼文件是被轉(zhuǎn)換成GBK格式的字節(jié)碼保存到磁盤中的。Python3的解釋器執(zhí)行該代碼文件時，試圖用UTF-8進行解碼操作時，同樣會解碼失敗，導(dǎo)致如下錯誤：

　　SyntaxError: Non-UTF-8 code starting with '\xc4' in file xxx.py on line 11, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

　　創(chuàng)建一個工程之后先確認該工程的字符編碼是否已經(jīng)設(shè)置為UTF-8

　　為了兼容Python2和Python3，在代碼頭部聲明字符編碼：-*- coding:utf-8 -*-

　　4、Python2與Python3編碼過程

　　Python2中的字符串進行字符編碼轉(zhuǎn)換過程是：

　　字節(jié)串-->decode('原來的字符編碼')-->Unicode字符串-->encode('新的字符編碼')-->字節(jié)串

　　Python3中定義的字符串默認就是unicode，因此不需要先解碼，可以直接編碼成新的字符編碼：

　　字符串-->encode('新的字符編碼')-->字節(jié)串

作者：傳智播人工智能+Python培訓(xùn)學(xué)院

首發(fā)： http://python.itheima.com

上一篇：Pickle模塊的使用 下一篇：python前端HTML和CSS進階