首頁新聞動態(tài)正文

什么是信息熵?從存儲單位到信息熵

更新時間:2019-11-05 來源:黑馬程序員 瀏覽量:

我們都知道,計算機(jī)的存儲單位有KB、MB、GB、TB等,換算起來,1TB=1024GB、1GB=1024MB、1MB=1024KB、1KB=1024B。1B我們稱為一個字節(jié),一個字節(jié)有8位,即1B=8bit。bit表示計算機(jī)的位,同時它也是信息熵的度量單位。

什么是信息熵?

信息是個很抽象的概念。人們常常說信息很多,或者信息較少,但卻很難說清楚信息到底有多少。比如一本五十萬字的中文書到底有多少信息量。

直到1948年,香農(nóng)提出了“信息熵”的概念,才解決了對信息的量化度量問題。信息熵這個詞是C.E.香農(nóng)從熱力學(xué)中借用過來的。Shannon 借鑒了熱力學(xué)的概念,把信息中排除了冗余后的平均信息量稱為“信息熵”,并給出了計算信息熵的數(shù)學(xué)表達(dá)式。

1572939846433_信息熵.jpg

通俗的理解,當(dāng)一個事物有多種可能發(fā)生的情況時,具體單個情況發(fā)生的不確定性叫做熵,而能夠消除這種情況發(fā)生的不確定性的事物叫做信息。二者數(shù)量相等,意義相反,我們可以通過獲取信息來消除不確定性(熵) 。能夠消除不確定性的信息有三種類型:

1) 調(diào)整概率

2) 排除干擾

3) 確定情況

以商場抓獎活動為例,你的面前有四個顏色分別為紅、黃、藍(lán)、綠的小球,其中一個小球里面有大獎。如果四個小球獲獎概率相等(都是1/4),那么此時的信息熵最大;如果確定了紅色小球里面有獎,那么此時的信息熵最小。

如果我們告訴客戶,藍(lán)色小球有一半的概率有獎,這就是調(diào)整概率,使得藍(lán)色小球中獎的不確定性降低,其他小球中獎的不確定性增加;如果我們告訴客戶,綠色小球肯定沒有獎,這就是排除干擾,使得綠色小球沒有了不確定性,其他小球獲獎的不確定性也降低了;如果我們直接告訴客戶紅色小球里面有獎,這就是確定情況,使得消除了各個小球的不確定性。

定量看信息與信息熵

我們知道,當(dāng)事物發(fā)生的不確定性越大,它的信息熵越大,反之,信息熵越小。但是我們?nèi)绾瘟炕畔⒛?,為何信息熵的還有單位(bit)?

弄清這個問題前,我們先看一下我們是如何定義其他常見的物理量(長度、質(zhì)量、時間)的呢?

以長度為例,米是如何定義出來的,我們?nèi)绾稳チ炕粋€物體的長度呢?答案是我們選擇了參照物標(biāo)準(zhǔn),我們規(guī)定了一個物體長度為1米,其他物體的長度就相當(dāng)于多少倍參照物體的長度。比如一個物體的長度是參照物的長度的兩倍,參照物長度1米,那么這個物體的長度就是2米。

與長度、質(zhì)量、時間相同,信息熵也是一個物理量。把長度定義引申到信息熵,我們?nèi)绻捕x一個參照事件的不確定性(信息熵),只要看待測事件的不確定性(信息熵)相當(dāng)于多少個參照事件的不確定性(信息熵)即可。

拋一枚硬幣,有正、反兩種等概率情況,這個事件所能產(chǎn)生的結(jié)果的信息熵我們規(guī)定為1bit,上文中4個小球抓獎,有四種等概率情況,這個事件所能產(chǎn)生的結(jié)果的信息熵相當(dāng)于我們拋兩次硬幣所產(chǎn)生的結(jié)果,因此為2bit。不過要注意,如果是8個小球抓獎,有八種等概率情況,信息熵不是4bit,而是3bit(2^3=8),因?yàn)榘朔N等概率情況相當(dāng)拋3次硬幣所產(chǎn)生的結(jié)果,它們之間是指數(shù)關(guān)系。

1572939859037_信息熵2.jpg

到這里,我們就得到了信息熵的公式了,它的單位是bit。

本文來自:黑馬程序員 大數(shù)據(jù)學(xué)院 cloud.itheima.com


分享到:
在線咨詢 我要報名
和我們在線交談!