Informacja a niepewność.

Najprościej mówiąc, informacja jest przeciwieństwem niepewności. Niepewność oznacza brak informacji, otrzymanie informacji likwiduje niepewność. Wyobraźmy sobie częściowo wypełnioną szklankę: napełniona część szklanki obrazuje posiadaną informację, pusta - brak informacji czyli niepewność a napełnianie - napływ informacji likwidującej tę niepewność. Podobnie jak ilość cieczy w pełnej szklance równa jest pojemności pustej szklanki tak niepewność jest równa ilości informacji potrzebnej dla zyskania pewności.

Jak można określić ilość informacji?

Najbardziej naturalnym sposobem zdobywania informacji jest otrzymywanie odpowiedzi na zadawane pytania. Odpowiedzi miewają jednak bardzo różną formę i trudno je porównywać. Aby temu zaradzić trzeba zadawać takie pytania aby odpowiadając wystarczyło wskazać jedną z wcześniej przygotowanych odpowiedzi standardowych, tak jak to robią autorzy większości ankiet i testów. Najprostszą standardową odpowiedzią jest Tak lub Nie. Jeśli odpowiedzi na pytania ograniczają się do takiego wyboru to ilość pytań, które trzeba zadać (i odpowiedzi, które trzeba otrzymać) aby zdobyć pewność, czyli uzyskać pełną informację, może być miarą ilości tej informacji. Odpowiedź Tak lub Nie (jeśli nic wcześniej nie sugeruje jaką odpowiedź otrzymamy - obie możliwości są jednakowo prawdopodobne) przekazuje najmniejszą możliwą ilość informacji i stanowi jednostkę ilości informacji: 1 bit (1 b). Bardziej ogólnie: każdy wybór jednej z dwóch równoprawdopodobnych możliwości (Tak lub Nie, Prawda lub Fałsz, Plus lub Minus, ... itp.) przekazuje 1 bit informacji - przy czym istotny jest sam wybór a nie rodzaj możliwości do wyboru. Inaczej mówiąc, każdy obiekt mogący znaleźć się w jednym z dwóch stanów (dwustanowy) jest "pojemnikiem" na 1 bit informacji.

Przykłady pomiaru ilości informacji drogą określenia ilości pytań potrzebnych do jej uzyskania:

Wyobraźmy sobie dwa postawione do góry dnem, puste kubki. Pod jednym z nich (nie widać gdzie) ukryta jest kostka - trzeba dowiedzieć się, pod którym. Ile informacji potrzeba? Niepewność, pod którym z kubków ukryta jest kostka, oznacza brak informacji (zobacz rys. 1).

całkowita niepewność = brak informacji
po 1 pytaniu: pewność = pełna informacja (1 bit)

Rys. 1. Kostka ukryta w jednym z dwóch możliwych miejsc. Dla zdobycia pewności co do miejsca jej ukrycia trzeba 1 bitu informacji.

Jakie pytania trzeba zadać aby najszybciej uzyskać żądaną informację? Można zapytać: Czy kostka jest pod lewym kubkiem?. Odpowiedź Tak wskaże, że kostka tam jest (sytuacja jak na rysunku), odpowiedź Nie - kostka jest pod prawym kubkiem. Pełna informację zdobywamy już po jednym pytaniu, zatem ilość tej informacji wynosi 1 bit.

Jeśli kostka ukryta jest pod jednym z czterech kubków (zobacz rys. 2) to aby uzyskać informację, pod którym z nich - trzeba zadać dwa pytania.

całkowita niepewność = brak informacji
po 1 pytaniu: mniej niepewności = więcej informacji (1 bit)
po 2 pytaniu: pewność = pełna informacja (2 bity)

Rys. 2. Kostka ukryta w jednym z czterech możliwych miejsc. Dla zdobycia pewności co do miejsca jej ukrycia trzeba 2 bitów informacji.

Podzieliwszy umownie kubki na dwa "lewe" i dwa "prawe" zapytamy: Czy kostka jest pod jednym z "lewych" kubków?. Odpowieź Tak wskaże, że kostka jest pod pierwszym lub drugim (sytuacja jak na rysunku), odpowiedź Nie - kostka jest pod trzecim lub czwartym. Teraz już tylko dwa kubki są "podejrzane" o to, że pod nimi jest kostka. Niepewność została zmniejszona, uzyskaliśmy 1 bit informacji (odpowiedź na jedno pytanie). Odpowiedź na kolejne, drugie pytanie wskaże, pod którym z dwóch podejrzanych kubków kryje się kostka (jak w przykładzie z rys. 1) - dostaniemy kolejny, drugi bit i w sumie już pełną informację - pewność.

Jeśli kostka ukryta jest pod jednym z ośmiu kubków (zobacz rys. 3) początkowa niepewność co do miejsca jej ukrycia jest większa a zatem większa jest też informacja potrzebna aby zyskać pewność.

całkowita niepewność = brak informacji
po 1 pytaniu: mniej niepewności = więcej informacji (1 bit)
po 2 pytaniu: mniej niepewności = więcej informacji (2 bity)
po 3 pytaniu: pewność = pełna informacja (3 bity)

Rys. 3. Kostka ukryta w jednym z ośmiu możliwych miejsc. Dla zdobycia pewności co do miejsca jej ukrycia trzeba 3 bitów informacji.

Wypróbowanym sposobem, dzieląc umownie kubki na cztery "lewe" i cztery "prawe" zapytamy: Czy kostka jest pod jednym z "lewych" kubków?. Odpowiedź dostarczy pierwszego bitu informacji i zmniejszy niepewność, ograniczając ilość "podejrzanych" kubków do czterech. Dalej postąpimy tak jak w przykładzie z rys. 2, uzyskując kolejny, drugi bit informacji a następnie tak jak w przykładzie z rys. 1, uzyskując trzeci, ostatni bit i pewność co do miejsca ukrycia kostki.

Łatwo można sobie wyobrazić, że zlokalizowanie kostki pod jednym z szesnastu kubków wymagałoby 4 bitów informacji (4 pytań). Uogólniając: każde dwukrotne zwiększenie ilości możliwych położeń (stanów) kostki powoduje wzrost zawartej w układzie informacji o 1 bit. Nawiasem mówiąc, wskazuje to na logarytmiczny charakter zależności co znajduje odzwierciedlenie we wzorze Shannona.

Mierzenie ilości informacji ilością zadawanych pytań jest możliwe tylko w prostych przypadkach a w większości sytuacji byłoby bardzo kłopotliwe i nieużyteczne. Wystarczy wyobrazić sobie sytuację, w której kostka ukryta jest pod jednym z trzech kubków. Do zlokalizaowania kostki w tym układzie potrzeba jednego lub dwóch pytań. Ile dokładnie informacji zawiera ten układ?
Potrzebny jest inny, jednoznaczny sposób pomiaru informacji.

Informacja a prawdopodobieństwo - wzór Shannona (zobacz wzór)

Za początek teorii informacji przyjmuje się rok 1948 kiedy Claude Shannon opublikował pracę: "Matematyczna teoria łączności". Podał w niej wzór wiążący informację z prawdopodobieństwem. Według wzoru podanego przez Shannona, ilość informacji przekazywanej przez jeden znak, zależy od prawdopodobieństwa z jakim ten znak może przybierać różne wartości. Inaczej mówiąc, jeśli nośnik przekazujący informację może znaleźć się w różnych stanach, to ilość przekazywanej informacji zależy od tego z jakim prawdopodobieństwem nośnik może znaleźć się w każdym z możliwych stanów (jaka jest szansa na to, że nośnik znajdzie się w określonym stanie). Fizyczna natura nośnika nie ma tu znaczenia, może to być np sygnalizator świetlny (różne stany to różne kolory światła), napisana litera (różne stany to różne litery alfabetu), cyfra na wyświetlaczu (cyfry od 0 do 9), pionek na szachownicy (64 pola, na których można go postawić), ... Ważne jest aby po kolei uwzględnić wszystkie stany, w których nośnik może się znaleźć. Ponieważ nośnik na pewno znajdzie się w jednym z możliwych stanów a prawdopodobieństwo (szansa) zdarzenia pewnego wynosi 1, suma wszystkich uwzględnionych we wzorze Shannona prawdopodobieństw musi być równa 1. Zbadajmy jakie wyniki daje wzór Shannona.

Obliczanie ilości informacji przy użyciu wzoru Shannona.

Dla ułatwienia skorzystamy z programu Shannon. Po uruchomieniu programu (przycisk powyżej), w polu prawdopodobieństwo kolejno wpisujemy (w postaci ułamka zwykłego lub dziesiętnego) szanse znalezienia się badanego nośnika informacji w każdym z możliwych stanów i dodajemy je do wzoru Shannona przyciskiem dodaj. Trzeba zwrócić uwagę aby po wprowadzeniu ostatniego prawdopodobieństwa uzyskać wartość 1 w polu prawdopodobieństwo całkowite. Wynik czyli ilość informacji w bitach, odczytamy w polu ilość informacji. Przycisk kasuj służy oczywiście do skasowania wyniku obliczeń. Zobaczmy jak to działa na kilku przykładach, najpierw na tych, w których znamy już wynik.

W przypadku przedstawionym na rys. 1 nośnikiem informacji jest kostka. Możliwe są dwa stany: kostka jest ukryta pod lewym lub pod prawym kubkiem. Dopóki nie wiemy w którym stanie znajduje się nośnik mamy zero informacji. Prawdopodobieństwo znalezienia się nośnika informacji w każdym ze stanów wynosi 1/2 czyli po prostu szanse znalezienia kostki pod jednym z kubków rozłożone są pół na pół. Sumą obu prawdopodobieństw jest 1, czyli pewność, jako że gdy poszukamy pod oboma kubkami znajdziemy kostkę na pewno. Podstawmy te dane do wzoru Shannona: skoro są dwa stany z prawdopodobieństwem 1/2, wpiszmy prawdopodobieństwo 1/2 i dwa razy dodajmy. Otrzymamy prawdopodobieństwo całkowite równe 1 i ilość informacji równą 1 bit.

W przypadku przedstawionym na rys. 2 możliwe są cztery stany kostki - nośnika informacji. Szanse znalezienia kostki dzielą się jednakowo pomiędzy cztery kubki - prawdopodobieństwo znalezienia się nośnika informacji w każdym ze stanów wynosi 1/4. W pole prawdopodobieństwo programu należy wpisać 1/4 i dodać cztery razy do wzoru Shannona. Otrzymamy prawdopodobieństwo całkowite równe 1 (poprawnie) i ilość informacji równą 2 bity.

Podobnie można sprawdzić przypadek przedstawiony na rys. 3 podstawiając osiem szans po 1/8.
We wszystkich trzech przypadkach wzór Shannona daje w wyniku tę samą ilość informacji co bezpośrednie liczenie pytań-bitów potrzebnych do uzyskania tej informacji. Jak widać program Shannon działa dobrze i możemy go teraz zastosować do przypadków, w których nie da się bezpośrednio policzyć pytań.

Najpierw zbadajmy przypadek gdy nośnik informacji może przyjąć jedną z trzech wartości (znaleźć się w jednym z trzech stanów), np kostka jest ukryta pod jednym z trzech kubków. Szanse znalezienia kostki rozkładają się po równo między trzy możliwości. Do wzoru Shannona należy więc wprowadzić trzy razy prawdopodobieństwo 1/3. Otrzymana ilość informacji wynosi około 1,58. Wynik ten, jak należało się spodziewać, mieści się pomiędzy 1 a 2, czyli pomiędzy wynikiem z przykładu na rys. 1 (kostka i dwa kubki) a wynikiem z przykładu na rys. 2 (kostka i cztery kubki).

Zobaczmy teraz ile informacji może przekazać liczba jednocyfrowa. Cyfra może przyjąć jedną z dziesięciu wartości (0 - 9), szansa pojawienia się każdej z tych wartości wynosi 1/10. Dodając dziesięć razy prawdopodobieństwo 1/10 do wzoru Shannona dostajemy w wyniku około 3,32. Wynika stąd, że np liczba trzycyfrowa przekazuje około 10 bitów informacji (bo 3 razy więcej).
Ile informacji przekazuje jedna litera (dla uproszczenia weźmy pod uwagę 24 litery)?
Ten komu wystarczy cierpliwości aby wykonać 24 dodawania do wzoru Shannona, przekona się, że około 4,58 bitu.

Jak dotąd analizowaliśmy przykłady, w których szane (prawdopodobieństwa) różnych stanów (wartości) nośnika były jednakowe. Tymczasem wiadomo, że np różne litery w tekście nie pojawiają się jednakowo często, samogłoski pojawiają się częściej niż spółgłoski, A częściej niż Y, itd. Trzeba im zatem konsekwentnie przypisać różne prawdopodobieństwa we wzorze Shannona. Jak to wpływa na "pojemność informacyjną" tekstu? Zanim odpowiemy na to pytanie, przeanalizujmy inny przykład.

Wyobraźmy sobie dwie loterie:
    - na pierwszej co drugi los wygrywa,
    - na drugiej wygrywa jeden los na sto.
Obliczmy ile bitów informacji zawiera wiadomość o wyniku losowania na pierwszej i na drugiej loterii. Na obu loteriach, jak to na loterii, mamy dwa możliwe stany: wygrana i przegrana - ale szanse wygranej mocno się różnią:
    - na pierwszej loterii - pół na pół (prawdopodobieństwo 1/2),
    - na drugiej loterii - jeden do stu (prawdopodobieństwo 1/100).
Obliczając dla pierwszej loterii, dodajemy do wzoru Shannona dwa prawdopodobieństwa, po 1/2 każde. Wiadomość o wyniku losowania na tej loterii to 1 bit.
Obliczając dla drugiej loterii, dodajemy do wzoru Shannona dwa różne prawdopodobieństwa: wygranej: 1/100 a następnie przegranej: 99/100. Wiadomość o wyniku losowania na tej loterii to zaledwie około 0,08 bitu.
Jak to wyjaśnić?

Na pierwszej loterii, przed otrzymaniem wiadomości o wyniku losowania, rzeczywiście nic o nim nie wiadomo. Zatem otrzymana wiadomość zawiera pełną informację, której ilość (jak zawsze w przypadku dwóch możliwych stanów nośnika) wynosi 1 bit.
Inaczej na drugiej loterii. Już przed losowaniem można się spodziewać raczej przegranej niż wygranej - nie jesteśmy zupełnie niepewni wyniku losowania, przewidujemy go a więc mamy już część informacji. Wynik losowania dostarcza jedynie brakującej części (w tym przykładzie około 0,08 bitu). Nasze wcześniejsze przewidywania co do wyniku losowania "warte są" więc około 0,92 bitu. Im więcej informacji mamy z góry, przed jej przekazem, tym mniej dostarcza jej sam przekaz. W skrajnym przypadku wynik losowania nie pozostawiałby z góry żadnej wątpliwości gdyby wszystkie losy były np przegrywające. Inaczej mówiąc, jeśli nośnik informacji (los) znajduje się w jednym stanie (przegrywającym) z prawdopodobieństwem 1 (z pewnością) to nie przekazuje żadnej informacji (0 bitów) - sprawdź przy pomocy programu Shannon.

Znajomość częstotliwości występowania różnych liter w tekście pozwala (chociaż w niewielkim stopniu) przewidywać jakie litery będą się w tekście pojawiać, co oznacza zmniejszenie się jego pojemności informacyjnej. W skrajnym przypadku, gdyby "tekst" składał się z powtórzeń tej samej litery, to w ogóle nie przekazywałby informacji.

© MarPaw '2003/04