Беседы об информатике - страница 21

стр.

Итак, вместо того чтобы сначала просуммировать все количества информации, беря слагаемые в том порядке, в каком встречаются буквы в тексте, а затем разделить полученную сумму на общее количество букв, мы сначала суммируем все числа, относящиеся к букве «а», и делим сумму на общее число букв «а» в тексте, затем поступаем так же с буквой «б» и т. д. А затем складываем между собой полученные промежуточные результаты.

Обратите внимание на то, что единица, деленная на число вхождений, скажем, буквы «а», и есть не что иное, как частота или в нашем случае вероятность встретить букву «а» в данном тексте. Значит, логарифм от средней частоты, с которой встречается буква «а», да еще поделенной на общее число вхождений буквы «а», представляет собой произведение вероятности вхождения буквы «а» на двоичный логарифм этой вероятности.

Общий итог вычислений, равный по Шеннону средней информации на символ, представляет собой сумму членов вида: вероятность, помноженная на логарифм этой же самой вероятности, — причем общее число суммируемых членов равно общему числу букв в исследуемом тексте.

А теперь самое интересное. На памятнике немецкому ученому Л. Больцману (1844–1906) высечена формула, выведенная им в 1877 году и связывающая вероятность состояния физической системы и величину энтропии этой системы. Мы не станем сейчас разбираться в смысле терминов: вероятность, состояние и энтропия. Скажем только, что энтропия — это термодинамическая величина, описывающая состояние нагретого тела, и что относительно этой самой энтропии выведен один из законов — так называемое второе начало термодинамики, — претендующий на роль одного из фундаментальных законов природы.

Так вот, формула, высеченная на памятнике Л. Больцмана, абсолютно совпадает с формулой, предложенной К. Шенноном для среднего количества информации, приходящейся, на один символ. Совпадение это произвело столь сильное впечатление, что даже количество информации стали, называть энтропией.

Теория, предложенная К. Шенноном, упала на исключительно благоприятную почву. В это время, то есть в 40-х годах нашего века, теория вероятностей совершала триумфальное шествие по разным отраслям знаний. Еще в конце XIX века завершилось построение термодинамики. К 30-м годам была окончательно сформулирована квантовая механика, в которой понятие о вероятности состояния занимает одно из центральных мест. И вот теперь — теория связи. Соображения, развитые К. Шенноном, позволили решить много практических задач и, в частности, чрезвычайно важную задачу выделения сигнала на уровне шумов. Применяя шенноновские методы, можно не только обнаруживать, но и исправлять отдельные ошибки, встречающиеся в передаваемых текстах. Справедливости ради скажем, что то же самое мы умеем делать и чисто интуитивно. Например, увидев в конце телеграммы слово «цекую», мы, не задумываясь, читаем его как «целую», не используя при этом никаких теорий.

В чем состояло основное достижение шенноновской теории? С ее помощью была доказана общая возможность выделения сигнала из смеси его с шумом даже в тех случаях, когда мощность шума во много раз превосходит мощность сигнала. Это дало сильный толчок развитию радиолокации, радиоастрономии и других областей науки и техники.

Н. Винер включил шенноновскую теорию информации как составную часть своей кибернетики.


Долой неопределенность!

Средний логарифм вероятностей, или, иначе, величина, называемая энтропией, обладает примечательным свойством. Она принимает максимальное значение, когда все вероятности одинаковы или — применительно к термодинамическим системам, — когда все состояния системы равновероятны. Это послужило поводом для следующей трактовки шенноновской меры количества информации. Рассуждали примерно так.

Система, все состояния которой равновероятны, характеризуется наибольшей степенью неопределенности. Если все состояния равновероятны, нет никаких оснований выделить одно какое-то состояние, предпочесть его другим. Отсюда вывод: чем больше энтропия системы, тем больше степень ее неопределенности. Поступающее сообщение полностью или частично снимает эту неопределенность. Следовательно, количество информации можно измерять тем, насколько понизилась энтропия системы после поступления сообщения. За меру количества информации принимается та же энтропия, но взятая с обратным знаком.