|
Вероятности появления букв |
|
С этой целью вводят понятие об избыточности алфавита в данном источнике сообщения (или, как часто говорят, избыточности сообщения)
Из сказанного выше ясно, что причинами избыточности могут являться неодинаковые вероятности элементов сообщения и наличие вероятностных связей между близко расположенными элементами.
Для многих практических задач интерес представляют источники, выдающие сообщения в виде текста, написанного на каком-либо языке. В частности, для русского языка, считая число букв в алфавите равным 32, имеем #MaKU = log232=5 дв. ед.
Если учесть неравные вероятности появления букв в тексте и зависимость этих вероятностей от ранее предшествовавших букв, то по данным различных авторов энтропия, приходящаяся на одну букву, находится в пределах от 1 до 2,5 дв. ед. Такой значительный разброс результатов вызван трудностью учета всех вероятностных связей, простирающихся на значительное число последовательных букв. К тому же величина энтропии в некоторой степени зависит от характера текста. Исходя из этих данных, избыточность русского алфавита лежит в пределах от 0,5 до 0,8. По-видимому, вторая цифра ближе к действительности. Близкие к этим данные получены и для алфавитов многих других языков.
|