Популярная информатика - страница 23

стр.

Однако, как показывает история науки и техники, условия, в которых они развиваются, не являются постоянными, а поэтому механизм экспоненциального роста потоков НТИ часто нарушается. Это нарушение объясняется рядом сдерживающих факторов, в частности войнами, нехваткой материальных и человеческих ресурсов и т. д. В действительности рост числа документов не подчиняется поэтому экспоненциальной зависимости, хотя в определенные периоды развития науки и техники в отдельных областях знаний она проявляется достаточно четко. В чем же причина такого стремительного нарастания потоков документальной информации?

В предыдущих разделах мы обращали внимание на то, что информация играет огромную роль в развитии человеческого общества, поэтому оно сопровождается опережающим по темпам ростом объемов информации. Рост документальных потоков научной информации можно связывать с ростом числа создателей научной информации. Темпы этого роста описываются показательной функцией. Например, в течение последних 50 лет число научных работников в СССР удваивалось каждые 7 лет, в США — каждые 10 лет, в европейских странах — каждые 10…15 лет.

Конечно, темпы роста числа научных работников должны подвергнуться замедлению и достигнуть какой-то более или менее постоянной величины по отношению ко всему количеству работающего населения. В противном случае все население через какое-то время будет занято исследовательскими и опытно-конструкторскими работами, что нереально. Поэтому в будущем следует ожидать замедления темпов роста числа научных документов. В настоящее время эти темпы все еще высоки и внушают потребителям информации тревогу: как хранить и обрабатывать документы, как найти среди них тот, который нужен?

Положение кажется безвыходным: действующий пока в царстве документов закон экспоненциального роста документов резко обострил в нем как «жилищную», так и «транспортную» проблемы.

Однако, как оказывается, здесь существует закон, несколько смягчающий создавшееся положение…

В конце 40-х годов нашего столетия Дж. Ципф, собрав огромный статистический материал, попытался показать, что распределение слов естественного языка подчиняется одному простому закону, который можно сформулировать следующим образом. Если к какому-либо достаточно большому тексту составить список всех встретившихся в нем слов, затем расположить эти слова в порядке убывания частоты их встречаемости в данном тексте и пронумеровать в порядке от 1 (порядковый номер наиболее часто встречающегося слова) до R, то для любого слова произведение его порядкового номера (ранга) / в таком списке и частоты его встречаемости в тексте будет величиной постоянной, имеющей примерно одинаковое значение для любого слова из этого списка. Аналитически закон Ципфа может быть выражен в виде

fr = c,

где f — частота встречаемости слова в тексте;

r — ранг (порядковый номер) слова в списке;

с — эмпирическая постоянная величина.

Полученная зависимость графически выражается гиперболой. Исследовав таким образом самые разнообразные тексты и языки,

в том числе языки тысячелетней давности, Дж. Ципф для каждого из них построил указанные зависимости, при этом все кривые имели одинаковую форму — форму «гиперболической лестницы», т. е. при замене одного текста другим общий характер распределения не изменялся.

Закон Ципфа был открыт экспериментально. Позднее Б. Мандельброт предложил его теоретическое обоснование. Он полагал, что можно сравнивать письменный язык с кодированием, причем все знаки должны иметь определенную «стоимость». Исходя из требований минимальной стоимости сообщений, Б. Мандельброт математическим путем пришел к аналогичной закону Ципфа зависимости

fr> γ = c,

где γ — величина (близкая к единице), которая может изменяться в зависимости от свойств текста.

Дж. Ципфом и другими исследователями было установлено, что такому распределению подчиняются не только все естественные языки мира, но и другие явления социального и биологического характера: распределения ученых по числу опубликованных ими статей (А. Лотка, 1926 г.), городов США по численности населения (Дж. Ципф, 1949 г.), населения по размерам дохода в капиталистических странах (В. Парето, 1897 г.), биологических родов по численности видов (Дж. Уиллис, 1922 г.) и др.