Популярная информатика - страница 25
· 8 = 256 наименований! Из них треть интересующих нас статей сосредоточена всего в 8 журналах, т. е. статьи распределяются по наименованиям журналов неравномерно. С одной стороны наблюдается концентрация значительного количества статей по определенной тематике в нескольких профильных журналах, с другой — рассеяние этих статей в огромном количестве изданий по смежной или далекой от рассматриваемой тематике, в то время как на практике необходимо выявить основные источники по интересующей нас области научно-технических знаний, а не случайные издания.
Закономерности концентрации и рассеяния научно-технической информации в царстве документов позволяют выбирать именно те издания, которые с наибольшей вероятностью содержат публикации, соответствующие определенному профилю знаний. В массовом процессе информационного обеспечения в масштабах страны использование этих закономерностей позволяет сократить для народного хозяйства огромные расходы.
Существующее рассеяние публикаций нельзя оценивать только как вредное явление. В условиях рассеяния улучшаются возможности для межотраслевого обмена информацией.
Попытка сконцентрировать все публикации одного профиля в нескольких журналах, т. е. не допустить их рассеяния, будет иметь отрицательные последствия, не говоря уж о том, что точное отнесение документа к тому или иному профилю не всегда представляется возможным.
Результаты проверок закона рассеяния Брэдфорда, как показал С. Брукс, имеют различные степени соответствия. Несмотря на внесенные поправки, модель Брэдфорда не отражает разнообразия реальных распределений. Это несоответствие можно объяснить тем, что Брэдфорд сделал свои выводы, основываясь на выборе массивов, относящихся только к узким тематическим областям.
Огромная заслуга Дж. Ципфа и С. Брэдфорда состоит в том, что они положили начало строгому исследованию документальных информационных потоков (ДИП), которые представляют собой совокупности научных документов-публикаций и неопубликованных материалов (например, отчетов по научно-исследовательским и опытно-конструкторским работам). Дальнейшие исследования, среди которых видное место занимают работы советского специалиста в области информатики В.И. Горьковой, показали, что можно определять не только количественные параметры совокупностей научных документов, но и совокупностей элементов признаков научных документов: авторов, терминов, индексов классификационных систем, наименований изданий, т. е. наименований элементов, характеризующих содержание научных документов. Например, можно расположить журналы в порядке убывания числа печатающихся в них авторов, в порядке убывания средней величины публикующихся в них статей или упорядочить совокупность документов по любому ее элементу.
Упорядоченность задается ранжированием (порядком размещения) наименований элементов по частоте их появления в порядке ее убывания. Такая упорядоченная совокупность наименований элементов называется ранговым распределением. Распределения, которые в свое время изучал Ципф, — это типичные примеры ранговых распределений. Оказалось, что вид рангового распределения, его строение характеризуют ту совокупность документов, к которой относится данное ранговое распределение. Выяснилось, что при построении ранговые распределения в большинстве случаев имеют форму закономерности Ципфа с поправкой Мандельброта:
fr> γ = c.
При этом коэффициент γ — величина переменная. Постоянство коэффициента γ сохраняется только на среднем участке графика распределения. Этот участок принимает форму прямой, если график вышеприведенной закономерности построить в логарифмических координатах. Участок распределения с γ = const называется центральной зоной рангового распределения (значение аргумента на этом участке изменяется от Inr>1, до Inr>2). Значениям аргумента от 0 до Inr>1 соответствует зона ядра рангового распределения, а значениям аргумента от Inr>2 до Inr>3 — так называемая зона усечения.
Какой же смысл заложен в существовании трех явно различаемых зон ранговых распределений? Если последнее относится к терминам, составляющим какую-либо область знании, то ядерная зона, или зона ядра рангового распределения, содержит наиболее общеупотребительные, общенаучные термины. Центральная зона содержит термины, наиболее характерные для данной области знаний, которые в совокупности выражают ее специфичность, отличие от других наук, «охватывают ее основное содержание». В зоне усечения же сосредоточены термины, сравнительно редко употребляющиеся в данной области знаний.