Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”
5-ая Европейская Конференция Исследования и Продвинутой Технологии для Цифровых Библиотек
Дармштадт, Германия, 4-8 сентября 2001.
Многоязычные информационные ресурсы, состоящие из текстов на нескольких языках, которые трудно отразить одной 8-битовой системой кодирования, в настоящее время могут быть представлены схемой кодирования символов Unicode. Однако использование Unicode может привести к снижению точности системы Оптического Распознавания Символов (Optical Character Recognition) из-за наличия букв в разных алфавитах, изображаемых одинаково, но имеющих различную фонетическую нагрузку. Это ухудшение может существенно увеличить время необходимое для корректировки полученных текстов. Проект перевода в электронную форму двадцати летнего периода публикации “Летопись журнальных статей”, осуществляемый Цифровой библиотекой университета Индианы, представляет собой пример проекта библиотечной оцифровки многошрифтового информационного ресурса для кодировки которого был использован Unicode.