Интернаука №16 (часть1) 2020 - страница 3
одномерный вектор признаков. CNN были чрезвы-
ли перейти с CPU на GPU, где обучение позволяет
чайно успешны в приложениях компьютерного зре-
значительно ускорить обучение глубоких моделей.
ния, таких как распознавание лиц, обнаружение
Дополнительные факторы, возможно, также сыгра-
объектов, мощное зрение в робототехнике и авто-
ли меньшую роль, такие как смягчение проблемы
мобили с автоматическим управлением.
исчезающего градиента из-за отрыва от насыщаю-
Архитектура CNN использует три конкретных
щих функций активации, предложение новых мето-
идеи: (а) локальные рецептивные поля, (б) привя-
дов регуляризации, а также появление мощных сред,
занные веса и (в) пространственная подвыборка. На
таких как TensorFlow [1], Theano и Mxnet, которые
основе локального восприимчивого поля каждый
позволяют быстрее создавать прототипы.
блок в сверточном уровне получает входные данные
Глубокое обучение позволило сделать большие
от набора соседних блоков, принадлежащих преды-
успехи в различных областях компьютерного зре-
дущему уровню. Таким образом, нейроны способны
ния, таких как обнаружение объектов, отслеживание
извлекать элементарные визуальные особенности,
движения, распознавание действий, оценка позы
такие как края или углы. Эти признаки затем объ-
человека (и семантическая сегментация.
единяются последующими сверточными слоями для
Методы глубокого обучения и разработки.
обнаружения признаков более высокого порядка.
Сверточные нейронные сети (CNN) были вдохнов-
Кроме того, идея о том, что детекторы элементар-
лены структурой зрительной системы, и в частности
ных признаков, которые полезны для части изобра-
ее моделями. Первые вычислительные модели, ос-
жения, вероятно, будут полезны для всего изобра-
5
Журнал «Интернаука»
№ 16 (145), часть 1, 2020 г.
жения, реализуется концепцией связанных весов.
мым данным и меткам. Они формируются путем
Концепция связанных весов ограничивает набор
сложения RBM и их тренировки. DBN изначально
единиц одинаковыми весами. Конкретно, единицы
использует эффективную послойную стратегию
сверточного слоя организованы в плоскостях. Все
обучения, чтобы инициализировать глубокую сеть,
подразделения самолета имеют одинаковый набор
и, в дальнейшем, точно настраивает все веса вместе
весов. Таким образом, каждая плоскость отвечает за
с желаемыми результатами. DBN - это графические
построение определенной функции. Выходы само-
модели, которые учатся извлекать глубокое иерар-
летов называются картами объектов. Каждый свер-
хическое представление обучающих данных. Прин-
точный слой состоит из нескольких плоскостей, по-
цип послойного обучения без присмотра может
этому в каждом месте можно построить несколько
быть применен к DBN с RBM в качестве строитель-
карт объектов.
ных блоков для каждого уровня].
В целом было показано, что CNN значительно
В процессе обучения DBN есть два основных
превосходят традиционные подходы машинного
преимущества. Во-первых, он решает проблему
обучения в широком спектре задач компьютерного
надлежащего выбора параметров, что в некоторых
зрения и распознавания образов. Их исключитель-
случаях может привести к плохой локальной опти-
ная производительность в сочетании с относитель-
мальности, обеспечивая тем самым надлежащую
ной легкостью в обучении являются основными
инициализацию сети. Во-вторых, нет необходимо-
причинами, объясняющими огромный рост их попу-
сти в помеченных данных, поскольку процесс не
лярности за последние несколько лет.
контролируется. Тем не менее, DBN также страдают
Сети Deep Belief и Deep Boltzmann Machines -
от ряда недостатков, таких как вычислительные за-
это модели глубокого обучения, принадлежащие к
траты, связанные с обучением DBN, и тот факт, что
«семейству Больцмана», в том смысле, что они ис-
шаги к дальнейшей оптимизации сети на основе
пользуют Ограниченную машину Больцмана (RBM)
приближенного обучения с максимальной вероятно-