Интернаука №16 (часть1) 2020 - страница 3

стр.

одномерный вектор признаков. CNN были чрезвы-

ли перейти с CPU на GPU, где обучение позволяет

чайно успешны в приложениях компьютерного зре-

значительно ускорить обучение глубоких моделей.

ния, таких как распознавание лиц, обнаружение

Дополнительные факторы, возможно, также сыгра-

объектов, мощное зрение в робототехнике и авто-

ли меньшую роль, такие как смягчение проблемы

мобили с автоматическим управлением.

исчезающего градиента из-за отрыва от насыщаю-

Архитектура CNN использует три конкретных

щих функций активации, предложение новых мето-

идеи: (а) локальные рецептивные поля, (б) привя-

дов регуляризации, а также появление мощных сред,

занные веса и (в) пространственная подвыборка. На

таких как TensorFlow [1], Theano и Mxnet, которые

основе локального восприимчивого поля каждый

позволяют быстрее создавать прототипы.

блок в сверточном уровне получает входные данные

Глубокое обучение позволило сделать большие

от набора соседних блоков, принадлежащих преды-

успехи в различных областях компьютерного зре-

дущему уровню. Таким образом, нейроны способны

ния, таких как обнаружение объектов, отслеживание

извлекать элементарные визуальные особенности,

движения, распознавание действий, оценка позы

такие как края или углы. Эти признаки затем объ-

человека (и семантическая сегментация.

единяются последующими сверточными слоями для

Методы глубокого обучения и разработки.

обнаружения признаков более высокого порядка.

Сверточные нейронные сети (CNN) были вдохнов-

Кроме того, идея о том, что детекторы элементар-

лены структурой зрительной системы, и в частности

ных признаков, которые полезны для части изобра-

ее моделями. Первые вычислительные модели, ос-

жения, вероятно, будут полезны для всего изобра-

5

Журнал «Интернаука»


№ 16 (145), часть 1, 2020 г.


жения, реализуется концепцией связанных весов.

мым данным и меткам. Они формируются путем

Концепция связанных весов ограничивает набор

сложения RBM и их тренировки. DBN изначально

единиц одинаковыми весами. Конкретно, единицы

использует эффективную послойную стратегию

сверточного слоя организованы в плоскостях. Все

обучения, чтобы инициализировать глубокую сеть,

подразделения самолета имеют одинаковый набор

и, в дальнейшем, точно настраивает все веса вместе

весов. Таким образом, каждая плоскость отвечает за

с желаемыми результатами. DBN - это графические

построение определенной функции. Выходы само-

модели, которые учатся извлекать глубокое иерар-

летов называются картами объектов. Каждый свер-

хическое представление обучающих данных. Прин-

точный слой состоит из нескольких плоскостей, по-

цип послойного обучения без присмотра может

этому в каждом месте можно построить несколько

быть применен к DBN с RBM в качестве строитель-

карт объектов.

ных блоков для каждого уровня].

В целом было показано, что CNN значительно

В процессе обучения DBN есть два основных

превосходят традиционные подходы машинного

преимущества. Во-первых, он решает проблему

обучения в широком спектре задач компьютерного

надлежащего выбора параметров, что в некоторых

зрения и распознавания образов. Их исключитель-

случаях может привести к плохой локальной опти-

ная производительность в сочетании с относитель-

мальности, обеспечивая тем самым надлежащую

ной легкостью в обучении являются основными

инициализацию сети. Во-вторых, нет необходимо-

причинами, объясняющими огромный рост их попу-

сти в помеченных данных, поскольку процесс не

лярности за последние несколько лет.

контролируется. Тем не менее, DBN также страдают

Сети Deep Belief и Deep Boltzmann Machines -

от ряда недостатков, таких как вычислительные за-

это модели глубокого обучения, принадлежащие к

траты, связанные с обучением DBN, и тот факт, что

«семейству Больцмана», в том смысле, что они ис-

шаги к дальнейшей оптимизации сети на основе

пользуют Ограниченную машину Больцмана (RBM)

приближенного обучения с максимальной вероятно-