|
Скачать для фотошопа и сайта Нейросети на все случаи жизни Все о Нейросети Метод проектирования нейронных сетей (Метод проектирования нейронных сетей, оптимально подходящих) |
Метод проектирования нейронных сетей |
Дата: Четверг, 28.12.2023, 10:41 | Сообщение # 1
Метод проектирования нейронных сетей, оптимально подходящих для определенных задач
Исследователи Массачусетского технологического института обнаружили, что нейронные сети могут быть спроектированы таким образом, чтобы свести к минимуму вероятность неправильной классификации входных данных. Изображение предоставлено Хосе-Луисом Оливаресом, Массачусетский технологический институт, с рисунками из iStock. Нейронные сети, разновидность модели машинного обучения, используются, чтобы помочь людям выполнять широкий спектр задач, от прогнозирования того, достаточно ли высок чей-либо кредитный рейтинг, чтобы претендовать на получение кредита, до диагностики наличия у пациента определенного заболевания. Но исследователи все еще имеют лишь ограниченное представление о том, как работают эти модели. Является ли данная модель оптимальной для определенной задачи, остается открытым вопросом. Исследователи Массачусетского технологического института нашли некоторые ответы. Они провели анализ нейронных сетей и доказали, что их можно спроектировать так, чтобы они были “оптимальными”, что означает, что они сводят к минимуму вероятность неправильной классификации заемщиков или пациентов в неправильную категорию, когда сетям предоставляется много помеченных обучающих данных. Для достижения оптимальности эти сети должны быть построены с определенной архитектурой. Исследователи обнаружили, что в определенных ситуациях строительные блоки, которые позволяют нейронной сети быть оптимальной, не являются теми, которые разработчики используют на практике. Эти оптимальные строительные блоки, полученные в результате нового анализа, являются нетрадиционными и ранее не рассматривались, говорят исследователи. В статье, опубликованной на этой неделе в Трудах Национальной академии наук, они описывают эти оптимальные строительные блоки, называемые функциями активации, и показывают, как их можно использовать для проектирования нейронных сетей, которые обеспечивают лучшую производительность на любом наборе данных. Результаты сохраняются даже тогда, когда нейронные сети становятся очень большими. Эта работа может помочь разработчикам выбрать правильную функцию активации, что позволит им создавать нейронные сети, которые более точно классифицируют данные в широком диапазоне областей применения, объясняет старший автор Кэролайн Улер, профессор кафедры электротехники и компьютерных наук (EECS). “Хотя это новые функции активации, которые никогда раньше не использовались, это простые функции, которые кто-то действительно может реализовать для конкретной задачи. Эта работа действительно показывает важность наличия теоретических доказательств. Если вы стремитесь к принципиальному пониманию этих моделей, это действительно может привести вас к новым функциям активации, о которых вы иначе никогда бы не подумали ”, - говорит Улер, который также является содиректором Центра Эрика и Венди Шмидт в Broad Institute Массачусетского технологического института и Гарварда и исследователем Лаборатории информации и систем принятия решений Массачусетского технологического института (LIDS) и его Института данных, систем и общества (IDSS). К Улеру присоединились ведущий автор статьи Адитьянараянан Радхакришнан, аспирант EECS и научный сотрудник Центра Эрика и Венди Шмидт, и Михаил Белкин, профессор Института данных Халичиоглу Калифорнийского университета в Сан-Диего. Исследование активации Нейронная сеть - это тип модели машинного обучения, которая в общих чертах основана на человеческом мозге. Множество слоев взаимосвязанных узлов, или нейронов, обрабатывают данные. Исследователи обучают сеть выполнению задачи, показывая ей миллионы примеров из набора данных. Например, сеть, которая была обучена классифицировать изображения по категориям, скажем, собак и кошек, получает изображение, закодированное в виде чисел. Сеть выполняет серию сложных операций умножения, слой за слоем, пока результатом не станет всего одно число. Если это число положительное, сеть классифицирует изображение как собаку, а если отрицательное - как кошку. Функции активации помогают сети изучать сложные шаблоны во входных данных. Они делают это, применяя преобразование к выходным данным одного уровня перед отправкой данных на следующий уровень. Когда исследователи создают нейронную сеть, они выбирают одну функцию активации для использования. Они также выбирают ширину сети (сколько нейронов в каждом слое) и глубину (сколько слоев в сети).) “Оказывается, что если вы берете стандартные функции активации, которые люди используют на практике, и продолжаете увеличивать глубину сети, это дает вам действительно ужасную производительность. Мы показываем, что если вы разрабатываете с использованием различных функций активации, то по мере получения большего количества данных ваша сеть будет становиться все лучше и лучше ”, - говорит Радхакришнан. Он и его сотрудники изучили ситуацию, в которой нейронная сеть бесконечно глубока и широка — это означает, что сеть строится путем постоянного добавления новых слоев и новых узлов — и обучается выполнять задачи классификации. При классификации сеть учится распределять входные данные по отдельным категориям. “Чистая картина” После проведения детального анализа исследователи определили, что существует только три способа, которыми такого рода сети могут научиться классифицировать входные данные. Один из методов классифицирует входные данные на основе большинства входных данных в обучающих данных; если собак больше, чем кошек, он решит, что каждый новый входной сигнал - это собака. Другой метод классифицирует путем выбора метки (собака или кошка) точки обучающих данных, которая наиболее похожа на новые входные данные. Третий метод классифицирует новые входные данные на основе средневзвешенного значения всех похожих на него обучающих точек данных. Их анализ показывает, что это единственный метод из трех, который приводит к оптимальной производительности. Они определили набор функций активации, которые всегда используют этот оптимальный метод классификации. “Это была одна из самых удивительных вещей — независимо от того, что вы выберете в качестве функции активации, это будет просто один из этих трех классификаторов. У нас есть формулы, которые недвусмысленно укажут вам, о какой из этих трех идет речь. Это очень четкая картина ”, - говорит он. Они протестировали эту теорию на нескольких задачах сравнительного анализа классификации и обнаружили, что во многих случаях это привело к повышению производительности. Разработчики нейронных сетей могли бы использовать свои формулы для выбора функции активации, которая обеспечивает улучшенную производительность классификации, говорит Радхакришнан. В будущем исследователи хотят использовать полученные знания для анализа ситуаций, когда у них ограниченный объем данных, и для сетей, которые не являются бесконечно широкими или глубокими. Они также хотят применить этот анализ к ситуациям, когда данные не имеют меток. “При глубоком обучении мы хотим создавать теоретически обоснованные модели, чтобы мы могли надежно развертывать их в некоторых критически важных условиях. Это многообещающий подход к достижению чего—то подобного - созданию архитектур теоретически обоснованным способом, который приводит к лучшим результатам на практике ”, - говорит он. Эта работа была частично поддержана Национальным научным фондом, Управлением военно-морских исследований, Лабораторией искусственного интеллекта MIT-IBM Watson, Центром Эрика и Венди Шмидт в Институте Броуда и премией Саймонса за исследования. Прикрепления:
0677121.jpg
(37.3 Kb)
|
| |||
| |||