Дата: Четверг, 28.12.2023, 18:54 | Сообщение # 1
Администраторы
- Сообщений:
- 1542
- Замечания:
- 0
Offline
Исследователи создают искусственный интеллект, который создает искусственный интеллектОтdle ДЕК 28, 2023Используя гиперсети, исследователи теперь могут упреждающе настраивать искусственные нейронные сети, экономя часть времени и затрат на обучение.скусственный интеллект – это в значительной степени игра с числами. Когда 10 лет назад глубокие нейронные сети, форма искусственного интеллекта, которая учится распознавать закономерности в данных, начали превосходить традиционные алгоритмы, это произошло потому, что у нас наконец-то появилось достаточно данных и вычислительных мощностей, чтобы в полной мере их использовать.Современные нейронные сети еще больше нуждаются в данных и мощности. Их обучение требует тщательной настройки значений миллионов или даже миллиардов параметров, характеризующих эти сети, представляющих силу связей между искусственными нейронами. Цель состоит в том, чтобы найти для них почти идеальные значения, процесс, известный как оптимизация, но обучить сети достижению этой точки непросто. “Обучение может занять дни, недели или даже месяцы”, – сказал Петар Величкович, штатный научный сотрудник DeepMind в Лондоне.Это может скоро измениться. Борис Князев из Университета Гвельфа в Онтарио и его коллеги разработали и обучили “гиперсеть” — своего рода повелителя других нейронных сетей, — которая могла бы ускорить процесс обучения. Учитывая новую, необученную глубокую нейронную сеть, разработанную для выполнения какой-либо задачи, гиперсеть предсказывает параметры новой сети за доли секунды, и теоретически это может сделать обучение ненужным. Поскольку гиперсеть изучает чрезвычайно сложные паттерны в конструкциях глубоких нейронных сетей, работа также может иметь более глубокие теоретические последствия.На данный момент гиперсеть работает на удивление хорошо в определенных условиях, но у нее еще есть возможности для роста, что вполне естественно, учитывая масштаб проблемы. Если они смогут решить эту проблему, “это окажет большое влияние на машинное обучение по всем направлениям”, – сказал Величкович.Содержание скрыть 1. Становимся гипер2. Обучение тренера3. Впечатляющие результаты4. За пределами GHN-24.1. Ученые-компьютерщики обнаруживают ограничения основных исследовательских алгоритмовСтановимся гиперВ настоящее время лучшими методами обучения и оптимизации глубоких нейронных сетей являются вариации метода, называемого стохастический градиентный спуск (SGD). Обучение предполагает минимизацию ошибок, которые сеть допускает при выполнении данной задачи, такой как распознавание изображений. Алгоритм SGD обрабатывает множество помеченных данных, чтобы скорректировать параметры сети и уменьшить ошибки или потери. Градиентный спуск – это итеративный процесс снижения от высоких значений функции потерь до некоторого минимального значения, которое представляет собой достаточно хорошие (или иногда даже наилучшие из возможных) значения параметров.Но этот метод работает только в том случае, если у вас есть сеть для оптимизации. Для создания исходной нейронной сети, обычно состоящей из нескольких слоев искусственных нейронов, которые ведут от входа к выходу, инженеры должны полагаться на интуицию и эмпирические правила. Эти архитектуры могут различаться по количеству слоев нейронов, количеству нейронов на слой и так далее.Градиентный спуск выводит сеть из “ландшафта потерь”, где более высокие значения представляют собой большие ошибки или потери. Алгоритм пытается найти глобальное минимальное значение, чтобы минимизировать потери.Сэмюэл Веласко / журнал Quanta; источник: math.stackexchange.comТеоретически можно начать с множества архитектур, затем оптимизировать каждую из них и выбрать лучшую. “Но обучение [занимает] довольно нетривиальное количество времени”, – сказал Менгье Рен, ныне приглашенный исследователь Google Brain. Было бы невозможно обучить и протестировать каждую потенциальную сетевую архитектуру. “[Это] не очень хорошо масштабируется, особенно если учесть миллионы возможных проектов”.Итак, в 2018 году Рен вместе со своим бывшим коллегой из Университета Торонто Крисом Чжаном и их советником Ракель Уртасун попробовали другой подход. Они разработали то, что назвали графовой гиперсетью (GHN), чтобы найти наилучшую архитектуру глубокой нейронной сети для решения некоторой задачи, учитывая набор архитектур-кандидатов.Название описывает их подход. “Граф” отсылает к идее, что архитектуру глубокой нейронной сети можно представить как математический граф – совокупность точек, или узлов, соединенных линиями, или ребрами. Здесь узлы представляют вычислительные единицы (обычно целый слой нейронной сети), а ребра представляют способ, которым эти единицы взаимосвязаны.Вот как это работает. Графовая гиперсеть начинается с любой архитектуры, которая нуждается в оптимизации (назовем ее кандидатом). Затем она делает все возможное, чтобы предсказать идеальные параметры для кандидата. Затем команда устанавливает параметры реальной нейронной сети в соответствии с прогнозируемыми значениями и тестирует ее в заданной задаче. Команда Рена показала, что этот метод можно использовать для ранжирования архитектур-кандидатов и выбора наиболее эффективной.Когда Князев и его коллеги наткнулись на идею гиперсети graph, они поняли, что могут опираться на нее. В своей новой статье команда показывает, как использовать GHNs не только для поиска наилучшей архитектуры из некоторого набора образцов, но и для прогнозирования параметров наилучшей сети, чтобы она работала хорошо в абсолютном смысле. А в ситуациях, когда лучшего недостаточно, сеть можно дополнительно обучить с помощью градиентного спуска.“Это очень солидная статья. [Она] содержит гораздо больше экспериментов, чем то, что делали мы”, – сказал Рен о новой работе. “Они очень усердно работают над повышением абсолютной производительности, на что приятно смотреть”.Обучение тренераКнязев и его команда называют свою гиперсеть GHN-2, и это улучшает два важных аспекта гиперсети graph, построенной Реном и коллегами.Сначала они полагались на методику Рена по изображению архитектуры нейронной сети в виде графика. Каждый узел графика кодирует информацию о подмножестве нейронов, которые выполняют некоторый определенный тип вычислений. Ребра графика изображают, как информация передается от узла к узлу, от ввода к выводу.Вторая идея, на которую они опирались, заключалась в методе обучения гиперсети делать прогнозы для новых архитектур-кандидатов. Для этого требуются две другие нейронные сети. Первый позволяет выполнять вычисления на исходном графе-кандидате, что приводит к обновлению информации, связанной с каждым узлом, а второй принимает обновленные узлы в качестве входных данных и прогнозирует параметры для соответствующих вычислительных единиц нейронной сети-кандидата. Эти две сети также имеют свои собственные параметры, которые должны быть оптимизированы, прежде чем гиперсеть сможет правильно предсказывать значения параметров.Для этого вам нужны обучающие данные — в данном случае случайная выборка возможных архитектур искусственных нейронных сетей (ANN). Для каждой архитектуры в примере вы начинаете с графика, а затем используете гиперсеть graph для прогнозирования параметров и инициализации ANN-кандидата с предсказанными параметрами. Затем ANN выполняет какую-то конкретную задачу, например, распознает изображение. Вы вычисляете потери, понесенные ANN, а затем — вместо обновления параметров ANN для лучшего прогнозирования — вы обновляете параметры гиперсети, которая в первую очередь сделала прогноз. Это позволяет гиперсети работать лучше в следующий раз. Теперь выполните итерацию по каждому изображению в некотором помеченном наборе обучающих данных изображений и по каждому ANN в случайной выборке архитектур, уменьшая потери на каждом этапе, пока не останется ничего лучшего. В какой-то момент вы получаете обученную гиперсеть.Команда Князева взяла эти идеи и написала свое собственное программное обеспечение с нуля, поскольку команда Рена не публиковала свой исходный код. Затем Князев и коллеги улучшили его. Для начала они определили 15 типов узлов, которые можно смешивать и сопоставлять для построения практически любой современной глубокой нейронной сети. Они также добились нескольких успехов в повышении точности прогнозирования.Что наиболее важно, чтобы гарантировать, что GHN-2 научится прогнозировать параметры для широкого спектра целевых архитектур нейронных сетей, Князев и коллеги создали уникальный набор данных из 1 миллиона возможных архитектур. “Для обучения нашей модели мы создали случайные архитектуры, максимально разнообразные”, – сказал Князев.В результате способность GHN-2 к прогнозированию, скорее всего, будет хорошо распространена на невидимые целевые архитектуры. “Они могут, например, учитывать все типичные современные архитектуры, которые используют люди”, – сказал Томас Кипф, научный сотрудник отдела мозга Google Research в Амстердаме. “Это большой вклад”.Впечатляющие результатыНастоящим испытанием, конечно же, было заставить GHN-2 работать. После того, как Князев и его команда обучили его предсказывать параметры для заданной задачи, такой как классификация изображений в определенном наборе данных, они проверили его способность предсказывать параметры для любой архитектуры-кандидата наугад. Этот новый кандидат может обладать свойствами, аналогичными миллионам архитектур в наборе обучающих данных, или он может отличаться — в некотором роде от других. В первом случае считается, что целевая архитектура находится в распространении; во втором – что она не распространяется. Глубокие нейронные сети часто дают сбой при составлении прогнозов для последних, поэтому тестирование GHN-2 на таких данных было важно.Вооружившись полностью обученным GHN-2, команда предсказала параметры для 500 ранее невиданных случайных целевых сетевых архитектур. Затем эти 500 сетей, параметры которых были установлены на прогнозируемые значения, были сопоставлены с теми же сетями, обученными с использованием стохастического градиентного спуска. Новая гиперсеть часто выдерживала испытания тысячами итераций SGD, а временами получалась даже лучше, хотя некоторые результаты были более неоднозначными.Для набора данных изображений, известного как CIFAR-10, средняя точность GHN-2 в архитектуре распространения составила 66,9%, что приблизилось к средней точности 69,2%, достигнутой сетями, обученными с использованием 2500 итераций SGD. Для готовых архитектур GHN-2 показал себя на удивление хорошо, достигнув точности около 60%. В частности, была достигнута приличная точность 58,6% для конкретной хорошо известной архитектуры глубокой нейронной сети под названием ResNet-50. “Обобщение на ResNet-50 на удивление хорошее, учитывая, что ResNet-50 примерно в 20 раз больше нашей средней обучающей архитектуры”, – сказал Князев, выступая на NeurIPS 2021, флагманской конференции в этой области.С ImageNet, значительно большим набором данных, у GHN-2 дела обстояли не так хорошо: в среднем точность составляла всего около 27,2%. Тем не менее, это выгодно отличается от средней точности в 25,6% для тех же сетей, обученных с использованием 5000 шагов SGD. (Конечно, если вы продолжите использовать SGD, вы сможете в конечном итоге — при значительных затратах — добиться точности в 95%.) Что наиболее важно, GHN-2 сделал свои прогнозы ImageNet менее чем за секунду, в то время как использование SGD для получения той же производительности, что и предсказанные параметры, заняло в среднем в 10 000 раз больше времени в их графическом процессоре (текущая рабочая лошадка глубокого обучения нейронных сетей).“Результаты, безусловно, впечатляют”, – сказал Величкович. “По сути, они значительно сокращают затраты на электроэнергию”.И когда GHN-2 находит лучшую нейронную сеть для задачи из выборки архитектур, и этот лучший вариант недостаточно хорош, по крайней мере, победитель теперь частично обучен и может быть дополнительно оптимизирован. Вместо того, чтобы запускать SGD в сети, инициализированной случайными значениями ее параметров, можно использовать прогнозы GHN-2 в качестве отправной точки. “По сути, мы имитируем предварительную подготовку”, – сказал Князев.За пределами GHN-2Несмотря на эти успехи, Князев считает, что сообщество машинного обучения поначалу будет сопротивляться использованию гиперсетей graph. Он сравнивает это с сопротивлением, с которым сталкивались глубокие нейронные сети до 2012 года. В то время специалисты по машинному обучению предпочитали алгоритмы, разработанные вручную, а не таинственные deep nets. Но это изменилось, когда массивные deep nets, обучаемые на огромных объемах данных, начали превосходить традиционные алгоритмы. “Это может пойти тем же путем”.ВЫЧИСЛИТЕЛЬНАЯ СЛОЖНОСТЬУченые-компьютерщики обнаруживают ограничения основных исследовательских алгоритмовТем временем Князев видит множество возможностей для совершенствования. Например, GHN-2 можно обучить предсказывать параметры только для решения заданной задачи, такой как классификация изображений CIFAR-10 или ImageNet, но не одновременно. В будущем он представляет себе обучение графовых гиперсетей большему разнообразию архитектур и различным типам задач (например, распознаванию изображений, речи и обработке естественного языка). Тогда прогноз может быть обусловлен как целевой архитектурой, так и конкретной поставленной задачей.И если эти гиперсети действительно появятся, проектирование и разработка новых глубоких нейронных сетей больше не будут ограничены компаниями с большими карманами и доступом к большим данным. Принять участие в акции может любой. Князев хорошо осознает этот потенциал “демократизации глубокого обучения”, называя это долгосрочным видением.Однако Величкович подчеркивает потенциально большую проблему, если гиперсети, подобные GHN-2, когда-нибудь станут стандартным методом оптимизации нейронных сетей. С graph hypernetworks, по его словам, “у вас есть нейронная сеть — по сути, черный ящик — предсказывающий параметры другой нейронной сети. Поэтому, когда он совершает ошибку, у вас нет способа объяснить [это] ”.Конечно, это уже в значительной степени относится к нейронным сетям. “Я бы не назвал это слабостью”, – сказал Величкович. “Я бы назвал это предупреждающим знаком”.Однако Kipf видит луч надежды. “Кое-что [еще] меня больше всего взволновало в этом”. GHN-2 демонстрирует способность графических нейронных сетей находить закономерности в сложных данных.Обычно глубокие нейронные сети находят закономерности в изображениях, текстовых или звуковых сигналах, которые представляют собой достаточно структурированные типы информации. GHN-2 находит закономерности в графиках совершенно случайных архитектур нейронных сетей. “Это очень сложные данные”.И все же GHN-2 может обобщать, что означает, что он может делать разумные прогнозы параметров для невидимых и даже не распространяемых сетевых архитектур. “Эта работа показывает нам, что многие шаблоны так или иначе схожи в разных архитектурах, и модель может научиться передавать знания из одной архитектуры в другую”, – сказал Кипф. “Это то, что может вдохновить на создание новой теории нейронных сетей”.Если это так, то это может привести к новому, более глубокому пониманию этих черных ящиков.
|