ИИ начнет обучаться бесконечно
Специалисты по искусственному интеллекту (ИИ) и компьютерным наукам из Университета Альберты решили проблему катастрофического забывания у современных искусственных нейронных сетей, которая не позволяла им обучаться на новых данных. Новый подход, о котором сообщается в статье, опубликованной в журнале Nature, позволит ИИ продолжить обучение до бесконечности.
При катастрофическом забывании нейронные сети, обучающиеся решению новой задачи, теряют способность выполнять предыдущую задачу. Это также верно для больших языковых моделей (англ. large language model, LLM), в том числе серии GPT, так как LLM были разработаны как системы, обучающиеся на фиксированных наборах данных.
При обучении нейронной сети происходят математические вычисления, изменяющие веса связей между искусственными нейронами. Подобно силе синапсов между нейронами в биологическом мозге веса связей определяют важность передаваемой через эти связи информации. Современные методы обучения основаны на таких алгоритмах, как стохастический градиентный спуск и обратное распространение ошибки. Однако эти алгоритмы в их текущем виде не способны примирить старые и новые данные, и причины этого изучены не до конца.
В новой работе ученые использовали стандартные алгоритмы обучения и классические наборы данных ImageNet и CIFAR-100, модифицированные для непрерывного обучения. Было продемонстрировано, что методы глубокого обучения перестают работать при непрерывном обучении, что было названо потерей пластичности (англ. loss of plasticity).
Чтобы решить эту проблему и помочь нейросетям сохранять пластичность бесконечно долго, исследователи предложили сбрасывать веса менее используемых узлов в нейросети между сеансами обучения. Новый алгоритм, названный непрерывным обратным распространением ошибки, предполагает повторную инициализацию небольшого числа менее используемых и случайно выбранных единиц с использованием тех же методов, которые применялись при первичной настройке системы. Было доказано, что это позволяет нейросетям продолжать обучение на новых наборах данных без утраты ранее приобретенных знаний.