Cайт веб-разработчика, программиста Ruby on Rails ESV Corp. Екатеринбург, Москва, Санкт-Петербург, Новосибирск, Первоуральск

Вселенная прячет новую физику уже миллиарды лет. Искусственный интеллект подобрался к её открытию вплотную... но всё же выбрал знакомое объяснение

Космологи ищут новую физику не только в данных телескопов, но и в компьютерных симуляциях. Ученые меняют параметры модели Вселенной, смотрят, как в расчетах распределяются галактики и темная материя, а затем сравнивают результат с наблюдениями. Новый подход с машинным обучением может резко сократить число дорогих расчетов, но у метода есть слабое место: нейросеть иногда слишком доверяет тому, чему ее уже научили.

Авторы исследования проверили, поможет ли перенос обучения искать признаки физики за пределами стандартной космологической модели ΛCDM. Перенос обучения работает так: сначала модель обучают на одной задаче, а потом дообучают на другой, более сложной. В этом случае нейросеть сначала знакомят с обычной моделью Вселенной, а затем дают расчеты с дополнительными физическими эффектами.

ΛCDM - основная модель, которой космологи описывают Вселенную. Буква Λ обозначает космологическую постоянную, связанную с темной энергией, а CDM - холодную темную материю. Модель хорошо объясняет расширение Вселенной, распределение галактик и рост крупномасштабной структуры, то есть огромной сети из скоплений, нитей и пустых областей. Но ΛCDM, скорее всего, не закрывает все вопросы. Наблюдения допускают вклад массивных нейтрино, изменения в поведении гравитации, темную энергию с меняющимися свойствами и другие эффекты, которых нет в базовой версии модели.

Проверять такие варианты трудно. Для каждой гипотезы нужно запустить много симуляций, проследить, как материя собирается в скопления и нити, а затем сравнить расчеты с реальными данными. Чем больше параметров добавляют физики, тем больше комбинаций приходится считать. Высокоточные симуляции быстро упираются в мощность суперкомпьютеров, время и стоимость вычислений.

Обычно нейросеть обучают сразу на самых дорогих симуляциях. Команда Вины Кришнарадж из Принстонского университета и Адриана Байера из Института Флэтайрон и Принстона выбрала другой порядок. Сначала модель обучили на более простых расчетах ΛCDM. Этот этап называют предобучением: нейросеть учится видеть, как в стандартной модели ведет себя материя и как разные параметры меняют распределение вещества. После этого систему дообучили на сценариях, где появляются возможные признаки новой физики.

Смысл подхода простой: не начинать с самых сложных и дорогих расчетов. Алгоритм сначала осваивает базовую модель Вселенной, а потом переходит к вариантам за пределами ΛCDM. Для вычислительной космологии это важно, потому что каждая точная симуляция новой физики обходится дорого. Если предварительное обучение сокращает число таких запусков, исследователи могут проверить больше гипотез при тех же ресурсах.

В некоторых случаях перенос обучения уменьшил число дорогих симуляций более чем в десять раз. Нейросеть, уже обученная на ΛCDM, быстрее подстраивалась под новые сценарии и точнее оценивала параметры по меньшему набору расчетов. Для будущих обзоров неба такая экономия может оказаться полезной: телескопы и обсерватории будут давать все больше точных данных, а каждую версию новой физики придется проверять через модели, симуляции и статистический анализ.

Но работа показала и риск. Авторы столкнулись с отрицательным переносом. В машинном обучении так называют ситуацию, когда прошлое обучение мешает новой задаче. Нейросеть видит в данных знакомый сигнал и объясняет его через уже выученный параметр, хотя похожий след может оставить другой физический эффект.

В космологии эта проблема особенно заметна из-за вырожденности параметров. Так называют ситуацию, когда разные причины дают почти одинаковый наблюдаемый результат. Например, материя может слабее собираться в скопления по разным причинам, а итоговая карта распределения вещества будет выглядеть похоже. Для нейросети предобучение добавляет риск: модель уже знает объяснение из ΛCDM и может принять новый эффект за обычное изменение старого параметра.

Самый наглядный пример связан с массивными нейтрино. Нейтрино - очень легкие элементарные частицы, которые слабо взаимодействуют с веществом. На обычных масштабах их масса почти незаметна, но в космологии даже небольшой вклад влияет на рост структуры. Массивные нейтрино мешают материи собираться в плотные области на некоторых масштабах, поэтому распределение вещества во Вселенной немного меняется.

Похожее изменение может дать параметр σ8. В космологии σ8 показывает, насколько сильно материя сгущается в структуры на выбранном масштабе. Чем выше σ8, тем заметнее скопления и плотные области. Если эффект массы нейтрино похож на изменение σ8, предобученная нейросеть может перепутать новую физику с обычной настройкой ΛCDM. В исследовании именно это и произошло в сценариях с массивными нейтрино: система хуже различала два механизма с похожими последствиями.

Кришнарадж подчеркивает, что отрицательный перенос не связан с простой ошибкой обучения. Причина лежит в самой физике: разные параметры действительно могут оставлять почти одинаковые следы в данных. Нейросеть попадает в область, где несколько объяснений дают похожую картину, а предобучение подталкивает ее к уже знакомому варианту.

Работа важна для идеи базовых моделей в физике. В искусственном интеллекте (ИИ) базовой моделью называют систему, которую сначала обучают на большом общем наборе данных, а затем адаптируют под конкретные задачи. Современные языковые модели устроены похожим образом. Космологи проверяют, можно ли использовать тот же принцип: сначала обучить ИИ на ΛCDM, а затем искать с его помощью слабые отклонения от этой модели.

Исследование показывает, что перенос обучения действительно ускоряет оценку параметров, но требует осторожности. Предобучение помогает, когда новая модель достаточно заметно отличается от ΛCDM. Если разные параметры дают похожий результат, прошлое обучение может помешать распознать новую физику. Поэтому будущим ИИ-системам для космологии понадобятся проверки на такие случаи: анализ вырожденностей, сравнение разных архитектур, разбор признаков, по которым модель принимает решение, и тесты на сценариях, где новый эффект похож на старый параметр.

Пока метод проверили на симуляциях. Следующая задача - применить подход к настоящим наблюдательным данным. В ближайшие годы космологические обзоры будут давать все более точные карты распределения вещества и галактик. Если перенос обучения удастся настроить без потери чувствительности к новой физике, исследователи смогут быстрее проверять модели за пределами ΛCDM и запускать самые дорогие симуляции только там, где без них нельзя обойтись.

SecurityLab