Cайт веб-разработчика, программиста Ruby on Rails ESV Corp. Екатеринбург, Москва, Санкт-Петербург, Новосибирск, Первоуральск

121 экзафлопс вычислительной мощи. Google собрала армию из 9600 чипов — один учит ИИ, другой заставляет его работать

Google показала тензорные процессоры TPU восьмого поколения и впервые сразу разделила обучение и вывод моделей между разными чипами. Один ускоритель компания готовит для тренировки крупных ИИ-моделей, второй - для работы уже обученных систем, когда те отвечают на запросы, вызывают инструменты и обслуживают программных агентов. По этому решению хорошо видно, как меняется рынок ИИ-инфраструктуры: одной универсальной платформы для всех нагрузок уже недостаточно.

Анонс состоялся на конференции Google Cloud Next. Новые ускорители называются TPU 8t и TPU 8i. Оба чипа войдут в платформу AI Hypercomputer, на базе которой Google развивает облачную инфраструктуру для искусственного интеллекта. Компания явно показывает, что больше не собирается держать TPU только внутри собственных сервисов вроде Gemini и хочет предложить заказчикам альтернативу инфраструктуре, где сейчас доминирует Nvidia.

Tensor Processing Unit - это специализированный ускоритель, который Google разрабатывает сама. В отличие от универсальных графических процессоров, TPU изначально создавали под вычисления, характерные для машинного обучения. Долгое время такие чипы в основном работали внутри сервисов Google, а теперь компания все активнее превращает их в полноценный облачный продукт. Обе новые модели, по ее словам, станут общедоступными в Google Cloud позже в 2026 году.

TPU 8t рассчитан на обучение больших моделей. Здесь важны не только сами вычисления, но и способность синхронно работать на тысячах ускорителей без провалов по памяти, сети и хранилищу. Google утверждает, что один superpod, то есть крупный кластер на базе TPU 8t, можно масштабировать до 9600 чипов. В такой конфигурации система, по данным компании, выдает до 121 экзафлопса вычислительной производительности.

Для сравнения Google приводит предыдущее поколение под названием Ironwood. По словам компании, TPU 8t дает почти в три раза больше вычислительной производительности на один pod, то есть на один кластерный модуль. Но при обучении моделей важна не только пиковая мощность. Если ускорители простаивают в ожидании данных или упираются в задержки при обмене между узлами, выигрыш быстро тает. Поэтому Google отдельно говорит об ускоренном доступе к хранилищу и обновленной сетевой подсистеме, которая должна снижать простои.

Отсюда и отдельный акцент на показателе goodput. Для крупных ИИ-кластеров мало знать, сколько операций система может выполнить в секунду. Гораздо важнее, какая часть времени уходит именно на полезные вычисления, а не теряется из-за сбоев, перегрузок и узких мест в инфраструктуре. Google заявляет для TPU 8t уровень goodput выше 97%. Для обучения передовых моделей это критично: даже небольшие задержки в части узлов могут растянуть весь цикл на дни.

TPU 8i рассчитан уже на вывод. На этом этапе обученная модель работает в реальном продукте: отвечает на запросы, вызывает инструменты, обрабатывает последовательности действий и поддерживает программных агентов. Для рынка эта стадия становится все важнее, потому что компаниям нужно не только обучать крупные модели, но и запускать их в постоянную эксплуатацию без лишних затрат и задержек.

Google утверждает, что TPU 8i получил 288 ГБ памяти с высокой пропускной способностью и 384 МБ встроенной SRAM-памяти на кристалле. Задача здесь простая: держать активные данные модели как можно ближе к процессору и тем самым сокращать задержку ответа. Чем реже системе приходится обращаться к более удаленным уровням памяти, тем быстрее она выдает результат.

Чип также использует процессоры Axion на архитектуре Arm и обновленную межсоединительную подсистему для моделей типа Mixture of Experts, или смеси экспертов. В таких архитектурах при каждом запросе активируются не все части модели сразу, а только нужные блоки. Такой подход помогает уменьшить стоимость вычислений и при этом наращивать масштаб системы. Для инфраструктуры вывода это особенно важно, потому что именно здесь приходится постоянно искать баланс между производительностью и ценой обслуживания.

По данным Google, TPU 8i дает на 80% лучшую производительность на доллар по сравнению с предыдущим поколением. Компания формулирует это еще практичнее: заказчики смогут обрабатывать почти вдвое большую нагрузку за те же деньги. Для облачного рынка такая метрика часто важнее абсолютных рекордов, потому что именно она показывает, насколько платформа выгодна в реальной эксплуатации.

Еще недавно универсальные GPU пытались использовать и для обучения, и для вывода, и для промежуточных задач. Теперь крупные игроки все чаще делают специализированные ускорители под конкретные режимы работы. Один тип чипа лучше подходит для долгих и тяжелых циклов обучения, другой - для постоянного потока запросов в продакшене, где особенно важны задержка, стоимость и плотность размещения в дата-центре.

Google напрямую связывает этот подход с ростом ИИ-агентов. Под агентами компания понимает системы, которые не ограничиваются коротким ответом на запрос, а последовательно рассуждают, запускают рабочие процессы, обращаются к инструментам и взаимодействуют с другими моделями. Для таких нагрузок инфраструктура должна уметь и быстро обучать крупные модели, и затем эффективно обслуживать их в постоянной работе.

Отдельный акцент Google делает на энергопотреблении. В дата-центрах оба новых чипа, по словам компании, обеспечивают до двух раз лучшую производительность на ватт по сравнению с Ironwood. Это важно не только из-за расходов на электричество. Чем выше плотность вычислений в стойках, тем сильнее растет тепловая нагрузка, а вместе с ней и ограничения по охлаждению. Поэтому Google использует жидкостное охлаждение четвертого поколения, чтобы поддерживать высокую вычислительную плотность без лишнего роста энергопотребления.

Анонс новых TPU укладывается и в более широкую стратегию Google против доминирования Nvidia на рынке ИИ-железа. Компания пытается конкурировать не одним чипом, а целой связкой из собственного кремния, сети, программных фреймворков и облачных сервисов. Иначе говоря, Google предлагает готовый стек, в котором аппаратная часть, каналы обмена, программная среда и облачная платформа изначально подогнаны друг под друга.

При этом Google старается снизить барьер для разработчиков, которые уже работают в другой экосистеме. Компания говорит, что TPU 8t и TPU 8i поддерживают JAX, PyTorch, SGLang и vLLM. Это значит, что разработчикам не придется полностью переписывать существующие ИИ-нагрузки или проходить болезненную миграцию только ради теста новых чипов в Google Cloud. Для рынка это важный сигнал: Google явно хочет, чтобы TPU воспринимались не как внутренняя экзотика корпорации, а как полноценная альтернатива привычной инфраструктуре.

SecurityLab