Microsoft представила свою первую суперфабрику по искусственному интеллекту. Объект, соединяющий большие центры обработки данных в Висконсине и Атланте через выделенную оптоволоконную сеть, предназначенную для высокоскоростной передачи обучающих данных.
Крупные технологические компании вступили в борьбу за доминирование в мировом искусственном интеллекте, и создание новой инфраструктуры является фундаментальным шагом перед лицом ненасытных потребностей этой технологии в таких компонентах, как ускорители, высокопроизводительные сети или энергоснабжение.
Первая суперфабрика Microsoft по искусственному интеллекту
Microsoft объясняет, что такая конструкция инфраструктуры будет поддерживать большие рабочие нагрузки искусственного интеллекта, которые отличаются от небольших изолированных задач, распространенных в облачных средах. «Речь идет о создании распределенной сети, которая могла бы действовать как виртуальный суперкомпьютер для решения самых сложных мировых задач», — объясняет Алистер Спирс, генеральный директор Microsoft по инфраструктуре Azure.
«Причина, по которой мы называем ее суперфабрикой искусственного интеллекта, заключается в том, что она выполняет сложную задачу на миллионах устройств… речь идет не только об одном сайте, обучающем модели искусственного интеллекта, но и о сети сайтов, поддерживающих эту задачу». Система AI WAN передает информацию за тысячи километров с использованием выделенного оптоволокна, частично недавно построенного, а частично повторно использованного в результате предыдущих приобретений.
Протоколы и сетевая архитектура были скорректированы таким образом, чтобы сократить пути и поддерживать поток данных с минимальной задержкой. Microsoft утверждает, что это позволяет удаленным объектам взаимодействовать в одном и том же процессе обучения моделей практически в реальном времени, предоставляя каждому местоположению свою долю вычислительных мощностей. Цель состоит в том, чтобы поддерживать непрерывную работу большого количества ускоряющих графических процессоров, чтобы ни одно устройство не останавливалось, ожидая результатов из другого места.
«Лидерство в области искусственного интеллекта — это не только добавление дополнительных графических процессоров, но и создание инфраструктуры, которая позволяет им работать вместе как единая система”, — объясняет Скотт Гатри, исполнительный вице-президент Microsoft по Cloud + AI. Для этого компания использует схему Fairwater для поддержки высокопроизводительных стоечных систем, включая накопители NVIDIA GB200 NVL72, предназначенные для масштабирования до очень больших кластеров графических процессоров Blackwell.
Компания объединяет это оборудование с системами жидкостного охлаждения, которые выводят горячую жидкость из здания и возвращают ее при более низких температурах. В этой работающей системе охлаждения практически не используется новая вода, за исключением периодического пополнения, необходимого для химического контроля, что решает еще одну серьезную проблему современных центров обработки данных: потребление воды.
Компания представляет эту суперфабрику по искусственному интеллекту как сайт, специально предназначенный для обученияпередовым инструментам искусственного интеллекта, ссылаясь на растущее число параметров и большие наборы обучающих данных в качестве ключевых факторов, стимулирующих расширение.
Завод в Атланте повторяет дизайн Висконсина, обеспечивая согласованную архитектуру в различных регионах по мере ввода в эксплуатацию новых мощностей. И потребуется еще немало: «Объем инфраструктуры, необходимый сейчас для обучения этих моделей, — это не только один или два центра обработки данных, но и многие другие», — уверяют они.

