Google сократила потребление памяти ИИ в 6 раз: что это значит для рынка и производителей чипов

Компания Google представила новую технологию сжатия данных для искусственного интеллекта под названием TurboQuant, которая способна кардинально изменить требования к памяти при работе современных моделей. Основная идея разработки — уменьшить объём так называемого KV-кеша (ключ-значение), который используется языковыми моделями для хранения контекста и ускорения вычислений.
Согласно заявлению компании, новая технология позволяет снизить использование памяти как минимум в 6 раз без потери точности моделей. Более того, в ряде сценариев она также ускоряет обработку данных до 8 раз, что делает её особенно привлекательной для масштабных ИИ-систем и дата-центров.
Как работает TurboQuant
Алгоритм основан на двух ключевых подходах:
- PolarQuant — преобразует данные из декартовой системы координат в полярную, что позволяет эффективнее сжимать векторы без дополнительной информации
- Quantized Johnson-Lindenstrauss (QJL) — снижает ошибку квантования с помощью дополнительного слоя коррекции, сохраняя точность
В результате удаётся сжимать данные до 3 бит на значение, что значительно меньше традиционных 16–32 бит, используемых в вычислениях.
Важно понимать, что речь идёт не о всей памяти модели, а именно о рабочей памяти во время инференса (KV cache). Это означает, что технология не уменьшает размер самих моделей, но делает их использование значительно эффективнее.
Почему это важно для индустрии
Современные ИИ-модели сталкиваются с серьёзным ограничением — нехваткой памяти, особенно при работе с длинным контекстом. TurboQuant решает эту проблему, позволяя:
- запускать модели на менее мощном оборудовании
- снижать стоимость вычислений
- ускорять работу ИИ-систем
Это может привести к более широкому распространению ИИ, включая использование на смартфонах и edge-устройствах.
Реакция рынка
Новость о технологии вызвала резкую реакцию на фондовом рынке. Акции производителей памяти, таких как Micron, Samsung и SK Hynix, снизились, поскольку инвесторы опасаются падения спроса на память для ИИ.
Однако ситуация не так однозначна. Снижение требований к памяти может привести к более широкому внедрению ИИ, что в перспективе, наоборот, увеличит общий спрос на вычислительные ресурсы — классический пример парадокса Джевонса.
Ограничения технологии
Несмотря на впечатляющие результаты, TurboQuant имеет ограничения:
- работает только на этапе инференса
- не уменьшает размер самих моделей
- не влияет напрямую на обучение нейросетей
Тем не менее, даже частичная оптимизация уже даёт значительный эффект, поскольку KV-кеш становится узким местом при работе с длинными контекстами.
Выводы
Технология TurboQuant демонстрирует, что оптимизация алгоритмов может быть не менее важной, чем развитие аппаратного обеспечения. Google фактически показала способ снизить зависимость ИИ от дорогой и дефицитной памяти, не жертвуя качеством.
Краткосрочно это вызывает негативную реакцию рынка и давление на производителей памяти. Но в долгосрочной перспективе эффект может оказаться противоположным: более доступный ИИ приведёт к росту его использования, а значит — и к увеличению общего спроса на инфраструктуру.
Таким образом, TurboQuant — это не угроза индустрии памяти, а сигнал её неизбежной трансформации.
Часто задаваемые вопросы
Что такое TurboQuant?
Это алгоритм сжатия данных от Google, который уменьшает объём памяти, необходимой для работы ИИ, примерно в 6 раз без потери точности.
Как именно достигается экономия памяти?
За счёт преобразования данных в более компактное представление и применения методов квантования с минимальной ошибкой.
Снижает ли технология размер самих моделей?
Нет, она оптимизирует только рабочую память (KV cache), используемую во время выполнения моделей.
Почему упали акции производителей памяти?
Инвесторы опасаются, что снижение требований к памяти уменьшит спрос на продукцию таких компаний, как Micron, Samsung и SK Hynix.
Может ли это сделать ИИ дешевле?
Да, снижение потребления ресурсов напрямую уменьшает стоимость запуска и обслуживания ИИ-систем.
Как это повлияет на будущее ИИ?
Скорее всего, ИИ станет доступнее и распространённее, что ускорит его внедрение в различных отраслях.
Редактор: AndreyEx