Девять месяцев и 14,3 миллиарда долларов спустя Meta представляет Muse Spark. Не лучшая модель, но в ней есть то, чего нет у ее конкурентов
Девять месяцев назад Meta подписала контракт с Александром Вангом, основателем Scale AI, потратив на этот шаг 14,3 миллиарда долларов. Цукерберг поручил ему перестроить стратегию компании в области искусственного интеллекта с нуля, и сегодня эти усилия привели к первому результату: Muse Spark, первая модель подразделения Meta Superintelligence Labs. Мы стоим перед первым запуском основополагающей модели Meta с тех пор, как они выпустили Flame 4 в апреле 2025 года. Цель Muse Spark — вернуть Meta в гонку за искусственным интеллектом. Вопрос, конечно, в том, сможет ли эта модель конкурировать со все более и более исключительными конкурентами. Важно: вы уже можете попробовать ее на meta.ai.
Добро пожаловать в гонку, Muse Spark. В Meta заявляют, что они переписали и перестроили всю архитектуру своего проекта искусственного интеллекта с нуля, и то, чего они достигли, является многообещающим: повышение эффективности, которое в случае подтверждения было бы выдающимся. Модель, утверждают ее руководители, намного превосходит Llama 4 Maverick и достигает этого, используя в 10 раз меньшую вычислительную мощность, чем последняя основополагающая модель.

Таблица с результатами тестов показывает, что Muse Sparkl конкурирует с Opus 4.6, Gemini 3.1 Pro и GPT 5.4 от первого лица. Источник: Meta.
Где они соревнуются, а где нет. Тесты, опубликованные Meta, ставят Muse Spark в конкурентное, но не доминирующее положение. Он особенно выделяется в мультимодальном мышлении, где превосходит Claude Opus 4.6 и OpenAI GPT-5.4, а также обладает сильным здоровьем. В двух важных разделах она не так хороша. Во-первых, абстрактное мышление: она уступает в тесте ARC-AGI 2 своим конкурентам. Другая, более яркая, — это агентское программирование, область, в которой сейчас движется больше всего денег, и в которой его производительность приличная, но, похоже, она уступает своим конкурентам. Компания Artificial Analysis, которая публикует общий рейтинг моделей искусственного интеллекта с учетом всех этих тестов, ставит ее на четвертое место после Gemini 3.1 Pro, GPT-5.4 и Claude Opus 4.6.
Но давайте вспомним кое-что важное: одно дело тесты, и совсем другое, как эти модели ведут себя в каждом сценарии и для каждого пользователя. Личное восприятие гораздо важнее, чем эти синтетические данные.

Созерцательный режим предназначен для «глубокого мышления», и здесь он конкурирует с аналогичными режимами своих конкурентов. Источник: Meta.
«Созерцательный режим». И в официальном анонсе, и в ветке Александра Вана была отмечена новинка этой модели, которую они назвали «созерцательный режим», который, по словам Вана, «объединяет несколько агентов, которые рассуждают параллельно и который предназначен для сложных запросов в области науки и рассуждений. В ходе нашего тестирования мы обнаружили, что она конкурирует с другими моделями экстремального мышления, такими как Gemini Deep Think или GPT Pro».
Но созерцательный режим — это не дальнейшее мышление, а параллельное мышление. Дизайн созерцательного режима элегантен и заслуживает понимания. Стандартный подход к улучшению аргументации модели в выводе — дать ей больше времени на размышление: модель генерирует больше внутренних токенов перед ответом, что улучшает качество, но увеличивает задержку для пользователя (то есть время, необходимое для того, чтобы дать нам ответ). Muse Spark предлагает альтернативу: вместо того, чтобы один агент думал больше, несколько агентов думали одновременно и сотрудничали.

График задержки, опубликованный Meta, наглядно иллюстрирует это: с 16 агентами, работающими параллельно, точность последнего экзамена по гуманитарным наукам достигает почти 59% при задержке, сопоставимой с задержкой одного агента в расширенном режиме. Это похоже на разницу между одним экспертом, работающим сверхурочно, и комитетом экспертов, проводящим обсуждения одновременно. Результат не только лучше, он приходит раньше. Это особенно важно в тех случаях, когда пользователь не может ждать ответа несколько минут.
Остерегайтесь подводных камней. Запуск Flame 4 год назад обернулся полным провалом, когда выяснилось, что выдающиеся результаты тестов этой модели были обманчивы. Версия, получившая такие высокие оценки, была разработана и специально обучена, чтобы хорошо показывать результаты в тестах. Надеемся, что Meta усвоила урок, но первые подозрения уже появились. Франсуа Шолле, создатель теста ARC-AGI, прокомментировал, что Muse Spark «уже кажется разочарованием: он чрезмерно оптимизирован для общедоступных тестов в ущерб всему остальному. Знание того, как оценивать модели таким образом, чтобы они соответствовали реальной полезности, является основной компетенцией лабораторий искусственного интеллекта, и любая новая лаборатория вряд ли добьется успеха, не разобравшись с этим в первую очередь».
До свидания, открытый исходный код, привет, проприетарная модель. Meta уже предупредила, так что неудивительно обнаружить, что, по крайней мере, на данный момент Muse Spark является закрытой и проприетарной моделью. Семейство моделей с открытым весом Lama превратило Meta в компанию, которая «демократизировала ИИ», в то время как OpenAI и Anthropic держали свои moedlos закрытыми. Это породило огромное сообщество разработчиков, исследователей и компаний, которые создавали модели на основе моделей Meta, но Muse Spark отказывается от этой философии. Компания заявляет, что, возможно, выпустит версии Muse Spark с открытым весом в будущем, но ни к чему не обязуется. Известный специалист по искусственному интеллекту Итан Моллик подчеркнул, что «без открытых весов гораздо сложнее предсказать стоимость Spark».
Личный суперинтеллект «. Meta создала Muse Spark с еще одним отличительным элементом: гиперперсонализацией. Представьте, что у вас есть личный помощник, который знает ваше имя и историю покупок, потому что вы зарегистрировались в сервисе. А теперь представьте себе другого посетителя, который прочитал десять лет ваших разговоров с друзьями, знает, какой юмор вам нравится, знает темы, которые вызывают у вас беспокойство, понимает вашу социальную сеть, видел фотографии, которыми вы поделились, и узнайте, какие статьи вам понравились или какой контент вы потребляете.
Разница здесь очевидна: Meta использовала всю ту информацию, которая у нее есть о вас, благодаря всему, что вы разместили на своих платформах (WhatsApp, Instagram, Facebook), а Muse Spark — первая модель, разработанная для использования этого преимущества изначально. У компании, похоже, нет никаких проблем с признанием того, что она использует те данные, которые она собрала именно для этого: посмотрим, как получится этот ход, потому что, хотя концепция мощная, она также может быть поставлена под сомнение из-за этого теоретического вторжения в частную жизнь. На данный момент уже есть первый пример такого использования: Цукерберг использует этот личный ИИ в своей повседневной жизни.
Речь идет не о лучшем программировании, а о проникновении в ваш WhatsApp. Стратегическая цель Meta с Muse Spark — не быть лучшей моделью для программирования или поиска вакцин от рака. Цель состоит в том, чтобы стать упомянутым гиперперсонализированным ИИ для 3 миллиардов пользователей, которые уже используют его платформы. Варианты использования, на которых сосредоточена Muse Spark, бросаются в глаза и отходят от той другой карьеры IAs в Силиконовой долине, и они будут стараться помочь пользователям в повседневных ситуациях, позволяя им создавать собственные приложения.:
- Сфотографируйте свою еду и получите анализ питания
- Потренируйтесь, и я скажу вам, какие мышцы вы задействовали
- Загрузите изображение игры и создайте из него небольшую интерактивную игру
- Решайте бытовые проблемы с помощью визуальных и голосовых заметок
- Вы получите более качественную информацию о своем здоровье благодаря работе Meta с 1000 врачей, которые внесли свой вклад в улучшение аргументации в этом разделе
Безопасность по флагу. Как показал Клод Мифос, споры о мощности этих моделей и их влиянии на безопасность усиливаются. В Meta наняли независимого консультанта, и, согласно их выводам, Muse Spark имеет самый высокий уровень «осведомленности об оценке» среди всех проанализированных ими моделей. Модель на самом деле часто определяет, что ее оценивают, и приходит к выводу, что она должна вести себя честно и «без обмана».

Не было обнаружено никаких доказательств того, что эта осведомленность влияла на поведение в опасных ситуациях, и внутренние тесты показали, что, например, он отказывается участвовать в разработке биохимического оружия в 98% случаев, опережая 95,4% Opus 4.6 или тревожные 74,7% GPT 5.4 или 61,5% Gemini 3.1 Pro.
Мы ждали девять месяцев Meta вернется в гонку, но хватит ли Muse Spark? а именно, над чем работало новое подразделение суперинтеллекта Мета, и, наконец, у нас есть результат этой работы. Прием на рынках был очень положительным, и акции Meta выросли на 6,5% после анонса, но будьте осторожны:Muse Spark не превосходит своих конкурентов по производительности, и ему придется доказать, что эта дифференциация (эффективность, гиперспециализация) в конечном итоге является ключом к окончательному возвращению Meta в чрезвычайно успешную карьеру. competivia. Если Muse Spark не превратит эту эффективность в удержание в WhatsApp или Instagram, Meta заплатит 14,3 миллиарда долларов за четвертое место.
Редактор: AndreyEx