ИИ уже умел создавать изображения. OpenAI утверждает, что нашел недостающую часть в новом ChatGPT Images 2.0
OpenAI утверждает, что улучшил те области, в которых эти модели терпят неудачу больше всего, точность, текст и визуальную согласованность
Его новая система обработки изображений хочет выйти за рамки эстетического воздействия и стать полезным инструментом в ChatGPT
За последние несколько лет мы стали свидетелями того, как генераторы изображений становились все более впечатляющими, быстрыми и популярными. Проблема в том, что привлекательное изображение не всегда подходит для работы с ним. Одно дело попросить кота-космонавта, и совсем другое — получить рекламный плакат, связный маркер или графику, которая соответствует тому, о чем мы вас просили. Именно здесь OpenAI хочет теперь перевести разговор со своей новой моделью: не столько на красивую картинку, сколько на полезную.
Ответ. То, что предлагает OpenAI, движется в этом направлении. Компания, возглавляемая Сэмом Альтманом, утверждает, что ее новая модель создана не только для создания привлекательных изображений, но и для решения визуальных задач с большей целенаправленностью и меньшим количеством проб и ошибок. В презентации он зашел так далеко, что заявил, что “изображения — это язык, а не украшение”, что является довольно четким способом подвести итог. куда он хочет продвигать продукт в настоящем с достаточной компетенцией. Тезис таков: заказ изображения в ChatGPT меньше похож на запуск креативного запроса, а больше на заказ изделия, которое мы можем использовать по-настоящему.
Недостающая часть. Если фирма хочет, чтобы мы говорили не только о ярких изображениях, она должна была улучшить как раз те моменты, где эти модели обычно терпят неудачу. Здесь они обещают серьезные изменения в трех очень конкретных областях: более точное выполнение сложных инструкций, лучшая организация элементов внутри изображения и более надежное воспроизведение плотного текста. Другими словами, мы ищем не только более красивые результаты, но и менее двусмысленные и более контролируемые.
Думай, прежде чем рисовать. Одна из новинок, которую OpenAI пытается выделить наиболее ярко, заключается в том, что это их первая модель изображений с возможностями рассуждения. В практическом плане компания утверждает, что при выборе модели с “мышлением” в рамках ChatGPT система может занять больше времени, лучше структурировать задачу, полагаться на Интернет для поиска актуальной информации и просматривать свои собственные результаты перед отправкой изображения.
Ключи. OpenAI рассказывает о прототипировании игр, раскадровках, маркетинговых креативах, комиксах, социальной графике и других материалах, в которых важны как содержание, так и форма. Чтобы поддержать эти амбиции, компания заявляет, что улучшила работу по двум деликатным направлениям: обработка нелатинского текста, особенно на японском, корейском, китайском, хинди и бенгальском языках, и более точное воспроизведение очень ярких визуальных стилей. Он также расширяет возможные форматы с соотношениями сторон до 3: 1 и 1: 3, разрешением до 2K и, в определенных режимах, возможность генерировать до десяти изображений в рамках одного запроса с непрерывностью между персонажами и объектами.
Конкурентный контекст. Это объявление также нельзя рассматривать так, как будто OpenAI внезапно открыла для себя новый рынок. Midjourney уже стал явным ориентиром для работ с сильной художественной нагрузкой, Nano Banana привлекла внимание своей способностью редактировать в диалоговом режиме, а FLUX 2 стал сильным в фотореализме. С этой панелью управления компания, похоже, ищет другой подход. Вместо того, чтобы оспаривать каждую позицию отдельно, он пытается представить ChatGPT как среду, в которой изображение создается не изолированно, а как часть более широкого потока, что на бумаге может показаться привлекательным, если вы действительно выполните то, что обещаете.
Он уже начинает развертываться. Одним из ключевых моментов анонса является то, что OpenAI гарантирует, что модель не останется на стадии демонстрации, а начнет поступать уже в продажу. продукт. Теперь его можно использовать как в бесплатных, так и в платных аккаунтах Go, Plus и Pro. Кроме того, компания решила перенести его в API и в Codex, что свидетельствует о том, что она не хочет ограничивать его случайным использованием в чате.
Редактор: AndreyEx