Логотип

Это явление проливает свет на важнейшие ограничения ИИ

Это явление проливает свет на важнейшие ограничения ИИ

Стремительное развитие возможностей искусственного интеллекта вызывает беспокойство у многих людей. Но не стоит отчаиваться: если вы можете правильно считать показания аналоговых часов, то в этом отношении вы всё ещё превосходите ИИ.

Модели ИИ, способные анализировать различные типы медиаданных в виде текста, изображений и видео, — так называемые мультимодальные большие языковые модели (MLLM) — находят все более широкое применение в различных областях, таких как спортивная аналитика и автономное вождение. Но иногда эти модели не справляются с, казалось бы, самыми простыми задачами, в том числе с точным определением времени по аналоговым часам. В связи с этим возникает вопрос: с какими именно факторами анализа изображений сталкиваются эти модели?

Например, когда дело доходит до считывания показаний традиционных часов, испытывают ли модели трудности с различением короткой и длинной стрелок? Или с определением точного угла и направления стрелок относительно цифр? Ответы на эти, казалось бы, тривиальные вопросы могут дать важное представление об основных ограничениях этих моделей.

Хавьер Конде, доцент Мадридского политехнического университета, и его коллеги из Миланского политехнического университета и Университета Вальядолида попытались исследовать эти ограничения в недавнем исследовании. Результаты, опубликованные 16 октября в IEEE Internet Computing, свидетельствуют о том, что если MLLM не справляется с одним из аспектов анализа изображений, это может вызвать каскадный эффект, который повлияет на другие аспекты анализа изображений.

 

Насколько хорошо искусственный интеллект может Определять время?

Во-первых, исследовательская группа собрала большой набор данных из синтетических изображений аналоговых часов, которые в совокупности отображали более 43 000 показанных периодов времени, и протестировала способность четырех различных MLLM считывать время по подмножеству изображений. Все четыре модели изначально не могли точно определять время. Исследователи смогли повысить производительность моделей, обучив их на дополнительных 5000 изображениях из набора данных и снова протестировав модели, используя дополнительные изображения, которых они раньше не видели. Однако при тестировании на совершенно новой коллекции изображений часов производительность моделей снова снизилась.

Читать  Трансформация ИИ терпит неудачу не из-за технологий. Она терпит неудачу из-за того, что структура управления не поспевает за ней.

Результаты указывают на ключевое ограничение многих моделей ИИ: они хорошо распознают знакомые им данные, но часто не справляются с новыми сценариями, с которыми не сталкивались в процессе обучения. Другими словами, им часто не хватает обобщения.

Конде и его коллеги хотели глубже изучить, почему языковым моделям так сложно определять время. Если проблема связана с чувствительностью модели к пространственному расположению стрелок часов, то дальнейшее совершенствование может устранить это ограничение — просто предоставьте модели больше данных, и она будет лучше справляться с поставленной задачей.

В ходе серии экспериментов они создали новые наборы данных с аналоговыми часами, либо с искажёнными формами, либо с изменённым внешним видом стрелок, например, с добавлением стрелок на концах. «Хотя такие вариации не представляют сложности для людей, модели часто не справляются с этой задачей», — объясняет Конде, ссылаясь на знаменитую картину Сальвадора Дали с искажёнными часами, «Постоянство памяти». В то время как люди могут определить время на деформированных, плавящихся часах, MLLM с трудом определяют время на таких же деформированных часах.

Результаты показывают, что MLLM с трудом определяют пространственную ориентацию стрелок часов, но ещё больше затрудняются, когда стрелки имеют уникальный внешний вид (например, стрелки со стрелками на концах), с которым модель не сталкивалась в большом количестве. Однако эти проблемы не исключают друг друга: в ходе дополнительных экспериментов исследователи обнаружили, что если MLLM допускали ошибку в распознавании стрелок часов, это, в свою очередь, приводило к большим ошибкам в определении пространственного положения.

«Похоже, что определение времени — не такая простая задача, как может показаться, поскольку модель должна распознавать стрелки часов, определять их положение и на основе этих наблюдений определять точное время», — объясняет Конде, отмечая, что моделям сложно обрабатывать эти изменения одновременно.

Читать  Workday покупает Healthy, специалист по созданию ИИ-агентов и интеллектуальному обучению

В своём исследовании учёные подчеркнули, что в более сложных сценариях из реальной жизни, таких как анализ медицинских изображений или распознавание объектов при автономном вождении, эти едва заметные, но важные сбои могут привести к более серьёзным последствиям.

«Эти результаты показывают, что мы не можем полагаться на эффективность моделей», — говорит Конде, подчёркивая, что для обеспечения устойчивости моделей к различным сценариям, с которыми они могут столкнуться в реальных приложениях, необходимо проводить обширное обучение и тестирование с использованием разнообразных входных данных.

Многие ожидают, что ИИ продолжит совершенствоваться, и это, в свою очередь, поднимает вопрос: смогут ли модели ИИ в конечном счёте точно считывать показания традиционных аналоговых часов? Время покажет.

Редактор: admin

Рейтинг: 5 (1 голос)
Если статья понравилась, то поделитесь ей в социальных сетях:

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

14 − один =

Это может быть вам интересно


Загрузка...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Прокрутить страницу до начала